JohnTian 发表于 2013/08/24-18:12 大数据 /石勇

编者按：本文来自石勇，他是中国科学院虚拟经济与数据科学研究中心常务副主任、中国科学院大学管理学院副院长；中国科学院“百人计划”获得者；第一位也是截至目前唯一一位获得多目标决策领域国际最高学术奖项“康托学术奖”的大陆学者。

当今，大数据的到来，已经成为现实生活中无法逃避的挑战。每当我们要做出决策的时候，大数据就无处不在。大数据术语广泛地出现也使得人们渐渐明白了它的重要性。大数据渐渐向人们展现了它为学术、工业和政府带来的巨大机遇。与此同时，大数据也向参与的各方提出了巨大的挑战，首先是三个重要的技术问题：

一、如何利用信息技术等手段处理非结构化和半结构化数据

大数据中，结构化数据只占 15% 左右，其余的 85% 都是非结构化的数据，它们大量存在于社交网络、互联网和电子商务等领域。另一方面，也许有 90% 的数据来自开源数据，其余的被存储在数据库中。大数据的不确定性表现在高维、多变和强随机性等方面。股票交易数据流是不确定性大数据的一个典型例子。

大数据刺激了大量研究问题。非结构化和半结构化数据的个体表现、一般性特征和基本原理尚不清晰，这些都需要通过包括数学、经济学、社会学、计算机科学和管理科学在内的多学科交叉来研究和讨论。给定一种半结构化或非结构化数据，比如图像，如何把它转化成多维数据表、面向对象的数据模型或者直接基于图像的数据模型？值得注意的是，大数据每一种表示形式都仅呈现数据本身的侧面表现，并非全貌。

如果把通过数据挖掘提取“粗糙知识”的过程称为“一次挖掘”过程，那么将粗糙知识与被量化后主观知识，包括具体的经验、常识、本能、情境知识和用户偏好，相结合而产生“智能知识”过程就叫做“二次挖掘”。从“一次挖掘”到“二次挖掘”类似事物“量”到“质”的飞跃。

由于大数据所具有的半结构化和非结构化特点，基于大数据的数据挖掘所产生的结构化的“粗糙知识”（潜在模式）也伴有一些新的特征。这些结构化的粗糙知识可以被主观知识加工处理并转化，生成半结构化和非结构化的智能知识。寻求“智能知识”反映了大数据研究的核心价值。

二、如何探索大数据复杂性、不确定性特征描述的刻画方法及大数据的系统建模

这一问题的突破是实现大数据知识发现的前提和关键。从长远角度来看，依照大数据的个体复杂性和随机性所带来的挑战将促使大数据数学结构的形成，从而导致大数据统一理论的完备。从短期而言，学术界鼓励发展一种一般性的结构化数据和半结构化、非结构化数据之间的转化原则，以支持大数据的交叉工业应用。管理科学，尤其是基于最优化的理论将在发展大数据知识发现的一般性方法和规律性中发挥重要的作用。

大数据的复杂形式导致许多对“粗糙知识”的度量和评估相关的研究问题。已知的最优化、数据包络分析、期望理论、管理科学中的效用理论可以被应用到研究如何将主观知识融合到数据挖掘产生的粗糙知识的“二次挖掘”过程中。这里人机交互将起到至关重要的作用。

三、数据异构性与决策异构性的关系对大数据知识发现与管理决策的影响

由于大数据本身的复杂性，这一问题无疑是一个重要的科研课题，对传统的数据挖掘理论和技术提出了新的挑战。在大数据环境下，管理决策面临着两个“异构性”问题：“数据异构性”和“决策异构性”。传统的管理决定模式取决于对业务知识的学习和日益积累的实践经验，而管理决策又是以数据分析为基础的。

大数据已经改变了传统的管理决策结构的模式。研究大数据对管理决策结构的影响会成为一个公开的科研问题。除此之外，决策结构的变化要求人们去探讨如何为支持更高层次的决策而去做“二次挖掘”。无论大数据带来了哪种数据异构性，大数据中的“粗糙知识”仍可被看作“一次挖掘”的范畴。通过寻找“二次挖掘”产生的“智能知识”来作为数据异构性和决策异构性之间的桥梁是十分必要的。探索大数据环境下决策结构是如何被改变的，相当于研究如何将决策者的主观知识参与到决策的过程中。

大数据是一种具有隐藏法则的人造自然，寻找大数据的科学模式将带来对研究大数据之美的一般性方法的探究，尽管这样的探索十分困难，但是如果我们找到了将非结构化、半结构化数据转化成结构化数据的方法，已知的数据挖掘方法将成为大数据挖掘的工具。

以上是我对大数据的三个重要技术问题进行研究的一些心得，也仅仅是一个研究大数据挑战的起点。除此之外，还有一些数据科学的问题，包括在获得数据和从数据中产生规则方面可能存在的公理体系，基于数据库的知识发现规则与基于开放数据源的知识发现规则以及大数据挖掘的整体和（或）局部解的存在性问题等等。在不久的将来，我相信这些问题都需要去仔细研究，以获得突破性科研与应用成果。

扫描下面二维码关注微信公众账号“大数据学院”，另36氪正联合中科院虚拟经济与数据科学研究中心开展大数据系列培训，第一期主题为关注大数据在互联网中的应用，感兴趣的朋友可以点击这里了解详情。

大数据系列文章第2篇——大数据之“用户行为分析”

马超发表于 2013/09/04-12:41 SAP /大数据

编者按：本文由卢东明为36氪撰写，是大数据系列文章的第 2 篇。卢东明是 SAP 公司全球数据库解决方案亚太区技术总监；拥有长达 20 年数据库、数据仓库开发管理经验。

这几年，几家电商的价格战打得不亦乐乎，继去年的“双 11 大促”和“6·18 狂欢节”之后，电商之间以价格为主要诉求的大规模促销层出不穷，几乎要把所有能够用来造势的节日都用上了。而消费者们作为这场游戏中的弱者，不断地被这些真假价格战挑逗着和引导着。然而，在当今的商场上，还有另外一类企业不是通过简单粗暴的价格战，而是通过对数据的充分使用和挖掘而在商战中获胜的。

最典型的当属全球电子商务的创始者亚马逊（Amazon.com）了，从 1995 年首创网上售书开始，亚马逊以迅雷不及掩耳之势，彻底颠覆了从图书行业开始的很多行业的市场规则及竞争关系，10 年之内把很多像 Borders 以及 Barnes and Noble 这样的百年老店被逼到破产或濒临破产。亚马逊在利润并不丰厚的图书行业竞争中取胜的根本原因在于对数据的战略性认识和使用，在大家还都不太明白什么是电子商务时，亚马逊已经通过传统门店无法比拟的互联网手段，空前地获取了极其丰富的用户行为信息，并且进行深度分析与挖掘。

何为“用户行为信息”（User Behavior Information）呢？简单地说，就是用户在网站上发生的所有行为，如搜索、浏览、打分、点评、加入购物筐、取出购物筐、加入期待列表（Wish List）、购买、使用减价券和退货等；甚至包括在第三方网站上的相关行为，如比价、看相关评测、参与讨论、社交媒体上的交流、与好友互动等。

和门店通常能收集到的购买、退货、折扣、返券等和最终交易相关的信息相比，电子商务的突出特点就是可以收集到大量客户在购买前的行为信息，而不是像门店收集到的是交易信息。

在电商领域中，用户行为信息量之大令人难以想象，据专注于电商行业用户行为分析的公司的不完全统计，一个用户在选择一个产品之前，平均要浏览 5 个网站、36 个页面，在社会化媒体和搜索引擎上的交互行为也多达数十次。如果把所有可以采集的数据整合并进行衍生，一个用户的购买可能会受数千个行为维度的影响。对于一个一天 PU 近百万的中型电商上，这代表着一天近 1TB 的活跃数据。而放到整个中国电商的角度来看，更意味着每天高达数千 TB 的活跃数据。

正是这些购买前的行为信息，可以深度地反映出潜在客户的购买心理和购买意向。例如，客户 A 连续浏览了 5 款电视机，其中 4 款来自国内品牌 S，1 款来自国外品牌 T；4 款为 LED 技术，1 款为 LCD 技术；5 款的价格分别为 4599 元、5199 元、5499 元、5999 元、7999 元；这些行为某种程度上反映了客户 A 对品牌认可度及倾向性，如偏向国产品牌、中等价位的 LED 电视。而客户 B 连续浏览了 6 款电视机，其中 2 款是国外品牌 T，2 款是另一国外品牌 V，2 款是国产品牌 S；4 款为 LED 技术，2 款为 LCD 技术；6 款的价格分别为 5999 元、7999 元、8300 元、9200 元、9999 元、11050 元；类似地，这些行为某种程度上反映了客户 B 对品牌认可度及倾向性，如偏向进口品牌、高价位的 LED 电视等。

亚马逊通过对这些行为信息的分析和理解，制定对客户的贴心服务及个性化推荐。例如：当客户浏览了多款电视机而没有做购买的行为时，在一定的周期内，把适合客户的品牌、价位和类型的另一款电视机促销的信息通过电子邮件主动发送给客户；再例如，当客户再一次回到网站，对电冰箱进行浏览行为时，可以在网页上给客户 A 推荐国产中等价位的冰箱，而对客户 B 推荐进口高档价位的商品。

这样的个性化推荐服务往往会起到非常好的效果，不仅可以提高客户购买的意愿，缩短购买的路径和时间，通常还可以在比较恰当的时机捕获客户的最佳购买冲动，也降低了传统的营销方式对客户的无端骚扰，还能提高用户体验，是一个一举多得的好手段。

纵观国内外成功的电商企业，对用户行为信息的分析和使用，无不在这个兵家必争之地做大量投入。他们对数据战略性的高度认识和使用，非常值得国内的电商学习和借鉴。

团购的尴尬

相信很多人和我一样，每天电子信箱中都充满了这样的邮件，但是从来没有打开过。

很多团购公司都会虔诚地每天发给订户各种各样的促销信息，坦率地说其中很多都的确非常优惠，非常吸引人，但是这些团购公司忽略了一点——用户体验。

我们看看其中的一两个团购邮件，来分析里面的问题：

1，美食的推荐不分地域：一封邮件中，从五道口到王府井，从苏州桥到簋街，可能有人会因为一个 3 折或者更低的团购感兴趣，但是真的会从东五环开车去西四环吗？

2，娱乐的推荐也有类似的问题，丝毫没有考虑用户的地理位置，价格等因素

3，更有甚者，不分收信人的性别，有没有考虑可能带来的尴尬。

其实，所有这一切现象都表明现在的团购网站在 EDM 的思路上，基本上还是粗旷式的，把所有客户当作一人，彻底把电商的优势放弃了，回到了传统零售门店和邮寄销售模式的阶段去了。不仅如此，其实在电商的环境中这样的 EDM 有时候比没有还糟糕，因为它们恰恰带给这些可能成为他们客户的人们一个非常负面的用户体验，用长期不相关的占用大量篇幅的邮件占领用户的邮箱，长此以往，他们离“讨人嫌”只一步之遥了……，而对他们的惩罚可能是既简单而又残酷的，鼠标轻轻一点，他们的邮箱地址送到垃圾邮箱，从而再也无法给这个潜在的客户推送促销信息。

如果看看你的用户们的垃圾邮箱，当你看到你辛辛苦苦设计的促销直邮，规律地，全部地，在垃圾邮箱中按时报到的话，你做何感想？据专业人士分析，对一个 500 万会员的电商来说，每次 0.5% 的退订或者放进垃圾邮箱，意味着近 100 万元的营销费用打了水漂。

那么，团购网站应当如何做呢？个性化是最基本也是很有效的方法：

1，对客户进行多维度地分析：以用户的地域、性别、年龄等人文属性建立分析维度，把所有的团购信息进行筛选，这样可以简单地把 EDM 的相关性大幅提高，起码用户收到的邮件是基本在住宅、工作场所附近，和自己的普通属性相关的，可能有一些兴趣的商品。

2，对客户过去是否有点击，是否有购买，购买的产品价值，购买的频率，最近一次什么时候购买等属性进行量化，产生客户价值的评分，把客户分出价值的高低，对推荐的接受难易程度作出评估，依据这些评分来决定多频繁对该客户进行 EDM 操作，以及推荐的商品的细类，以提高反馈率。

3，对购买过商品客户的购买记录，以及点击过的商品记录进行分析，对团购的折扣比例，商品原价，折扣金额，团购时间长短，能否退款，是否单人使用，口味（餐饮类），风格等等分别打分、统计、归类，以对客户的可能兴趣点进行“预测”，这是一个相对高级、相对复杂的过程，但是运用得好的话会收到非常良好的效果。

4，考虑在所有推荐的商品旁边增加一个“不喜欢”的按钮，收集客户不喜欢的东西对个性化推荐来说具有几乎和喜欢的商品一样重要的价值，假设一个客户告诉你他不喜欢一款 49 元的西餐厅的双人午餐，可能比他点击甚至购买另外一个 99 元日餐双人套餐给你透露的信息还要多。

比如我观察到的一个比较成功的案例：一个旅游网站对客户之前的浏览、搜索行为进行了跟踪，并以此进行了有效的推荐，注意：该推荐中体现了客户的目的地、价位、旅游诉求等多方面的需求。按照这些方法，业界专门从事 EDM 优化的公司可以把 EDM 的点击率从传统意义上的 1% 左右提高到近 10% 的点击率，5000 封 EDM 产生 370 个人，510 个点击，最终共产生 800 个订单。

因此无论从什么角度来说，电子商务和团购都还有大量的优化空间，我相信以大数据为核心的个性化营销则是帮助电商在这场红海大战中赢得战役的利剑。

关注大数据的朋友，欢迎投稿至 tips#36kr.com

转载请注明：jinglingshu的博客 » 大数据三个重要的技术问题与大数据之“用户行为分析”

大数据三个重要的技术问题与大数据之“用户行为分析”

大数据系列文章第2篇——大数据之“用户行为分析”

与本文相关的文章

Hi，您需要填写昵称和邮箱！