大数据的萌芽阶段- 2006年之前

  2006年之前,从电商领域对数据的使用开始,充其量是零售业的报表,2006年还不能算是大数据。计算能力限于当时的服务器,小型机是当时做数据分析的主流产品。2006年之前,BI系统在电商网站中承担的职责主要集中在零售业的经典数据报表&数据分析。

  2006年发生的故事

  最开始做当当网的搜索功能,通过搜索和分类再找,还没有推荐的概念。后来在亚马逊看到了推荐功能,看到产品的惊喜。在好奇心的趋势之下,决定自己做推荐系统。找一个商品,这个商品被那个顾客买了,然后找出相关的商品。

  2006年之前,从电商领域对数据的使用开始,充其量是零售业的报表,2006年还不能算是大数据。计算能力限于当时的服务器,小型机是当时做数据分析的主流产品。2006年之前,BI系统在电商网站中承担的职责主要集中在零售业的经典数据报表&数据分析。

  2006年发生的故事

  最开始做当当网的搜索功能,通过搜索和分类再找,还没有推荐的概念。后来在亚马逊看到了推荐功能,看到产品的惊喜。在好奇心的趋势之下,决定自己做推荐系统。找一个商品,这个商品被那个顾客买了,然后找出相关的商品。

  当当网大数据的探索之旅

当当网的数据库的架构 当当网商家数据平台_大数据


▲最开始的硬件配置

  解决方案

  1、多步骤处理:内存有限,不得不分批分块计算。

  2、只计算3-6个月:一方面降低计算量,另一方面数据较新,让用户最新的群体行为有机会影响推荐效果基本信息。

  3、剪枝:去除脏数据噪声、低频低销量冷门商品、高频畅销商品。

  4、稀疏矩阵的高压缩比的存储与支持高效查询仍然是问题?

  大数据的萌芽阶段- 2007年当当网推荐系统1.0上线

  开创国内B2C电商领域之先河,第一个大数据技术的应用:当当网推荐系统1.0在2007年上线。推荐系统的价值:帮用户发现有价值的商品、长尾商品的销售、技术的同学们扬眉吐气。

  启示:数据产生价值!

  萌芽阶段小结

  【电商各种大数据应用中,不断增加的数据维度】:从商品、订单、到用户。

  【解决大数据应用中,应用的技术不断跨界】:推荐系统1.0:从数据库技术 – 搜索引擎倒排索引技术 – 协同过滤。

  广告系统:搜索引擎倒排索引技术 – 自然语言处理。

  【解决大数据应用中,新工具层出不穷】:C++ & 脚本。

  开源技术与分享精神,推动了电商乃至互联网大数据技术的高速发展

  2009年,淘宝开始使用Hadoop,去IEO,引领了开源技术的发展。随着之后淘宝一系列数据产品,如数据魔方、量子恒道等,无论技术专业领域,还是淘宝生态圈中的数据使用方,好评声音一片。

  当当网流量分析系统的演变过程

当当网的数据库的架构 当当网商家数据平台_大数据_02


▲2009年遇到瓶颈

当当网的数据库的架构 当当网商家数据平台_数据_03


2010年-2011年 – Hadoop从探索到全面推广

当当网的数据库的架构 当当网商家数据平台_数据_04

  2009年-2010年,流量、商品、用户数据分别有各自的报表;2011年,当当使用hadoop处理流量数据、商品数据、用户数据的全面打通:运营能力,大幅提升;精细化运营的核心能力之一;有了一个更大的Hadoop集群。

  启示:向大数据工具要价值!

  系统演变过程小结

  【电商各种大数据应用中,不断增加的数据维度】:从商品、订单、到用户、到店铺、流量、精准到线上每一个位置的每一次曝光。

  【解决大数据应用中,应用的技术不断跨界】:流量分析:非实时大数据分布式存储/计算能力 + 实时大数据分布式存储/计算能力 + 数据库技术。

  【解决大数据应用中,新工具层出不穷】:Hadoop1.0 + HIVE/PIG、Redis & MongoDB & Storm。

  2012年至今大数据应用可谓是百花齐放

  【电商各种大数据应用中,不断增加的数据维度】:从商品、订单、到用户、到流量、精准到线上每一个曝光、再到评论、供应链上下游、店铺等等。

  评论挖掘是2012-2013年的热点之一:见Tmall.com、JD.com的应用。

  【解决大数据应用中,应用的技术不断跨界】

  比如:搜索、推荐、广告之间越来越多的核心技术相互复用,相互促进。广告系统深度应用自然语言处理技术,越看越像搜索系统。推荐系统大量使用机器学习+CTR预估,越看越像广告系统。

当当网的数据库的架构 当当网商家数据平台_大数据_05


▲相关评论度

  推荐系统2.0:从数据库技术 – 搜索引擎倒排索引技术 – 协同过滤 – 自然语言处理 – 机器学习 – CTR预估 – 大数据分布式存储/计算能力。

当当网的数据库的架构 当当网商家数据平台_大数据_06

当当网的数据库的架构 当当网商家数据平台_当当网的数据库的架构_07