1.5 全书概览
本书将较为全面地描述大数据分析的模型、技术、实现与应用。其中第2~7章介绍大数据分析模型,包括关联分析模型、分类分析模型、聚类分析模型、结构分析模型和文本分析模型;第8~11章介绍大数据分析相关的技术,包括大数据预处理、特征选择和降维方法、面向大数据的数据仓库和大数据分析算法。第12~14章介绍三种用于实现大数据分析算法的平台,分别是大数据计算平台、流式计算平台和大图计算平台;第15~16章介绍两类大数据分析的具体应用,分别讲述社会网络和推荐系统。
第2章是大数据分析建模的基础,介绍了大数据模型建立方法、支持大数据分析的基本统计量以及推断统计和假设检验方法,为后面的大数据分析奠定理论基础。
第3~5章介绍了多维数据分析模型。
第3章介绍关联分析模型,用于分析变量之间的关联关系。根据变量的类型(离散或者连续)可以用回归或者关联规则来描述关联关系,因而这一章描述了这两方面的模型。
第4章介绍分类分析模型,用于对数据进行分类。根据分类的策略介绍了基于统计的判别分析方法和基于人类学习行为模拟的机器学习方法。
第5章介绍聚类分析模型,与分类分析模型的有监督分析不同的是,聚类模型是无监督分析,在没有训练样例的情况下进行分析。这一章中介绍了聚类分析的定义、类别、评价方法、计算方法概述以及应用。
第6章介绍半结构化数据(即图数据)的分析模型,包括了几类重要的图分析模型,即最短路径、链接排名、结构计数、结构聚类和社团发现。
第7章介绍非结构化数据(即文本)的分析模型,包括了几类常用的文本分析模型,即TF-ID模型、词频统计、PLDA、Word2Vec和分词。
第8章和第9章从两个不同角度介绍为大数据分析进行数据准备的技术。如果把输入的数据看成一张表,第8章介绍从“行”的角度进行数据准备,即进行数据的抽样、过滤、标准化、归一化以及数据的清洗;第9章介绍从“列”的角度进行数据准备,即从大数据中选择恰当的属性进行分析。
第10章介绍面向大数据的数据仓库系统,概述数据仓库技术并介绍多种针对不同场景的数据仓库系统。
第11章介绍大数据分析算法。在概述大数据分析算法的同时,介绍基于MapReduce编程模型的回归算法、关联规则挖掘算法、分类算法和聚类算法,分别和第3~5章中的模型相对应。
第12章介绍5种大数据计算平台,这些计算平台用于计算通用的计算任务,针对大数据Volume特性提出,侧重于面向大数据的高可扩展计算和高效率计算。大数据分析任务可以用这些平台实现。
第13章介绍4种流式计算平台,用于处理流式计算这类大数据分析计算任务,针对大数据Velocity特性提出,侧重处理源源不断更新的大数据。增量大数据分析任务可以用这些平台实现。
第14章介绍5种大图计算平台,用于处理大图计算任务,面向大数据Volume特性在大图上实现高效计算,可用于实现大部分第6章中提出的大图分析模型。
第15章介绍社交网络分析技术,这是目前大数据分析领域的热点应用之一,除了介绍基本概念外,还介绍几种不同角度提出的社交网络分析技术。
第16章介绍推荐系统,这是目前大数据分析创造价值的重要途径,在介绍推荐系统基本概念的同时,介绍不同思路、不同对象的推荐系统,还结合第15章介绍社交网络中的推荐技术。
本书各章节的关系如图1-1所示。
图1-1 本书结构图
数据分析常用工具包括R语言、SPSS等,一些传统数据分析的教材中介绍了这些工具,本书不再赘述。本书将以阿里云——?一种针对“大”数据分析的工具为平台进行介绍,该平台提供了支持大数据分析中数据管理的分析型数据库、支持大数据分析中数据密集型计算的大数据计算服务以及一系列大数据分析所需要的算法,例如特征选择算法、机器学习算法以及大数据可视化功能。
小结
本章概述了大数据和大数据分析的相关知识。首先在1.1节介绍了大数据的定义、应用背景和“4V”特征,让读者对于大数据概念有更为清晰的认识。接下来,1.2节介绍了大数据的应用场景,从中可以看出大数据是无处不在的,并且对于政治、经济、工业生产、科学研究等有着巨大的影响。1.3节介绍了大数据分析的定义和应用,大数据分析使得大数据体现出其特有的价值,也带来了新的思维方式。1.4节讨论了大数据分析中的技术和难点,介绍了大数据分析的过程,包括业务理解、数据理解、数据准备、建模、评估和部署,紧接着介绍了大数据分析涉及的一系列技术,包括数据采集、数据管理、基础架构、数据理解和提取、统计分析、数据挖掘和数据可视化等。最后讨论了大数据分析中的难点,包括可扩展性、可用性、领域知识的结合和结果的检验。
习题
- 在我们身边有哪些大数据?在这些大数据上有哪些分析任务?
- 比较“分析”“机器学习”和“数据挖掘”的异同。
- 比较电子商务和工业生产中大数据分析任务的异同。
- 在线电子商务网站(如淘宝、京东等)可以通过用户行为大数据进行分析以提高其销量,按照大数据分析的过程完成此大数据分析任务,其行为数据的模式可以从网站观察得到。
- 试论述大数据分析对大数据管理提出的新要求。
- 大数据分析对技术提出了何种挑战?根据你的经验论述这些挑战应当如何应对。
- 大数据分析中的“分析”和下面哪句话中的“分析”含义最相近?
(1) “又於帝前聚米为山谷,指画形埶,开示众军所从道径往来,分析曲折,昭然可晓。”(《后汉书·马援传》)