一、数据收集

1、设备数据收集
2、web数据爬取
3、常用数据收集软件:Splunk、Sqoop、Flume、Logs他说、Kettle
4、常用网络爬虫:Heritrix、Nutch

二、数据预处理

1、数据清理技术:
不一致性检测技术、脏数据识别、数据过滤、数据修正、数据噪声的识别与平滑技术
2、数据集成技术:将多个数据源的数据进行集成,缩短数据之间的物理距离,形成一个集中统一的数据看、数据立方体、数据宽表与文件
3、数据规约技术:在不损害挖掘结果准确性前提下,降低数据集的规模。维规约技术、数值规约技术、数据抽样技术

三、数据存储

1、分布式文件系统

由多个网络节点组成的向上层应用提供统一文件服务的文件系统。分布式文件系统中的每个节点可以分布在不同地点,通过网络进行节点间的通信和数据传输。
分布式文件系统中的文件在物理上可能被分散存储在不同的节点上,在逻辑上仍然是一个完整的文件。使用分布式文件系统时,无需关注数据存储在哪个节点上。
分布式系统在大数据领域时最基础的、最核心的功能组件之一。常用的分布式磁盘文件系统有:HDFS、GFS、KFS等。常用的分布式文件系统有Tachyon等

2、文档存储

文档存储支持对结构化数据的访问。关系模型不同的是文档存储没有强制的架构。与关系模型不同的是,文档存储模型支持嵌套结构。如文档存储模型支持XML和JSON文芳,字段的值又可以嵌套存储其他文档。文档存储模型也支持数组和列值键。
主流文档数据库有MongoDB、CouchDB、Terrastore、RavenDB等

3、列式存储

列式存储将数据按行排序,按列存储,将相同字段的数据作为一个列来聚合存储。当知查询少数列数据时,列式数据看可以减少读取数据量,提高数据处理效率。
使用列式存储的数据库产品有传统的数据库仓库产品,如Sybase IQ、InfiniDB、Vertica等;也有开源的数据库产品,如Hadoop Hbase、Infobright等

4、键值存储

Key- Value存储,式Nosql存储的一种方式。非常适合不涉及过多数据关系和业务关系。主流产品:Redis、ApacheCassandra、Google Bigtable等

5、图形数据库

图形数据库主要存储事物及事物之间的关系,呈现复杂的网络关系,这些关系可以简单的成为图形数据。传统的关系数据库技术无法很好的满足超大量图形数据的存储、查询等需求,而图形数据库可以采用不同的技术很好的解决图形数据的查询、遍历、求最短路径等需求。主流图形数据库有Google Pregel、Neo4j、Infinite Graph、DEX、InfoGrid、AllegroGraph、GraphDB、HyperGraphDB等

6、关系数据库

最传统的数据存储模型,使用记录(元组构成)按行进行存储在表中。表中的每个列都有名称和类型,表中的所有记录都要符合表的定义。SQL是专门的查询语言,提供相应的语法查询符合条件的记录,如表链接Join。传统的关系型数据库如分布式集群,列式存储,支持XML、JSON等数据的存储。

7、内存存储

内存存储是指内存数据库MMDB将数据库的工作版本放到内存中,由于数据库的操作都在内存中进行,从而磁盘IO不再是瓶颈,内存数据库系统的设计目标是提高数据库的效率和存储空间的利用率。内存存储的核心是内存存储管理模块,其管理策略的优劣直接关系到内存数据库系统的性能。基于内存存储的内存数据库产品有Oracle TimeTen、Altibase、eXtremeDB、Redis、RaptorDB、MemCached等

四、数据处理

1、MapReduce分布式计算框架

一个高性能的批处理分布式计算框架,用于对海量数据进行并行分析和处理。适合处理各种类型的数据,包括结构化、半结构化、非结构数据,可以处理数据量为TB和PB级别的超大规模数据。
MapReduce将计算任务氛围大量并行的Map和Reduce两类任务,并将Map任务部署在分布式集群中的不同计算机节点上并发运行,然后Reduce任务对所有Map任务的执行结果进行汇总,得到最后的分析结果。
最流行的MapReduce分布式计算框架由Hadoop实现的MapReduce,基于HDFS和Hbase等存储技术确保数据存储的有效性,计算任务会被安排在离数据最近的节点上运行,减少数据在网络中的传输开销。

2、Spark分布式内存技术

分布式可以有效的减少数据读写和移动的开销,极大地提高数据处理的性能。支持基于内存的数据计算,兼容多种分布式计算框架的通用计算平台是大数据领域所必须的重要关键技术。Spark使用DAG,迭代计算和内存的方式可以对Hadoop MapReduce提高1~2个数量级。

3、分布式流计算系统

数据的实时处理是一个很有挑战性的工作,数据流本身具有持续达到、熟读快切规模巨大等特点,所以需要分布式的流计算技术对数据进行实时处理。数据流的理论及技术仍是研究热点。当前广泛应用的很多系统均为支持分布式。并行处理的流计算系统,比较代表性的商用软件包括IBM StreamBase和InfoSphere Streams,开源系统包括Twitter Storm,Yahoo S4、Spark Streaming等。

五、数据分析

1、聚类

2、分类

决策树、贝叶斯、K近邻、支持向量机、逻辑回归、随即森林

3、关联分析

发现存在于大量数据集中的关联性,从而描述一个事务中某些属性同时出现的规律和模式。
一个例子:购物篮分析。通过发现顾客放入其购物篮中的不同商品之间的关系,分析顾客的购买习惯。通过了解哪些商品频繁的被顾客购买,这种关联的发现可以帮助零售商制定营销策略。
算法主要分为广度优先算法、深度优先算法。应用最广的广度优先算法有Apriori、ApriorTid、AprioriHybrid、Partition、Sampling、DIC。主要的深度优先算法有FP-growth、Equivalence Class Transformation、H-Mine算法等。

4、深度学习

参考文档:《大数据可视化》刘鹏、张燕=主编