背景: 云计算+大数据时代
政策: 突破大数据挖掘技术
一.什么是大数据
大数据: 人机交互的互联式计算系统(人生产资源,消耗资源,成为资源)
1.政界定义
推动信息计算能力实现:
- 按需供给
- 信息技术和数据资源充分利用
2.学界定义
- 基于互联网的相关的服务增加 使用和交互的模式
- 虚拟化的资源服务
3.大数据具体特征
- 稠密与稀疏共存: 局部稠密与全局稀疏
- 冗余与缺失并存: 大量冗余与局部缺失
- 显式与隐式均有: 大量显式与丰富隐式
- 静态与动态互视: 动态演进与静态关联
- 多元与异质共处: 多元多变与异质异性
- 量大与可用矛盾:量大低值与可用稀少
二.大数据智能分析处理的挑战
1.系统平台的挑战
- (1) 大数据系统处理与硬件协调
- (2) 大数据集成
- (3) 大数据隐私
- (4) 大数据能耗
- (5) 大数据管理
2.分析处理方面
- (1) 大数据质量
- (2) 大数据实时性
- (3) 大数据采集
- (4) 大数据不一致性
- (5) 大数据超高维性
- (6) 大数据不确定性
三.数据挖掘概述
1.数据挖掘基本流程
- 数据清洗: 消除噪声,删除不一致数据
- 数据集成: 多种数据集成,形成数据集市
- 数据选择: 从数据库中提取与分析相关的数据
- 数据变化: 通过汇总或聚焦,统一数据
- 数据挖掘: 智能方法提取数据
- 模式评估: 以兴趣为度量,识别代表知识的模式
- 知识表示: 可视化显示数据
2.数据挖掘功能
数据描述: 对某类对象的内涵进行概括,描述。
- (1)聚类: 根据最大化类内相似性,最小化类内相似性,对数据进行子集划分。
- (2)分类: 在知道训练元组分类情况下的 “监督” 学习
- (3)关联分类: 多个变量之间的规律
- (4)数据总结: 对数据进行浓缩,给出紧凑描述
- (5)偏差预测: 寻找观察结果与参照值之间有意义的差别,并描述和解释差别原因
- (6)预测: 对样本数据的关联性学习得到预测模型,从而进行未来的预测
3.数据挖掘运用的技术
4.大数据挖掘or传统数据挖掘
- (1)大数据挖掘降低了对传统数据挖掘模型和算法的依赖
- (2)大数据挖掘降低了因果关系对结果精度的影响
- (3)大数据挖掘最大程度分析用户行为数据
四.大数据挖掘计算框架
1.关键大数据框架
Hadoop架构 | 提供功能 |
Hadoop Common Package | 系统交互及支撑 |
Hadoop Distributed File System | 分布式文件管理系统 |
Hadoop YARN | 任务调度和集群资源管理 |
MapReduce Engine | 分布式计算 |
Hive | 数据仓库工具将Mysql转换为MapReduce任务 |
HBase | 分布式数据库,列数据库 |
Mahout | 机械学习+和数据挖掘库 |
Spark | MapReduce 加钱升级版(基于内存,所以快和贵) |
2.大数据挖掘处理基本流程
- (1)数据采集:接受客户端数据
- (2)数据存储:分布式存储数据
- (3)ETL:用Sqoop,DataX处理数据
- (4)数据计算:用MapReduc,Spark,Impala计算数据
- (5)数据分析与挖掘:用Mahout,Mllib进行机器学习
- (6)数据可视化:用D3,js,ECharts进行可视化