背景: 云计算+大数据时代
政策: 突破大数据挖掘技术

一.什么是大数据

大数据: 人机交互的互联式计算系统(人生产资源,消耗资源,成为资源)

1.政界定义

推动信息计算能力实现:

  • 按需供给
  • 信息技术和数据资源充分利用

2.学界定义

  • 基于互联网的相关的服务增加 使用和交互的模式
  • 虚拟化的资源服务

3.大数据具体特征

  • 稠密与稀疏共存: 局部稠密与全局稀疏
  • 冗余与缺失并存: 大量冗余与局部缺失
  • 显式与隐式均有: 大量显式与丰富隐式
  • 静态与动态互视: 动态演进与静态关联
  • 多元与异质共处: 多元多变与异质异性
  • 量大与可用矛盾:量大低值与可用稀少

二.大数据智能分析处理的挑战

1.系统平台的挑战

  • (1) 大数据系统处理与硬件协调
  • (2) 大数据集成
  • (3) 大数据隐私
  • (4) 大数据能耗
  • (5) 大数据管理

2.分析处理方面

  • (1) 大数据质量
  • (2) 大数据实时性
  • (3) 大数据采集
  • (4) 大数据不一致性
  • (5) 大数据超高维性
  • (6) 大数据不确定性

三.数据挖掘概述

1.数据挖掘基本流程

  • 数据清洗: 消除噪声,删除不一致数据
  • 数据集成: 多种数据集成,形成数据集市
  • 数据选择: 从数据库中提取与分析相关的数据
  • 数据变化: 通过汇总或聚焦,统一数据
  • 数据挖掘: 智能方法提取数据
  • 模式评估: 以兴趣为度量,识别代表知识的模式
  • 知识表示: 可视化显示数据

2.数据挖掘功能

数据描述: 对某类对象的内涵进行概括,描述。

  • (1)聚类: 根据最大化类内相似性,最小化类内相似性,对数据进行子集划分。
  • (2)分类: 在知道训练元组分类情况下的 “监督” 学习
  • (3)关联分类: 多个变量之间的规律
  • (4)数据总结: 对数据进行浓缩,给出紧凑描述
  • (5)偏差预测: 寻找观察结果与参照值之间有意义的差别,并描述和解释差别原因
  • (6)预测: 对样本数据的关联性学习得到预测模型,从而进行未来的预测

3.数据挖掘运用的技术

4.大数据挖掘or传统数据挖掘

  • (1)大数据挖掘降低了对传统数据挖掘模型和算法的依赖
  • (2)大数据挖掘降低了因果关系对结果精度的影响
  • (3)大数据挖掘最大程度分析用户行为数据

四.大数据挖掘计算框架

大数据分析技术算法题 大数据计算分析_大数据

1.关键大数据框架

Hadoop架构

提供功能

Hadoop Common Package

系统交互及支撑

Hadoop Distributed File System

分布式文件管理系统

Hadoop YARN

任务调度和集群资源管理

MapReduce Engine

分布式计算

Hive

数据仓库工具将Mysql转换为MapReduce任务

HBase

分布式数据库,列数据库

Mahout

机械学习+和数据挖掘库

Spark

MapReduce 加钱升级版(基于内存,所以快和贵)

2.大数据挖掘处理基本流程

  • (1)数据采集:接受客户端数据
  • (2)数据存储:分布式存储数据
  • (3)ETL:用Sqoop,DataX处理数据
  • (4)数据计算:用MapReduc,Spark,Impala计算数据
  • (5)数据分析与挖掘:用Mahout,Mllib进行机器学习
  • (6)数据可视化:用D3,js,ECharts进行可视化