一大数据技术框架
数据变现的过程(把数据转化成价值之后提供给用户)
自底向上: 数据源(互联网,物联网,企业数据)----->用户
大数据技术框架: 1-4 通用架构 5-6专业业务(金融 保险 教育 政府机构)
1数据收集(EL,提取,转换,加载) 数据收集准备
2数据存储(SQL, NOSQL)数据存储
3资源管理 管理cpu 内存
4批处理(讲究高吞吐率,对时间要求不是很严格) 交互式分析(支持SQL,时间要求严格) 流处理(时间处理要求苛刻) 这些是 计算框架
5数据分析 面向具体业务应用的 数据挖掘 OLAP 商务智能BI
6数据展示 数据可视化
spark只是一个分布式计算引擎。spark可以解决数据分析和挖掘的问题。
Spark生态系统
批处理(讲究高吞吐率,对时间要求不是很严格)
迭代式与DAG计算 机器学习算法
交互式分析(支持SQL,时间要求严格),支持类SQL语言 快速进行数据分析
流处理(时间处理要求苛刻5秒以内,几乎都是实时处理和分析)
sparkcore 是scalar写的
基于spark的机器学习库MLlib