一、大数据计算组件
Spark
Flink
Hive
DataSphere
二、分布式存储
HDFS
Hbase
Doris
三、资源调度
Yarn
Dolphin
四、数据仓库常用工具
Pig
Hive
kylin
Spark SQL
Impala
Phoenix
ElasticSearch
Logstash
Datax
五、消息队列
Kafka
RocketMQ
ZeroMQ
ActiveMQ
RabbitMQ
六、流式计算
Spark Streaming(准实时)
Flink(实时)
七、日志收集
Scribe
Flume
八、编程语言
Java
Python
Scala
九、数据分析挖掘
MATLAB
SPSS
SAS
十、数据可视化
R
D3.js
ECharts
Excle
Python
十一、机器学习
机器学习基础
聚类
时间序列
推荐系统
回归分析
文本挖掘
决策树
支持向量机
贝叶斯分类
神经网络
机器学习工具
Mahout
Spark Mlib
TensorFlow
Amazon Machine Learning
DMTK
十二、算法
一致性
paxos
raft
gossip
数据结构
栈,队列,链表
散列表
二叉树
图
十三、常用算法
1.排序
插入排序
桶排序
堆排序
快速排序
最大子数组
最长公共子序列
最小生成树
最短路径
矩阵的存储和运算
十四、云计算服务模式
SaaS
PaaS
IaaS
Openstack
Docker