
数据生产--传输到日志平台--数据存储--数据计算--数据应用


flume 日志服务 消息中间件 kafka 流式处理 flink和spark streaming 批处理 spark 储存 hdfs和hadoop
B为list的父类




scala是sparrk的 前身
mapreduce启动的是进程,spark启动的是线程
sparrk属于微批次处理 flink属于真正的流计算
MapReduce慢,慢在磁盘存储 还有shuffle优化
在java里面调用一些shell脚本 会缩短连接时间
linux执行的时候,kernel套着shell,shell上层是jvm,jvm上层是java程序
调shell的时候 损失的是kernel调shell 以及jvm调kernel api的过程
直接调c语言(原生) 要损失的是compile和link的过程
















