大数据出行项目_java程序

 

 数据生产--传输到日志平台--数据存储--数据计算--数据应用  

大数据出行项目_数据_02

 

 大数据出行项目_java程序_03

 

 flume 日志服务   消息中间件 kafka  流式处理 flink和spark streaming    批处理 spark   储存 hdfs和hadoop

B为list的父类

 大数据出行项目_mapreduce_04

 

大数据出行项目_数据_05

 

 大数据出行项目_mapreduce_06

 

 大数据出行项目_spark_07

 

 

scala是sparrk的 前身

mapreduce启动的是进程,spark启动的是线程

sparrk属于微批次处理   flink属于真正的流计算

MapReduce慢,慢在磁盘存储  还有shuffle优化

在java里面调用一些shell脚本 会缩短连接时间

linux执行的时候,kernel套着shell,shell上层是jvm,jvm上层是java程序

调shell的时候 损失的是kernel调shell   以及jvm调kernel api的过程

 

直接调c语言(原生)   要损失的是compile和link的过程