突然发现,学习一门新的技术呀,一定要选择一本好的书,一定要找那种提供代码和数据的,真的会事半功倍,否则折腾不死你哦,今天就把《Spark 实时大数据分析》这本书埋葬了,算是我Spark Streaming 入门的第一本书吧,我非常不喜欢作者的写作风格,数据集非常多,好不容易下载了,下一章节又换了新的数据集,你说气不气,对于初学者非常不友好...
一、应用程序各个作业的运行情况如下图(Jobs)
http://192.168.160.147:4041/jobs/
在这个例子里面
- 10秒执行一次
-
print
阶段数:4/4 任务总数4/4 -
saveAsTextFiles
阶段数:1/1 任务总数1/1 - 一个阶段中的任务数=该阶段最后一个RDD中的分区数
- Duration持续时间:显示每个作业所花费的时间
- 打印花费22毫秒,保存花费40毫秒
查看事件时间轴
二、阶段页面(Stages)提供阶段级别详细信息
- 提交时间
- 持续时间
- 数据大小
当数据的时候,进入print的详情页面
当数据的时候,进入save的详情页面
三、存储页面(Storage)提供RDD级别信息
四、环境页面(Environment)显示配置信息
- Java 目录: C:\soft\java\jdk1.8.0_261\jre
- Java 版本:1.8.0_261
- Scala 版本:version 2.11.8
-
spark.app.id
ID: local-1604839217735 -
spark.app.name
名字: ailx10 -
spark.driver.host
主机地址:192.168.160.147
五、执行器页面(Executors)给出应用程序每个执行器的信息
六:流统计页面(Streaming Statistics)帮助开发者协同IO速率
- Input Rate 输入速率(第一排图)
- Processing Time 处理时间(第三排图)
- 总延时平均大约是 4 秒,小于批处理间隔(标志Spark状态健康)
- 调度延迟 Scheduling Delay 接近零(标志Spark状态健康)
本篇完,谢谢大家~