基础

Flink系列:无界和有界数据流定义与区别

 

批处理(批量)
  • 处理完成一条数据后,将其序列化到缓存中,当缓存写满时,就持久化到本地硬盘上;在所有数据都被处理完成后开始将其通过网络传输到下一个节点
  • 适合有边界数据
  • 使用DataSet
  • 要求高吞吐

 

流处理(逐个)
  • 处理完成一条数据后,将其序列化到缓存中,并立刻通过网络传输到下一个节点,由下一个节点继续处理。
  • 适合无边界数据
  • 使用DataStream
  • 要求低延迟

批处理和流处理(DataSet和DataStream)最大的区别在于对时间的处理。

 

扩展

Flink系列:高吞吐和低延迟