DataStream API - Data Sources

  • 基于文件获取数据源
  • 基于Socket获取数据源
  • 基于Collection获取数据源
  • 基于连接器(connectors)获取数据源
  • 自定义Source


基于文件获取数据源

在底层,Flink将文件读取过程分成两个子任务,即目录监视和数据读取。每个子任务都由一个单独的实体实现。监视由单个非并行(parallelism = 1)任务实现,而读取由多个并行运行的任务执行。后者的并行性等于作业并行性。单个监视任务的作用是扫描目录(定期或仅扫描一次,这取决于watchType),找到要处理的文件,将它们分成几部分,并将这些部分分配给下游的读取器。读取器将读取实际数据。每个拆分只能由一个读取器读取,而一个读取器可以逐个读取多个拆分。

// 获取运行环境
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

// 逐行读取文本文件,即符合规范的文件,并将它们作为字符串返回。
DataStream<String> dataStream = env.readTextFile(filePath)

// 按指定的文件输入格式指定读取(一次)文件。
DataStream<String> dataStream = env.readFile(fileInputFormat, path)

// 这是前两个方法在内部调用的方法,它根据给定的fileInputFormat读取路径中的文件,根据所提供的watchType
// 此源可以定期监视(每隔一段时间ms)给定路径文件中的新数据
DataStream<String> dataStream = envreadFile(fileInputFormat, path, watchType, interval, pathFilter, typeInfo)

基于Socket获取数据源

// 获取运行环境
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

// 根据socket获取数据源
DataStream<String> dataStream = env.socketTextStream(hostname, port);

基于Collection获取数据源

// 获取运行环境
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

// 从Java Java.util.Collection创建数据流。集合中的所有元素必须属于同一类型。
DataStream<String> dataStream = env.fromCollection(Collection) 

// 从迭代器创建数据流。该类指定迭代器返回的元素的数据类型。
DataStream<String> dataStream = env.fromCollection(Iterator, Class)

// 从给定的对象序列创建数据流。所有对象必须属于同一类型。
DataStream<String> dataStream = env.fromElements(T ...) 

// 并行地从迭代器创建数据流。该类指定迭代器返回的元素的数据类型。
DataStream<String> dataStream = env.fromParallelCollection(SplittableIterator, Class) 

// 并行生成给定间隔中的数字序列
DataStream<String> dataStream = env.generateSequence(from, to)

基于连接器(connectors)获取数据源

// 获取运行环境
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

// 基于kafka
String kafkaTopic = params.get("kafka-topic");
String brokers = params.get("brokers", "localhost:9092");
DataStream<String> streamSource = env..addSink(new FlinkKafkaProducer010(brokers, kafkaTopic, (SerializationSchema) new EventDeSerializer()));

自定义Source

  • 通过实现sourceFunction接口来自定义无并行度(并行度为1)的source
  • 实现SourceFunction
  • 一般不需要实现容错性保证
  • 处理好cancel方法(cancel应用的时候,这个方法会被调用)
  • 通过实现ParallelSourceFunction接口或继承RichParallelSourceFunction类自定义有并行度的source。