flink java 读取hdfs文件 flink读写hdfs

转载

mob64ca1409970a 2024-03-05 05:53:33

文章标签 flink java 读取hdfs文件简述hdfs工作原理数据 HDFS Hadoop 文章分类 Java 后端开发

大数据入门阶段学些什么？

我的后端工程师已经在大数据领域工作了一年多，我将谈谈我的学习过程。

1。使用HDFS分布式文件系统时，最好熟悉以下原则。

2。大数据查询工具hive/Presto，语法基本相似，用于查询数据和生成报表

3。实时数据清理工具Flink用于编写实时Kafka。将数据记录到HDFS。当然，Flink还有很多其他功能，比如数据清理和数据分析。

4。Spark是一个分布式计算引擎，它与纱线的资源调度相配合，利用Spark进行数据清洗或机器学习模型训练。

总而言之，我们需要学习HDFS、hive/Presto、Flink和spark。当然，Java语言和Linux命令必须。

hdfs在写数据的过程中datanode死掉怎么办？

数据节点在写入时未重新分配。如果一个datanode在写入过程中失败，那么已经写入的数据将被放在数据队列的顶部，而被丢弃的datanode将被移出pipline，而数据将被写入其余的datanode。写入后，namenode会收集数据节点信息，发现此文件的复制不符合配置要求(默认为3)，然后查找datanode保存副本。

hdfs数据存储在集群什么地方？

1。存储文件时，需要指定存储路径，即HDFS的路径。

而不是哪个节点的目录。例如，。/Hadoop FS putlocalfilehdfspat，一般操作的当前路径是/user/Hadoop，例如executing。/Hadoop FS ls。事实上，它相当于。/Hadoop FS LS/user/Hadoop 2，HDFS本身就是一个文件系统。使用它时，您不需要关心特定文件存储在哪个节点上。如果需要查询，可以通过页面查看，也可以通过API实现查询。

kafka topic数据如何写入hdfs？

这主要取决于您的业务场景。如果您需要实时计算，您可以读取Kafka->“计算指标-”，并通过spark将其写入HDFS。有官方的例子。如果不需要实时计算，可以通过定时任务读取卡夫卡的数据并将其写入HDFS。我还没有研究卡夫卡是否支持出版。在实际项目中，我通过Python-Kafka读取数据。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。