大数据入门阶段学些什么?

我的后端工程师已经在大数据领域工作了一年多,我将谈谈我的学习过程。

1。使用HDFS分布式文件系统时,最好熟悉以下原则。

2。大数据查询工具hive/Presto,语法基本相似,用于查询数据和生成报表

3。实时数据清理工具Flink用于编写实时Kafka。将数据记录到HDFS。当然,Flink还有很多其他功能,比如数据清理和数据分析。

4。Spark是一个分布式计算引擎,它与纱线的资源调度相配合,利用Spark进行数据清洗或机器学习模型训练。

总而言之,我们需要学习HDFS、hive/Presto、Flink和spark。当然,Java语言和Linux命令必须。

hdfs在写数据的过程中datanode死掉怎么办?

数据节点在写入时未重新分配。如果一个datanode在写入过程中失败,那么已经写入的数据将被放在数据队列的顶部,而被丢弃的datanode将被移出pipline,而数据将被写入其余的datanode。写入后,namenode会收集数据节点信息,发现此文件的复制不符合配置要求(默认为3),然后查找datanode保存副本。

hdfs数据存储在集群什么地方?

1。存储文件时,需要指定存储路径,即HDFS的路径。

而不是哪个节点的目录。例如,。/Hadoop FS putlocalfilehdfspat,一般操作的当前路径是/user/Hadoop,例如executing。/Hadoop FS ls。事实上,它相当于。/Hadoop FS LS/user/Hadoop 2,HDFS本身就是一个文件系统。使用它时,您不需要关心特定文件存储在哪个节点上。如果需要查询,可以通过页面查看,也可以通过API实现查询。

kafka topic数据如何写入hdfs?

这主要取决于您的业务场景。如果您需要实时计算,您可以读取Kafka->“计算指标-”,并通过spark将其写入HDFS。有官方的例子。如果不需要实时计算,可以通过定时任务读取卡夫卡的数据并将其写入HDFS。我还没有研究卡夫卡是否支持出版。在实际项目中,我通过Python-Kafka读取数据。