一、RDD 的创建1)通过 RDD 的集合数据结构,创建 RDDsc.parallelize(List(1,2,3),2) 其中第二个参数代表的是整个数据,分为 2 个 partition,默认情况会讲数据集进行平分,注意不是两个副本2)通过文件来读取sc.textFile("file.txt") sc.sequenceFile("file.txt") sequeceFile 是 HDFS 一些数
# Hadoop 小文件聚合:SequeceFile 实现指南 在大数据处理的过程中,Hadoop 生态系统里常常会遇到“海量小文件”的问题。这些小文件不仅占用大量的命名空间,也会影响数据处理的性能。因此,将这些小文件聚合为更大的文件便成为了一个必要的步骤。本文将详细介绍如何利用 Hadoop 的 SequenceFile 格式来实现小文件的聚合。 ## 流程概述 下面是聚合小文件的流程步骤
原创 9月前
50阅读