map对象存redis存储与获取 map的存储过程_HDFS

补充1:shuffle过程是图中copy phase和sort phase之间的过程。更粗暴口语化的理解是,怎么把map的输出弄到reduce中去。

补充2:map操作是在本地操作的,也就是在数据存储节点上进行的。

补充3:partition就是对map的数据进行归类。

补充4:sort&combiner 内存缓冲区是一个环形缓冲区,map task输出首先进入这个缓冲区,缓冲区大小为100M,当map task输出了80M时,会启动spill进程来把缓冲区中的数据写入到磁盘中。注意:在把数据写入到磁盘之前,也就是当数据还在内存的时候,会对这80M数据进行sort,sort后的数据按照partition数值和key两个关键字升序排序,同一个partition数值的数据,再按照关键字升序排序。再次注意:如果客户端设置了combiner,这个时候,会接着使用combiner。combiner会对有相同key的key-value对进行处理,减少spill到磁盘的数据量,combiner简单来说就是map端的reduce。

补充5:merge

补充6:如果客户端设置了combiner,在map task中,有两个地方会执行combiner。第一个地方是spill过程中,对key进行排序后,会触发combiner。第二个地方是将多个spill文件归并为一个文件时,会触发。

补充7:map task中涉及到的排序也有两处。第一处是在spill的过程中,会对partition和key进行排序,这个时候使用的是快排。第二处是在将多个splill文件归并为一个文件时,需要使用归并排序。

补充8:默认情况下,当map task完成5%的时候,一个reduce task开始从多个map task执行机器上copy数据。拷贝数据的过程中,有可能reduce端的内存缓冲区装不下,这个时候也会spill到磁盘形成spill文件。像map task中一样,多个spill文件会需要merge,merge的过程中会归并排序(让key有序)和combiner(对相同key的key-value对进行处理)。最终会形成一个最终文件。最终文件中,key是有序的。然后这个最终文件会被feed到reduce的代码中进行处理。

1.mapred.output.compress、mapred.output.compression.codec。压缩mapreduce作业的输出,应在作业配置过程中将mapred.output.compress设置为true,mapred.output.compression.codec设置为打算压缩的codec类名。

2.map任务的输出需要写到磁盘并通过网络传输到reducer节点,所以如果使用LZO,LZ4或者Snappy这样的快速压缩方式,是可以获取性能提升的。这个时候设置mapred.compress.map.output和mapred.map.output.compression.codec。

3.数据在hdfs上是分布式存储的。

HDFS被实现为一种块结构的文件系统。如图所示,在Hadoop中,单个文件被拆分为固定大小的块存储在Hadoop集群上。对于每个块保存在哪个DataNode上是随机的,其结果是,访问某个文件需要访问多个DataNode,也就是HDFS能存储的文件大小可以远超出单机的磁盘容量。

4.以一个存储在HDFS文件系统中且不进行压缩的大小为 1 GB 的文件为例。如果HDFS的块大小设置为128,那么该文件将被存储在8个块中,把这个文件作为输入数据的MapReduc/Spark作业,将创建8个map/task任务,其中每个数据块对应一个任务作为输入数据。
现在,假如经过gzip压缩后,文件大小为1GB。与之前一样,HDFS也是将这个文件存储成8个数据块。但是每个单独的map/task任务将无法独立于其他任务进行数据处理,官方一点的说法,原因就是因为数据存储在HDFS时是被切成块的,且该压缩算法无法从任意进行读取。
通俗的讲解,就是因为存储在HDFS的每个块都不是完整的文件,我们可以把一个完整的文件认为是具有首尾标识的,因为被切分了,所以每个数据块有些有头标示,有些有尾标示,有些头尾标示都没有,所以就不能多任务来并行对这个文件进行处理。 对于这种不可切分的,只有将该文件的所有HDFS的数据块都传输到一个map/task任务来进行处理,但是大多数数据块都没有存储在这个任务的节点上,所以需要跨节点传输,且不能并行处理,因此运行的时间可能很长。
 

5.mapred.job.max.map.running map task并发数。mapred.job.max.reduce.running reduce task并发数。
mapred.max.map.failures.percent map task允许失败比例。mapred.max.reduce.failures.percent reduce task允许失败比例。
6.mapred.map.max.attempts map task失败重试次数。
mapred.reduce.max.attempts reduce task失败重试次数。
7.mapred.task.timeout

默认情况下,如果一个task 10min没有进行MapReduce的读/写,就会失败。 为满足特殊业务需求,例如处理逻辑本身时间>10min的,可以通过上面参数调整task的超时时间。

8.需要MapReduce处理过程中忽略压缩损坏的文件,需要设置参数mapred.ignore.badcompress为true。

9.Customizing How Lines are Split into Key/Value Pairs

stream.map.output.field.separator=:指定使用冒号”:”将map输出的一行分隔为key/value,stream.num.map.output.key.fields=2指定在第二个冒号处进行分隔,也就是第二个冒号之前的作为key,之后的作为value。如果没有冒号或冒号少于两个,则key为整行,value为空。 对于reduce的输出,同样也可以用-D stream.reduce.output.field.separator和-D stream.num.reduce.output.key.fields定制key/value分隔方式。

10.利用partitioner二次排序

$HADOOP_HOME/bin/hadoop  jar $HADOOP_HOME/hadoop-streaming.jar \
    -D stream.map.output.field.separator=. \
    -D stream.num.map.output.key.fields=4 \
    -D map.output.key.field.separator=. \ #指定key内部的分隔符 
    -D mapred.text.key.partitioner.options=-k1,2 \ ##这里也可以用num.key.fields.for.partition=2,指定对key分出来的前几部分做partition而不是整个key  
    -D mapred.reduce.tasks=12 \
    -input myInputDirs \
    -output myOutputDir \
    -mapper org.apache.hadoop.mapred.lib.IdentityMapper \
    -reducer org.apache.hadoop.mapred.lib.IdentityReducer \
    -partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner

11.TextInputFormat是(默认的inputFormat)

MapReduce默认的inputFormat是TextInputFormat,用于处理文本格式的输入。它的key为一行的偏移量,value为此行的内容。

如果某行的value过大,会导致OOM,建议设置一行处理最大字节数来避免job失败:mapred.linerecordreader.maxlength(单位:字节),超过设定值部分将被丢弃。

切分大文件:mapred.min.split.size=mapred.max.split.size=需要切分的大小
切分规则:splitSize = max( max(1,minSize(1)), min(maxSize(256M),blockSize(256M)) )

12.CombineTextInputFormat(输入是小文件时使用)

当处理大量的小数据文件时,如果文件不能被inputformat切分(如gz压缩文件),则会启动很多的map,比如几十万个map,这样会带来几个问题:

  • 对jobtracker内存造成压力。当一个job完成初始化后,jobtracker会在内存中维护该job的所有map/reduce task的相关信息。含有大量task的job会占用jobtracker的大量内存。
  • 每个map处理的数据很小,执行时间很短,比如几秒,则task调度和启动的时间开销将会非常可观,大量的时间花费在task启动时间上。

因此需要使用CombineTextInputFormat对输入数据进行合并。

其核心思想是:根据一定的规则,将HDFS上多个小文件合并到一个 InputSplit中,然后会启用一个Map来处理这里面的文件,以此减少MR整体作业的运行时间。 

13.mapred.reduce.slowstart.completed.maps (map完成多少百分比时,开始shuffle)

14.mapred.linerecordreader.maxlength 
数据行长度的最大值,防止因为内存溢出导致的错误

 15.KeyFieldBasedPartitioner

Hadoop 提供了一个非常实用的partitioner类KeyFieldBasedPartitioner,通过配置相应的参数就可以使用。通过KeyFieldBasedPartitioner可以方便地实现二次排序。 

16.mapred.use.multimembergzip="true"

对输入做解压缩操作。支持一个gz文件有多个压缩块组成,集群上已经默认打开。用户无需设置

17.outputformat org.apache.hadoop.mapred.TextMultiOutputFormat

如果一个reduce输出过大(或者无reduce的map输出过大),会对下游的job产生较大的处理压力。为了避免此情况,可以采用TextMultiOutputFormat对reduce的输出进行切分,让一个reduce的输出可以至多个文件,
切分后的文件命名类似part-00020-001.gz,不会影响reduce的分区。

使用方式如下:

1.此功能要求输出需要必须采用输出压缩,请先确认输出压缩功能设置为true,再指定压缩方式,下面采用了gz压缩:
-D mapred.output.compress=true \
-D mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec 
 
2.指定outputformat为TextMultiOutputFormat:
streaming程序请使用老API:
  -outputformat org.apache.hadoop.mapred.TextMultiOutputFormat
1.此功能要求输出需要必须采用输出压缩,请先确认输出压缩功能设置为true,再指定压缩方式,下面采用了gz压缩:
-D mapred.output.compress=true \
-D mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec 

2.指定outputformat为TextMultiOutputFormat:
streaming程序请使用老API:
  -outputformat org.apache.hadoop.mapred.TextMultiOutputFormat