大数据批量处理框架 大数据批处理计算_大数据

一些介绍

分布式计算模型

批处理计算:(大容量静态数据集)

  1. 有界、持久、大量
  2. 理需要访问全套记录,不适合对处理时间要求较高的场合

偷老师的图:

大数据批量处理框架 大数据批处理计算_大数据_02


大数据批量处理框架 大数据批处理计算_大数据_03

常见计算模式

主要点在于分开mapper和reducer,然后确定每个<key,value>键值对的意义

  • 求和模式(Summarization Pattern)
    单词统计:
  1. map阶段:输入<key,value>是<网页ID,网页内容>,输出<key,value>是<单词,出现次数>
  2. reduce阶段:累加相同key值的,输出<单词,出现次数>
  3. 补充:map和reduce间是shuffle阶段,在shuffle阶段,可以先对每一个map做combiner(合并相同的key对应的value,局部reducer),然后做partitioner,通过hash等方式分配中间结果数据给reducer,实现负载均衡
  • 过滤模式(Filtering Pattern)
  1. 简单过滤:Map-Only
  2. TOP K:Mapper首先统计出数据块内所有记录中某个字段满足Top K条件的记录子集,得到局部Top K记录。然后通过Reducer对这些局部Top K记录进一步筛选,获得最终的全局最大的K条记录。
  • 数据组织模式(Data Organization Pattern)
  1. 数据分片
  2. 全局排序:“排序是MapReduce的天然特性”(a每个map输出结果有序;b每个reduce输入有序)但当多个reducer时,需要通过Partition策略,保证不同Reducer处理一个范围区间的记录。
实例

文本分析、页面点击统计、专利引用统计

特点
  • 优点:
  1. 极强的可扩展性
  2. 很好的容错性,
  3. 简单,用户只需完成Map和Reduce
    函数即可完成大规模数据的并行处理
  • 缺点:
  1. 不适合对时效性要求较高的应用场景(Map和Reduce任务启动时间较长)
  2. 不适合迭代运算类(在多处的磁盘读/写及网络传输过程)
K-Means算法MapReduce化
  1. mapper处理根据簇中心重新分簇,输出键值对为<cluster assigned to , 数据点自身>;
  2. combine阶段,键值对<cluster id ,-【 # of data points of this cluster, mean】>;
  3. reducer处理根据分簇情况重新计算簇中心,键值对<该cluster 的id,该cluster的数据点的均值及对应于该均值的数据点的个数>