
一些介绍
分布式计算模型
批处理计算:(大容量静态数据集)
- 有界、持久、大量
- 理需要访问全套记录,不适合对处理时间要求较高的场合
偷老师的图:


常见计算模式
主要点在于分开mapper和reducer,然后确定每个<key,value>键值对的意义
- 求和模式(Summarization Pattern)
单词统计:
- map阶段:输入<key,value>是<网页ID,网页内容>,输出<key,value>是<单词,出现次数>
- reduce阶段:累加相同key值的,输出<单词,出现次数>
- 补充:map和reduce间是shuffle阶段,在shuffle阶段,可以先对每一个map做combiner(合并相同的key对应的value,局部reducer),然后做partitioner,通过hash等方式分配中间结果数据给reducer,实现负载均衡
- 过滤模式(Filtering Pattern)
- 简单过滤:Map-Only
- TOP K:Mapper首先统计出数据块内所有记录中某个字段满足Top K条件的记录子集,得到局部Top K记录。然后通过Reducer对这些局部Top K记录进一步筛选,获得最终的全局最大的K条记录。
- 数据组织模式(Data Organization Pattern)
- 数据分片
- 全局排序:“排序是MapReduce的天然特性”(a每个map输出结果有序;b每个reduce输入有序)但当多个reducer时,需要通过Partition策略,保证不同Reducer处理一个范围区间的记录。
实例
文本分析、页面点击统计、专利引用统计
特点
- 优点:
- 极强的可扩展性
- 很好的容错性,
- 简单,用户只需完成Map和Reduce
函数即可完成大规模数据的并行处理
- 缺点:
- 不适合对时效性要求较高的应用场景(Map和Reduce任务启动时间较长)
- 不适合迭代运算类(在多处的磁盘读/写及网络传输过程)
K-Means算法MapReduce化
- mapper处理根据簇中心重新分簇,输出键值对为<cluster assigned to , 数据点自身>;
- combine阶段,键值对<cluster id ,-【 # of data points of this cluster, mean】>;
- reducer处理根据分簇情况重新计算簇中心,键值对<该cluster 的id,该cluster的数据点的均值及对应于该均值的数据点的个数>
















