qwq998492的博客_zhadoop

hadoop学习笔记：hadoop文件系统浅析

1.什么是分布式文件系统？管理网络中跨多台计算机存储的文件系统称为分布式文件系统。2.为什么需要分布式文件系统了？原因很简单，当数据集的大小超过一台独立物理计算机的存储能力时候，就有必要对它进行分区（partition）并存储到若干台单独计算机上。3.分布式系统比传统的文件的系统更加复杂因为分布式文件系统架构在网络之上，因此分布式系统引入了网络编程的复杂性，所以分布式文件系统比普通文件系统更加复杂

java

计算机

接口

可扩展性

网络编程

转载精选 2015-11-06 11:40:15 562 阅读

分布式网站架构后续：zookeeper技术浅析

Zookeeper是hadoop的一个子项目，虽然源自hadoop，但是我发现zookeeper脱离hadoop的范畴开发分布式框架的运用越来越多。今天我想谈谈zookeeper，本文不谈如何使用zookeeper，而是zookeeper到底有哪些实际的运用，哪些类型的应用能发挥zookeeper的优势，最后谈谈zookeeper对分布式网站架构能产生怎样的作用。　　Zookeeper是针对大型分

技术

网站

开发

如何

而且

转载精选 2015-11-06 11:19:59 317 阅读

5分钟深入 Hadoop 容错

通过之前几篇文章，我们对 Hadoop 的工作原理有了基本的了解，并且通过学习优化 Hadoop 性能，更深入的体会 Hadoop 处理数据的机制。今天我们聊聊另一个重要的话题：容错。Why fault tolerant is necessary？在公司内开发过分布式系统的朋友应该比较熟悉，在实践中，我们除了要实现业务的应用逻辑，并且提高系统性能之外，还要经常处理机器出错的问题。尤其是亚麻工作过的

framework

文章

工作原理

count

necessary

转载精选 2015-11-05 11:50:20 2211 阅读

五分钟深入 Hadoop 内核

五分钟深入 Hadoop 内核回顾上篇文章我们说到，Hadoop 的工作下图所示，负责把 mapper function 装载到要运行 mapper 的机器上，然后执行 mapper function，之后负责把 mapper 的结果 shuffle 到要运行 reducer 的机器上，下载 reducer 运行得到最终结果。那么下面，我们就通过学习 Hadoop 的 component

Java

文章

function

shuffle

reducer

转载精选 2015-11-05 11:06:50 970 阅读

五分钟零基础搞懂Hadoop

五分钟零基础搞懂Hadoop「大数据」，想必大家经常听到这个被炒得很热的话题。随之而来的是各种看似高大上的专业术语，比如「扩展性」、「可靠性」、「容错性」，好像真的很高深，要积累多年经验才能学习。但另一方面，很多同学都刚刚进入互联网这个行业，对分布式计算还没有很多了解，那是不是就要花很多力气才能搞懂「大数据」呢？不必担心，包子老师在这里用浅显易懂深入浅出的语言，帮助没有基础的同学快速的入手「大数据

互联网

产品

Facebook

可靠性

求职者

转载精选 2015-11-05 10:56:41 500 阅读

5分钟 Hadoop Shuffle 优化

5分钟 Hadoop Shuffle 优化包子铺里聊IT上篇5分钟深入 Hadoop 的文章中，我们介绍了如何优化输入处理，让 Hadoop 达到更高的性能；另一个有可能让 Hadoop 性能实现质的飞越的过程是 Shuffle 阶段：Shuffle 阶段负责把 map output 传递到 reduce 阶段，深入理解这个阶段有助于我们回答面试中很多进阶问题，从而 really impress

文章

function

reduce

really

包子铺

转载精选 2015-11-05 10:48:45 996 阅读

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

linux