第一章:初识hadoop
1、数据!数据!
2、数据的存储与分析
3、相较于其他系统的优势
关系型了数据库管理系统
网格结算
志愿计算
4、hadoop发展简史
5、apache hadoop 和hadoop的生态系统
6、hadoop的发型版本
本书包含的内容
兼容性
第二章:关于MapReduce
1、气象数据集
2、使用Unix工具来分析数据
3使用hadoop来分析数据
4、横向扩展
5、hadoop Streaming
6、Rby版本
7、python版本
8、hadoop pipes
第三章:hadoop分布式文件系统
HDFS的设计
2、HDFS的概念
A 数据块 B namenode datanode C 联邦HDFS D HDFS的高可用性
3、命令行结婚
4、Hadoop文件系统
5、java接口那
6、数据流
7、通过Flume和sqoop导入数据
8、通过distcp并行复制
9、hadoop存档
第四章:hadoop的IO操作
1、数据完整性
2、压缩
3、序列化
4、序列化框架
5、AVRO
6基于文件的数据结构
第五章 MapReduce应用开发
1用于配置的API
资源合并 可变的拓展
2 配置开发环境
管理配置 辅助类 GenericOptionsParser, Tool ToolRunner
3用MRUnit来写单元测试
4、本地运行测试数据
5在集群上运行
启动作业 web界面 获取结果 作业调试 hadoop日志 远程调试
6、作业调优
7、MR的工作流
将问题分解称Mr作业, 关于JobControl 关于oozie
第六章:MR的工作机制
1 剖析MR作业运行机制
2 失败
3、作业的调度
4、shuffle和排序
5、任务的执行
任务执行环境, 推测执行 关于outputCommitters 任务JVM重用
第七章:MR的类型于格式
MP的类型
输入格式
输出格式
第八章 MR的特性
计数器
排序
连接
边数据分布
分布式缓存
MR类库
第九章 构建hadoop集群
集群规范
集群的构建于安装
SSH配置
Hadoop配置
YARN配置
安全性
利用基准评测程序测试hadoop集群
云端的hadoop
第十章 管理hadoop
hdfs
永久性数据结构, 安全模式 , 日志审计, 工具
监控
日志, 度量 java管理拓展 JMX
维护
日常管理过程
委任和解除节点
升级
第十一章 关于pig
安装于运行pig
示例
自定义函数
数据处理操作
第十二章 关于hive
安装hive
示例
运行hive
hive于传统数据块相比
hiveQL
表
查询数据
用户定义函数
第十三章 HBase
hbasez基础
概念
安装
客户端
java AVRO REST THRIFT
示例
模式 加载数据 web查询
HBase RDBMs的比较
praxis
第十四章 关于zookeeper
安装运行 zookeeper
示例
zookeeper中的组成员关系
创建组
加入组
列出组成员
删除组
zookeeper服务
数据模型
操作
实现
一致性
回话
状态
使用zookeeper来构建应用
配置服务
可复原的zookeeper应用
锁服务
更多分布式数据结构和协议
生产环境上的zookeeper
可恢复性和性能
配置
第十五章 官运sqoop
获取sqoop
sqoop连接器
一个导入的例子
生成代码
升入了解数据库导入
导入控制
导入和一致性
使用导入的数据
导入大对象昂
执行导出
深入了解导入功能
第十六章 示例学习
附录A 安装 apache hadoop
附录B 关于CDH
准备NCDC气象数据
hadoop权威指南 目录结构