Hadoop大数据开发基础pdf Hadoop大数据开发基础目录

转载

mob6454cc6bf0b7 2023-09-25 07:09:33

文章标签 Hadoop大数据开发基础pdf 大数据Hadoop HDFS 数据 Hadoop 文章分类 Hadoop 大数据

2、名词（很多）

==================================================

一、各章概述（Hadoop部分、Storm部分）

(一)、Hadoop的起源与背景知识

1、什么大数据？核心问题？

举例：（1）商品推荐问题1：大量的订单如何存储？问题2：大量的订单如何计算？

（2）天气预报问题1：大量的天气数据存储？问题2：大量的天气数据计算？

核心问题：数据存储：分布式存储（HDFS）

数据计算：分布式计算（MapReduce）

2、数据仓库一种实现方式。什么是数据仓库？

（*）传统方式：数据仓库

（*）数据仓库就是一个数据库，比较大，可以是Oracle、MySQL

（*）一般只做select

Hadoop大数据开发基础pdf Hadoop大数据开发基础目录_HDFS

3、概念：OLTP和OLAP

OLTP: online transaction processing 联机事务处理

OLAP: online analytic processing 联机分析处理

4、（最重要内容）Google的三篇论文

(1) GFS： Google File System ----> HDFS: hadoop distributed file system

什么是分布式文件系统？

Hadoop大数据开发基础pdf Hadoop大数据开发基础目录_数据_02

什么是机架感知？

Hadoop大数据开发基础pdf Hadoop大数据开发基础目录_Hadoop_03

(2) MapReduce：来源：PageRank问题（网页排名）

Hadoop大数据开发基础pdf Hadoop大数据开发基础目录_Hadoop大数据开发基础pdf_04

(3) BigTable：大表 ----> HBase

对比Oracle和HBase的表结构

Hadoop大数据开发基础pdf Hadoop大数据开发基础目录_Hadoop_05

(二)、实验环境

Hadoop大数据开发基础pdf Hadoop大数据开发基础目录_Hadoop_06

(三)、Apache Hadoop的体系结构（重要） ----> 都是一种主从结构

1、HDFS: 分布式文件系统

(*) 主节点：namenode 名称节点

(*) 从节点：datanode 数据节点

(*) 第二名称节点: SecondaryNameNode

2、Yarn: 容器，用于执行MapReduce

(*) 主节点：ResourceManager 资源管理器

(*) 从节点：NodeManager 节点管理器

3、HBase: 需要单独安装

(*) 主节点：HMaster

(*) 从节点：RegionServer

(*) 需要：ZooKeeper

(四)、Hadoop 2.X的安装与配置

三种模式

1、本地模式一台

2、伪分布模式一台

3、全分布模式三台

4、掌握：免密码登录的原理和配置

(五)、Hadoop应用案例分析（了解）

(六)、HDFS

1、操作HDFS：命令行、Java API、Web Console

2、原理：数据上传和下载的过程（画图）

3、HDFS底层的原理：RPC(Remote Proceduer Call 远程过程调用协议)

代理对象: Java 动态代理对象

4、高级特性

（*）回收站

（*）快照：Snapshot 备份

（*）配额quota：名称配额、空间配额

（*）安全模式：safe mode

（*）权限的管理

(七)、MapReduce：处理离线数据（历史数据）

Hadoop大数据开发基础pdf Hadoop大数据开发基础目录_Hadoop_07

1、Demo：经典WordCount

2、重点：分析WordCount执行的过程

3、Yarn调度MapReduce程序过程（原理）

4、高级特性

（*）排序

（*）序列化

（*）分区

（*）合并

5、MapReduce核心：Shuffle（洗牌）

6、编程案例

（*）排序：一个、多个列排序

（*）去重：distinct

（*）多表查询

（*）倒排索引：在HDFS中用于查找数据的一种方式

复习什么是索引

Hadoop大数据开发基础pdf Hadoop大数据开发基础目录_数据_08

倒排索引：

Hadoop大数据开发基础pdf Hadoop大数据开发基础目录_数据_09

数据分析引擎

(八)、Hive：支持SQL，把SQL（select） ----> MapReduce

(九)、Pig: 支持PigLatin ，把PigLatin ----> MapReduce

(十)、HBase

1、基于HDFS之上的NoSQL

2、体系结构和安装配置

3、操作：命令行、Java、Web Console

4、过滤器：相当于where

5、开发基于HBase的MapReduce

数据采集引擎

(十一)、Sqoop：采集RDBMS（关系型数据库）

(十二)、Flume：采集日志

(十三)、HUE：管理工具

(十四)、ZooKeeper: 相当于“数据库”，实现HA（high avaibility）

(十五)、Hadoop的集群和HA

1、HDFS的联盟（Federation）

2、Hadoop HA

(十六)、Redis：基于内存的NoSQL数据库

重要：持久化（RDB、AOF）

事务、消息

主从复制

集群

(十七)、Storm：处理实时数据（流式数据）

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：PythondrawImage的参数怎么设置 python中的draw

下一篇：类的定义与使用的Java代码类在java语言里是什么意思

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

Hadoop大数据开发基础pdf Hadoop大数据开发基础目录

Hadoop大数据开发基础pdf Hadoop大数据开发基础目录

51CTO博客