hadoop 书籍推荐开发 hadoop教材推荐

转载

lingyuli 2023-07-26 21:26:38

文章标签 hadoop 书籍推荐开发 spark Hadoop hadoop 文章分类 Hadoop 大数据

申明：本文出自：（该博客干货较多）

1 Java基础：

视频方面：
推荐《毕向东JAVA基础视频教程》。

链接：https://pan.baidu.com/s/1v6KxWA3kCJWAC0HpDSV4_A
提取码：msd9

学习hadoop不需要过度深入，java学习到javase，Java虚拟机的内存管理、以及多线程、线程池、设计模式、并行化多多理解实践即可。

书籍方面：

推荐李兴华的《java开发实战经典》没看过该书。

2 Linux基础：

视频方面：

（1）马哥的高薪Linux视频课程-Linux入门

　　　（2）兄弟连的新版Linux视频教程该视频有看过还不错，推荐。

（3）老段的讲解鸟哥Linux基础+私房菜

（4）老男孩的Linux。

看的过程中，不可只看不同步操作，这是最危险的一件事！不需全部看完。

如：基本的Linux操作系统官网下载、安装（命令行界面和图形界面）、基本命令、网络配置、快照、VM tools工具安装、虚拟机的菜单熟悉等等。

书籍方面：

（1）《鸟哥的linux私房菜》,

（2）进一步可以看书籍《鸟哥的服务架设篇》。

（3）Linux随身指南

　　　（4）老男孩Linux运维

系统学习只要多多实践，学习linux并不枯燥。

3 hadoop书籍：

（1）《Hadoop实战 (第1版) 陆嘉恒》、《Hadoop实战 (第2版) 陆嘉恒》

（2）《hadoop definitive guide 》，

中文书名是《Hadoop权威指南（第1版）曾大聃译》，《Hadoop权威指南 (第2版) 周敏奇译》，《Hadoop权威指南（第3版）华东师范大学数据科学与工程学院译》，当然现在是第4版了。

（3）Hadoop技术内幕：《深入解析Hadoop common和HDFS架构设计与实现原理》蔡斌

（4）hadoop技术内幕：《深入解析YARN架构设计与实现原理》董西成

（5）Hadoop技术内幕：《深入理解MapReduce架构设计与实现原理》董西成

（5）《Hadoop in Action》中文书名是《Hadoop实战》，

（6）《Hadoop应用开发技术详解刘刚》

（7）《Hadoop 核心技术》翟周伟

平常多看看hadoop的官网，虽然是官网，但尽量多学习计算机方面的单词，对后续学习帮助极大。很遗憾没看过任何一本书，不做评价。

4 Maven书籍：

强烈推荐书籍：Maven实战许晓斌著。目前是第一版。

5、spark书籍：

　　　　（1）《Spark大数据处理技术、应用与性能优化高彦杰》

　　　　（2）《深入理解Spark核心思想与源码分析耿嘉安》

（3）《图解Spark：核心技术与案例实战》目前Spark已经2.4版本了！学习速度更不是更新速度，😔！

学习大数据需要的基本功

　　1. linux基础是必须的，最起码需要掌握linux命令行下的基本操作命令

2. javase基础【包含mysql】，注意是javase，不是javaee。javaweb那一块的知识针对大数据工程师而言不是必须的

大数据技术板块划分

数据采集

flume kafka logstash filebeat ...

数据存储

mysql redis hbase hdfs ...

虽然mysql不属于大数据范畴但是我在这也列出来了，因为你在工作中离不开它

数据查询

hive impala elasticsearch kylin ...

数据计算

实时计算

storm sparkstreaming flink ...

离线计算

hadoop spark ...

其他框架

zookeeper ...

　　其实这张图中主要列出来了hadoop生态圈的框架。

hadoop 书籍推荐开发 hadoop教材推荐_hadoop 书籍推荐开发

这个图中列出来了很多框架，其实，学习大数据，就是要学习大数据生态圈周边的各种框架。

大数据学习步骤

　　上面虽然列出来了很多框架，但是最开始学习的时候没必要全部都学，就算是在工作中，这些框架也不一定会全部用到。

　　下面我就大致列一下，各种框架的一个学习步骤吧：

　　注意：下面列出来的顺序只是个人建议，可以根据个人实际情况来调整顺序

linux基础和javase基础【包含mysql】

这些是基本功，刚开始也不可能学的很精通，最起码要对linux中的一些基本的命令混个脸熟，后面学习各种框架的时候都会用到，用多了就熟悉了。javase的话建议主要看面向对象，集合，io，多线程，以及jdbc操作即可。

zookeeper

zookeeper是很多大数据框架的基础，中文名称是动物园的意思，因为目前的大数据框架的图标很多都是动物的形状，所以zookeeper其实就是可以管理很多大数据框架的。针对这个框架，主要掌握如何搭建单节点和集群，以及掌握如何在zkcli客户端下对zookeeper的节点进行增删改查操作即可。

hadoop

目前企业中一般都是用hadoop2.x的版本了，所以就没有必要再去学hadoop1.x版本了，hadoop2.x主要包含三大块

hdfs 前期，主要学习hdfs的一些命令即可，上传，下载，删除，移动，查看等命令...
mapreduce 这个需要重点学习下，要理解mr的原理以及代码实现，虽然现在工作中真正写mr的代码次数很少了，但是原理还是要理解的。
yarn 前期了解即可，只需要知道yarn是一个资源调度平台，主要负责给任务分配资源即可，yarn不仅可以给mapreduce任务调度资源，还可以为spark任务调度资源...yarn是一个公共的资源调度平台，所有满足条件的框架都可以使用yarn来进行资源调度。

hive

hive是一个数据仓库，所有的数据都是存储在hdfs上的，具体【数据仓库和数据库】的区别大家可以去网上搜索一下，有很多介绍。其实如果对mysql的使用比较熟悉的话，使用hive也就简单很多了，使用hive主要是写hql，hql是hive的sql语言，非常类似于mysql数据库的sql，后续学习hive的时候主要理解一些hive的语法特性即可。其实hive在执行hql，底层在执行的时候还是执行的mapredce程序。
注意：其实hive本身是很强大的，数据仓库的设计在工作中也是很重要的，但是前期学习的时候，主要先学会如何使用就好了。后期可以好好研究一下hive。

hbase

hbase是一个nosql 数据库，是一个key-value类型的数据库，底层的数据存储在hdfs上。在学习hbase的时候主要掌握 row-key的设计，以及列簇的设计。要注意一个特点就是，hbase基于rowkey查询效率很快，可以达到秒级查询，但是基于列簇中的列进行查询，特别是组合查询的时候，如果数据量很大的话，查询性能会很差。

redis

redis也是一个nosql 数据库和key-value类型的数据库，但是这个数据库是纯基于内存的，也就是redis数据库中的数据都是存储在内存中的，所以它的一个特点就是适用于快速读写的应用场景，读写可以达到10W次/秒，但是不适合存储海量数据，毕竟机器的内存是有限的，当然，redis也支持集群，也可以存储大量数据。在学习redis的时候主要掌握string，list，set，sortedset，hashmap这几种数据类型的区别以及使用，还有pipeline管道，这个在批量入库数据的时候是非常有用的，以及transaction事务功能。

flume

flume是一个日志采集工具，这个还是比较常用的，最常见的就是采集应用产生的日志文件中的数据。一般有两个流程，一个是flume采集数据存储到kafka中，为了后面使用storm或者sparkstreaming进行实时处理。另一个流程是flume采集的数据落盘到hdfs上，为了后期使用hadoop或者spark进行离线处理。在学习flume的时候其实主要就是学会看flume官网的文档，学习各种组建的配置参数，因为使用flume就是写各种的配置。

kafka

kafka 是一个消息队列，在工作中常用于实时处理的场景中，作为一个中间缓冲层，例如，flume->kafka->storm/sparkstreaming。学习kafka主要掌握topic，partition，replicate等的概念和原理。

storm

storm是一个实时计算框架，和hadoop的区别就是，hadoop是对离线的海量数据进行处理，而storm是对实时新增的每一条数据进行处理，是一条一条的处理，可以保证数据处理的时效性。学习storm主要学习topology的编写，storm并行度的调整，以及storm如何整合kafka实时消费数据。

spark

spark 现在发展的也很不错，也发展成了一个生态圈，spark里面包含很多技术，spark core，spark steaming，spark mlib，spark graphx。
spark生态圈里面包含的有离线处理spark core，和实时处理spark streaming，在这里需要注意一下，storm和spark streaming ，两个都是实时处理框架，但是主要区别是：storm是真正的一条一条的处理，而spark streaming 是一批一批的处理。
spark中包含很多框架，在刚开始学习的时候主要学习spark core和spark streaming即可。这个一般搞大数据的都会用到。spark mlib和spark graphx 可以等后期工作需要或者有时间了在研究即可。

elasticsearch

elasticsearch是一个适合海量数据实时查询的全文搜索引擎，支持分布式集群，其实底层是基于lucene的。在查询的时候支持快速模糊查询，求count，distinct，sum，avg等操作，但是不支持join操作。
elasticsearch目前也有一个生态圈，elk(elasticsearch logstash kibana)是一个典型的日志收集，存储，快速查询出图表的一整套解决方案。
在学习elasticsearch的时候，前期主要学习如何使用es进行增删改查，es中的index，type，document的概念，以及es中的mapping的设计。

　　目前暂且列出来这么多吧，大数据生态圈目前还有很多比较好的技术框架，这个就需要等大家以后工作之后再去扩展了。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：考关于架构师证架构师资格证

下一篇：网红公司架构网红公司例子

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯