1、Linux
大数据集群主要建立在linux操作系统上,Linux是一套免费使用和自由传播的类Unix操作系统。而这部分的内容是大家在学习大数据中必须要学习的,只有学好Linux才能在工作中更加的得心应手。
2、Hadoop
我觉的大家听过大数据就一定会听过hadoop。Hadoop是一个能够对大量数据进行离线分布式处理的软件框架,运算时利用mapreduce对数据进行处理。在大数据中的用途,以及快速搭建一个hadoop的实验环境,在本过程中不仅将用到前面的Linux知识,而且会对hadoop的架构有深入的理解,并为你以后架构大数据项目打下坚实基础。
3、HDFS系统
HDFS是建立在多台节点上的分布式文件系统,用户可以通过hdfs命令来操作分布式文件系统。学习这部分内容是可以帮助大家详细剖析HDFS,从知晓原理到开发网盘的项目让大家打好学习大数据的基础,大数据之于分布式,分布式学习从学习分布式文件系统(HDFS)开始。
4、Hive
Hive是使用sql进行计算的hadoop框架,工作中常用到的部分,也是面试的重点,此部分大家将从方方面面来学习Hive的应用,任何细节都将给大家涉及到。
5、Storm实时数据处理
本部分学习过后,大家将全面掌握Storm内部机制和原理,通过大量项目实战,让大家拥有完整项目开发思路和架构设计,掌握从数据采集到实时计算到数据存储再到前台展示,所有工作一个人搞定!譬如可以一个人搞定淘宝双11大屏幕项目!不光从项目的开发的层次去实现,并可以从架构的层次站在架构师的角度去完成一个项目。
6、spark
大数据开发中最重要的部分!本部分内容的学习主要是涵盖了Spark生态系统的概述及其编程模型,深入内核的研究,Spark on Yarn,Spark Streaming流式计算原理与实践,Spark SQL,Spark的多语言编程以及SparkR的原理和运行。不仅面向项目开发人员,甚至对于研究Spark的学员,此部分都是非常有学习指引意义的部分。
7、Docker技术
Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化。容器是完全使用沙箱机制,相互之间不会有任何接口(类似 iPhone 的 app)。几乎没有性能开销,可以很容易地在机器和数据中心中运行。重要的是,他们不依赖于任何语言、框架包括系统。
以上知识点为笼统的总结,具体的学习思路可以找我获取!!!
当然除了这些知识点外还包括:redis、zookeeper、scala等等的,总之学习不可能一口吃个胖子。需要不断的积累总结,找到合适的学习资料和方法。