大数据工程师有多种解释,一种是用大数据的,就是data scientist这种,一种是开发大数据平台的,就是平台开发工程师,比如写hadoop,hive的某个组件的工程师。

2.如果是走应用这个路线,需要的技能包括:sql,java,mapreduce job的编写,一些比较简单的脚本编写,再加上一些数据分析领域的东西,比如统计,机器学习等等。

3.如果是走底层开发这个路线的,需要的技能基本上是比较硬的开发技能,很多都需要了解语言的高级特性,软件开发模式呀,抽象呀,操作系统怎么用,编译啊,测试呀。这种开发学习曲线比较陡峭一点。

 

软考 论大数据架构的开发论文 大数据软件开发工程师_大数据开发

 

 

大数据本质其实也是数据,不过也包括了些新的特征,

  • 数据来源广;
  • 数据格式多样化(结构化数据、非结构化数据、Excel文件等);
  • 数据量大(最少也是TB级别的、甚至可以是PB级别);
  • 数据增长速度快。

而针对以上新的特征需求思索很多成果:

例如,数据来源广,该如何采集汇总?采集汇总之后,又该存储呢?数据存储之后,该如何经过运算转化本钱人想要的结果呢?

关于这些成果,我们需求有相对应的知识处置。

二、大数据所需技艺要求

 

软考 论大数据架构的开发论文 大数据软件开发工程师_大数据开发_02

Python言语:编写一些脚本时会用到。

Scala言语:编写Spark顺序的最佳言语,当然也可以选择用Python。

Ozzie,azkaban:定时义务调度的工具。

Hue,Zepplin:图形化义务执行管理,结果反省工具。

Allluxio,Kylin等:经过对存储的数据中止预处置,加快运算速度的工具。

 

软考 论大数据架构的开发论文 大数据软件开发工程师_大数据_03

必需掌握的技艺:

Java初级(虚拟机、并发)、Linux 基本操作、Hadoop(HDFS+MapReduce+Yarn )、 HBase(JavaAPI操作+Phoenix )、Hive(Hql基本操作和原理理解)、 Kafka、Storm/JStorm、Scala、Python、Spark (Core+sparksql+Spark streaming ) 、辅佐小工具(Sqoop/Flume/Oozie/Hue等)

高阶技艺6条:

机器学习算法以及mahout库加MLlib、 R言语、Lambda 架构、Kappa架构、Kylin、Alluxio

三、学习规划

每天需求有3个小时的学习时间,周末的时分需求10小时,假设做不到的话,只能是

第一阶段(基础阶段)

  1. Linux学习
    Linux操作系统引见与安装、Linux常用命令、Linux常用软件安装、Linux网络、 防火墙、Shell编程等。
  2. Java 初级学习(《深化理解Java虚拟机》、《Java高并发实战》)
    掌握多线程、掌握并发包下的队列、掌握JVM技术、掌握反射和静态代理、了解JMS。
  3. Zookeeper学习
    Zookeeper分布式协调效力引见、Zookeeper集群的安装部署、Zookeeper数据结构、命令。

第二阶段(攻坚阶段)

Hadoop、Hive、HBase、Scala、Spark、Python

第三阶段(辅佐工具工学习阶段)


 

软考 论大数据架构的开发论文 大数据软件开发工程师_大数据开发_04

软考 论大数据架构的开发论文 大数据软件开发工程师_大数据学习_05

 

总结

在技术行业里面,每天都会有新的东西出现,需求关注最新技术静态,不时学习。任何普通技术都是先学习实践,然后在实际中不时完善实践的进程。

  • 假设你觉得自己看书效率太慢,你可以网上搜集一些课程。
  • 快速学习的才干、处置成果的才干、沟通才干在这个行业是真的非常重要的目的。
  • 要擅长运用StackOverFlow和Google来帮助你学习进程遇到的成果。

以上是我们对大数据学习的总结,当然我们也提到了,并不是说零基础的就可以直接学习,需求有编程的基础,要先掌握扎实的编程基础,有一定编程阅历,自学起来也相对比末尾要复杂一点,然后对大数据有兴味或许想要进入这个行业的就可以去学习了 以上内容是我个人见解,希望对你有帮助不