hbase单行存储量 hbase能存多大数据_大数据


首先,大数据的定义是什么?很多人都在说要进入大数据行业,要学习大数据技术,但往往对大数据都是一知半解,科多大数据先和大家来看看百度百科对大数据的定义:


hbase单行存储量 hbase能存多大数据_大数据_02


来抓重点,常规的软件工具处理不了的,就必须要用新的技术,那能解决以上问题的技术就是大数据技术。

大数据新手学习交流群,如果有想学习大数据或者交流经验的都可以加入,一起互相学习交流:→→→点击我即可加入圈子

大数据的技术是一个技术群落,想全部学习短期内是不现实的,那么我们怎么样科学的有逻辑有规划的来学习,怎么进行大数据的入门学习呢?我们得了解大数据行业里,有哪些岗位,我们直接从工作岗位的技能需求来倒推我们如何学习大数据,如何有侧重点的来学习。

第一,先看看有哪些岗位,当然大公司会分的比较详细,中小企企业相对要求会全面一些

先看看如下这幅图,图没有很详细,我再做解答


hbase单行存储量 hbase能存多大数据_hbase单行存储量_03


我们从整个数据项目的业务流程出发,(以上所有岗位都对编程有要求,所以编程基础是必不可少的)

第一, 大数据工程师,众所周知,在没有大数据以前,行业应用已经非常成熟了,最早大家只关注功能的实现,接着重视前台的界面,前端工程师因此火了一段时间,因为以前数据量不大,所以在功能上并不重视,由于移动互联网的发展,数据量非常庞大了,这个时候单机服务器不能解决问题,那么分布式集群就出现了,大数据工程师的职责就是搭建大数据平台,所以从上图可以得知,大数据工程师,需要有java基础(行业应用大部分是java语言编写的),所以,今后想从事该岗位的,那么学习的路线图如下

java基础----linux----hadoop-----hive、hbase----scala---spark

第二, 算法工程师,该岗位零基础的小伙伴就请止步吧,更适用于数学专业的研究生及以上学历,对数据基础要求比较高。

第三, 数据挖掘工程师,建议从python入手,毕竟python里面有大量的数据科学的包,也有pyspark,直接从spark里面调数据,不用学习Scala语言(spark的编程语言是Scala),学习的路线如下:

python基础—python web(强化编程基础)--数学基础补充(线性代数、概率统计、离散数学)--python numpy pandas包---机器学习算法---深度学习

第四, 数据分析师,该岗位对数学基础要求不高,但对综合素质要求非常高,能充分的理解行业行情、公司运营、产品运作、对市场敏锐度较高。具备一定的编程基础,建议学习python,能熟练使用相关的工具,如excel,sas、spss等,能写漂亮的文章做PPT就行,数学基础不好的女生可以建议走该方向。

学习路线:python基础—python numpy pandas包---excel—spss---sas

第五, 大数据可视化,该岗位需要前端的相关基础,大数据运维工程师,也不多做介绍了。

根据以上的岗位介绍,对自己做一个整体的规划

个人是建议从大数据工程师入手,从java基础开始学,毕竟编程基础是每个岗位都需要的,而且java的适用面是最广的,虽然现在python的势头很足,但相对java来说,python比较简单,只要java能熟练使用了,要学会python,两周的时间就没问题,从长远的职业规划来说,学习没有速成的方法,脚踏实地才是最重要的。

我这有大数据工程师详细的学习的计划,分享给大家,希望对你们有帮助。

第一阶段:静态网页基础(HTML+CSS)

1. 难易程度:一颗星

2. 主要技术包括:html常用标签、CSS常见布局、样式、定位等、静态页面的设计制作方式等

第二阶段:JavaSE+JavaWeb

1. 难易程度:两颗星

2. 主要技术包括:java基础语法、java面向对象(类、对象、封装、继承、多态、

抽象类、接口、常见类、内部类、常见修饰符等) 、异常、集合、文件、IO、

MYSQL(基本SQL语句操作、多表查询、子查询、存储过程、事务、分布式事务)

JDBC、线程、反射、Socket编程、枚举、泛型、设计模式

第三阶段:前端框架

1. 难易程序:两星

2. 主要技术包括:Java、Jquery、注解反射一起使用,XML以及XML解析、解析dom4j、jxab、jdk8.0新特性、SVN、Maven、easyui

第四阶段:企业级开发框架

1. 难易程序:三颗星

2. 主要技术包括:Hibernate、Spring、SpringMVC、log4j slf4j 整合、myBatis、struts2、Shiro 、redis、流程引擎activity, 爬虫技术nutch,lucene,webService CXF、Tomcat集群和热备 、MySQL读写分离

第五阶段: 初识大数据

1. 难易程度:三颗星

2. 主要技术包括:大数据前篇(什么是大数据,应用场景,如何学习大数据库,虚拟机概念和安装等)、Linux常见命令(文件管理、系统管理、磁盘管理)、Linux Shell编程(SHELL变量、循环控制、应用)、Hadoop入门(Hadoop组成、单机版环境、目录结构、HDFS界面、MR界面、简单的SHELL、java访问hadoop)、HDFS(简介、SHELL、IDEA开发工具使用、全分布式集群搭建)、MapReduce应用(中间计算过程、Java操作MapReduce、程序运行、日志监控)、Hadoop高级应用(YARN框架介绍、配置项与优化、CDH简介、环境搭建)、扩展(MAP 端优化,COMBINER 使用方法见,TOP K,SQOOP导出,其它虚拟机VM的快照,权限管理命令,AWK 与 SED命令)

第六阶段:大数据数据库

1. 难易程度:四颗星

2. 主要技术包括:Hive入门(Hive简介、Hive使用场景、环境搭建、架构说明、工作机制)、Hive Shell编程(建表、查询语句、分区与分桶、索引管理和视图)、Hive高级应用(DISTINCT实现、groupby、join、sql转化原理、java编程、配置和优化)、hbase入门、Hbase SHELL编程(DDL、DML、Java操作建表、查询、压缩、过滤器)、细说Hbase模块(REGION、HREGION SERVER、HMASTER、ZOOKEEPER简介、ZOOKEEPER配置、Hbase与Zookeeper集成)、HBASE高级特性(读写流程、数据模型、模式设计读写热点、优化与配置)

第七阶段:实时数据采集

1. 难易程序:四颗星

2. 主要技术包括:Flume日志采集,KAFKA入门(消息队列、应用场景、集群搭建)、KAFKA详解(分区、主题、接受者、发送者、与ZOOKEEPER集成、Shell开发、Shell调试)、KAFKA高级使用(java开发、主要配置、优化项目)、数据可视化(图形与图表介绍、CHARTS工具分类、柱状图与饼图、3D图与地图)、STORM入门(设计思想、应用场景、处理过程、集群安装)、STROM开发(STROM MVN开发、编写STORM本地程序)、STORM进阶(java开发、主要配置、优化项目)、KAFKA异步发送与批量发送时效,KAFKA全局消息有序,STORM多并发优化

第八阶段:SPARK数据分析

1. 难易程序:五颗星

2. 主要技术包括:SCALA入门(数据类型、运算符、控制语句、基础函数)、SCALA进阶(数据结构、类、对象、特质、模式匹配、正则表达式)、SCALA高级使用(高阶函数、科里函数、偏函数、尾迭代、自带高阶函数等)、SPARK入门(环境搭建、基础结构、运行模式)、Spark数据集与编程模型、SPARK SQL、SPARK 进阶(DATA FRAME、DATASET、SPARK STREAMING原理、SPARK STREAMING支持源、集成KAFKA与SOCKET、编程模型)、SPARK高级编程(Spark-GraphX、Spark-Mllib机器学习)、SPARK高级应用(系统架构、主要配置和性能优化、故障与阶段恢复)、SPARK ML KMEANS算法,SCALA 隐式转化高级特性。