hbase单行存储量 hbase能存多大数据

转载

boyboy 2024-06-26 17:58:07

文章标签 hbase单行存储量 hbase的学习逻辑大数据 python SPARK 文章分类 Hbase 数据库

hbase单行存储量 hbase能存多大数据_大数据

首先，大数据的定义是什么？很多人都在说要进入大数据行业，要学习大数据技术，但往往对大数据都是一知半解，科多大数据先和大家来看看百度百科对大数据的定义：

hbase单行存储量 hbase能存多大数据_大数据_02

来抓重点，常规的软件工具处理不了的，就必须要用新的技术，那能解决以上问题的技术就是大数据技术。

大数据新手学习交流群，如果有想学习大数据或者交流经验的都可以加入，一起互相学习交流：→→→点击我即可加入圈子

大数据的技术是一个技术群落，想全部学习短期内是不现实的，那么我们怎么样科学的有逻辑有规划的来学习，怎么进行大数据的入门学习呢？我们得了解大数据行业里，有哪些岗位，我们直接从工作岗位的技能需求来倒推我们如何学习大数据，如何有侧重点的来学习。

第一，先看看有哪些岗位，当然大公司会分的比较详细，中小企企业相对要求会全面一些

先看看如下这幅图，图没有很详细，我再做解答

hbase单行存储量 hbase能存多大数据_hbase单行存储量_03

我们从整个数据项目的业务流程出发，（以上所有岗位都对编程有要求，所以编程基础是必不可少的）

第一，大数据工程师，众所周知，在没有大数据以前，行业应用已经非常成熟了，最早大家只关注功能的实现，接着重视前台的界面，前端工程师因此火了一段时间，因为以前数据量不大，所以在功能上并不重视，由于移动互联网的发展，数据量非常庞大了，这个时候单机服务器不能解决问题，那么分布式集群就出现了，大数据工程师的职责就是搭建大数据平台，所以从上图可以得知，大数据工程师，需要有java基础（行业应用大部分是java语言编写的），所以，今后想从事该岗位的，那么学习的路线图如下

java基础----linux----hadoop-----hive、hbase----scala---spark

第二，算法工程师，该岗位零基础的小伙伴就请止步吧，更适用于数学专业的研究生及以上学历，对数据基础要求比较高。

第三，数据挖掘工程师，建议从python入手，毕竟python里面有大量的数据科学的包，也有pyspark，直接从spark里面调数据，不用学习Scala语言（spark的编程语言是Scala），学习的路线如下：

python基础—python web（强化编程基础）--数学基础补充（线性代数、概率统计、离散数学）--python numpy pandas包---机器学习算法---深度学习

第四，数据分析师，该岗位对数学基础要求不高，但对综合素质要求非常高，能充分的理解行业行情、公司运营、产品运作、对市场敏锐度较高。具备一定的编程基础，建议学习python，能熟练使用相关的工具，如excel，sas、spss等，能写漂亮的文章做PPT就行，数学基础不好的女生可以建议走该方向。

学习路线：python基础—python numpy pandas包---excel—spss---sas

第五，大数据可视化，该岗位需要前端的相关基础，大数据运维工程师，也不多做介绍了。

根据以上的岗位介绍，对自己做一个整体的规划

个人是建议从大数据工程师入手，从java基础开始学，毕竟编程基础是每个岗位都需要的，而且java的适用面是最广的，虽然现在python的势头很足，但相对java来说，python比较简单，只要java能熟练使用了，要学会python，两周的时间就没问题，从长远的职业规划来说，学习没有速成的方法，脚踏实地才是最重要的。

我这有大数据工程师详细的学习的计划，分享给大家，希望对你们有帮助。

第一阶段：静态网页基础（HTML+CSS）

1. 难易程度：一颗星

2. 主要技术包括：html常用标签、CSS常见布局、样式、定位等、静态页面的设计制作方式等

第二阶段：JavaSE+JavaWeb

1. 难易程度：两颗星

2. 主要技术包括：java基础语法、java面向对象（类、对象、封装、继承、多态、

抽象类、接口、常见类、内部类、常见修饰符等）、异常、集合、文件、IO、

MYSQL(基本SQL语句操作、多表查询、子查询、存储过程、事务、分布式事务)

JDBC、线程、反射、Socket编程、枚举、泛型、设计模式

第三阶段：前端框架

1. 难易程序：两星

2. 主要技术包括：Java、Jquery、注解反射一起使用，XML以及XML解析、解析dom4j、jxab、jdk8.0新特性、SVN、Maven、easyui

第四阶段：企业级开发框架

1. 难易程序：三颗星

2. 主要技术包括：Hibernate、Spring、SpringMVC、log4j slf4j 整合、myBatis、struts2、Shiro 、redis、流程引擎activity，爬虫技术nutch,lucene，webService CXF、Tomcat集群和热备、MySQL读写分离

第五阶段：初识大数据

1. 难易程度：三颗星

2. 主要技术包括：大数据前篇（什么是大数据，应用场景，如何学习大数据库，虚拟机概念和安装等）、Linux常见命令(文件管理、系统管理、磁盘管理)、Linux Shell编程（SHELL变量、循环控制、应用）、Hadoop入门（Hadoop组成、单机版环境、目录结构、HDFS界面、MR界面、简单的SHELL、java访问hadoop）、HDFS(简介、SHELL、IDEA开发工具使用、全分布式集群搭建)、MapReduce应用(中间计算过程、Java操作MapReduce、程序运行、日志监控)、Hadoop高级应用(YARN框架介绍、配置项与优化、CDH简介、环境搭建)、扩展(MAP 端优化，COMBINER 使用方法见,TOP K,SQOOP导出,其它虚拟机VM的快照,权限管理命令,AWK 与 SED命令)

第六阶段：大数据数据库

1. 难易程度：四颗星

2. 主要技术包括：Hive入门（Hive简介、Hive使用场景、环境搭建、架构说明、工作机制）、Hive Shell编程（建表、查询语句、分区与分桶、索引管理和视图）、Hive高级应用(DISTINCT实现、groupby、join、sql转化原理、java编程、配置和优化)、hbase入门、Hbase SHELL编程(DDL、DML、Java操作建表、查询、压缩、过滤器)、细说Hbase模块（REGION、HREGION SERVER、HMASTER、ZOOKEEPER简介、ZOOKEEPER配置、Hbase与Zookeeper集成）、HBASE高级特性(读写流程、数据模型、模式设计读写热点、优化与配置)

第七阶段：实时数据采集

1. 难易程序：四颗星

2. 主要技术包括：Flume日志采集，KAFKA入门（消息队列、应用场景、集群搭建）、KAFKA详解（分区、主题、接受者、发送者、与ZOOKEEPER集成、Shell开发、Shell调试）、KAFKA高级使用（java开发、主要配置、优化项目）、数据可视化（图形与图表介绍、CHARTS工具分类、柱状图与饼图、3D图与地图）、STORM入门（设计思想、应用场景、处理过程、集群安装）、STROM开发（STROM MVN开发、编写STORM本地程序）、STORM进阶（java开发、主要配置、优化项目）、KAFKA异步发送与批量发送时效，KAFKA全局消息有序，STORM多并发优化

第八阶段：SPARK数据分析

1. 难易程序：五颗星

2. 主要技术包括：SCALA入门(数据类型、运算符、控制语句、基础函数)、SCALA进阶(数据结构、类、对象、特质、模式匹配、正则表达式)、SCALA高级使用（高阶函数、科里函数、偏函数、尾迭代、自带高阶函数等）、SPARK入门(环境搭建、基础结构、运行模式)、Spark数据集与编程模型、SPARK SQL、SPARK 进阶（DATA FRAME、DATASET、SPARK STREAMING原理、SPARK STREAMING支持源、集成KAFKA与SOCKET、编程模型）、SPARK高级编程（Spark-GraphX、Spark-Mllib机器学习）、SPARK高级应用（系统架构、主要配置和性能优化、故障与阶段恢复）、SPARK ML KMEANS算法，SCALA 隐式转化高级特性。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。