Hadoop入门

1 大数据概论

1.1 大数据概念

大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。

1.2 大数据特点(4V)

容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息
种类(Variety):数据类型的多样性
速度(Velocity):指获得数据的速度
可变性(Variability):妨碍了处理和有效地管理数据的过程
真实性(Veracity):数据的质量
复杂性(Complexity):数据量巨大,来源多渠道
价值(value):合理运用大数据,以低成本创造高价值

1.3 大数据应用场景

1、物流仓库:大数据分析系统助力商家精细化运营、提升销量、节约成本。
2、零售:分析用户消费习惯,为用户购买提供方便,从而提升商品销量
3、旅游:3、旅游:深度结合大数据能力与旅游行业需求,共建旅游产业智慧管理、智慧服务和智慧营销的未来。
4、商品广告推荐:给用户推荐可能喜欢的商品
5、保险:海量数据挖掘及风险预测,助力保险
行业精准营销,提升精细化定价能力。
6、金融:多维度体现用户特征,帮助金融机构
推荐优质客户,防范欺诈风险。
7、房产:大数据全面助力房地产行业,打造精准
投策与营销,选出更合适的地,建造更合适的楼,
卖给更合适的人。
8:人工智能

1.4 大数据发展前景

1.大数据就业前景

2.大数据就业方向

3.大数据职业发展

一、大数据就业前景

据职业社交平台发布《2016年中国互联网最热只为人才报告》显示,研发工程师、产品经理、人力资源、市场营销、运营和数据分析是当下互联网行业中需求量最大的岗位,特别是数据分析师的供给指数最低,仅为0.05,属于高度稀缺岗位。数据分析人才跳槽速度也很快,平均跳槽速度为19.8个月。根据中国商业联合会数据分析专业委员会统计,未来中国基础性数据分析人才缺口将会达到1400万,而在BAT企业招聘的岗位中,60%以上都是在招大数据人才。

二、大数据就业方向

1.Hadoop大数据开发方向

市场需求旺盛,大数据培训的主题,目前IT培训机构的重点。对应岗位:大数据开发工程师、爬虫工程师、数据分析师

2.数据挖掘、数据分析、机器视觉学习方向

学习起点高、难度大,市面上的培训机构相对比较少。对应岗位:数据科学家、数据挖掘工程师、机器视觉工程师

3.大数据运维、云计算方向

市场需求中等,更偏向于Linux、云计算。对应岗位:大数据运维工程师、Linux云计算工程师

三、大数据职业发展

大数据开发工程师、爬虫工程师、数据分析师、数据科学家、数据挖掘工程师、机器视觉工程师、大数据运维工程师、Linux云计算工程师。

1.5 大数据部门业务流程分析

一:数据源
数据的来源
关系型数据库
订单表、用户表、地址信息
日志文件
用户行为数据
打开了哪些页面(网页、App),点击了页面上哪些按钮

二:数据采集
常用数据采集导入框架
sqool:用于RDBMS与HDFS之间数据导入与导出
flume:采集日志文件数据,动态采集日志文件,数据流
flume采集到的数据,一份给HDFS,用于做离线分析;一份给Kafka,实时处理

kafka:主要用于实时的数据流处理
flume与kafka都有类似消息队列的机制,来缓存大数据环境处理不了的数据

三:数据存储
常用数据存储框架
HDFS
Hive
HBase

四:数据清洗
即对数据进行过滤,得到具有一定格式的数据源
常用框架(工具)
MapReduce、Hive(ETL)、SparkCore

五:数据分析
对经过数据清洗后的数据进行分析,得到某个指标
常用框架(工具)
MapReduce、Hive、SparkSQL、impala

六:数据展示
即将数据分析后的结果展示出来,也可以理解为数据的可视化
以图或者表具体的形式展示出来

常用工具
Javaweb、帆软、hcharts、echarts

1.6 大数据部门组织结构

平台组
框架平台搭建
Hadoop
flume
kafka
hbase
spark
集群性能监控
集群性能调优
数据仓库组
ETL工程师-数据清洗(实习生)
Hive工程师-数据分析,数据仓库建模
数据挖掘组
算法工程师
推荐系统工程师
用户画像工程师
报表开发组
JavaEE工程师