一、Hadoop部署,Hadoop之父------》Doug  cutting 

(1)Cloudera                    25%

(2)Hortonworks              15%

(3)Others                         20%

加起来并不是100%

 

二、预计到2016年数据分析有1600万的缺口

认证   数据分析师、大数据架构师

 

三、Cloudera考试,获得Hadoop生态系统全方位的体验

1、具备基本Linux系统管理经验

2、MapReduce和HDFS的内置及如何搭建Hadoop框架

3、搭建Hadoop集群所需要考虑的网络因素

4、通过合适的集群配置和部署集成系统与数据中心的硬件

5、如何利用Hadoop配置选项进行系统性能的调优

6、如何使用Flume加载动态生成文件及使用Sqoop连接关系数据库

7、配置FairScheduler为集群多用户提供服务级别协议

8、为集群安装和实施基Kerberos的安全性

9、Hadoop集群维护和监控

10、排错,诊断,调优和解决Hadoop问题

11、使用其他Hadoop相关系统工具(如Hive、Pig和HBase)所涉及到的系统管理问题

 

三、大数据时代

1、大数据技术难以copy,所以创造的价值很高

2、零售商

(1)了解客户需求、进行精准营销

(2)再推荐相关产品

(3)利用之前的购买行为产生的大数据进行分析,为下次的选择做推荐

(4)预测未来

3、分析数据是为了做决策而准备

(1)那些时间段什么商品卖的最好

(2)哪些商品关联在一起卖的最好

(3)哪些门店卖的商品最好

 

四、当前

1、2大雄:阿里、腾讯

2、3帅:百度、小米、京东

3、4杰:58+赶集、滴滴+快滴、去哪儿+携程、网易+360+唯品会

 

五、去哪儿的商业价值

1、怎样为公司赚钱?

2、怎样为公司省钱?

3、How

(1)怎样告诉老板这个钱值得投资

4、搭建平台

 

革新业务                   大数据优化业务流程

        ^

        |  

        |

监控业务                      开发报表系统

      ^

      |

      |

整合数据                       数据中心

     ^

     |

     |

搭建平台                      大数据平台

 

注:Flume用于搜集日志数据(数据库、服务器等日志)

5、去哪儿基于2个维度进行分析

(1)顾客维度

 

(2)订单维度

 

6、升级Hadoop时遇到的问题

懂业务、BRI、出报表、大概有400多个模块的处理

 

7、大数据平台选用的原则

(1)够用原则                    ----------》若每天只有小于1TB的数据,那么10台服务器的节点集群即可

(2)主流原则                    ----------》技术成熟且BAT公司都用,能保证安全

(3)可扩展原则&有剩余-----------》考虑公司2到3年的发展

(4)低成本原则               -----------》考虑节约成本

 

8、遇到的问题

(1)、Flume的2个Bug

文件打开后不能关闭并且占用内存

(2)、各种业务线为集群资源分配二打架

(3)、兼容性问题:以后升级时一定要保留旧版本

 

注:

目前有10台机器  9台(64G) + 1台(256G)

        问题:9台常常cpu使用率达到90%以上

                    (1)业务高峰      -------------------》分散队列

                    (2)限制内存     --------------------》限制内存使用量

 

9、业务收集数据

(1)保证数据完整  -----便于精准分析

(2)数据逻辑         ------集中+梳理

(3)数据共享         ------机票+酒店+火车票+***

(4)数据实时性     ------kafa 、 storm、spark技术保证计算的实时性,1小时内

 

10、案例:All---In---One系统

(1)数据库

mysql +oracle+ sql server +pg

(2)技术

flume收集日志

使用从库

    缺点:延时、耗资源,所以不用

 HBase处理

    常选用的方法,因为成本小、不耗资源。

 

11、去哪儿的理念

消费者第一

客户第二

去哪儿第三

 

12、提供用户画像需要考虑

(1)基本属性

(2)购买能力

(3)行为特征

(4)心理特征

(5)兴趣爱好

关键是:**敏感度

 

13、怎样判断用户的工作类型

(1)GPS合作

(2)发票

作用:了解顾客想要的服务态度!服务态度是第一位!

 

用户画像:

 

姓名---------》                                                                  《---------------------------爱好                        

敏感度-------》                                    用户                     《---------------------------投诉

 

14、如何降低投诉、提升服务质量?

(1)把最紧急的资源用于解决最着急的问题

      大数据分析获取到拔打电话10次以上的用户,依次回拨

(2)合理分配资源,利用大数据处理技术做结果显示频用于决策

 

15、量子统计,如何帮助客户赚钱

例:

定制化产品

        +                  --------------定向直达----------->>            有实际需求的用户

     服务

 

四、互动

1、如何确定平台节点的数量为10个

     如果企业是刚起步,而且数据量比较小,但是可能过了2年后会增加,那么选用Hadoop的最小节点数是10

2、如何合作

需要关系、搞定高层就能搞定问题(原因:决策在于高层,这要靠ppt的实际暂时以及口才)、贵阳大数据交易中心

 

3、Hadoop和spark

(1)spark   ----》下一代基于内存,性能好  速度快      spark偏于管理和分配  2016年的头等大戏是spark

(2)hadoop---》存储+计算

*****hadoop和spark必然要一起合作才能共赢?

4、storm和kafka技术

举例:计算有效的点击次数,爬虫技术

         如,同一个Ip在1s内点击了60次,这是人工不可能做到的

storm与spark比较

storm:实时性好,但是吞吐量小,处理时间100ms内

spark:实时性不好,但是吞吐量大,处理时间500ms内

 

5、银行互联网金融业面临问题

(1)创新

(2)成本