1 SQL娴熟,这体现在ETL的hive阶段,自定义函数,分析函数,SQL各种关联写 (类dba倾向)

 

2 hive SQL优化要懂

 

3 mr流程要很熟悉, MR 优化,配置要知道,这在hive sql优化上有帮助,甚至有的hive写法很消耗效率,

   启动多个mr的时候,

   能自定义mr 来替代

 

4 大数据的ETL流程架构结合(mr hive hbase)

   大数据的流处理结构结合(flume kafka storm hbase)

 

5 spark 替代方案

 

6 数据完整性, 这里是指 从关系库oracle等到 hadoop系统后,

   你处理的数据个数要两者保证一致,  比如前者5000W 到后者 4900W

   你在大数据业务下处理后的数据结果要和业务要求匹配对,比如前者期待结果为 15元 后者结果为14元

 

7 Linux运维能力,这里为啥提这一点,在配合运维同事测试的时候,对问题的定位,这种对hadoop的熟悉

   linux的熟悉程度,决定了你处理问题的速率, 也间接决定了你的威信,价值。

 

这个过程需要很多硬功的积累,注定要很多压力,纠结, 且行且努力吧。