1 SQL娴熟,这体现在ETL的hive阶段,自定义函数,分析函数,SQL各种关联写 (类dba倾向)
2 hive SQL优化要懂
3 mr流程要很熟悉, MR 优化,配置要知道,这在hive sql优化上有帮助,甚至有的hive写法很消耗效率,
启动多个mr的时候,
能自定义mr 来替代
4 大数据的ETL流程架构结合(mr hive hbase)
大数据的流处理结构结合(flume kafka storm hbase)
5 spark 替代方案
6 数据完整性, 这里是指 从关系库oracle等到 hadoop系统后,
你处理的数据个数要两者保证一致, 比如前者5000W 到后者 4900W
你在大数据业务下处理后的数据结果要和业务要求匹配对,比如前者期待结果为 15元 后者结果为14元
7 Linux运维能力,这里为啥提这一点,在配合运维同事测试的时候,对问题的定位,这种对hadoop的熟悉
linux的熟悉程度,决定了你处理问题的速率, 也间接决定了你的威信,价值。
这个过程需要很多硬功的积累,注定要很多压力,纠结, 且行且努力吧。