项目名称:邮箱数据处理分析
环境搭建: hadoop-2.0 hive-0.10 zookeeper-3.4.5 jdk-6 sqoop-1.99
测试阶段:目前集群4台机器,处理数据14TB(听说会扩展到12台左右)
每天机器的硬件配置要求:X86服务器
4颗cpu(6核) 32GB内存 4TB硬盘 4千兆网口
用到的框架: hive
hive三种操作方式
$HIVE_HOME/bin/hive -e 'select * from t1'
$HIVE_HOME/bin/hive -f /home/my/hive-script.sql
交互模式 $HIVE_HOME/bin/hive
基本语法
UDP函数
性能优化
使用工具:SecureCTR
部署服务器:tomcat
展示方式:前段web展示,ETL自动调度
日常工作:脚本编写,数据验证
发展方向:技术和架构
自学和实际工作的差异?
a) jdbc和封装的框架(hibernate,mybatis)
b) Mapreduce和封装的框架(hive)
对于学习,做到哪点?
a) 完成所有集群的搭建
b)出错,请认真看看