邮箱数据处理分析

原创

chenghaijiang 2014-11-21 16:51:00 ©著作权

©著作权归作者所有：来自51CTO博客作者chenghaijiang的原创作品，请联系作者获取转载授权，否则将追究法律责任

项目名称：邮箱数据处理分析

环境搭建： hadoop-2.0 hive-0.10 zookeeper-3.4.5 jdk-6 sqoop-1.99

测试阶段：目前集群4台机器，处理数据14TB(听说会扩展到12台左右)

每天机器的硬件配置要求：X86服务器

4颗cpu（6核） 32GB内存 4TB硬盘 4千兆网口

用到的框架： hive

hive三种操作方式

$HIVE_HOME/bin/hive -e 'select * from t1'

$HIVE_HOME/bin/hive -f /home/my/hive-script.sql

交互模式 $HIVE_HOME/bin/hive

基本语法

UDP函数

性能优化

使用工具：SecureCTR

部署服务器：tomcat

展示方式：前段web展示，ETL自动调度

日常工作：脚本编写，数据验证

发展方向：技术和架构

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯