Prime_DSC_MentionCalcSpark系统简介实现功能 : 根据条件(siteId, startTime, endTime, campaignId, folder)从HBase数据源中读取文本数据作为输入,把提交的关键词作为条件,输出在文本中关键词提及的次数存在问题 : 对于大数据量的计算时间较长.解决思路 : 把HBase结果反射成TweetBean修改成TweetBea
http://blog.csdn.net/u010022051/article/details/48240173
iconv -f gb18030 -t utf8 1.txt -o 2.txt
1. Spark提交任务./spark-submit --class "com.prime.dsc.mention.main.WordCountForSpark" --master spark://DEV-HADOOP-01:7077 /data/server/spark-1.5.0-bin-hadoop2.6/sparkJar/PRIME_DSC_Mention-1.0.0-SNAPSHOT.j
Copyright © 2005-2025 51CTO.COM 版权所有 京ICP证060544号