>>> rdd = sc.parallelize([("bone", 231), ("bone", 21213), ("jack",1)])
>>> rdd.groupByKey().map(lambda x: sum(x[1])).collect()
[1, 21444]
>>> rdd.groupByKey().map(lambda x: (x[0],sum(x[1]))).collect()
[('jack', 1), ('bone', 21444)]
>>> rdd.groupByKey().map(lambda x: (x[0],sum(x[1].data))).collect()
[('jack', 1), ('bone', 21444)]
>>> rdd.groupByKey().mapValues(lambda x: sum(x)).collect()
[('jack', 1), ('bone', 21444)]
>>> rdd.groupByKey().mapValues(lambda x: sum(x.data)).collect()
[('jack', 1), ('bone', 21444)]
spark groupByKey().mapValues
原创
©著作权归作者所有:来自51CTO博客作者bonelee的原创作品,请联系作者获取转载授权,否则将追究法律责任
提问和评论都可以,用心的回复会被更多人看到
评论
发布评论
相关文章
-
Spark mapValues
Spark mapValues
spark apache List -
groupbykey之后 spark spark的groupbykey方法
决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 【第3期互动问答分享】 Q1: groupbykey是排好序的吗?分组排序怎么实现? groupByKey在一个由(K,V)对组成的数据集上调用,返回一个(K,Seq[V])对的数据集,所以是没有排序的; &n
groupbykey之后 spark spark教程 spark问答 spark热点 spark技术