spark中的算子调用:
1.aggregateByKey算子
def main(args : Array[String]):Unit={
		val conf: SparkConf = new SparkConf().setMaster("local").setAppName("aggregateByKey")
		val sc: SparkContext = new SparkContext(conf)
		val rdd: RDD[(String, Int)] = sc.makeRDD(List(("a", 1), ("a", 2), ("a", 3), ("b", 4)), 2)
		val value: RDD[(String, (Int, Int))] = rdd.aggregateByKey((0, 0))((x, y) => (x._1 + 1, x._2 + y), (x, y) => (x._1 + y._1, y._2 + x._2))
		value.collect().foreach(println)
		sc.stop()
	}
	其中aggregateByKey的
		--第一个参数:第一个value的默认值
		--第二个参数:在分区内的运算
		--第三个参数:在分区见的运算
计算目的是: (相同的K,(K出现的次数,V))



2.reduceByKey算子
def main(args : Array[String]):Unit={
		val conf: SparkConf = new SparkConf().setMaster("local").setAppName("reduceBykey")
		val sc: SparkContext = new SparkContext(conf)
		val rdd: RDD[(String, Int)] = sc.makeRDD(List(("a", 1), ("a", 2), ("a", 3), ("b", 4)), 2)
		val value: RDD[(String, Int)] = rdd.reduceByKey((x, y) => x + y)
		value.collect().foreach(println)
		sc.stop()
	}
reduceByKey的参数是  -- 分区内与分区间的计算逻辑
计算目的:(相同的K,V的和)


3.foldByKey算子
def main(args : Array[String]):Unit={
		val conf: SparkConf = new SparkConf().setMaster("local").setAppName("foldByKey")
		val sc: SparkContext = new SparkContext(conf)
		val rdd: RDD[(String, Int)] = sc.makeRDD(List(("a", 1), ("a", 2), ("a", 3), ("b", 4)), 2)
		val value: RDD[(String, Int)] = rdd.foldByKey(0)((x, y) => x + y)
		value.collect().foreach(println)
		sc.stop()
	}
	foldByKey的参数列表:
			-- 第一个参数:表示我们定义的默认值
			-- 第二个参数:表示分区内和分区间的相同逻辑
	计算目的:(相同的K,V的和)


4.combineByKey算子
def main(args : Array[String]):Unit={
		val conf: SparkConf = new SparkConf().setMaster("local").setAppName("combinBykey")
		val sc: SparkContext = new SparkContext(conf)
		val rdd: RDD[(String, Int)] = sc.makeRDD(List(("a", 1), ("a", 2), ("a", 3), ("b", 4)), 2)
		val value: RDD[(String, Int)] = rdd.combineByKey(x => x, (x: Int, y: Int) => math.max(x, y), (x: Int, y: Int) => x + y)
		value.foreach(println)
		sc.stop()
	}
	combineByKey算子的参数:
			--第一个参数:可以将我们定义的默认值转化为其他类型的值
			--第二个参数:是分区内的逻辑计算
			--第三个参数:是分区间的逻辑计算
	注意:中间要表明类型,因为scala的推断机制无法推断两层,中间产生了断层
 计算目的:(相同的K,V的和)
中间多次提到:分区内的逻辑计算和分区间的逻辑计算
	说明:

读取数据之后,我们将分为两个分区,分别是0分区和1分区
0分区				1分区
					

此时分区内有			此时分区内有
多组数据,第			多组数据,第
一次计算逻辑			一次计算逻辑
就是指这次分			就是指这次分
区的逻辑计算			区的逻辑计算

		由于数据量太大
		不能一直占用内
		存,所以先将数
		据落地到此磁盘
		依然是两个分区

等全部计算完成,再次分别传输到0分区和1分区里面


0分区			1分区

	此时就是我们说的计算
	分区间的逻辑,对两个
	分区的数据进行聚合计
	算,得出最后结果
reduceBykey算子、aggregateByKey算子、foldByKey算子、combineByKey算子的区别

def main(args:Array[String]):Unit={
		val conf: SparkConf = new SparkConf().setMaster("local").setAppName("test")
		val sc: SparkContext = new SparkContext(conf)
		val rdd: RDD[(String, Int)] = sc.makeRDD(List(("a", 1), ("a", 2), ("a", 3), ("b", 4)), 2)
		rdd.reduceByKey((x,y)=>x+y)
		rdd.aggregateByKey(0)((x,y)=>x+y,(x,y)=>x+y)
		rdd.foldByKey(0)((x,y)=>x+y)
		rdd.combineByKey(x=>x,(x:Int,y:Int)=>x+y,(x:Int,y:Int)=>x+y)
		sc.stop()
	}
	全部都是计算分区间相同K的V的和
	可以看出他们只是参数不一样,或者代表的意义不一样,在底层源码都是调用了相同的方法