spark-常用算子

<h3>spark算子介绍</h3>
Spark的算子的分类
1、从大方向来说，Spark 算子大致可以分为以下两类:
1）Transformation 变换/转换算子：这种变换并不触发提交作业，完成作业中间过程处理。
Transformation 操作是延迟计算的，也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行，需要等到有 Action 操作的时候才会真正触发运算。
2）Action 行动算子：这类算子会触发 SparkContext 提交 Job 作业。
Action 算子会触发 Spark 提交作业（Job），并将数据输出 Spark系统。
2、从小方向来说，Spark 算子大致可以分为以下三类:
1）Value数据类型的Transformation算子，这种变换并不触发提交作业，针对处理的数据项是Value型的数据。 2）Key-Value数据类型的Transfromation算子，这种变换并不触发提交作业，针对处理的数据项是Key-Value型的数据对。 3）Action算子，这类算子会触发SparkContext提交Job作业。
1）Value数据类型的Transformation算子　　
　　一、输入分区与输出分区一对一型
　　　　1、map算子
　　　　2、flatMap算子
　　　　3、mapPartitions算子
　　　　4、glom算子
　　二、输入分区与输出分区多对一型　
　　　　5、union算子
　　　　6、cartesian算子
　　三、输入分区与输出分区多对多型
　　　　7、grouBy算子
　　四、输出分区为输入分区子集型
　　　　8、filter算子
　　　　9、distinct算子
　　　　10、subtract算子
　　　　11、sample算子
 　　 12、takeSample算子
 　　五、Cache型
　　　　13、cache算子　　
　　　　14、persist算子
 
2）Key-Value数据类型的Transfromation算子
　　一、输入分区与输出分区一对一
　　　　15、mapValues算子
　　二、对单个RDD或两个RDD聚集
　　　单个RDD聚集
　　　　16、combineByKey算子
　　　　17、reduceByKey算子
　　　　18、partitionBy算子
 　　两个RDD聚集
　　　　19、Cogroup算子
　　三、连接
　　　　20、join算子
　　　　21、leftOutJoin和 rightOutJoin算子
 3）Action算子
　　一、无输出
　　　　22、foreach算子
　　二、HDFS
　　　　23、saveAsTextFile算子
　　　　24、saveAsObjectFile算子
　　三、Scala集合和数据类型
　　　　25、collect算子
　　　　26、collectAsMap算子
 　　　 27、reduceByKeyLocally算子
 　　　 28、lookup算子
　　　　29、count算子
　　　　30、top算子
　　　　31、reduce算子
　　　　32、fold算子
　　　　33、aggregate算子
<h3>常用Transformation</h3>
1、parallelize
#通过并行化scala集合创建RDD val rdd1 = sc.parallelize(Array(1,2,3,4,5,6)) #查看该rdd的分区数量 rdd1.partitions.length
<img alt="在这里插入图片描述" class="blockcode" src="https://beijingoptbbs.oss-cn-beijing.aliyuncs.com/cs/5606289-0279226d41a07a69b8151666bc7cb89c.png">
2、sortBy
升序排序 val rdd2 = sc.parallelize(List(5,6,4,7,3,8,2,9,1,10)).map(＿*2).sortBy(x=>x,true)
<img alt="在这里插入图片描述" class="blockcode" src="https://beijingoptbbs.oss-cn-beijing.aliyuncs.com/cs/5606289-4f1f68e403d6f941be7092bc09f50092.png"> val rdd2 = sc.parallelize(List(5,6,4,7,3,8,2,9,1,10)).map(＿*2).sortBy(x=>x+"",true) <img alt="在这里插入图片描述" class="blockcode" src="https://beijingoptbbs.oss-cn-beijing.aliyuncs.com/cs/5606289-3b01e3dbf7fa8da19554c0cbc0ac97a9.png">
val rdd2 = sc.parallelize(List(5,6,4,7,3,8,2,9,1,10)).map(＿*2).sortBy(x=>x.toString,true) 
<img alt="在这里插入图片描述" class="blockcode" src="https://beijingoptbbs.oss-cn-beijing.aliyuncs.com/cs/5606289-86853f250872b62b7854c9134abe0fe1.png">
3、filter 
过滤 val rdd3 = rdd2.filter(＿>10)
<img alt="在这里插入图片描述" class="blockcode" src="https://beijingoptbbs.oss-cn-beijing.aliyuncs.com/cs/5606289-96961fa7dd8b3c6061abe6c4b1b7baef.png"> //字典序排序
4、flatMap //切割压平
val rdd4 = sc.parallelize(Array("a b c","d e f","h i j")) rdd4.flatMap(＿.split(" ")).collect 
<img alt="在这里插入图片描述" class="blockcode" src="https://beijingoptbbs.oss-cn-beijing.aliyuncs.com/cs/5606289-424017dc2108c13267ba965ab57ceb17.png">
val rdd5 = sc.parallelize(List(List(“a b c”,“a b b”),List(“e f g”,

spark-常用算子

浏览过的版块