03概述一下spark中的常用算子区别(map,mapPartitions, foreach, foreachPatition)
map:用于遍历RDD,将函数应用于每一个元素,返回新的RDD(transformation算子)foreach:用于遍历RDD,将函数应用于每一个元素,无返回值(action算子)mapPatitions:用于遍历操作RDD中的每一个分区,返回生成一个新的RDD(transformation算子)foreachPatition:用于遍历操作RDD中的每-个分区,无返回值(action算子)总结::一般使用mapPatitions和foreachPatition算子比map和foreach更加高效,推荐使用
来自:spark-spark