spark foreachPartition foreach

dingxiaohuang4790

于 2019-09-27 18:49:00 发布

阅读量273

点赞数

CC 4.0 BY-SA版权

文章标签：大数据数据库

原文链接：http://www.cnblogs.com/shaozhiqi/p/11599748.html

本文对比了Spark中foreach与foreachPartition两种操作的区别，并详细解释了foreachPartition如何通过减少数据库连接的创建和销毁来提高数据处理性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.foreach

    val list = new ArrayBuffer()
    myRdd.foreach(record => {
      list += record
    })

2.foreachPartition

    val list = new ArrayBuffer
    rdd.foreachPartition(it => {
      It.foreach(r => {
        list += r
      })
    })

说明：

foreachPartition属于算子操作，可以提高模型效率。比如在使用foreach时，将RDD中所有数据写Mongo中，就会一条数据一条数据地写，每次函数调用可能就会创建一个数据库连接，此时就势必会频繁地创建和销毁数据库连接，性能是非常低下；但是如果用foreachPartitions算子一次性处理一个partition的数据，那么对于每个partition，只要创建一个数据库连接即可，然后执行批量插入操作，此时性能是比较高的。

参考官网的说明：

https://spark.apache.org/docs/latest/streaming-programming-guide.html