关于parkSQL读取Parquet数据源之合并元数据schema

本文解析了SparkSQL在读取大量Parquet数据时字段缺失的原因,从Spark1.5.0版本开始,默认关闭了自动合并元数据特性,导致数据量大时schema信息未被完全加载。提供了通过设置mergeSchema参数为true来解决该问题的方法,并介绍了如何读取多个HDFS路径。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

【问题】

-在读取小量数据时,会加载出最新的一个新加的列的数据,没有的值,为null,但是当加载的数据量偏大的时候,会出现加载字段不全的情况,没有达到预期
【原因】

  • 从Spark 1.5.0版本开始,默认是关闭Parquet文件的自动合并元数据的特性的当数据量过大,sparksql,出于性能的考虑,没有合并字段的信息,也就是schema,造成了字段不全的问题
    【解决办法】

  • read 数据源 的时候,增加参数:
    var df = sparkSession.read.option(“mergeSchema”, “true”).parquet(existsNewUserPaths2:_*)
    参考博客:
    https://blog.csdn.net/qq_43147136/article/details/83053794

    ===================================
    spark sql 读取多个hdfs的路径的方法:
    1.new一个类型为String 的数组
    2.将路径加入到数组中
    3.读取数组中的路径:read .read.option(“mergeSchema”, “true”).parquet(存放路径的数组:_*)
    会加载所以的路径为一个datafream,合并schema信息,便于统一处理计算

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值