关于parkSQL读取Parquet数据源之合并元数据schema

光圈1001

于 2019-03-13 20:57:15 发布

阅读量504

点赞数

CC 4.0 BY-SA版权

分类专栏： saprk sql语句

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41919284/article/details/88541268

saprk 同时被 2 个专栏收录

11 篇文章

订阅专栏

2 篇文章

订阅专栏

本文解析了SparkSQL在读取大量Parquet数据时字段缺失的原因，从Spark1.5.0版本开始，默认关闭了自动合并元数据特性，导致数据量大时schema信息未被完全加载。提供了通过设置mergeSchema参数为true来解决该问题的方法，并介绍了如何读取多个HDFS路径。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

【问题】

-在读取小量数据时，会加载出最新的一个新加的列的数据，没有的值，为null，但是当加载的数据量偏大的时候，会出现加载字段不全的情况，没有达到预期
【原因】

从Spark 1.5.0版本开始，默认是关闭Parquet文件的自动合并元数据的特性的当数据量过大，sparksql，出于性能的考虑，没有合并字段的信息，也就是schema，造成了字段不全的问题
【解决办法】
read 数据源的时候，增加参数：
var df = sparkSession.read.option(“mergeSchema”, “true”).parquet(existsNewUserPaths2:_*)
参考博客：
https://blog.csdn.net/qq_43147136/article/details/83053794

===================================
spark sql 读取多个hdfs的路径的方法：
1.new一个类型为String 的数组
2.将路径加入到数组中
3.读取数组中的路径：read .read.option(“mergeSchema”, “true”).parquet(存放路径的数组:_*)
会加载所以的路径为一个datafream，合并schema信息，便于统一处理计算

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。