Parquet块的配置详解

时间：2023-07-02 理论教育版权反馈

【摘要】：parquet.block.size这个参数可以控制Spark SQL操作Parquet文件时候写入磁盘的大小数据。如何对parquet.block.size进行配置？可以通过SparkSQL的Conf对象进行配置。配置方法为：org.apache.spark.deploy.SparkHadoopUtil.get.conf.setParquet的读写是以Block为单位的，所以通常建议将Block大小设置为256 MB或者128MB。Parquet采用了非常大的压缩比例，在存储的时候对内存和磁盘空间的占用非常小，但是基于Parquet这种高度压缩的数据存储格式而言，每次把Block读进内存的时候实际数据是parquet.block.size设定值大小的好几倍。

Parquet块的配置详解

ParquetOutputFormat是Parquet框架源代码中的类，ParquetOutputFormat继承自FileOut-putFormat，在创建ParquetOutputFormat实例的时候，涉及parquet.block.size参数的配置。parquet.block.size这个参数可以控制Spark SQL操作Parquet文件时候写入磁盘的大小数据。

如何对parquet.block.size进行配置？可以通过SparkSQL的Conf对象进行配置。配置方法为：

org.apache.spark.deploy.SparkHadoopUtil.get.conf.set（＂parquet.block.size＂，＂new value＂）(www.xing528.com)

Parquet的读写是以Block为单位的，所以通常建议将Block大小设置为256 MB或者128MB。当写入一个完整的Block时，由于在实现的时候做了非常大的cache，需要把全部cache放入Executor中，这样Parquet就会非常耗内存。

Parquet采用了非常大的压缩比例，在存储的时候对内存和磁盘空间的占用非常小，但是基于Parquet这种高度压缩的数据存储格式而言，每次把Block读进内存的时候实际数据是parquet.block.size设定值大小的好几倍。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈

研究成果

注意事项

解决方案

计算方法

发展趋势

中国古代

社会主义

心理健康

控制系统

经济发展

建筑工程

传统文化

民事诉讼

中国传统

程序设计

解决方法

轨道交通

工程施工

研究结果

建设工程

文史资料

持续发展

计算机网

使用方法

Parquet块的配置详解

相关推荐

Parquet块的配置详解

有关Spark SQL大数据实例开发教程的文章

相关推荐