首页 理论教育 Parquet块的配置详解

Parquet块的配置详解

时间:2023-07-02 理论教育 版权反馈
【摘要】:parquet.block.size这个参数可以控制Spark SQL操作Parquet文件时候写入磁盘的大小数据。如何对parquet.block.size进行配置?可以通过SparkSQL的Conf对象进行配置。配置方法为:org.apache.spark.deploy.SparkHadoopUtil.get.conf.setParquet的读写是以Block为单位的,所以通常建议将Block大小设置为256 MB或者128MB。Parquet采用了非常大的压缩比例,在存储的时候对内存和磁盘空间的占用非常小,但是基于Parquet这种高度压缩的数据存储格式而言,每次把Block读进内存的时候实际数据是parquet.block.size设定值大小的好几倍。

Parquet块的配置详解

ParquetOutputFormat是Parquet框架源代码中的类,ParquetOutputFormat继承自FileOut-putFormat,在创建ParquetOutputFormat实例的时候,涉及parquet.block.size参数的配置。parquet.block.size这个参数可以控制Spark SQL操作Parquet文件时候写入磁盘的大小数据。

如何对parquet.block.size进行配置?可以通过SparkSQL的Conf对象进行配置。配置方法为:

org.apache.spark.deploy.SparkHadoopUtil.get.conf.set("parquet.block.size","new value")(www.xing528.com)

Parquet的读写是以Block为单位的,所以通常建议将Block大小设置为256 MB或者128MB。当写入一个完整的Block时,由于在实现的时候做了非常大的cache,需要把全部cache放入Executor中,这样Parquet就会非常耗内存。

Parquet采用了非常大的压缩比例,在存储的时候对内存和磁盘空间的占用非常小,但是基于Parquet这种高度压缩的数据存储格式而言,每次把Block读进内存的时候实际数据是parquet.block.size设定值大小的好几倍。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈