【摘要】:parquet.block.size这个参数可以控制Spark SQL操作Parquet文件时候写入磁盘的大小数据。如何对parquet.block.size进行配置?可以通过SparkSQL的Conf对象进行配置。配置方法为:org.apache.spark.deploy.SparkHadoopUtil.get.conf.setParquet的读写是以Block为单位的,所以通常建议将Block大小设置为256 MB或者128MB。Parquet采用了非常大的压缩比例,在存储的时候对内存和磁盘空间的占用非常小,但是基于Parquet这种高度压缩的数据存储格式而言,每次把Block读进内存的时候实际数据是parquet.block.size设定值大小的好几倍。
ParquetOutputFormat是Parquet框架源代码中的类,ParquetOutputFormat继承自FileOut-putFormat,在创建ParquetOutputFormat实例的时候,涉及parquet.block.size参数的配置。parquet.block.size这个参数可以控制Spark SQL操作Parquet文件时候写入磁盘的大小数据。
如何对parquet.block.size进行配置?可以通过SparkSQL的Conf对象进行配置。配置方法为:
org.apache.spark.deploy.SparkHadoopUtil.get.conf.set("parquet.block.size","new value")(www.xing528.com)
Parquet的读写是以Block为单位的,所以通常建议将Block大小设置为256 MB或者128MB。当写入一个完整的Block时,由于在实现的时候做了非常大的cache,需要把全部cache放入Executor中,这样Parquet就会非常耗内存。
Parquet采用了非常大的压缩比例,在存储的时候对内存和磁盘空间的占用非常小,但是基于Parquet这种高度压缩的数据存储格式而言,每次把Block读进内存的时候实际数据是parquet.block.size设定值大小的好几倍。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。