发布网友 发布时间:2022-04-22 06:18
共1个回答
热心网友 时间:2022-05-06 10:40
把文本文件直接转parquet可以跳过不符合条件的数据,只读取需要的数据,降低IO数据量压缩编码可以降低磁盘存储空间。由于同一列的数据类型是一样的,可以使用更高效的压缩编码(例如RunLengthEncoding和DeltaEncoding)进一步节约存储空间只读取需要的列,支持向量运算,能够获取更好的扫描性能Parquet就是基于Google的Dremel系统的数据模型和算法实现的。核心思想是使用“recordshreddingandassemblyalgorithm”来表示复杂的嵌套数据类型,同时辅以按列的高效压缩和编码技术,实现降低存与Avro之前新统计系统的日志都是用Avro做序列化和存储,鉴于Parquet的优势和对Avro的兼容,将HDFS上的存储格式改为Paruqet,并且只需做很小的改动就用原读取Avro的API读取Parquet,以提高近一个数量级。Parquet文件尾部存储了文件的元数据信息和统计信息,自描述的,方便解析