首 页 行业热点 新车 试驾评测 养车用车 车型库

parquet怎样存储嵌套数据

发布网友 发布时间:2022-04-22 06:18

我来回答

1个回答

热心网友 时间:2022-05-06 10:40

把文本文件直接转parquet可以跳过不符合条件的数据,只读取需要的数据,降低IO数据量压缩编码可以降低磁盘存储空间。由于同一列的数据类型是一样的,可以使用更高效的压缩编码(例如RunLengthEncoding和DeltaEncoding)进一步节约存储空间只读取需要的列,支持向量运算,能够获取更好的扫描性能Parquet就是基于Google的Dremel系统的数据模型和算法实现的。核心思想是使用“recordshreddingandassemblyalgorithm”来表示复杂的嵌套数据类型,同时辅以按列的高效压缩和编码技术,实现降低存与Avro之前新统计系统的日志都是用Avro做序列化和存储,鉴于Parquet的优势和对Avro的兼容,将HDFS上的存储格式改为Paruqet,并且只需做很小的改动就用原读取Avro的API读取Parquet,以提高近一个数量级。Parquet文件尾部存储了文件的元数据信息和统计信息,自描述的,方便解析

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com