2023-09-09

Parquet

大家好,欢迎来到架构百科,今天跟大家介绍Parquet

Parquet是一种面向列存储的数据格式,既然是面向列存储,那么自然也就天然带有列数据压缩等必备技能, 一个80M的CSV文件,如果转换为使用Parquet格式进行存储,最终只需要5M的存储空间,惊不惊喜? 意不意外?

Parquet格式源于HDFS生态,使用了一种称之为record shredding and assembly的算法来表示嵌套的数据结构,结合数据编码与每列都可以定制的压缩算法,最终才有了这么高效的数据存储格式。

在OLAP(也就是在线分析处理)场景中,我们会经常用parquet格式做数据的导入、导出以及存储备份等常规操作,一个是它历史悠久,另外就是它的存储格式设计的很高效,非常适合这些场景。

如果你经常做大数据相关的日常工作,相信你不缺跟parquet打交道的机会。

欢迎加入「福强私学」

跨越2190个日夜,始终坚持“实践 + 原创”打造的715125字专属知识库,囊括了(但不限于)从职场、技术、管理与商业等多个板块的内容。

  • 一个ChatGPT触达不到的地方
  • 一个带你超越AI/人工智能的地方
  • 一个与你一起成长的地方

https://afoo.me/kb.html