パーケ
ぱーけ
Apache Parquet
Parquet(パーケ/パーケット)とは、Hadoopエコシステムなどで広く使われている、列指向(カラムナ)のデータ保存フォーマット。データを列ごとにまとめて圧縮・保存するため、特定の列だけを読み込むような分析クエリを高速に処理でき、かつ高い圧縮率を実現する。CSVやJSONに比べてビッグデータ分析において圧倒的に効率が良い。
最終更新: 2026/1/18
列指向フォーマット
Hadoopなどのビッグデータ処理で使われる、データを「列(カラム)」単位で保存するファイル形式。
- メリット: 特定の列だけを読み込むのが速い。圧縮効率が高い。 CSVの代わりとして、データレイクでよく使われる。
由来・語源
寄木細工(Parquet)のようにデータを敷き詰めるイメージ。
使用例
データレイクの保存形式としてParquetを採用する。
関連用語
- 同義語:
- 関連: Avro, ビッグデータ, 圧縮, CSV, JSON, クエリ