Pedia

データレイク

でーたれいく

データレイクとは、構造化データ(Excelなど)、半構造化データ(JSONなど)、非構造化データ(画像、動画、ログ)など、あらゆる種類のデータを生のまま(未加工で)一元的に保存する巨大な格納庫。

最終更新: 2026/1/28

DWH(データウェアハウス)との決定的な違い

特徴 DWH (Data Warehouse) データレイク (Data Lake)
データの種類 構造化データのみ(整理済み) 全て(構造化・非構造化・半構造化)
加工のタイミング Schema-on-Write: 書く前に型を決める(厳格) Schema-on-Read: 読む時に型を決める(柔軟)
ユーザー 経営者、ビジネスアナリスト データサイエンティスト、データエンジニア
コスト 高い(高性能な計算資源が必要) 安い(安価なストレージでOK)

「データの沼(Data Swamp)」問題と対策

データレイクの最大の失敗パターンは、「何でも放り込みすぎて、中に何があるか誰も分からなくなる」ことです。これを「データの沼」と呼びます。沼化を防ぐためには、以下の対策が必須です。

  1. データカタログの導入: 「どこに何があるか」の目録(メタデータ)を作り、検索可能にする。
  2. 有効期限(ライフサイクル)管理: 「3年過ぎたログは自動削除する」などのルールを決める。
  3. ゾーン管理: 生データ(Raw)、加工済み(Curated)、公開用(Product)のようにフォルダを明確に分ける。

メダリオンアーキテクチャ

Databricksなどが提唱する、データレイク内の整理術(ベストプラクティス)です。

  • Bronze (Raw): ソースシステムからコピーしてきたままの生データ。誰も触ってはいけない「原本」。
  • Silver (Refined): 重復削除、型変換、個人情報のマスキングなど、クレンジングを行った中間データ。分析者が使うのはここ。
  • Gold (Aggregated): ビジネスKPI(週次売上など)に集計済みのデータ。経営レポートやダッシュボードに使う。 このように層を分けることで、カオスを防ぎつつ活用を促進します。

由来・語源

(記述募集中)

使用例

(記述募集中)

関連用語

  • 関連:
TOP / 検索 Amazonで探す