IT データインフラ

データレイク

でーたれいく

データレイクとは、構造化データ（Excelなど）、半構造化データ（JSONなど）、非構造化データ（画像、動画、ログ）など、あらゆる種類のデータを生のまま（未加工で）一元的に保存する巨大な格納庫。

#S3 #ビッグデータ #未加工 #スキーマオンリード #データスワンプ #AWS #Azure #Hadoop

最終更新: 2026/1/28

DWH（データウェアハウス）との決定的な違い

特徴	DWH (Data Warehouse)	データレイク (Data Lake)
データの種類	構造化データのみ（整理済み）	全て（構造化・非構造化・半構造化）
加工のタイミング	Schema-on-Write: 書く前に型を決める（厳格）	Schema-on-Read: 読む時に型を決める（柔軟）
ユーザー	経営者、ビジネスアナリスト	データサイエンティスト、データエンジニア
コスト	高い（高性能な計算資源が必要）	安い（安価なストレージでOK）

「データの沼（Data Swamp）」問題と対策

データレイクの最大の失敗パターンは、「何でも放り込みすぎて、中に何があるか誰も分からなくなる」ことです。これを「データの沼」と呼びます。沼化を防ぐためには、以下の対策が必須です。

データカタログの導入: 「どこに何があるか」の目録（メタデータ）を作り、検索可能にする。
有効期限（ライフサイクル）管理: 「3年過ぎたログは自動削除する」などのルールを決める。
ゾーン管理: 生データ（Raw）、加工済み（Curated）、公開用（Product）のようにフォルダを明確に分ける。

メダリオンアーキテクチャ

Databricksなどが提唱する、データレイク内の整理術（ベストプラクティス）です。

Bronze (Raw): ソースシステムからコピーしてきたままの生データ。誰も触ってはいけない「原本」。
Silver (Refined): 重復削除、型変換、個人情報のマスキングなど、クレンジングを行った中間データ。分析者が使うのはここ。
Gold (Aggregated): ビジネスKPI（週次売上など）に集計済みのデータ。経営レポートやダッシュボードに使う。このように層を分けることで、カオスを防ぎつつ活用を促進します。

由来・語源

(記述募集中)

使用例

(記述募集中)

関連用語

関連:

TOP / 検索 Amazonで探す