データレイク
でーたれいく
データレイクとは、構造化データ(Excelなど)、半構造化データ(JSONなど)、非構造化データ(画像、動画、ログ)など、あらゆる種類のデータを生のまま(未加工で)一元的に保存する巨大な格納庫。
最終更新: 2026/1/28
DWH(データウェアハウス)との決定的な違い
| 特徴 | DWH (Data Warehouse) | データレイク (Data Lake) |
|---|---|---|
| データの種類 | 構造化データのみ(整理済み) | 全て(構造化・非構造化・半構造化) |
| 加工のタイミング | Schema-on-Write: 書く前に型を決める(厳格) | Schema-on-Read: 読む時に型を決める(柔軟) |
| ユーザー | 経営者、ビジネスアナリスト | データサイエンティスト、データエンジニア |
| コスト | 高い(高性能な計算資源が必要) | 安い(安価なストレージでOK) |
「データの沼(Data Swamp)」問題と対策
データレイクの最大の失敗パターンは、「何でも放り込みすぎて、中に何があるか誰も分からなくなる」ことです。これを「データの沼」と呼びます。沼化を防ぐためには、以下の対策が必須です。
- データカタログの導入: 「どこに何があるか」の目録(メタデータ)を作り、検索可能にする。
- 有効期限(ライフサイクル)管理: 「3年過ぎたログは自動削除する」などのルールを決める。
- ゾーン管理: 生データ(Raw)、加工済み(Curated)、公開用(Product)のようにフォルダを明確に分ける。
メダリオンアーキテクチャ
Databricksなどが提唱する、データレイク内の整理術(ベストプラクティス)です。
- Bronze (Raw): ソースシステムからコピーしてきたままの生データ。誰も触ってはいけない「原本」。
- Silver (Refined): 重復削除、型変換、個人情報のマスキングなど、クレンジングを行った中間データ。分析者が使うのはここ。
- Gold (Aggregated): ビジネスKPI(週次売上など)に集計済みのデータ。経営レポートやダッシュボードに使う。 このように層を分けることで、カオスを防ぎつつ活用を促進します。
由来・語源
(記述募集中)
使用例
(記述募集中)
関連用語
- 関連: