データパイプライン
でーたぱいぷらいん
データパイプラインとは、データが発生源(ソース)から分析環境(DWH)や活用先に届くまでの、一連の自動化された移動・加工の経路のこと。
最終更新: 2026/1/28
主要な2つのパイプライン形式
- バッチパイプライン:
- 決められた時間(例:毎晩深夜2時)に、1日分のデータをまとめて流す。日次レポート用。
- メリット: 設計が簡単で、大量データを効率よく処理できる。
- ストリーミングパイプライン:
- データが発生した瞬間(ミリ秒単位)にリアルタイムで流す。クレジットカード不正検知や、株価分析など、即時性が必要な場合に使われる。
- 技術: Apache Kafka, Amazon Kinesis など。
設計の重要ポイント:信頼性と冪等性
- 監視: 「パイプが詰まっていないか(遅延)」「水漏れしていないか(エラー)」を常時監視します。
- 再実行可能性(冪等性): 途中でエラーが起きて処理をやり直した時に、データが二重計上されて「売上が2倍」にならないようにする仕組みが必須です。
- オーケストレーション: 複雑な依存関係(Aが終わったらBとCを動かす)を管理する司令塔ツール(Apache Airflow, Digdag)が必要です。
由来・語源
(記述募集中)
使用例
(記述募集中)
関連用語
- 関連: