Pedia

データパイプライン

でーたぱいぷらいん

データパイプラインとは、データが発生源(ソース)から分析環境(DWH)や活用先に届くまでの、一連の自動化された移動・加工の経路のこと。

最終更新: 2026/1/28

主要な2つのパイプライン形式

  1. バッチパイプライン:
    • 決められた時間(例:毎晩深夜2時)に、1日分のデータをまとめて流す。日次レポート用。
    • メリット: 設計が簡単で、大量データを効率よく処理できる。
  2. ストリーミングパイプライン:
    • データが発生した瞬間(ミリ秒単位)にリアルタイムで流す。クレジットカード不正検知や、株価分析など、即時性が必要な場合に使われる。
    • 技術: Apache Kafka, Amazon Kinesis など。

設計の重要ポイント:信頼性と冪等性

  • 監視: 「パイプが詰まっていないか(遅延)」「水漏れしていないか(エラー)」を常時監視します。
  • 再実行可能性(冪等性): 途中でエラーが起きて処理をやり直した時に、データが二重計上されて「売上が2倍」にならないようにする仕組みが必須です。
  • オーケストレーション: 複雑な依存関係(Aが終わったらBとCを動かす)を管理する司令塔ツール(Apache Airflow, Digdag)が必要です。

由来・語源

(記述募集中)

使用例

(記述募集中)

関連用語

  • 関連:
TOP / 検索 Amazonで探す