Pedia

データクレンジング

でーたくれんじんぐ

データクレンジングとは、データベース内のデータの誤記、欠損、重複、表記の揺れなどを発見し、修正・削除して、分析に適した綺麗な状態にする作業。

最終更新: 2026/1/28

具体的な作業ステップ

  1. 表記ゆれ統一: 「IBM」「I.B.M.」「日本IBM」を全て「IBM」にする。
  2. 欠損値処理: 年齢が空欄のデータに対し、「平均値を入れる」か「その行ごと削除する」か「予測値を入れる」かを決める。
  3. 外れ値除去: 入力ミスと思われる異常な値(年齢200歳、売上マイナスなど)を除外する。
  4. フォーマット変換: 西暦「2024/01/01」と和暦「R6.1.1」を統一する。

ツールによる自動化

以前はExcel職人に頼って手作業していましたが、今はPythonのライブラリ(Pandas)や、Tableau Prep、各種ETLツールを使って、クレンジングのルール(レシピ)を作り、自動化するのが一般的です。

由来・語源

(記述募集中)

使用例

(記述募集中)

関連用語

  • 関連:
TOP / 検索 Amazonで探す