データクレンジング
でーたくれんじんぐ
データクレンジングとは、データベース内のデータの誤記、欠損、重複、表記の揺れなどを発見し、修正・削除して、分析に適した綺麗な状態にする作業。
最終更新: 2026/1/28
具体的な作業ステップ
- 表記ゆれ統一: 「IBM」「I.B.M.」「日本IBM」を全て「IBM」にする。
- 欠損値処理: 年齢が空欄のデータに対し、「平均値を入れる」か「その行ごと削除する」か「予測値を入れる」かを決める。
- 外れ値除去: 入力ミスと思われる異常な値(年齢200歳、売上マイナスなど)を除外する。
- フォーマット変換: 西暦「2024/01/01」と和暦「R6.1.1」を統一する。
ツールによる自動化
以前はExcel職人に頼って手作業していましたが、今はPythonのライブラリ(Pandas)や、Tableau Prep、各種ETLツールを使って、クレンジングのルール(レシピ)を作り、自動化するのが一般的です。
由来・語源
(記述募集中)
使用例
(記述募集中)
関連用語
- 関連: