IT データ処理

データクレンジング

でーたくれんじんぐ

データクレンジングとは、データベース内のデータの誤記、欠損、重複、表記の揺れなどを発見し、修正・削除して、分析に適した綺麗な状態にする作業。

#前処理 #名寄せ #品質向上 #ガベージイン・ガベージアウト #Pandas #OpenRefine

最終更新: 2026/1/28

具体的な作業ステップ

表記ゆれ統一: 「IBM」「I.B.M.」「日本IBM」を全て「IBM」にする。
欠損値処理: 年齢が空欄のデータに対し、「平均値を入れる」か「その行ごと削除する」か「予測値を入れる」かを決める。
外れ値除去: 入力ミスと思われる異常な値（年齢200歳、売上マイナスなど）を除外する。
フォーマット変換: 西暦「2024/01/01」と和暦「R6.1.1」を統一する。

ツールによる自動化

以前はExcel職人に頼って手作業していましたが、今はPythonのライブラリ（Pandas）や、Tableau Prep、各種ETLツールを使って、クレンジングのルール（レシピ）を作り、自動化するのが一般的です。

由来・語源

(記述募集中)

使用例

(記述募集中)

関連用語

関連:

TOP / 検索 Amazonで探す