PigData

データクレンジングとは?基本知識とその方法を詳しくご紹介

2020年11月05日(木)

近年ECサイトの発達や、社員管理ツールのクラウド化などによりデータクレンジングに注目が集まっています。 いったいデータクレンジングとは何なのでしょうか。 本記事では、データクレンジングの基本を詳しくまとめていきます。

 

データクレンジングとは?

データクレンジングとは、破損・不正確・無関係なデータを特定して解決する手法のことです。別名で、データスクラビングとも呼ばれます。 データベースの各種データを整理・標準化し、スムーズに活用できるように重複などを削除・調整し、一貫性や信憑性・品質を高める事が主な目的です。 例えば、「株式会社」と「(株)」は通常別データとして処理されますが、データクレンジングではこれらのデータを一定の基準で訂正・統一していきます。

訂正対象としては、下記の項目などが挙げられます。

 

データクレンジングのメリット

顧客情報を単一化し、開発費と保守費のコスト削減

企業がデータクレンジングをおこなう目的として、自社の顧客データの形式を整理することが挙げられます。 データクレンジングによって顧客管理の作業が短縮され、データ管理費用のコスト削減に繋がります。 また、定期的なデータクレンジングが必要な、顧客データを分析したマーケティングの場面でもこのメリットが挙げられます。 分析の際にデータの形式が異なると、作業量が増加してしまうことや不正確な分析結果が出てしまう可能性も高くなり、余計に時間を使ってしまうことも。 このような事態を防ぐために、データクレンジングが必要になってくるのです。

生産性アップによる社員の業務満足度向上

データクレンジングは外部データのみでなく、社内データでも活用できます。 例えば、社員の生産性や業務への満足度をアンケート調査して、そのデータが社員の離職とどのような相関があるのか、分析するとしましょう。 自由記載項目等の回答がバラバラなアンケート結果でも、データクレンジングをすることで、社内での問題点を正確に抽出することが可能です。 このデータを利用して分析することで、社員の想いを的確にキャッチして満足度向上の施策を練ることができるでしょう。

顧客の徹底分析と顧客関係管理(CRM)による競争優位

例えば、ECサイト運営する際にデータクレンジングをおこなうことで、重複データや住所の不備を無くすことができます。 これによって正確な顧客情報を管理できるようになり、顧客に合った提案・営業が行えるようになります。 顧客視点に立つことで、競争に有利な環境を作り上げることにも繋がります。

アクション・実行

分析で見えてきた問題点や課題を解決するための、具体的な施策や結論を決定します。なるべく速やかなアクションが必要とされますが、広告を打ち出すなど膨大な費用が掛かったり、人事の変更などが必要でトラブルに発展したりと、最終的に施策を遂行できないなどの場合もあります。 組織的にプロジェクトを実行する人材や、マネジメントの能力も非常に重要となります。

 

データクレンジングの進め方

  1. データフィールドを特定する
    まずはじめに、「データフィールドの特定」をおこないます。 データフィールドとは「データを使う場所」のことです。 どの場面でデータを使うのか確認して、統一するデータ形式などを決めていきます。

  2. データの収集と取り込みをおこなう
    1.で特定したWordやExcel、XML、ログファイルなどバラバラのデータ形式を取り込みます。 データを取り込む際も、あらかじめ「どの範囲でデータを取り込むのか」決めておきます。 取り込むデータの範囲が異なると、余計なデータまでクレンジング対象になるので注意が必要です。

  3. データクレンジングの実施
    次に、取り込んだデータ(Word,pdf等のデータ)を、データクレンジングツールを活用して整理していきます。 データ形式を統一して、マーケティングや資料作成などの際に利用しやすいようにしましょう。

 

データクレンジングのポイント

データクレンジングは1度の整理で完了ではなく、クレンジングしたデータが再び乱れないように調整を重ねる必要があります。 例えば、「株式会社」と「㈱」が混在している会社名をクレンジングによって「㈱」で統一したとしましょう。 処理したにもかかわらず、データ入力を新たにする際に、別の人が「株式会社」と入力してしまってはクレンジングで統一処理をした意味がありません。 データを入力する際のルールを作り・周囲へ浸透させていく事も大切ですが、人がおこなう作業にはミスも発生するため、定期的にデータクレンジングをおこなうことがポイントです。

 

データクレンジングツール3選

  1. Talend Data Preparation
    Talend Data Preparationは、機械学習を基盤としたスマートガイドが強みです。 データ使用の最速化を実現し、異常のあるデータを簡単に見つけることができます。 現在、無償トライアルを実施しているので、実際に使い勝手を確認してから、本契約をすることが可能です。

  2. Tableau Prep
    Tableau Prepは「Tableau Prep Builder」と「Tableau Prep Conductor」の2つに分かれています。Tableau Prep Builderでは、データベースの行、列、全体の3つのプロセスを同時に画面表示できます。 異常データの表示、修正箇所の反映など、クレンジング結果をすぐに見ることが可能です。 Tableau Prep Conductorではデータフローの進捗共有、スケジュール設定等、全体のフロー管理を効率化できるツールです。 分析で最新のデータを利用できるよう、調整することができます。

  3. Cloud Dataprep
    Cloud Dataprepは、様々なデータ形式の取り込み・統一、また異常データのスピーディーな検知に優れたツールになります。 データ変換の予測、提案までしてくれるので、データ分析の人手が足りない企業に特におすすめです。 プログラミングが苦手な方や、初めての方でも、自身でコードを書く必要がなく、数回のクリックで処理をおこなうことが可能です。

 

データクレンジングでデータを有効活用

データクレンジングについて、実際におこなう具体的な過程やポイント、注意点などを多岐にわたり説明しました。 近年ではデジタルトランスフォーメーションが注目され、データを活用する企業が増えてきました。これに伴い、データクレンジングに対するニーズも高まっている状況です。 データ活用の目的から必要な作業を洗い出し、サービスやツールを上手く活用していきましょう。

資料ダウンロード
問い合わせ
無料ツールを使う

リリース一覧へ マーケティングインサイト一覧へ