「ビールと紙おむつ」のような相関関係を探る分析手法にはどんなものがある?――データ分析方法についての検討:ITエンジニアのためのデータサイエンティスト養成講座(5)(2/5 ページ)
分析から導き出される隠れた相関関係を探るには? 代表的分析手法の紹介と、サンプルを使った実際の分析手法を紹介します。
顧客や製品の特性などをグループ化したり分類する
キャンペーンメールの配信先を絞り込んだり、ビールと紙おむつの例(*)のような同時によく購買されるものを分析し、お勧めの商品を表示するなど、個客や商品の属性や行動に基づいてグループ化したり分類したりする手法で、2つの代表的な手法が挙げられます。
【クラスタリング(Clustering Analysis)】
性別や年齢などの属性やアンケートの回答、購買金額や購買頻度などの購買行動から個客をグループに分類する際などに用いる手法です。
グループに分類することで対象に応じたきめ細かなアクションが可能になり、ムダなリソースを省くことができます。分類に使われる手法にはさまざまなものがありますが、大きく分けると階層的に分類する手法と分類数(クラスタ数)を決めて分類する非階層的手法の2つのアルゴリズムがあります。詳しくは第7回で紹介します。
【アソシエーション分析/マーケットバスケット分析(Affinity Analysis)】
“ビールを購入する男性客は一緒に紙おむつを購入する傾向がある(ビールと紙おむつ)”に代表されるような分析手法で、ECサイトの商品のリコメンデーションなどに応用される分析手法です。詳しくは第9回で紹介します。
* ビールと紙おむつ マーケットバスケット分析の代表的な事例として語られる。「ある人が午後5時に紙おむつを買ったとすると、次にビールを半ダース買う可能性が大きい」という事実が、POSデータ分析によって発見された、とされるもの。調査内容の詳細や出典が曖昧なため「伝説」とされているが、一見無関係な2つの商品の相関がデータ分析によって導き出せたことから、データ分析の有効性を示す上でよく使われる。
電力消費量と気温との相関関係は?
前段で紹介した4つの代表的な分析手法についての詳細は次回以降で詳しく紹介していきますが、まず、今回は簡単な回帰分析の例を紹介しながら、Pythonを使った分析の進め方をつかんでいきましょう。
データの準備
題材として、いつも利用している(バックナンバー参照)電力の使用状況データと気象庁が提供している「過去の気象データ・ダウンロード」を使います。
- 電力の使用状況データ(東京電力提供データ、CSV)
- 過去の気象データ・ダウンロード(気象庁提供)
過去の気象データは、東京地方の最高気温と最低気温を2013年1月1日から2013年7月25日までの日別値であらかじめCSV形式の“data.csv”というファイル名でダウンロードしておきます。
本稿では、Windows環境用のPython実行環境と、データ分析向けのPythonモジュールが導入されている前提で解説を進めます。前提環境の構築については、本連載1〜4回(バックナンバー)で紹介しています。
仮説と分析準備
ここでは前提として、「1日の電力使用量の最大値は最高気温と相関関係がある」という仮定に基づいて分析を進めていきます。
事前に必要なモジュールであるStatsModels*とpatsy**をインストールしておきます。それぞれのモジュールは以下のコマンドでインストール可能です(easy_installについてはコラムを参照)。
C:\>easy_install statsmodels C:\>easy_install patsy
* StatsModels http://sourceforge.jp/projects/sfnet_statsmodels/
** patsy https://github.com/pydata/patsy
Copyright © ITmedia, Inc. All Rights Reserved.