「ビールと紙おむつ」のような相関関係を探る分析手法にはどんなものがある?――データ分析方法についての検討:ITエンジニアのためのデータサイエンティスト養成講座(5)(5/5 ページ)
分析から導き出される隠れた相関関係を探るには? 代表的分析手法の紹介と、サンプルを使った実際の分析手法を紹介します。
Column:Python環境のアップデート
ここでは、Python本体やいくつかのモジュールがアップデートされていますので紹介しておきます。アップデートはバグフィックスが主ですが、pandasに関してはいくつかの便利な機能が追加されています。APIの変更もありますのでアップデートの際には注意が必要ですが、正規表現を使ったデータのクレンジングが強化されたり便利な機能もありますので、影響がなければアップデートをお薦めします。
Python本体
最新のバージョン2.7.5がリリースされています。下記ダウンロードサイトから配布されています。本連載ではWindows環境で操作を行っていますので、リストのうち「Python 2.7.5 Windows Installer」を選択します。インストーラはmsiファイルとして配布されています。
- Python本体のダウンロード:http://python.org/download/
ダウンロードしたpython-2.7.5.msiを実行すると、インストーラが起動します。ウィザードに従ってインストール(アップデート)します。途中、以前のバージョンが削除されるというメッセージが出ます。削除を承認すると、インストールされていた2.7.4が削除され、新たに2.7.5がインストールされます。
distribute
distributeは、最新のバージョン0.6.49がリリースされています。こちらはTarball形式で配布されています。
ダウンロードURL:https://pypi.python.org/pypi/distribute/0.6.49
ダウンロードしたdistribute-0.6.49.tar.gzを解凍したディレクトリで以下のコマンドを実行します。
C:\>python setup.py install
pandas:Python Data Analysis Library
pandasは最新のバージョン0.12.0がリリースされていますので、easy_installコマンドを使ってアップデートします。
C:\>easy_install -U pandas
pandasの変更点や新機能に関しては、こちらをご覧ください。
mathplotlib
mathplotlibの最新のバージョンは1.3.0です。exeファイルとして配布されています。Python 2.7用のmathplotlib 1.3.0を導入します。
- ダウンロードURL:http://matplotlib.org/downloads.html
ダウンロードしたmatplotlib-1.3.0.win32-py2.7.exeを実行し、上書きインストールします。なお、このバージョンではpyparsingモジュールが必要になるようなので、easy_installを使ってインストールしておきます。
C:\>easy_install pyparsing
補足:環境変数の設定
第2回で環境を用意する際には言及を省略しましたが、Python環境をコマンドラインから利用するために、システム環境変数の“Path”に以下のディレクトリを追加しておきます。
C:\Python27\;C:\Python27\Scripts\;
おわりに
今回は、ビジネスの現場でよく用いられる分析手法を4つ示し、Pythonを使った具体的な分析の進め方を紹介しました。
繰り返しになりますが、大切なことは、分析を意思決定やアクションにつなげることで、いかに精緻な分析をしても意思決定やアクションにつながらなければ意味がありません。
次回は「回帰分析」についてさらに詳しく紹介する予定です。お楽しみに。
Copyright © ITmedia, Inc. All Rights Reserved.