今回紹介したK平均法は、算術平均を用いたアルゴリズムなので「男性」や「女性」など数値以外の属性はそのままでは利用できません。ダミー変数などを用いて数値化して利用する必要があります。
アルゴリズムについても、シンプルな反面、初期の割り振りに大きく左右され、内容によっては試行ごとにクラスターの内容が変わってしまうこともあるので、何度か繰り返し試行しながら最適な結果を探す必要があります。
また、クラスター数Kは最初に手動で与える必要があるため、今回は視覚的に決定しましたが、最適なクラスター数を選ぶため、他の計算方法を用いるケースも出てきます。
今回はSciPyで実装されているkmeans2関数を用いましたが、scikit-learn(リンク)など、他の実装もありますので、使用する際には初期値の与え方に注意して利用するようにするとよいでしょう。
今回はデータをグループに分類する代表的な手法として、非階層的手法の中でもシンプルで広く用いられているK平均法(k-means clustering)を使ったデータの分類について紹介しました。
今回サンプルで利用したデータでは、アクションにつながる結果を得ることは難しいですが、属性を多く持つ顧客情報などをクラスタリング分析することで、効果的なマーケティングアプローチが期待できるケースも多くありますので、皆さんの手元のデータでぜひ実践してみてください。
次回は、時系列分析について紹介します。ビジネスで生成されるデータの多くが「時間」の項目を含む時系列データです。1週間の傾向や季節変動などを分析する際など、さまざまな場面で時系列の分析が必要となりますので、ぜひ習得しておきましょう。次回もお楽しみに。
Python本体や幾つかのモジュールがアップデートされていますのでご紹介しておきます。IPythonはメジャーバージョンアップがあり、パフォーマンスがかなり改善されていますし、他のモジュールでもパフォーマンスの改善があります。APIの変更があったりするので、アップデートの際には注意が必要ですが、影響がなければアップデートをお勧めします。
最新のバージョン2.7.6がリリースされています。ここでは、本連載の前提環境であるWindows OS環境を前提に紹介します。
ダウンロードしたpython-2.7.6.msiを実行するとインストーラーが起動して、ウィザードに従ってインストール(アップデート)します。以前のバージョンが削除されるというメッセージが出て、インストールされていた2.7.5が削除され、新たに2.7.6がインストールされます。
最新バージョンである1.8.0がリリースされています。多くの部分でパフォーマンスの改善が行われているようです。
ダウンロードしたファイルnumpy-1.8.0-win32-superpack-python2.7.exeを実行すると、インストーラーが起動しますので、ウィザードに従って上書きインストールします。
最新バージョン0.13.2がリリースされています。0.12から多くの機能が追加されています。
ダウンロードしたファイルscipy-0.13.2-win32-superpack-python2.7.exeを実行すると、インストーラーが起動しますので、ウィザードに従って上書きインストールします。
最新のバージョン0.13.1がリリースされていますので、easy_install コマンドを使ってアップデートします。
データを比較したり検索したりするメソッド(eval/query)が追加されるなど、より使いやすくなっています。
C:\>easy_install -U pandas
変更点や新機能に関しては、こちらのリリースノートをご覧ください。
最新のバージョン 1.3.1 がリリースされています。
ダウンロードしたmatplotlib-1.3.1.win32-py2.7.exeを実行して、上書きインストールします。
最新のバージョン1.1.0がリリースされています。easy_install コマンドを使ってアップデートします。前のバージョン(0.13)からのメジャーバージョンアップです。
C:\>easy_install -U ipython
変更点や新機能についてはこちらのリリースノートをご覧ください。
Copyright © ITmedia, Inc. All Rights Reserved.