データ分析がデキるITエンジニアになるために必要な「道具」を揃えるITエンジニアのためのデータサイエンティスト養成講座(2)(3/4 ページ)

» 2013年05月23日 18時05分 公開
[中林紀彦日本アイ・ビー・エム]

分析環境の準備:Python実行環境を整備する

 では実際にPython環境をセットアップしていきましょう。まずはPython本体ですが、インストールの際に大きな考慮点は2つあります。

(1)バージョン 2.x系 or 3.x系? Pythonは現在2系統のバージョンが並行して開発されています。最新は3.x系ですが、2.xとの後方互換性が損なわれているため利用者が少なく、外部ライブラリの対応も2.x系の方が多いのが現状です。この連載ではこれらの理由と学習するための情報量の多さの点から2.x系を利用します。

(2)32bit or 64bit? Pythonに限ったことではありませんが、データ分析ということもありメモリ的な観点から64ビット版を選びたいところですが、こらも対応するライブラリの観点から今回は32ビット版を利用することにします。

 実は大前提として、Windows or LinuxというOSの選択肢もありますが、今回はなるべく多くの方に実際に手を動かして体験していただきたいのでWindowsを前提に話を進めることとします。Linux・UNIXなどの環境の方はそれぞれの環境向けのドキュメントも併せて確認しながら読み進めてください(Ubuntu環境でパッケージを導入する際にはバージョンなどに注意が必要です。詳細は本ページ末のコラムを参照ください)。

1:Pythonのインストール

 Pythonのインストールは簡単です。ダウンロードしたインストーラ(python-2.7.4.msi)を起動し、ウィザードに従って進むだけです。インストール後は、Windows 7までの環境では「スタートメニュー」から起動できるようになっています。スタートメニューからの起動だけでなく、コマンドプロンプトからも実行できるように環境変数 PATHに「C:\Python27」のように、インストールで指定したディレクトリを追加しておきます。

2:追加ライブラリのインストール

 表に必要となるライブラリの情報をまとめました。今回インストールするライブラリはWindows用のインストーラーが用意されていますので、ファイルをダウンロードして実行するだけでインストールは完了します。それぞれのライブラリの詳しい解説は、第3回以降で具体的に使用しながら説明していきたいと思います。

モジュール
Webサイト
概要
ダウンロードURL
インストーラ
Python Python本体です python-2.7.4.msi
http://www.python.org/ http://www.python.org/download/
NumPy(Numerical Python) Pythonで科学計算を行うための拡張モジュールで、多次元配列や行列を簡単に扱えて効率的な演算処理も行うことができます numpy-1.7.1-win32-superpack-python2.7.exe
http://www.numpy.org/ http://sourceforge.net/projects/numpy/files/NumPy/
SciPy(Scientific Library for Python) NumPyをベースにした拡張モジュールで、科学技術計算用の統計関数や画像、信号処理などのライブラリを提供します scipy-0.12.0-win32-superpack-python2.7.exe
http://www.scipy.org/ http://sourceforge.net/projects/scipy/files/scipy/
pandas(Python Data Analysis Library) パフォーマンスと扱いやすさに優れたデータ分析のようモジュールで、時系列データの処理にも優れています pandas-0.11.0.win32-py2.7.exe
http://pandas.pydata.org/ http://pandas.pydata.org/getpandas.html
matplotlib Python用の2次元のグラフ描画用のモジュールで、Ipythonとの組み合わせでコマンドラインからのインタラクティブなグラフ描画を可能にします matplotlib-1.2.1.win32-py2.7.exe
http://matplotlib.org/ http://matplotlib.org/downloads.html
PyReadline(a ctypes-based readline for Windows) GNU readlineをPythonに実装したもので、LinuxのbashやEmacsエディタを使うユーザには必須のモジュールです pyreadline-2.0.win32.exe
http://ipython.org/pyreadline.html https://pypi.python.org/pypi/pyreadline/2.0
IPython タブによる補完ができたりOSのコマンドライン・シェルとしても利用できたりと、Python標準のシェルよりもパワフルでインタラクティブやシェル環境を提供します ipython-0.13.2.py2-win32.exe
http://ipython.org/ https://pypi.python.org/pypi/ipython
表 インストール後に追加しておくべきライブラリ一覧

3:インストールの確認

 コマンドプロンプトから以下のコマンドを実行し、IPythonを起動します。

C:\work>ipython --pylab

 さらにIPythonから以下のPythonコマンドを実行します。

In [1]: import numpy
In [2]: import scipy
In [3]: import pandas
In [4]: x = randn(10000)
In [5]: hist(x, 100)

 importコマンドでエラーがなく、図のようにヒストグラムが表示されれば環境のセットアップは完了です。exit() コマンドもしくは「CTRL + D」でIPythonが終了します。

IPythonでの実行結果
matplotlibでのプロット

Column:Linux環境への追加ライブラリのインストール

 Ubuntu環境でもパッケージ管理のリポジトリからモジュールが提供されています。ただし、12.04 LTSの標準リポジトリで提供されるものはバージョンが古いので、本連載で紹介する機能が使えない場合があります。Ubuntuの場合は、13.04(2013年5月22日時点)で提供されるものが、連載の中のWindows環境と同等です。

 Amazon EC2のt1.microインスタンスにあるUbuntu Server 13.04(64bit)環境で追加ライブラリをインストールする場合は次のようにapt-getコマンドでインストールできます。

$ sudo apt-get install python-numpy python-scipy
$ sudo apt-get install python-pandas
$ sudo apt-get install ipython-notebook

Copyright © ITmedia, Inc. All Rights Reserved.

スポンサーからのお知らせPR

注目のテーマ

AI for エンジニアリング
「サプライチェーン攻撃」対策
1P情シスのための脆弱性管理/対策の現実解
OSSのサプライチェーン管理、取るべきアクションとは
Microsoft & Windows最前線2024
システム開発ノウハウ 【発注ナビ】PR
あなたにおすすめの記事PR

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。