連載
「ビールと紙おむつ」のような相関関係を探る分析手法にはどんなものがある?――データ分析方法についての検討:ITエンジニアのためのデータサイエンティスト養成講座(5)(3/5 ページ)
分析から導き出される隠れた相関関係を探るには? 代表的分析手法の紹介と、サンプルを使った実際の分析手法を紹介します。
(1)視覚化して全体像をつかむ
まずはそれぞれのデータを取り込んでグラフで表示し、全体像をつかんでみましょう。
電力使用状況のデータは1時間ごとのデータですが、気温の情報は1日ごとのデータになっていて時間の間隔が等しくありません。
ここでは電力使用状況のデータをダウンサンプリングして(第4回参照)、1日ごとの最大値のデータに変換してグラフに表示しています(グラフ1)。
In [1]: # ライブラリのインポート In [2]: import pandas as pd In [3]: import numpy as np In [4]: # 電力の使用状況データの取り込み In [5]: df_power = pd.read_csv('http://www.tepco.co.jp/forecast/html/images/juyo -2013.csv', skiprows=3, names=['date', 'time', 'actual'], encoding='Shift_JIS') In [6]: # 時系列インデックスの生成と付与 In [7]: idx_power = pd.to_datetime(df_power['date']+' '+df_power['time']) In [8]: df_power.index = idx_power In [9]: # 必要ない列の削除 In [10]: del df_power['date'] In [11]: del df_power['time'] In [12]: # ダウンサンプリング(最大値) In [13]: df_power_daily = df_power.resample('D', how='max', kind='period') In [14]: # プロット In [15]: df_power_daily.plot() Out[15]: <matplotlib.axes.AxesSubplot at 0x493ccf0>
グラフから、1月から4月にかけて使用量は徐々に減少し、5月以降は徐々に増加していることが分かります。ここから、4月までは暖房機器による使用の影響が大きく、5月以降は冷房機器による影響が大きいことが推測されます。また、平日と週末の使用量に差があり週末の方が電力使用量が少ないことも分かります。
次に東京都の最高気温と最低気温データの取り込んでグラフに表示します(グラフ2)。
In [16]: # 東京都の最高気温と最低気温データの取り込み In [17]: df_temp = pd.read_csv('data.csv', skiprows=4, names=['date', 'high', 'l ow'], encoding='Shift_JIS') In [18]: # 時系列インデックスの生成と付与 In [19]: idx_temp = pd.to_datetime(df_temp['date']) In [20]: df_temp.index = idx_temp In [21]: # 必要ない列の削除 In [22]: del df_temp['date'] In [23]: # プロット In [24]: df_temp.plot() Out[24]: <matplotlib.axes.AxesSubplot at 0x4db2930>
1月から7月まで多少のバラツキはあるものの最高気温も最低気温も増加傾向であることが分かります。
Copyright © ITmedia, Inc. All Rights Reserved.