「Python」と「Google Colaboratory」で株価データ分析に挑戦:「Python」×「株価データ」で学ぶデータ分析のいろは(1)
日々変動する株価データを題材にPythonにおけるデータ分析のいろはを学んでいく本連載。第1回はPythonを実行する環境とデータの前準備について。
はじめに
連載第1回は「Google Colaboratory」でサンプルプログラムを実行するための環境を用意する方法や利用するPythonのライブラリを説明します。「Google Chrome」と「Googleアカウント」を用意して読み進めてください。
なお、連載の趣旨がデータ分析であるため、Pythonの言語仕様や文法の詳細を割愛する場合があることをご了承ください。
Google Colaboratoryの準備
Google Colaboratoryとは、Googleが提供するブラウザ上でPythonのコードを実行できるサービスです。Google Colaboratoryを初めて利用する場合は、以下の連載「Google Colaboratory入門」の手順に従って、Google ドライブからGoogle Colaboratoryを利用できるようにしてください。
参考記事:Google Colaboratory(Jupyter Notebook)の準備と、ノートブックの作成
Google Colaboratoryでは、Pythonのコードをブロックごとに保存して実行できるため、さまざまな方法を試したり模索したりしながらの作業に向いています。本連載のサンプルコードは、全てGoogle Colaboratoryで実行するものとして進めます。サンプルファイルを実行する場合は、サンプルファイルのリンクを開いた後に、メニューの「ファイル」から「ドライブにコピーを保存」を選択して保存したコピーをGoogle Colaboratoryで実行してください。
利用するライブラリについて
ライブラリとは、プログラムを組むための汎用(はんよう)的な機能を再利用しやすい形でまとめたものです。Pythonでは、標準で用意されている標準ライブラリとインストールが必要な外部ライブラリの2種類があります。データ分析を行う場合は「Numpy」「Pandas」というデータ分析用の2つの外部ライブラリを利用します。
- Numpy:高度な数値計算を処理するライブラリです。配列間の演算や、多次元配列の計算などの複雑な演算処理を高速で実行できます。
- Pandas:効率良くデータ解析を進めるための機能を提供するライブラリです。データを管理する表のオブジェクトを管理し、データの加工や解析ができます。
Numpy、Pandasの両ライブラリは、Pythonのデータ分析においてセットでよく利用されています。そのため、Google Colaboratoryに標準で組み込まれており、特別にインストールすることなく利用できます。
株価を分析するための準備
Google Colaboratoryで株価データを分析する上で必要になる事柄を説明します。
「データフレーム」について
データフレームとは、Pandasライブラリで定義されているデータ分析によく利用される構造体のことです。以下の図のように、行と列の2次元の構造をしています。
データフレームでは、行にはインデックス、列にはカラムという名前が割り当てられます。インデックスはその名前の通り、行を検索する際の索引として利用できます。特別にインデックスを設けずに、カラムをインデックスとして利用することもできます。データフレーム内の1列のみのデータは、シリーズ(Series)というデータ型で扱われます。シリーズは、Python標準のリスト型のように値をまとめて管理するとともに、インデックスを伴います。
データフレームの構造は、表計算ソフトのシートのように考えてみると分かりやすいでしょう。
株価データ分析で知っておきたい用語について
株価データを分析する上で必要になる用語を簡単にまとめます。株価に詳しくない方でもニュースサイトや新聞などで一度は目にしたことがあると思います。
名称 | 意味 |
---|---|
銘柄 | 株式を発行する企業名のこと |
銘柄コード | 上場企業に割り当てられている4桁の番号 |
始値 | ある期間の中で、初めて取引された株価 |
高値 | ある期間の中で、一番高い株価 |
低値 | ある期間の中で、一番低い株価 |
終値 | ある期間の中で、最後に取引された株価 |
出来高 | ある期間の中で、成立した売買の数 |
株価データを扱う場合は、銘柄コードを使って株価を区別します。日単位で株価を見る場合には、始値/高値/低値/終値は1日の中での株価を指します。本連載では、日単位での株価データを分析する例を挙げますので、始値/高値/低値/終値は1日単位で扱います。
始値/高値/低値/終値の4つの中で最も重視するのは終値です。終値は、明日どのように株価が動くかという判断に最も近い価格であるためです。株価データを分析するに当たっては、終値をベースに分析を進めます。
Pythonライブラリを利用して株価データを取得する
Copyright © ITmedia, Inc. All Rights Reserved.