検索
ニュース

時系列予測のベストプラクティスを共有するGitHubリポジトリを開設、MicrosoftPythonやR向け

Microsoftは、時系列予測のベストプラクティスを共有するためのGitHubリポジトリを開設した。PythonやRを使っている開発者に向けたものだ。

Share
Tweet
LINE
Hatena

 Microsoftの「R」コミュニティー向けブログサイト「Revolutions」は、2020年4月14日(米国時間)、時系列予測のベストプラクティスを共有するためのGitHubリポジトリ「Time Series Forecasting Best Practices & Examples」を開設したと発表した。

 Microsoftはこのリポジトリについて、README.mdで次のように説明している。

 「時系列予測は、データサイエンスで最も重要なトピックの一つだ。的確な意思決定と効果的な資源配分を行うために、ほぼ全ての企業には未来を予測する必要がある。このリポジトリは、予測ソリューションを構築するためのサンプルとベストプラクティスガイドラインを提供する。このリポジトリの目標は、予測アルゴリズムの最新の進化を利用して、ソリューションを構築し、運用するためのツールとサンプルの包括的なセットを用意することにある。われわれはゼロから実装を始めるのではなく、既存の最先端のライブラリを利用し、データの処理と特徴化、モデルの最適化と評価、クラウドへのスケールアップに向けた追加のユーティリティーを開発した」

PythonやRから利用できる

 公開したリポジトリには、Python環境であるJupyter Notebookや、統計処理言語RのMarkdownドキュメントなど、さまざまな時系列モデリング手法の詳細サンプル(ノートブック)が含まれている。また、「Azure Machine Learning」サービスの時系列モデルに適合し、予測をWebサービスとして運用するためのノートブックも含まれる。

 例えばRのサンプルには、83店舗の冷凍オレンジジュースの販売データを使って、時系列予測の幾つかの手法を示している(「bayesm」パッケージから取得したもの)。扱われている手法は内挿法による期待値予測、ARIMA(Autoregressive Integrated Moving Average:自己回帰和分移動平均)モデル、指数平滑化法、加法モデルなどさまざまだが、いずれも「tidyverts」パッケージスイートを幅広く利用している。このパッケージは、「tidy time series forecasting for R」(Rのきちんとした時系列予測)を実現する。

 なお、予測手法自体については、オンラインで公開されている書籍「Forecasting: Principles and Practice」(モナッシュ大学)に解説がある。


時系列プロットの例(出典:Revolutions

R Markdownファイルのサンプルを試す

 リポジトリをクローン後、R Markdownファイルを使って、サンプルを試すこともできる。gitがインストール済みであれば、「RStudio」を使って簡単に試用できる。[Choose File]−[New Project]−[Version Control]−[Git]で、リポジトリのURLフィールドに「https://github.com/microsoft/forecasting」と入力すればよい。


リポジトリのクローン画面(出典:Revolutions

 各「.Rmd」ファイルを開き、プロンプトでパッケージをインストール後、「Knit」ボタンをクリックすると、ドキュメントが生成される。なお、Prophetモデルのサンプルでは計算処理にしばらく時間がかかる。マルチコアのCPUを使っている場合、並列パッケージを用いて高速化を図る仕組みが働く。

 リポジトリには、レンダリングされたドキュメントのHTML版が用意されているため、待ちたくない場合はこれを使うとよい。GitHub内では読みにくいので、ブログの筆者がgh-pagesブランチを作成した。次のリンクから、各項目のページに直接アクセスできる。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る