ウォール街アナリストを上回る企業業績予測モデル、MITが開発：確率伝播法を採用した機械学習モデル

MITの研究チームが、企業の四半期業績を予測する数理モデルを開発した。ウォール街のアナリストを超える成績を実証した。特徴は匿名化された週次のクレジットカード取引データと四半期業績レポートのみを使用したことだ。

[＠IT] PC用表示関連情報

LINE

Hatena

　マサチューセッツ工科大学（MIT）の研究チームは、企業の四半期業績を予測する数理モデルを開発した。匿名化された週次のクレジットカード取引データと四半期業績レポートというごく限られた情報だけを用いていることが特徴。

　開発したモデルを使って34社の四半期業績を予測したところ、57％においてウォール街のアナリストの平均予測を上回る精度を実現した。今回の研究で注目すべき点は豊富な情報を利用できるアナリストよりも圧倒的に少ないデータだけを用いて的確な予測を下したことだ。

MITの研究チームが開発した機械学習モデルは、ウォール街のアナリストを上回る精度で四半期業績を予測できる

　ウォール街のアナリストは業績予測に当たって、使用可能なプライベートデータと公的データ、今回のものとは異なる機械学習モデルにアクセスできたのに対し、研究チームが開発したモデルは、非常に小規模な2種類のデータセットのみを使用した。

代替データが使いにくい理由は？

　金融業界では現在、企業が発表する業績データ以外に、「代替データ」を用いた企業収益予測に対して関心が高まっている。用途は取引や投資だ。

　代替データとは漠然としているが頻繁に生成される消費者データをいう。例えばクレジットカード取引データやスマートフォンから得られる位置データ、小売店舗の駐車場の混雑具合を示す衛星画像などであり、代替データの種類は多岐にわたる。

　だがこれまでのところ、代替データを使って正確な予測を頻繁に行うことは、非常に難しかった。なぜだろうか。

　研究者によれば、データの量が不足しているためだという。四半期ごとのレポートや各週のクレジットカード取引などの財務入力は1つの数値のみから構成されている。つまり2年間の四半期報告では、合計しても8つのデータポイントしかない。例えば、同じ期間の毎週のクレジットカードデータは、約100個のノイズの多いデータポイントにすぎない。つまり、これらのデータには解釈できない情報が含まれている可能性がある。

　ノイズが多いデータを扱う手法が今回の研究では中心を占めた。博士課程を修了後、MITの情報／意思決定システム研究所（LIDS）で研究を行い、論文の第一著者を務めたマイケル・フレダー氏は次のように述べている。

　「われわれは、『代替データというノイズの多いシグナルと、四半期業績データを組み合わせて、企業業績を高頻度に予測することは可能か』という問いを立てた。研究の結果、答えはイエスである」

　研究チームが開発した予測モデルは、投資家やトレーダー、あるいは自社と競合他社の売り上げを頻繁に比較する企業にとって、有力なツールになる可能性がある。もちろん社会科学者や政治科学者が、大量の匿名データを使って人々の行動を研究する場合などにも役立ちそうだ。

　「このモデルは、人々が何を行おうとしているかを理解したいと考える全ての人に役立つだろう」（フレダー氏）

機械学習をどのように活用したのか

　研究チームは予測モデルを研究し、開発するために、対象として選んだ小売業者34社についてヘッジファンドから2種類のデータを入手した。

　具体的には2015～2018年のクレジットカード取引データ（通常、毎週や隔週に得られる）と四半期業績レポートだ。34社全体で306四半期分のデータが集まった。

　四半期レポートのデータだけでは毎日の売上高を予測できない。なぜなら売り上げは日によって異なるからだ。代替データを追加しても予測はやはり難しい。クレジットカード購入額が売上高全体に占める割合が不確定だからだ。つまり、クレジットカード取引データを予測に織り込もうとすると、作業がさらに複雑になる。

　研究チームは、クレジットカード取引データと四半期レポートを組み合わせて1日の売上高を予測するため、カルマンフィルター法や確率伝播（でんぱ）法と呼ばれる一般的な推論アルゴリズムのバリエーションを使用した機械学習モデルを開発した。このアルゴリズムはスペースシャトルからスマートフォンのGPSまで、さまざまな技術で使われている。一定期間に測定されたノイズを含むデータを使って、所定の期間における未知の変数の確率分布を生成するというものだ。

　研究チームは、クレジットカード取引データと四半期レポートデータでモデルをトレーニングし、独自アルゴリズムによって日次売上高の予測を可能にし、週次、月次と積み上げて四半期業績を予測できるようにした。

　研究チームは2019年12月中旬開催のProceedings of ACM Sigmetrics Conferenceで、成果をまとめた論文を発表している。

ウォール街アナリストを上回る企業業績予測モデル、MITが開発：確率伝播法を採用した機械学習モデル

代替データが使いにくい理由は？

機械学習をどのように活用したのか

関連記事

関連リンク

Smart & Social 記事ランキング