既存の技術を「さらに高速化」――ヤフー、ネット広告向け機械学習技術を無償公開：GitHubで特許権のライセンスも無償提供

ヤフーは機械学習技術「AnnexML」をオープンソースソフトウェア（OSS）として公開した。ユーザーのサービス利用情報とクリックした広告の組み合わせを学習し、ユーザーに対してクリックされやすい広告を高精度で予測する。

» 2017年11月17日 08時00分公開

[＠IT]

　ヤフーは2017年11月15日、新たに開発した機械学習技術「AnnexML」をオープンソースソフトウェア（OSS）として公開した。「ユーザーのサービス利用情報とユーザーがクリックした広告情報」など、数十万通りのビッグデータの組み合わせを学習し、それぞれのユーザーに合わせた「クリックされやすい広告」を高精度で予測する。

　ヤフーによれば、AnnexMLの処理速度は、同技術について論文を公開した2017年2月時点で「最速」。AnnexMLをMicrosoft ResearchとIndian Institute of Technologyの研究者らが開発した同種のビッグデータ分類技術「SLEEC」と比較したところ、AnnexMLが最大で約58倍速かったという。

AnnexMLと他の既存技術との高速性比較（提供：ヤフー）

AnnexMLの処理フロー

　AnnexMLの処理フローは、「学習フェーズ」と「予測フェーズ」の2つから構成される。

AnnexMLの処理フロー（提供：ヤフー）

　学習フェーズでは、ユーザーのサービス利用履歴といった情報を、数十件程度の「特徴量データ」の項目数に圧縮。ヤフーが開発した高速検索技術「NGT（Neighborhood Graph and Tree for Indexing）」を使ってグラフ構造に整理する。AnnexMLは、こうした情報に「ユーザーがクリックした広告」といったラベルデータを組み合わせ、予測モデルを構築する。

　予測フェーズでは、学習フェーズと同様の処理でデータ項目数を圧縮した特徴量データを基に、学習フェーズで構築した予測モデルでラベルデータを予測する。

特許ライセンスも無償提供

　ヤフーは、特長量データ項目数を圧縮し、NGTを活用したことで、AnnexMLの「高い予測精度と高速処理性能を両立できた」としている。

　AnnexMLの無償公開は、ヤフーが進める学術領域向けの情報発信の一環だという。同社は今回、AnnexML導入後の特許権侵害の発生リスクを抑えるため、特許権を取得。特許権のライセンスも無償提供する形でのOSS公開に踏み切った。ヤフーは今後、データサイエンス領域の研究者やエンジニアのコミュニティーに貢献し、AnnexMLのさらなる利便性向上を図りたい考えだ。

あまり知られていないFacebookの機械学習ツール「FBLearner Flow」とは
機械学習フレームワークでは、GoogleのTensorFlowが人気を博しているが、Facebookは「FBLearner Flow」というツールを自社開発し、同社エンジニアの4分の1が使っているという。このツールは、業界に大きな影響を与える可能性を秘めている。
ソニーがディープラーニング統合開発環境「Neural Network Console」クラウドサービス版を無償公開
ソニーは、ディープラーニング統合開発環境「コンソールソフトウェア：Neural Network Console」のクラウドサービス版をオープンβ版として無償公開した。ニューラルネットワークの設計や学習、評価などをWebブラウザで可能にする。
IBM POWER8対応ディープラーニング開発ツール群「IBM PowerAI」が「TensorFlow」フレームワークをサポート
IBMのディープラーニング開発ツール群「IBM PowerAI」がグーグルの「TensorFlow」フレームワークをサポートした。