ヤフーは機械学習技術「AnnexML」をオープンソースソフトウェア(OSS)として公開した。ユーザーのサービス利用情報とクリックした広告の組み合わせを学習し、ユーザーに対してクリックされやすい広告を高精度で予測する。
ヤフーは2017年11月15日、新たに開発した機械学習技術「AnnexML」をオープンソースソフトウェア(OSS)として公開した。「ユーザーのサービス利用情報とユーザーがクリックした広告情報」など、数十万通りのビッグデータの組み合わせを学習し、それぞれのユーザーに合わせた「クリックされやすい広告」を高精度で予測する。
ヤフーによれば、AnnexMLの処理速度は、同技術について論文を公開した2017年2月時点で「最速」。AnnexMLをMicrosoft ResearchとIndian Institute of Technologyの研究者らが開発した同種のビッグデータ分類技術「SLEEC」と比較したところ、AnnexMLが最大で約58倍速かったという。
AnnexMLの処理フローは、「学習フェーズ」と「予測フェーズ」の2つから構成される。
学習フェーズでは、ユーザーのサービス利用履歴といった情報を、数十件程度の「特徴量データ」の項目数に圧縮。ヤフーが開発した高速検索技術「NGT(Neighborhood Graph and Tree for Indexing)」を使ってグラフ構造に整理する。AnnexMLは、こうした情報に「ユーザーがクリックした広告」といったラベルデータを組み合わせ、予測モデルを構築する。
予測フェーズでは、学習フェーズと同様の処理でデータ項目数を圧縮した特徴量データを基に、学習フェーズで構築した予測モデルでラベルデータを予測する。
ヤフーは、特長量データ項目数を圧縮し、NGTを活用したことで、AnnexMLの「高い予測精度と高速処理性能を両立できた」としている。
AnnexMLの無償公開は、ヤフーが進める学術領域向けの情報発信の一環だという。同社は今回、AnnexML導入後の特許権侵害の発生リスクを抑えるため、特許権を取得。特許権のライセンスも無償提供する形でのOSS公開に踏み切った。ヤフーは今後、データサイエンス領域の研究者やエンジニアのコミュニティーに貢献し、AnnexMLのさらなる利便性向上を図りたい考えだ。
Copyright © ITmedia, Inc. All Rights Reserved.