検索
ニュース

ヤフーがAI技術をOSSで公開、単語間の関係性を短時間で学習「リアルタイム検索」の技術を一部公開

ヤフーは、分散表現の学習時間を短縮するAI技術「yskip」を、オープンソースソフトウェアとして公開した。分散表現はテキストに含まれる単語間の関係性を学習させ、単語同士の意味の相違を推定する際に利用する技術。既存の技術と同等の精度を保ちつつ、学習時間を短縮できた。

Share
Tweet
LINE
Hatena

 ヤフーは2019年4月18日、分散表現の学習時間を短縮するAI(人工知能)技術「yskip」を、GitHubでオープンソースソフトウェア(OSS)として公開したことを発表した。

 分散表現とは、単語をベクトルで表現する自然言語処理に向けたAI技術。大量のテキストに含まれる単語間の関係性を機械学習で処理し、単語同士の意味の相違を推定する際に利用する。

 例えば、ユーザーが関心を寄せている情報と、記事や広告のマッチングに利用できる。ヤフーでは、Twitterに投稿されたつぶやきを検索できる「リアルタイム検索」で利用している。

 一般に分散表現は、多くのテキストを使って学習させればさせるほど、精度の向上が期待できる。ただ、SNSなどインターネット上のテキストは更新頻度が高い。このようなコンテンツに適用する場合は、分散表現の学習モデルを頻繁に更新する必要がある。その際、新しいデータだけでなく、既に学習したデータも含めて再度学習する必要があり、この再学習に時間がかかることが課題となっていた。

再学習せずに時間を短縮、精度も維持

 そこでヤフーが開発したyskipでは、代表的な分散表現学習法である「skip-gram model with negative sampling(SGNS)」を拡張して、新しいデータのみを学習させた場合でも、既存データも含めて学習させる場合と同等の精度を維持できるようにした。このアルゴリズムを「incremental SGNS」と呼ぶ。

 新しいデータのみを学習させるので、学習時間を短縮できる。ヤフーでは、5種類のデータセットを使ってyskipとSGNSによる分散表現の精度を比較したところ、同等の精度で学習可能であることを確認したとしている。


5種類のデータセットで比較したところ、yskip(濃い灰色)の精度を従来技術SGNSと同等に保つことができた(出典:ヤフー

 なお、ヤフーは今回の公開に先立ち、同技術導入後の特許侵害の発生リスクを抑え、安心して利用できるようにするため、特許権を取得した。ただし、OSSとして公開することで、研究用途だけでなく商業用途に対しても、同技術の特許権のライセンスを無償提供する。OSSの公開を通じて、同技術のさらなる利便性向上を図るとしている。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る