ヤフーがAI技術をOSSで公開、単語間の関係性を短時間で学習:「リアルタイム検索」の技術を一部公開
ヤフーは、分散表現の学習時間を短縮するAI技術「yskip」を、オープンソースソフトウェアとして公開した。分散表現はテキストに含まれる単語間の関係性を学習させ、単語同士の意味の相違を推定する際に利用する技術。既存の技術と同等の精度を保ちつつ、学習時間を短縮できた。
ヤフーは2019年4月18日、分散表現の学習時間を短縮するAI(人工知能)技術「yskip」を、GitHubでオープンソースソフトウェア(OSS)として公開したことを発表した。
分散表現とは、単語をベクトルで表現する自然言語処理に向けたAI技術。大量のテキストに含まれる単語間の関係性を機械学習で処理し、単語同士の意味の相違を推定する際に利用する。
例えば、ユーザーが関心を寄せている情報と、記事や広告のマッチングに利用できる。ヤフーでは、Twitterに投稿されたつぶやきを検索できる「リアルタイム検索」で利用している。
一般に分散表現は、多くのテキストを使って学習させればさせるほど、精度の向上が期待できる。ただ、SNSなどインターネット上のテキストは更新頻度が高い。このようなコンテンツに適用する場合は、分散表現の学習モデルを頻繁に更新する必要がある。その際、新しいデータだけでなく、既に学習したデータも含めて再度学習する必要があり、この再学習に時間がかかることが課題となっていた。
再学習せずに時間を短縮、精度も維持
そこでヤフーが開発したyskipでは、代表的な分散表現学習法である「skip-gram model with negative sampling(SGNS)」を拡張して、新しいデータのみを学習させた場合でも、既存データも含めて学習させる場合と同等の精度を維持できるようにした。このアルゴリズムを「incremental SGNS」と呼ぶ。
新しいデータのみを学習させるので、学習時間を短縮できる。ヤフーでは、5種類のデータセットを使ってyskipとSGNSによる分散表現の精度を比較したところ、同等の精度で学習可能であることを確認したとしている。
なお、ヤフーは今回の公開に先立ち、同技術導入後の特許侵害の発生リスクを抑え、安心して利用できるようにするため、特許権を取得した。ただし、OSSとして公開することで、研究用途だけでなく商業用途に対しても、同技術の特許権のライセンスを無償提供する。OSSの公開を通じて、同技術のさらなる利便性向上を図るとしている。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- 機械学習向け教師データ作成ツール、TISがオープンソースで公開
TISは機械学習に向けた教師データ作成ツール「doccano」をオープンソースソフトウェアとして公開した。テキスト分類、系列ラベリング、系列変換という3つの基本的なタスクで使用するデータを作成しやすいという。 - 機械学習アルゴリズムに見えない課題あり、米大学の研究者が指摘
メリーランド大学のコンピュータサイエンス研究グループが、機械学習アルゴリズムを改善するための新しい有望なアプローチを開発した。意味のない入力に対して、回答しないアルゴリズムが必要なのだという。 - 「AI」「機械学習」「ディープラーニング」は、それぞれ何が違うのか
「AI」「機械学習」「ディープラーニング」は、それぞれ何が違うのか。GPUコンピューティングを推進するNVIDIAが、これらの違いを背景および技術的要素で解説した。