ニュース
ヤフーがAI技術をOSSで公開、単語間の関係性を短時間で学習:「リアルタイム検索」の技術を一部公開
ヤフーは、分散表現の学習時間を短縮するAI技術「yskip」を、オープンソースソフトウェアとして公開した。分散表現はテキストに含まれる単語間の関係性を学習させ、単語同士の意味の相違を推定する際に利用する技術。既存の技術と同等の精度を保ちつつ、学習時間を短縮できた。
ヤフーは2019年4月18日、分散表現の学習時間を短縮するAI(人工知能)技術「yskip」を、GitHubでオープンソースソフトウェア(OSS)として公開したことを発表した。
分散表現とは、単語をベクトルで表現する自然言語処理に向けたAI技術。大量のテキストに含まれる単語間の関係性を機械学習で処理し、単語同士の意味の相違を推定する際に利用する。
例えば、ユーザーが関心を寄せている情報と、記事や広告のマッチングに利用できる。ヤフーでは、Twitterに投稿されたつぶやきを検索できる「リアルタイム検索」で利用している。
一般に分散表現は、多くのテキストを使って学習させればさせるほど、精度の向上が期待できる。ただ、SNSなどインターネット上のテキストは更新頻度が高い。このようなコンテンツに適用する場合は、分散表現の学習モデルを頻繁に更新する必要がある。その際、新しいデータだけでなく、既に学習したデータも含めて再度学習する必要があり、この再学習に時間がかかることが課題となっていた。
再学習せずに時間を短縮、精度も維持
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- 機械学習向け教師データ作成ツール、TISがオープンソースで公開
TISは機械学習に向けた教師データ作成ツール「doccano」をオープンソースソフトウェアとして公開した。テキスト分類、系列ラベリング、系列変換という3つの基本的なタスクで使用するデータを作成しやすいという。 - 機械学習アルゴリズムに見えない課題あり、米大学の研究者が指摘
メリーランド大学のコンピュータサイエンス研究グループが、機械学習アルゴリズムを改善するための新しい有望なアプローチを開発した。意味のない入力に対して、回答しないアルゴリズムが必要なのだという。 - 「AI」「機械学習」「ディープラーニング」は、それぞれ何が違うのか
「AI」「機械学習」「ディープラーニング」は、それぞれ何が違うのか。GPUコンピューティングを推進するNVIDIAが、これらの違いを背景および技術的要素で解説した。