ヤフー、ビッグデータ分析を超高速化する「高次元データの高速検索技術」をOSS化 GitHubで公開:広くエンジニアに使ってもらいたい
ヤフーがビッグデータ分析分析領域の最先端技術となる、高次元データの高速検索技術「NGT」をオープンソースソフトウェアとして一般公開。同様の主流/先端技術と比べて、言語データ/画像特徴データを約12倍以上高速に検索できるという。
ヤフーは2016年11月24日、ビッグデータ分析に向けた高次元データ検索技術「NGT(Neighborhood Graph and Tree for Indexing)」を、オープンソースソフトウェア(OSS)として公開したと発表した。
NGTは、高次元データと定義されるテキストや画像、商品、ユーザーデータといった複数の特徴を持つデータを大量のデータベースの中から高速に検索する、いわゆるビッグデータ分析を高速化する技術。同社によると、言語データと画像特徴データを、同様の主流/先端技術と比べて、約12倍以上高速に検索できるという。特に言語データに関しては、2016年8月に開催された自然言語処理分野の国際会議「ACL 2016(54th Annual Meeting of the Association for Computational Linguistics)」で論文として採択され、その有用性が高く評価されたとしている。
言語データについてのNGTの高速性を同社が実際に測定したところ、検索適合率90%とする200万件のデータから検索した場合で、既存の類似技術の中で特に高速とされる「SASH」では約2.4ms(ミリ秒)かかったのに対して、NGでは約0.6msだった。また、既存の類似技術の中で主流とされる「FLANN(Fast Library for Approximate Nearest Neighbors)」(約7.4ms)と比べると、約12.3倍高速だった。
一方、画像データについては、検索適合率90%とする1000万件の画像特徴データを抽出するのに、既存の類似技術の中で最も高速とされる「直積量子化手法(PQ:Product Quantization)」では約7.9msかかったのに対して、NGTは約1.4ms。同じくFLANN(約18.9m秒)と比べると、約13.5倍高速だった。
NGTについて同社は、次の2つの応用分野を挙げている。
1つは、ニュースを中心とするコンテンツのパーソナライズ配信や、運用型ディスプレイ広告の広告配信精度の向上だ。テキストや画像、商品、ユーザーデータなどについて、近似したデータのマッチングを高速化できるという。
もう1つは、データの名寄せなど、企業内に蓄積されているものの、活用/分類しきれていないビッグデータを活用しやすい形に置き換える、データ連携/変換/統合分野だ。NGTにより、多くの項目があり、フォーマットも入力方法もバラバラで、構造化されていない大量のデータも高速に照合できる。これは、AI(Artificial Intelligence:人工知能)の活用に求められる、質の高いビッグデータ分析と知見の生成/発見につながるとしている。
NTGはソフトウェア開発プロジェクトの共有Webサービス「GitHub」で入手できる。同技術に関係する特許の実施権も無償で提供する。この他、NGTを活用したスマートフォンアプリとして、スマートフォンのカメラを任意の商品にかざすと「Yahoo!ショッピング」内の最安値ストアのページを開く「サイヤスカメラ」を開発。「Yahoo!ラボ」などで実験的に公開している。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- AIとは何か、人工知能学会会長が語った常識と誤解
人工知能(AI)がブームになっているが、これまでのブームとどう違うのか。AIは、どのような発展段階にあるのか。人間の仕事を奪う「敵」なのか。人工知能学会会長である山田誠二氏の、こうした疑問に答えるような講演を要約してお届けする。 - インテル、大規模なAI戦略を発表 AIプラットフォーム「Intel Nervana」を投入
インテルがAIの活用促進に向けた新しい製品、技術、投資計画を多数発表。AIの包括プラットフォーム「Intel Nervana」を中心に展開する。 - 「AI」「機械学習」「ディープラーニング」は、それぞれ何が違うのか
「AI」「機械学習」「ディープラーニング」は、それぞれ何が違うのか。GPUコンピューティングを推進するNVIDIAが、これらの違いを背景および技術的要素で解説した。 - あなたのスマホに「アイトラッキング」機能が備わる可能性
NVIDIAが、GPUコンピューティングを利用したディープラーニングにより、視線の軌跡を検知する研究用スマートフォンアプリの開発が進められている事例を紹介した。