ニュース
Microsoft、「Bing」で使用する自然言語処理ライブラリとツール「Bling Fire」を公開:他のライブラリより10倍高速
Microsoftは、Bingで使用している超高速有限ステートマシンと正規表現操作ライブラリ「Bling Fire」をGitHubで公開した。従来のライブラリよりも高速で、例えばPythonから容易に利用できる。
Microsoftの検索エンジン「Bing」の改良を担当する「Bling(Beyond Language Understanding)」チームは、Bingで使われている「超高速有限ステートマシン」と正規表現操作ライブラリ「Bling Fire」をGitHubで公開した。「Fire」は、FInite state machine and REgular expression manipulation libraryの略語。
Bling Fireは、Bing内のさまざまな言語操作に使われている。その一部を挙げると、トークナイゼーション(トークン化)や複数語表現マッチング、未知語の推測、ステミング/レンマ化などがある。
ステミングは、テキスト内の語の語幹を取り出す作業。レンマ化は、テキスト内の語を、見出し語(レンマ)を決めるために分類整理することを指す。
Bling Fireトークナイザ
Bling Fireトークナイザは、自然言語テキストの高速で高品質なトークン化を行うように設計されている。主に、Pythonの自然言語処理(NLP)ライブラリ「NLTK」のトークン化ロジックに従うが、例外もある。ハイフン付きの語が分割されることと、幾つかのエラーが修正されていることだ。
NLTKとBling Fireのトークン化がどの程度異なるのかを次に示す。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- 学習させることで、どんどん賢くなっていくLUISをbotサービスで活用するには
コグニティブサービスのAPIを用いて、「現在のコグニティブサービスでどのようなことができるのか」「どのようにして利用できるのか」「どの程度の精度なのか」を検証していく連載。最終回となる今回は、LUIS(Language Understanding Intelligent Service)とMicrosoft Bot Frameworkを組み合わせてbotサービスを作成します。 - Pythonで機械学習/Deep Learningを始めるなら知っておきたいライブラリ/ツール7選
最近流行の機械学習/Deep Learningを試してみたいという人のために、Pythonを使った機械学習について主要なライブラリ/ツールの使い方を中心に解説する連載。初回は、筆者が実業務で有用としているライブラリ/ツールを7つ紹介します。 - ElasticsearchとKuromojiを使った形態素解析とN-Gramによる検索の適合率と再現率の向上
リクルートの事例を基に、大規模BtoCサービスに求められる検索基盤はどう構築されるものなのか、どんな技術が採用されているのか、運用はどうなっているのかなどについて解説する連載。今回は、テンプレートを利用したインデックス生成など、検索結果の品質を向上させるためのさまざまな取り組みを紹介する。