NTTコミュニケーションズは、日本語の自然言語解析API「Communication Engine “COTOHA API”」の提供を開始した。構文解析、固有表現抽出、キーワード抽出、類似度算出、文タイプ判定、照応解析、ユーザー属性推定といった機能を、さまざまなサービスに組み込むことができる。
NTTコミュニケーションズ(NTT Com)は2018年9月5日、日本語の自然言語解析API「Communication Engine “COTOHA API”」の提供を開始した。
このAPIは、同社が2016年10月から提供している日本語による対話が可能なAIエンジン「Communication Engine “COTOHA Virtual Assistant”」の自然言語解析技術を、文章の解析や翻訳、ヘルプデスクなど、さまざまなサービスに組み込めるようAPIとして提供するもの。NTTグループが40年以上にわたって蓄積した日本語辞書やAI関連技術「corevo」と、NTT Comが独自開発した自然言語解析技術を活用した。
提供するAPIは、構文解析、固有表現抽出、キーワード抽出、類似度算出、文タイプ判定、照応解析、ユーザー属性推定の7種類。
構文解析は、日本語の文章の構造と意味を解析する。固有表現抽出とキーワード抽出は、文章からそれぞれ人名や地名などの固有表現、あるいはキーワードを抽出する。類似度算出は、2つの文章の類似性を数値化して出力する。文タイプ判定は、あいさつや同意、約束などの発話行為のタイプ判定と、叙述文、命令文、質問文などの文タイプを判別する。
照応解析は、「あれ」「これ」「それ」「そこ」などの指示語や省略語を検知し、指し示す対象を特定する。ユーザー属性推定は、文章からユーザーの年代や職業といった属性を推定する。照応解析とユーザー属性推定のみ、β版である。
今後は、音声認識から得られる結果データの精度を向上させる「言いよどみ除去」「誤り箇所検知」「誤り箇所訂正」などのAPIを追加提供するという。
こうした日本語文章の解析技術を支えるのは、210万語を超える基本語辞書と専門用語辞書。専門用語辞書には企業や団体の固有名詞、経済や法令に関する用語、製造業や情報通信業などさまざまな業界の用語を収録しており、COTOHA APIを提供するに当たって新たに追加した。そして、単語を3000種の意味属性に分類し、NTTグループ独自の日本語構文解析技術を用いて、文脈に応じて変化する言葉の意味を踏まえて処理する。
さらにCOTOHA APIでは、ユーザー自身で編集できる専用の個別辞書も利用可能。APIを利用する際にはパラメーターを与えることで、どの辞書を使うか、出力するキーワード数はどの程度に設定するかなどをカスタマイズできる。
COTOHA APIでは、検証用として無償で利用できる「for Developers」と、商用の「for Enterprise」の2つのメニューを用意した。for Enterpriseの初期費用は無料。利用料金は、APIコール数に応じた従量制を採り、月額13万円(税別)から。なおfor Developersには、専門用語辞書と個別辞書の編集機能を利用できないなど、一部制限がある。
Copyright © ITmedia, Inc. All Rights Reserved.