検索
ニュース

複数話者でも個別に音声をテキストへ、日立が音源分離技術を製品化音声認識率で世界第2位の評価

日立製作所は会話音声をテキスト化する「音声書き起こし支援サービス」の販売を開始した。雑音が含まれていたり、複数人の音声が重なっていたりしても、話者を識別して、話者ごとに分離したテキストを生成できる。

Share
Tweet
LINE
Hatena

 日立製作所は2018年10月16日、会議や商談などの会話音声をテキスト化する「音声書き起こし支援サービス」の販売を開始した。同年6月27日に発表したAI活用の「チャットボットサービス」に続く、対話型botを活用して業務改革や新たな価値の創出を支援する「デジタル対話サービス」の第2弾と位置付ける。

 音声書き起こし支援サービスは、音声認識技術を利用して、会話の音声データをテキストに変換するクラウドサービス。日立製作所独自の2つの技術を用いる。一つは雑音や反響音を除去して認識対象の音声のみを抽出する雑音除去技術。もう一つは複数方向からの音声を別々に認識する音源分離技術。

 これらの技術によって、雑音を含んでいたり、複数人の音声が重なっていたりしても、話者を識別して、話者ごとに分離したテキストを生成できるという。


音声書き起こし支援サービスの特徴 同社の技術は音声認識の技術評価国際イベント「CHiME-5」(2018年9月)で音声認識率で世界第2位の評価を得たという(出典:日立製作所

 従来の音声認識技術では、口元とマイクの距離が大きく離れると認識率が低下することがあった。そのため音声認識の精度を高めるには、個人ごとにマイクを用意する必要があった。

 これに対し、音源方向を特定する日立製作所の技術を組み込んだマイクでは、1台だけで、録音した音声データから複数話者の音声を音源方向から識別し、話者ごとに音声をテキスト化できる。

 日立製作所によれば、一般のマイクやICレコーダー、スマートフォンなどで録音した音声でも、今回のサービスを利用すれば容易にテキスト化できるという。

 なお、音声書き起こし支援サービスではユーザーが単語や例文を登録でき、固有名詞や専門用語などを追加すれば、ユーザーの業務に合わせて音声認識精度を高められるという。

 サービスの提供開始は2018年10月31日。価格は個別見積もり。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る