情報通信研究機構(NICT)は、短い発話音声から何語なのかを識別する言語識別技術を開発。1.5秒程度の音声を識別時間0.15秒以内のリアルタイムで識別する。8言語(日、英、中、韓、タイ、ミャンマー、ベトナム、インドネシア)に対応し、何語を話しているか分からない相手の言葉も即座に識別する。
情報通信研究機構(NICT)は2018年10月18日、人の発話が何語であるのかを1.5秒程度の短い音声を基に識別できる言語識別技術を開発したと発表した。日、英、中、韓、タイ、ミャンマー、ベトナム、インドネシアの8言語に対応する。
同技術は、言語識別に必要な発話の特徴を精度よく抽出し、高速演算できるニューラルネットワークを活用して、1.5秒程度の短い発話でも0.15秒以内というほぼリアルタイムに識別できるようにした。
この技術を音声認識や自動翻訳に使えば、何語を話しているか分からない外国人の言葉を即座に識別できる。
多くの音声認識アプリケーションでは、あらかじめ聞き取る言語を設定する必要があり、相手が話している言語が分からない場合には、言語の指定自体が困難だった。
これを解決する方法として、入力された発話音声が何語なのかを識別する言語識別技術が利用されるが、従来の一般的な方式では、10秒程度の長い発話でないと識別が困難なため、音声認識アプリにはあまり実装されていなかった。
今回、NICTでは「知識蒸留(Knowledge Distillation)」という手法を用いて、言語識別に必要な発話の特徴を精度よく抽出する長い発話用のニューラルネットワークを変換し、短い発話でも高精度かつリアルタイムに識別できる小規模ニューラルネットを構築する方式を活用した。
言語識別技術に取り入れた知識蒸留による学習のイメージ。高度で複雑な大規模ネットワーク(Teacher)が学習した知識を、軽量でシンプルな小規模ネットワーク(Student)の学習に利用する。Teacherは言語識別に必要な計算に時間がかかるが、Studentは高速演算が可能この方式により、1.5秒程度の短い発話でも即座(0.15秒)に識別する言語識別技術を開発し、8言語を90%以上で識別可能とした。
米Googleがスマートスピーカー用APIとして公開している音声翻訳アプリでは、一度に言語識別できるのは4言語で、NICTでは、今回開発した方式ではこれを上回ると説明。
今後、識別言語数の拡張や識別精度の向上を図るとともに、NICTが実証実験用に無料公開しているスマートフォン用音声翻訳アプリ「VoiceTra」にも実装する方針。また、音声翻訳アプリ向け技術として、民間企業へのライセンス提供も予定している。
復号せずに複数の暗号化データの関連性を解析、NICTらが医療データ解析で実証
KDDI総合研究所や横浜国立大学ら、Web媒介型サイバー攻撃対策の実証実験として「タチコマSA」を無償配布
AIによる災害情報のSNS分析、確実な運用に備え、防災訓練にも――慶大、NICT、NIEDが訓練ガイドライン策定
NICT、「SecHack365」の2018年度受講生を募集開始 ハッカソンで高度なセキュリティ技術者を育成
NICT、演習自動構築システム導入で、受講者のスキルや業務に合ったサイバー演習を提供へCopyright © ITmedia, Inc. All Rights Reserved.