IBMは、大規模言語モデル(LLM)を音声ベースの会話に応用した「大規模音声モデル(LSM)」のクローズドβ版を公開した。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
IBMは2024年1月3日(米国時間)、英語と日本語に対応した「大規模音声モデル(LSM:Large Speech Models)」のクローズドβ版を公開した。
同社のAIプラットフォーム「IBM watsonx」の開発チームとIBM Researchは、大規模言語モデル(LLM)のベースであるTransformerを用いて、大量のトレーニングデータとモデルパラメーターを使用し、LSMの精度を向上させてきたという。
IBMによると、OpenAIの音声認識モデル「Whisper(medium.en)」と比較してパラメーター数は5分の1であり、実際の顧客との通話(英語)に基づくパフォーマンスのベンチマーク比較では、LSMの単語誤り率(WER:Word Error Rate)が42%低かったとしている。
IBMは「Whisperは音声を30秒ごとに区切って処理するため、無音部分でも処理が実行される。一方、LSMは音声終了とともに処理も終了するため、30秒未満のオーディオファイルを処理するタスクで、特に効果を発揮する」と述べている。
IBMはLSMのユースケースとして、電話を用いたセルフサービスのアシスタントやリアルタイムによる書き起こしが必要なカスタマーサービスを挙げている。
Copyright © ITmedia, Inc. All Rights Reserved.