IBM、「大規模音声モデル(LSM)」のクローズドβ版を公開英語と日本語に対応

IBMは、大規模言語モデル(LLM)を音声ベースの会話に応用した「大規模音声モデル(LSM)」のクローズドβ版を公開した。

» 2024年01月25日 11時00分 公開
[@IT]

この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。

 IBMは2024年1月3日(米国時間)、英語と日本語に対応した「大規模音声モデル(LSM:Large Speech Models)」のクローズドβ版を公開した。

 同社のAIプラットフォーム「IBM watsonx」の開発チームとIBM Researchは、大規模言語モデル(LLM)のベースであるTransformerを用いて、大量のトレーニングデータとモデルパラメーターを使用し、LSMの精度を向上させてきたという。

 IBMによると、OpenAIの音声認識モデル「Whisper(medium.en)」と比較してパラメーター数は5分の1であり、実際の顧客との通話(英語)に基づくパフォーマンスのベンチマーク比較では、LSMの単語誤り率(WER:Word Error Rate)が42%低かったとしている。

 IBMは「Whisperは音声を30秒ごとに区切って処理するため、無音部分でも処理が実行される。一方、LSMは音声終了とともに処理も終了するため、30秒未満のオーディオファイルを処理するタスクで、特に効果を発揮する」と述べている。

IBM LSMとOpenAI Whisper(medium.en)のWER比較(提供:IBM) IBM LSMとOpenAI Whisper(medium.en)のWER比較(提供:IBM)

 IBMはLSMのユースケースとして、電話を用いたセルフサービスのアシスタントやリアルタイムによる書き起こしが必要なカスタマーサービスを挙げている。

Copyright © ITmedia, Inc. All Rights Reserved.

スポンサーからのお知らせPR

注目のテーマ

Microsoft & Windows最前線2025
AI for エンジニアリング
ローコード/ノーコード セントラル by @IT - ITエンジニアがビジネスの中心で活躍する組織へ
Cloud Native Central by @IT - スケーラブルな能力を組織に
システム開発ノウハウ 【発注ナビ】PR
あなたにおすすめの記事PR

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。