検索
ニュース

ローカルで動く日本語対応の音声認識AIモデル「Voxtral Transcribe 2」公開200ミリ秒未満の低遅延を実現

Mistral AIは音声認識AIモデル「Voxtral Transcribe 2」を発表した。高精度で低価格なバッチ処理向けと、超低遅延なリアルタイム対応の2モデルで構成される。

Share
Tweet
LINE
Hatena

 Mistral AIは2026年2月4日(フランス時間)、音声認識AI(人工知能)モデル「Voxtral Transcribe 2」を発表した。高精度な文字起こしに加え、話者分離機能、超低遅延が特徴だ。

 Voxtral Transcribe 2は、バッチ処理向けの「Voxtral Mini Transcribe V2」とリアルタイム対応の「Voxtral Realtime」の2モデルで構成される。Voxtral RealtimeはオープンウェイトモデルとしてHugging Faceからダウンロードできる。

 Mistral AIは同社のプラットフォーム「Mistral AI Studio」でVoxtral Transcribe 2を活用した話者分離やタイムスタンプ機能を備えた文字起こしを試せるデモも公開している。同社の「Le Chat」で試用することもできる。

Mistral AI Studioで提供される「Audio playground」のインタフェース(提供:Mistral AI)

クラウドAPIの遅延課題と情報漏えいリスクを解消? 「Voxtral Realtime」の実力

 Voxtral Realtimeは、低遅延が重要となるアプリケーション向けに設計されたリアルタイム音声認識モデルだ。従来のオフラインモデルのように音声をチャンク単位で処理するのではなく、音声が到着するたびに文字起こしを実行するストリーミングアーキテクチャを採用している。

 遅延は200ミリ秒未満まで設定可能で、字幕生成に適した2.4秒の遅延設定ではVoxtral Mini Transcribe V2と同等の精度を達成する。480ミリ秒の遅延設定でも、バッチモデルとの単語エラー率の差は1〜2%以内に収まり、音声エージェントなどのアプリケーションでオフラインモデルに近い精度を確保しているという。

遅延設定(240〜2400ミリ秒)ごとの単語エラー率比較。低遅延でも高い精度を維持している(提供:Mistral AI)
遅延設定(240〜2400ミリ秒)ごとの単語エラー率比較。低遅延でも高い精度を維持している(提供:Mistral AI)

 40億パラメーターのモデルサイズで、エッジデバイスでも効率的に動作する。

 対応言語は、英語、中国語、ヒンディー語、スペイン語、アラビア語、フランス語、ポルトガル語、ロシア語、ドイツ語、日本語、韓国語、イタリア語、オランダ語の13言語。

 Voxtral RealtimeをAPI経由で利用する場合、価格は1分当たり0.006ドルとなっている。

Voxtral Mini Transcribe V2の特徴

 Voxtral Mini Transcribe V2は、文字起こしと話者分離の品質を大幅に向上させた。FLEURSベンチマークで約4%の単語エラー率を達成しているという。

 Voxtral Mini Transcribe V2の価格は、1分当たり0.003ドルとなっている。

話者分離エラー率(DER)と価格の比較(提供:Mistral AI)
話者分離エラー率(DER)と価格の比較(提供:Mistral AI)

 Mistral AIによると、「GPT-4o mini Transcribe」「Gemini 2.5 Flash」「Assembly Universal」「Deepgram Nova」を精度で上回り、ElevenLabsの「Scribe v2」と比較して約3倍高速に処理しながら、5分の1のコストで同等の品質を実現するという。

主要な音声認識モデルとの価格対精度(単語エラー率)の比較 左下にあるほど高性能かつ低価格であることを示している(提供:Mistral AI)
主要な音声認識モデルとの価格対精度(単語エラー率)の比較 左下にあるほど高性能かつ低価格であることを示している(提供:Mistral AI)

エンタープライズ向け機能

 Voxtral Mini Transcribe V2は、企業向けに以下の機能を提供する。

話者分離機能

 話者ラベルと正確な開始・終了時刻を含む文字起こしを生成する。会議の文字起こし、インタビュー分析、マルチパーティー通話処理に役立つ。発話が重なった場合は、通常1人の話者のみが文字起こしされる。

単語レベルのタイムスタンプ機能

 各単語の開始・終了時刻を正確に生成し、字幕生成や音声検索などに活用できる。

コンテキストバイアス機能

 最大100個の単語やフレーズを指定して、名前、技術用語、業界固有の語彙(ごい)を正しく認識させる。英語に最適化されており、他言語は実験的サポートとなる。

 工場の現場やコールセンターなどノイズの多い環境でも精度を維持し、最大3時間の音声を1回のリクエストで処理できる。

2モデルのユースケース

 Mistral AIは、2モデルについて、以下のような用途での活用を想定しているという。

  • 会議の文字起こしと話者分析
  • 音声エージェント/バーチャルアシスタント
  • コンタクトセンターの自動化
  • 放送・メディア向け字幕生成
  • コンプライアンス(法令順守)文書化

 Mistral AIは「両モデルとも、EU(欧州連合)の一般データ保護規則(GDPR)および米国HIPAA(医療保険の相互運用性と説明責任に関する法律)に準拠したデプロイメントをサポートし、オンプレミスまたはプライベートクラウドでの安全な運用が可能だ」と述べている。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る