ローカルで動く日本語対応の音声認識AIモデル「Voxtral Transcribe 2」公開：200ミリ秒未満の低遅延を実現

Mistral AIは音声認識AIモデル「Voxtral Transcribe 2」を発表した。高精度で低価格なバッチ処理向けと、超低遅延なリアルタイム対応の2モデルで構成される。

» 2026年03月09日 13時00分公開

[＠IT]

この記事は会員限定です。会員登録（無料）すると全てご覧いただけます。

　Mistral AIは2026年2月4日（フランス時間）、音声認識AI（人工知能）モデル「Voxtral Transcribe 2」を発表した。高精度な文字起こしに加え、話者分離機能、超低遅延が特徴だ。

　Voxtral Transcribe 2は、バッチ処理向けの「Voxtral Mini Transcribe V2」とリアルタイム対応の「Voxtral Realtime」の2モデルで構成される。Voxtral RealtimeはオープンウェイトモデルとしてHugging Faceからダウンロードできる。

　Mistral AIは同社のプラットフォーム「Mistral AI Studio」でVoxtral Transcribe 2を活用した話者分離やタイムスタンプ機能を備えた文字起こしを試せるデモも公開している。同社の「Le Chat」で試用することもできる。

Mistral AI Studioで提供される「Audio playground」のインタフェース（提供：Mistral AI）

クラウドAPIの遅延課題と情報漏えいリスクを解消？　「Voxtral Realtime」の実力

　Voxtral Realtimeは、低遅延が重要となるアプリケーション向けに設計されたリアルタイム音声認識モデルだ。従来のオフラインモデルのように音声をチャンク単位で処理するのではなく、音声が到着するたびに文字起こしを実行するストリーミングアーキテクチャを採用している。

　遅延は200ミリ秒未満まで設定可能で、字幕生成に適した2.4秒の遅延設定ではVoxtral Mini Transcribe V2と同等の精度を達成する。480ミリ秒の遅延設定でも、バッチモデルとの単語エラー率の差は1～2％以内に収まり、音声エージェントなどのアプリケーションでオフラインモデルに近い精度を確保しているという。

遅延設定（240～2400ミリ秒）ごとの単語エラー率比較。低遅延でも高い精度を維持している（提供：Mistral AI）

　40億パラメーターのモデルサイズで、エッジデバイスでも効率的に動作する。

　対応言語は、英語、中国語、ヒンディー語、スペイン語、アラビア語、フランス語、ポルトガル語、ロシア語、ドイツ語、日本語、韓国語、イタリア語、オランダ語の13言語。

　Voxtral RealtimeをAPI経由で利用する場合、価格は1分当たり0.006ドルとなっている。

Voxtral Mini Transcribe V2の特徴

　Voxtral Mini Transcribe V2は、文字起こしと話者分離の品質を大幅に向上させた。FLEURSベンチマークで約4％の単語エラー率を達成しているという。

　Voxtral Mini Transcribe V2の価格は、1分当たり0.003ドルとなっている。

話者分離エラー率（DER）と価格の比較（提供：Mistral AI）

　Mistral AIによると、「GPT-4o mini Transcribe」「Gemini 2.5 Flash」「Assembly Universal」「Deepgram Nova」を精度で上回り、ElevenLabsの「Scribe v2」と比較して約3倍高速に処理しながら、5分の1のコストで同等の品質を実現するという。

主要な音声認識モデルとの価格対精度（単語エラー率）の比較　左下にあるほど高性能かつ低価格であることを示している（提供：Mistral AI）

エンタープライズ向け機能

　Voxtral Mini Transcribe V2は、企業向けに以下の機能を提供する。

話者分離機能

　話者ラベルと正確な開始・終了時刻を含む文字起こしを生成する。会議の文字起こし、インタビュー分析、マルチパーティー通話処理に役立つ。発話が重なった場合は、通常1人の話者のみが文字起こしされる。

単語レベルのタイムスタンプ機能

　各単語の開始・終了時刻を正確に生成し、字幕生成や音声検索などに活用できる。

コンテキストバイアス機能

　最大100個の単語やフレーズを指定して、名前、技術用語、業界固有の語彙（ごい）を正しく認識させる。英語に最適化されており、他言語は実験的サポートとなる。

　工場の現場やコールセンターなどノイズの多い環境でも精度を維持し、最大3時間の音声を1回のリクエストで処理できる。

2モデルのユースケース

　Mistral AIは、2モデルについて、以下のような用途での活用を想定しているという。

会議の文字起こしと話者分析
音声エージェント／バーチャルアシスタント
コンタクトセンターの自動化
放送・メディア向け字幕生成
コンプライアンス（法令順守）文書化

　Mistral AIは「両モデルとも、EU（欧州連合）の一般データ保護規則（GDPR）および米国HIPAA（医療保険の相互運用性と説明責任に関する法律）に準拠したデプロイメントをサポートし、オンプレミスまたはプライベートクラウドでの安全な運用が可能だ」と述べている。

Mistral AI、コーディング用生成AIモデルの最新版「Codestral 25.01」を提供開始　主要コーディングモデルとの比較、APIの利用方法は？
Mistral AIは、コーディング用生成AIモデル「Codestral」の最新版「Codestral 25.01」を提供開始した。より効率的なアーキテクチャと改良されたトークナイザを備え、コードの生成、補完速度が約2倍に向上している。
“音声入力は使えない”派が認めた「Aqua Voice」とは？　2026年、プログラミングの常識が変わる
「音声入力は使えない」と思い込んでいた私が、1カ月使って考えを改めた理由。AIコーディング時代のプログラミングでは、入力そのものの常識が変わり始めています。Aqua Voiceを実際に使い込んだ体験から、その実力と使いどころを正直に紹介します。
複数のAIエージェントを部下のように管理　OpenAIの「Codex」デスクトップアプリ版は何ができる？
OpenAIは、コーディングエージェント「Codex」のデスクトップアプリケーションを提供開始した。複数のAIエージェントを同時に管理し、並列で作業を実行できる「エージェントのコマンドセンター」として設計されているという。