複雑なレイアウトや方程式、多言語も読み取れる「Mistral OCR」の実力とは画像とテキスト両方に対応

Mistral AIは、OCR API「Mistral OCR」を発表した。画像や表を含む高度なレイアウトなども認識でき、多言語に対応している。

» 2025年03月29日 08時00分 公開
[@IT]

この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。

 Mistral AIは2025年3月6日(仏国時間)、OCR(Optical Character Recognition:光学的文字認識)API「Mistral OCR」を発表した。同社は以下のように紹介している。


 Mistral OCRは、ドキュメント理解の新たな標準となる光学式文字認識APIだ。他のモデルとは異なり、Mistral OCRはドキュメントの各要素(メディア、テキスト、表、数式)をかつてない精度と認識力で理解する。Mistral OCRは画像やPDFを入力とし、テキストと画像を順序よくインターリーブしてコンテンツを抽出する。

 Mistral OCRは、マルチモーダル文書(スライドや複雑なPDFなど)を入力とするRAG(検索拡張生成)システムと組み合わせて使用するのに理想的なモデルといえる。

 当社では、対話型AIアシスタント「Le Chat」の数百万人のユーザーが文書を理解できるよう、Mistral OCRを標準モデルとして採用している。また、API mistral-ocr-latestを1000ページ/ドル(バッチ推論では約2倍のページ/ドル)でリリースしている。このAPIは、当社の開発者スイート「la Plateforme」で利用でき、オンプレミスと同様に、当社のクラウドおよび推論パートナーにも近日中に提供される。

複雑な文書を理解する技術

 Mistral OCRは、インターリーブされた画像、数式、表、LaTeXフォーマットのような高度なレイアウトなど、複雑な文書要素の理解に優れている。このモデルにより、図表、グラフ、方程式、図を含む科学論文のようなリッチな文書をより深く理解できる。

 以下では、PDFとOCRの出力を並べて比較している。

  • 表+図
(提供:Mistral AI)
  • 数学
(提供:Mistral AI)
  • ヒンディー語
(提供:Mistral AI)
  • 文書
(提供:Mistral AI)
  • アラビア語
(提供:Mistral AI)

トップクラスのベンチマーク

 Mistral OCRは、厳格なベンチマークテストにおいて、他の主要なOCRモデルを常に上回っている。Mistral OCRの優れた精度は、文書解析のさまざまな側面において以下のように示されている。Mistral OCRは、文書からテキストとともに埋め込み画像を抽出するが、以下で比較する他のLLMにはこのような機能はない。公正な比較のために、さまざまな出版論文とウェブからのPDFを含む、我々の内部の「テキストのみ」のテストセットで評価した。

モデル 全体 数学 多言語 スキャン
Google Document AI 83.42 80.29 86.42 92.77 78.16
Azure OCR 89.52 85.72 87.52 94.65 89.52
Gemini-1.5-Flash-002 90.23 89.11 86.76 94.87 90.48
Gemini-1.5-Pro-002 89.92 88.48 86.33 96.15 89.71
Gemini-2.0-Flash-001 88.69 84.18 85.80 95.11 94.46
GPT-4o-2024-11-20 89.77 87.55 86.00 94.58 91.70
Mistral OCR 2503 94.89 94.29 89.55 98.96 96.12

ネイティブな多言語対応

 Mistral OCRは世界中の何千もの文字体系、フォント、言語を解析、理解、文字起こしできるようになった。この汎用(はんよう)性は、多様な言語を扱うグローバルな組織にとっても、ニッチ市場にサービスを提供する超ローカルなビジネスにとっても重要だ。

モデル 生成時のあいまい一致
Google-Document-AI 95.88
Gemini-2.0-Flash-001 96.53
Azure OCR 97.31
Mistral OCR 2503 99.02

 言語別ベンチマークは以下の通り。

言語 Azure OCR Google Doc AI Gemini-2.0-Flash-001 Mistral OCR 2503
ロシア語 97.35 95.56 96.58 99.09
フランス語 97.50 96.36 97.06 99.20
ヒンディー語 96.45 95.65 94.99 97.55
中国語 91.40 90.89 91.85 97.11
ポルトガル語 97.96 96.24 97.25 99.42
ドイツ語 98.39 97.09 97.19 99.51
スペイン語 98.54 97.52 97.75 99.54
トルコ語 95.91 93.85 94.66 97.00
ウクライナ語 97.81 96.24 96.70 99.29
イタリア語 98.31 97.69 97.68 99.42
ルーマニア語 96.45 95.14 95.88 98.79

Copyright © ITmedia, Inc. All Rights Reserved.

スポンサーからのお知らせPR

Smart & Social 記事ランキング

本日月間

注目のテーマ

4AI by @IT - AIを作り、動かし、守り、生かす
Microsoft & Windows最前線2025
AI for エンジニアリング
ローコード/ノーコード セントラル by @IT - ITエンジニアがビジネスの中心で活躍する組織へ
Cloud Native Central by @IT - スケーラブルな能力を組織に
システム開発ノウハウ 【発注ナビ】PR
あなたにおすすめの記事PR

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。