Mistral AIは、OCR API「Mistral OCR」を発表した。画像や表を含む高度なレイアウトなども認識でき、多言語に対応している。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
Mistral AIは2025年3月6日(仏国時間)、OCR(Optical Character Recognition:光学的文字認識)API「Mistral OCR」を発表した。同社は以下のように紹介している。
Mistral OCRは、ドキュメント理解の新たな標準となる光学式文字認識APIだ。他のモデルとは異なり、Mistral OCRはドキュメントの各要素(メディア、テキスト、表、数式)をかつてない精度と認識力で理解する。Mistral OCRは画像やPDFを入力とし、テキストと画像を順序よくインターリーブしてコンテンツを抽出する。
Mistral OCRは、マルチモーダル文書(スライドや複雑なPDFなど)を入力とするRAG(検索拡張生成)システムと組み合わせて使用するのに理想的なモデルといえる。
当社では、対話型AIアシスタント「Le Chat」の数百万人のユーザーが文書を理解できるよう、Mistral OCRを標準モデルとして採用している。また、API mistral-ocr-latestを1000ページ/ドル(バッチ推論では約2倍のページ/ドル)でリリースしている。このAPIは、当社の開発者スイート「la Plateforme」で利用でき、オンプレミスと同様に、当社のクラウドおよび推論パートナーにも近日中に提供される。
Mistral OCRは、インターリーブされた画像、数式、表、LaTeXフォーマットのような高度なレイアウトなど、複雑な文書要素の理解に優れている。このモデルにより、図表、グラフ、方程式、図を含む科学論文のようなリッチな文書をより深く理解できる。
以下では、PDFとOCRの出力を並べて比較している。
Mistral OCRは、厳格なベンチマークテストにおいて、他の主要なOCRモデルを常に上回っている。Mistral OCRの優れた精度は、文書解析のさまざまな側面において以下のように示されている。Mistral OCRは、文書からテキストとともに埋め込み画像を抽出するが、以下で比較する他のLLMにはこのような機能はない。公正な比較のために、さまざまな出版論文とウェブからのPDFを含む、我々の内部の「テキストのみ」のテストセットで評価した。
モデル | 全体 | 数学 | 多言語 | スキャン | 表 |
---|---|---|---|---|---|
Google Document AI | 83.42 | 80.29 | 86.42 | 92.77 | 78.16 |
Azure OCR | 89.52 | 85.72 | 87.52 | 94.65 | 89.52 |
Gemini-1.5-Flash-002 | 90.23 | 89.11 | 86.76 | 94.87 | 90.48 |
Gemini-1.5-Pro-002 | 89.92 | 88.48 | 86.33 | 96.15 | 89.71 |
Gemini-2.0-Flash-001 | 88.69 | 84.18 | 85.80 | 95.11 | 94.46 |
GPT-4o-2024-11-20 | 89.77 | 87.55 | 86.00 | 94.58 | 91.70 |
Mistral OCR 2503 | 94.89 | 94.29 | 89.55 | 98.96 | 96.12 |
Mistral OCRは世界中の何千もの文字体系、フォント、言語を解析、理解、文字起こしできるようになった。この汎用(はんよう)性は、多様な言語を扱うグローバルな組織にとっても、ニッチ市場にサービスを提供する超ローカルなビジネスにとっても重要だ。
モデル | 生成時のあいまい一致 |
---|---|
Google-Document-AI | 95.88 |
Gemini-2.0-Flash-001 | 96.53 |
Azure OCR | 97.31 |
Mistral OCR 2503 | 99.02 |
言語別ベンチマークは以下の通り。
言語 | Azure OCR | Google Doc AI | Gemini-2.0-Flash-001 | Mistral OCR 2503 |
---|---|---|---|---|
ロシア語 | 97.35 | 95.56 | 96.58 | 99.09 |
フランス語 | 97.50 | 96.36 | 97.06 | 99.20 |
ヒンディー語 | 96.45 | 95.65 | 94.99 | 97.55 |
中国語 | 91.40 | 90.89 | 91.85 | 97.11 |
ポルトガル語 | 97.96 | 96.24 | 97.25 | 99.42 |
ドイツ語 | 98.39 | 97.09 | 97.19 | 99.51 |
スペイン語 | 98.54 | 97.52 | 97.75 | 99.54 |
トルコ語 | 95.91 | 93.85 | 94.66 | 97.00 |
ウクライナ語 | 97.81 | 96.24 | 96.70 | 99.29 |
イタリア語 | 98.31 | 97.69 | 97.68 | 99.42 |
ルーマニア語 | 96.45 | 95.14 | 95.88 | 98.79 |
Copyright © ITmedia, Inc. All Rights Reserved.
Smart & Social 記事ランキング