OpenAIモデルに匹敵するオープンソースのテキスト埋め込みモデル、Jina AIが公開:オープンソースの8Kテキスト埋め込みモデル
Jina AIは、8192トークンのコンテキスト長をサポートするテキスト埋め込みモデル「jina-embeddings-v2」を発表した。
AI(人工知能)企業のJina AIは2023年10月25日(ドイツ時間)、第2世代のテキスト埋め込みモデル「jina-embeddings-v2」を発表した。8192トークン(8K)のコンテキスト長をサポートするオープンソースのテキスト埋め込みモデルだ。Massive Text Embedding Benchmark(MTEB)リーダーボードによると、OpenAIのプロプライエタリモデル「text-embedding-ada-002」と同等の機能とパフォーマンスを発揮するとしている。
jina-embeddings-v2とOpenAIの8Kモデルの比較
Jina AIは、OpenAIの8Kモデルであるtext-embedding-ada-002とjina-embeddings-v2のパフォーマンスを比較した結果を以下のように示している。jina-embedding-v2は、分類平均、再ランク付け平均、検索平均、要約平均でtext-embedding-ada-002を上回っていると、Jina AIは述べている。
jina-embeddings-v2の特徴
jina-embeddings-v2は一から構築され、前のモデルから大きな飛躍を遂げた。Jina AIは、8Kコンテキスト長のサポートにより、以下のようなアプリケーションへの扉を開くとしている。
- 法律文書の分析:長大な法律文書の細部まで確実に分析する
- 医学研究:科学論文の包括的な埋め込みにより、高度な分析や発見をする
- 文学分析:長編を深く掘り下げ、微妙なテーマ要素を捉える
- 財務予測:詳細な財務レポートから優れた洞察を得る
- 会話AI:ユーザーの複雑なクエリに対するチャットbotの応答を改善する
ベンチマークは、jina-embeddings-v2がコンテキストの拡張により、幾つかのデータセットにおいて、他の主要な基本埋め込みモデルを上回るパフォーマンスを提供することを示している。
Jina AIは、jina-embeddings-v2のベースモデルとスモールモデルをHugging Faceで公開している。
- ベースモデル(0.27G):学術研究やビジネス分析など、より高い精度を必要とするタスク用に設計されている
- スモールモデル(0.07G):コンピューティングリソースが限られているモバイルアプリやデバイスなどの軽量アプリケーション向けに作られている
Jina AIは間もなく、jina-embeddings-v2の技術的な複雑さとベンチマークを詳述した学術論文を発表予定だという。APIプラットフォームを開発し、ユーザーがニーズに応じて埋め込みモデルを簡単に拡張できるようにする計画だ。多言語埋め込みにも取り組んでおり、ドイツ語/英語モデルのリリースを目指している。
Copyright © ITmedia, Inc. All Rights Reserved.