Jina AIは、8192トークンのコンテキスト長をサポートするテキスト埋め込みモデル「jina-embeddings-v2」を発表した。
AI(人工知能)企業のJina AIは2023年10月25日(ドイツ時間)、第2世代のテキスト埋め込みモデル「jina-embeddings-v2」を発表した。8192トークン(8K)のコンテキスト長をサポートするオープンソースのテキスト埋め込みモデルだ。Massive Text Embedding Benchmark(MTEB)リーダーボードによると、OpenAIのプロプライエタリモデル「text-embedding-ada-002」と同等の機能とパフォーマンスを発揮するとしている。
Jina AIは、OpenAIの8Kモデルであるtext-embedding-ada-002とjina-embeddings-v2のパフォーマンスを比較した結果を以下のように示している。jina-embedding-v2は、分類平均、再ランク付け平均、検索平均、要約平均でtext-embedding-ada-002を上回っていると、Jina AIは述べている。
jina-embeddings-v2は一から構築され、前のモデルから大きな飛躍を遂げた。Jina AIは、8Kコンテキスト長のサポートにより、以下のようなアプリケーションへの扉を開くとしている。
ベンチマークは、jina-embeddings-v2がコンテキストの拡張により、幾つかのデータセットにおいて、他の主要な基本埋め込みモデルを上回るパフォーマンスを提供することを示している。
Jina AIは、jina-embeddings-v2のベースモデルとスモールモデルをHugging Faceで公開している。
Jina AIは間もなく、jina-embeddings-v2の技術的な複雑さとベンチマークを詳述した学術論文を発表予定だという。APIプラットフォームを開発し、ユーザーがニーズに応じて埋め込みモデルを簡単に拡張できるようにする計画だ。多言語埋め込みにも取り組んでおり、ドイツ語/英語モデルのリリースを目指している。
Copyright © ITmedia, Inc. All Rights Reserved.