検索
ニュース

OpenAIモデルに匹敵するオープンソースのテキスト埋め込みモデル、Jina AIが公開オープンソースの8Kテキスト埋め込みモデル

Jina AIは、8192トークンのコンテキスト長をサポートするテキスト埋め込みモデル「jina-embeddings-v2」を発表した。

Share
Tweet
LINE
Hatena

 AI(人工知能)企業のJina AIは2023年10月25日(ドイツ時間)、第2世代のテキスト埋め込みモデル「jina-embeddings-v2」を発表した。8192トークン(8K)のコンテキスト長をサポートするオープンソースのテキスト埋め込みモデルだ。Massive Text Embedding Benchmark(MTEB)リーダーボードによると、OpenAIのプロプライエタリモデル「text-embedding-ada-002」と同等の機能とパフォーマンスを発揮するとしている。

jina-embeddings-v2とOpenAIの8Kモデルの比較

 Jina AIは、OpenAIの8Kモデルであるtext-embedding-ada-002とjina-embeddings-v2のパフォーマンスを比較した結果を以下のように示している。jina-embedding-v2は、分類平均、再ランク付け平均、検索平均、要約平均でtext-embedding-ada-002を上回っていると、Jina AIは述べている。

text-embedding-ada-002とjina-embeddings-v2のパフォーマンス比較(提供:Jina AI)
text-embedding-ada-002とjina-embeddings-v2のパフォーマンス比較(提供:Jina AI)

jina-embeddings-v2の特徴

 jina-embeddings-v2は一から構築され、前のモデルから大きな飛躍を遂げた。Jina AIは、8Kコンテキスト長のサポートにより、以下のようなアプリケーションへの扉を開くとしている。

  • 法律文書の分析:長大な法律文書の細部まで確実に分析する
  • 医学研究:科学論文の包括的な埋め込みにより、高度な分析や発見をする
  • 文学分析:長編を深く掘り下げ、微妙なテーマ要素を捉える
  • 財務予測:詳細な財務レポートから優れた洞察を得る
  • 会話AI:ユーザーの複雑なクエリに対するチャットbotの応答を改善する

 ベンチマークは、jina-embeddings-v2がコンテキストの拡張により、幾つかのデータセットにおいて、他の主要な基本埋め込みモデルを上回るパフォーマンスを提供することを示している。

jina-embeddings-v2と主要な基本埋め込みモデルのパフォーマンス比較(提供:Jina AI)
jina-embeddings-v2と主要な基本埋め込みモデルのパフォーマンス比較(提供:Jina AI)

 Jina AIは、jina-embeddings-v2のベースモデルとスモールモデルをHugging Faceで公開している。

  • ベースモデル(0.27G):学術研究やビジネス分析など、より高い精度を必要とするタスク用に設計されている
  • スモールモデル(0.07G):コンピューティングリソースが限られているモバイルアプリやデバイスなどの軽量アプリケーション向けに作られている

 Jina AIは間もなく、jina-embeddings-v2の技術的な複雑さとベンチマークを詳述した学術論文を発表予定だという。APIプラットフォームを開発し、ユーザーがニーズに応じて埋め込みモデルを簡単に拡張できるようにする計画だ。多言語埋め込みにも取り組んでおり、ドイツ語/英語モデルのリリースを目指している。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る