Fastlyが2024年6月13日(米国時間)、「Fastly AI Accelerator」と呼ぶセマンティックキャッシュサービスを発表した。LLMへのリクエストを減らすことで、パフォーマンスとコストの向上が図れるという。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
CDNをはじめとしたさまざまなエッジサービスを提供するFastlyが2024年6月13日(米国時間)に特別イベントを開催し、「Fastly AI Accelerator」と呼ぶ生成AI関連の新サービスを発表した。
クラウドにホストされたLLM(大規模言語モデル)の応答をキャッシングする。これにより、生成AIを活用するアプリケーションのパフォーマンスを向上し、コストを削減するという。
同社はChatGPTのテキストAPIを対象に、βテストを開始した。
新サービスでは、セマンティック(意味論的)なキャッシュ機能を提供する。企業の生成AIアプリケーションで、ユーザーの行う質問は類似していることが多いことを活用する。
一般的なLLM活用では、ユーザーが発行したプロンプトが過去のものと完全に同じでも、毎回LLMに問い合わせ、回答を取得する。これでは大きな遅延が発生しがちで、(料金体系によるが)コストも上がる。
Fastly AI Acceleratorでは、繰り返されるクエリに対して、Fastlyのプラットフォーム上で提供するキャッシュが回答を返す。これにより、LLMへのAPIコールを減らすことができるという。
ただし、LLMの利用では、完全に同じプロンプトが繰り返し発行されることを期待できない。このため、一般的なキャッシュではなくセマンティックなキャッシュを導入する。
「通常のキャッシュは、ハッシュキーやトークン、URLで過去の応答を検索する。一方セマンティックキャッシュはプロンプトの埋め込みを使って、過去の質問と意味的に近い回答を見つける」(Fastly)
フィールドテストでは、平均9%以上のパフォーマンス向上効果があったという。
新サービスにより、開発者が自社のために苦労してキャッシュを構築する必要はなくなる。このサービスの利用自体も簡単だ。
「新しいAPI エンドポイントを使用する際にアプリケーションを更新し、コードを1 行変更するだけでいい。するとOpenAI と互換性のあるAPIのセマンティックキャッシュが透過的に実装される」(Fastly)
Copyright © ITmedia, Inc. All Rights Reserved.