Fastlyが2024年6月13日(米国時間)、「Fastly AI Accelerator」と呼ぶセマンティックキャッシュサービスを発表した。LLMへのリクエストを減らすことで、パフォーマンスとコストの向上が図れるという。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
CDNをはじめとしたさまざまなエッジサービスを提供するFastlyが2024年6月13日(米国時間)に特別イベントを開催し、「Fastly AI Accelerator」と呼ぶ生成AI関連の新サービスを発表した。
クラウドにホストされたLLM(大規模言語モデル)の応答をキャッシングする。これにより、生成AIを活用するアプリケーションのパフォーマンスを向上し、コストを削減するという。
同社はChatGPTのテキストAPIを対象に、βテストを開始した。
新サービスでは、セマンティック(意味論的)なキャッシュ機能を提供する。企業の生成AIアプリケーションで、ユーザーの行う質問は類似していることが多いことを活用する。
一般的なLLM活用では、ユーザーが発行したプロンプトが過去のものと完全に同じでも、毎回LLMに問い合わせ、回答を取得する。これでは大きな遅延が発生しがちで、(料金体系によるが)コストも上がる。
Copyright © ITmedia, Inc. All Rights Reserved.