LLMスタックの保護は、データの保護、ユーザーの信頼、AIモデルの運用の完全性などを保証するために不可欠だ。本記事では、AIシステムの安全性を確保する方法を学ぶことの重要性について、LLM実装とLLMスタックに焦点を当てながら紹介する。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
Cisco Systemsは2024年3月26日(米国時間)、公式ブログでLLM(大規模言語モデル)スタックの保護について解説した。Ciscoによると、LLMスタックの保護は、データを保護しユーザーの信頼を維持するだけでなく、AI(人工知能)モデルの運用における完全性、信頼性、倫理的な使用を保証するためにも不可欠なものだという。本記事では、LLMスタックを保護することで得られる、AIシステムの安全性確保やLLM実装、LLMスタックについて、Cisco Systemsがブログで解説した内容を紹介する。
LLMスタックとは一般的に、LLMを中心としたテクノロジーやコンポーネントのスタックを意味する。この「スタック」には、LLM能力の活用を目的とした幅広い技術や方法論が含まれる。
2024年現在、多くの組織がRAG(検索拡張生成)の実装を試みている。RAGは、LLMの生成能力とデータベースや知識ベースからの関連情報の検索を組み合わせることで、LLMの精度を大幅に向上させる。RAGによってLLMだけでは達成できない、より正確で、情報に精通し、文脈に関連した出力が得られる。
データのベクトル化と埋め込みデータの作成は、データセットをRAGなどで効果的に使用するための準備として重要なステップだ。OpenAIは、APIを介して使用できるさまざまなエンベディング(Embedding:埋め込み)モデルを提供している。また、Hugging Faceのオープンソースの埋め込みモデルも使用できる。
エンべディングには、コミュニティーによって精査された、商用またはオープンソースのモデルを使用する。他のソフトウェアと同様に、モデルによっては時間の経過とともに脆弱(ぜいじゃく)性が発見されたり、第三者によって操作されたりする可能性もあるからだ。
入力データは検証し、無害化する必要がある。エンべディングの作成に使用されるデータには、データ保護規制(GDPR、CCPAなど)に準拠しなければならない機密情報や個人情報が含まれている可能性がある。可能であれば、データの匿名化または仮名化技術を適用する。安全な環境でデータを処理できるようにし、データの静止時および転送時には暗号化を使用する。
エンべディングモデルおよびモデルが処理するデータへの不正アクセスは、データの漏えいやその他のセキュリティ問題につながる可能性がある。エンべディングモデルとデータへのアクセスを制限するために、強力な認証とアクセス制御を適用すべきだ。
データがベクトル化されたら、これらのベクトルを検索可能なデータベース、または「ChromaDB」などのベクトルデータベースに保存する。これらのシステムでは、類似したベクトルを効率的に検索できる。使用するソリューションが暗号化をサポートしていることを確認する必要がある。
上の図では、「LangChain」や「LlamaIndex」のようなライブラリが参照されている。LangChainはLLMを活用したアプリケーションを開発するためのフレームワークだ。アプリケーションの構築、テスト、デプロイのためのライブラリ、テンプレート、開発者プラットフォームを提供する。
フレームワークは、会話やクエリのコンテキストに基づいてAPIリクエストを動的に構築できるため、静的なナレッジベースを超えてLLMを機能拡張できる。外部APIと統合する場合、安全な認証方法を使用し、HTTPSなどのプロトコルを使用して転送中のデータを暗号化することが重要だ。APIキーとトークンは安全に保管し、決してアプリケーションコードにハードコードしてはならない。
LLMキャッシュは、LLMインタラクションの効率とパフォーマンスを向上させるために使われるテクニックだ。「SQLite Cache」「Redis」「GPTCache」などが使える。
キャッシュは、モデルの能力を損なわないよう注意深く設計されなければならない。古い情報や無関係な情報が提供されるのを防ぐために、効果的にキャッシュを無効化することが重要だ。
モニタリングは、LLMスタックのセキュリティの最も重要な要素の一つだ。「MLFlow」のようなオープンソースや商用のLLMモニタリングツールが数多くある。また、「Rebuff」のようなプロンプトインジェクション攻撃を防御するツールも幾つかある。
サプライチェーンのセキュリティには、AI開発の透明性とトレーサビリティーが重要だ。そのためにはAI部品表(AI BOM:AI Bill of Materials)が欠かせない。AI BOMはモデル仕様、モデルアーキテクチャ、想定されるアプリケーション、トレーニングデータセット、その他の関連情報など、AIシステムの多くの要素を包括的に文書化したものだ。
Copyright © ITmedia, Inc. All Rights Reserved.