大規模言語モデル(LLM)の思わぬリスクとは? セキュリティやプライバシーの懸念とその軽減策を解説:基本の徹底が重要
セキュリティ企業ESETは公式ブログで、大規模言語モデル(LLM)のセキュリティやプライバシー上の主なリスクを5つ挙げ、企業がこれらを軽減するためにすべきことを概説した。
スロバキアのセキュリティ企業ESETは2023年11月6日(スロバキア時間)に公式ブログで、大規模言語モデル(LLM)のセキュリティやプライバシー上の主なリスクを5つ挙げ、企業がこれらを軽減するためにすべきことを概説した。
最近では、「ChatGPT」や「Bard」のような生成AIが盛んにもてはやされているが、企業が生成AIを活用するためには、生成AIの基盤であるLLMの隠れたリスクも管理できなければならないと、ESETは述べている。
ESETは、LLMのセキュリティやプライバシー上の主なリスクとして、以下の5つを挙げている。
1.機密データの過剰な共有
LLMベースのチャットbotにデータを入力すると、そのデータがLLMに吸収され、他の人が利用できるようになったり、将来のLLMのトレーニングに使われたりする可能性がある。
2.著作権の問題
LLMは、大量のデータでトレーニングされている。だが、その情報は多くの場合、コンテンツ所有者の明確な許可なしにWebからスクレイピングされている。そのため、LLMを使用すると、著作権の問題が生じる可能性がある。だが、特定のトレーニングデータの原典を見つけることは困難であり、こうした問題を軽減するのは難しい。
3.安全でないコード
開発者は市場投入期間を短縮するために、ChatGPTや同様のツールをますます利用するようになっている。だが、セキュリティ専門家は、こうしたツールが脆弱(ぜいじゃく)性を発生させる可能性もあると警告している。これは特に、どのようなバグを探すべきかを理解するのに十分なドメイン知識を、開発者が持っていない場合の懸念事項だ。バグのあるコードがその後、本番環境に紛れ込むと、トラブルが発生し、評判に重大な影響を与える恐れがあり、その回復には時間と費用がかかる。
4.LLM自体のハッキング
攻撃者はLLMへの不正アクセスや改ざんにより、悪意ある活動を行うためのさまざまな選択肢を手に入れる可能性がある。例えば、プロンプトインジェクション攻撃によって機密情報を漏えいさせたり、ブロックされているはずの他のアクションを実行させたりすることが、可能になるかもしれない。
また、LLMサーバのサーバサイドリクエストフォージェリ(SSRF)の脆弱性を悪用し、内部リソースを引き出す攻撃が行われることも考えられる。攻撃者は自然言語プロンプトから悪意あるコマンドを送信するだけで、機密のシステムやリソースの操作方法を見つけることさえできるかもしれない。
LLMアプリケーションの脆弱性に対する認識を高めるため、OWASP(Open Worldwide Application Security Project) Foundationはは2023年10月に、LLMアプリケーションによく見られる重大なセキュリティホールのトップ10リストの最新版を発表している。
5.AIプロバイダーにおけるデータ漏えい
AIモデルの開発企業自体が侵害を受ける可能性もある。その結果として攻撃者が、機密の独自情報を含むトレーニングデータを盗み出すこともあり得る。同様に、開発企業からデータが漏えいする場合もある。GoogleがプライベートなBardチャットをうっかり検索結果に流出させてしまったのがその一例だ。
次に何をすべきか
ESETは、これらのリスクを軽減するためには、まず以下のことをすべきだと述べている。
データの暗号化と匿名化
データをLLMと共有する前に暗号化し、安全を確保する。データセットで特定される可能性のある個人のプライバシーを守るために、匿名化技術を使用することも検討する。データのサニタイゼーション(無害化)では、LLMに与えられる前のトレーニングデータから機密情報を取り除くことで、同じ目的を達成できる。
アクセス制御の強化
強力なパスワード、多要素認証(MFA)、最小権限ポリシーにより、認可された個人のみが生成AIモデルとバックエンドシステムにアクセスできるようにする。
定期的なセキュリティ監査
LLMとその上に構築される生成AIモデルに影響を与える可能性のある、ITシステムの脆弱性を発見するのに役立つ。
インシデント対応計画の実践
堅実なインシデント対応計画を作成し、十分なリハーサルを行うことは、組織があらゆる侵害に迅速に対応し、影響を封じ込め、修復、回復を図るのに役立つ。
LLMプロバイダーの徹底的な吟味
LLMの提供企業がデータセキュリティとプライバシーに関する業界のベストプラクティスに従っているのを確認することが重要だ。「ユーザーデータがどこで処理、保存されるか」「モデルのトレーニングに使用されるか」が、明確に開示されていることを確認する。「ユーザーデータがどれだけの期間保存されるか」「第三者と共有されるか」「自社データのトレーニングへの使用を許可または拒否できるか」もチェックポイントだ。
開発者による厳格なセキュリティガイドラインの順守の徹底
自社の開発者がコード生成にLLMを使っている場合は、本番環境にバグが混入するリスクを軽減するために、開発者にポリシーの順守(セキュリティテストやピアレビューなどの)を徹底させる。
ESETは、次のように注釈している。「良いニュースは、車輪を再発明する必要がないことだ。上記のほとんどは、実証済みのセキュリティベストプラクティスのエッセンスだ。AIの世界のために更新や微調整が必要かもしれないが、基本的なロジックはほとんどのセキュリティチームにはなじみのあるものだろう」
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- AI活用のセキュリティツール「Microsoft Security Copilot」、早期アクセスプログラムが始動
Microsoftは、生成AIを用いたセキュリティ分析ツール「Microsoft Security Copilot」について、早期アクセスプログラムの開始と重要な新機能の追加を発表した。 - 技術レポートで報告された「生成AIと開発生産性」の深い関係とは
技術コンサルタント会社のThoughtworksは技術レポート「Technology Radar」第29版を公開した。Thoughtworksは「生成AIが開発者の生産性向上にどのように役立つか探求した」としている。 - ChatGPTなどのLLMを狙う「プロンプトインジェクション攻撃」「データポイズニング攻撃」とは? NCSC
NCSCは、LLMの普及とともに「プロンプトインジェクション攻撃」や「データポイズニング攻撃」の危険性が高まっていると注意喚起した。