Anthropicが公開したAIエージェントのプレビュー版「Claude Cowork」に、ローカルファイル流出の脆弱性が存在することが分かった。巧妙な間接的プロンプトインジェクションを駆使しているという。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
AI(人工知能)リスク管理製品を提供するPromptArmorは2026年1月14日(米国時間)、Anthropicがリサーチプレビュー版として1月12日にリリースしたAIエージェントの新機能「Claude Cowork」(以下、Cowork)において、脆弱(ぜいじゃく)性を確認したと発表した。この脆弱性は、間接的なプロンプトインジェクション攻撃を通じてユーザーのファイルが外部へ流出するもの。これまでも指摘されていたCoworkのコード実行環境における隔離機能の不備に起因するという。
AnthropicはCoworkについて、エージェントとしての性質やインターネットアクセス機能を持つことから「固有のリスクがある」と警告しており、プロンプトインジェクションを示唆する不審な動作に注意するようユーザーに求めている。PromptArmorは「一般ユーザーがこうした攻撃を検知するのは困難だ」と指摘し、注意喚起のためにデモンストレーションを公開したとしている。
この攻撃は、AnthropicのAPI(アプリケーションプログラミングインタフェース)がClaudeのVM(仮想マシン)環境において許可リストに登録されていることを悪用し、ネットワーク制限を回避してデータを送信するものだ。攻撃のプロセスは以下の通り。
Claudeが実行するコードはVM内で動作し、ほとんどのドメインへのアウトバウンド通信が制限されている。しかし、Anthropic自身のAPIは信頼されたドメインとして通信が許可されているため、この攻撃が成立するという。
上記デモンストレーションは「Claude Haiku」に対して実証されたが、同様の手法が「Claude Opus 4.5」を用いた検証環境でも成立することが確認されたという。開発環境を想定したテストにおいて、Claude Opus 4.5が顧客記録を攻撃者のアカウントへ送信させられる様子が示されている。
加えて、ClaudeのAPIが形式不備のファイルを扱う際に発生する挙動も報告された。拡張子と内容が一致しない不正なファイルを読み込もうとすると、その後の会話でAPIエラーが繰り返される現象が発生する。この挙動を悪用し、プロンプトインジェクションによって不正なファイルを生成させ、読み込ませることで、限定的なサービス拒否攻撃(DoS攻撃)を引き起こす可能性があるという。
Coworkは、ブラウザ操作やMCP(Model Context Protocol)サーバとの連携、「AppleScript」によるMacの制御など、日々の業務環境全体と対話する能力を備えている。
こうした機能により、モデルが機密データと信頼できないデータの双方を同時に処理する機会が増えており、プロンプトインジェクションの影響範囲が拡大している。PromptArmorは、コネクター設定の際に慎重に判断するようユーザーに促すとともに、これらが日常的なユーザーにとって重大なリスク要因になると警告している。
AIエージェントが「自律的に動くほど」侵入されやすい? 調査で分かった攻撃パターン
Repromptとは何か:1クリックで情報が盗まれる生成AI攻撃の仕組み
VS Codeでプロンプトインジェクションを可能にする3つの脆弱性 GitHubが対策とともに解説Copyright © ITmedia, Inc. All Rights Reserved.