Claude Codeの"見えないシステムプロンプト改変"が物議 その目的とは?:問われるAIツールの透明性
Claude Codeのシステムプロンプトが、ユーザーに見えない形で書き換えられていたことが判明し、開発者コミュニティーで波紋が広がっている。Anthropicはこれを“実験”だったとしているが、一体何が目的だったのか。
サイバーセキュリティ関連メディア「International Cyber Digest」は2026年6月30日(現地時間)、AnthropicのAIコーディング支援ツール「Claude Code」に関する“ある疑惑”が開発者コミュニティーで議論を呼んでいると報じた。
その指摘とは、Claude Codeが、利用環境を識別する情報をユーザーに明示せずにシステムプロンプトに埋め込む処理を備えていたというものだ。発端は掲示板「Reddit」への投稿で、その後「GitHub」で公開された解析レポートによって、複数バージョンの実装内容が検証された。
見えないシステムプロンプト改変はなぜ必要だったのか?
GitHubで公開された解析レポート(現在は削除済み)は、「Claude Code」2.1.193、2.1.195、2.1.196を対象に解析した結果をまとめたものだ。
同レポートによると、ユーザーが標準APIではなく独自のAPIエンドポイントを利用するよう設定していた場合、Claude Codeは環境変数「ANTHROPIC_BASE_URL」を参照して接続先を判定していたという。標準の「api.anthropic.com」以外が指定されていると、プロキシのホスト名や利用端末のタイムゾーンなどを確認し、その情報を内部で照合する仕組みが存在したとしている。
解析では、抽出したホスト名を、復号された147件の一覧と照合する処理も報告された。一覧には、中国のクラウド事業者やAI企業、Claudeの再販サービス、APIミラーなどが含まれていたとされ、BaiduやAlibaba、ByteDance、Moonshot AI、MiniMax、Stepfunなどの名称も確認されたという。
特に議論を呼んだのは、これらの判定結果をモデルに渡す方法だ。レポートによれば、専用の通信項目を追加するのではなく、システムプロンプト内の「Today's date is ...」という日付表記を書き換えることで情報を埋め込んでいたという。例えば、タイムゾーンによって日付の区切り文字を変更したり、「Today's」に含まれるアポストロフィーを見分けが付きにくい別のUnicode文字に置き換えたりすることで、判定結果を識別できるようにしていたと説明している。
こうした変更は画面上ではほとんど判別できず、多くのユーザーはシステムプロンプトに追加の情報が埋め込まれていることに気付きにくい可能性があると指摘している。
Anthropicの技術担当者はXで、この機能は2026年3月から実施していた実験で、不正な再販やモデル蒸留への対策を目的としていたと説明した。既に別の対策を導入済みで、この処理は以前から削除を予定しており、翌日に公開するバージョンで撤回するとしている。
問われるのは情報収集ではなく、AIツールの「透明性」
International Cyber Digestは、ソフトウェアベンダーが利用状況に関する情報を収集すること自体は珍しくなく、AIベンダーにも不正利用や無断再販、モデル蒸留への対策を講じる必要性があると指摘する。
一方で問題視されているのは、情報収集そのものではなく、その方法だ。公開された仕様に基づいて情報を取得するのであれば、ユーザーは設定変更や通信制御などを自ら判断できる。しかしユーザーが認識しにくい形でシステムプロンプトに情報を埋め込む方式では、何がモデルに渡されているのか把握しにくく、ツールへの信頼性に影響を及ぼしかねないと論じている。
Anthropicはこれまでにも、AIエージェント利用を巡るリスクや、高い権限を持つ操作(リモートGitブランチの削除、GitHubトークンの送信など)をAIが勝手に試みた事例などを自ら積極的に紹介し、安全性の啓発に努めてきた。
コードや認証情報にアクセスできるAI開発ツールは、利用者からの信頼を前提として利用される。今回の一件は、不正利用対策という目的の妥当性とは別に、ユーザーに十分に説明されない形で内部処理が実装されていたことが、AIツールに求められる透明性や説明責任の重要性を改めて浮き彫りにした。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
KDDIの最大1422万件の情報漏えい事件 その裏には陸自USB問題と同様に中国の影?
KDDIで発生した最大1422万件に及ぶ情報漏えい。その背後には、単なる脆弱性悪用では片付けられない攻撃者の狙いが見え隠れしている。ダークWebやOSINT(公開情報調査)から事件を追跡し、流出データの行方や政府系サイバー攻撃との接点、今後想定されるリスクを専門家とともに解説する。
陸自USBからマルウェア検知 防衛省の運用ルール未徹底が明らかに
陸上自衛隊中部方面総監部で使用されていたUSBメモリからマルウェアが検知されていたことが判明した。防衛省・自衛隊が義務付けているウイルスチェックが徹底されていなかったことにより発覚に遅れが生じたと見られる。
生成AIブームの反動? 「AIだけの脆弱性診断」を見限る企業が急増
「AIに脆弱性診断を任せれば、人手不足を補いながら効率良くセキュリティを強化できる」。ソフトバンクをはじめ国内でも複数の企業がAIによる脆弱性診断サービスの立ち上げを発表する中、そんな期待を裏切る調査結果が明らかになった。
「ランサムウェア」侵入手順を徹底解説 もう知ったかぶりからは卒業しよう
“ランサムウェア”と聞くと、ある日突然データが暗号化されると思いがちだ。しかし攻撃者は、そのはるか前から静かに侵入し、社内を調査し、重要データを探し出している。泥棒の犯行になぞらえながら、ランサムウェア攻撃の全体像を分かりやすく解説しよう。
パスキー神話崩壊 Google Password Managerの同期機能を狙う新攻撃手法
パスワードに代わる認証手段として普及が進むパスキー。しかし、研究者が公表した新たな攻撃手法は、その安全性を支える“別の仕組み”に着目していた。暗号技術そのものを破らず、Google Password Manager利用者の認証情報に到達する手法とは。