Cloudflareは同社製品のWebスクレイピングAI botブロック機能を使い、AI企業によるWebクローラーの活動状況を調査した結果を紹介した。アクセス数が多いにもかかわらず、あまり禁止されていないAI botがあるなど、現状を分析している。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
Cloudflareは2024年7月3日(米国時間)、同社製品のWebスクレイピングAI bot(クローラー)ブロック機能を使った、ネットワーク全体のトラフィック調査を紹介するブログエントリを公開した。Cloudflareは以下のように説明している。
生成AI(人工知能)の人気により、モデルの訓練や推論に使用されるコンテンツの需要が急増している。一部のAI企業は自社のWebスクレイピングbotについて明確な情報を提供しているが、全てのAI企業が透明性を確保しているわけではない。そこで、AI botの活動を包括的に把握するため、Cloudflareネットワーク全体のbotトラフィックを調査した。
下のグラフは、Cloudflareのネットワークで多く見られるAI botをリクエスト量で示している。一般的なAI botのユーザーエージェントを調べ、これらのAIユーザーエージェントからCloudflareプラットフォームへのリクエスト数について、過去1年分を集計した。
Cloudflareサイトへのリクエスト数を見ると、「Bytespider」「Amazonbot」「ClaudeBot」「GPTBot」が上位4つのAI botであることが分かる。リクエスト量では、AmazonbotとClaudeBotがBytespiderに続く。
BytespiderはTikTokを運営する中国企業、ByteDanceによるWebスクレイピングbotだ。ChatGPTのライバルであるDuobaoで使う大規模言語モデル(LLM)のための学習データを集めているとされる。
このWebスクレイピングbotはリクエスト数だけでなく、インターネットリソースのクロール範囲の広さとブロックされる頻度でもリードしている。わずかな差で続くのはGPTBotで、クロール範囲とブロックの両方で2位となっている。
以下の表の「アクセスされたWebサイトの割合」とは、Cloudflareが保護しているWebサイトのうち、「AI botの種類」によってアクセスされたWebサイトの割合を意味する。
AI botの種類 | アクセスされたWebサイトの割合 |
---|---|
Bytespider | 40.40% |
GPTBot | 35.46% |
ClaudeBot | 11.17% |
ImagesiftBot | 8.75% |
CCBot | 2.14% |
ChatGPT-User | 1.84% |
omgili | 0.10% |
Diffbot | 0.08% |
Claude-Web | 0.04% |
PerplexityBot | 0.01% |
Cloudflareの多くのユーザーは、自社サイトを積極的にクロールしているAI botを認識していないとみられる。Cloudflareネットワークのトラッフィック状況を可視化する「Cloudflare Radar」のチームは、上位1万のインターネットドメインにおけるrobots.txtエントリーを分析し、最も多く対処されているAI botを特定した。その後、Cloudflareで保護されているサイトでこれらのbotがどの程度確認されたかを調査した。
下のグラフはrobots.txtで禁止されたクローラーだ。顧客はGPTBot、「CCBot」、Googleを禁止することが多い一方で、BytespiderやClaudeBotのような活発なAI botを禁止していないことが分かる。
2024年6月だけで、AI botはCloudflareを使用している上位100万件のインターネットリソースの約39%にアクセスしたが、これらのリソースのわずか2.98%しか、リクエストをブロックまたはAI botかどうか確認するための「チャレンジ」をしていなかった。また、インターネットリソースの人気が高いほど、AI botに狙われる可能性が高くなり、リクエストをブロックする可能性も高くなる。
Cloudflareの訪問者数上位Nのインターネットリソース | AI botによるアクセス割合 | AI botをブロックしている割合 |
---|---|---|
10 | 80.0% | 40.0% |
100 | 63.0% | 16.0% |
1,000 | 53.2% | 8.8% |
10,000 | 47.99% | 8.92% |
100,000 | 44.53% | 6.36% |
1,000,000 | 38.73% | 2.98% |
Webサイト運営者は、robots.txtを使ってAI botのアクセスをブロックしている。しかし、これらのブロックは、botオペレーターがrobots.txtを尊重し、インターネットリソースを訪問したときに正直に自分が誰であるかを識別するためにRFC 9309(ユーザーに対するバリエーションと全てのプロダクトトークンが一致する保証)を順守することが前提だ。しかし、botオペレーターにとってユーザーエージェントの変更は容易だ。
「ルールを無視してコンテンツにアクセスしようとする一部のAI企業が、bot検出の回避手段を編み出し続けるのではないかと懸念している。引き続き監視を続け、AIスクレイパーとクローラーのルールにbotブロックを追加し、bot検出のために機械学習モデルを進化させる。そして、コンテンツがどのモデルのトレーニングや推論に使用されるかを完全にコントロールできるよう支援していく」(Cloudflare)
Copyright © ITmedia, Inc. All Rights Reserved.