WebスクレイピングAI bot、最も禁止されているのは「GPTBot」だがアクセス最多は別のクローラーCloudflareネットワーク調査

Cloudflareは同社製品のWebスクレイピングAI botブロック機能を使い、AI企業によるWebクローラーの活動状況を調査した結果を紹介した。アクセス数が多いにもかかわらず、あまり禁止されていないAI botがあるなど、現状を分析している。

» 2024年07月27日 08時00分 公開
[@IT]

この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。

 Cloudflareは2024年7月3日(米国時間)、同社製品のWebスクレイピングAI bot(クローラー)ブロック機能を使った、ネットワーク全体のトラフィック調査を紹介するブログエントリを公開した。Cloudflareは以下のように説明している。

AI botのトラフィック量や種類、割合

 生成AI(人工知能)の人気により、モデルの訓練や推論に使用されるコンテンツの需要が急増している。一部のAI企業は自社のWebスクレイピングbotについて明確な情報を提供しているが、全てのAI企業が透明性を確保しているわけではない。そこで、AI botの活動を包括的に把握するため、Cloudflareネットワーク全体のbotトラフィックを調査した。

 下のグラフは、Cloudflareのネットワークで多く見られるAI botをリクエスト量で示している。一般的なAI botのユーザーエージェントを調べ、これらのAIユーザーエージェントからCloudflareプラットフォームへのリクエスト数について、過去1年分を集計した。

(提供:Cloudflare)

 Cloudflareサイトへのリクエスト数を見ると、「Bytespider」「Amazonbot」「ClaudeBot」「GPTBot」が上位4つのAI botであることが分かる。リクエスト量では、AmazonbotとClaudeBotがBytespiderに続く。

 BytespiderはTikTokを運営する中国企業、ByteDanceによるWebスクレイピングbotだ。ChatGPTのライバルであるDuobaoで使う大規模言語モデル(LLM)のための学習データを集めているとされる。

 このWebスクレイピングbotはリクエスト数だけでなく、インターネットリソースのクロール範囲の広さとブロックされる頻度でもリードしている。わずかな差で続くのはGPTBotで、クロール範囲とブロックの両方で2位となっている。

 以下の表の「アクセスされたWebサイトの割合」とは、Cloudflareが保護しているWebサイトのうち、「AI botの種類」によってアクセスされたWebサイトの割合を意味する。

AI botの種類 アクセスされたWebサイトの割合
Bytespider 40.40%
GPTBot 35.46%
ClaudeBot 11.17%
ImagesiftBot 8.75%
CCBot 2.14%
ChatGPT-User 1.84%
omgili 0.10%
Diffbot 0.08%
Claude-Web 0.04%
PerplexityBot 0.01%

 Cloudflareの多くのユーザーは、自社サイトを積極的にクロールしているAI botを認識していないとみられる。Cloudflareネットワークのトラッフィック状況を可視化する「Cloudflare Radar」のチームは、上位1万のインターネットドメインにおけるrobots.txtエントリーを分析し、最も多く対処されているAI botを特定した。その後、Cloudflareで保護されているサイトでこれらのbotがどの程度確認されたかを調査した。

robots.txtでブロックされているクローラーの種類と動向

 下のグラフはrobots.txtで禁止されたクローラーだ。顧客はGPTBot、「CCBot」、Googleを禁止することが多い一方で、BytespiderやClaudeBotのような活発なAI botを禁止していないことが分かる。

(提供:Cloudflare)

 2024年6月だけで、AI botはCloudflareを使用している上位100万件のインターネットリソースの約39%にアクセスしたが、これらのリソースのわずか2.98%しか、リクエストをブロックまたはAI botかどうか確認するための「チャレンジ」をしていなかった。また、インターネットリソースの人気が高いほど、AI botに狙われる可能性が高くなり、リクエストをブロックする可能性も高くなる。

Cloudflareの訪問者数上位Nのインターネットリソース AI botによるアクセス割合 AI botをブロックしている割合
10 80.0% 40.0%
100 63.0% 16.0%
1,000 53.2% 8.8%
10,000 47.99% 8.92%
100,000 44.53% 6.36%
1,000,000 38.73% 2.98%

 Webサイト運営者は、robots.txtを使ってAI botのアクセスをブロックしている。しかし、これらのブロックは、botオペレーターがrobots.txtを尊重し、インターネットリソースを訪問したときに正直に自分が誰であるかを識別するためにRFC 9309(ユーザーに対するバリエーションと全てのプロダクトトークンが一致する保証)を順守することが前提だ。しかし、botオペレーターにとってユーザーエージェントの変更は容易だ。

 「ルールを無視してコンテンツにアクセスしようとする一部のAI企業が、bot検出の回避手段を編み出し続けるのではないかと懸念している。引き続き監視を続け、AIスクレイパーとクローラーのルールにbotブロックを追加し、bot検出のために機械学習モデルを進化させる。そして、コンテンツがどのモデルのトレーニングや推論に使用されるかを完全にコントロールできるよう支援していく」(Cloudflare)

Copyright © ITmedia, Inc. All Rights Reserved.

スポンサーからのお知らせPR

注目のテーマ

Microsoft & Windows最前線2025
AI for エンジニアリング
ローコード/ノーコード セントラル by @IT - ITエンジニアがビジネスの中心で活躍する組織へ
Cloud Native Central by @IT - スケーラブルな能力を組織に
システム開発ノウハウ 【発注ナビ】PR
あなたにおすすめの記事PR

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。