WebスクレイピングAI bot、最も禁止されているのは「GPTBot」だがアクセス最多は別のクローラー:Cloudflareネットワーク調査
Cloudflareは同社製品のWebスクレイピングAI botブロック機能を使い、AI企業によるWebクローラーの活動状況を調査した結果を紹介した。アクセス数が多いにもかかわらず、あまり禁止されていないAI botがあるなど、現状を分析している。
Cloudflareは2024年7月3日(米国時間)、同社製品のWebスクレイピングAI bot(クローラー)ブロック機能を使った、ネットワーク全体のトラフィック調査を紹介するブログエントリを公開した。Cloudflareは以下のように説明している。
AI botのトラフィック量や種類、割合
生成AI(人工知能)の人気により、モデルの訓練や推論に使用されるコンテンツの需要が急増している。一部のAI企業は自社のWebスクレイピングbotについて明確な情報を提供しているが、全てのAI企業が透明性を確保しているわけではない。そこで、AI botの活動を包括的に把握するため、Cloudflareネットワーク全体のbotトラフィックを調査した。
下のグラフは、Cloudflareのネットワークで多く見られるAI botをリクエスト量で示している。一般的なAI botのユーザーエージェントを調べ、これらのAIユーザーエージェントからCloudflareプラットフォームへのリクエスト数について、過去1年分を集計した。
Cloudflareサイトへのリクエスト数を見ると、「Bytespider」「Amazonbot」「ClaudeBot」「GPTBot」が上位4つのAI botであることが分かる。リクエスト量では、AmazonbotとClaudeBotがBytespiderに続く。
BytespiderはTikTokを運営する中国企業、ByteDanceによるWebスクレイピングbotだ。ChatGPTのライバルであるDuobaoで使う大規模言語モデル(LLM)のための学習データを集めているとされる。
このWebスクレイピングbotはリクエスト数だけでなく、インターネットリソースのクロール範囲の広さとブロックされる頻度でもリードしている。わずかな差で続くのはGPTBotで、クロール範囲とブロックの両方で2位となっている。
以下の表の「アクセスされたWebサイトの割合」とは、Cloudflareが保護しているWebサイトのうち、「AI botの種類」によってアクセスされたWebサイトの割合を意味する。
AI botの種類 | アクセスされたWebサイトの割合 |
---|---|
Bytespider | 40.40% |
GPTBot | 35.46% |
ClaudeBot | 11.17% |
ImagesiftBot | 8.75% |
CCBot | 2.14% |
ChatGPT-User | 1.84% |
omgili | 0.10% |
Diffbot | 0.08% |
Claude-Web | 0.04% |
PerplexityBot | 0.01% |
Cloudflareの多くのユーザーは、自社サイトを積極的にクロールしているAI botを認識していないとみられる。Cloudflareネットワークのトラッフィック状況を可視化する「Cloudflare Radar」のチームは、上位1万のインターネットドメインにおけるrobots.txtエントリーを分析し、最も多く対処されているAI botを特定した。その後、Cloudflareで保護されているサイトでこれらのbotがどの程度確認されたかを調査した。
robots.txtでブロックされているクローラーの種類と動向
下のグラフはrobots.txtで禁止されたクローラーだ。顧客はGPTBot、「CCBot」、Googleを禁止することが多い一方で、BytespiderやClaudeBotのような活発なAI botを禁止していないことが分かる。
2024年6月だけで、AI botはCloudflareを使用している上位100万件のインターネットリソースの約39%にアクセスしたが、これらのリソースのわずか2.98%しか、リクエストをブロックまたはAI botかどうか確認するための「チャレンジ」をしていなかった。また、インターネットリソースの人気が高いほど、AI botに狙われる可能性が高くなり、リクエストをブロックする可能性も高くなる。
Cloudflareの訪問者数上位Nのインターネットリソース | AI botによるアクセス割合 | AI botをブロックしている割合 |
---|---|---|
10 | 80.0% | 40.0% |
100 | 63.0% | 16.0% |
1,000 | 53.2% | 8.8% |
10,000 | 47.99% | 8.92% |
100,000 | 44.53% | 6.36% |
1,000,000 | 38.73% | 2.98% |
Webサイト運営者は、robots.txtを使ってAI botのアクセスをブロックしている。しかし、これらのブロックは、botオペレーターがrobots.txtを尊重し、インターネットリソースを訪問したときに正直に自分が誰であるかを識別するためにRFC 9309(ユーザーに対するバリエーションと全てのプロダクトトークンが一致する保証)を順守することが前提だ。しかし、botオペレーターにとってユーザーエージェントの変更は容易だ。
「ルールを無視してコンテンツにアクセスしようとする一部のAI企業が、bot検出の回避手段を編み出し続けるのではないかと懸念している。引き続き監視を続け、AIスクレイパーとクローラーのルールにbotブロックを追加し、bot検出のために機械学習モデルを進化させる。そして、コンテンツがどのモデルのトレーニングや推論に使用されるかを完全にコントロールできるよう支援していく」(Cloudflare)
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- Google、Google AIの改良へのサイトコンテンツの使用可否を設定できるWeb管理者向けツールを発表
Googleは、WebパブリッシャーがGoogleの「Bard」や「Vertex AI」の生成API(これらのサービスを支える将来の世代のAIモデルを含む)を改良するために自サイトのコンテンツを使わせるかどうかを設定できるスタンドアロン製品トークン「Google-Extended」を発表した。 - OpenAIがWebクローラー「GPTBot」の文書を公開、クロールを禁止するには?
OpenAIがWebクローラー「GPTBot」の文書を公開した。同時に、個人情報などの扱い方やアクセスを禁止したり、カスタマイズしたりする方法なども記載している。 - Zoom「顧客の同意なしに、AIモデルのトレーニングに顧客コンテンツを使用することはない」と発表
Zoomの最高プロダクト責任者が「Zoomの利用規約は、同意なくユーザーコンテンツをAIトレーニングに利用できる」という技術系情報サイトの懸念、議論に対して「Zoomのサービス規約と業務慣行はAI機能にどのように適用されるか」と題したブログ記事を公開した。