OpenAIがWebクローラー「GPTBot」の文書を公開、クロールを禁止するには?個人情報などはどう扱うのか

OpenAIがWebクローラー「GPTBot」の文書を公開した。同時に、個人情報などの扱い方やアクセスを禁止したり、カスタマイズしたりする方法なども記載している。

» 2023年08月15日 08時00分 公開
[@IT]

この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。

 OpenAIがWebクローラー「GPTBot」の文書を公開した。GPTBotはOpenAIが使用するWebクローラーで、クロールされたWebページは、OpenAIのAIモデルを改善するために使用される可能性がある。

 OpenAIは「GPTBotがWebサイトにアクセスできるようにすると、AIモデルの精度が向上し、一般的な機能と安全性が向上する。(一方で、)ペイウォールアクセスを必要とするソース、個人を特定できる情報(PII)を収集することが知られているソース、またはポリシーに違反するテキストを含むソースを削除するためにフィルタリングする」としている。

 GPTBotは次のユーザーエージェントと文字列によって識別できる。

User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

GPTBotの禁止

 GPTBotによるサイトへのアクセスを禁止するには、GPTBotをサイトのrobots.txtに追加する。

User-agent: GPTBot
Disallow: /

GPTBotのアクセスをカスタマイズする

 GPTBotがサイトの一部のみにアクセスできるようにするには、次のようにGPTBotトークンをサイトのrobots.txtに追加する。

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

IPアドレスレンジ

 OpenAIのクローラーは、OpenAIのサイトに記載されているIPアドレスレンジからWebサイトにコールする。

Copyright © ITmedia, Inc. All Rights Reserved.

スポンサーからのお知らせPR

注目のテーマ

Microsoft & Windows最前線2025
AI for エンジニアリング
ローコード/ノーコード セントラル by @IT - ITエンジニアがビジネスの中心で活躍する組織へ
Cloud Native Central by @IT - スケーラブルな能力を組織に
システム開発ノウハウ 【発注ナビ】PR
あなたにおすすめの記事PR

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。