OpenAIがWebクローラー「GPTBot」の文書を公開した。同時に、個人情報などの扱い方やアクセスを禁止したり、カスタマイズしたりする方法なども記載している。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
OpenAIがWebクローラー「GPTBot」の文書を公開した。GPTBotはOpenAIが使用するWebクローラーで、クロールされたWebページは、OpenAIのAIモデルを改善するために使用される可能性がある。
OpenAIは「GPTBotがWebサイトにアクセスできるようにすると、AIモデルの精度が向上し、一般的な機能と安全性が向上する。(一方で、)ペイウォールアクセスを必要とするソース、個人を特定できる情報(PII)を収集することが知られているソース、またはポリシーに違反するテキストを含むソースを削除するためにフィルタリングする」としている。
GPTBotは次のユーザーエージェントと文字列によって識別できる。
User agent token: GPTBot Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
GPTBotによるサイトへのアクセスを禁止するには、GPTBotをサイトのrobots.txtに追加する。
User-agent: GPTBot Disallow: /
GPTBotがサイトの一部のみにアクセスできるようにするには、次のようにGPTBotトークンをサイトのrobots.txtに追加する。
User-agent: GPTBot Allow: /directory-1/ Disallow: /directory-2/
OpenAIのクローラーは、OpenAIのサイトに記載されているIPアドレスレンジからWebサイトにコールする。
Copyright © ITmedia, Inc. All Rights Reserved.