検索
ニュース

OpenAIがWebクローラー「GPTBot」の文書を公開、クロールを禁止するには?個人情報などはどう扱うのか

OpenAIがWebクローラー「GPTBot」の文書を公開した。同時に、個人情報などの扱い方やアクセスを禁止したり、カスタマイズしたりする方法なども記載している。

Share
Tweet
LINE
Hatena

 OpenAIがWebクローラー「GPTBot」の文書を公開した。GPTBotはOpenAIが使用するWebクローラーで、クロールされたWebページは、OpenAIのAIモデルを改善するために使用される可能性がある。

 OpenAIは「GPTBotがWebサイトにアクセスできるようにすると、AIモデルの精度が向上し、一般的な機能と安全性が向上する。(一方で、)ペイウォールアクセスを必要とするソース、個人を特定できる情報(PII)を収集することが知られているソース、またはポリシーに違反するテキストを含むソースを削除するためにフィルタリングする」としている。

 GPTBotは次のユーザーエージェントと文字列によって識別できる。

User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

GPTBotの禁止

 GPTBotによるサイトへのアクセスを禁止するには、GPTBotをサイトのrobots.txtに追加する。

User-agent: GPTBot
Disallow: /

GPTBotのアクセスをカスタマイズする

 GPTBotがサイトの一部のみにアクセスできるようにするには、次のようにGPTBotトークンをサイトのrobots.txtに追加する。

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

IPアドレスレンジ

 OpenAIのクローラーは、OpenAIのサイトに記載されているIPアドレスレンジからWebサイトにコールする。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る