OpenAI 现允许网站阻止其网络爬虫抓取数据，避免数据被用于训练 AI 模型OpenAI 在其博客文章中表示，网站运营者可以通过在其网站的 Robots.txt 文件中禁止 GPTBot 的访问，或者通过屏蔽其 IP 地址，来阻止 GPTBot 从其网站上抓取数据

03:26 · Aug 8, 2023 · Tue

OpenAI 现允许网站阻止其网络爬虫抓取数据，避免数据被用于训练 AI 模型

OpenAI 在其博客文章中表示，网站运营者可以通过在其网站的 Robots.txt 文件中禁止 GPTBot 的访问，或者通过屏蔽其 IP 地址，来阻止 GPTBot 从其网站上抓取数据。

GPTBot是OpenAI的网络爬虫，可以通过以下用户代理和字符串来识别。
User agent token: GPTBot
Full user-agent string:
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

禁止 GPTBot

User-agent: GPTBot
Disallow: /

自定义 GPTBot 访问

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

IP 出口范围
40.83.2.64/28

—— OpenAI