Skip to main content

OpenAI 现允许网站阻止其网络爬虫抓取数据,避免数据被用于训练 AI 模型OpenAI 在其博客文章中表示,网站运营者可以通过在其网站的 Robots.txt 文件中禁止 GPTBot 的访问,或者通过屏蔽其 IP 地址,来阻止 GPTBot 从其网站上抓取数据

  1. OpenAI 现允许网站阻止其网络爬虫抓取数据,避免数据被用于训练 AI 模型

    OpenAI 在其博客文章中表示,网站运营者可以通过在其网站的 Robots.txt 文件中禁止 GPTBot 的访问,或者通过屏蔽其 IP 地址,来阻止 GPTBot 从其网站上抓取数据。

    GPTBot是OpenAI的网络爬虫,可以通过以下用户代理和字符串来识别。
    User agent token: GPTBot
    Full user-agent string:
    Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

    禁止 GPTBot
    User-agent: GPTBot
    Disallow: /


    自定义 GPTBot 访问
    User-agent: GPTBot
    Allow: /directory-1/
    Disallow: /directory-2/


    IP 出口范围
    40.83.2.64/28

    —— OpenAI