robots.txt如何只允许GPTBot抓取首页

张子凡 OpenAI 2023-09-25 00:11:41 阅读(...) 评论(0)

最近子凡我发现我们的泪雪网被 GPTBot 大量的抓取,GPTBot 是 OpenAI 为了训练 GPT 5 和更高级别模型的网络爬虫,所有本着不想自己网站做别人的嫁衣,所有我准备利用 robots.txt 文件禁止 GPTBot 抓取网站,庆幸的是 OpenAI 遵守 robots 规则。

OpenAI GPTBot

首先需要知道的是 GPTBot 爬虫的用户代理是:Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

当然也为了让 OpenAI 认识和了解我们网站,所有子凡觉得对其开放网站首页和关于我们页面是有必要的,所有要通过 robots.txt 文件只允许搜索引擎抓取你网站的首页和关于页面,可以在 robots.txt 文件中使用以下规则:

1
2
3
4
User-agent: GPTBot
Disallow: /    # 禁止搜索引擎访问整个网站
Allow: /$      # 允许搜索引擎访问首页
Allow: /about  # 允许搜索引擎访问关于页面

这些规则告诉 GPTBot 爬虫代理(User-agent: GPTBot)禁止访问整个网站(Disallow: /),但允许访问网站的根目录或首页(Allow: /$)。这确保了搜索引擎只能抓取你的首页而不是整个网站。

需要注意的是,robots.txt 文件只是一个建议,而不是强制规则。良好的搜索引擎爬虫通常会遵守 robots.txt 文件中的指令,但并不是所有的爬虫都会遵守。一些不诚实或恶意的爬虫可能会忽略这些规则。此外,robots.txt 只能用于指导搜索引擎和合法的网络爬虫,对于恶意访问者来说并不是一个真正的安全措施。如果有敏感内容需要保护,建议使用其他安全措施,如身份验证和访问控制。

除非注明,否则均为泪雪博客原创文章,禁止任何形式转载

本文链接:https://zhangzifan.com/gptbot-robots-txt-allow-homepage.html

留言评论

登录 后留言