robots.txt如何只允许GPTBot抓取首页

张子凡 OpenAI 2023-09-25 00:11:41 阅读(...) 评论(0)

最近子凡我发现我们的泪雪网被 GPTBot 大量的抓取，GPTBot 是 OpenAI 为了训练 GPT 5 和更高级别模型的网络爬虫，所有本着不想自己网站做别人的嫁衣，所有我准备利用 robots.txt 文件禁止 GPTBot 抓取网站，庆幸的是 OpenAI 遵守 robots 规则。

OpenAI GPTBot

首先需要知道的是 GPTBot 爬虫的用户代理是：Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

当然也为了让 OpenAI 认识和了解我们网站，所有子凡觉得对其开放网站首页和关于我们页面是有必要的，所有要通过 robots.txt 文件只允许搜索引擎抓取你网站的首页和关于页面，可以在 robots.txt 文件中使用以下规则：

User-agent: GPTBot
Disallow: /    # 禁止搜索引擎访问整个网站
Allow: /$      # 允许搜索引擎访问首页
Allow: /about  # 允许搜索引擎访问关于页面

这些规则告诉 GPTBot 爬虫代理（User-agent: GPTBot）禁止访问整个网站（Disallow: /），但允许访问网站的根目录或首页（Allow: /$）。这确保了搜索引擎只能抓取你的首页而不是整个网站。

需要注意的是，robots.txt 文件只是一个建议，而不是强制规则。良好的搜索引擎爬虫通常会遵守 robots.txt 文件中的指令，但并不是所有的爬虫都会遵守。一些不诚实或恶意的爬虫可能会忽略这些规则。此外，robots.txt 只能用于指导搜索引擎和合法的网络爬虫，对于恶意访问者来说并不是一个真正的安全措施。如果有敏感内容需要保护，建议使用其他安全措施，如身份验证和访问控制。

除非注明，否则均为泪雪博客原创文章，禁止任何形式转载

本文链接：https://zhangzifan.com/gptbot-robots-txt-allow-homepage.html

留言评论

登录后留言

robots.txt如何只允许GPTBot抓取首页

相关推荐

ChatGPT Plus最新开通教程，绕过官方暂停升级渠道

浅谈我是如何实现免费使用OpenAI API和ChatGPT Plus会员

OpenAI暂停升级ChatGPT Plus/GPT4，老用户和API不影响

国内如何注册OpenAI/ChatGPT账号

WordPress通过OpenAI接口自动优化TAG标签描述内容

OpenAI API接口是否值得站长们使用

留言评论

活在互联网

花600元认证企业微博到底值不值

我为什么会愿意写博客分享经验和代码

这是创业的开始，也是全新的挑战

公司即将装修完成，进入开业倒计时

装修设计还是别轻易找异地设计师

猜你喜欢

WordPress后台利用ThickBox创建弹窗

上千网站百度联盟帐号被封禁所有的钱都没有了

网站地图对优化排名有什么作用

百度 MIP 官网改版，低调上线 MIP V2 版本

WordPress快速接入OpenAI ChatGPT，轻松实现智能问答和内容编辑

SNS心理学三大定律

robots.txt如何只允许GPTBot抓取首页

相关推荐

ChatGPT Plus最新开通教程，绕过官方暂停升级渠道

浅谈我是如何实现免费使用OpenAI API和ChatGPT Plus会员

OpenAI暂停升级ChatGPT Plus/GPT4，老用户和API不影响

国内如何注册OpenAI/ChatGPT账号

WordPress通过OpenAI接口自动优化TAG标签描述内容

OpenAI API接口是否值得站长们使用

留言评论

活在互联网

花600元认证企业微博到底值不值

我为什么会愿意写博客分享经验和代码

这是创业的开始，也是全新的挑战

公司即将装修完成，进入开业倒计时

装修设计还是别轻易找异地设计师

猜你喜欢

WordPress后台利用ThickBox创建弹窗

上千网站百度联盟帐号被封禁 所有的钱都没有了

网站地图对优化排名有什么作用

百度 MIP 官网改版，低调上线 MIP V2 版本

WordPress快速接入OpenAI ChatGPT，轻松实现智能问答和内容编辑

SNS心理学三大定律

上千网站百度联盟帐号被封禁所有的钱都没有了