Robots 协议是网站与搜索引擎蜘蛛的君子协议,通过在站点根目录创建 robots.txt 来告诉搜索引擎网站的哪些路径和内容是否允许或者不允许被搜索引擎抓取,故而其重要性不用子凡多说,而最近百度搜索对 robots 协议的支持有了权限的升级,而网站需要注意些什么事情呢?

robots.txt

前言

通过对百度官方升级公告中可以了解到,百度搜索 robots 全新升级,是为了优化对网站视频 URL 的收录抓取,同时说道:

仅当您的网站包含不希望被视频搜索引擎收录的内容时,才需要使用 robots.txt 文件。如果您希望搜索引擎收录网站上所有内容,请勿建立 robots.txt 文件。

如您的网站未设置 robots 协议,百度搜索对网站视频 URL 的收录将包含视频播放页 URL,及页面中的视频文件、视频周边文本等信息,搜索对已收录的短视频资源将对用户呈现为视频极速体验页。此外,综艺影视类长视频,搜索引擎仅收录页面 URL。

解析

不难理解百度的升级用意,如果大家和子凡一样对熊掌号有非常高度的关注和了解,那么可能就更加的不难理解了,百度熊掌号也在大力的支持短视频和音频内容的接入,故而为了便于搜索引擎更好的抓取,所以对 robots 协议的升级提出了如果站点没有限制搜索引擎的抓取,那么就可以不用建立 robots.txt 文件。

虽然在国内我们所做的网站 SEO 优化可能基本都是针对百度,比较市场份额一家独大,但是依旧不可否认世界上还有这么多的搜索引擎,所以百度直接建议勿建立 robots.txt 文件子凡觉得还是非常的草率了,我是不太赞同这样的做法。

观点

其实不赞同这样的建议理由非常简单,除非你的站点内容所有路径可以被搜索引擎任意抓取,但是我相信很多的网站可能做不到这一点,例如很多的开源程序都是有后台目录或路径,以及缓存、图片、视频、api 等接口目录等等,可能并不希望被搜索引擎抓取,最重要的可能给后台或者网站带来不必要的安全隐患。

同时搜索引起蜘蛛抓取一个网站都会默认抓取网站根目录的 robots.txt,如果不存在就会是 404,显然并不是特别友好,虽然从正常角度来理解,没有禁止即为允许,但是建立一个为空,或者允许所有蜘蛛抓取的协议显然是更有利的。

除非注明,否则均为泪雪博客原创文章,禁止任何形式转载

本文链接:https://zhangzifan.com/baidu-robots-update.html

留言评论

登录 后留言