Robots 协议是网站与搜索引擎蜘蛛的君子协议,通过在站点根目录创建 robots.txt 来告诉搜索引擎网站的哪些路径和内容是否允许或者不允许被搜索引擎抓取,故而其重要性不用子凡多说,而最近百度搜索对 robots 协议的支持有了权限的升级,而网站需要注意些什么事情呢?

robots.txt

前言

通过对百度官方升级公告中可以了解到,百度搜索 robots 全新升级,是为了优化对网站视频 URL 的收录抓取,同时说道:

仅当您的网站包含不希望被视频搜索引擎收录的内容时,才需要使用 robots.txt 文件。如果您希望搜索引擎收录网站上所有内容,请勿建立 robots.txt 文件。

如您的网站未设置 robots 协议,百度搜索对网站视频 URL 的收录将包含视频播放页 URL,及页面中的视频文件、视频周边文本等信息,搜索对已收录的短视频资源将对用户呈现为视频极速体验页。此外,综艺影视类长视频,搜索引擎仅收录页面 URL。

解析

不难理解百度的升级用意,如果大家和子凡一样对熊掌号有非常高度的关注和了解,那么可能就更加的不难理解了,百度熊掌号也在大力的支持短视频和音频内容的接入,故而为了便于搜索引擎更好的抓取,所以对 robots 协议的升级提出了如果站点没有限制搜索引擎的抓取,那么就可以不用建立 robots.txt 文件。

虽然在国内我们所做的网站 SEO 优化可能基本都是针对百度,比较市场份额一家独大,但是依旧不可否认世界上还有这么多的搜索引擎,所以百度直接建议勿建立 robots.txt 文件子凡觉得还是非常的草率了,我是不太赞同这样的做法。

观点

其实不赞同这样的建议理由非常简单,除非你的站点内容所有路径可以被搜索引擎任意抓取,但是我相信很多的网站可能做不到这一点,例如很多的开源程序都是有后台目录或路径,以及缓存、图片、视频、api 等接口目录等等,可能并不希望被搜索引擎抓取,最重要的可能给后台或者网站带来不必要的安全隐患。

同时搜索引起蜘蛛抓取一个网站都会默认抓取网站根目录的 robots.txt,如果不存在就会是 404,显然并不是特别友好,虽然从正常角度来理解,没有禁止即为允许,但是建立一个为空,或者允许所有蜘蛛抓取的协议显然是更有利的。

除非注明,否则均为泪雪博客原创文章,转载请以链接形式标明本文地址

本文链接:https://zhangzifan.com/baidu-robots-update.html

发表评论

  1. 明月登楼
    1楼
    明月登楼 4周前 (09-21)

    只要百度可以严格遵循robots协议规则就可以了!要求不能太高了!

  2. 广州网站建设
    2楼
    广州网站建设 1个月前 (09-18)

    还是定时更新一下robots 协议吧

    • 张子凡
      回复
      张子凡 1个月前 (09-18)
      回复 @广州网站建设 :定时更新?到应该不至于吧
  3. 套花呗
    3楼
    套花呗 1个月前 (09-17)

    一直不知道怎么写robot,但是总是复制别人的,还好通用

    • 张子凡
      回复
      张子凡 1个月前 (09-17)
      回复 @套花呗 :其实,并不通用
  4. 通古思
    4楼
    通古思 1个月前 (09-17)

    看来,是时候考虑弄个robots.txt了!

    • 张子凡
      回复
      张子凡 1个月前 (09-17)
      回复 @通古思 :不存在的,哈哈哈