为WordPress设置最佳的Robots.txt规则

张子凡 WordPress建站 2016-03-28 10:11:13 阅读(...) 评论(8)

说到 robots.txt 大家已经都不会陌生了,但是有些时候很多的细节却还是没有被大多数人注意,比如子凡就忽略了一个细节,导致最近的一些文章在搜索引擎结果中出现了重复而没有意义的链接,如果你也是使用的WordPress,不妨你也看看你自己的 robots.txt 文件。

Robots.txt

如果你的 WordPress 站点还没有 robots.txt 文件,那么子凡觉得你就更有必要添加一个了,即使你的站点可以让搜索引擎随意抓取,因为搜索引擎机器人访问网站时,首先会寻找站点根目录有没有 robots.txt 文件,如果有这个文件就根据文件的内容确定收录范围,如果没有就按默认访问以及收录所有页面。另外,当搜索蜘蛛发现不存在 robots.txt 文件时,会产生一个 404 错误日志在服务器上,从而增加服务器的负担,因此为站点添加一个 robots.txt 文件还是很重要的。

好了,还是来分享一个经过子凡整理的比较完善的适用于 WordPress 的 robots.txt 文件内容吧!

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /trackback/
Disallow: /comments/
Disallow: /attachment/
Disallow: /comments/feed
Disallow: /feed
Disallow: /*/feed
Disallow: /*/comment-page-*
Disallow: /*?replytocom=*
Disallow: /*/trackback
Disallow: /?s=*
Disallow: /*/?s=*\
Disallow: /wp-*.php
 
Sitemap: http://yourdomain.com/sitemap.html

使用方法:新建一个名称为 robots.txt 文本文件,将以上的内容放进去,然后上传到网站根目录即可。

最后还是简单的解析一下其对应作用

1、User-agent: *

允许所有搜索引擎抓取网站,除非你网站有特别针对某个或多个搜索引擎,你可以适当的设置其抓取。如下只允许百度和谷歌抓取:

1
2
3
4
User-agent: Baiduspider
Disallow: /
User-agent: Googlebot
Disallow: /

这样设置的意思为只允许百度和谷歌的蜘蛛抓取所有,但是这里子凡用的是 Disallow 并设置的/根目录,所以这里其实是禁止了百度和谷歌抓取,如果要允许所有可以使用Allow,大家可以举一反三的使用,仔细的体会感受一下。

2、Disallow: /wp-admin/、Disallow: /wp-content/和 Disallow: /wp-includes/
用于告诉搜索引擎不要抓取后台程序文件页面。

3、Disallow: /*/comment-page-*和 Disallow: /*?replytocom=*
禁止搜索引擎抓取评论分页等相关链接。

4、Disallow: /category/*/page/和 Disallow: /tag/*/page/
禁止搜索引擎抓取收录分类和标签的分页。(这一条子凡并未添加到上面演示,因为不同 WordPress 站点可能会有所不同,大家可以根据需要添加)

5、Disallow: /*/trackback 和 Disallow: /trackback/
禁止搜索引擎抓取收录 trackback 等垃圾信息

6、Disallow: /feed、Disallow: /*/feed 和 Disallow: /comments/feed
禁止搜索引擎抓取收录 feed 链接,feed 只用于订阅本站,与搜索引擎无关。

7、Disallow: /?s=*和 Disallow: /*/?s=*\
禁止搜索引擎抓取站内搜索结果

8、Disallow: /attachment/
禁止搜索引擎抓取附件页面,比如毫无意义的图片附件页面。

9、Disallow: /wp-*.php
禁止搜索引擎抓取 WordPress 网站根目录的以 wp 开头的文件。

10、Sitemap: http://yourdomain.com/sitemap.html
这个就是为了方便搜索引擎利用的网站地图,具体的根据自己网站需要添加。

其实关于网站 robots.txt 的内容还有很多很多,这里子凡就只是列举了 WordPress 最常用的一些规则罢了,如果不是最近因为泪雪博客的 robots.txt 出现一些马虎导致了问题,子凡也不会单独在整理关于 WordPress 的 robots.txt 了,不管怎么样,希望能帮助到大家!

除非注明,否则均为泪雪博客原创文章,转载请以链接形式标明本文地址

本文链接:https://zhangzifan.com/wordpress-robots.html

发表评论

  1. 明月登楼
    1楼
    明月登楼 10个月前 (02-25)

    百度好像支持抓取 WordPress 评论并在搜索结果中显示评论数量了!

    • 张子凡
      回复
      张子凡 9个月前 (03-03)
      回复 @明月登楼 :哪里看到的?最近忙一些事情连博客都没时间写,感觉又落后一大截了。
      • 明月登楼的博客
        回复
        明月登楼的博客 9个月前 (03-03)
        回复 @张子凡 :我的博客上有详细的介绍!
  2. 爸妈质选
    2楼
    爸妈质选 1年前 (2017-12-05)

    谢谢,已经下载上传网站

  3. 香港保险资讯网
    3楼
    香港保险资讯网 2年前 (2017-03-06)

    还是不错的分享,谢谢!!!!

  4. 重庆企业邮箱
    4楼
    重庆企业邮箱 3年前 (2016-03-28)

    为WordPress设置最佳的Robots.txt,相信一般的优化人员做Robots.txt都会

    • 张子凡
      回复
      张子凡 3年前 (2016-03-28)
      回复 @重庆企业邮箱 :是的