网站结构优化中的蜘蛛陷阱有哪些？

张子凡 搜索引擎优化研究 2012-08-14 09:11:02 阅读(...) 评论(2)

有一些网站设计技术对搜索引擎来说很不友好，不利于蜘蛛爬行和抓取，这些技术被称为蜘蛛陷阱。常见的应该全力避免的蜘蛛陷阱包括如下这些。

1、Flash
在网页的某一小部分使用Flash增强视觉效果是很正常的，比如用Flash做成的广告、图标等。这种小Flash和图片是一样的，只是HTML代码中的很小一部分，页面上还有其他以文字为主的内容，所以对搜索引擎抓取和收录没有影响。

但是有的网站整个首页就是一个大的Flash文件，这就构成了蜘蛛陷阱。搜索引擎抓取的HTML代码只有一个连向Flash文件的链接，没有其他文字内容。搜索引擎是无法读取Flash文件中的文字内容和链接的。这种网站整个就是一个Flash的网站，可能视觉效果做得精彩异常，可惜搜索引擎看不到，不能索引出任何文字信息，也就无从判断相关性。

有的网站喜欢在首页放一个Flash动画片头（Flash Intro），用户访问网站看完片头后被转向到真正的HTML版本的文字网站首页。搜索引擎不能读取Flash，一般也没办法从Flash Intro跟踪到HTML版本页面。
虽然搜索引擎在这方面有新的突破，但是做网站就请不要考验蜘蛛的能力。

2、Session ID
有些网站使用Session ID（会话ID）跟踪用户访问，每个用户访问网站时都会生成独特唯一的Session ID，加在URL中。搜索引擎蜘蛛的每一次访问也会被当成一个新的用户，URL中会加上一个不同的Session ID，这样搜索引擎蜘蛛每次来访问时所得到的同一个页面的URL将不一样，后面带着一个不一样的Session ID。这也是最常见的蜘蛛陷阱之一。

搜索引擎遇到这种长长的Session ID，会尝试判断字符串是Session ID还是正常参数，成功判断出Session ID就可以去掉Session ID，收录正常URL。但也经常判断不出来，要么不愿意收录，要么收录多个带有不同Session ID的URL，内容却完全一样，形成大量复制内容，这两种情况对网站优化都不利。

通常建议跟踪用户访问应该使用cookies而不要生成Session ID。或者程序判断访问者是搜索引擎蜘蛛还是普通用户，如果是搜索引擎蜘蛛，则不生成Session ID。跟踪搜索引擎蜘蛛访问是没什么意义的，蜘蛛既不会填表，也不会把商品放入购物车。

3、各种跳转
除了后面会介绍的301转向以外，搜索引擎对其他形式的跳转都比较敏感，如302跳转、JavaScript跳转、Flash跳转、Meta Refresh跳转。

有些网站用户访问首页时会被自动转向到某个目录下的页面。如果是按用户地理位置转向至最适合的目录，那倒情有可原。但大部分这种首页转向看不出任何理由和目的，这样的转向能避免则避免。

如果必须转向，301转向是搜索引擎推荐的、用于网址更改的转向，可以把页面权重从旧网址转移到新网址。其他转向方式都对蜘蛛爬行不利，原因泪雪在前面的关于黑帽SEO中已经写到过了，黑帽SEO经常使用转向欺骗搜索引擎和用户。所以除非万不得已，尽量不要使用301转向以外的跳转。

4、框架结构
如果作为站长的你不知道什么是框架结构( Frame)，那么恭喜你，你已经避免了这个蜘蛛陷阱，根本没必要知道什么是框架结构。如果你在网站设计中还在使用框架结构，我的建议是立即取消。

使用框架结构设计页面，在网站诞生初期曾经挺流行，因为对网站的页面更新维护有一定方便性。不过现在的网站已经很少使用框架了，不利于搜索引擎抓取是框架越来越不流行的重要原因之一。对搜索引擎来说，访问一个使用框架的网址所抓取的HTML只包含调用其他HTML文件的代码t并不包含任何文字信息，搜索引擎根本无法判断这个网址的内容是什么。虽然蜘蛛可以跟踪框架中所调用的其他HTML文件，但是这些文件经常是不完整的页面，比如没有导航只是正文。搜索引擎也无法判断框架中的页面内容应该属于主框架，还是属于框架调用的文件。

总之，如果你的网站还在使用框架，或者你的老板要使用框架结构，唯一要记住的是，忘记使用框架这回事。和Flash -样，别浪费时间研究怎么让搜索引擎收录框架结构网站。

5、动态URL
动态URL指的是数据库驱动的网站所生成的、带有问号、等号及参数的网址。一般来说动态URL不利于搜索引擎蜘蛛爬行，应该尽量避免。下面对动态URL。及其静态化还有更详细的讨论。

6、JavaScript链接
由于JavaScript可以创造出很多吸引人的视觉效果，有些网站喜欢使用JavaScript脚本生成导航系统。这也是比较严重的蛛蛛陷阱之一。虽然搜索引擎都在尝试解析JS脚本，不过我们不能寄希望于搜索引擎自己去克服困难，而要让搜索引擎跟踪爬行链接的工作尽量简单容易。

据我观察，虽然有的搜索引擎在技术上可以获得JavaScript脚本中包含的链接，甚至可以执行脚本并跟踪链接，但对一些权重比较低的网站，搜索引擎觉得没有必要，不会费那个劲。所以网站上的链接必须使用最简单标准的HTML链接，尤其是导航系统。用css做导航系统一样可以实现很多视觉效果。

JavaScript链接在SEO中也有特殊用途，那就是站长不希望被收录的页面（比如没有排名意义的页面，重复内容页面等），不希望彻底权重的链接，可以使用JavaScript脚本阻挡搜索引擎爬行。

7、要求登录
有些网站内容放在需要用户登录之后才能看到的会员区域，这部分内容搜索引擎无法看到。蜘蛛不能填写用户名、密码，也不会注册。

8、强制使用Cookies
有些网站为了实现某种功能，如记住用户登录信息、跟踪用户访问路径等，强制用户使用Cookies，用户浏览器如果没有启用Cookies，页面显示不正常。搜索引擎蜘蛛就相当于一个禁用了Cookies的浏览器，强制使用Cookies只能造成搜索引擎蜘蛛无法正常访问。
以上是泪雪这么久以来的一个对于蜘蛛陷阱的总结，虽然这里只写到了8点，最常见的、最容易大家忽略的地方写到了，当然还有一些细节的优化，泪雪就没怎么写了。以后如果还有值得写出来的，泪雪还是会写的。好了，不算太长也不算太短，时间也差不多了。就写到这里了。

除非注明，否则均为泪雪博客原创文章，禁止任何形式转载

本文链接：https://zhangzifan.com/website-spider-trap.html

网站结构优化中的蜘蛛陷阱有哪些？

相关推荐

百度搜索资源平台重要通知，站点实名认证提醒

搜索引擎喜欢什么样的原创文章，怎样才能做好排名

头条搜索 Bytespider 开始大规模抓取

百度飓风算法 3.0，控制跨领域采集及站群

百度信风算法，打击翻页诱导行为

百度搜索将打击网站内容获取需要权限才能查看的情况

关注公众号

活在互联网

创业就必须面对失败的结局

浅谈我如何接收国外短信验证码注册各类账号

花600元认证企业微博到底值不值

我为什么会愿意写博客分享经验和代码

这是创业的开始，也是全新的挑战

公司即将装修完成，进入开业倒计时

猜你喜欢

Cloudflare批量重定向规则自定义筛选表达式，根据域名路径关键词跳转落地页

.host域名误判钓鱼网站被停止解析，不建议使用新通用顶级域名后缀建站

创业就必须面对失败的结局