昨天看到百度官方公开了识别百度蜘蛛的最新信息,并且第一次官方渠道表示百度蜘蛛 UA(user agent)目前分为 PC、移动、小程序三个应用场景,相比以往的 PC 端和移动端,这次也新到了针对百度智能小程序的 UA,因为百度小程序支持 web,所以就需要百度蜘蛛的抓取。
1 2 3 4 | //百度蜘蛛移动 UA Mozilla/5.0(Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko)Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html) //或 Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko)Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0;+http://www.baidu.com/search/spider.html) |
1 2 3 4 | //百度蜘蛛 PC UA Mozilla/5.0(compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html) 或 Mozilla/5.0(compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html) |
1 2 | //百度蜘蛛小程序 UA Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko)Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0;Smartapp; +http://www.baidu.com/search/spider.html) |
如何真确的识别百度蜘蛛呢?
由于搜索引擎蜘蛛 UA 是可以被仿造和修改的,所以想要真确的识别百度蜘蛛需要通过反查 IP 来查询来源的主机名判断,最近子凡也在开发关于搜索引擎 IP 查询工具(https://ip.leiue.com),一方面是收集整理搜索引擎蜘蛛,一方面也是另做他用,后期完善后可能会提供开放 api,以此来给达一些网站运营或者开发者提高效率。
站长可以通过 DNS 反查 IP 的方式判断某只 spider 是否来自百度搜索引擎。Baiduspider 的 hostname 以*.baidu.com 或*.baidu.jp 的格式命名,非*.baidu.com 或*.baidu.jp 即为冒充。
除非注明,否则均为泪雪博客原创文章,禁止任何形式转载
留言评论