昨天看到百度官方公开了识别百度蜘蛛的最新信息,并且第一次官方渠道表示百度蜘蛛 UA(user agent)目前分为 PC、移动、小程序三个应用场景,相比以往的 PC 端和移动端,这次也新到了针对百度智能小程序的 UA,因为百度小程序支持 web,所以就需要百度蜘蛛的抓取。

百度小程序蜘蛛 UA

1
2
3
4
//百度蜘蛛移动 UA
Mozilla/5.0(Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko)Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)
//或
Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko)Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0;+http://www.baidu.com/search/spider.html)
1
2
3
4
//百度蜘蛛 PC UA
Mozilla/5.0(compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
或
Mozilla/5.0(compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)
1
2
//百度蜘蛛小程序 UA
Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko)Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0;Smartapp; +http://www.baidu.com/search/spider.html)

如何真确的识别百度蜘蛛呢?

由于搜索引擎蜘蛛 UA 是可以被仿造和修改的,所以想要真确的识别百度蜘蛛需要通过反查 IP 来查询来源的主机名判断,最近子凡也在开发关于搜索引擎 IP 查询工具(https://ip.leiue.com),一方面是收集整理搜索引擎蜘蛛,一方面也是另做他用,后期完善后可能会提供开放 api,以此来给达一些网站运营或者开发者提高效率。

站长可以通过 DNS 反查 IP 的方式判断某只 spider 是否来自百度搜索引擎。Baiduspider 的 hostname 以*.baidu.com 或*.baidu.jp 的格式命名,非*.baidu.com 或*.baidu.jp 即为冒充。

除非注明,否则均为泪雪博客原创文章,禁止任何形式转载

本文链接:https://zhangzifan.com/baidu-smartapp-ua.html

留言评论

登录 后留言