本文最后更新于 2019-05-02【203 天前】,文中所描述的信息可能已发生改变,请谨慎使用。如有问题或建议,欢迎在文章底部留言参与讨论!

搜索引擎蜘蛛/爬虫在网站 SEO 收录排名扮演者至关重要的角色,今天分享一些国内外常见搜索引擎的蜘蛛判断方法,以免在进行访问控制时误杀,导致收录下降、掉排名等 SEO 问题。

搜索引擎蜘蛛 - Quanyin说:imtqy.com

搜索引擎蜘蛛爬虫判断方法

User Agent 判断

通常情况下这些爬虫都有固定特征的 User Agent(UA) ,下面的部分将会分享各家搜索引擎的 UA 特征。然而 User Agent 是请求头中的一个选项设置,是可以伪装的,这个方法只能告诉我们,这个请求/访问/IP 不是爬虫,而无法确切的告诉我们它是,所以通过 User Agent 判断请求的发起者是否是搜索引擎爬虫的方式是不靠谱的。

IP 判断

此外,一些搜索引擎都将自家的爬虫 IP 公开,我们直接查询就可以了,即使有些未公开,也能在网络上找到,接下的一部分将分享各家搜索引擎的爬虫 IP 段,数据来自于网络,部分来自于祁劲松博客根据自己网站日志整理收集的一些常见搜索引擎的IP地址段。

反查 IP 判断

搜索引擎的 IP 一般还有其他的一些特征,通过 DNS 反查 IP 的方式来判断某只 spider,会显示一些具有明显特征的主机名(name 字段),常用蜘蛛的域名都和搜索引擎官网的域名相关,例如:百度的蜘蛛通常是 baidu.com 或者 baidu.jp 的子域名,google 爬虫通常是googlebot.com 的子域名,微软 bing 搜索引擎爬虫是 search.msn.com 的子域名,搜狗蜘蛛是 crawl.sogou.com 的子域名。
爬虫蜘蛛 IP的主机名 - Quanyin说:imtqy.com

对于判断 IP 是否是属于搜索引擎的蜘蛛,一般来说这种方法是最靠谱的方法。
对于反查 IPLinux 下用 host IP,windows 用 nslookup IP,Mac 下用 dig IP 来进行主机-IP 反查

谷歌搜索引擎蜘蛛爬虫

google 搜索引擎蜘蛛爬虫的 UA 一般为 Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)、Googlebot/2.1 (+http://www.googlebot.com/bot.html)、Googlebot/2.1 (+http://www.google.com/bot.html)、Googlebot-Image/1.0,其中最后一个是 google 图片搜索蜘蛛爬虫。

google 搜索引擎爬虫的 IP 段为:66.249.、203.208.60.、216.239.、66.102.、64.233.、72.14.

百度搜索引擎蜘蛛爬虫

目前,百度搜索蜘蛛对外公布的 UA 为:目前对外公布过的 UA 是:

移动 UA: Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,likeGecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
PC UA: Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
新增渲染 UA:
移动 UA: Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 likeMac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)
PC UA:Mozilla/5.0 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

百度爬虫的 IP 段比较复杂,分爬取网页的、巡逻蜘蛛、准备来抓取、抓内页、抓权重的等等,这里简单给个汇总的:123.125.、180.76.5.、220.181.108.、220.181.7.、220.181.124.、220.181.125.、111.206.

此外,百度的 Baiduspider IP 的反查 hostname 都是以 .baidu.com 或 .baidu.jp 的格式命名

一般伪造的蜘蛛都是以伪造百度蜘蛛为主,着重判断下即可

搜狗搜索引擎蜘蛛爬虫

搜狗搜索引擎 UA 为 Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)、图片蜘蛛:Sogou Pic Spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07)

搜狗蜘蛛 IP 段: 123.126.113.79-123.126.113.191、220.181.89.190、220.181.89.189、218.30.103.155、61.135.189.75、220.181.94.228、61.135.189.74、220.181.89.157、220.181.89.165、220.181.89.183、220.181.89.194、218.30.103.80

360 搜狗搜索引擎蜘蛛爬虫

360搜索蜘蛛爬虫的 UA 为:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36; 360Spider

360 搜索社区认证的 360so 蜘蛛 IP 段:180.153.232.、180.153.234.、180.153.236.、180.163.220.、42.236.101.*、
42.236.102.、42.236.103.、42.236.10.、42.236.12.、42.236.13.、42.236.14.、42.236.15.、42.236.16.、42.236.17.、42.236.46.、42.236.48.、42.236.49.、42.236.50.、42.236.51.、42.236.52.、42.236.53.、42.236.54.、42.236.55.、42.236.99.*

神马搜索引擎蜘蛛爬虫

神马 Spider 的 user-agent 为:YisouSpider,因为历史原因此 user-agent 名称将会继续使用。神马 Spider 的 ip 地址是一组 ip 池,会动态变,官方未列举,一些可能神马蜘蛛的 IP:42.156.136.-42.156.139.、42.120.160.42.120.161.

Bing 搜索引擎蜘蛛爬虫

微软 Bing 蜘蛛爬虫的 UA 是 Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm),一些 IP 段是 207.46.13.、157.55.39.、40.77.167.

Yandex 搜索引擎蜘蛛爬虫

Yandex 是俄罗斯的搜索引擎,其 UA 是 Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots),一些 IP 段为:37.9.113.、37.9.87.、93.158.161.、178.154.244.、213.180.203.、141.8.142.、5.255.250

参考链接

上面的 IP 数据肯定是不完整的,当然也会有不准确的,可以在下方评论区进行补充

推荐使用:阿里云 云翼计划学生优惠、ECS、轻量应用等产品与服务【 点击注册

本文作者:Quanyin Tang

本文链接:国内外常见搜索引擎蜘蛛爬虫 UA 以及对应的 IP 段 - https://www.imtqy.com/spider-ua-ip.html

版权声明:如无特别声明,本文即为原创文章,仅代表个人观点,版权归 Quanyin 所有,未经允许禁止转载,经授权转载请注明出处!