搜索引擎蜘蛛会定期来抓取网站内容,以便收录网页,站长们是非常欢迎蜘蛛来爬的,但是却有人经常伪造蜘蛛ip进行恶意采集内容,还有很多DDOS攻击也会伪造成蜘蛛的User Agent来攻击,我查看过一位站长朋友被DDOS攻击的日志,里面大概20%的国外IP伪造成Googlebot来访问,这样会对我们的网站造成影响。我们必须要揪出这些假蜘蛛,拒绝他们访问网页,这时候我们只能通过IP来识别了,因为User-agent是可以伪造的,只有IP才能准确判断。
下面是新云最近收集的各大搜索引擎蜘蛛ip数据,数据没办法保证完全准确,因为搜索引擎官方是不公开IP段的,且IP都会变,我对比过多个数据和自己核验,下面的数据还是挺可靠的,有遗漏的下面还会有解决方案。(以下数据为2022年7月15日收集,如有其它新的还请自己添加)
百度蜘蛛IP段:
61.135.0.0/16
123.125.0.0/16
111.206.0.0/16
180.76.0.0/20
180.149.128.0/19
220.181.0.0/16
36.110.128.0/17
124.164.0.0/14
116.179.0.0/16
180.97.0.0/18
Google中国蜘蛛IP段:
203.208.32.0/19
203.208.60.0/24
74.125.0.0/16
72.14.192.0/18
64.233.160.0/19
66.249.64.0/19
66.102.0.0/20
64.68.64.0/19
66.249.90.0/24
66.249.91.0/24
66.249.92.0/24
搜狗蜘蛛IP段:
118.184.176.0/22
123.180.0.0/14
123.125.0.0/16
61.135.0.0/16
123.126.64.0/18
111.202.0.0/16
36.110.128.0/19
220.181.0.0/16
106.120.128.0/17
49.7.0.0/18
218.30.96.0/19
106.38.0.0/16
111.13.0.0/16
58.250.0.0/16
183.36.96.0/19
49.7.64.0/18
必应蜘蛛IP段:
103.25.156.0/24
111.221.16.0/20
157.56.0.0/16
199.30.16.0/20
65.52.0.0/14
13.64.0.0/11
157.55.0.0/16
207.46.0.0/16
40.64.0.0/10
52.224.0.0/11
40.76.0.0/14
40.80.0.0/12
52.160.0.0/11
360搜索蜘蛛IP段:(这是官方提供的,非常准确)
180.153.0.0/16
180.163.128.0/17
42.224.0.0/12
头条搜索蜘蛛IP段:
110.249.201.0/24
110.249.202.0/24
111.225.148.0/24
111.225.149.0/24
220.243.135.0/24
220.243.136.0/24
111.224.0.0/14
60.8.0.0/15
110.240.0.0/12
220.243.128.0/18
神马搜索蜘蛛IP段:
42.156.128.0/17
42.120.128.0/17
106.11.144.0/20
以上IP段可能未来还会新增,而且新增的IP段我们也无法获取到,这时候我们就需要另外一种方案来核实了,那就是DNS反查,我们可以通过反查来访的蜘蛛IP,查到对应的域名地址即可核实。
通过DNS反查IP用的是一种代码指令,不同的操作平台使用的指令也是不同的,比如:linux、windows、Mac OS这三个操作平台,使用的指令为host、nslookup、dig,查询的格式为:host ip(ip=ip地址)、nslookupip(ip=ip地址)、digip(ip=ip地址)。例如:host 111.222.XXX.XXX 或 nslookup 111.222.XXX.XXX 或 dig host 111.222.XXX.XXX,如果是用php可以使用 gethostbyaddr(\”IP\”)来获取,不同的蜘蛛IP对应的域名是不一样的,我们只要核实是哪家的蜘蛛就OK了。
下面我把各大搜索引擎蜘蛛的域名分享下:
百度蜘蛛IP对应的域名(例子):
baiduspider1689483077269421891616894830772694218979-32-216.crawl.baidu.com
谷歌蜘蛛IP对应的域名(例子):
crawl-203-208-60-60.googlebot.com
必应蜘蛛IP对应的域名(例子):
msnbot-40-7716894830772694218967-2.search.msn.com
搜狗蜘蛛IP对应的域名(例子):
sogouspider168948307726942189231689483077269421892616894830772694218913-79.crawl.sogou.com
头条蜘蛛IP对应的域名(例子):
bytespider16894830772694218911-22516894830772694218949-71.crawl.bytedance.com
神马蜘蛛IP对应的域名(例子):
shenmaspider-421689483077269421895616894830772694218937-55.crawl.sm.cn
360搜索官方说是禁止反查的,所以我们只用官方给出的IP段判断就OK了。
通过以上IP反查可以得到域名,判断域名是否是这些域名结尾就可以核实,这样我们在防御上就不会将搜索引擎蜘蛛误杀了。
下一篇: 快速吸引蜘蛛爬行网站的10个技巧
本文暂无评论 - 欢迎您