近期在博客的Apache日志中发现一个名为 AspiegelBot 的奇怪爬虫,看起来有点像某个搜索引擎的蜘蛛,但名字很陌生,它的User-Agent中也没有带类似Baiduspider或Googlebot蜘蛛UA中的协议页面。网上搜索了下,发现有国外的站长说这可能是华为的爬虫。
先看看一条AspiegelBot的日志,如下:
114.119.160.95 - - [09/Mar/2020:19:16:06 +0800] "GET /10years.html?replytocom=45495 HTTP/1.1" 200 3985 "-" "Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; AspiegelBot)"
1、其中114.119.160.95这个IP,host查了是华为云新加坡的服务器。而且所有AspiegelBot的来访IP均是114.119.16x.xxx网段,几百个IP是有的。
~ host 114.119.160.95
95.160.119.114.in-addr.arpa domain name pointer ecs-114-119-160-95.compute.hwclouds-dns.com.
2、AspiegelBot 访问的大多是 “ *?replytocom=23287 "这样的页面,这些都是博客文章下直接指向某条评论的链接。
3、AspiegelBot 的抓取频率很固定,每10分钟或5分钟一次,即使把它的UA和IP在.htaccess里禁止了,也不会停止访问。
4、AspiegelBot 不遵循robots.txt协议,甚至都不会访问robots.txt文件。
带着好奇搜索了半天,百度上没有找到相关资料,谷歌上倒有几条蛛丝马迹(下方参考资料),总结了国外站长的说法:
1、华为在爱尔兰都柏林组建了一家名叫“Aspiegel”的子公司,把一些主要面向中国大陆以外的,尤其是欧洲用户的移动业务迁移过去,可能由这家子公司接管欧洲用户的数据,让涉及到数据安全的问题更加透明。
2、因为谷歌禁止华为设备使用GMS,在华为开发的Huawei Mobile Services即HMS生态中,Huawei Search 是其重要一环,此项服务已在海外小范围内测。而在Huawei Search的用户协议中声明,该服务正是由华为爱尔兰子公司Aspiegel提供。
3、观察了网上有些公开的Apache日志,貌似AspiegelBot是在2月或3月才开始疯狂抓取数据的。
参考资料:
https://www.theadminzone.com/threads/aspiegelbot.152797/
https://tech.barwick.de/seo/aspiegelbot.html
上面只是在谷歌中搜索出来的结果,准确性还无法验证,后面有相关内容再更新此文。
Apache日志中还有几个类似 AspiegelBot 的爬虫,User-Agent看似正常,但访问行为比较奇怪的:
这个像是OPPO手机上的UC浏览器?
"Mozilla/5.0(Linux;U;Android 5.1.1;zh-CN;OPPO A33 Build/LMY47V) AppleWebKit/537.36(KHTML,like Gecko) Version/4.0 Chrome/40.0.2214.89 UCBrowser/11.7.0.953 Mobile Safari/537.36"
猎豹浏览器极速版?
"Mozilla/5.0(Linux;Android 5.1.1;OPPO A33 Build/LMY47V;wv) AppleWebKit/537.36(KHTML,link Gecko) Version/4.0 Chrome/43.0.2357.121 Mobile Safari/537.36 LieBaoFast/4.51.3"
疑似微信客户端
"Mozilla/5.0 (Linux; Android 7.0; FRD-AL00 Build/HUAWEIFRD-AL00; wv) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/53.0.2785.49 Mobile MQQBrowser/6.2 TBS/043602 Safari/537.36 MicroMessenger/6.5.16.1120 NetType/WIFI Language/zh_CN"
2345浏览器?
"Mozilla/5.0(Linux;Android 5.1.1;OPPO A33 Build/LMY47V;wv) AppleWebKit/537.36(KHTML,link Gecko) Version/4.0 Chrome/42.0.2311.138 Mobile Safari/537.36 Mb2345Browser/9.0"
不知道这些爬虫在干嘛,是采集内容还是有其他目的,有没有知道的大佬指点一哈子。