搜索引擎的爬虫可以加快网站的收录,注重SEO还是需要好好维护这一方面的,但是除了搜索引擎的爬虫还有各种莫名其妙的爬虫会来访你的网站,它们既不遵循robots.txt文件中的内容也不限制扫描的频率,导致网站长期处于被扫描状态,影响正常用户的使用,因此最好把它们给屏蔽掉。之前在陶小桃的博客中找到了一个恶意爬虫的清单,将其添加到宝塔Nginx免费防火墙的UA过滤规则中拦截了一部分,但在后续的使用过程中又发现了一些新的爬虫。异常活跃,比如神马搜索蜘蛛 YisouSpider、字节跳动爬虫(抖音、头条、懂车帝等旗下爬虫)Bytespider以及openai的爬虫,尽管我希望我的文章被更多的人看到,也尽可能的帮助更多的人,但它们都快把我搞死了,因此我首先需要自保。附上一份2024~2025 年相对比较活跃的爬虫清单。
| UA关键词 | 简介 |
|---|---|
| Bytespider | 字节跳动爬虫(抖音、头条、懂车帝等旗下爬虫) |
| AspiegelBot | 华为 PetalBot 系爬虫 |
| PetalBot | 华为搜索爬虫 |
| Amazonbot | 亚马逊爬虫 |
| ChatGPT-User | OpenAI 用户爬虫(访问网页时带的 UA) |
| CensysInspect | Censys 网络扫描器 |
| Shodan | 著名安全扫描器 Shodan |
| ZoominfoBot | 商业信息采集爬虫 |
| Datadog | 云监控爬虫/探测器 |
| TurnitinBot | 抄袭检测爬虫 |
如何在宝塔中配置Nginx阻止垃圾蜘蛛_反爬虫_防采集 - 陶小桃Blog
爬虫的过滤分为几个方面和方法,一个是设置robots.txt,再一个是通过宝塔插件Nginx免费防火墙,最后一个是直接写在Nginx 的配置文件中,我的建议是都搞一下,因为robots.txt文件是一个防君子不防小人的声明文件,部分爬虫不看 robots.txt,而且会造成流量压力。Nginx免费防火墙我设置了,但是发现服务器还是会响应这些爬虫的UA,最后一个Nginx原生403拦截才是最有效的。
设置robots.txt声明
robots.txt 文件是一个纯文本文件,用于告诉搜索引擎爬虫哪些 URL 可以访问,哪些不能访问。它主要用于管理爬虫流量,防止服务器被过多的请求压垮,这位文件一般位于网站的根目录,如果没有的话可以自己新建一个。因为不想被摘要AI抓取所以文件内容放在了文末。
使用Nginx免费防火墙拦截
Nginx 免费防火墙是一种基于 Nginx 的 Web 应用防火墙(WAF),能够有效防止 SQL 注入、XSS 攻击、一句话木马等常见的网络攻击。它适用于 CentOS 和 Ubuntu 系统,通常通过宝塔面板进行安装和管理。为了网站的安全和稳定这个插件是很推荐安装的,虽然有时候也会误伤自己,比如后台上传安装插件的时候。
![图片[1] - 恶意蜘蛛耗尽服务器资源,不如全杀了 - 登山亦有道](https://qiniu.chenyan98.cn/wp-content/uploads/2025/07/730c7f.png)
(CheckMarkNetwork|Synapse|Nimbostratus-Bot|Dark|scraper|LMAO|Hakai|Gemini|Wappalyzer|masscan|
crawler4j|Mappy|Center|eright|aiohttp|MauiBot|Crawler|researchscan|Dispatch|AlphaBot|Census|
ips-agent|NetcraftSurveyAgent|ToutiaoSpider|EasyHttp|Iframely|sysscan|fasthttp|muhstik|
DeuSu|mstshash|HTTP_Request|ExtLinksBot|package|SafeDNSBot|CPython|SiteExplorer|SSH|MegaIndex|
BUbiNG|CCBot|NetTrack|Digincore|aiHitBot|SurdotlyBot|null|SemrushBot|Test|Copied|ltx71|Nmap|
DotBot|AdsBot|InetURL|Pcore-HTTP|PocketParser|Wotbox|newspaper|DnyzBot|redback|PiplBot|SMTBot|
WinHTTP|Auto Spider 1.0|GrabNet|TurnitinBot|Go-Ahead-Got-It|Download Demon|Go!Zilla|GetWeb!|
GetRight|libwww-perl|Cliqzbot|MailChimp|Dataprovider|XoviBot|linkdexbot|SeznamBot|Qwantify|
spbot|evc-batch|zgrab|Go-http-client|FeedDemon|JikeSpider|Indy Library|Alexa Toolbar|AskTbFXTV|
AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|UniversalFeedParser|ApacheBench|Microsoft URL Control|
Swiftbot|ZmEu|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|YisouSpider|HttpClient|
MJ12bot|EasouSpider|LinkpadBot|Ezooms|BLEXBot|Sogou|Sogou web spider|Bytespider|AspiegelBot|
PetalBot|Amazonbot|ChatGPT-User|CensysInspect|Shodan|ZoominfoBot|Datadog)
一般来说添加到这里就能过滤大部分的蜘蛛了,但我测试了一下,当前状态竟然还会返回200的状态码,去掉-I参数发现确实没有成功拦截,目前还不知道为什么会这样,因为改完配置不管是防火墙还是Nginx我都重启过。
[root@iZbp1hw8ztinobfhz3puzpZ ~]# curl -I -A "Bytespider" https://qiniu.chenyan98.cn
HTTP/2 200
server: nginx
date: Fri, 04 Jul 2025 06:46:03 GMT
content-type: text/html; charset=UTF-8
vary: Accept-Encoding
last-modified: Fri, 04 Jul 2025 05:00:11 GMT
strict-transport-security: max-age=31536000
x-rocket-nginx-serving-static: BYPASS
修改Nginx配置文件拦截
这种拦截方式是Nginx最底层的,拦截所有请求,不管动态、静态、JS、图片、API,全死。而防火墙插件属于“额外层”,除非强制拒绝,否则不会直接403。如果需要实现这样的效果可以在网站的配置文件中(location区块上方)添加这一段代码,当符合过滤规则时服务器直接返回403,拒绝访问。
![图片[2] - 恶意蜘蛛耗尽服务器资源,不如全杀了 - 登山亦有道](https://qiniu.chenyan98.cn/wp-content/uploads/2025/07/8b7d43.png)
if ($http_user_agent ~* "(Bytespider|
CheckMarkNetwork|Synapse|Nimbostratus-Bot|Dark|scraper|LMAO|Hakai|Gemini|Wappalyzer|masscan|
crawler4j|Mappy|Center|eright|aiohttp|MauiBot|Crawler|researchscan|Dispatch|AlphaBot|Census|
ips-agent|NetcraftSurveyAgent|ToutiaoSpider|EasyHttp|Iframely|sysscan|fasthttp|muhstik|
DeuSu|mstshash|HTTP_Request|ExtLinksBot|package|SafeDNSBot|CPython|SiteExplorer|SSH|MegaIndex|
BUbiNG|CCBot|NetTrack|Digincore|aiHitBot|SurdotlyBot|null|SemrushBot|Test|Copied|ltx71|Nmap|
DotBot|AdsBot|InetURL|Pcore-HTTP|PocketParser|Wotbox|newspaper|DnyzBot|redback|PiplBot|SMTBot|
WinHTTP|Auto Spider 1.0|GrabNet|TurnitinBot|Go-Ahead-Got-It|Download Demon|Go!Zilla|GetWeb!|
GetRight|libwww-perl|Cliqzbot|MailChimp|SMTBot|Dataprovider|XoviBot|linkdexbot|SeznamBot|
Qwantify|spbot|evc-batch|zgrab|Go-http-client|FeedDemon|JikeSpider|Indy Library|Alexa Toolbar|
AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|UniversalFeedParser|ApacheBench|
Microsoft URL Control|Swiftbot|ZmEu|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|
DigExt|YisouSpider|HttpClient|MJ12bot|EasouSpider|LinkpadBot|Ezooms|BLEXBot|
Sogou|Sogou web spider)") {
return 403;
}
最后附上我的robots.txt:
User-agent: Googlebot
Disallow:
User-agent: Bingbot
Disallow:
User-agent: Baiduspider
Disallow:
User-agent: Yandex
Disallow:
User-agent: Sogou
Disallow:
User-agent: 360Spider
Disallow:
User-agent: *
Disallow: /
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /cgi-bin/
Disallow: /trackback/
Disallow: /xmlrpc.php
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /page/
Disallow: /*/page/
Disallow: /?s=
Disallow: /search/
Allow: /wp-admin/admin-ajax.php
Allow: /wp-includes/js/
Sitemap: https://qiniu.chenyan98.cn/sitemap.xml
作者:晨岩
本站所有文章除特别声明外,均采用 BY-NC-SA 4.0 许可协议。转载请注明出处!

