恶意蜘蛛耗尽服务器资源，不如全杀了

搜索引擎的爬虫可以加快网站的收录，注重SEO还是需要好好维护这一方面的，但是除了搜索引擎的爬虫还有各种莫名其妙的爬虫会来访你的网站，它们既不遵循robots.txt文件中的内容也不限制扫描的频率，导致网站长期处于被扫描状态，影响正常用户的使用，因此最好把它们给屏蔽掉。之前在陶小桃的博客中找到了一个恶意爬虫的清单，将其添加到宝塔Nginx免费防火墙的UA过滤规则中拦截了一部分，但在后续的使用过程中又发现了一些新的爬虫。异常活跃，比如神马搜索蜘蛛 YisouSpider、字节跳动爬虫（抖音、头条、懂车帝等旗下爬虫）Bytespider以及openai的爬虫，尽管我希望我的文章被更多的人看到，也尽可能的帮助更多的人，但它们都快把我搞死了，因此我首先需要自保。附上一份2024~2025 年相对比较活跃的爬虫清单。

UA关键词	简介
Bytespider	字节跳动爬虫（抖音、头条、懂车帝等旗下爬虫）
AspiegelBot	华为 PetalBot 系爬虫
PetalBot	华为搜索爬虫
Amazonbot	亚马逊爬虫
ChatGPT-User	OpenAI 用户爬虫（访问网页时带的 UA）
CensysInspect	Censys 网络扫描器
Shodan	著名安全扫描器 Shodan
ZoominfoBot	商业信息采集爬虫
Datadog	云监控爬虫/探测器
TurnitinBot	抄袭检测爬虫

如何在宝塔中配置Nginx阻止垃圾蜘蛛_反爬虫_防采集 - 陶小桃Blog

爬虫的过滤分为几个方面和方法，一个是设置robots.txt，再一个是通过宝塔插件Nginx免费防火墙，最后一个是直接写在Nginx 的配置文件中，我的建议是都搞一下，因为robots.txt文件是一个防君子不防小人的声明文件，部分爬虫不看 robots.txt，而且会造成流量压力。Nginx免费防火墙我设置了，但是发现服务器还是会响应这些爬虫的UA，最后一个Nginx原生403拦截才是最有效的。

设置robots.txt声明

robots.txt 文件是一个纯文本文件，用于告诉搜索引擎爬虫哪些 URL 可以访问，哪些不能访问。它主要用于管理爬虫流量，防止服务器被过多的请求压垮，这位文件一般位于网站的根目录，如果没有的话可以自己新建一个。因为不想被摘要AI抓取所以文件内容放在了文末。

使用Nginx免费防火墙拦截

Nginx 免费防火墙是一种基于 Nginx 的 Web 应用防火墙（WAF），能够有效防止 SQL 注入、XSS 攻击、一句话木马等常见的网络攻击。它适用于 CentOS 和 Ubuntu 系统，通常通过宝塔面板进行安装和管理。为了网站的安全和稳定这个插件是很推荐安装的，虽然有时候也会误伤自己，比如后台上传安装插件的时候。

(CheckMarkNetwork|Synapse|Nimbostratus-Bot|Dark|scraper|LMAO|Hakai|Gemini|Wappalyzer|masscan|
crawler4j|Mappy|Center|eright|aiohttp|MauiBot|Crawler|researchscan|Dispatch|AlphaBot|Census|
ips-agent|NetcraftSurveyAgent|ToutiaoSpider|EasyHttp|Iframely|sysscan|fasthttp|muhstik|
DeuSu|mstshash|HTTP_Request|ExtLinksBot|package|SafeDNSBot|CPython|SiteExplorer|SSH|MegaIndex|
BUbiNG|CCBot|NetTrack|Digincore|aiHitBot|SurdotlyBot|null|SemrushBot|Test|Copied|ltx71|Nmap|
DotBot|AdsBot|InetURL|Pcore-HTTP|PocketParser|Wotbox|newspaper|DnyzBot|redback|PiplBot|SMTBot|
WinHTTP|Auto Spider 1.0|GrabNet|TurnitinBot|Go-Ahead-Got-It|Download Demon|Go!Zilla|GetWeb!|
GetRight|libwww-perl|Cliqzbot|MailChimp|Dataprovider|XoviBot|linkdexbot|SeznamBot|Qwantify|
spbot|evc-batch|zgrab|Go-http-client|FeedDemon|JikeSpider|Indy Library|Alexa Toolbar|AskTbFXTV|
AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|UniversalFeedParser|ApacheBench|Microsoft URL Control|
Swiftbot|ZmEu|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|YisouSpider|HttpClient|
MJ12bot|EasouSpider|LinkpadBot|Ezooms|BLEXBot|Sogou|Sogou web spider|Bytespider|AspiegelBot|
PetalBot|Amazonbot|ChatGPT-User|CensysInspect|Shodan|ZoominfoBot|Datadog)

一般来说添加到这里就能过滤大部分的蜘蛛了，但我测试了一下，当前状态竟然还会返回200的状态码，去掉-I参数发现确实没有成功拦截，目前还不知道为什么会这样，因为改完配置不管是防火墙还是Nginx我都重启过。

[root@iZbp1hw8ztinobfhz3puzpZ ~]# curl -I -A "Bytespider" https://qiniu.chenyan98.cn
HTTP/2 200 
server: nginx
date: Fri, 04 Jul 2025 06:46:03 GMT
content-type: text/html; charset=UTF-8
vary: Accept-Encoding
last-modified: Fri, 04 Jul 2025 05:00:11 GMT
strict-transport-security: max-age=31536000
x-rocket-nginx-serving-static: BYPASS

修改Nginx配置文件拦截

这种拦截方式是Nginx最底层的，拦截所有请求，不管动态、静态、JS、图片、API，全死。而防火墙插件属于“额外层”，除非强制拒绝，否则不会直接403。如果需要实现这样的效果可以在网站的配置文件中（location区块上方）添加这一段代码，当符合过滤规则时服务器直接返回403，拒绝访问。

if ($http_user_agent ~* "(Bytespider|
CheckMarkNetwork|Synapse|Nimbostratus-Bot|Dark|scraper|LMAO|Hakai|Gemini|Wappalyzer|masscan|
crawler4j|Mappy|Center|eright|aiohttp|MauiBot|Crawler|researchscan|Dispatch|AlphaBot|Census|
ips-agent|NetcraftSurveyAgent|ToutiaoSpider|EasyHttp|Iframely|sysscan|fasthttp|muhstik|
DeuSu|mstshash|HTTP_Request|ExtLinksBot|package|SafeDNSBot|CPython|SiteExplorer|SSH|MegaIndex|
BUbiNG|CCBot|NetTrack|Digincore|aiHitBot|SurdotlyBot|null|SemrushBot|Test|Copied|ltx71|Nmap|
DotBot|AdsBot|InetURL|Pcore-HTTP|PocketParser|Wotbox|newspaper|DnyzBot|redback|PiplBot|SMTBot|
WinHTTP|Auto Spider 1.0|GrabNet|TurnitinBot|Go-Ahead-Got-It|Download Demon|Go!Zilla|GetWeb!|
GetRight|libwww-perl|Cliqzbot|MailChimp|SMTBot|Dataprovider|XoviBot|linkdexbot|SeznamBot|
Qwantify|spbot|evc-batch|zgrab|Go-http-client|FeedDemon|JikeSpider|Indy Library|Alexa Toolbar|
AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|UniversalFeedParser|ApacheBench|
Microsoft URL Control|Swiftbot|ZmEu|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|
DigExt|YisouSpider|HttpClient|MJ12bot|EasouSpider|LinkpadBot|Ezooms|BLEXBot|
Sogou|Sogou web spider)") {
    return 403;
}

最后附上我的robots.txt：

chenyan98.cn/robots.txt

Robots.txt文件内容

User-agent: Googlebot
Disallow:

User-agent: Bingbot
Disallow:

User-agent: Baiduspider
Disallow:

User-agent: Yandex
Disallow:

User-agent: Sogou
Disallow:

User-agent: 360Spider
Disallow:

User-agent: *
Disallow: /

Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /cgi-bin/
Disallow: /trackback/
Disallow: /xmlrpc.php
Disallow: /wp-login.php
Disallow: /wp-register.php

Disallow: /page/
Disallow: /*/page/

Disallow: /?s=
Disallow: /search/

Allow: /wp-admin/admin-ajax.php
Allow: /wp-includes/js/

Sitemap: https://qiniu.chenyan98.cn/sitemap.xml

作者：晨岩

本站所有文章除特别声明外，均采用 BY-NC-SA 4.0 许可协议。转载请注明出处！

THE END

评论共21条

提交

- LeaRM Windows Edge 138.0.0.0
  前几个月我误操作，把全部蜘蛛都屏蔽了哈哈哈，毫无影响，不指望靠搜索引擎。
  来自广州6个月前回复
- - 晨岩作者 Windows Chrome 122.0.6261.95
    干得漂亮，现在有些蜘蛛太不要脸了
    来自苏州6个月前@LeaRM回复
- 满心 Windows Chrome 138.0.0.0
  个人博客对于蜘蛛的需求一般，该干的都干了吧，我就留了个百度的
  来自武汉6个月前回复
- - 晨岩作者 Windows Edge 135.0.0.0
    确实是这样，除了主流搜索引擎，其它的统统干掉，我现在Robots文件中只保留了Googlebot、Bingbot、Baiduspider
    来自苏州6个月前@满心回复
- zeruns Windows Chrome 132.0.0.0
  前端时间有个美国某个AI公司的爬虫一直爬我博客，频次都快接近CC攻击了，一直耗我流量，就直接在宝塔nginx防火墙设置了UA拦截
  来自肇庆6个月前回复
- - 晨岩作者 Windows Edge 138.0.0.0
    我也是，服务器死机了好几次，不死机的时候资源占用也很高，现在禁用了一堆爬虫好多了
    来自苏州6个月前@zeruns回复
- 灰常记忆 Windows Edge 138.0.0.0
  我使用的是CF 貌似自动就拦截了...
  来自咸阳6个月前回复
- - 扶苏 Windows Edge 138.0.0.0
    我也用的CF，过滤国外IP的。国内的用的腾讯云。其实我资源够用，就是被狂刷流量。。。
    来自苏州6个月前@灰常记忆回复
- - 晨岩作者 Windows Edge 135.0.0.0
    那还可以，我站点本身没有上CDN，只有图片等静态资源才上了对象存储和CDN
    来自苏州6个月前@灰常记忆回复
- 网友小宋 Windows Edge 138.0.0.0
  现在ai也很流氓。
  来自漯河6个月前回复
- - 晨岩作者 Windows Edge 135.0.0.0
    发现了，所以已经被我屏蔽了
    来自苏州6个月前@网友小宋回复
- LeaRM Windows Edge 137.0.0.0
  直接屏蔽了机房IP，解决了问题
  来自东莞6个月前回复
- - 晨岩作者 Windows Edge 135.0.0.0
    也是一个很绝的方法，牛的?
    来自苏州6个月前@LeaRM回复
- 紫慕 Windows Chrome 138.0.0.0
  之前被阿里云的爬虫爬过，后边CDN全屏蔽了，什么SEO的完全不在乎。AI时代下SEO是否还有作用，感觉不太好说。
  来自成都6个月前回复
- - 晨岩作者 Windows Edge 135.0.0.0
    AI让我考虑问题的思维方式改变了很多，今天在清理ChatGPT对话列表的时候还在想，我问了那么多的问题真正记住并且消化的却没有多少，这好像有点不对，小网站又不盈利要SEO干吗，我现在是想开了，收录什么的现在统统都不看了。
    来自苏州6个月前@紫慕回复
- 粽叶加米 Windows Chrome 137.0.0.0
  现在ai爬虫也挺多的，他们要内容学习。
  来自东莞6个月前回复
- - 晨岩作者 Windows Edge 138.0.0.0
    可以理解，但是我的小水管服务器快扛不住了
    来自苏州6个月前@粽叶加米回复

加载更多

恶意蜘蛛耗尽服务器资源，不如全杀了

设置robots.txt声明

使用Nginx免费防火墙拦截

修改Nginx配置文件拦截

1苏州盘门景区

2记一次65公里的骑行

3地铁五号线开通

4《毛泽东选集》读书笔记

5六万毫安时充电宝的制作预告

6外卖终于不坑我了

7线上面诊跑腿拿药

8PHY6222(52) 串口烧写及在线调试

9MySQL数据库授权远程登录（Windows/Linux）

10子比主题接入TianliGPT智能摘要

11隐藏前台“站长统计”文字

12震泽旅游公众号的“照骗”真不错

13Hyper-V使用过程中遇到的问题和解决办法

14DW1000芯片简单解析

15记一次网站被打的经历

恶意蜘蛛耗尽服务器资源，不如全杀了

设置robots.txt声明

使用Nginx免费防火墙拦截

修改Nginx配置文件拦截

1苏州盘门景区

2记一次65公里的骑行

3地铁五号线开通

4《毛泽东选集》读书笔记

5六万毫安时充电宝的制作预告

6外卖终于不坑我了

7线上面诊 跑腿拿药

8PHY6222(52) 串口烧写及在线调试

9MySQL数据库授权远程登录（Windows/Linux）

10子比主题接入TianliGPT智能摘要

11隐藏前台“站长统计”文字

12震泽旅游公众号的“照骗”真不错

13Hyper-V使用过程中遇到的问题和解决办法

14DW1000芯片简单解析

15记一次网站被打的经历

7线上面诊跑腿拿药