佬们，手上有一块 RTX4090 能本地部署的最强大模型是什么？

amojury · 2025 年7 月 9 日 03:43

手上有一块 RTX4090 能本地部署的最强大模型是什么？谢谢佬们
补充下：显存是 24G

lezishen · 2025 年7 月 9 日 03:45

Llama 3 70B

kknk · 2025 年7 月 9 日 03:58

得先看显存大小

Lovehappy · 2025 年7 月 9 日 03:58

再加一块

mryu · 2025 年7 月 9 日 04:04

显存多少？

FreedomPanda · 2025 年7 月 9 日 04:08

模型是吃显存的

LukeWang · 2025 年7 月 9 日 04:09

部署过4b量化的72B模型，24G显存放不下，还有一部分在内存，32G的内存也快满了，而且吐字非常慢。

体验刚好的应该就是4b量化的32B模型了，全放显存大概刚好快满，剩下一点给kv cache。

I-was-here · 2025 年7 月 9 日 04:09

本地能部署的LLM和在线比起来多半是智障说是

amojury · 2025 年7 月 9 日 04:19

显存是 24G

amojury · 2025 年7 月 9 日 04:19

显存是 24G

YHZZ9457 · 2025 年7 月 9 日 04:22

试试4bit量化版本的Qwen3-32B，72B模型还是不要想了，会很慢很慢

6512345 · 2025 年7 月 9 日 04:23

要是要求“好用”，最多就32b了呢w

amojury · 2025 年7 月 9 日 06:13

编程用有推荐吗

yiyis · 2025 年7 月 9 日 06:15

直接gemma3 27b 同参数量下，非思考模型没一个能打得过它

hanlinwenyuan · 2025 年7 月 9 日 06:17

这个是真的

freebsdfx · 2025 年7 月 9 日 06:17

单块4090最好的用途就是配置本地AI绘图,基本上较强的绘图工具,都是按照24G量身定制的.

LLM聊天其实挺尴尬的,小参数比起大参数能力差了好多好多.能实际用上的,只有本地翻译.

freebsdfx · 2025 年7 月 9 日 06:20

gemma3这模型为翻译特别调过,上下文能力其实挺弱的,体验不如隔壁法国的24B模型.

而且多模态图片识别也占用了好多显存空间,纯文本知识量储备并不是很大.

当然翻译领域是比较无敌的.

koast18 · 2025 年7 月 9 日 06:24

大约qwq或者gamma3？

不过问题是这俩都走高并发（低成本/免费）使用方法，而且你单卡还不见得比服务商更快。性能方面，gemini-2.5-flash-lite感觉挺无敌的，还快还好，就是次数对于大批量有点少了

RickoNoNo3 · 2025 年7 月 9 日 06:32

我们这边机房有若干3090，和4090显存是一致的24G的。

当时为了评估新买的L系计算卡的性能，在3090上做过对比实验，把3090单卡下的部分实验结果放这里仅供参考：

数据类型	模型参数	阶段	Runtime	VRAM(GB)	Token/s	Step/s
FP32	8B	Infer	HF	OOM
BF16	8B	Infer	HF	~16	39
BF16	8B	Infer	Ollama/vLLM	~10	39
INT4	32B	Infer	Ollama/vLLM	~21	30
INT4	70B	Infer	Ollama/vLLM	OOM
INT4+BF16	8B	QLoRA SFT	HF+PEFT	~14	15	0.6

所以推理方面，在BF16下支持8到10+B的参数量，4位量化下支持32B；微调方面，只能是4位量化QLoRA。

部署具体模型要看横向比较的，反正参数规模就是这么大了。

另外，跑图生图基本上没问题的。建议玩玩ComfyUI。

MiracleStep · 2025 年7 月 9 日 10:25

内存和 CPU 管够的话甚至能跑 DeepSeek …… Deepseek-R1/V3 Show Case/Tutorial - Ktransformers 除非真的很在意隐私，本地大模型实在不好用啊

话题		回复	浏览量
求推荐！适合本地部署的大模型！开发调优人工智能	33	780	2026 年1 月 26 日
2个4090，48G显存，当前哪个开源模型比较好？开发调优人工智能 , 快问快答 , 软件开发	23	629	2025 年12 月 3 日
有没有本地推理模型（30B以下）排行榜搞七捻三人工智能 , 快问快答	18	487	2025 年10 月 28 日
大家在本地部署了什么模型？搞七捻三人工智能	34	1249	2025 年6 月 8 日
Qwen发布Qwen3.5-35B-A3B， Reddit上都炸了前沿快讯人工智能	106	5916	2026 年3 月 13 日