佬们,手上有一块 RTX4090 能本地部署的最强大模型是什么?

手上有一块 RTX4090 能本地部署的最强大模型是什么?谢谢佬们
补充下:显存是 24G

12 个赞

Llama 3 70B

2 个赞

得先看显存大小

1 个赞

再加一块

1 个赞

显存多少?

2 个赞

模型是吃显存的

1 个赞

部署过4b量化的72B模型,24G显存放不下,还有一部分在内存,32G的内存也快满了,而且吐字非常慢。

体验刚好的应该就是4b量化的32B模型了,全放显存大概刚好快满,剩下一点给kv cache。

2 个赞

本地能部署的LLM和在线比起来多半是智障说是

3 个赞

显存是 24G

显存是 24G

1 个赞

试试4bit量化版本的Qwen3-32B,72B模型还是不要想了,会很慢很慢

1 个赞

要是要求“好用”,最多就32b了呢w

1 个赞

编程用有推荐吗

1 个赞

直接gemma3 27b 同参数量下,非思考模型没一个能打得过它

3 个赞

这个是真的

单块4090最好的用途就是配置本地AI绘图,基本上较强的绘图工具,都是按照24G量身定制的.

LLM聊天其实挺尴尬的,小参数比起大参数能力差了好多好多.能实际用上的,只有本地翻译.

5 个赞

gemma3这模型为翻译特别调过,上下文能力其实挺弱的,体验不如隔壁法国的24B模型.

而且多模态图片识别也占用了好多显存空间,纯文本知识量储备并不是很大.

当然翻译领域是比较无敌的.

1 个赞

大约qwq或者gamma3?

不过问题是这俩都走高并发(低成本/免费)使用方法,而且你单卡还不见得比服务商更快。性能方面,gemini-2.5-flash-lite感觉挺无敌的,还快还好,就是次数对于大批量有点少了

1 个赞

我们这边机房有若干3090,和4090显存是一致的24G的。

当时为了评估新买的L系计算卡的性能,在3090上做过对比实验,把3090单卡下的部分实验结果放这里仅供参考:

数据类型 模型参数 阶段 Runtime VRAM(GB) Token/s Step/s
FP32 8B Infer HF OOM
BF16 8B Infer HF ~16 39
BF16 8B Infer Ollama/vLLM ~10 39
INT4 32B Infer Ollama/vLLM ~21 30
INT4 70B Infer Ollama/vLLM OOM
INT4+BF16 8B QLoRA SFT HF+PEFT ~14 15 0.6

所以推理方面,在BF16下支持8到10+B的参数量,4位量化下支持32B;微调方面,只能是4位量化QLoRA。

部署具体模型要看横向比较的,反正参数规模就是这么大了。

另外,跑图生图基本上没问题的。建议玩玩ComfyUI。

10 个赞

内存和 CPU 管够的话甚至能跑 DeepSeek …… Deepseek-R1/V3 Show Case/Tutorial - Ktransformers 除非真的很在意隐私,本地大模型实在不好用啊

1 个赞