手上有一块 RTX4090 能本地部署的最强大模型是什么?谢谢佬们
补充下:显存是 24G
Llama 3 70B
得先看显存大小
再加一块
显存多少?
模型是吃显存的
部署过4b量化的72B模型,24G显存放不下,还有一部分在内存,32G的内存也快满了,而且吐字非常慢。
体验刚好的应该就是4b量化的32B模型了,全放显存大概刚好快满,剩下一点给kv cache。
本地能部署的LLM和在线比起来多半是智障说是
显存是 24G
显存是 24G
试试4bit量化版本的Qwen3-32B,72B模型还是不要想了,会很慢很慢
要是要求“好用”,最多就32b了呢w
编程用有推荐吗
直接gemma3 27b 同参数量下,非思考模型没一个能打得过它
这个是真的
单块4090最好的用途就是配置本地AI绘图,基本上较强的绘图工具,都是按照24G量身定制的.
LLM聊天其实挺尴尬的,小参数比起大参数能力差了好多好多.能实际用上的,只有本地翻译.
gemma3这模型为翻译特别调过,上下文能力其实挺弱的,体验不如隔壁法国的24B模型.
而且多模态图片识别也占用了好多显存空间,纯文本知识量储备并不是很大.
当然翻译领域是比较无敌的.
大约qwq或者gamma3?
不过问题是这俩都走高并发(低成本/免费)使用方法,而且你单卡还不见得比服务商更快。性能方面,gemini-2.5-flash-lite感觉挺无敌的,还快还好,就是次数对于大批量有点少了
我们这边机房有若干3090,和4090显存是一致的24G的。
当时为了评估新买的L系计算卡的性能,在3090上做过对比实验,把3090单卡下的部分实验结果放这里仅供参考:
| 数据类型 | 模型参数 | 阶段 | Runtime | VRAM(GB) | Token/s | Step/s |
|---|---|---|---|---|---|---|
| FP32 | 8B | Infer | HF | OOM | ||
| BF16 | 8B | Infer | HF | ~16 | 39 | |
| BF16 | 8B | Infer | Ollama/vLLM | ~10 | 39 | |
| INT4 | 32B | Infer | Ollama/vLLM | ~21 | 30 | |
| INT4 | 70B | Infer | Ollama/vLLM | OOM | ||
| INT4+BF16 | 8B | QLoRA SFT | HF+PEFT | ~14 | 15 | 0.6 |
所以推理方面,在BF16下支持8到10+B的参数量,4位量化下支持32B;微调方面,只能是4位量化QLoRA。
部署具体模型要看横向比较的,反正参数规模就是这么大了。
另外,跑图生图基本上没问题的。建议玩玩ComfyUI。
内存和 CPU 管够的话甚至能跑 DeepSeek …… Deepseek-R1/V3 Show Case/Tutorial - Ktransformers 除非真的很在意隐私,本地大模型实在不好用啊