3070 8g显存适合运行ollama什么模型

已解决:win10电脑,彻底卸载ollama,重新安装可以正常运行。之前是在老版本上升级的,升级后导致无法正常运行。

几个月曾经下载过ollama本地运行大模型。能够成功运行,但是现在ollama版本升级后,反而发现运行不了。换其他的小模型也不行。都是提示内存不够。

ollama -v
ollama version is 0.10.1

ollama run qwen3:4b
Error: 500 Internal Server Error: llama runner process has terminated: error loading model: unable to allocate CUDA0 buffer

ollama run qwen3:0.6b
Error: 500 Internal Server Error: llama runner process has terminated: error loading model: unable to allocate CUDA0 buffer

3070应该是可以跑起来qwen3:4b的吧。下面的显卡信息看起来内存也没怎么被用过。请教一下佬们,是显卡性能问题,还是ollama的问题呢

2 个赞

可以试试Qwen3-30B-A3B,这种是10个3B的专家模型组合的,模型比较大,相对可能好些。
或者 deepseek-r1 的 8B / 7B 比较适合。

Qwen3-30B-A3B:

看一下是不是用了fp16,4b跑fp16勉勉强强,算上上下文kvcache是不够的。用q8比较合理。

我的3060 12G的

也想找个试试

模型比较大适合本地跑吗,我现在是跑小模型都提示内存不够。

跑了qwen3:0.6b也还是同样错误。0.6b 3070应该是能跑的吧

ollama下载的8B模型在3070上都能随便跑的,应该是设置不对。试一下这样能不能用

$env:CUDA_VISIBLE_DEVICES="0"
ollama run qwen3:4b

我感觉这种配置不适合本地部署模型。效率比较低。

我也觉得跟性能没关系,早版本的ollama就能成功运行。我试试看

$env:CUDA_VISIBLE_DEVICES
0
PS D:\ollama> ollama run qwen3:4b
Error: 500 Internal Server Error: llama runner process has terminated: error loading model: unable to allocate CUDA0 buffer

还是不行。感觉可能是新版的ollama的问题。

现在是想本地跑起来看看。想解决启动不了的问题。

这个模型速度还可以,因为是10个3b的小模型组合的。4060 8g还可以(8k)的话


在ollama选择的是那个模型呢,我看好像qwen官方没有这个模型。你是4060 8g跑起来的吗。我现在qwen的4b和0.6b的小模型都报错跑不起来

qwen3:30b ollama这边就整固到一起了,就很混乱:confused:….

8G显存
如果是非思考模型推荐下
ollama run gemma3n
思考模型的话最多可以跑
ollama run qwen3:8b

2 个赞

改用vllm可以吗

最多跑跑嵌入重排,推理模型基本跑不了有实用价值的。