huggingface上的模型一般是用什么部署的呢?

听说GLM-4-32B在某些部分超出了4o,我想在本地上部署玩一下.
然而在ollama中没有32b的模型,所以我想询问一下该如何本地部署huggingface上的模型呢?

2 个赞

下载官方的gguf文件就可以,ollama可以从单个文件导入模型,直接能用。

推荐lmstudio

有官方的gguf的吗,我一直以为是社区的

好的,我看一下

好像ollama不行,我看老外说当前直接用gguf稳定性很差,应该是官方架构和vllm有区别,需要给llama.cpp加补丁才行。

1 个赞

LM Studio还用不了,unknown model architecture: ‘glm4’

所以deepseek才要开源推理代码,新模型内部都是私货。

那有推荐的部署工具吗?

就用官方的vllm呗,32B那么大的模型,已经不是ollama这种小玩具玩玩的了,只能用AI显卡+linux跑企业内部服务。

llama.cpp 自己量化后部署

4090还是能勉强本地跑跑的,我试试vllm好了

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。