听说GLM-4-32B在某些部分超出了4o,我想在本地上部署玩一下.
然而在ollama中没有32b的模型,所以我想询问一下该如何本地部署huggingface上的模型呢?
2 个赞
下载官方的gguf文件就可以,ollama可以从单个文件导入模型,直接能用。
推荐lmstudio
有官方的gguf的吗,我一直以为是社区的
好的,我看一下
好像ollama不行,我看老外说当前直接用gguf稳定性很差,应该是官方架构和vllm有区别,需要给llama.cpp加补丁才行。
1 个赞
LM Studio还用不了,unknown model architecture: ‘glm4’
所以deepseek才要开源推理代码,新模型内部都是私货。
那有推荐的部署工具吗?
就用官方的vllm呗,32B那么大的模型,已经不是ollama这种小玩具玩玩的了,只能用AI显卡+linux跑企业内部服务。
llama.cpp 自己量化后部署
4090还是能勉强本地跑跑的,我试试vllm好了
此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。