关于核显玩llm的问题

i5-13500h能跑什么本地大模型?怎么跑球各位大佬帮助

2 个赞

集显?没法玩吧

可以的吧

Qwen2:7b

搞一搞各家量化后的最小模型,应该能跑起来

qwen2:0.5b跑得飞快

1 个赞

0.5b啥水平

用ollama运行吗

对,而且智力还行,大概是 GPT-3.5 多一点。(知识库肯定不如 GPT-3.5)

unsloth/Meta-Llama-3.1-8B-bnb-4bit
跑这个看看,量化的5.7GB

unsloth/Meta-Llama-3.1-70B-bnb-4bit
这个很大,40GB,感觉吐字不会太快

3 个赞

我觉得还行,正常聊天没什么问题,并没有太离谱

2 个赞

只要内存够,只是慢一点

2 个赞

集显跑,是准备 10 s/token 吗 :laughing:

1 个赞

前排,学习一下

1 个赞

试试qwen2-0.5b,iPhone也能跑,性能要求不高

1 个赞

可以看看这个 intel 的项目GitHub - intel-analytics/ipex-llm: Accelerate local LLM inference and finetuning (LLaMA, Mistral, ChatGLM, Qwen, Baichuan, Mixtral, Gemma, Phi, MiniCPM, etc.) on Intel CPU and GPU (e.g., local PC with iGPU, discrete GPU such as Arc, Flex and Max); seamlessly integrate with llama.cpp, Ollama, HuggingFace, LangChain, LlamaIndex, GraphRAG, DeepSpeed, vLLM, FastChat, Axolotl, etc. ,我使用我的 12th i9 跑百川 13B 非常快。你可以下载最新的 relese 来玩玩,里面提供了一个简易的 demo,但是有些模型可能需要改下终结符来适配

3 个赞

From 快问快答 to 开发调优

1 个赞