请教大佬们，ollama有没有好的图片识别模型推荐

serenalee · 2025 年7 月 17 日 08:27

如标题，求佬推荐ollama可以做图片识别和分析的模型～～

另外有个不情之请，为了保三级，能请大佬们顺便帮我点个赞不（死不要脸）

weakchen · 2025 年7 月 17 日 08:31

目前Ollama主要还是着眼文本生成和大语言模型的运行，并不直接支持图片识别以及或计算机视觉模型

serenalee · 2025 年7 月 17 日 08:32

好吧，我下了网上推荐的几个模型，貌似都不太行。。。Llama 3.2-Vision；MiniCPM-V 2.6 Vision；MoonDream2和LLaVA 7B

pigracing · 2025 年7 月 17 日 08:36

有的啊，可以的

pigracing · 2025 年7 月 17 日 08:37

你要上官网找支持vision的模型，然后ollama pull 模型就可以使用了，我很早前用过,是可以使用，没有问题的

zhong_little · 2025 年7 月 17 日 08:37

有在陆续支持的，跑过 gemma，可以做图片理解的

serenalee · 2025 年7 月 17 日 08:37

qwen2.5vl么？好的好的，马上去试试

serenalee · 2025 年7 月 17 日 08:38

我想要类似ocr的方式，就是只给我回复图片的文字，不需要他去理解～

serenalee · 2025 年7 月 17 日 08:38

比如ds，貌似ollama就没有可以识别的

weakchen · 2025 年7 月 17 日 08:40

实际使用中不太好，我本来想省成本，用本地的ollama图片和图形识别，效果都不行

zhong_little · 2025 年7 月 17 日 08:40

一样的，我只是举个支持视觉的例子

pigracing · 2025 年7 月 17 日 08:41

一样的，你的提示词写好就行的

pigracing · 2025 年7 月 17 日 08:42

可惜当前还不能支持gemma3n

serenalee · 2025 年7 月 17 日 08:44

好的，我先下个模型试试～～～

Ghosts · 2025 年7 月 17 日 08:45

这类场景，我们这边是通过ocr识别后在结合AI实现需求的。

serenalee · 2025 年7 月 17 日 08:46

ocr识别出错，然后再让ai进行文字改正？

jcjrobert · 2025 年7 月 17 日 08:49

你说的是多模态大模型，这个需要看你的使用场景，如果可以用线上API就书生大模型或者qwen2.5-vl，如果要纯本地，应该是没有令你满意的识别模型了（除非你能部署大参数的多模态模型比如qwen2.5-vl-72b），小参数多模态模型识别的效果一言难尽（除非特定场景微调？）

yqyan · 2025 年7 月 17 日 08:49

Qwen2.5-VL
如果配置够，Llama 4 也可以

fua · 2025 年7 月 17 日 08:50

qwen2.5vl做OCR挺好的

yqyan · 2025 年7 月 17 日 08:51

Ollama 已经支持 Qwen2.5-VL 了，Qwen2.5-VL 的图片识别还是不错的
配置够的话 Llama 4 也可以试试

话题		回复	浏览量
qwen3.5的视觉能力如何开发调优人工智能	55	677	2026 年3 月 10 日
他来了,他来了本地跑模型他来了资源荟萃 ChatGPT , 人工智能	35	3572	2024 年12 月 9 日
【Ollama】 Llama3来了，用Linux Ollama线下部署你自己的大模型羊驼资源荟萃 Llama3 , 人工智能	61	5518	2024 年11 月 12 日
3分钟，拥有你的本地大模型-Ollama！【Windows篇小白向】资源荟萃人工智能	79	6144	2024 年11 月 14 日
请问，OCR的API，最好免费的，主要用于识别数字什么的，有啥推荐吗？谢谢。开发调优人工智能 , 软件开发	91	1511	2025 年11 月 26 日