如标题,求佬推荐ollama可以做图片识别和分析的模型~~
另外有个不情之请,为了保三级,能请大佬们顺便帮我点个赞不(死不要脸) ![]()
如标题,求佬推荐ollama可以做图片识别和分析的模型~~
另外有个不情之请,为了保三级,能请大佬们顺便帮我点个赞不(死不要脸) ![]()
目前Ollama主要还是着眼文本生成和大语言模型的运行,并不直接支持图片识别以及或计算机视觉模型
好吧,我下了网上推荐的几个模型,貌似都不太行。。。Llama 3.2-Vision;MiniCPM-V 2.6 Vision;MoonDream2和LLaVA 7B
你要上官网找支持vision的模型,然后ollama pull 模型就可以使用了,我很早前用过,是可以使用,没有问题的
有在陆续支持的,跑过 gemma,可以做图片理解的
qwen2.5vl么?好的好的,马上去试试
我想要类似ocr的方式,就是只给我回复图片的文字,不需要他去理解~
比如ds,貌似ollama就没有可以识别的
实际使用中不太好,我本来想省成本,用本地的ollama图片和图形识别,效果都不行
一样的,我只是举个支持视觉的例子
一样的,你的提示词写好就行的
可惜当前还不能支持gemma3n
好的,我先下个模型试试~~~
这类场景,我们这边是通过ocr识别后在结合AI实现需求的。
ocr识别出错,然后再让ai进行文字改正?
你说的是多模态大模型,这个需要看你的使用场景,如果可以用线上API就书生大模型或者qwen2.5-vl,如果要纯本地,应该是没有令你满意的识别模型了(除非你能部署大参数的多模态模型比如qwen2.5-vl-72b),小参数多模态模型识别的效果一言难尽(除非特定场景微调?)
Qwen2.5-VL
如果配置够,Llama 4 也可以
qwen2.5vl做OCR挺好的
Ollama 已经支持 Qwen2.5-VL 了,Qwen2.5-VL 的图片识别还是不错的
配置够的话 Llama 4 也可以试试