问一下,为什么除了gemini外,模型都不支持默认传入pdf进行处理呀?

如题,发现多模态模型最多也就到支持图片或者视频,不支持传入pdf进行识别处理。是因为什么呀?

2 个赞

gemini是原生多模态,其他的做不到呗

1 个赞

啊?支持的吧?gpt啊claude

感觉也不至于呀,gemini领先很多?感觉这个功能还挺实用的

google 家大业大呗,除微软 office 外极少数能提供云办公套件的,gemini 志在全模态,文本文件图片视频音频,都要往里嗦

其他一般是支持 pdf 解析,然后做内容嵌入,比如 kimi

1 个赞

模型是解析不了 pdf 的, gemini 应该内置了 pdf 解析的工具,几乎都是这么干

1 个赞

行吧,get了。要是多模态都能原生支持pdf能省很多事情,ocr的能力又要单独验证,厂商还贼多,良莠不齐,多一步ocr,流程耗时也要增加 :smiling_face_with_tear:

确实是这样的,遇到大面积图片、横版表格或者扫描版 pdf 就很难处理

1 个赞

多模态谷歌就是领先很多啊

1 个赞

是的,现在用paddle ocr vl做替代,但是一加上,整体速度就慢了至少5s,效果还没gemini原生好

1 个赞

感受到了