如题,发现多模态模型最多也就到支持图片或者视频,不支持传入pdf进行识别处理。是因为什么呀?
2 个赞
gemini是原生多模态,其他的做不到呗
1 个赞
啊?支持的吧?gpt啊claude
感觉也不至于呀,gemini领先很多?感觉这个功能还挺实用的
1 个赞
模型是解析不了 pdf 的, gemini 应该内置了 pdf 解析的工具,几乎都是这么干
1 个赞
行吧,get了。要是多模态都能原生支持pdf能省很多事情,ocr的能力又要单独验证,厂商还贼多,良莠不齐,多一步ocr,流程耗时也要增加 ![]()
确实是这样的,遇到大面积图片、横版表格或者扫描版 pdf 就很难处理
1 个赞
多模态谷歌就是领先很多啊
1 个赞
是的,现在用paddle ocr vl做替代,但是一加上,整体速度就慢了至少5s,效果还没gemini原生好
1 个赞
感受到了
