问一下，为什么除了gemini外，模型都不支持默认传入pdf进行处理呀？

_innoc · 2026 年1 月 27 日 08:43

如题，发现多模态模型最多也就到支持图片或者视频，不支持传入pdf进行识别处理。是因为什么呀？

omoomo2333 · 2026 年1 月 27 日 08:45

gemini是原生多模态，其他的做不到呗

handsome · 2026 年1 月 27 日 08:52

啊？支持的吧？gpt啊claude

_innoc · 2026 年1 月 27 日 09:11

感觉也不至于呀，gemini领先很多？感觉这个功能还挺实用的

zhong_little · 2026 年1 月 27 日 09:17

google 家大业大呗，除微软 office 外极少数能提供云办公套件的，gemini 志在全模态，文本文件图片视频音频，都要往里嗦

其他一般是支持 pdf 解析，然后做内容嵌入，比如 kimi

woshimahuateng · 2026 年1 月 27 日 09:18

模型是解析不了 pdf 的， gemini 应该内置了 pdf 解析的工具，几乎都是这么干

_innoc · 2026 年1 月 27 日 09:25

行吧，get了。要是多模态都能原生支持pdf能省很多事情，ocr的能力又要单独验证，厂商还贼多，良莠不齐，多一步ocr，流程耗时也要增加

zhong_little · 2026 年1 月 27 日 09:27

确实是这样的，遇到大面积图片、横版表格或者扫描版 pdf 就很难处理

omoomo2333 · 2026 年1 月 27 日 09:36

多模态谷歌就是领先很多啊

_innoc · 2026 年1 月 27 日 09:50

是的，现在用paddle ocr vl做替代，但是一加上，整体速度就慢了至少5s，效果还没gemini原生好

_innoc · 2026 年1 月 27 日 09:51

感受到了

话题		回复	浏览量
现在有什么多模态模型对PDF文件的支持水平很好？搞七捻三人工智能 , 快问快答	22	310	2025 年2 月 22 日
Google AI Studio的pdf解析能力堪称一绝！开发调优人工智能	6	263	2026 年2 月 28 日
Gemini API PDF 原理解析开发调优人工智能	24	1134	2025 年12 月 1 日
o3和o4-mini处理不了扫描版的pdf，但是gemini可以开发调优人工智能 , 快问快答 , 纯水	15	460	2025 年6 月 24 日
如何把一整个PDF的论文发给AI？资源荟萃人工智能 , 快问快答	25	937	2025 年4 月 7 日