现在有什么多模态模型对PDF文件的支持水平很好？

PurpleSword · 2025 年1 月 22 日 14:57

我有一些PDF，想要让模型先帮我总结一下PDF的内容。我还会根据需要询问对应章节的内容。但是我的PDF中都含有大量的图表内容，比如各种柱状图和折线图。要分析这种图表应该就只能模型原生支持多模态了。

4396 · 2025 年1 月 22 日 14:59

目前对于图表也基本上是ocr比较多
想真正意义上的理解图表，应该还没有吧

zhong_little · 2025 年1 月 22 日 15:01

gemini 支持原生 pdf

PurpleSword · 2025 年1 月 22 日 15:03

我现在就在用Gemini，但是版本众多，搞不清楚哪个读PDF效果比较好

kingd · 2025 年1 月 22 日 15:05

谷歌模型，能力最强的就是1206和thinking

PurpleSword · 2025 年1 月 22 日 15:05

我试了o1实际上也可以识图，不是完全的OCR，但是现在官方不支持PDF就很难顶。Gemini版本众多也可以读

PurpleSword · 2025 年1 月 22 日 15:06

拿o1识图是不是有点浪费了

4396 · 2025 年1 月 22 日 15:07

但想做知识库问答，得走RAG 图表就不行了
纯模型问答，上下文爆炸不一定顶得住

PurpleSword · 2025 年1 月 22 日 15:15

也是，我之前用Gemini问十张左右的原始图像，上下文长度就炸掉了，只能新开会话。不过今天看见个通义的新玩意， 多模态Embedding，不知道有没有希望解决我的问题。

PurpleSword · 2025 年1 月 22 日 15:20

昨天think又更了一版，感觉效果还行，还没来得及和1206对比

GreatMOLA · 2025 年1 月 22 日 15:21

Gemini 据说可以直接读取 PDF 的内容，但是用下来觉得没领先太多。

国内的我个人觉得 Kimi 的网页端还是不错的。

PurpleSword · 2025 年1 月 22 日 15:26

Gemini是可以，我回头试试kimi吧，希望是模型本身支持

GreatMOLA · 2025 年1 月 22 日 15:27

Kimi 具体是怎样实现的我不太清楚，不过实际使用下来觉得效果还算可以，佬友可以试试。

PurpleSword · 2025 年1 月 22 日 15:33

好的，因为今天我问了deepseek的官方，他们网页的PDF读取是用工具实现的，并不是模型本身支持

xiaolong2438 · 2025 年1 月 22 日 15:34

分析图表gemini-1.5-pro-latest够用了

PurpleSword · 2025 年1 月 22 日 15:35

这样的吗，我直接把1.5的都屏蔽了，一直在用think和1206

Qiner · 2025 年1 月 22 日 15:36

Gemini 也没支持 pdf 应该。。但 Google AI Studio 是一个比较完善的网页客户端，不止 pdf 语音视频都能直接处理。。（只是调用自家其他接口）

PurpleSword · 2025 年1 月 22 日 15:39

我在API直接调用，也是正常读的飞起，效果也还不错

Qiner · 2025 年1 月 22 日 15:42

图当然可以，发个 pdf 试试

PurpleSword · 2025 年1 月 22 日 15:44

PDF也支持，一时没找到需要读读图表内容，但是PDF的总结啥的都是可以的

话题		回复	浏览量
问一下，为什么除了gemini外，模型都不支持默认传入pdf进行处理呀？开发调优人工智能 , 快问快答	10	293	2026 年1 月 27 日
如何把一整个PDF的论文发给AI？资源荟萃人工智能 , 快问快答	25	935	2025 年4 月 7 日
有什么ai能够读取pdf并且能够提问搞七捻三快问快答	15	243	2025 年5 月 27 日
models/gemini-embedding-exp-03-07这个模型能用吗？开发调优人工智能 , 快问快答 , 纯水	23	386	2025 年6 月 10 日
Gemini API PDF 原理解析开发调优人工智能	24	1133	2025 年12 月 1 日