我有一些PDF,想要让模型先帮我总结一下PDF的内容。我还会根据需要询问对应章节的内容。但是我的PDF中都含有大量的图表内容,比如各种柱状图和折线图。要分析这种图表应该就只能模型原生支持多模态了。
目前对于图表 也基本上是ocr比较多
想真正意义上的理解图表,应该还没有吧
gemini 支持原生 pdf
我现在就在用Gemini,但是版本众多,搞不清楚哪个读PDF效果比较好
谷歌模型,能力最强的就是1206和thinking
我试了o1实际上也可以识图,不是完全的OCR,但是现在官方不支持PDF就很难顶。Gemini版本众多也可以读
但想做知识库问答,得走RAG 图表就不行了
纯模型问答,上下文爆炸 不一定顶得住
1 个赞
也是,我之前用Gemini问十张左右的原始图像,上下文长度就炸掉了,只能新开会话。不过今天看见个通义的新玩意, 多模态Embedding,不知道有没有希望解决我的问题。
昨天think又更了一版,感觉效果还行,还没来得及和1206对比
Gemini 据说可以直接读取 PDF 的内容,但是用下来觉得没领先太多。
国内的我个人觉得 Kimi 的网页端还是不错的。
Gemini是可以,我回头试试kimi吧,希望是模型本身支持
Kimi 具体是怎样实现的我不太清楚,不过实际使用下来觉得效果还算可以,佬友可以试试。
好的,因为今天我问了deepseek的官方,他们网页的PDF读取是用工具实现的,并不是模型本身支持
分析图表gemini-1.5-pro-latest够用了
这样的吗,我直接把1.5的都屏蔽了,一直在用think和1206 ![]()
Gemini 也没支持 pdf 应该。。但 Google AI Studio 是一个比较完善的网页客户端,不止 pdf 语音视频都能直接处理。。(只是调用自家其他接口)
图当然可以,发个 pdf 试试
PDF也支持,一时没找到需要读读图表内容,但是PDF的总结啥的都是可以的

