o3和o4-mini处理不了扫描版的pdf，但是gemini可以

jcc · 2025 年6 月 24 日 00:24

谷歌还是有实力的啊

用ai处理扫描版的pdf没有别的省事的方案了吗？

只有谷歌官网了吗？各家的api有能处理的吗？

handsome · 2025 年6 月 24 日 00:32

怎么会处理不了？看看

eliya · 2025 年6 月 24 日 00:34

Gemini是最强的多模态模型，一个模型集成多种能力。

Uiharu_Kazari · 2025 年6 月 24 日 00:38

能原生处理复杂PDF的大模型也就Gemini了吧？

jcc · 2025 年6 月 24 日 00:39

就是把扫描版的pdf传给o4-mini，让他总结一下

结果，它调用了python提取里面的文字，然后提取之后告诉我，里面都是图片内容，没有文字。总结不了

关键是，这个pdf就3页

交给gemini2.5 flash之后，它就是正常处理的

910417099 · 2025 年6 月 24 日 00:40

降智了吧

Uiharu_Kazari · 2025 年6 月 24 日 00:40

这个情况差不多就是希望你不如直接丢图片让模型用视觉处理能力处理呢！

jcc · 2025 年6 月 24 日 00:41

你是说o3它也会逐页的当成图片处理？还是会调用ocr工具？

jcc · 2025 年6 月 24 日 00:42

都用了官网了，就是希望省事一把梭，毕竟官网集成了一堆工具

cpcheve · 2025 年6 月 24 日 00:50

处理pdf都算是一种工具能力吧，，也许o4mini不用这个工具了

admini · 2025 年6 月 24 日 00:53

gemini yyds。

xibalama · 2025 年6 月 24 日 03:06

2.5flash太强了

rencc · 2025 年6 月 24 日 03:29

如果你是开发者，刚好这两天测试了各个多模态模型和国内各大厂的ocr能力，直接说结论：腾讯云的OCR，里面有个OCR多模态的类型，识别扫描版+手写日期的效果很好，你可以去官网体验下:https://ocrdemo.cloud.tencent.com/

jcc · 2025 年6 月 24 日 03:34

腾讯这个0.06元每次，一个100页的pdf要6块钱，还要再把结果交给llm去处理

gemini的话直接一把梭确实强

komorebi · 2025 年6 月 24 日 05:53

Gemini处理PDF的能力

Gemini官网说PDF是调用Gemini的视觉能力，所以才那么强

但是需要注意它在面对包含中文内容图片时，如果文字没有摆正，很容易出现错误，所以PDF中避免出现翻转的内容

相关API

我有分享一个ai studio的免费key中转api（转为openai格式），增加了上传PDF的功能（也是不大于20MB），支持搜索模型（模型增加:search后缀）

原项目没怎么更新，我就fork下来自己改了点，想自己部署的话用deno部署，其他代码我也没有更改(只更改了src/worker.mjs)

【插件分享】AI Anywhere，实现AI全局调用！

AI Studio（Google免费提供Gemini，推荐）

访问https://aistudio.google.com/apikey申请你的API密钥

在Anywhere应用中填入URL，使用gemini官方urlhttps://generativelanguage.googleapis.com/v1beta/openai或者使用作者提供的中转接口https://gemini-oai.001412.xyz/v1

在Anywhere应用中填入KEY：你的密钥

搜索模式使用：复制一个存在的模型名称（从API获取模型，选择一个对话模型，如gemini-2.5-flash-preview-05-20），点击手动添加，将模型名称粘贴并增加":search"后缀，例如（gemini-2.5-flash-preview-05-20:search）

中转平台使用项目：GitHub - Komorebi-yaodong/openai-gemini: Gemini ➜ OpenAI API proxy. Serverless! （直接连接仓库，未进行代码更改，可以通过分析仓库代码进行安全分析，安全提示：当你使用他人的中转API时，他人有能力更改中转API代码实现读取你使用的密钥的，请鉴别使用）

changhuanxi · 2025 年6 月 24 日 06:03

不知道能否处理古籍竖版排版中文正体字

话题		回复	浏览量
如何把一整个PDF的论文发给AI？资源荟萃人工智能 , 快问快答	25	935	2025 年4 月 7 日
Gemini API PDF 原理解析开发调优人工智能	24	1133	2025 年12 月 1 日
Gemini的openai兼容端点不支持文件上传吗？开发调优快问快答	6	216	2025 年6 月 24 日
现在有什么多模态模型对PDF文件的支持水平很好？搞七捻三人工智能 , 快问快答	22	310	2025 年2 月 22 日
AMC支持调用Gemini API原生功能生成PDF文件，PDF生成到打印三分钟搞定开发调优人工智能	18	496	2025 年12 月 7 日

o3和o4-mini处理不了扫描版的pdf，但是gemini可以

Gemini处理PDF的能力

相关API

相关话题