o3和o4-mini处理不了扫描版的pdf,但是gemini可以

谷歌还是有实力的啊

用ai处理扫描版的pdf没有别的省事的方案了吗?

只有谷歌官网了吗?各家的api有能处理的吗?

3 个赞

怎么会处理不了?看看

Gemini是最强的多模态模型,一个模型集成多种能力。

3 个赞


能原生处理复杂PDF的大模型也就Gemini了吧?

1 个赞

就是把扫描版的pdf传给o4-mini,让他总结一下

结果,它调用了python提取里面的文字,然后提取之后告诉我,里面都是图片内容,没有文字。总结不了

关键是,这个pdf就3页

交给gemini2.5 flash之后,它就是正常处理的

降智了吧

这个情况差不多就是希望你不如直接丢图片让模型用视觉处理能力处理呢!

你是说o3它也会逐页的当成图片处理?还是会调用ocr工具?

都用了官网了,就是希望省事一把梭,毕竟官网集成了一堆工具

处理pdf都算是一种工具能力吧,,也许o4mini不用这个工具了

gemini yyds。

2.5flash太强了

如果你是开发者,刚好这两天测试了各个多模态模型和国内各大厂的ocr能力,直接说结论:腾讯云的OCR,里面有个OCR多模态的类型,识别扫描版+手写日期的效果很好,你可以去官网体验下:https://ocrdemo.cloud.tencent.com/

1 个赞

腾讯这个0.06元每次,一个100页的pdf要6块钱,还要再把结果交给llm去处理

gemini的话直接一把梭确实强

1 个赞

Gemini处理PDF的能力

Gemini官网说PDF是调用Gemini的视觉能力,所以才那么强

但是需要注意它在面对包含中文内容图片时,如果文字没有摆正,很容易出现错误,所以PDF中避免出现翻转的内容


相关API

我有分享一个ai studio的免费key中转api(转为openai格式),增加了上传PDF的功能(也是不大于20MB),支持搜索模型(模型增加:search后缀)

原项目没怎么更新,我就fork下来自己改了点,想自己部署的话用deno部署,其他代码我也没有更改(只更改了src/worker.mjs) :joy:

3 个赞

不知道能否处理古籍 竖版排版中文正体字:grin: