Gemini API PDF 原理解析



26 个赞

学习,这个是从哪里得到的原理

来源为Google的文档,用Gemini 生成可视化页面方便理解

官网会受到只能看10张图的限制吗

官网的不如API版本,应该是有限制的,限制是多少不知道

官网直接发图只能发10张,pdf不知道,没限制貌似

墨佬真的是Gemini专家了

1 个赞

我觉得官网发送文件的时候,上下文的引用逻辑不一样

1 个赞

不知道 3 Pro 有没有升级

这不就是deepseek ocr么

差的多了 :sweat_smile:
不过你要说流程看似相同也不是不行

DeepSeek OCR只是一个OCR模型,语义理解能力非常差

干货 :+1:,学习了


?

你试试API

体感上长文本转换为pdf发送,也比直接发送更省token(也更方便)

有点反直觉了,我还特地把笔记冲pdf转换成Markdown喂给哈基米,没想到效果没有直接喂pdf好么

总结就一句话,gemini是把pdf当做图片处理的

有点好奇,为啥网页上传PDF时候,他索引的特别准确,不管是多大粒度

之前官网还是 2.5 pro 的时候试过,最多上传 10 个 PDF,AI studio 和 API 就没这限制

1 个赞