Gemini API PDF 原理解析

yeahhe · 2025 年11 月 24 日 11:09

KGLongWang · 2025 年11 月 24 日 11:10

学习，这个是从哪里得到的原理

yeahhe · 2025 年11 月 24 日 11:11

来源为Google的文档，用Gemini 生成可视化页面方便理解

lueluelue · 2025 年11 月 24 日 11:16

官网会受到只能看10张图的限制吗

yeahhe · 2025 年11 月 24 日 11:18

官网的不如API版本，应该是有限制的，限制是多少不知道

lueluelue · 2025 年11 月 24 日 11:19

官网直接发图只能发10张，pdf不知道，没限制貌似

fengchris · 2025 年11 月 24 日 11:22

墨佬真的是Gemini专家了

yeahhe · 2025 年11 月 24 日 11:27

我觉得官网发送文件的时候，上下文的引用逻辑不一样

apparition · 2025 年11 月 24 日 11:29

不知道 3 Pro 有没有升级

kianqunki · 2025 年11 月 24 日 11:31

这不就是deepseek ocr么

apparition · 2025 年11 月 24 日 11:31

差的多了
不过你要说流程看似相同也不是不行

yeahhe · 2025 年11 月 24 日 11:32

DeepSeek OCR只是一个OCR模型，语义理解能力非常差

yqyan · 2025 年11 月 24 日 13:07

干货，学习了

wangdada · 2025 年11 月 24 日 14:13

?

yeahhe · 2025 年11 月 24 日 14:30

你试试API

Gibbersto1977 · 2025 年11 月 24 日 15:00

体感上长文本转换为pdf发送，也比直接发送更省token（也更方便）

jqbdyhz · 2025 年11 月 25 日 16:38

有点反直觉了，我还特地把笔记冲pdf转换成Markdown喂给哈基米，没想到效果没有直接喂pdf好么

cat3399 · 2025 年11 月 25 日 16:53

总结就一句话，gemini是把pdf当做图片处理的

xiaotong1 · 2025 年11 月 25 日 17:45

有点好奇，为啥网页上传PDF时候，他索引的特别准确，不管是多大粒度

TUM · 2025 年11 月 25 日 17:49

之前官网还是 2.5 pro 的时候试过，最多上传 10 个 PDF，AI studio 和 API 就没这限制

话题		回复	浏览量
Google AI Studio的pdf解析能力堪称一绝！开发调优人工智能	6	262	2026 年2 月 28 日
如何把一整个PDF的论文发给AI？资源荟萃人工智能 , 快问快答	25	935	2025 年4 月 7 日
o3和o4-mini处理不了扫描版的pdf，但是gemini可以开发调优人工智能 , 快问快答 , 纯水	15	460	2025 年6 月 24 日
现在有什么多模态模型对PDF文件的支持水平很好？搞七捻三人工智能 , 快问快答	22	310	2025 年2 月 22 日
AMC支持调用Gemini API原生功能生成PDF文件，PDF生成到打印三分钟搞定开发调优人工智能	18	496	2025 年12 月 7 日