现在怎么处理pdf文件呢

想要解析pdf文件,将文字,表格 图片 提取出来 图片交给大模型解析,然后将文字描述替换拼接到提取的文字中,佬友 现在有什么快捷,准确的办法来实现

3 个赞

PDF用MinerU转Markdown

2 个赞

把pdf转换成word文档

GPT会自己解析的

如果是交给大模型解析,gemini支持pdf的

好东西试试看
昨天还在mac本地搓一个带OCR的mcp直接帮codex去看文档

我试试 我都是手动提取 然后将图片提交给大模型,最后拼接的时候 现在的包处理图片 位置提取的不准

是有个需求 需要先解析文件 然后再喂大模型api

MinerU也有api免费额度,可以试一下

嗯嗯 我去试试看

Adobe Acrobat里面自带OCR,然后把OCR给AI通过上下文修复

Claude code不是有个skill是操作pdf的,可以用这个skill试下

可以用mineru提取出来,然后把图片的位置替换为对应的图片描述,gemini可以直接解析,我猜测他们应该也是对pdf做了解析,将其转为了文本;或者把pdf为每一页提取为一张图片给LLM进行处理

pymupdf 我是使用这个库,然后把图片给大模型解析,最后再替换 但时候这个库处理表格 解析的时候有点问题,直接按照文字提取的话 就看不出这个是表格数据了

mineru会把表格解析成html的格式,效果还可以,但是对于一些复杂的表格,也不能保证百分百正确,你可以先大概测试一下,看一下表格的解析是否有问题,如果会出现解析错误的情况的话,可能得通过多种方式对表格分别进行解析,比如分别使用mineru、paddle,gemini等对这个表格进行解析,然后在保证结果都相同的情况下确认这个表格是被正确解析的。

你直接去对mineru解析出来的中间结果进行处理,最后把处理的结果全部拼接起来,不要直接在他输出的md文档上处理。

1 个赞