PDF转Markdown的实际好处是什么?

佬友们好,我有一个疑问,就是使用MinerU等PDF转markdown工具,将一篇PDF转换为markdown究竟有什么好处?

  • 如果是单纯为了方便复制粘贴内容,那局部的复制粘贴大概不需要转换整篇PDF吧?该复制粘贴的时候直接复制粘贴就好了?
  • 如果是为了便于翻译,现在也有很多翻译软件可以在保持原PDF排版的情况下进行翻译,纯文本的markdown相对于排版好的PDF而言可能更加不适合专注阅读吧?

另外听到一种说法,就是如果想把论文发给AI,让它进行阅读总结,用MinerU这种PDF转markdown工具转换后直接发送纯文本要比直接发送PDF文件本身效果更好,请问佬友们这种说法对吗?不知道AI现在是如何阅读PDF的?

7 个赞

直接读取文本 + 部分 OCR

1 个赞

喂给大模型更方便?
大模型图片识别不一定准?

LLM友好 直接发送PDF排版可能混乱

对,图片识别也是个问题。如果按照楼上佬友的说法是文字识别+OCR,那假如PDF中有较多的图片,AI对PDF的理解可能就会受到影响:thinking:
这么说的话比较好的方案应该是把PDF通过MinerU转换成markdown+附件图片,然后把这个文件夹做成知识库让AI根据知识库回答吗?

不知道一般顶刊上那种有严格排版要求的论文会不会也有这种问题:thinking:

主要是看用途,如果是作为大模型前置任务那好处是很多的。对于大模型来说,普通用户最重要的是保证输入提问质量,模型对输入的处理会进行分词和embeding,而embeding中会引入分词后token的绝对位置,也就是说词序是会直接影响模型对输出的预测的,所以高质量的输入才能提供高质量的输出。回到PDF的问题,PDF直接输入最大的问题就是会导致词序错乱,另外还有一些分块等问题,而markdown这种严格顺序的文件则有利于模型处理。
另外哪怕是直接使用在线平台(例如chatgpt)传入pdf,也大概率是通过一定的算法先转成纯文本然后传入模型的,一般不会直接利用模型对pdf内容进行对齐(绝对不会!)所以这个转换算法就至关重要。而在线平台为了满足性能和速率要求,一般转换质量参差不齐,不如自行搭建或使用SOTA的方法进行转换。

14 个赞

应该还要结合嵌入和重排模型吧

会,排版后的目的是为了视觉合理,但是对于计算机来说需要切分的。没有问题的是投稿时用的tex文档,这个是有严格线性关系的

2 个赞

懂了,纯文本这种线性排布的格式相对PDF更加利于AI阅读,谢谢佬友们

有序序列或者时序序列是很重要的

有的PDF可以直接复制粘贴内容,这种合适建立本地知识库,而有的不行;

PDF转Markdown(以下简称md)有以下几个优点:

1、更好编辑,md是纯文本格式,用任意文本编辑器都可以进行编辑,而PDF则需要专用软件,且有些文档是无法编辑的

2、跨平台兼容性好,md文件在各种社保和操作系统上都能显示一致和便于编辑

3、文件体积,md文件通常比PDF小得多,更容易存储和传输

4、结构化,md的文档结构更加清晰明了,便于后续处理和分析

5、灵活转化,md可以轻松转化为html、pdf、word等格式文档

还有很多优点,比如md更容易被搜索引擎搜索,md语法简单易学等等。

md作为知识库喂给大模型更容易被模型解析,效果也更好,我在Dify、RAGFlow中都已做过实践

4 个赞

个人觉得,主要是确保顺序正确+语句完整。对比尝试过在notebookLM直接传pdf和转md再传的结果,有一些类似于“页码页眉页脚”的地方在直接上传pdf时会被错误的嵌入正文中,会影响回答结果。佬友说的影响embedding也是类似的情况。

5 个赞

大佬还有个问题,就是关于上面楼层提到,AI对PDF图片的理解问题,您觉得比较好的方案是什么呢?直接发送图片的话很多客户端会有只能发送单张图片的限制,直接和markdown一起放在知识库中的话也不知道AI是否就可以理解图片中的内容,以及把图片内容和论文文本结合起来:thinking:

1 个赞

并不能,“理解”图片本身是需要模型能力的,一种简单的解释是在训练过程中把图片的低纬特征与语义进行对齐训练才能让模型“理解”图片,也就是说其实是一种多模态表示能力,而在RAG中首先要确保检索过程是多模态的,是已经通过语义对齐的,比如常用的做法参考文搜图,通过clip获取图片信息然后存储起来,进行RAG参考的时候本质是参考的根据图片获得的文字而不是图片本身

1 个赞

懂了,谢谢佬友!看来还是先专注于文本,如果有非常重要或者理解不了的图片的话直接发给多模态模型效果更好一些!

1 个赞

大佬,是不是可以理解为,向chatgpt的客户端传一个pdf,chatgpt客户端会先转成文字+图片,再输入给大模型来分词。

那这样的话,给大模型的输入是

直接传pdf:文字内容+pdf所有的图片
先转md再发给大模型(假设最多传一张图片):文字内容+1张图片

如果pdf里大量图片蕴含很多信息的话,是否直接传pdf反而效果更好呢?

1 个赞

实话实说,不能确定,但这是最简单的方案。主要open AI没有开源,我们只能靠猜

听说gemini2.5pro的pdf识别能力很强,我测试过让gemini2.5pro把pdf转成md,质量还是可以的,但是不如最好的pdf2md工具