有什么好的方式将pdf转为md

有什么好的方式将pdf转为md
目前用过 Mineru
但是对于复杂的表格处理的格式是乱的,而且图片是引用的方式,dify和ragflow不会处理这些图片。
有没有什么其他的好方法呢。

不知道使用有视觉的模型进行处理会不会好一些呢。

3 个赞

用Gemini2.5试试吧

这种复杂的格式间转换基本上都不太能完美,还是得你手动慢慢调

1 个赞

试试部署一个小红书的dots?

mineu

使用MinerU

Mineru确实挺好的,这个已经可以说是首选答案了,但是还是对复杂表格的处理不尽如人意,而且图片的信息是通过链接引用的,rag系统会让图片信息丢失,不知道有没有好的方法处理。

md的图片本来就是链接吧 :bili_102:如果要rag的话pdf是不是本身就更好 :bili_102:

因为直接rag pdf中的表格是乱的 :rofl:
转md表格能好一点,但是没图片了。
属于是一根筋变两头堵了

要不要试试这个,微软的工具:
MarkItDown currently supports the conversion from:

  • PDF
  • PowerPoint
  • Word
  • Excel
  • Images (EXIF metadata and OCR)
  • Audio (EXIF metadata and speech transcription)
  • HTML
  • Text-based formats (CSV, JSON, XML)
  • ZIP files (iterates over contents)
  • Youtube URLs
  • EPubs
  • … and more!

markitdown

如果pdf里面不是图片格式的,可以提取出内容以伪html格式生成。转换为md需要自己写脚本

这个主打的是all in one,性能很一般

不大行,都是根据场景定制化。

两份都传 :bili_038:扬长避短

很难的,那表格分页的情况就更糟糕了

我这儿的pdf不光有断头表,还有表格套表格,表格内图片 :face_with_spiral_eyes:

付费,doc2x

能否具体说说,之前玩了一下感觉还不错

这个应该是跟着2023年ChatGPT那波一起火的吧,传闻中OpenAI就是拿这个把各种数据洗成md,然后训练的。所以一直以为这个方案还不错。哪还有其他更好的方案吗?对这个领域没太关注

这个是去除所有格式的。都不知道他们怎么好意思说这是转md的工具,分明是转txt

1 个赞