请问下大家有什么平台转PDF为markdown最好用?

用过minerU和paddleOCR,多多少少会有些错误,尤其是有的PDF是可以复制文字那种,大模型还是强制OCR,请问各位有没有能高效提取PDF文字的工具?

olmOCR2-7b 这个还不错

你是用来给大语言模型搞知识库用吗,我觉得minerU-2.5模型不错吧,可能你没选最新模型

好的,感谢, :tieba_036:miner-U我都是直接用的官网的,没专门找2.5这个,我去找找

docling

datalab可以

这个效果对比贴,佬友可以参考一下

目前我用mineU来转markdown,还挺好用的,但是有些表格的转换会有点问题需要手动微调

可以试试docling

我用mineru。。。做电子书来听

这个在线转的速度还可以PDF转Markdown工具 | 在线将PDF文件转换为Markdown格式