用过minerU和paddleOCR,多多少少会有些错误,尤其是有的PDF是可以复制文字那种,大模型还是强制OCR,请问各位有没有能高效提取PDF文字的工具?
olmOCR2-7b 这个还不错
你是用来给大语言模型搞知识库用吗,我觉得minerU-2.5模型不错吧,可能你没选最新模型
好的,感谢,
miner-U我都是直接用的官网的,没专门找2.5这个,我去找找
docling
datalab可以
这个效果对比贴,佬友可以参考一下
目前我用mineU来转markdown,还挺好用的,但是有些表格的转换会有点问题需要手动微调
可以试试docling
我用mineru。。。做电子书来听
这个在线转的速度还可以PDF转Markdown工具 | 在线将PDF文件转换为Markdown格式