最近要给朋友建个论文知识库,需要把经管类的论文中的研究方法,研究目的,自变量等信息提炼出来,我只能想到把论文pdf传给不同的大模型,看看哪个提炼的好,但是gemini说这种方法不精确,特别是有表格的文章就可能提炼不准确。所以想请教下做学术的佬友们,有什么好的办法可以提炼这些信息?或者谁有比较成熟的知识库方案也请分享下,谢谢!
pdf转换word试试?
先用mineru提取出来再塞llm?
claude 可以直接 读 pdf,如果不能读,那你的上游掺水了
codex 应该也可以
有图表的 PDF,只有 Gemini 这一个模型可以选择,API 原生支持 PDF,视觉也是最强的
最强的还是哈基米模型直接多模态理解,或者还有其他的像 cheery studio 这样可以灌文件建知识库的
可以babeldoc读全文,然后文字发给LLM
我在网上看到的方案是基于Kimi K2.5的。我自己测试呢,用Gemini Pro肯定是能把大部分信息提取出来,但是还没试Gemini去提取表格的数据怎么样。回头我也找些带表格的文章看看提取效果。谢谢大家
Gemini给我的方案是说要把那个内容提取出来以后,去掉什么页眉、页脚、参考文献等信息。然后提取不同的内容呢,还需要说是从原文里头去切出对应的信息,然后把对应的段去做相应的一些总结。我先试试直接用大模型去提取,然后精度不够的话,后面再试试怎么在前面做这个数据的前置处理吧。
minerU吧 给gpt很容易逆向出token算法 然后批量调用就行了 他们不限制ip的 得到md之后 好点的ai提取你说的内容就很容易了(毕竟排版什么的大问题都解决完了)
你要有卡的话自己部署他们模型也可以
没卡啊,甚至没有gpu,只能靠api处理了。。
- 需要ocr和高质量文本层,这一步可以使用glm ocr这些,纯cpu,对表格信息质量不敏感,可以考虑abbyy
- 单纯的信息抽取,现在很多模型都可以胜任,不一定需要最好的
arxiv 可以提取tex文件,llm处理tex里面的表格效果还行
MinerU, Docling, Marker 这些都可以试试。
MinerU 还有免费在线 API 可以用,部署的话 VLM 模式通常也轻量且够用了。
minerU一定是最优解,可以处理好绝大多数表格和文字转成md,然后再交给gemini 3.0 flash处理就差不多了
如果你还希望处理图像,那就得考虑原生多模态模型,低成本的kimi qwen-plus,高成本的gemini
pdf直接多模态也可以 就是图片分页可能会丢失跨页数据。。
用文本提取反而可能丢失东西
minuer吧,先转换成文字内容,让AI能看懂
同上先用 minerU 提取,再发给 LLM
谢谢大家的回复,我对他们经管类的论文没啥概念,我猜也就有些表格,图片应该不多?我回去找几篇内容复杂的论文,分别试试直接用Gemini pro/qwen和mineru + llm试试
