请教各位佬友，如何准确提取学术论文pdf的信息

leexht8697 · 2026 年2 月 22 日 04:49

最近要给朋友建个论文知识库，需要把经管类的论文中的研究方法，研究目的，自变量等信息提炼出来，我只能想到把论文pdf传给不同的大模型，看看哪个提炼的好，但是gemini说这种方法不精确，特别是有表格的文章就可能提炼不准确。所以想请教下做学术的佬友们，有什么好的办法可以提炼这些信息？或者谁有比较成熟的知识库方案也请分享下，谢谢！

alalpha · 2026 年2 月 22 日 04:50

pdf转换word试试？

scarz · 2026 年2 月 22 日 04:52

先用mineru提取出来再塞llm？

epictus · 2026 年2 月 22 日 04:53

claude 可以直接读 pdf，如果不能读，那你的上游掺水了
codex 应该也可以

yeahhe · 2026 年2 月 22 日 04:57

有图表的 PDF，只有 Gemini 这一个模型可以选择，API 原生支持 PDF，视觉也是最强的

yuancjun · 2026 年2 月 22 日 04:57

试试 https://www.qianwen.com/read

zzzrayzzz · 2026 年2 月 22 日 04:58

最强的还是哈基米模型直接多模态理解，或者还有其他的像 cheery studio 这样可以灌文件建知识库的

ShadowVap · 2026 年2 月 22 日 05:02

可以babeldoc读全文，然后文字发给LLM

leexht8697 · 2026 年2 月 22 日 05:02

我在网上看到的方案是基于Kimi K2.5的。我自己测试呢，用Gemini Pro肯定是能把大部分信息提取出来,但是还没试Gemini去提取表格的数据怎么样。回头我也找些带表格的文章看看提取效果。谢谢大家

leexht8697 · 2026 年2 月 22 日 05:04

Gemini给我的方案是说要把那个内容提取出来以后，去掉什么页眉、页脚、参考文献等信息。然后提取不同的内容呢，还需要说是从原文里头去切出对应的信息，然后把对应的段去做相应的一些总结。我先试试直接用大模型去提取，然后精度不够的话，后面再试试怎么在前面做这个数据的前置处理吧。

koast18 · 2026 年2 月 22 日 05:04

minerU吧给gpt很容易逆向出token算法然后批量调用就行了他们不限制ip的得到md之后好点的ai提取你说的内容就很容易了（毕竟排版什么的大问题都解决完了）

你要有卡的话自己部署他们模型也可以

leexht8697 · 2026 年2 月 22 日 05:06

没卡啊，甚至没有gpu，只能靠api处理了。。

test121212 · 2026 年2 月 22 日 05:07

需要ocr和高质量文本层，这一步可以使用glm ocr这些，纯cpu，对表格信息质量不敏感，可以考虑abbyy
单纯的信息抽取，现在很多模型都可以胜任，不一定需要最好的

whdgmjshjsh · 2026 年2 月 22 日 05:11

arxiv 可以提取tex文件，llm处理tex里面的表格效果还行

SomeBottle · 2026 年2 月 22 日 05:17

MinerU, Docling, Marker 这些都可以试试。
MinerU 还有免费在线 API 可以用，部署的话 VLM 模式通常也轻量且够用了。

HLiny · 2026 年2 月 22 日 05:22

minerU一定是最优解，可以处理好绝大多数表格和文字转成md，然后再交给gemini 3.0 flash处理就差不多了
如果你还希望处理图像，那就得考虑原生多模态模型，低成本的kimi qwen-plus，高成本的gemini

blacksein · 2026 年2 月 22 日 05:24

pdf直接多模态也可以就是图片分页可能会丢失跨页数据。。
用文本提取反而可能丢失东西

violetreay · 2026 年2 月 22 日 05:24

minuer吧，先转换成文字内容，让AI能看懂

Xsc15926 · 2026 年2 月 22 日 05:27

同上先用 minerU 提取，再发给 LLM

leexht8697 · 2026 年2 月 22 日 05:39

谢谢大家的回复，我对他们经管类的论文没啥概念，我猜也就有些表格，图片应该不多？我回去找几篇内容复杂的论文，分别试试直接用Gemini pro/qwen和mineru + llm试试

话题		回复	浏览量
现在怎么处理pdf文件呢搞七捻三人工智能 , 快问快答	14	320	2026 年1 月 8 日
如何把一整个PDF的论文发给AI？资源荟萃人工智能 , 快问快答	25	935	2025 年4 月 7 日
有偿询问如何构建非标准化的文本信息提取？开发调优人工智能 , 软件开发	15	231	2025 年6 月 26 日
公司部署deepseek + 知识库，怎么部署？公网直接使用结合知识库的接口开发调优人工智能	73	2360	2025 年4 月 7 日
关于 PDF 有什么好的方式转成成文字发给 AI 模型开发调优快问快答	29	666	2025 年5 月 16 日

请教各位佬友，如何准确提取学术论文pdf的信息

相关话题