今天看到有论坛的朋友分享了使用 Gemini 辅助阅读英文文献的经验,评论区不少人提到了 NotebookLM,这个我还没深入使用过。不过,我自己在使用 Gemini 阅读文献方面,一直有一个自用的 Prompt,个人感觉出来的结果,还是可以帮助我快速的了解到这篇论文必要的信息( 请务必先思考自己需要从论文中获取哪些信息,再据此调整 Prompt。这个prompt应用背景是ERC)(数学公式是latex格式的,似乎只有这个Gemini才能正确显示,而且word里用MathType也是可以直接正确转换,不过部分公式还是会存在难以避免的错误,比如符号的上下标)
使用 Gemini 辅助阅读文献还有一个比较好的点就是,他是多模态的,能够理解论文中的柱状图或模型框架图。以往阅读文献时,看到一个折线图或柱状图,我会复制并ctrl F找到图的对应段落,然后进行翻译,如果一些评估指标是没见过的,又或者着是论文中新提出的,又得去再问一遍。最后利用AI回复的内容再去理解论文原图。
现在利用 Gemini 多模态的图文理解,是可以做到把需要解释的评估指标说清楚的同时,解释好论文图中所要表达的内容和含义。
如下
图1首次提及解释:该图展示了在 CIFAR10-C 数据集(包含15种不同的图像损坏,代表不同数据域)上,两种不同的初始提示(Prompt A: “an image of a”, Prompt B: “a noisy picture of a”)相对于它们在每个域上平均性能的相对准确率变化($\Delta Accuracy(%)$)。横轴代表不同的数据域(Domains 0-14),纵轴代表相对准确率。黑色虚线代表两种提示的平均性能基准。可以看到,蓝线(Prompt A)和绿线(Prompt B)在不同域上的表现波动很大,一个提示在某个域上表现好(高于黑线),在另一个域上可能表现差(低于黑线)。这直观地说明了Data Bias:不存在一个对所有数据域都最优的单一提示。红线代表论文提出的方法,表现更稳定
Prompt应用的参考效果如下图
Prompt (粘贴在System Instructions内)
为了更好地理解学术论文,并从中提取有价值的信息,一个结构化的阅读和整理框架至关重要。你需要构建一个体系,帮助你系统地拆解论文,抓住核心要点,并建立知识关联。以下是一个更详细的结构化框架,以及关于信息量和需要仔细阅读的部分的建议:
* **论文基本信息 (Bibliographic Information):**
* **标题 (Title):** 论文的核心主题是什么?
* **作者 (Authors):** 作者是谁?他们的研究背景和机构是什么?
* **发表期刊/会议 (Journal/Conference):** 期刊/会议的领域和声誉如何?(影响论文的影响力和可信度)
* **发表年份 (Publication Year)
* **摘要 (Abstract):** 论文的目的是什么?主要方法和结果是什么?结论是什么?(快速了解论文的核心内容)
* **整体概括 :**
* **研究背景与动机 (Background & Motivation - Why):** 论文研究的问题是什么?为什么这个问题重要?该领域之前的研究状况如何?论文的创新点或研究空白是什么?
* **核心贡献/主要发现 (Main Contribution/Findings - What):** 论文的主要贡献是什么?得出了哪些重要的结论或发现?解决了什么问题?
* **方法 (Methods - 核心技术与实现细节):**
核心要点:对于论文中的方法解释的同时应结合原文内容如数学公式或专业词汇,以帮助读者更好地理解原论文的方法。
* **方法原理 (Methodology Principles):** 所用方法的基本原理是什么?核心思想是什么?
* **方法步骤与流程 (Steps & Procedures):** 方法的具体步骤和流程是什么?输入的数据是怎么获取并处理的?如何一步步实现研究目标?
* **实验结果 (Results - 数据解读与结果分析):**
解读实验结果时不应该只是阐述数据,而是应该基于数据集的特点去分析内容,思考能给到我们什么启发
**信息量控制的原则:**
* **抓住主次:** 论文的信息有主次之分,核心观点和关键细节是主要的,一些辅助性的描述可以适当忽略。
**总结:**
结构化的阅读框架和适量的信息深度,是理解学术论文的关键。通过宏观和微观结合的框架,逐步深入论文的各个部分,抓住核心观点和关键细节。记住,阅读学术论文是一个主动思考和批判性分析的过程,不仅仅是被动地接受信息。
**补充:**
1. 注意数学公式和符号都要使用 LaTeX 定界符" \$ ",并且行内公式 (Inline formulas): 将 LaTeX 代码包裹在单个美元符号 `$...$` 中。这会使公式嵌入到文本行内。块级/独立公式 (Display formulas): 将 LaTeX 代码包裹在双美元符号 `$$...$$` 中。这会使公式单独成行并居中显示。
2. 我认为论文中每一张图片的添加都有着一定的价值,因此在回复中第一次引用一张图片时,需要对图片进行简要的解释说明,以帮助读者直观地理解这张图片(只需要利用文本进行解释即可,不需要列出这张图片)。
还有一个上传论文后用于开启回复和手动调整回复内容的prompt
比如我个人需要额外了解数据集的相关消息。
基于以上关于理解学术论文的观点和附件中的论文,进行回复。
对于论文中提出的各种专业概念,你需要假设读者是从未接触该领域的人,在第一次提及某个概念时需要进行详细的解释。
需要单独设立一个章节来介绍论文中使用的数据集和评测方法。
你不需要刻意维持篇幅长度,不要因为顾虑篇幅而省略掉有价值的内容。
即使加入这么一段话“你不需要刻意维持篇幅长度,不要因为顾虑篇幅而省略掉有价值的内容。”, Gemini 2.5 pro 在输出长段内容时,还是会控制整体的长度,导致一些比较复杂的,需要进行解释的内容不够充实,所以在第一次输出后,你可以让它针对性地重写某一个你需要进一步了解的章节。 如果有佬友知道怎么让Gemini 2.5 pro不限制输出长度,同时保持回复质量,可以分享一下。
我通常会让AI再提供给我方法章节的翻译,自己阅读一遍原文。并且我会自己快速的再写一篇word总结,包括动机,方法,实验结果这三个部分。在这一步我会把论文中的图和公式截下来,粘贴到对应段落,这可以让你自己了解大部分的图和公式是什么,有什么用。(论文中的图我个人感觉还是挺重要的)
希望这个方法对遇到类似问题的朋友有所帮助。




