
"Protein Language Model Choice: Big Isn't Always Better"
先来放上论文地址:
https://doi.org/10.1101/2025.10.30.685515
代码地址:https://github.com/tsenoner/plm_choice
是一篇预印论文
题目是:《which plm to choose?》

作者是来自德国慕尼黑工业大学的Tobias Senoner
plm=protein language model
接下来,我们就通过这篇论文来看看到底应该在计算任务中选择蛋白质语言模型呢?
一.概述
该研究系统地基准测试了十四种蛋白质语言模型(pLMs),旨在评估它们学习到的嵌入如何有效地表征蛋白质的序列、结构和功能相似性。研究发现了一个“规模-性能悖论”,即中等规模的基础模型在直接反映原始嵌入距离中的内在生物信号方面,与体积大得多的模型效果相当。相对而言,大型pLMs展现出卓越的信息提取能力,它们储存了更复杂的可提取信息,但这只有通过额外的监督训练(微调)才能充分利用。作者还指出,针对特定任务的微调会从根本上扭曲嵌入空间的几何结构,从而产生牺牲通用性的专业化表征。因此,该研究建议采用任务驱动的模型选择策略:高效的中等规模模型适用于快速的通用洞察,而最大型的模型则仅在需要微调以达到最高性能时才值得采用。
二.文章回答了怎样的问题?

上图两个问题截取自原文
三.研究材料
3.1数据集
数据集的收集与拆分
研究中准备了两个数据集:主要的 SwissProt-pre2024 数据集和用于评估模型泛化能力的 New2024 数据集。
--min-seq-id 0.3)和较短序列的 80% 覆盖率(-c 0.8,--cov-mode 1)。序列对的组成
蛋白质对的构建是为了建立评估模型时的基础真实值(ground truth)。
经过筛选后,最终的测试集(用于所有固有或可提取信息评估)包含 8,731,253 个具有相似序列和功能关系的蛋白质对,以及 15,481,580 个具有相似结构关系的蛋白质对。需要注意的是,这一筛选步骤排除了绝大多数高度不相似的蛋白质对,因此分析主要评估了嵌入(embeddings)定量捕获可测量相似性的能力,而不是二元区分相似与不相似蛋白质的能力。
3.2计算指标
序列相似性(Sequence Similarity): 使用 PIDE (Percent Pairwise Sequence Identity,成对序列同一性百分比) 。
结构相似性(Structural Similarity): 使用 TM-score(通过 Foldseek 计算 alntmscore 获得)。
功能相似性(Functional Similarity): 使用 HFSP(Homology-derived Functional Similarity of Proteins,同源性衍生蛋白质功能相似性)分数 。
3.3实验方法
研究人员建立了一个全面的框架来量化蛋白质语言模型(pLMs)嵌入中编码的生物学信息,主要分为对固有信息和可提取信息的评估 。
以下是实验方法和评估框架的详细介绍:
研究系统地比较了 14 种常用 pLMs 生成的表示 。这些模型涵盖了不同的架构、训练方法和参数规模 。
嵌入生成: 对于每个蛋白质序列,研究人员通过平均每个 pLM 最终隐藏层的残基表示,生成固定长度的蛋白质级别嵌入,以便进行成对比较分析 。
评估在两种嵌入设置下进行,并采用了两种核心评估方法来区分不同类型的生物信号 :
1. 固有信息 (Inherent Information)——欧几里得距离固有信息是指可以直接通过对原始嵌入向量进行简单算术计算(例如建立蛋白质距离/相似性)获得的信号。
2. 可提取信息 (Extractable Information)——前馈网络 (FFN) 监督学习可提取信息是指需要通过后续基于嵌入的监督机器学习(例如预测特定的蛋白质特征)才能揭示的信号。
四.实验结果
作者在14个蛋白质语言模型中进行了实验,包括不同参数量的:esm1,esm2,esm3,emc,ankh,ProtT5。

三个图首先分别对应了序列,结构,功能的预测。
每个图又分别对应着两个方法:
首先是 x组成的点,代表了直接计算两个蛋白质向量之间的欧几里得距离与原始数据之间的皮尔逊相关系数。
其次是圆点 ,代表由模型的嵌入层送到一个FFN简单神经网络中,采用固定的网络模型参数和训练参数得到的预测值和真实数据之间的皮尔逊相关系数。
第二个图是验证微调蛋白质语言模型会使得蛋白质语言空间发生形变:

所以有三个关键结论,可以结合上面的图一起看:



简而言之,应采取任务驱动的模型选择策略:中等规模模型适用于快速、低成本的通用洞察;大型模型适用于计划进行微调以追求最大性能上限的场景;而任务专用模型仅应用于与其训练目标精确匹配的生物学问题。
所以这篇文章最终告诉我们的是:
选择pLM是一场在“即时可用性”与“未来潜力”之间的权衡,蛋白质大语言模型层出不穷,如何选择适合自己的特异性的研究和任务的模型,我相信这是一场关于研究蛋白质语言模型的长途旅行,slowly drive,enjoy the view~