这项由中国人民大学高岭人工智能学院、上海人工智能实验室、浙江大学、上海创新研究院、华东师范大学、中关村学院以及武汉大学人工智能学院联合完成的研究发布于2026年6月论文编号为arXiv:2606.22138感兴趣的读者可通过该编号查阅完整原文。一、科学家面对的语言障碍问题在生物医学领域研究一种药物分子、一种蛋白质或者理解它们之间的相互作用就好像要同时读懂三种完全不同的语言一种是化学家写在纸上的分子结构式一种是蛋白质研究者使用的氨基酸序列还有一种是科学家们在论文里写的自然语言描述。更复杂的是每种语言还有平面版本序列和立体版本三维空间结构之分。以往的人工智能模型就像是只会说一门外语的翻译官——有的擅长处理蛋白质序列有的擅长理解分子化学式有的能读懂科学论文但几乎没有一个能把所有这些信息融会贯通地放在同一个大脑里处理。这就造成了一个尴尬的现实当你需要研究某种小分子药物如何与某种蛋白质结合这样跨界的问题时现有的AI工具往往需要多个系统协同配合信息在系统间传递时还容易出现翻译错误。研究团队把这个问题用一张表格总结得相当清楚比如ESM3这款模型只会处理蛋白质不懂分子AlphaFold3能处理分子和蛋白质的结构预测却读不懂自然语言而BioT5这类模型能把分子序列和自然语言联系起来却完全不懂三维立体结构。没有任何一款模型能同时处理分子序列、分子三维结构、蛋白质序列、蛋白质三维结构以及自然语言这五种信息。正是为了填补这个空缺研究团队构建了BioMatrix——一个能同时说所有这五种语言的统一生物基础模型。二、BioMatrix的核心思路把所有语言翻译成同一套字母表BioMatrix解决这个问题的核心思路可以用一个厨房的比喻来理解。假设你是一家需要处理中餐、西餐、日料和印度料理的超级餐厅的厨师长。最笨的办法是为每种菜系雇一个专门的厨师他们各自用不同的度量单位一个用克一个用盎司一个用匙、不同的刀法、不同的火候标准互相之间根本没法协作。而聪明的办法是把所有菜系的食谱都统一转换成同一套标准语言——统一的度量单位、统一的操作步骤描述、统一的术语体系——然后用一套通用厨房设备完成所有工作。BioMatrix采用的就是这种统一食谱语言的策略技术上称为统一分词方案unified tokenization scheme。简单说就是把所有不同类型的生物信息都转换成同一套字符集或代码让一个大语言模型能够统一处理。具体来说研究团队做了这样几件事。对于分子的平面表示也就是分子式模型同时支持两种写法一种叫SMILES是化学领域最常用的线性表示法比如乙醇写成CCO另一种叫SELFIES是一种更新的表示法它有个特殊优势任何语法正确的SELFIES字符串都必然对应一个合法的分子不会出现写了半天发现这个分子根本不存在的问题。对于分子的三维结构研究团队改进了一种叫MolStrucTok的技术——该技术把分子中每个原子的空间位置用距离、角度来描述压缩成一个离散的数字代码就像把GPS坐标量化成邮政编码一样。对于蛋白质的平面表示氨基酸序列模型使用每种氨基酸对应一个专属代码共26个代码覆盖所有常见和非常见氨基酸。对于蛋白质的三维结构研究团队使用了一种叫GCP-VQVAE的技术把蛋白质骨架的几何信息压缩成每个氨基酸残基对应一个数字代码用4096个代码构成一本蛋白质结构字典。而自然语言就直接使用原有的语言模型词表。将这一切整合在一起后一个蛋白质折叠问题就变成了这样一个任务给定氨基酸序列代码串预测对应的结构代码串——这和普通语言模型处理给定一段中文预测下一个词在形式上完全一样。三、两个关键的技术改进让结构字典更精准在分子三维结构的编码方面研究团队对原有的MolStrucTok进行了一项精妙的改进。原版的系统用一个共享的神经网络头部同时预测四个不同的几何参数原子间距离、极角、方位角的绝对值以及方位角的符号正负。这四个参数的性质差别很大——距离是正数两个角度是有界的弧度值符号只是0或1——就像用同一把尺子同时测量体重、身高、血压和心率各自的量纲完全不同放在一起会互相干扰。研究团队的解决方案是把这个共享头部拆开让四个参数各自拥有一个专属的神经网络头部独立预测。这个改动看起来很小但效果相当明显在QM9分子数据集上每个几何参数的重建误差平均降低了约0.1埃埃是原子尺度的距离单位1埃等于0.1纳米。就好像把一个负责同时报告天气、交通、股市和体育的播音员拆分成四个专业播音员每个人只报自己最擅长的内容准确率自然提高了。在词汇表设计上研究团队还解决了一个词汇爆炸的问题。理论上分子结构的代码词汇表可以通过把925种SELFIES原子符号和512种MolStrucTok结构代码两两组合得到最多约47万种组合。但实际训练数据中真正出现过的组合远没这么多。研究团队统计了预训练数据中所有实际出现的组合按频率从高到低排列只保留能覆盖99%出现频次的最小前缀集合最终精简到11294个联合词条。这就像编一本真正实用的词典——不是把所有理论上能造的词都收进来而是只收录真正在书面语中频繁出现的词让模型能充分学习每个词的含义而不是对着大量几乎从未见过的生僻词发愁。对于蛋白质则采用了不同的策略。如果也把氨基酸符号和结构代码组合理论上需要超过7万个联合词条这几乎相当于原始语言模型词汇表的一半而且许多组合在训练数据中只出现寥寥几次根本学不到什么有用信息。因此蛋白质的氨基酸词条和结构词条保持独立每个残基用两个代码分别描述序列信息和结构信息在自然对齐的同时避免了词汇表的膨胀。四、让新词汇不从零开始聪明的初始化策略向语言模型的词汇表中加入几千个新代码会遇到一个实际问题这些新词条的初始理解从哪里来如果随机初始化模型在训练早期对这些新词条完全无知需要很长时间才能建立起对它们的基本理解训练过程会很不稳定。研究团队采用了一种巧妙的以旧带新策略为每个新词条编写一段简短的自然语言描述然后用原有语言模型对这段描述的理解来初始化新词条的表示向量。比如控制分子SMILES片段开始的特殊标记描述为开始一段分子SMILES字符串代表丙氨酸的蛋白质词条描述为丙氨酸。对于那些本身就是纯粹数字代码的结构词条没有自然语言对应物就直接用代码字符串本身作为描述。这样每个新词条在训练开始时就已经住在语言模型的语义空间中一个有意义的位置附近了就像给一个新员工安排了一个有经验同事的座位而不是把他扔在一个完全陌生的角落。五、304.4亿词的学习材料喂给AI的生物学图书馆构建BioMatrix的第二个关键步骤是准备训练数据。研究团队为此建立了一个规模达到3044亿词这里词是token的意思大致对应一个汉字或英文词片段的预训练语料库涵盖四大类内容。第一类是通用文本和科学文本包括FineWeb-Edu这个大规模教育内容筛选数据集以及来自FineFineWeb的生物、化学、医学和健康四个专业子集还有PubMed收录的大量同行评审文献全文。这部分数据的作用是防止模型在大量专业训练后忘记如何说正常的人话同时获得扎实的科学表达能力。第二类是以分子为中心的数据主要来自PubChem数据库覆盖截至2025年12月的所有化合物每个分子的SMILES表示、SELFIES表示、三维结构代码、物理化学性质如分子量、亲水性、极性表面积等以及IUPAC命名和文字描述都被组合成训练样本。此外还引入了PCQM4Mv2和PubChemQC两个高精度量子化学数据集的三维构象以及MolTextNet这个包含约250万个分子描述对的数据集。第三类是以蛋白质为中心的数据来源包括UniRef50提供大规模蛋白质序列覆盖、RCSB蛋白质数据库实验解析的三维结构、UniProt/Swiss-Prot含丰富功能注释的人工审核蛋白质数据库、UniProt/TrEMBL自动注释的大规模蛋白质序列库以及AlphaFold蛋白质结构数据库包含约1.3亿个预测结构覆盖数据库中60%以上的条目。对于同时具有序列和结构信息的蛋白质研究团队采用了三视图策略对每个蛋白质生成三种训练样本分别是只有序列的样本、只有结构的样本以及序列和结构同时出现的联合样本让模型既学会独立处理每种模态也学会联合理解两种模态。第四类是跨实体和交错数据专门用于建立不同生物分子之间的关联知识。其中交错生物医学文本是通过一个叫BERN2的工具对PubMed、bioRxiv、S2ORC和USPTO专利数据库中的科学文本进行处理自动识别文中提及的分子和蛋白质实体并在实体名称后面直接插入对应的结构表示——这就像在一本化学教科书里每次出现苯这个词后面都自动附上苯的化学结构式和三维坐标让模型学会文字描述和结构之间的对应关系。还有来自BindingDB、STITCH、CrossDocked2020等数据库的分子-蛋白质相互作用数据以及蛋白质-蛋白质相互作用数据让模型能够理解不同生物分子之间的结合与相互作用。六、训练过程在64块顶级显卡上度过的漫长学习之旅BioMatrix的预训练在64块英伟达H100 GPU上进行批次大小为1024序列最大长度8192个词条使用AdamW优化器峰值学习率为0.0002按余弦退火策略逐渐降低共经历约36400步训练消耗完全部3044亿词的训练数据。研究团队同时训练了1.7亿参数规模和40亿参数规模两个版本两者都以Qwen3语言模型为基础进行持续预训练。训练过程中出现了一些短暂的损失值峰刺——可以把它想象成一个学生在大量学习过程中偶尔因为遇到特别陌生的内容而短暂困惑但很快就恢复了正常学习节奏。研究团队对出现峰刺前后的检查点进行了验证集测试确认这些短暂波动并没有对模型整体学习造成实质性损害。预训练完成后研究团队还进行了指令微调让模型学会按照人类指令完成具体任务。微调数据涵盖80个具体任务分属6大类别总计约2485万条训练样本。为了防止模型对固定指令格式产生依赖每个子任务都设计了多个语义等价但措辞不同的指令模板训练时随机抽取就像老师换着方式问同一道题确保学生真的理解了概念而不只是死记硬背了一种表述。七、80项考试的成绩单分子领域的表现评估BioMatrix能力的方式是让它参加80项来自已发表文献的标准测试与专门为各任务设计的专精模型正面竞争。在分子序列相关任务中BioMatrix展现出了相当扎实的综合能力。以无条件分子生成即让模型从零开始生成有效分子为例在MOSES和GuacaMol两个标准测试集上BioMatrix-4B的SELFIES变体生成的10000个分子中有效率高达99.8%独特性为100%新颖性98.6%同时在分子内部多样性上也超过了大多数专精生成模型。更重要的是它在有效性、新颖性、多样性三个维度上达到了一个相当平衡的状态而以往的模型往往在一个维度上出色但在其他维度上有所欠缺。在分子命名转换将IUPAC系统命名与分子式、SMILES等互相转换任务上BioMatrix-4B的SMILES变体在IUPAC转序列的精确匹配率上达到92.83%超过了参数量约是其两倍的SciReasoner-8B该模型的得分为84.40%。在分子性质预测从分子结构预测物理化学或生物活性性质方面BioMatrix在六个标准数据集中的五个上达到了大语言模型方法中的最佳或第二佳成绩在HIV活性分类任务上甚至超越了专门为此任务训练的专精模型。分子描述生成给定分子用自然语言描述其功能和特征和基于文本的分子生成给定文字描述生成对应分子这两个双向翻译任务是最能体现多模态理解优势的测试场景。在SMolInstruct测试集上BioMatrix-4B在分子描述生成的METEOR评分上达到61.5分在基于文本的分子生成任务中精确匹配率从之前最好的SciReasoner-8B的48%提升到了65.07%Tanimoto指纹相似度从BioMedGPT-Mol-8B的77.50%提升到了85.47%——这些数字的背后是模型对分子结构与自然语言描述之间对应关系的更深入理解。在正合成预测给定反应物会生成什么产物和逆合成给定目标产物推断可能的反应物和路径任务上BioMatrix-4B的SMILES变体分别达到了77.94%和45.16%的精确匹配率在所有大语言模型方法中名列前茅。分子编辑任务按照自然语言指令对分子进行局部结构修改是一个更精细的测试。研究发现BioMatrix在成分添加和成分删除两类操作上大幅超越了所有对比基准但在成分替换同时做删除和插入这个最复杂的操作上仍落后于一些闭源商业模型这符合研究者的预期——替换操作需要同时定位目标位置、理解上下文约束、执行两步操作难度本质上更高。在分子优化任务上BioMatrix在logP脂溶性和MR摩尔折射率两个性质的单性质优化上以及在全部八个MolOpt-Instructions测试子任务上全面超越了DrugAssist等专精优化模型。一个有趣的观察是在这里SELFIES变体表现明显优于SMILES变体——而在之前的定制化分子生成任务中SELFIES变体却几乎完全失效。研究团队对此做了深入分析SELFIES的语法保证让模型生成的任何输出都是合法分子这在优化一个现有分子使某种性质变好这类任务中非常有价值但在生成满足特定原子数量/键数量/官能团约束这类需要把结构约束锚定到具体词条的任务中SELFIES那种把原子类型和键型信息融合进单个词条的编码方式反而让模型无法简单地通过数词条数量来满足计数约束导致表现糟糕。这个发现提示两种表示法不是相互竞争的而是互补的不同任务应该选择不同的表示法。在分子问答MoleculeQA任务上BioMatrix-4B的总体准确率达到73.78%显著超过此前最佳的MolCA-1.3B的64.79%在结构类知识子类上的提升尤为突出83.36%对比71.12%。八、三维分子结构的生成与扩散模型的正面交锋在三维分子结构生成这个历来是扩散模型主场的领域BioMatrix交出了一份值得关注的成绩单。在无条件三维分子结构生成任务中生成合法分子的同时生成其三维构象BioMatrix在二维图形层面的指标上表现出色FCD距离衡量生成分子与真实分子分布差异的指标越小越好达到0.064与扩散模型NExT-Mol0.070持平并且在原子稳定性、分子稳定性、有效性这些二维质量指标上达到满分或接近满分。然而在原子级别的几何精度上原始输出的键长误差比NExT-Mol大得多原子稳定性也低一些。研究团队对此给出了直接的解释基于离散码本的自回归重建方式本质上会引入量化误差而且原子坐标是逐步累积重建的误差会沿着遍历路径累积这与扩散模型同时对所有原子坐标进行去噪的做法有本质区别。不过只需在生成结果上跑一步MMFF分子力场优化这是一个非常轻量的后处理步骤FCD从1.04大幅降到0.23原子稳定性从0.897恢复到0.985说明这个几何精度的缺口并非无法弥补而是可以通过廉价的后处理来恢复的。在性质条件控制的三维分子生成任务中BioMatrix的优势则相当惊人。这个任务要求模型生成的分子在量子化学性质如HOMO能量、LUMO能量、偶极矩等上与给定目标值匹配。BioMatrix-4B在六个量子化学性质上全面超越此前最强的NExT-Mol误差缩小幅度在2到4倍之间——其中HOMO能量误差从205 meV降到57 meVLUMO能量误差从235 meV降到54 meVHOMO-LUMO能隙误差从297 meV降到81 meV。研究团队认为这种巨大的提升来自于统一词空间的优势当目标性质值和分子结构代码都在同一个词表示空间里模型能够直接从性质描述预测结构序列这种以文本序列形式进行的条件控制比扩散模型通过梯度引导或条件注入来实现控制更为直接有效。九、蛋白质任务从序列理解到折叠预测的全面考核BioMatrix在蛋白质相关任务上的表现同样全面。在蛋白质序列理解方面包括EC编号预测判断一个蛋白质是哪类酶、折叠类型分类判断蛋白质属于哪个结构家族以及亚细胞定位预测判断蛋白质在细胞中位于哪个区室BioMatrix的两个规模变体都达到了与或超越SciReasoner-8B参数量是BioMatrix-4B两倍的水准而GPT-O3、DeepSeek-R1等通用大语言模型在这些任务上几乎完全失效证明这类任务确实需要专业的生物学领域训练。在蛋白质功能注释预测方面预测蛋白质的基因本体论术语、UniProt关键词、功能文字描述等BioMatrix-4B在关键词F1得分上达到91.26%基因本体论F1达到86.33%并在Mol-Instructions测试集的所有子任务上建立了新的最佳成绩。值得一提的是即使是当时最先进的GPT-O3模型在这些需要精确生物数据库知识的任务上得分接近于零而BioMatrix则展现出了真正掌握了生物数据库内在知识体系的迹象。在蛋白质知识挖掘任务从基因符号预测相关组织或癌症类型上BioMatrix-4B在基因符号到癌症类型的关联预测上达到F179.53%与参数量两倍的SciReasoner-8BF181%非常接近。在蛋白质结构理解给定蛋白质序列和三维结构回答关于其功能的问题上BioMatrix-4B在PFUD测试集的全部四个指标上都超越了此前最佳的ProtTeX-Llama3模型该模型基于Llama3-8B参数量是BioMatrix-4B的两倍BLEU-2得分从41.54提升到46.07。在结构预测折叠任务上BioMatrix-1.7B和BioMatrix-4B都达到了TM-score0.84的水平超越了DPLM-2-150M和DPLM-2-650M与DPLM-2-3BTM0.86非常接近当然仍与专精折叠工具ESMFoldTM0.93存在差距——后者的整个架构和训练目标都是为折叠这一单一任务而设计的这种差距是预期中的、合理的代价。在逆折叠任务给定蛋白质三维结构预测可以折叠成该结构的氨基酸序列上BioMatrix取得了令人意外的突出成绩氨基酸恢复率生成序列与天然序列逐残基匹配的比例达到75.50%远超DPLM-2-3B的61.67%超出幅度相当显著。研究团队认为这得益于残基对齐词表的设计每个氨基酸词条和对应的结构词条严格一一对应逆折叠就自然变成了一个直接的词条到词条映射问题不需要任何额外的机制来实现这种对应。在序列-结构协同生成同时从零生成互相一致的氨基酸序列和骨架结构任务上BioMatrix在序列→结构方向达到scTM0.965在结构→序列方向达到scTM0.979全面超越DPLM-2-650M并在结构→序列方向上的scTM和scRMSD联合指标上甚至超过了天然PDB蛋白质作为参照物的水平。在无条件蛋白质骨架生成从零生成可设计的蛋白质骨架任务上BioMatrix-4B的scTM达到0.963超过了RFDiffusion0.914、FrameDiff0.818和FoldFlow0.540这些专为蛋白质结构生成设计的扩散模型接近天然PDB结构的0.969上限。在文本引导的蛋白质设计根据功能文字描述生成氨基酸序列上BioMatrix在可折叠性、序列多样性等指标上达到了具有竞争力的水平。十、分子与蛋白质的相互作用跨实体推理的终极考验分子-蛋白质相互作用预测即预测一种药物分子和一种蛋白质靶点的结合亲和力是验证BioMatrix跨实体理解能力的核心场景。在仅使用序列信息的结合亲和力预测任务中BioMatrix-4B在BindingDB数据集上的均方根误差降低到1.030明显超越了此前文献中报告的最优结果1.340在PDBBindv2019/CASF-2016数据集上达到1.268同样超越了各类蛋白质专用编码器基准。在需要同时使用分子三维结构和蛋白质三维结构的结合亲和力预测任务PDBBindv2020数据集上BioMatrix-4B在四个评估指标中的三个上取得最佳成绩超越了TANKBind——后者是一个专门为此任务设计的、使用三角几何感知的交叉注意力机制来联合处理配体和口袋几何信息的专精模型。BioMatrix实现这个结果的方式相当简洁把配体的SELFIES对齐结构代码和蛋白质的逐残基结构代码直接拼接在同一个词序列里让统一的语言模型进行推理没有任何专门的口袋编码模块、几何交叉注意力或融合网络。这个结果直接证明了一件事把两种异质生物分子放进同一个离散词空间让下游推理在统一的词序列上进行确实足以支撑跨实体的结构感知预测不一定非要设计针对特定任务的专门架构。在蛋白质-蛋白质相互作用任务上BioMatrix在二分类预测两种蛋白质是否相互作用和回归预测相互作用的亲和力任务上都达到了与专精蛋白质编码器持平的水准。十一、几个贯穿全文的规律性发现通过80个任务的系统测试研究团队归纳出了几个值得关注的规律。关于参数规模扩展的效益在分子序列任务上从1.7B扩展到4B带来平均7.2%的相对提升且在文本引导的分子生成、名称转换、定制化生成等知识密集型任务上收益最为显著在蛋白质序列任务上4B对1.7B的优势平均约1.9%主要体现在知识挖掘这类需要大量记忆生物数据库知识的任务上而在蛋白质三维结构任务上两个规模之间的差异微乎其微平均仅0.2%说明这类任务在当前规模下已接近饱和主要瓶颈不在模型容量而在其他地方。少数任务在4B上的性能反而略低于1.7B主要集中在小数据集上的回归任务研究团队认为这属于小数据场景下优化噪声并非真实的性能退化。关于单一模态任务与跨模态任务的差异在只涉及单一实体、单一模态的任务上BioMatrix通常和专精模型旗鼓相当并不展现出显著优势而在需要跨越模态如文字→结构、结构→文字或跨越实体如分子-蛋白质联合预测的任务上BioMatrix相对于专精模型的优势才明显扩大。这个模式说明统一词空间的价值不主要体现在单任务性能的微小提升上而是体现在让以前需要多个独立系统协作的跨模态任务变成单个模型可以直接处理的问题。关于分词的几何精度瓶颈在所有需要精细原子级别几何精度的任务上BioMatrix与专精方法的差距都主要集中在从结构代码重建三维坐标的步骤上而非在建模或预测步骤上。这指明了一个清晰的改进方向更好的结构分词器更大的码本、分层编码、非自回归坐标重建等将直接转化为这类任务上的性能提升而无需改动语言模型本身。十二、不足之处研究团队的坦诚自我评估BioMatrix的研究团队没有回避这个系统的局限性。分子和蛋白质的三维结构目前存在于两个独立的码本空间中两者没有共享的几何参考框架这意味着BioMatrix目前无法原生表示或生成分子-蛋白质复合体的三维结构也就无法直接支持基于结构的分子对接或口袋条件的配体设计这类任务。这是下一步最重要的技术改进方向。预训练语料库和微调/评估数据之间没有进行专门的实体级别去重这意味着评估中用到的一些分子和蛋白质可能在预训练阶段就已经被模型见过了。研究团队认为这是大规模生物学基础模型的普遍现实——各大数据库和基准测试之间的实体大量重叠完全做到零数据泄漏既不现实也未必必要但他们提醒读者注意这一点并据此评估结果。持续预训练在大量专业数据上进行尽管引入了FineWeb-Edu和MegaScience来减轻遗忘模型在通用语言理解和推理能力上仍可能有所退化研究团队坦承没有系统评估这部分。最后BioMatrix目前不涵盖核酸DNA、RNA、多糖、脂质等其他生物学重要实体扩展到这些实体类型在概念上与现有框架是兼容的是自然的未来延伸方向。说到底BioMatrix做了一件以前没人完整做成的事把五种截然不同的生物信息类型统一放进同一个词表用同一套语言模型来处理而且在80个测试任务中的77个上达到了最好或第二好的水平。这不仅仅是一个技术指标的突破它更代表了一种思路的验证生物信息的多样性不必然需要多个独立AI系统的联合国来处理一个足够统一的词表加上足够丰富的训练数据可以让单个模型成为真正意义上的生物语言全科医生。归根结底这项研究最令人印象深刻的地方不是它在任何单一测试上的极致表现而是它在如此广泛的任务谱上保持了如此一致的竞争力同时还揭示了两个深刻的规律跨模态任务恰恰是统一设计价值最大的地方而几何精度的瓶颈也恰恰不在语言模型本身而在结构分词这个下游改进的明确靶点上。这两个规律将直接指导这个领域未来几年的技术路线。感兴趣深入了解技术细节的读者可以通过论文编号arXiv:2606.22138查阅完整原文代码和模型权重也已在GitHubQizhiPei/biomatrix和HuggingFaceQizhiPei/biomatrix上开源。---QAQ1BioMatrix模型支持哪些类型的生物信息输入和输出ABioMatrix支持五种类型的生物信息分子的一维序列表示包括SMILES和SELFIES两种格式、分子的三维空间结构、蛋白质的一维氨基酸序列、蛋白质的三维骨架结构以及自然语言文字描述。这五种信息类型都被统一转换成同一套离散代码词表由一个语言模型处理输入和输出都可以是其中任意一种或多种类型的组合。Q2BioMatrix的三维分子结构生成和NExT-Mol这类扩散模型相比优势和劣势分别是什么A在二维分子质量指标有效性、多样性、分布相似性上BioMatrix与NExT-Mol基本持平在量子化学性质条件控制的三维生成上BioMatrix误差远小于NExT-Mol约减少3到4倍。但在原始输出的键长几何精度上BioMatrix的自回归重建方式会引入量化误差原子级精度弱于扩散模型。不过在生成结果上加一步轻量MMFF力场优化后大部分几何误差可以被修复。Q3SMILES和SELFIES在BioMatrix中各自适合什么任务A两种分子表示格式在BioMatrix中各有优势。SELFIES由于语法上保证生成的字符串必然对应合法分子在需要生成合法分子的任务如无条件生成、性质优化上有效率更高且在保持化学合法性的同时更好地满足性质条件SMILES由于每个原子、键、官能团都有固定的表面形式在需要精确锚定结构约束的任务如原子数量控制、键数量控制、官能团指定、合成路径预测上表现更好。研究建议两者并用根据任务类型选择合适的表示格式。