25个全球实验室参与!代谢组学资源宝贵且免费
背景利用高分辨质谱数据分析代谢谱可深入解析生物学过程。在代谢组学研究中质谱分析可产生大量代表代谢物的特征峰但从这些特征中鉴定具体代谢物仍具挑战性。代谢物鉴定是代谢组学领域的主要瓶颈之一也是开展任何生化阐释的前提。通过识别代谢物家族mFam内部的异同在代谢物家族层面评估质谱特征有助于为单个质谱特征赋予功能角色辅助解读生物系统中的代谢通路与过程。要实现代谢物家族向质谱特征的映射高质量、可靠且全面的谱图库至关重要。gbalckeipb-halle.desneumannipb-halle.de#代谢组学 #串联质谱 #参考谱图 #谱图库 #数据处理 #FAIR数据原则 #开放科学目的本研究发起项全球协作计划汇集来自动物、微生物、植物等不同领域代谢组学实验室的高分辨串联质谱MS/MS谱图。mFam-MS/MS谱图库为未知代谢物的机器可读分类信息分配提供了宝贵的训练数据。方法图1mFam项目中贡献谱图库数据的25个实验室全球分布结果mFam协作组采用标准化元数据模板构建了套经全球协作整理的MS/MS谱图库包含7,872张谱图、2,126种独特代谢物。该库由25个实验室贡献的47个数据集汇编而成涉及12种仪器类型包括极杆飞行时间QTOF、轨道阱Orbitrap及离子淌度-QTOF系统其中正离子模式谱图4,646张负离子模式谱图3,226张。这一标准化资源显著提升了代谢物鉴定能力支持基于机器学习的注释工具开发加速了新型代谢物的发现。所有谱图以「mFam」集体贡献者标签收录于MassBank系统可通过网页界面访问2025.10版数据发布于GitHub和Zenodo平台。表1谱图总数与独特化合物数量统计部分化合物同时在正、负2种电离模式下进行了测定。图2化合物重复度与分类分布左图绝大多数化合物1,601种为mFam贡献中的独有化合物仅由单个贡献者测定另有总计526例化合物在不同仪器上测定可用于跨分析平台的谱图比对。右图mFam数据集中代谢物的化合物类别分布基于ChemOnt分类体系其中苯丙素类与聚酮类为最主要超类其次为脂质、萜类与有机杂环化合物。旭日图展示了不同细化层级的化合物类别以及各类别的相对数量角度表示与绝对数量颜色编码表示。注并非所有化合物都能分类到最精细层级。该图的交互式HTML版本可在补充材料Sunburst-mFam.html中查看。图3mFam化合物的化学空间与结构新颖性分析(a) 基于扩展连通性指纹ECFP4的UMAP降维投影展示MassBank 2025.05.1版灰色与mFam条目蓝色覆盖的化学空间每个贡献实验室排名前10的结构最新颖化合物以不同颜色高亮显示。(b) mFam化合物与其在MassBank中最近邻结构的谷本相似度分布排除近相同匹配相似度≥0.99后凸显了非冗余mFam贡献的结构新颖性。(c) 结构新颖性排名前5的实验室MC14、MC24、MC02、MC01和MC21中各实验室排名前4的结构最独特化合物的化学结构式按其前10个高亮条目的平均最近邻谷本相似度排序。数据所述数据记录已收录至GitHub的MassBank-data代码仓库提交版本号为a91b1cahttps://github.com/MassBank/MassBank-data/commit/a91b1ca4841aea536545f7c1d452c1f80d225e84mFam协作组的贡献数据与其他MassBank-data贡献一并作为2025.10版本正式发布https://github.com/MassBank/MassBank-data/releases/tag/2025.10同时存档于Zenodo平台MassBank联盟及其贡献者2025。此外该数据集也可通过Software Heritage档案库获取存档标识为 swh:1:dir:0332839b153f8d587c4e140d1f9c6ea048ad56d1https://archive.softwareheritage.org/swh:1:dir:0332839b153f8d587c4e140d1f9c6ea048ad56d1详细总结思维导图参考化合物运行方式基本统计参考Metabolomics. 2026 Jul 2;22(4):114. doi: 10.1007/s11306-026-02480-y.The MassBank contributions of the mFam collaboration260702mFam.pdf注AI辅助创作如有不当欢迎指出。内容仅供参考不构成任何建议。