文献解读 | IF8.3! 网络药理学→WGCNA→三算法→分子对接→信号轴,12张图完整流水线,纯生信人的标准答案!
乔粒今天来看一篇文献IF8.3! 网络药理学→WGCNA→三算法→分子对接→信号轴12张图完整流水线纯生信人的标准答案技术路线网络药理学筛生姜17活性成分→476靶点GEO差异分析1850基因WGCNA得2830模块基因→四路交集35基因→LASSOSVM-RFE随机森林三算法交叉锁定PRMT1→LC-MS实验验证成分→分子对接数据库构建EGR1→PRMT1→BTG2完整信号轴。文献标题英文Predicting the molecular mechanism of ginger targeting PRMT1/BTG2 axis to inhibit gastric cancer based on WGCNA and machine algorithms中文标题基于WGCNA和机器学习预测生姜靶向PRMT1/BTG2轴的抗胃癌分子机制DOIhttps://doi.org/10.1016/j.phymed.2025.156892发表时间2025年5月24日在线发表发表期刊Phytomedicine影响因子IF11.3作者单位宁夏医科大学药学院袁玲教授课题组研究背景 | 生姜抗癌的机制真空生姜在民间和传统中医药中一直被认为对消化系统有益现代药理学也证实了生姜提取物具有抑制细胞增殖、诱导凋亡的作用。比如说6-姜辣素6-gingerol已被报道能通过MAPK和ROS信号通路诱导膀胱癌细胞凋亡生姜提取物在乳腺癌中也展现出DNA损伤效应。但是——问题来了生姜到底通过哪个核心靶点发挥作用它的上下游调控通路是什么这仨问题之前的研究基本没回答。传统中药多成分-多靶点的特性导致机制研究难度大靠纯实验逐一筛选成本过高。而生信领域在这个方向上的空白也很明显缺少一套网络药理学→转录组公开数据→WGCNA→机器学习→分子对接→LC-MS的完整分析框架能够从海量候选靶点中系统性地缩小范围最终锁定一个核心靶点并构建完整的信号轴。这篇文章的目的就是填补这个空白。它不从做实验找机制的传统路径出发而是先把计算预测做到极致再用一步LC-MS实验验证预测结果与实测成分的吻合度最后用分子对接把整个信号轴的结合能力算清楚——形成一条完整的计算生物学证据链。结果解读Fig1.研究流程图——整篇文章的思维导图方法图形摘要概述从网络药理学→WGCNA→机器学习→PPI筛选→临床相关分析→上下游预测→分子对接→LC-MS的全流程。Fig2 | 生姜靶点与胃癌差异基因——从撒网开始方法A. Cytoscape构建活性成分-靶点网络黄靶点绿成分红药物B. 疾病靶点条形统计C. GSE118916火山图|logFC|2, p0.05红上调绿下调D. 交集基因聚类热图E-F. 上调43下调24基因的Venn图和LogFC柱状图G. PCA分析。结果GSE118916中975个上调、875个下调DEGsPCA显示样本分离清晰。Venn分析显示43个上调基因和24个下调基因与生姜靶点交集。Fig3 | WGCNA——把基因分群后找到关键功能模块方法A. 软阈值筛选power28B. 基因聚类树模块划分Dynamic Tree CutC. 所有基因聚类热图D. 模块-性状关联热图Pearson相关E. 四路交集Venn图。结果5422个基因分为15个模块其中black、magenta、steelblue、darkgrey、darkmagenta五个模块与GC性状相关性最为显著合并得到2830个模块基因。四路交集得到35个核心候选基因。Fig4 | PPI网络富集分析——确认这35个基因在干正事方法A. STRING数据库构建PPI网络Cytoscape按中位数筛选核心蛋白B. Degree值排序C. GO富集分析气泡图BP/CC/MF三分类D. KEGG富集圆形弦图E. KEGG富集Sankey图。结果PPI筛选出17个核心蛋白Degree中位数。GO富集主要富集于胶原分解过程、胶原代谢过程等KEGG显著富集于Proteoglycans in cancer、Pathway in cancer、Gastric acid secretion等通路。收藏点弦图和Sankey图的组合使用是个不错的呈现技巧——弦图适合展示通路间的交叉关系Sankey图适合展示基因→通路的流向。两种图的解读角度不同放在同一张图里会让结果看起来更丰满。但要注意不要两种图展示的是完全一样的信息那样就有换皮嫌疑。Fig5 | 机器学习三算法——从35到4的分水岭方法A-B. LASSO回归9个基因C-D. SVM-RFE11个基因E. 随机森林4个基因F. 三算法交集Venn图。结果LASSO筛选9个SVM-RFE筛选11个随机森林筛选4个。三者交集4个基因PRMT1、CDK4、CDC25B、CA9。收藏点这里最巧妙的不是三种算法本身这是标配了而是作者在文章布局中把三个算法的结果各自独立展示A-E而不是只放一个Venn图完事。独立展示每一种算法分别筛出了哪些基因读者能看出每种算法的特征偏好增加分析的透明度和可信度。Fig6 | 临床相关性——PRMT1配不配作为核心靶点方法A. PPI∩ML交集Venn→1个基因PRMT1B. Open Target疾病关联圈图C-D. UALCAN蛋白表达E. 拷贝数表达F. GEPIA mRNA表达TCGAG. GC四种亚型表达H. 生存曲线I. HPA免疫组化J. 荧光定位。结果PRMT1在GC中蛋白和mRNA表达均显著升高p0.01且在预后最好的EBV亚型中表达最高。IHC直观显示胃癌组织中PRMT1染色加深。但值得注意的是生存曲线没有统计学意义。Fig7 | 基因突变分析——PRMT1的基因层面画像方法A. cBioPortal泛癌突变频率B. SNV突变类型和位点瀑布图C. CNV杂合突变气泡图D. CAMOIP驱动基因突变关联E. MSI表达箱线图。结果PRMT1在GC中突变以错义突变为主CNV以扩增为主杂合和纯合均扩增。PRMT1高表达促进TP53和ARID1A等原癌驱动基因的突变表达。PRMT1与MSI呈正相关。收藏点把SNVCNVMSI驱动基因关联四合一放在一张图里分析密度很高。而且PRMT1高表达促进TP53突变这个发现实际上是建立了一种表观调控酶→基因组不稳定性的连接比单纯报告突变频率要深刻得多。Fig8 | 表观调控与修复——“基因坏了能修吗”方法A. UALCAN甲基化水平B. TIDE甲基化-CTL标记物相关性C. 高/低甲基化亚组生存曲线D-E. GEPIA HRR/MMR修复系统相关性热图。结果PRMT1甲基化与CTL标记物正相关。低甲基化亚组在早期阶段生存优于高甲基化组虽然未达统计显著。PRMT1与HRR和MMR修复系统中的多数基因尤其是MET呈显著正相关——意味着PRMT1表达越高的样本DNA损伤修复系统越活跃。收藏点HRR和MMR修复系统的分析是很多生信文章的盲区。如果你只分析基因突变、不做修复系统分析审稿人会追问“基因突变了但体内有修复系统你考虑了没” 这篇文章提前把这个问题答了逻辑上无懈可击。Fig9 | 免疫浸润——PRMT1在肿瘤微环境中扮演什么角色方法A. Sangerbox StromalScore/ImmuneScore/ESTIMATEScore散点图B. 免疫检查点相关热图C. TIMER2.0巨噬细胞/单核细胞/成纤维细胞/CD8⁺T细胞浸润相关性。结果PRMT1与三种Score均显著正相关与巨噬细胞、单核细胞、肿瘤相关成纤维细胞、CD8⁺T细胞浸润均呈强正相关。免疫检查点方面也总体呈正相关趋势。收藏点这篇的免疫分析有个值得注意的设计——它同时用了Sangerbox和TIMER2.0两个独立平台做同一类分析等于在数据来源层面做了一个小型的交叉验证。这种做法成本极低但能让结论更稳。Fig10 | 分子对接——生姜成分抓得住PRMT1吗方法A. 活性成分-PRMT1对应关系网络橙色PRMT1蓝色活性成分B-D. 6-gingerol、6-methylgingediacetate2、6-shogaol与PRMT1的分子对接可视化。结果三种成分与PRMT1的结合能力均良好Vina score −6.67至−6.93 kcal/mol支持生姜活性成分对PRMT1的潜在直接靶向作用。Fig11 | 上下游构建——把一个点撑成一条线方法A. 6数据库取交集筛选上游TF→EGR1和CREB1B. PRMT1-EGR1分子对接可视化C-F. HitpredictSTRINGGeneMANIA三数据库交集→BTG2G. PRMT1-BTG2分子对接可视化。结果EGR1-PRMT1结合能−12.78 kcal/mol远优于CREB1的−1.48确认EGR1为上游TF。PRMT1-BTG2结合能−13.35 kcal/mol良好。最终确定信号轴EGR1 → PRMT1 → BTG2。Fig12 | LC-MS实验验证——预测 vs 实测的对账方法UHPLC-Q-Exactive HFX质谱ESI正负离子模式DDA采集HSS-T3色谱柱流动相A水0.1%甲酸流动相B乙腈0.1%甲酸。结果共鉴定出31种化合物其中6-gingerol、6-shogaol、dihydrocapsaicin等与网络药理学预测一致。但17个预测成分中只有一部分被LC-MS检出另有一些如linolenic acid、β-caryophyllene oxide虽然响应低但仍能检测到。LC-MS这一步功不可没。它解决了一个核心信任问题——“你预测的17个成分真的在生姜里吗” 作者没有回避预测和实测的不完全吻合而是在讨论里详细解释了原因LC-MS灵敏度限制、生姜批次差异、某些挥发性成分需要GC-MS等。讨论四大创新点四路交集→三算法ML→PPI再交的多重收敛设计假阳性控制极其严格。从几千个候选基因逐层收敛到35→4→1每一步都有统计或生物学依据不是随便筛筛。上下游构建的意识远超同类文章。不满足于找到一个靶点而是向上找上游转录因子6数据库分子对接双验证、向下找下游效应蛋白3数据库分子对接构建完整EGR1-PRMT1-BTG2信号轴。这种闭环思维是高分文章的标配。LC-MS实验验证的加入让纯生信文章多了一层湿实验的底。虽然只是最基础的化学成分鉴定但已经足以向审稿人证明——你不只是纸上谈兵你已经考虑了真实样本中的成分情况。讨论部分的坦诚度很高。明确声明本研究为计算预测性质功能验证留待后续并详细列出了已规划的验证路径Co-IP、ChIP-qPCR、CRISPR、移植瘤模型。这种前瞻性规划让审稿人看到你不是做完就算而是有明确的下一步研究计划。点评乔粒作为生信工程师我认为以下几点对想做类似分析的同学参考价值比较大1. 四路交集LASSOSVM-RFERF组合这是一个操作上非常清晰、统计上非常稳妥的核心基因筛选策略。具体的R代码实现也不复杂——LASSO用glmnet包SVM-RFE用e1071或caret包随机森林用randomForest包都是在R生态中成熟且文档齐全的工具。如果你更换疾病方向比如肝细胞癌、肺癌、结肠癌等只需更换GEO数据集、疾病数据库和WGCNA的性状文件即可。2. 多数据库做同一种分析是低成本的提升可信度本文在不同环节反复使用了这个技巧表达验证GEPIA UALCAN HPA IHC四个来源交叉mRNA 蛋白 组织免疫浸润Sangerbox TIMER2.0两个平台独立计算上游TF6个数据库取交集下游蛋白3个数据库取交集分子对接CB-DOCK2 PyMOL计算可视化这种多源交叉验证的做法不需要额外的实验设备只需要多花一点时间即可。