前言去年九月份Virtual Cell Challenge开展之后虚拟细胞扰动预测开始在生信领域火了所以看了看相关的文章基本信息论文名CellFlow enables generative single-cell phenotype modeling with flow matching代码theislab/CellFlow: Modeling complex perturbations with CellFlow发表时间2025.4.17前作cellFlow发表在ICLR2024上但CellFlow似乎只挂在了biorxiv上。数据类型scRNA-seq细胞×基因的表达量矩阵数据集Parse 10 Million PBMC人外周血单核细胞ZSCAPE斑马鱼胚胎sciPlex3癌细胞系A549、MCF7、K562combosplicerA549基因过表达数据biolord论文K562基因敲除细胞因子刺激6种癌细胞系4i数据集黑色素瘤细胞系iNeuroniPSC分化神经元类器官脑神经元任务基因表达量预测1、细胞因子响应预测2、基因敲除响应预测3、药物组合/形态因子组合扰动响应预测4、类器官迁移5、虚拟筛选数据预处理HVGs分析PCA降维获得细胞特征模型结构1、嵌入层扰动变量药物采用摩根指纹嵌入基因、细胞因子采用对应蛋白质的ESM2嵌入扰动协变量剂量、时间样本协变量细胞系类型、来源组织、批次效应采用多头注意力或者deepset进行聚合然后通过一层MLP输出条件嵌入c2、训练样本采样先随机采样条件获得条件嵌入c再从符合该条件的数据集中采样对照组细胞和扰动细胞采用Sinkhorn计算最优传输设_是最优传输矩阵将OT问题中的熵写为KL散度的形式并且可以将问题改写为不平衡的形式(KL散度和_熵的关系 ♯前推操作只从某一维看分布)这里的价值矩阵采用_‖_−_ ‖^2,其中_来自对照组细胞特征 _来自扰动后的细胞特征。对每一个对照细胞以_对应行作为权重进行采样获得目标的扰动细胞构成训练集中的一个匹配对。值得注意的是这里的迭代形式所使用的分布是以数据集中一类细胞的特征的狄拉克函数来构建的也就是有数据的地方是一个质点概率密度极大。这样方便离散计算。但如果考虑系统误差或者偶然误差这些点只是我们的观测值实际值在周围也会形成一个小的分布。这样做的话需要重新计算传输代价矩阵并且重新推导迭代公式特别是后续KL散度的计算将会更加复杂。3、Flow Matching训练目标一般的Flow Matching模型训练目标CellFlow模型的训练目标这里只以平衡最优传输为例不平衡的情况只是换了一个采样分布其中_(,)为模型 _为到的轨迹上进度为t的点其中根据选择的噪声形式不同采用不同的参考速度ut第二种噪声Brownian bridge推导到参考轨迹的方法在此不展开。其中m_t(x,y)t*x(1-t)*y4、推理过程输入正常情况细胞采用相同的HVGs与PCA主成分计算细胞特征多模态融合计算扰动特征利用训练好的_(,)模型计算细胞特征的速度向量多轮迭代利用数值积分计算细胞轨迹没什么好说的符合直觉。实验结果细胞因子响应预测Parse 10 Million数据集 12个供体90个细胞因子扰动Identity直接使用对照组表达值Mean donor2cytokine取该供体对细胞因子平均响应Mean cytokine2donor取细胞因子在各个供体中的平均响应评价指标这里比较的baseline都是比较简单的做法。不过可以发现模型也呈现了一定的scaling law的规律斑马鱼胚胎基因敲除预测、胚胎分化时序预测数据集ZSCAPE7扰动胚胎包含细胞类型的聚类标注评价指标能量距离、细胞类型比例变化的Pearson相关系数用CellFlow预测表达量加权KNN分类预测细胞类型耗竭率1-对照组细胞特征的邻域中扰动组细胞的占比KO敲除基因的组合abundance某细胞类型的丰度hpf受精后时间图D纵轴是被敲除的基因组合名称横轴是Baseline到CellFlow的能量距离的log2FoldChange可以看到均值基本在1~1.5左右Baseline的能量距离是CellFlow的两倍~三倍左右J是对细胞类型预测的UMAP分析WKNN预测细胞类型在计算KNN的时候顺便可以计算对照细胞的depletion rate可以看到耗竭率和实际情况基本上是大差不差的除了第三张图可能预测的耗竭率偏低。接下来K图研究的是在cdx4cdx1a敲除情况下斑马鱼胚胎发育过程中的某细胞占比的变化趋势可以看到预测出来的趋势是对的拟合程度也不错。不过看M图可以发现其实在某些组合下的时序预测效果也一般K图挑出来的几个都是红色的所以效果看起来挺好。药物扰动预测、癌细胞基因过表达预测在A549癌细胞系下进行实验对比模型有CondOT、chemCPA、biolord图E是数据集集的划分情况药物组合图图H是不同药物组合中预测与真实值的log2FC图图J是对肺癌抑制基因进行治疗后的预测结果baseline是对CellFlow嵌入用线性层预测。图M、N是对组合基因过表达的zero-shot和few-shot能力测试可以看出来CellFlow的能力还是不错的论文认为这部分的泛化能力来自于ESM2对基因特征提取。神经元命运工程问题如何通过多种形态因子的组合诱导iPSC向特定亚型的神经元分化。iNeuron数据集先对iPSC诱导NGN2神经元分化的转录因子表达然后加各种形态因子的组合然后测scRNA-seq三种神经元类型兴奋、抑制、去甲肾上腺素能。脑区标记。任务预测未见形态因子组合下的细胞类型分布。指标余弦相似度、能量距离对比模型有CPA、biolord图I是对细胞特征进行PCA降维后的5个维度分别绘制组合形态因子诱导下的分布。类器官协议筛选类器官利用干细胞的自组织能力通过信号分子、环境诱导干细胞向某一个特定的器官分化。协议指一组特定浓度的信号分子、形态因子、环境等因素的组合。模型任务通过已知的类器官协议数据来预测未测试的协议。数据集三个已知的人脑类器官数据集23中形态因子、176个条件。预处理先用scANVI将三个数据集的细胞特征投影到同一个空间。训练集只使用单形态因子的数据。评价指标能量距离、余弦相似度。图C是数据集整合后的UMAP图图D、E是和baseline的对比试验结果图G上部是预测细胞分化结果中部是使用的形态因子组合下方是时间。图H也是预测结果。Discussion1、ESM2、分子指纹不足以直接预测分子的功能效应2、高阶组合三因子及以上预测效果较差3、从PCA重构HVGs表达量较为困难。4、缺乏对不确定性的量化分类与回归