摘要复杂生物系统的可编程组装是生物学研究的长期目标。生成式建模提升了计算设计的可靠性但现有方法高度专业化难以拓展或组合。本文提出面向生成生物学的高级编程语言Proto。通过将少量抽象原语组合为结构化程序可实现跨模态、跨尺度的生成式设计任务覆盖DNA、RNA、蛋白质、配体及其相互作用。Proto可便捷地将预测模型整合至生成工作流中本文基于该框架设计了可变剪接内含子并在人类细胞系中完成实验验证。Proto原生支持多目标优化可用于设计启动子-阻遏子对在合成蛋白-DNA设计领域取得了领先的实验成功率。结合AI智能体Proto可通过自然语言指令实现复杂通路与调控逻辑的定义。本文开源发布Proto全套工具包括软件基础设施与用户界面以推动生成式生物编程的广泛应用。brianhiestanford.edu#生成生物学 #可编程生物设计 #高级编程语言 #多模态生成模型 #多目标优化 #AI智能体引言图1Proto系统概述(A) Proto整合DNA、RNA、蛋白质、配体及其相互作用的生成式与预测模型并与功能持续升级的大语言模型、AI编程智能体联动通过组件组合实现多目标、多模态、多尺度的生物设计。(B) Proto在功能与语义层面定义模块化与组合性借助生成式建模在抽象层级与底层生物序列间搭建桥梁同时保证全局功能一致性与之相对传统生物编程依靠直觉、启发式规则或试错拼接具象序列元件设计鲁棒性较差。(C) Proto语言的4类原语——序列、约束、生成器、优化器对应自然与实验生物设计中的同类概念同时可表述为能量基模型的组成因子对应目标分布π(x)∝p(x)exp(−f(x)/T)其中yf(x)。(D) Proto中生成器提出候选序列约束对序列打分优化器引导生成向低能量更优设计收敛Proto还提供高层交互接口包括Python应用程序接口本地库与云端托管版、图形用户界面以及对接通用AI编程智能体的智能体接口。(E) Proto整体工作流将生物设计任务编码为1组与序列关联的约束和生成器优化算法组合各生成模型将全部约束编译为统一能量函数最终输出设计完成的序列集合。结果Proto复现已发表设计任务图2基于Proto编程实现多样化设计任务(A−C) 从头设计对称蛋白同源寡聚体以均匀突变为生成器ESMFold预测结构的置信度、对称性、球形度为约束Metropolis-Hastings模拟退火为优化器A为程序示意图B为优化轨迹最终得到3聚体到8聚体的预测对称组装体(C)。(D−F) 基于Protein Hunter的从头蛋白单体设计交替执行Boltz-2结构预测约束与ProteinMPNN序列重设计生成器采用循环优化器(D)设计随循环迭代收敛至高结构置信度 (E, F)。(G−I) 多模态CRISPR-Cas系统设计以微调后的Evo 1为生成器生物信息学过滤与结构预测为约束采用拒绝采样流程筛选候选序列(G, H)从48,000条采样基因座中得到40条合格设计包含推定的Cas9蛋白与向导RNA (I)。(J−L) 多千碱基级染色质可及性设计以Evo 2为自回归生成器Enformer与Borzoi为可及性约束集束搜索算法为优化器 (J, K)得到1条20 kb的DNA序列预测整合入小鼠基因组后可编码摩尔斯电码PROTOAUROC0.98(L)。(M−O) 基于Germinal的从头抗体互补决定区设计对AlphaFold 2结构损失与AbLang抗体语言模型损失做多目标优化以梯度下降为优化器(M, N)最终得到VHH与scFv骨架的PD-L1结合剂AlphaFold 2置信度较高pLDDT 0.8ipTM 0.6(O)。细胞系特异性基因调控的内含子设计图3基于Proto设计人类细胞系中的可变剪接内含子(A) 以SpliceTransformer供体-受体打分、AlphaGenome细胞系特异性为约束在多种质粒与人类基因组背景下评估以降低上下文依赖变异每轮生成中均匀突变生成器在组成型剪接内含子或随机初始序列上提出突变MCMC优化器决定是否接受提议。(B) 归一化能量能量总分除以约束数量随优化迭代的变化曲线所有设计方向SH-SY5Y正确剪接/K562错剪、SH-SY5Y错剪/K562正确剪接、HepG2正确剪接/K562错剪、HepG2错剪/K562正确剪接的轨迹均收敛。(C) 两两相似度评分证实实验测试的设计内含子在组内与组间均保持序列多样性。(D) 脱靶细胞中内含子滞留会封闭下游效应元件靶细胞中内含子切除则可启动效应蛋白翻译。(E) 筛选ProtoIntron的质粒构建示意图将ProtoIntron插入mScarlet编码序列下游带恒定条形码用于异构体定量采用双报告载体eGFP由EF1α独立驱动成功剪接可恢复全长mScarlet的翻译。(F) 通过RNA测序对转染细胞系的异构体比例与剪接变异度进行定量。(G) 各构建体的剪接产物比例热图证实多组细胞系组合、多种设计方向下均存在细胞差异性剪接。PI为ProtoIntron缩写。(H) 代表性差异剪接内含子的AlphaGenome预测剪接位点使用率与实测的隐蔽剪接、经典剪接事件吻合度较高而预测RNA表达量偏差相对更大。(I) 荧光显微镜测得的mScarlet/eGFP比值整体验证了蛋白水平的差异性效应元件翻译。S为SH-SY5YK为K562H为HepG2PC为HBB2c内含子阳性对照NC为反向HBB2c内含子阴性对照。(J) 代表性荧光显微图像展示不同设计组中mScarlet表达的细胞系特异性差异。合成启动子-阻遏子相互作用设计图4基于Proto设计合成启动子-阻遏子对(A) ProtoPromoter生成流程第1阶段使用Evo 2与拒绝采样生成候选启动子序列筛选指标包括预测启动子活性、σ70盒质量、无天然转录因子基序以优化启动子强度与正交性第2阶段通过均匀突变与MCMC优化器精炼序列并引入回文操纵子位点。(B) ProtoRepressor生成流程第1阶段使用Evo 2与天然序列经拒绝采样筛选出AlphaFold 3、Boltz-2预测结合活性达标的初始阻遏子序列第2阶段采用LigandMPNN与拒绝采样评估基序接触、Rosetta蛋白-DNA结合指标第3阶段通过LigandMPNN与MCMC优化精炼结合界面引入NA-MPNN、DeepPBS、AlphaFold 3特异性指标提升靶向特异性。(C) 设计的ProtoPromoter与天然σ70启动子的序列标识图展示−35与−10盒的保守性。(D) 天然序列、ProtoPromoter、随机打乱序列与σ70启动子的序列一致性分布ProtoPromoter 多样性高与天然σ70启动子序列相似度低。(E) 细菌eGFP报告实验示意图用于ProtoPromoter功能筛选ProtoPromoter克隆至eGFP上游以荧光强度表征转录活性。(F) ProtoPromoter的eGFP表达倍数排序虚线标注J23119组成型启动子强度、10倍变化阈值、PLtetO1强度与无启动子阴性对照ProtoPromoter整体活性强多数表达倍数超10倍最强启动子与J23119相当或接近。(G) 综合设计能量与eGFP倍数呈中度负相关验证了多目标打分函数对活性启动子的筛选能力。误差线为均值标准误。(H) ProtoRepressor筛选实验示意图功能性ProtoPromoter驱动eGFP表达作为报告系统候选阻遏子由独立的阿拉伯糖诱导型启动子表达功能性阻遏子会抑制启动子活性、降低eGFP水平无功能变体则不影响eGFP表达。(I) 14个ProtoPromoter对应的实验筛选阻遏子最高BLAST氨基酸序列一致性分布表明生成的阻遏子序列新颖性高纵轴为随机抖动值ProtoRep家族指靶向同一ProtoPromoter的阻遏子候选集。(J) 流式细胞术测得的各启动子-阻遏子组合的log2倍数抑制效果颜色区分阻遏子家族多数阻遏子相对阴性对照均有显著抑制效果。误差线为均值标准误。Ctrl为tetR阳性与非靶向对照NS为相对倍数 1无显著性。(K) 顶级阻遏子候选在单操纵子、双操纵子构型下的抑制倍数增加第2个操纵子位点可提升抑制强度对照为组成型λ阻遏子cI、tetR与非靶向tetR对照。##表示与cI相比P0.01**表示与tetR相比P0.001。柱形为均值圆点为独立重复。(L) 交叉抑制热图展示候选阻遏子对同源与非同源启动子的log2倍数抑制效果强阻遏子普遍对靶标启动子具有特异性。(M) ProtoRepressor 40_2与44_9的蛋白-DNA复合物AlphaFold 3预测结构内嵌图展示识别螺旋插入DNA大沟形成碱基与骨架接触。复杂生物系统的智能体编程图5AI智能体辅助实现复杂生物设计的Proto编程(A) 可人机交互的通用AI编程智能体能将自然语言调控指令转化为Proto程序既帮助领域知识有限的用户编写基础程序也拓展了专业用户可实现的设计复杂度。(B−D) 蛋白质组规模的复合物多样化改造。(B) 多样化模块示意图以野生型人类序列为各亚基种子ESM3提出变体以各亚基的结构置信度ESMFold pLDDT/pTM、折叠一致性TM-score、相对天然结构的RMSD、序列复杂度为约束运行联合MCMC优化器最终由AlphaFold 3对完整多聚体打分。(C) 有已知实验结构的设计复合物其AlphaFold 3预测结构相对天然结构的RMSD中位数1.9 Å、TM-score中位数0.80以及AlphaFold 3结构置信度pTM中位数0.65、pLDDT中位数71的分布。(D) 代表性AlphaFold 3预测复合物及功能类别标注展示本次多样化改造的规模。(E−K) β2肾上腺素信号通路的重设计。(E) 通路示意图涵盖β2AR、Gαβγ、腺苷酸环化酶、PKA、CREB1与CREB响应DNA元件在ESM3/AlphaFold 3多样化基础模块上叠加功能特异性约束肾上腺素、ATP、CBP、CREB DNA背景等无生成器的元件在优化中保持固定。(F) β2AR-Gs复合物上、结合肾上腺素的β2AR下的AlphaFold 3预测结构与实验结构比对。(G) BioEmu构象集成分析显示设计的Gαs可占据2种已知天然构象。(H) Gαs-腺苷酸环化酶复合物上、结合ATP的腺苷酸环化酶下的预测结构与实验结构比对。(I) 设计的PKA调节亚基可占据2种天然构象。(J) PKA调节亚基与催化亚基异2聚体的预测结构与实验结构比对。(K) 上图为ESM3多样化的CREB1、Evo 2生成的DNA、天然 CBP形成的复合物预测结构与CREB1-DNA、CREB1-CBP天然互作结构比对下图为Borzoi预测的Evo 2生成DNA元件上的CREB1 ChIP-seq信号。(L−R) 非小细胞肺癌选择性治疗效应元件。(L) 多层级慢病毒门控策略设计EGFR靶向微型蛋白结合剂介导病毒优先进入肿瘤细胞NSCLC特异性增强子与启动子驱动HSV-TK转录内嵌内含子实现HSV-TK的NSCLC选择性剪接3UTR微RNA应答元件阵列抑制脱靶细胞的残留表达。(M) 包含5个设计阶段的Proto程序① EGFR胞外域微型蛋白结合剂设计② NSCLC特异性增强子设计③ NSCLC特异性启动子设计④ NSCLC选择性内含子设计⑤ 3UTR开关设计约束涵盖结构置信度、表观基因组活性、启动子信号、剪接位点使用率、微RNA介导抑制。(N) 设计的EGFR结合微型蛋白与EGFR胞外域复合物的AlphaFold 3预测结构显示高结构置信度与多处界面接触。(O) AlphaGenome预测设计增强子在A549与健康肺组织的H3K27ac、H3K4me1信号GAPDH整合背景显示增强子活性具有A549偏向性。(P) AlphaGenome预测设计启动子在A549与健康肺组织的H3K4me3、CAGE、Puffin启动子活性CAGE与Puffin显示启动子末端存在转录起始位点健康肺组织活性更低。(Q) AlphaGenome预测的NSCLC选择性HSV-TK内含子剪接位点使用率与RNA-seq信号显示A549中内含子切除倾向略高于健康肺组织。(R) 设计的3UTR关闭开关健康肺组织中TargetScan与miRanda预测的微RNA结合位点活性更强同时避开NSCLC高表达微RNA靶点且AlphaGenome预测选定微RNA应答元件处RNA信号较低。数据、代码Proto语言实现与Python应用程序接口https://github.com/evo-design/proto-languageProto工具层实现与Python应用程序接口https://github.com/evo-design/proto-toolsProto网页交互界面可访问https://proto.evodesign.org/详细总结思维导图参考A high-level programming language for generative biology with Protodoi: https://doi.org/10.64898/2026.06.22.733870260623Proto.pdf注AI辅助创作如有不当欢迎指出。内容仅供参考不构成任何建议。