Verkko 简介Verkko 是一款杂合基因组组装流程专门用于利用精准长读长测序数据PacBio HiFi、牛津纳米孔双链测序、HERRO 纠错或 Hifiasm 纠错的牛津纳米孔单链测序数据结合牛津纳米孔超长读长完成端粒到端粒的完整基因组组装。Verkko 一词源自芬兰语本意是网、网状、图谱。https://github.com/marbl/verkko #官网组装核心流程调用 Canu 校正测序读长中残留错误借助 MBG 构建多重德布鲁因图通过 GraphAligner 将纳米孔长读长序列比对至组装图谱先利用 HiFi 精准读长逐步拆解图谱环结构与复杂缠绕区域再依托已比对的纳米孔读长进一步优化最后调用 Canu 一致序列模块生成最终重叠群一致序列。目录安装教程 | 快速上手 | 输出文件 | 测试数据集安装推荐使用包管理器一键安装wget -c https://github.com/marbl/verkko/releases/download/v2.3.2/verkko-v2.3.2.tar.gzconda create -n verkko -c conda-forge -c bioconda -c defaults verkko也可下载正式版源码手动编译安装。源码编译安装使用Verkko 基于Snakemake流程框架开发通过封装脚本解析运行参数并自动生成verkko.yml配置文件。基础运行命令verkko -d 工作目录 --hifi HiFi测序数据 [--nano 纳米孔测序数据]直接输入verkko不带任何参数可查看全部运行参数及简要说明。 程序最低运行要求必须通过--hifi传入高精度长读长数据该参数可单独传入 PacBio HiFi、纳米孔双链数据也可二者组合使用。强烈建议搭配--nano传入超长测序序列同时加入分型定相数据见下文。 若使用 HERRO 纠错序列纠错序列填至 --hifi原始未纠错序列填至 --nano。 Verkko 最终输出完成分型定相的支架序列不会主动生成主序列或单倍体精简组装结果。分型定相Verkko 可借助Rukki工具依托家系三联体数据或 Hi-C 互作数据实现拓展型序列分型。三联体家系分型模式需提前构建 Merqury 单倍型 k-mer 数据库并传入程序verkko -d asm \ --hifi hifi/*.fastq.gz \ --nano ont/*.fastq.gz \ --hap-kmers 父本kmer数据库 母本kmer数据库 trioHi-C 染色质互作组装模式通过--hic1、--hic2分别传入双端测序数据verkko -d asm \ --hifi hifi/*.fastq.gz \ --nano ont/*.fastq.gz \ --hic1 hic/*R1*fastq.gz \ --hic2 hic/*R2*fastq.gzPoreC 测序组装模式使用--porec参数传入数据verkko -d asm \ --hifi hifi/*.fastq.gz \ --nano ont/*.fastq.gz \ --porec porec/*fastq.gzHi-C 与 PoreC 组装方案目前主要在人类及灵长类基因组中完成验证。 组装非人类物种、测序深度不均时可调整--rdna-tangle、--uneven-depth、--haplo-divergence等参数使用遇问题可提交项目 issue 反馈。支架搭建当传入 Hi-C/Pore-C 数据时程序会启用独立支架构建模块区别于仅靠三联体数据的简易定相连通。 Verkko 依托组装图谱粗略估算序列间隙长度间隙预估长度100 kb写入实际预估数值无法预估或间隙更大统一填充 100 kb 长度的 N 碱基支架组装模块会识别序列中端粒位置依赖 seqtk 端粒检测工具若研究物种端粒重复基序不同于脊椎动物 CCCTAA可通过--telomere-motif手动指定。可通过--ref传入同种或近缘物种基因组作为组装参考指引非参考序列依赖型组装仅作辅助搭建支架使用。 该模块依赖二倍体基因组结构不支持单倍体组装参数 --haploid单倍体组装推荐独立工具 YaHS。 目前暂不支持多倍体基因组分型与支架构建。自定义图谱路径生成一致序列若已有组装结果想自主调整基因组图谱节点拼接方式可使用--paths参数按GAF 路径格式传入自定义拼接路径文件每行一条拼接路径。 使用该功能需指定原有组装目录--assembly与输出目录-d二者不可相同同时提供原始测序数据。集群调度运行默认本地单机运行全流程添加--grid参数可启用调度队列支持 SGE、Slurm、LSF 调度系统PBS 未实测。 仅调度计算任务上集群、流程调度仍本地执行若需流程与计算全部提交集群可将命令写入脚本批量提交。 Conda 环境用户可通过--python指定 conda 内置 Python 解释器。集群资源精细化调控流程各阶段 CPU、内存、运行时长均有默认配置高级用户可通过--阶段名-run自定义资源 也可通过--snakeopts直接透传 Snakemake 原生参数管控集群资源--snakeopts --dry-run试运行预览所有待执行任务--snakeopts --cores 1000限制集群最大总核心数--snakeopts --touch刷新文件时间戳跳过已完成步骤修改组装中间文件、重启流程前建议先试运行校验执行逻辑。污染序列过滤通过--screen参数可批量剔除组装结果中常见污染序列格式--screen 污染物种名 污染序列fasta文件内置人类组装专属快捷过滤参数--screen-human-contaminants一键过滤核糖体 DNA、线粒体 DNA、EB 病毒等常见人类样本污染源。 程序会依据测序覆盖度筛选标准代表序列对环状序列完成环化修正消除首尾自相似冗余序列。命令行参数verkko -d 输出目录 --hifi HiFi测序数据 --nano 纳米孔测序数据必选参数-d output-directory指定输出目录存放中间文件与最终组装结果不存在则自动创建--hifi files ...传入 PacBio HiFi 测序文件 支持 fasta/fastq原生 /.gz/.bz2/.xz 压缩格式可批量通配*.gz--nano files ...传入牛津纳米孔测序文件 支持 fasta/fastq/sam/bam 多种格式压缩格式与批量传入规则同上算法功能参数--no-correction跳过 Canu 对 HiFi 序列的纠错步骤--no-nano仅用 HiFi 组装不使用纳米孔数据--hap-kmers依托 Rukki 结合亲本 k-mer 数据库完成序列分型支持三联体 / Hi-C / 链特异性测序三种模式--hic1 / --hic2分别传入 Hi-C 双端测序数据左右端文件顺序必须一一对应--porec传入 Pore-C 染色质互作测序数据--no-rdna-tangle关闭核糖体 DNA 复杂缠绕区域优化组装功能--telomere-motif自定义端粒重复序列默认脊椎动物CCCTAA--ref传入参考基因组仅作支架搭建辅助引导非参考依赖组装--uneven-depth关闭杂合区域测序深度校正算法--haplo-divergence设置单倍型序列最大分化度人源默认 0.05远缘物种适当调高范围 0~0.2--screen指定序列批量过滤污染序列--screen-human-contaminants一键过滤人源常见污染rDNA、线粒体、EB 病毒--paths导入 GAF 格式自定义拼接路径结合已有组装结果重新生成目标序列运行环境与计算资源参数--python / --perl指定调用的 Python、Perl 解释器路径--mbg / --graphaligner等手动指定各类依赖软件路径默认调用环境内置版本--cleanup组装完成自动删除中间文件--no-cleanup保留全部中间文件默认开启--local本地服务器运行默认模式--local-memory设置本地运行最大占用内存GB--local-cpus指定使用 CPU 核心数默认全核调用--grid提交任务至集群调度支持 SGE/Slurm/PBS/LSF--snakeopts追加 Snakemake 原生运行参数参数必须加引号各类--xxx-run自定义组装各步骤 CPU、内存、运行时长资源限制高级调参专业用户可自定义 HiFi 纠错、德布鲁因图构建、纳米孔序列拆分、序列比对等流程的 k-mer 大小、比对阈值、序列长度过滤等精细化参数本地运行指定 100G 内存 完整示例verkko \ -d verkko_assembly \ --hifi hifi/*.fastq.gz \ --nano ont/*.fastq.gz \ --local-memory 100纯 HiFi 组装无纳米孔 100G 内存verkko \ -d verkko_hifi_asm \ --hifi hifi/*.fastq.gz \ --no-nano \ --local-memory 100搭配指定 CPU 核心例如 32 核 100G 内存verkko \ -d verkko_assembly \ --hifi hifi/*.fastq.gz \ --nano ont/*.fastq.gz \ --local-cpus 32 \ --local-memory 100输出文件说明最终组装序列asm/assembly.fasta同聚物压缩格式组装图谱asm/assembly.homopolymer-compressed.gfa 覆盖度统计 csv 文件序列与图谱节点对应关系表asm/assembly.scfmap组装中间图谱与覆盖度文件asm/*/unitig-*系列文件开启分型定相后新增单倍型序列assembly.haplotype[12].fasta、分型注释表assembly.colors.csv、拼接路径表assembly.paths.tsv开启污染过滤后新增剔除污染序列文件与筛选后的标准代表序列文件测试数据集快速验证安装下载大肠杆菌 K12 测试数据并一键组装curl -L https://obj.umiacs.umd.edu/sergek/shared/ecoli_hifi_subset24x.fastq.gz -o hifi.fastq.gz curl -L https://obj.umiacs.umd.edu/sergek/shared/ecoli_ont_subset50x.fastq.gz -o ont.fastq.gz verkko -d asm --hifi ./hifi.fastq.gz --nano ./ont.fastq.gz引用Rautiainen M, Nurk S, Walenz BP, Logsdon GA, Porubsky D, Rhie A, Eichler EE, Phillippy AM, Koren S. Telomere-to-telomere assembly of diploid chromosomes with Verkko. Nat Biotech. (2023).doi:10.1038/s41587-023-01662-6Antipov D, Rautiainen M, Nurk S, Walenz BP, Solar SJ, Phillippy AM, Koren S. Verkko2 integrates proximity ligation data with long-read De Bruijn graphs for efficient telomere-to-telomere genome assembly, phasing, and scaffolding. Genome Research (2025).10.1101/gr.280383.124