海光异构卡dcu 64BW *2 ZeRO-2 异构卡2 16g*4 zero-3微调deepseekf1-qwen2-14b模型速度对比-尧图建网站

海光异构卡dcu 64BW2 ZeRO-2 异构卡2 16g4 zero-3微调deepseekf1-qwen2-14b模型速度对比说明 16g*4 zero-3 没有办法启用flash-attention,报错https://www.scnet.cn/From国家超算中心_code/deepseed加速.md:初始速度 (bs2, 无ZeRO-2优化): ~17 s/it (line 476)启用FA2后 (bs4, ZeRO-2 CPU Offload): 9.05 s/it (line 12)关闭CPU Offload (bs8, ZeRO-2): ~7 s/it (line 476, 501)优化目标 (bs8, ZeRO-2): 5~6 s/it (line 34, 396)From经验1 zero3 变得好慢.txt:.16*4 zero-3: 大概 256s/it (line 2) - this is 4x16 cards, different setupSo the user is asking about “异构卡 BW 64 两张” - this refers to the DCU cards at 曙光 (Shuguang) with 2 cards, BW64 model.From the records:2张 BW64 (DCU异构卡), bs2, 无优化: ~17 s/it2张 BW64 (DCU异构卡), bs4, DeepSpeed ZeRO-2 CPU Offload FA2: ~9.05 s/it2张 BW64 (DCU异构卡), bs8, DeepSpeed ZeRO-2 (无CPU Offload) FA2: ~7 s/it2张 BW64 (DCU异构卡), ZeRO-2: 大概 8s/itLet me present these findings clearly to the user.根据你的历史记录以下是**「异构卡 BW64 × 2 张曙光超算中心 DCU」** 训练 14B 模型的速度演变训练速度记录汇总阶段配置速度 (s/it)来源最初bs2无 DeepSpeed无 FA2~17 s/itdeepseed加速.md L476中间bs4ZeRO-2 CPU Offload FA2 启用9.05 s/itdeepseed加速.md L12优化后bs8ZeRO-2关闭 CPU Offload FA2~7 s/itdeepseed加速.md L476/L501稳定态bs4ZeRO-2 FA28~9 s/itdeepseed加速.md L199另外一条对比记录16*4 zero-3 大概 256s/it— 这是 4 卡 × 16 节点的 ZeRO-3 多节点配置速度极慢是因为 NCCL 被限制走了 socket loopback禁用了 SHM/P2P。速度优化路径17 s/it (bs2, 原始) → 9 s/it (bs4, ZeRO-2 CPU Offload FA2) → 7 s/it (bs8, 关闭CPU Offload FA2) → 5~6 s/it (bs8, 进一步优化的目标)核心结论曙光 BW64 × 2 张异构卡训练 DeepSeek-R1-14B LoRA 微调稳定速度大约在 7~9 秒/步取决于 batch size 大小和是否开 CPU Offload。16g*4 zero-3微调deepseekf1-qwen2-14b 不启用flash-attention ,160s/步bs是batch size批大小的缩写在深度学习训练中非常常见。具体解释bs2即batch_size2这意味着每次前向/反向传播处理的样本数量为 2 个。训练时模型会在每个batch批次中同时处理这 2 个样本并累积梯度后再更新权重。结合你的训练场景14B 模型 LoRA 双卡 DCUbatch_size设置含义显存占用训练速度 (s/it)bs2每次处理 2 个样本梯度累积步数多较低~17 s/itbs4每次处理 4 个样本中等~9 s/itbs8每次处理 8 个样本较高~7 s/it为什么bs越大速度越快处理样本越多GPU 并行计算效率越高同时减少了梯度同步如gradient_accumulation_steps的通信开销。但bs过大可能导致显存溢出如你在经验1 zero3 变得好慢.txt中提到的 OOM。实操建议如果显存足够如rocm-smi显示每卡占用 28GB优先选择bs8速度更快。如果显存紧张可降低到bs4或bs2但需增加gradient_accumulation_steps保持总 batch 不变。

相关新闻

KiCad导入外部线路图实战：从Altium/Eagle/EDIF到完整项目迁移

Marketch终极指南：如何将Sketch设计秒变HTML代码

如何理解 AI Agent 的“驾驭”难度？

最新新闻

智慧树刷课插件：3分钟实现网课自动化学习的终极指南 [特殊字符]

Windows系统文件uudf.dll丢失找不到问题解决

如何在Windows平台高效运行macOS：跨平台虚拟化终极指南

朋友圈官方信息流广告投放 让你的营销变得更轻松、更高效

2026年，这些目前知名的水涡流测功机供应商，你都了解吗？

以数智赋能，绘就新时代“数字人大”与“数字政协”新图景

日新闻

2026最全面的AI大模型学习路线，适合零基础、大学习、想转行的

赛马娘DMM版中文汉化与性能优化全攻略：告别日文界面与卡顿烦恼

终极指南：3分钟学会用uesave编辑虚幻引擎游戏存档

周新闻

月新闻

朋友圈官方信息流广告投放让你的营销变得更轻松、更高效