第04篇:开发工具链与部署环境——让训练在“别人电脑上“也能跑
前置知识:基本的命令行操作 / 第03篇的 PyTorch 训练代码引言:为什么代码不是全部?前03篇我们写了数学原理、模型代码、训练循环。但一个残酷的事实是:能在你笔记本上跑的代码,在别人电脑上大概率跑不起来。环境不一致、依赖版本冲突、GPU 驱动不匹配、训练一半断连——这些"非代码问题"消耗了工程师大量的时间。如果你只会写model.train()而不会搭建环境,你的模型再大也跑不到生产环境去。这一篇不讲模型架构,专门解决工程基础设施问题:Docker:一次构建,到处运行tmux:训练不会因为断网而中断Git:管理代码和模型的版本GPU 监控:知道自己有多少"子弹"一、Git 工作流:从"一个人的提交"到"团队协作"1.1 分支策略大模型团队常用的分支策略:main ← 稳定发布分支,只合入经过 review 的代码 ├── dev ← 开发分支,日常开发都在这里 │ ├── feat/experim