拿到海光DCU先做什么3步快速验证环境跑通第一个大模型很多朋友刚拿到DCU服务器或者超算账号第一反应不知道从哪下手要么直接乱装包踩一堆版本坑要么服务跑不起来不知道问题出在哪。这篇做个浅度实操指南从环境校验到跑通第一个大模型代码直接复制就能用新手也能快速上手。一、1分钟一键校验基础环境跑模型之前先确认环境基线DTK版本、驱动、PyTorch三者只要有一个对不上就会出现“能启动但跑不快”甚至直接报错的问题。把下面这段保存成check_env.sh直接运行能一次性查完核心项#!/bin/bashecho 1. DCU硬件状态 rocm-smi--showuse|head-10echo-e\n 2. DTK编译器版本 hipcc--version2/dev/null|grepHIP version||echo未找到hipcc请检查DTK环境变量echo-e\n 3. PyTorch设备识别 python3EOF import torch print(fPyTorch版本: {torch.__version__}) print(fCUDA可用状态: {torch.cuda.is_available()}) print(f检测到DCU数量: {torch.cuda.device_count()}) if torch.cuda.is_available(): prop torch.cuda.get_device_properties(0) print(f设备名称: {prop.name}) print(f总显存: {prop.total_mem / 1024**3:.1f} GB) EOF正常输出会显示DCU卡数、显存大小、PyTorch版本。如果torch.cuda.is_available()返回False优先检查DTK环境变量是否加载以及PyTorch版本是否和DTK匹配。二、10行代码跑通第一个大模型DCU对PyTorch的兼容度很高标准模型的推理代码基本不用改把原来CUDA环境的代码搬过来就能跑。下面以Qwen2-1.8B为例完整代码可直接运行fromtransformersimportAutoModelForCausalLM,AutoTokenizer# 加载模型与分词器model_pathQwen/Qwen2-1.8B-InstructtokenizerAutoTokenizer.from_pretrained(model_path)modelAutoModelForCausalLM.from_pretrained(model_path,torch_dtypefloat16,# 半精度节省显存DCU原生支持device_mapauto# 自动分配到DCU设备)# 推理生成prompt请简单介绍海光DCU的主要用途inputstokenizer(prompt,return_tensorspt).to(cuda)outputsmodel.generate(**inputs,max_new_tokens200,temperature0.7)print(tokenizer.decode(outputs[0],skip_special_tokensTrue))不需要改任何设备接口代码里依然写cuda底层会通过ROCm适配层自动调度到DCU上这也是DCU迁移成本低的核心原因。三、新手必避的2个入门坑1. 不要直接pip install torch普通PyTorch默认适配CUDA装到DCU环境里会识别不到设备。一定要用对应DTK版本的适配wheel包比如DTK 26.04对应ROCm 6.x的PyTorch安装包版本错了大概率跑不起来。2. 运行前先加载DTK环境变量很多环境里DTK不会默认加载直接跑代码会报库找不到。可以把下面两行加到~/.bashrc里或者脚本开头exportPATH/opt/dtk/bin:$PATHexportLD_LIBRARY_PATH/opt/dtk/lib:/opt/dtk/lib64:$LD_LIBRARY_PATH路径根据实际DTK安装位置调整超算平台通常在/public/software/compiler/rocm/目录下。最后一点感受浅度使用下来DCU的入门门槛其实很低标准模型、常规推理基本能做到无缝迁移不用大改代码。真正的门槛集中在自定义算子、深度性能调优、小众依赖适配这些进阶场景。如果只是做常规大模型部署、微调只要版本对齐一周内完全可以完成从环境搭建到生产上线。