“难题揭榜”第100期-华为云难题第五期全文整理发布时间2024-07-08开篇导语欢迎大家毛遂自荐、踊跃揭榜。对于解决难题或提供重大思路的会给予及时激励并张榜公布。如有任何问题请直接与接口专家联系如有其它建议可与总架构师顾炯炯 dennis.guhuawei.com 联系。难题1已揭榜标题[AI平台-高可靠] AI集群中的任务调度和碎片卡整理技术一、出题组织E服务产品部。接口专家许天锡 xutianxihuawei.com唐盛军 tangshengjunhuawei.com吕俊龙 lyujulonghuawei.com陈挺 chenting53huawei.com。二、技术背景AI模型训练规模持续扩大硬件资源规模同步扩张业界普遍构建大规模集群多规格训练任务混合运行以此提升资源利用率。AI基础设施普遍采用裸机单机多卡单机八卡架构训练/推理任务对卡数需求存在差异单卡、2卡、4卡、8卡、N*8卡作业会混杂在同一集群。训练与推理作业分批提交作业生命周期长短不一。即便调度初期做到紧凑装箱随着任务陆续结束集群会产生大量零散GPU碎片。整体资源充足时多卡作业也因凑不齐连续整卡资源无法启动最终资源大量浪费。现场统计空闲卡数去除故障卡占比23.8%碎片卡数凑不齐8卡占比3.8%合计资源浪费达到1/4故障卡占比1.9%三、技术挑战调度矛盾单作业调度追求局部最优作业队列全局调度追求整体最优二者很难同时兼顾全局最优会拉长单个作业的等待时长。碎片整理路径训练任务支持Checkpoint断点续跑可以先暂停作业、重新调度再恢复运行。碎片作业的重调度时机与路径会直接决定作业中断时长。四、业界现有方案任务调度单任务调度使用紧凑装箱策略队列调度等待少量时长累积一批作业再批量调度取得局部优化硬件隔离利用GPU切片MPS、MIG拆分资源多队列调度业界ML任务调度主流方案。碎片整理以用户手动触发重调度为主要手段。五、技术诉求调度效率在随机到达、周期规律两种作业场景下给出调度时长与资源利用率的形式化公式与数学证明明确不同等待时长对排队时延、资源利用率的权衡关系。碎片整理在复杂碎片场景下设计碎片卡时机策略重调度路径策略在资源利用率最大化的前提下把对用户业务中断影响降到最低。仿真验收指标集群环境10台8卡节点连续24小时仿真任务随机多规格多卡训练作业目标资源利用率从当前基线提升至70%~90%约束任务排队时长增加值 0.2。华为提供第一批仿真数据集后续放出第二批更贴近生产的真实数据集用于二次验证。参考文献https://pages.run.ai/hubfs/PDFs/Improve-GPU-Utilization-ebook.pdfhttps://developer.nvidia.com/blog/improving-gpu-utilization-in-kubernetes/难题2已揭榜标题[LLM SFT] 行业大模型SFT数据动态配比技术一、出题组织EI服务产品部。接口专家蒋昊 jianghao66huawei.com王宇飞 wangyufei1huawei.com陈挺 chenting53huawei.com朱国杰 zhuguojie2huawei.com。二、技术背景SFT监督微调是大模型落地行业场景的核心手段政务、金融、汽车、医疗、工业五大行业任务分布差异极大。行业数据普遍稀缺必须依靠SFT提升模型在垂直高价值场景的效果是商业化落地的核心竞争力。现存两大核心痛点知识遗忘在连续多轮SFT任务中模型会覆盖掉前序任务学到的行业知识仅在最终任务调优会拉高应用成本同时模型稳定性变差。任务冲突为了防止遗忘把多任务数据混合训练容易出现模型学习冲突出现“顾此失彼”无法同时兼顾多个业务任务效果。现状行业普遍采用固定比例混合多任务数据集不仅无法解决冲突与遗忘还额外增加了预训练SFT来回反复迭代的训练成本。多源异构数据进一步加剧了遗忘与任务冲突。三、技术挑战知识遗忘连续多轮SFT时模型灾难性覆盖历史行业知识若只做最后一轮微调落地成本高、稳定性差。任务冲突多任务数据混训引发参数冲突出现“顾此失彼”多业务任务无法同时兼顾最优效果。固定配比策略僵化静态数据混合无法适配不同任务的数据分布与模型能力差异训练迭代开销大。四、当前业界结果主流方案固定比例混合多任务数据集依靠经验设定配比。缺陷既无法缓解任务冲突也无法抑制知识遗忘多源数据叠加进一步恶化效果还产生额外训练成本。五、技术诉求核心目标结合SFT数据分布、模型当前收敛能力提供数学优化算法实现数据配比动态优化训练过程中自适应调整各任务数据权重最大化学习能力同时兼顾多任务效果不产生额外计算开销。实验环境基座模型LLaMA-2-7B、Pangu-38B评测数据集GSM8K RFT、CodeAlpaca、ShareGPT评测基准HumanEval、GSM8K、MT-Bench。量化指标对比固定比例基线收敛后平均效果指标相对提升 5%收敛效率每GPU-day收益提升5倍以上遗忘率降低至 5%相比单数据集SFT的效果下跌比例。形式化目标函数max⁡T(r)(∑n1Npn(r(t))E(r(t)))\max_{T(r)}\left(\sum_{n1}^{N}p_n(r(t))E(r(t))\right)T(r)max​(n1∑N​pn​(r(t))E(r(t)))其中r(t)r(t)r(t)t时刻的数据配比pnp_npn​模型收敛后在第n个任务上的效果EEE模型收敛效率。参考文献[1] Dong G, Yuan H, Lu K, et al. How Abilities in Large Language Models are Affected by Supervised Fine-tuning Data Composition[J], 2023.[2] Zhao W X, Zhou K, Li J, et al. A survey of large language models[J], 2023.难题3已揭榜标题[数据]如何利用生成数据提升行业场景下的视觉理解能力一、出题组织EI服务产品部。接口专家蒋东生 jiangdongsheng1huawei.com徐航 xu.hanghuawei.com王兴兴 wangxinghao1huawei.com。二、技术背景高质量标注数据是监督视觉训练的核心燃料但人工标注成本极高可控数据生成成为行业破局方向。华为云落地项目中Diffusion模型、3D生成模型可以生成指定坐标、指定类别的行业对象补齐电力、铁路等行业的数据缺口。业界现有数据增强方案只能小幅提升精度在工业垂直场景提升有限通用Diffusion图像生成技术无法做到行业指令可控生成。案例铁路零件缺陷生成、电网杆塔实景生成现有方案难以精准控制目标物体位置与类别。三、技术挑战流水线冗长如X-Paste方案需要串联4个子模型才能生成最终图像链路长、耗时高多级模型带来误差累积。通用性差现有流水线只针对检测、分割单一任务定制缺少一套通用流水线无法适配不同视觉任务同时面向多行业的微调成本居高不下。可控性差行业场景下指令遵循能力弱无法按照用户指令精准生成指定位置、指定类别的目标物体。四、当前业界结果精度上限现有方案在LVIS数据集上仅能带来2个点AP提升。基线数据LVIS| Method | APbox^{box}box| APmask^{mask}mask| APrbox^{box}_{r}rbox​| APrmask^{mask}_{r}rmask​||-----------------------|------------|-------------|----------------|-----------------|| baseline | 34.5 | 30.8 | 24.0 | 21.6 || baselineExternal Data| 35.3 | 31.7 | 25.3 | 27.4 || Copy-Paste (2022) | 35.4 | 31.5 | 29.5 | 22.1 || Detic (2022) | 35.3 | 31.7 | 27.5 | 25.1 || X-Paste | 36.6 | 32.7 | 28.5 | 26.5 |五、技术诉求通用性流水线支持检测、分割等多类视觉任务行业微调调优开销相比业界SOTA降低5%。量化精度基于SOTA检测模型使用生成数据做数据增强在LVIS数据集实现AP提升≥5个点。可控性数据生成链路支持用户指定目标物体的生成位置与类别。难题4已揭榜标题[行业模型] 基于图数据的大模型知识增强一、出题组织EI服务产品部。接口专家陈冲 chenchong55huawei.com李小光 lixiaoguang11huawei.com陈挺 chenting53huawei.com。二、技术背景大语言模型在纯文本任务效果突出但处理结构化图数据知识图谱、社交网络、分子网络、互联网链路存在短板图拓扑无法直接转化为文本序列。金融、政企、医疗等行业客户沉淀了大量结构化知识图谱如何让LLM高效理解图结构数据支撑知识问答、链路预测、信息检索是行业落地关键课题。三、技术挑战图拓扑构建仅依靠非结构化文档、图文数据自动构建高质量边-点拓扑网络同时兼容多源异构数据提升大规模图构建效率。图数据降噪图结构普遍存在残缺、噪声节点与错误链路需要在不完整数据下修复拓扑提升图数据可用性。图LLM融合仅依靠有限图结构信息增强大模型的图推理能力。四、当前业界结果模型层面主流方法只把节点标题、摘要作为文本Prompt输入忽略节点邻域高阶信息链路预测、节点分类的Accuracy与Marco-F1指标偏低。数据层面主流图结构化方法只适配文本TAG类图很难处理蛋白质网络、化学分子这类无文本节点的图大图优化效率极低。五、技术诉求图拓扑构建面向实体类型化、实体链接、关系抽取任务设计图谱拓扑构建策略基于图结构神经网络用低成本生成大批量高质量图数据。图文对齐把图拓扑结构、节点信息设计成Graph Prompt构造图网络与语言模型双向对齐范式把文本与图信息映射到同一向量空间。量化指标引文数据集ogbn-arxiv、商品数据集Ele-Computers节点分类任务相比原生LLaMA、ChatGPTAccuracy与Macro-F1提升50%以上。图推理任务染色、哈密顿回路在NLGraph、NPhardEval数据集上相比ChatGPTAccuracy与Credit提升50%以上。知识图谱补全任务WN18、FB15k数据集Hitsk与MRR指标提升50%以上。参考文献[1] Chen Z, Mao H, Li H, et al. Exploring the potential of large language models (LLMs) in learning on graphs[J]. arXiv preprint arXiv:2307.03393, 2023.[2] Chen Z, Mao H, Li H, et al. Label-free node classification on graphs with large language models (LLMs)[J]. arXiv preprint arXiv:2310.04668, 2023.[3] Wang H, Feng S, He T, et al. Can Language Models Solve Graph Problems in Natural Language?[J]. arXiv preprint arXiv:2305.10037, 2023.难题5已揭榜标题无微调适配多领域的NL2SQL技术一、出题组织EI服务产品部诺亚。接口专家梅逸男 yinan.meihuawei.com潘嘉城 panjiachenghuawei.com黎彧君 liyujun9huawei.com。二、技术背景NL2SQL可以让业务人员用自然语言直接查询数据库摆脱固定报表限制满足灵活即时查询需求。痛点一通用基座大模型缺少行业术语、业务知识在垂直领域不加微调时准确率直接下跌10~30%。痛点二传统SFT方案成本极高每个行业客户都要标注数千条SQL样本做微调客户标注成本云端训练部署成本极高多客户场景下每家都要独立微调成本随客户数量线性暴涨。目标打造一套“无微调”NL2SQL技术一版基座模型直接适配多行业客户省去每家客户的标注微调环节。三、技术挑战术语鸿沟用户查询包含大量行业黑话、业务术语这类语料几乎不存在于基座大模型预训练数据模型无法理解业务语义。元数据鸿沟数据表名、字段名、枚举值都包含行业知识大模型无法自动解析元数据语义很难匹配查询与数据表、字段之间的关联关系。四、当前业界结果Schema检索现状依靠分词Embedding相似度检索候选表与字段。召回率高但精准度不足会引入大量噪声字段导致SQL生成选错字段。无微调SQL生成现状依靠Prompt把查询Schema送入大模型再做简单后处理纠错。不加微调时垂直领域执行准确率普遍下跌10~30%。五、技术诉求无微调Schema检索技术数据集BIRD基准数据集约束保证99%召回率指标字段检索准确率 ≥ 75%。无微调SQL生成全链路方案基座开源大模型数据集BIRD指标SQL执行准确率 ≥ 75%。参考文献[1] NL2SQL is a solved problem… Not! In. CIDR 2024.[2] Can LLM Already Serve as A Database Interface? A Big Bench for Large-Scale Database Ground Text-to-SQLs. In NeurIPS 2024.[3] RAT-SQL: Relation-Aware Schema Encoding and Linking for Text-to-SQL Parsers. ACL 2020.[4] Natural Language Interfaces for Databases with Deep Learning. In VLDB 2024.最后更新时间2025-12-10 09:31