11900华夏之光永存:华为黄大年茶思屋难题揭榜第119期(四野会战第七期)完整题目整理
华夏之光永存华为难题揭榜第119期四野会战第七期完整题目整理整体信息栏目难题揭榜期数第119期-四野会战第七期发布时间2025-04-21浏览量554次最后更新2026-05-18 15:37难题1昇腾亲和的FlashAttentionGrad确定性计算方案设计与性能优化出题组织理论研究部接口专家廖崎臣liaoqichen2huawei.com苗方正miaofangzhenghuawei.com技术背景大模型训练是大模型应用的重要阶段其中的Attention反向梯度计算在长序列场景下耗时占比极高且空间占用巨大。FlashAttentionGradFAG基于等价变换及重计算对反向Attention进行tiling大幅提升了算子性能。其中Q,K,V,O,dO∈RS×DQ, K, V, O, dO \in \mathbb{R}^{S \times D}Q,K,V,O,dO∈RS×DSSS是序列长度sequence lengthDDD是单个注意力头的维度head dimensionSoftMax是row-wise的。在实际应用中Q,O,dOQ, O, dOQ,O,dO的序列长度和K,VK, VK,V的序列长度可能不一样分别为S1S_1S1和S2S_2S2并且输入还会考虑batch sizeBBB以及QQQ的头数N1N_1N1和KVKVKV的头数N2N_2N2。对于训练算子而言确定性是非常重要的属性即同样的输入对应的算子结果在数次实验中是完全一致的。然而由于浮点数的加法不满足结合律且FAG对于dQ,dK,dVdQ, dK, dVdQ,dK,dV的更新需要在Global Memory伪码中的HBM上进行累加所以FAG算子需要在计算过程中插入大量同步来保证确定性这会导致算子性能相较于无确定性需求版本劣化。问题示例FAG算子本质上是在计算Attention Matrix中每一个基本块对应的dQ,dK,dVdQ, dK, dVdQ,dK,dV并将结果在Global Memory上累加假设S1S_1S1和S2S_2S2方向基本块个数为5即伪码中TCTr5T_C T_r 5TCTr5且为dense场景即attention mask为全计算计算dQ1dQ_1dQ1需要将蓝色块对应结果进行累加计算dK,dVdK, dVdK,dV需要将红色块对应结果进行累加。假设核数为5将每一列的计算分配给一个核进行那么需要在计算dQ1dQ_1dQ1的过程中插入全核同步影响性能。给出一种解决方案按列分核后错峰计算同种颜色是一轮多核计算只需要在每轮计算后插入全核同步即可。有一类方法是通过在HBM上对不同核申请不同的空间以避免浮点数加法的不确定性然而此类方案会导致HBM占用过大难以满足实际需求本难题暂不考虑这条技术路线。技术挑战最优的确定性FAG的计算流程设计亲和昇腾硬件且满足确定性要求的最优FAG计算流程该流程对于不同shape、不同mask情况下三角、带状等具有泛化性。当前结果当前在大多数场景确定性FAG算子可达到非确定性FAG算子性能的80%左右。技术诉求极致性能基于昇腾芯片的确定性FAG算子性能达到非确定性FAG算子的90%。合理内存提出的优化算法同时需要满足HBM显存占用不超过非确定性FAG算子。解析下标计算流程中的下标需要是可解析的即循环过程中的index应是一个易于计算的关于当前循环次数的函数而不是从一个随机的列表中取得。参考文献[1] FlashAttention: Fast and memory-efficient exact attention with IO-awareness. In Advances in Neural Information Processing Systems, 2022.[2] FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning. In arXiv, 2023.[3] Parallel Programming Must Be Deterministic by Default. USENIX Workshop on Hot Topics in Parallelism, 2009.难题2AI领域编译器FUZZ用例及计算标杆自动生成出题组织编程语言实验室接口专家王英帅wangyingshuaihuawei.com技术背景华为AI芯片的指令集非常丰富在不同的指令组合场景下可能存在一些bug需要被挖掘并修正。预期通过实现毕昇编译器指令组合场景下的FUZZ用例和计算标杆自动生成的测试技术覆盖更为复杂的优化和计算场景挖掘版本代码bug提升编译器质量。在调用毕昇编译器接口编写测试用例自定义算子时需用毕昇编译器编译获得可执行文件到AI芯片上执行获得计算结果并把计算结果和计算标杆进行对比得到测试结果其中发现存在以下三个问题毕昇编译器接口之间存在约束组合困难。计算标杆难以获取如果在CPU上实现一套计算逻辑并获取计算结果工作量较大效率较低。AI芯片指令集随演进不断变化新的指令接口组合需要平滑扩展支持。技术挑战毕昇编译器接口之间存在约束组合时需匹配各自规则。计算标杆难以获取需要设计高效的计算标杆实现方式。芯片在不断演进FUZZ框架需要有高可扩展性支持新增指令集。当前结果入参变异目前编译器FUZZ测试是对上层单算子/单指令的入参进行变异通过执行算子用例对毕昇编译器进行FUZZ测试覆盖场景单一。依赖下游交付进度当前毕昇编译器的FUZZ测试依赖单算子的交付在单算子未交付的情况下需要单独构造算子模版进行测试和算子的真实计算逻辑有一定的偏差导致测试方向的偏离。参考文献AI编译器领域有针对中间表达IR进行fuzz测试的案例区别点是此难题需要利用上层接口进行fuzz思路可供参考Fuzzing Deep Learning Compilers with HirGen.[2023]. https://arxiv.org/pdf/2208.02193技术诉求复杂场景的随机指令/上层接口组合用例生成Fuzz框架支持不同类型的编译器接口进行随机组合指令集内的指令覆盖率90%以上。随机组合后的计算标杆生成框架针对生成的FUZZ用例能够生成对应的计算标杆。随机真实性度量和问题溯源机制指令集随机范围和接口组合情况可追溯问题溯源简单易行。难题3高一致性的多IP融合与交互生成的图像生成技术已揭榜出题组织中央媒体技术院AIGC特战队接口专家黄泽毅huangzeyi2huawei.com技术背景与意义随着生成模型技术的发展已广泛应用于图像、视频和虚拟角色创作。然而现有模型难以生成高一致性的IP图像或多聚焦单一IP或场景缺乏多个知名IP角色的自然融合与互动能力其中IP类指名人如周杰伦、名菜如蚂蚁上树、名胜古迹如黄鹤楼等。研究多IP生成技术不仅能提升创作的多样性和真实感还能为虚拟娱乐、数字创作、广告营销等领域提供更丰富的内容生成方案推动跨领域应用的创新与发展。技术挑战角色特征一致性不同IP角色的视觉风格、动作表现和细节特征差异较大如何保持每个IP的独特性同时实现整体画面的视觉一致性是一大挑战。跨IP互动建模多个IP角色在同一场景中进行自然互动时如何避免角色间的冲突、违和感并保证互动动作、表情等细节的流畅性与合理性。生成精度与效率多IP生成涉及大量多模态的数据处理与模型优化如何在保证生成质量的同时提高模型的计算效率和生成速度是实现大规模内容创作的关键。高效模型更新随着新IP的不断涌现如何高效地对模型进行更新以快速适应新IP的需求而不破坏已有IP的生成质量是确保多IP生成能力长期可持续发展的重要课题。业界进展单IP注入业界提出DreamBooth、Textual Inversion、IP-Adapter等单IP注入方式通过图文对微调、文本特征学习以及图像特征注入等方式实现IP注入。但这些方法难以支持多个IP融合和交互生成的场景。多IP注入业界提出FasterComposer、MM-Diff等多IP注入方式可以同时支持多个IP的注入。但这些方法在IP相似度与文本语义遵循方面表现较差尤其对于复杂IP融合与交互场景。技术诉求提供高一致性的多IP融合与交互生成的文生图关键技术该技术需支持多个IP的和谐生成尤其对于融合与交互生成场景需保持每个IP的独特性同时实现整体画面的视觉一致性该技术需支持高效的模型更新能够快速适应新IP的需求而不破坏已有IP的生成质量在带IP的Prompt评测集内重点评测IP相似性以及语义遵从性成片率达到90%以上。参考文献[1] Nathaniel Ruiz etc. “DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation”[2] Rinon Gal etc. “An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion”难题4文生图肢体逻辑合理性优化方案出题组织中央媒体技术院AIGC特战队接口专家刘天娇liutianjiao3huawei.com马少康mashaokanghuawei.com背景和意义在图像生成领域中手和肢体的物理逻辑合理性是一大技术难点是评价生成模型水平的重要指标也是影响用户使用体验的显著因素。手和肢体姿态繁多且复杂广泛的交互和遮挡场景进一步增加了生成难度。目前Midjourney、SD3、flux等模型在肢体上进行了优化但多人交互和复杂动作的生成上依然普遍存在扭曲、多指等问题。技术挑战人体姿态和动作复杂多样复杂的动作容易不合理。多对象交互、遮挡场景手部肢体极易产生混淆和扭曲。业界进展强化学习开源领域Stable Diffusion3[1]采用DPO技术对内容质量调优其中肢体合理性得到较大优化。商用领域业界标杆产品如Midjourney使用偏好微调显著优化了人像的内容逻辑可控生成基于ControlNet[2, 3]、Grounding Synthesis[4]等其它的控制方法使用额外的人体信息(深度图、关键点)对人像生成进行控制约束合理性与控制条件一致。该类方法需要额外输入存在对于复杂任务场景难迁移、模板化、多样性低的挑战技术诉求该技术需支持肢体、肢体与环境交互合理性提升文生图场景手和肢体生成合理性评测达到Midjourney的120分位以上其它维度不回退该技术需兼容AIGC的广泛使用场景不改变、不额外增加输入信息如文生图场景模型的输入仅为文字参考文献[1] Esser, Patrick, et al. “Scaling rectified flow transformers for high-resolution image synthesis, 2024.” URL https://arxiv.org/abs/2403.03206 2.[2] Pelykh, Anton, Ozge Mercanoglu Sincan, and Richard Bowden. “Giving a Hand to Diffusion Models: a Two-Stage Approach to Improving Conditional Human Image Generation.” arXiv preprint arXiv:2403.10731 (2024).[3] Zhang, Lvmin, Anyi Rao, and Maneesh Agrawala. “Adding conditional control to text-to-image diffusion models.” Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023.[4] Wang, Chengrui, et al. “RHanDS: Refining Malformed Hands for Generated Images with Decoupled Structure and Style Guidance.” arXiv preprint arXiv:2404.13984 (2024).以上为本期“难题揭榜”第119期全部题目的完整整理。