CANN/ge LLM数据分布状态码-尧图建网站

# LLMStatusCode【免费下载链接】geGEGraph Engine是面向昇腾的图编译器和执行器提供了计算图优化、多流并行、内存复用和模型下沉等技术手段加速模型执行效率减少模型内存占用。 GE 提供对 PyTorch、TensorFlow 前端的友好接入能力并同时支持 onnx、pb 等主流模型格式的解析与编译。项目地址: https://gitcode.com/cann/geLLMException中status_code对应的枚举类枚举值及解决方法如下表。枚举值含义是否可恢复解决办法LLM_SUCCESS成功无无LLM_FAILED通用失败否重启机器或容器保留现场获取Host/Device日志并备份。LLM_WAIT_PROCESS_TIMEOUT处理超时是- 如果是pull_cache、pull_blocks、transfer_cache_async等传输相关接口报该错误该链路不可恢复需重新建链。- 其他接口报该异常加大超时时间并重试。LLM_PARAM_INVALID参数错误是基于日志排查错误原因。LLM_KV_CACHE_NOT_EXISTKV不存在是- 检查对应全量侧报错日志中的请求是否完成。- 检查是否存在重复拉取。- 检查标记目标cache的参数是否错误。LLM_REPEAT_REQUEST重复请求是检查是否存在重复调用。LLM_NOT_YET_LINK没有建链是上层排查Decode与Prompt建链情况。LLM_ALREADY_LINK已经建过链是上层排查Decode与Prompt建链情况。LLM_LINK_FAILED建链失败是link_clusters第二个返回值中有该error-code时需要检查对应集群之间的网络连接。LLM_UNLINK_FAILED断链失败是unlink_clusters第二个返回值中有该error-code时需要检查对应集群之间的网络连接。LLM_NOTIFY_PROMPT_UNLINK_FAILED通知Prompt侧断链失败是1. 排查Decode与Prompt之间的网络连接。2. 主动调Prompt侧的unlink_clusters清理残留资源。LLM_CLUSTER_NUM_EXCEED_LIMIT集群数量超过限制是排查link_clusters和unlink_clusters传入参数clusters数量不能超过16。LLM_PROCESSING_LINK正在处理建链是当前正在执行建链或断链操作请稍后再试。LLM_PREFIX_ALREADY_EXIST前缀已经存在是检查是否已加载过相同Prefix Id的公共前缀。如果是需要先释放。LLM_PREFIX_NOT_EXIST前缀不存在是检查Request中的Prefix Id是否已加载过。LLM_DEVICE_OUT_OF_MEMORYDevice内存不足是检查申请的内存是否没有释放。LLM_EXIST_LINKswitch_role时存在未释放的链接是检查在切换当前LLMDataDist的角色前是否已经调用unlink_clusters断开所有的链接。LLM_FEATURE_NOT_ENABLED特性未使能是检查初始化LLMDataDist时是否传入了必要option:如果是切换当前LLMDataDist的角色时抛出该异常排查初始化时LLMConfig是否设置了enable_switch_role True。LLM_LINK_BUSY链路繁忙是检查同时调用的接口是否有冲突例如同时调用如下接口时会报该error-code。- 使用相同链路同时调用KvCacheManager的pull_cache和transfer_cache_async。- 同时调用check_link_status和KvCacheManager的pull_cache。LLM_OUT_OF_MEMORY内存不足是CacheManager模式下才会出现该error-code。检查内存池是否足够容纳申请的KV大小检查申请的内存是否没有释放。LLM_DEVICE_MEM_ERROR出现内存UCEincorrect error指系统硬件不能直接处理恢复内存错误的错误虚拟地址是请参考《Ascend Extension for PyTorch 自定义API参考》中的torch_npu.npu.restart_device接口的说明获取并修复内存UCE的错误虚拟地址。说明本error-code为预留暂不支持。LLM_SUSPECT_REMOTE_ERROR疑似是UCE内存故障否上层框架需要结合其它故障进行综合判断是UCE内存故障还是他故障。LLM_UNKNOWN_ERROR未知错误否保留现场获取Host/Device日志并备份。【免费下载链接】geGEGraph Engine是面向昇腾的图编译器和执行器提供了计算图优化、多流并行、内存复用和模型下沉等技术手段加速模型执行效率减少模型内存占用。 GE 提供对 PyTorch、TensorFlow 前端的友好接入能力并同时支持 onnx、pb 等主流模型格式的解析与编译。项目地址: https://gitcode.com/cann/ge创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

相关新闻

【Linux入坑（二）—全志T133开发板适配USB-电容屏触摸屏驱动（多点触控） 】

【Atlas】 构建统一血缘引擎：如何在无 Hive 环境下，基于 Calcite 实现跨引擎 SQL 血缘解析

微信聊天记录永久保存指南：从数据提取到情感记忆的数字资产管理

最新新闻

AI驱动的SVG钓鱼攻击：原理、检测与防御实战指南

10个实用案例：gala在数据库、分布式存储场景中的故障诊断应用

AI Orchestration：企业级AI落地的精密调度系统

Windows、macOS、Linux、鸿蒙四大操作系统核心差异深度解析

企业AI落地中的数据质量管理实战指南

LM2576-5.0开关稳压器在嵌入式电源设计中的应用

日新闻

SSRF漏洞攻防实战：从原理到绕过技巧与防御策略

Playwright自动化测试实战：从零搭建现代Web测试框架

Zip炸弹漏洞剖析：从GuardDog安全工具瘫痪看文件解压的资源耗尽攻击与防御

周新闻

管理者的六个层次

华为OD机试2025C卷-座位调整[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

CrabCode v1.0.7与v1.0.8 更新速览！

月新闻

FAE放射组学分析工具：医学影像特征探索的完整解决方案

基于Dify与DeepSeek构建私有知识库问答系统实战指南

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！

【Linux入坑（二）—全志T133开发板适配USB-电容屏触摸屏驱动（多点触控）】

【Atlas】构建统一血缘引擎：如何在无 Hive 环境下，基于 Calcite 实现跨引擎 SQL 血缘解析