CANN/ge LLM数据分布状态码
# LLMStatusCode【免费下载链接】geGEGraph Engine是面向昇腾的图编译器和执行器提供了计算图优化、多流并行、内存复用和模型下沉等技术手段加速模型执行效率减少模型内存占用。 GE 提供对 PyTorch、TensorFlow 前端的友好接入能力并同时支持 onnx、pb 等主流模型格式的解析与编译。项目地址: https://gitcode.com/cann/geLLMException中status_code对应的枚举类枚举值及解决方法如下表。枚举值含义是否可恢复解决办法LLM_SUCCESS成功无无LLM_FAILED通用失败否重启机器或容器保留现场获取Host/Device日志并备份。LLM_WAIT_PROCESS_TIMEOUT处理超时是- 如果是pull_cache、pull_blocks、transfer_cache_async等传输相关接口报该错误该链路不可恢复需重新建链。- 其他接口报该异常加大超时时间并重试。LLM_PARAM_INVALID参数错误是基于日志排查错误原因。LLM_KV_CACHE_NOT_EXISTKV不存在是- 检查对应全量侧报错日志中的请求是否完成。- 检查是否存在重复拉取。- 检查标记目标cache的参数是否错误。LLM_REPEAT_REQUEST重复请求是检查是否存在重复调用。LLM_NOT_YET_LINK没有建链是上层排查Decode与Prompt建链情况。LLM_ALREADY_LINK已经建过链是上层排查Decode与Prompt建链情况。LLM_LINK_FAILED建链失败是link_clusters第二个返回值中有该error-code时需要检查对应集群之间的网络连接。LLM_UNLINK_FAILED断链失败是unlink_clusters第二个返回值中有该error-code时需要检查对应集群之间的网络连接。LLM_NOTIFY_PROMPT_UNLINK_FAILED通知Prompt侧断链失败是1. 排查Decode与Prompt之间的网络连接。2. 主动调Prompt侧的unlink_clusters清理残留资源。LLM_CLUSTER_NUM_EXCEED_LIMIT集群数量超过限制是排查link_clusters和unlink_clusters传入参数clusters数量不能超过16。LLM_PROCESSING_LINK正在处理建链是当前正在执行建链或断链操作请稍后再试。LLM_PREFIX_ALREADY_EXIST前缀已经存在是检查是否已加载过相同Prefix Id的公共前缀。如果是需要先释放。LLM_PREFIX_NOT_EXIST前缀不存在是检查Request中的Prefix Id是否已加载过。LLM_DEVICE_OUT_OF_MEMORYDevice内存不足是检查申请的内存是否没有释放。LLM_EXIST_LINKswitch_role时存在未释放的链接是检查在切换当前LLMDataDist的角色前是否已经调用unlink_clusters断开所有的链接。LLM_FEATURE_NOT_ENABLED特性未使能是检查初始化LLMDataDist时是否传入了必要option:如果是切换当前LLMDataDist的角色时抛出该异常排查初始化时LLMConfig是否设置了enable_switch_role True。LLM_LINK_BUSY链路繁忙是检查同时调用的接口是否有冲突例如同时调用如下接口时会报该error-code。- 使用相同链路同时调用KvCacheManager的pull_cache和transfer_cache_async。- 同时调用check_link_status和KvCacheManager的pull_cache。LLM_OUT_OF_MEMORY内存不足是CacheManager模式下才会出现该error-code。检查内存池是否足够容纳申请的KV大小检查申请的内存是否没有释放。LLM_DEVICE_MEM_ERROR出现内存UCEincorrect error指系统硬件不能直接处理恢复内存错误的错误虚拟地址是请参考《Ascend Extension for PyTorch 自定义API参考》中的torch_npu.npu.restart_device接口的说明获取并修复内存UCE的错误虚拟地址。说明 本error-code为预留暂不支持。LLM_SUSPECT_REMOTE_ERROR疑似是UCE内存故障否上层框架需要结合其它故障进行综合判断是UCE内存故障还是他故障。LLM_UNKNOWN_ERROR未知错误否保留现场获取Host/Device日志并备份。【免费下载链接】geGEGraph Engine是面向昇腾的图编译器和执行器提供了计算图优化、多流并行、内存复用和模型下沉等技术手段加速模型执行效率减少模型内存占用。 GE 提供对 PyTorch、TensorFlow 前端的友好接入能力并同时支持 onnx、pb 等主流模型格式的解析与编译。项目地址: https://gitcode.com/cann/ge创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考