CANN/ge LLM DataDist 弃用错误代码
# error-codedeprecated【免费下载链接】geGEGraph Engine是面向昇腾的图编译器和执行器提供了计算图优化、多流并行、内存复用和模型下沉等技术手段加速模型执行效率减少模型内存占用。 GE 提供对 PyTorch、TensorFlow 前端的友好接入能力并同时支持 onnx、pb 等主流模型格式的解析与编译。项目地址: https://gitcode.com/cann/geerror-code定义存放路径${INSTALL_DIR}/include/ge/llm_error_codes.h和${INSTALL_DIR}/include/llm_datadist/llm_datadist.h。${INSTALL_DIR}请替换为软件安装后文件存储路径。若安装的Ascend-cann-toolkit软件包以root安装举例则安装后文件存储路径为/usr/local/Ascend/ascend-toolkit/latest。error-code是通过如下宏定义的。namespace ge { GE_ERRORNO_DEFINE(0b01, 0b01, 0b000, 8, 11, LLM_WAIT_PROC_TIMEOUT, 1); GE_ERRORNO_DEFINE(0b01, 0b01, 0b000, 8, 11, LLM_KV_CACHE_NOT_EXIST, 2); GE_ERRORNO_DEFINE(0b01, 0b01, 0b000, 8, 11, LLM_REPEAT_REQUEST, 3); GE_ERRORNO_DEFINE(0b01, 0b01, 0b000, 8, 11, LLM_REQUEST_ALREADY_COMPLETED, 4); GE_ERRORNO_DEFINE(0b01, 0b01, 0b000, 8, 11, LLM_PARAM_INVALID, 5); GE_ERRORNO_DEFINE(0b01, 0b01, 0b000, 8, 11, LLM_ENGINE_FINALIZED, 6); GE_ERRORNO_DEFINE(0b01, 0b01, 0b000, 8, 11, LLM_NOT_YET_LINK, 7); GE_ERRORNO_DEFINE(0b01, 0b01, 0b000, 8, 11, LLM_ALREADY_LINK, 8); GE_ERRORNO_DEFINE(0b01, 0b01, 0b000, 8, 11, LLM_LINK_FAILED, 9); GE_ERRORNO_DEFINE(0b01, 0b01, 0b000, 8, 11, LLM_UNLINK_FAILED, 10); GE_ERRORNO_DEFINE(0b01, 0b01, 0b000, 8, 11, LLM_NOTIFY_PROMPT_UNLINK_FAILED, 11); GE_ERRORNO_DEFINE(0b01, 0b01, 0b000, 8, 11, LLM_CLUSTER_NUM_EXCEED_LIMIT, 12); GE_ERRORNO_DEFINE(0b01, 0b01, 0b000, 8, 11, LLM_PROCESSING_LINK, 13); GE_ERRORNO_DEFINE(0b01, 0b01, 0b000, 8, 11, LLM_DEVICE_OUT_OF_MEMORY, 14); GE_ERRORNO_DEFINE(0b01, 0b01, 0b000, 8, 11, LLM_PREFIX_ALREADY_EXIST, 15); GE_ERRORNO_DEFINE(0b01, 0b01, 0b000, 8, 11, LLM_PREFIX_NOT_EXIST, 16); GE_ERRORNO_DEFINE(0b01, 0b01, 0b000, 8, 11, LLM_SEQ_LEN_OVER_LIMIT, 17); GE_ERRORNO_DEFINE(0b01, 0b01, 0b000, 8, 11, LLM_NO_FREE_BLOCK, 18); GE_ERRORNO_DEFINE(0b01, 0b01, 0b000, 8, 11, LLM_BLOCKS_OUT_OF_MEMORY, 19); GE_ERRORNO_DEFINE(0b01, 0b01, 0b000, 8, 11, LLM_CACHE_INCOMPATIBLE, 20); GE_ERRORNO_DEFINE(0b01, 0b01, 0b000, 8, 11, LLM_CACHE_KEY_ALREADY_EXIST, 21); GE_ERRORNO_DEFINE(0b01, 0b01, 0b000, 8, 11, LLM_COPY_CACHE_FAILED, 22); GE_ERRORNO_DEFINE(0b01, 0b01, 0b000, 8, 11, LLM_CACHE_ID_ALREADY_EXIST, 23); GE_ERRORNO_DEFINE(0b01, 0b01, 0b000, 8, 11, LLM_EXIST_LINK, 24); GE_ERRORNO_DEFINE(0b01, 0b01, 0b000, 8, 11, LLM_FEATURE_NOT_ENABLED, 25); } // namespace ge具体error-code含义如下。error-code含义可能原因是否可恢复解决办法4294967295failed!-否保留现场获取Host/Device日志并备份Device日志需到宿主机进行port导回。1343270913request wait to be processed timeout!- 等待组batch超时。- 超时时间内未得到调度。是1. 上层调用complete进行处理。2. 上层控制负载。1343270914KV is not exist!增量从全量侧获取KV但是KV不存在。是1. 检查clusterid与req_id是否正确。2. 检查是否是Prompt超时确认是否KV已经被释放。3. 检查是否存在重复拉取。1343270915repeat request!单次迭代中多次调用同一个req_id。是检查是否存在重复调用。1343270916request already complete!调度到的时候上层已经发送了complete。是排查是否调用了未经处理的token的complete操作。1343270917Parameters invalid!无效参数包含LLM GE的参数校验需要通过日志确认具体原因一般在调测阶段发生。是基于日志排查错误原因。1343270918llm engine finalized!调度到的时候上层已经发送了Finalize。否上层调用时候排查是否退出前未完成所有请求的处理。1343270919decoder cluster is no link with prompt!Decode未与Prompt建联。是上层排查Decode与Prompt建联情况。1343270920decoder cluster is already linked with prompt cluster!Decode与Prompt已经建联。是上层排查Decode与Prompt建联情况。1343270921decoder cluster link with prompt cluster failed!Decode与Prompt建联失败。是1. LinkClusters API返回值为该error-code时需要查看API出参中每个cluster的建联结果。2. LinkClusters API出参rets中存在该error-code时需要排查Cluster之间的网络连接。建链失败时会自动回滚保证资源未被异常占用。1343270922decoder cluster unlink with prompt cluster failed!Decode与Prompt断链失败。是1. LinkClusters API返回值为该error-code时需要查看API出参中每个cluster的断链结果。2. LinkClusters API出参rets中存在该error-code时需要排查Cluster之间的网络连接。断链失败时不回滚。1343270923decoder cluster notify prompt cluster do unlink failed!Decode通知Prompt断链失败。是1. 排查Decode与Prompt之间的网络连接。2. 主动调Prompt侧的UnlinkClusters API清理残留资源。1343270924cluster num exceed limit!API中一次性传入clusters超出上限当前上限为16。是排查API传入参数clusters数量不能超过161343270925link is current processing, try again later!当前link和unlink正在执行。是请稍后再试。1343270926device out of memory!全量KV Cache内存不足。是增量拉完kv再调用LLMReqComplete结束请求。1343270927Prefix has already existed.公共前缀已经存在。是不用重复下发相同公共前缀的请求。1343270928Prefix does not exist.公共前缀不存在。是下发前重新生成公共前缀。1343270929Sequence length exceed limit.PagedAttention场景下句子长度超过了block空间大小。是排查API传入参数请求句子长度不能超过block_num*block_size。1343270930No free block.系统不存在free block。是上层可选择重计算或者释放已有的请求。1343270931Block is out of memory.预申请Blocks内存不足。是需额外检查数据面mbuf内存总大小配置是否合理。【免费下载链接】geGEGraph Engine是面向昇腾的图编译器和执行器提供了计算图优化、多流并行、内存复用和模型下沉等技术手段加速模型执行效率减少模型内存占用。 GE 提供对 PyTorch、TensorFlow 前端的友好接入能力并同时支持 onnx、pb 等主流模型格式的解析与编译。项目地址: https://gitcode.com/cann/ge创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考