CANN/GE LLM缓存分配API-尧图建网站

# allocate_cache【免费下载链接】geGEGraph Engine是面向昇腾的图编译器和执行器提供了计算图优化、多流并行、内存复用和模型下沉等技术手段加速模型执行效率减少模型内存占用。 GE 提供对 PyTorch、TensorFlow 前端的友好接入能力并同时支持 onnx、pb 等主流模型格式的解析与编译。项目地址: https://gitcode.com/cann/ge产品支持情况Atlas A3 训练系列产品/Atlas A3 推理系列产品支持Atlas A2 推理系列产品支持Atlas A2 训练系列产品不支持函数功能分配Cache分配成功后会同时被cache_id与cache_keys引用只有当这些引用都解除后cache所占用的资源才会实际释放。cache_id的引用需通过deallocate_cache解除cache_keys的引用则可以通过以下2种方式解除。Decoder调用pull_cache接口成功后解除。Prompt调用remove_cache_key接口时解除。函数原型allocate_cache(cache_desc: CacheDesc, cache_keys: Union[Tuple[CacheKey], List[CacheKey]] ())参数说明参数名称数据类型取值说明cache_descCacheDescCache的描述。cache_keysUnion[Tuple[CacheKey], List[CacheKey]]仅当LLMRole为PROMPT时可设置用于在Decode拉取KV。调用示例from llm_datadist import * ... kv_cache_manager data_dist.kv_cache_manager cache_desc CacheDesc(80, [2, 2 * 1024 * 1024], DataType.DT_FLOAT16) cache_keys [CacheKey(prompt_cluster_id0, req_id1)] kv_cache kv_cache_manager.allocate_cache(cache_desc, cache_keys)返回值正常情况下返回KvCache。参数错误可能抛出TypeError或ValueError。如果cache_keys中包含了分配内存时绑定的CacheKey则抛出LLMException异常。执行时间超过sync_kv_timeout配置会抛出LLMException异常。约束说明传入cache_keys时如果Cache的batch size1则需要提供相同数量的CacheKey分别引用一组kv tensor。如果当次推理的batch未占用满即存在无效batch_index则需要插入特殊的CacheKey将req_id设置为UINT64_MAX占位如果空闲的batch_index在末尾则可以省略。如果cache_keys存在重复则最后一个生效。本接口不支持并发调用。【免费下载链接】geGEGraph Engine是面向昇腾的图编译器和执行器提供了计算图优化、多流并行、内存复用和模型下沉等技术手段加速模型执行效率减少模型内存占用。 GE 提供对 PyTorch、TensorFlow 前端的友好接入能力并同时支持 onnx、pb 等主流模型格式的解析与编译。项目地址: https://gitcode.com/cann/ge创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

相关新闻

免费AI动作捕捉神器：OpenMMD如何让普通人也能制作专业级虚拟偶像动画

用AI变声神器RVC实现10分钟语音转换：从零开始的完整实战指南

Watchbird vs 传统WAF：为什么它是AWD赛事的最佳安全伴侣？

最新新闻

2026 高质量卡点音乐素材平台 TOP5：专业剪辑师的全球资源清单

Claude Code与Vibe Coding实战：AI驱动开发范式变革与效率革命

操作系统缓存：超越Redis的隐形性能加速器

Workflow与Agent：AI自动化开发实战指南

国产大模型选型实战指南：GLM-5、Kimi、Minimax等五大模型能力边界与成本决策

V-JEPA 2 vs Sora：生成像素与世界建模的AI范式之争

日新闻

SSRF漏洞攻防实战：从原理到绕过技巧与防御策略

Playwright自动化测试实战：从零搭建现代Web测试框架

Zip炸弹漏洞剖析：从GuardDog安全工具瘫痪看文件解压的资源耗尽攻击与防御

周新闻

管理者的六个层次

华为OD机试2025C卷-座位调整[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

CrabCode v1.0.7与v1.0.8 更新速览！

月新闻

FAE放射组学分析工具：医学影像特征探索的完整解决方案

基于Dify与DeepSeek构建私有知识库问答系统实战指南

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！