【infra之路】Prefill是在加入batch前开始还是在加入batch后开始-尧图建网站

加入 batch 时才开始 Prefill不是加入前。请求到达 │ ▼ 等待队列Waiting Queue │ ← 此时什么都没做不占 KV Cache 显存 │ ← 只在 CPU 内存中存着 prompt 文本 │ ▼ 调度器判断有足够 Block 吗 │ ├─ 没有 → 继续等 │ └─ 有 → 加入 batch立即 Prefill │ ▼ 分配 Block执行 PrefillKV Cache 写入 │ ▼ 同一个 iteration 中Prefill 完的结果直接参与生成 │ ▼ 后续 iteration 进入 Decode一个具体的 iteration 里发生了什么Iteration N: 当前 batch: [A(decode), B(decode)] 调度器检查还有 50 个空闲 Block 从等待队列取出请求 Cprompt 30 tokens需要 2 个 Block 这一次 iteration 做的事: A → 1 次 Decode生成 1 个 token B → 1 次 Decode生成 1 个 token C → Prefill处理整个 prompt得到第一个 token 三者是同一个 forward pass一起执行 Iteration N1: batch: [A(decode), B(decode), C(decode)] C 现在和 A、B 一样每 iteration 生成 1 个 token所以 Prefill 不是在 batch 外面单独做的而是和当前 batch 的 Decode 混在一起跑。GPU 一次 forward pass 同时处理了 A、B 的 Decode 和 C 的 Prefill。这也是为什么 Chunked Prefill 很重要——如果 C 的 prompt 有 8000 个 tokenPrefill 计算量巨大会拖慢 A 和 B 的 Decode 速度用户感知到生成突然变慢。切成 chunk 后每次 iteration 只做一部分 Prefill对 Decode 的影响就小多了。

相关新闻

SPT-AKI存档编辑器：3分钟快速修改塔科夫离线版游戏存档

DevEco Studio 打包操作完整步骤2026年6月30日版本——纯打包示例文章，细微到每步操作

5分钟搞定Foobar2000酷狗QQ网易云逐字歌词：终极配置指南

最新新闻

如何快速掌握SPT-AKI存档编辑器：3分钟搞定塔科夫离线版游戏进度管理

Cat-Catch资源嗅探工具：解锁网页隐藏资源的5个关键步骤

QuickVina 2：突破性分子对接加速技术的完整指南

Windows系统文件AppReadiness.dll丢失找不到问题解决

Python requests 配置 HTTP、HTTPS、SOCKS5 代理：参数、认证与排错

鸣潮自动化助手：3大核心功能帮你解放双手，专注游戏乐趣

日新闻

FAE放射组学分析工具：医学影像特征探索的完整解决方案

基于Dify与DeepSeek构建私有知识库问答系统实战指南

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！

周新闻

管理者的六个层次

华为OD机试2025C卷-座位调整[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

CrabCode v1.0.7与v1.0.8 更新速览！

月新闻

FAE放射组学分析工具：医学影像特征探索的完整解决方案

基于Dify与DeepSeek构建私有知识库问答系统实战指南

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！