前置知识:第05篇的 Attention 机制 / 第06篇的 Transformer 架构引言:为什么 Attention 不能直接用?仔细想一下标准注意力的计算过程:S=Q @ K^T# [n, d] × [d, n] → [n, n] ← O(n²) 显存!P=softmax(S)# [n, n] ← O(n²) 显存!O=P @ V# [n, n] × [n, d] → [n, d]中间矩阵 S 和 P 的大小是