一、采样的概率论基础大模型文本生成是一个逐Token的自回归采样过程。在每个解码步骤t模型基于已有序列计算一个概率分布P ( y t ∣ y t , x ) Softmax ( z t T ) P(y_t | y_{t}, x) \text{Softmax}\left(\frac{\mathbf{z}_t}{T}\right)P(yt​∣yt​,x)Softmax(Tzt​​)其中z_t为logits向量T为Temperature参数。然后从该分布中采样得到下一个Token。对于完整的答案A其生成概率为P M ( A ∣ x ) ∏ t 1 ∣ A ∣ P ( y t ∣ y t , x ) P_M(A | x) \prod_{t1}^{|A|} P(y_t | y_{t}, x)PM​(A∣x)t1∏∣A∣​P(yt​∣yt​,x)当我们在固定模型M上对同一问题x进行N次独立采样时得到的是来自该概率分布的一个经验样本集。根据大数定律当N→∞时某答案a的经验频率会收敛到其真实概率P_M(a|x)P ^ M ( a ∣ x ) 1 N ∑ i 1 N 1 [ A i a ] ⟶ P M ( a ∣ x ) \hat{P}_M(a|x) \frac{1}{N}\sum_{i1}^N \mathbb{1}[A_i a] \longrightarrow P_M(a|x)P^M​(a∣x)N1​i1∑N​1[Ai​a]⟶PM​(a∣x)这确实是消除Temperature随机性带来噪声的有效手段。二、单模型偏差的数学表达但P_M(a|x)本身是对真实世界条件概率P_true(a|x)的有偏估计。这个偏差来源于多个层面数据分布偏差训练数据集D是从真实世界分布中采集的但互联网语料本身有严重的选择偏差——英语内容占比超过60%西方文化视角主导特定领域的知识密度不均。这使得模型的条件分布在许多子空间上偏离真实分布P M ( a ∣ x ) P t r u e ( a ∣ x ) ϵ d a t a ( x ) ϵ a r c h ( x ) ϵ a l i g n ( x ) P_M(a|x) P_{true}(a|x) \epsilon_{data}(x) \epsilon_{arch}(x) \epsilon_{align}(x)PM​(a∣x)Ptrue​(a∣x)ϵdata​(x)ϵarch​(x)ϵalign​(x)架构偏差Transformer的有限容量使得模型对高频模式拟合更精准对长尾知识拟合粗糙。这意味着对于冷门问题P_M的方差天然更大。对齐偏差RLHF引入的人为偏好进一步扭曲了分布。不同公司的对齐策略不同Anthropic偏保守、OpenAI偏实用、国内模型偏安全这相当于在loss函数中加入了不同的正则项L o s s L o s s t a s k λ ⋅ L o s s h u m a n _ p r e f e r e n c e Loss Loss_{task} \lambda \cdot Loss_{human\_preference}LossLosstask​λ⋅Losshuman_preference​三、结论单模型多次采样的天花板单模型多次采样最多只能消除采样随机性方差完全无法消除模型的系统性偏差偏差项。当模型在某个子问题上存在先天的数据或架构缺陷时问100遍也问不出正确答案——所有采样都会集中在一个错误的方向上。这就解释了为什么在冷门知识、文化特定问题、新领域问题上单模型即使多次采样也经常给出一致的错误答案。模型的“自信”不等于“正确”。