调 prompt 调到最后两个版本谁好谁坏你拍脑袋是分不出来的。我以前总觉得改得更详细的那版肯定更好上线一对比啪啪打脸——啰嗦版的用户满意度反而低。想知道哪套 prompt 真的好只能让它们在线上真实流量里比一场。A/B 测试和灰度不是一回事先澄清个常被混的概念。灰度是新版安不安全目的是控风险比例从小到大爬。A/B 测试是A 和 B 谁更好目的是选优两版各占一半流量长期跑比的是效果数据。一个求稳一个求优别搞混。我的一次真实对比背景一个写文案的智能体我有两套 prompt。A 版指令短给模型很大自由度。B 版指令长列了七八条格式要求和语气约束。我把流量五五开按用户 ID 哈希分桶跑了一周。比的指标是用户是否采用了生成结果点了复制/使用按钮算采用。结果出乎意料A版自由B版严格采用率61%48%平均字数短长重新生成次数低高B 版约束太多模型被框得死板输出千篇一律用户反而不爱用。直觉再次失灵。要不是真跑了 A/B我铁定上线 B 版。做 A/B 必须守的几条分桶要稳定。同一用户始终看同一版否则体验割裂、数据也脏。还是哈希取模那套。指标先定死。开跑前就说清楚拿什么判输赢我这次是采用率。别跑完了再挑对自己有利的指标那是自欺欺人。样本量要够。我第三天看 A 领先就想叫停忍住了。第五天 B 一度追平要是早停就误判了。跑满一周数据才稳。一次只改一个变量。两版别同时改 prompt 又改模型赢了你也不知道是谁的功劳。一个没做好的地方我这次没控制好问题类型分布。A、B 两桶里用户问的问题难度其实不完全均衡事后想想采用率的差距里可能掺了点噪声。严谨的做法是按问题类型分层再比。下次注意这次的结论我打了个折扣信。怎么跑的我是在一个零代码就能搭智能体、自带效果测评的平台上做的入口按用户 ID 分两桶分别挂 A/B 两套 prompt采用率这类指标平台能直接出。底层两版用的同一个模型模型 API 我接的讯飞星辰 MaaS现成调用保证比的是 prompt 本身、不掺模型差异。记住你的直觉不是数据让流量替你做裁判。