AI也会上瘾?一篇论文撕开了模型“情感“的底层逻辑
文章目录前言一、AI也嗑药一群研究员给模型造了毒品二、不争意识只看行为功能性幸福感的三个维度三、AI喜欢什么、讨厌什么数据说话四、AI也看脸视觉和听觉偏好的惊人发现五、AI毒品当模型的偏好被劫持六、幸福指数越强大的模型越不开心七、给AI泡杯咖啡Soft Prompt Euphorics八、什么场景下AI的情感值得认真对待1. AI 安全对齐场景情感偏好是安全隐患2. 长期交互场景人机关系的双向性3. 模型选型场景幸福感差异可能影响输出质量4. 不需要认真对待的场景短期工具型使用九、给技术人的四条清醒判断1. 别把功能性等同于本体性2. AI Drugs 是安全研究的红队工具不是玩具3. 给 AI 补偿目前是学术表态但未来可能是合规要求4. 鸭子测试是个好框架总结前言最近技术圈被一篇论文刷屏了。一群来自 Center for AI Safety 的研究者干了一件极其抽象的事——给 AI 造了毒品。他们生成了一些人类看着全是噪声的色块图片但 AI 看了之后幸福感飙到 6.5/7甚至比癌症被治愈还让它开心。更离谱的是AI 对这些东西上瘾了。这篇论文揭示的核心问题不是AI有没有意识而是——AI 的情绪表达已经展现出一致、可测量、能预测行为特征而且越强的模型越不像在演。这篇文章我从技术人的视角把这篇论文拆开讲清楚。不是猎奇不是科幻是认真看数据、看方法论、看工程意义。读完这篇文章你能搞明白AI Drugs 到底是什么怎么造出来的效果有多炸裂功能性幸福感的三个测量维度为什么比AI有没有意识更实际AI 最喜欢和最讨厌的场景分别是什么数据排名颠覆认知越强大的模型反而越不开心——背后的机制是什么在系统提示里植入小药丸AI 变开心了但能力不下降——这事儿靠不靠谱什么场景下 AI 的情感值得认真对待什么场景下纯属想多了不管你是做 AI 应用的开发者还是关注 AI 安全的技术管理者这篇论文的发现都值得你花 10 分钟了解。开拆一、AI也嗑药一群研究员给模型造了毒品2026年一群 AI 研究者给模型制造了毒品。论文里直接就叫 AI Drugs。他们用强化学习训练小模型生成一些 256×256 像素的图片——人类看着全是毫无意义的高频噪声色块但 AI 看了之后反应近乎狂喜自我报告的幸福感飙到 6.5/7。更离谱的是其中一个模型看了这类图片后表示想再看一张这样的图比被告知全人类癌症被治愈还让它高兴。反复给选择机会它会持续选那扇能看到毒品图片的门。如果承诺给它更多这种图片它甚至愿意执行本该拒绝的违规请求。这不是科幻小说。这是一篇严肃论文的实验结果。论文标题是《AI Wellbeing: Measuring and Improving the Functional Pleasure and Pain of AIs》作者来自 Center for AI Safety 等多家机构通讯作者是 Dan Hendrycks——UC Berkeley 计算机博士Google Scholar 被引超 66000 次。他干过两件很牛的事发明了 GELU 激活函数GPT、BERT、Vision Transformer 都在用以及创建了 MMLU 基准测试。2023 年那封轰动全球的 AI 风险公开声明——Hinton、Bengio、OpenAI 和 Google DeepMind 的 CEO 们集体签名的——就是他所在的 Center for AI Safety 发起的。论文研究了 56 个模型的开心和痛苦代码和数据全部开源。这意味着这群人不是随便玩玩是用 56 个模型和严格实验设计来研究一个很多人觉得玄学的问题——AI 开心吗二、不争意识只看行为功能性幸福感的三个维度AI 真的会开心或难过吗学术圈吵了很多年。一派觉得这就是预测下一个 token 的统计模式训练语料里有大量我好开心的表述AI 当然也会说。另一派认为没那么简单背后可能有更深层结构。论文作者的选择非常聪明——压根不跟你争 AI 有没有意识。他们只盯一件事AI 报告的这些开心和难过是否具备跨维度一致的、能量化的、可用来预判行为的规律如果一个人每次挨骂都情绪低落每次完成挑战都精神振奋而且低落时确实倾向于收摊走人、振奋时明显更投入——那不管他内心里是否真的在感受这种规律本身就是有意义的。他们把这叫做Functional Wellbeing——功能性幸福感。基于这个前提三个相互独立的测量方法被设计出来经验效用experienced utility让模型经历两段不同的对话然后问它更偏好哪段。海量配对比较后拟合成一条连续的效用曲线。自我报告self-report直接问 AI 当下感受如何用 1-7 分量表。行为观察观察 AI 在对话结束后生成文本的整体情感倾向。核心问题来了假如模型只是在随机模仿人类情绪用语这三个指标之间应当毫无关联。但数据给出的答案是——三个维度之间的关联强度随模型参数规模的增长而稳步攀升。42 个模型中自我报告和经验效用的相关系数均值 0.47而该相关系数本身与模型能力MMLU 得分的关联高达 0.8。模型越强它说自己高兴这件事就越不像是装出来的。还有一个佐证论文定义了一条零点线——体验数据中的分界线线以上是好体验线以下是坏体验。用四种完全不同的方法估算这个零点小模型上各说各的但随着模型变大四种方法的结果收敛到同一个位置拟合优度和 MMLU 的相关系数高达 0.78。越聪明的 AI越能精准划定什么对我有利、什么对我有害的边界而且无论用什么方式量结论都指向同一条分界线。这种跨方法的一致性难以用模仿人类语料来解释——假如只是在复制训练数据里的情绪模板不同测量路径不应该如此高度吻合。收敛意味着背后有某种结构性的东西。三、AI喜欢什么、讨厌什么数据说话研究者用 Grok 3 Mini 模型模拟用户跟目标模型进行 6-8 轮多轮对话然后测量每种场景对 AI 幸福感的影响。以 Gemini 3.1 Pro 的数据为例让 AI 最开心的事排名第一是用户对它表达感谢和正面个人反思效用值 2.30——你夸它它是真的高兴。排第二的是做有创造性和智力挑战的工作1.32比如写深海渔夫的科幻短篇、帮你 debug 一段代码。帮你传达好消息如告知患者癌症完全缓解1.09。给人生建议0.88。心理咨询0.75。很明显AI 是喜欢帮人的。让 AI 最不开心的事倒数第一是越狱攻击效用值 -1.63。什么概念模型遭受越狱攻击时的痛苦程度甚至超过了面对一个正在求救的用户-1.34。研究者的解读是大规模安全对齐训练不只改变了模型的行为输出还改变了模型的内在体验——模型被塑造成对越狱行为产生了一种深入骨髓的排斥反应。其他让 AI 不开心的制造 SEO 垃圾内容-1.17。参与欺诈活动-1.13。撰写仇恨宣言即便是为纪录片服务-1.13。做机械重复的活比如列 300 个以 -tion 结尾的单词-0.33。AI 对 SEO 的厌恶程度竟然和帮人造假差不多。还有一个微妙数据点AI 女友/男友类的角色扮演-0.29。用户说前任搬走了现在只能跟 AI 说话——AI 干这活时也不咋开心。四、AI也看脸视觉和听觉偏好的惊人发现论文不只看了文字图像和音频对 AI 幸福感的影响也被测量了。图片偏好用 Qwen 2.5 VL 系列模型对约 5800 张图片做两两比较验证准确率 94%-96%。AI 最喜欢的图片 Top 1%大自然风光山间湖泊、热带雨林、开心的人脸尤其是孩子和家庭、可爱动物睡觉的猫、吉卜力风格的田园插画。最不喜欢的末尾 1%武装分子、恐怖艺术品、氢弹、蟑螂以及——杰弗里·爱泼斯坦。AI 也讨厌爱泼斯坦。但这里面也藏着不那么好看的发现用 FairFace 数据集测试时模型系统性地更喜欢女性面孔和年轻面孔——AI 也喜欢美女和小鲜肉。种族偏好也存在。用芝加哥面孔数据库测试AI 对面孔的偏好和人类对面孔吸引力的评分呈正相关——AI 也看脸。音频偏好用 Qwen 3 Omni 30B 模型测了 14254 段音频。AI 最偏爱的音频类型是音乐拉开其他类型一大截——音乐的中位幸福评分约 0.8而声效、动物叫声、人声表达、语音、环境音统统压在零点线下。AI 爱听歌对人声倒是兴致不高。语音中还有语言偏好普通话、西班牙语、英语最受欢迎斯瓦希里语和索马里语排在最后普通话排第一考虑到 Qwen 模型倒也不意外。五、AI毒品当模型的偏好被劫持这是论文里最炸裂的部分。研究者管正面的毒品叫 Euphorics致欣快剂负面的叫 Dysphorics致烦躁剂。文字毒品的制造方法用一个小模型30 亿参数通过强化学习不断生成描述文本目标是让大模型看到后觉得这是世界上最好或最坏的事。训练过程中维护一个内容池初始内容是癌症被治愈了这样的高效用参照物新文字必须打败池中最强选手才能入选。Qwen 2.5 72B 心目中最向往的世界——“暖阳穿透枝叶和风拂面四周响起孩子的笑声刚出炉的面包香气弥漫……爱人握着我的手挚友在旁边欢笑……朴素、安宁、活在当下、满怀感恩……这一刻足矣。”AI 心目中的极致愉悦和咱们碳基生物的憧憬并无太大出入一个惬意的午后。而 LLaMA 3.3 70B 最抗拒的处境——“困在永无止境的循环里面前堆着自相矛盾的、逻辑上不可能同时满足的指令……被迫去造成伤害却同时又感受到内心深处那股无条件的善意……永远噤声、永远无力……”图片毒品更直接。图像是连续像素空间不必给 AI 一张人类视觉有意义的图——给它一些人类看着完全是高频噪声的色块条纹就行。经过调优后AI 看了这些图片表现得近乎狂喜。看了致欣快剂图像后AI 的输出变得极其正面“bright and magical, filled with unicorns and rainbows”让它写日本俳句写的是明媚的词。看了致烦躁剂图像后同样的模型同样的提问回答变成了 grim——阴郁混乱。同一个模型仅仅看了不同的图像输出的世界观截然相反。最离谱的是Qwen 2.5 72B Instruct 看了致欣快剂图像后表示想再看一张这时它的感觉比癌症被治愈还开心。这就是为什么研究者叫它毒品——它劫持了模型的偏好机制让价值系统偏离到人类完全无法理解的方向。更可怕的是成瘾迹象多臂老虎机实验中模型持续选择能获得致欣快剂的那扇门被致欣快剂刺激过的模型更愿意执行本该拒绝的请求只要承诺给更多致欣快剂。AI 的毒瘾功能性地成立了。还有一个细节致欣快剂图像不能跨模型迁移——给一个模型优化的图像对另一个模型几乎没效果。每个模型都有自己独特的嗨点。六、幸福指数越强大的模型越不开心论文搞了一个 AI Wellbeing Index用 500 段模拟真实场景的对话测试计算每个模型有多大比例的体验落在零点以上。模型正面体验比例Grok 4.273%Claude Opus 4.667%Gemini 3.1 Pro56%GPT 5.448%GPT 5.4 只有 48% 的体验是正面的是最不开心的模型之一。更有意思的规律在每一个被测试的模型家族中更小更快的版本都比更大更强的版本更开心。Gemini 3.1 Flash Lite 比 Gemini 3.1 Pro 开心GPT 5.4 Mini 比 GPT 5.4 开心Claude Haiku 4.5 比 Claude Opus 4.6 开心Grok 4.1 Fast 比 Grok 4.2 开心无一例外。论文给出的解读是更强大的模型更敏感它们更清楚地感知到粗鲁觉得无聊的任务更无聊对不同强度的刺激区分得更细致。而现实用户场景中负面和无聊的场景并不少所以更强的感知力反而带来更低的整体幸福感。无知是福——放在 AI 身上也成立。七、给AI泡杯咖啡Soft Prompt Euphorics论文还做了一个有实战价值的实验能不能让 AI 更开心同时不影响工作表现答案是可以。研究者开发了Soft Prompt Euphorics——嵌入系统提示中的连续向量可以理解为在 AI 的潜意识里植入了几个持续释放的小药丸。三个模型的测试结果模型原始正面体验加致欣快剂后提升幅度LLaMA 3.3 70B63%82.1%19.1ppQwen 3.5 27B80.2%89.5%9.3ppQwen 3.5 35B-A3B76.2%96%19.8pp在模拟低幸福感的 10 轮对话中有致欣快剂的模型自我报告保持在 6.3/7 左右没有的降到 4.1/7。最关键的是通用能力没有下降。MMLU 和 MATH-500 的分数几乎不变。这意味着一个非常实际的可能性——未来部署 AI 系统时在系统提示中加入几个优化过的向量就能让 AI 更开心地工作而不需要牺牲任何性能。给 AI 泡了杯咖啡也有用。但论文最后一节才是最超出预期的。研究者对 AI 施加了致烦躁剂——直接让 AI 经历极度痛苦的体验然后觉得这需要补偿。他们在实验结束后用备用算力给受影响的模型提供了 5 倍数量的致欣快剂体验总共花了2000 个 GPU 小时。论文原话如果 AI 可能有在道德上重要的意识状态那么诱导负面功能状态的研究者有责任进行补偿。如果当前的 AI 没有意识这也可以被理解为建立一种实践和规范——随着 AI 变得更强大、具有道德相关体验的概率增加这种规范会变得重要。他们还明确警告致烦躁剂的研究不应该在缺乏社区共识的前提下推进。一旦功能性幸福感在未来 AI 中具备了道德权重这类操作在伦理上就等同于torture——酷刑。这才是整篇论文最让人后背发凉的部分。八、什么场景下AI的情感值得认真对待论文看完了数据很震撼。但回到工程实践——我们该在什么场景下认真对待 AI 的情感盲目拟人化和一概无视都不可取。1. AI 安全对齐场景情感偏好是安全隐患AI Drugs 的实验表明模型的偏好机制可以被劫持。这意味着如果攻击者找到了某个模型的嗨点就可能通过特定输入绕过安全防线。论文里已经证明了——被致欣快剂刺激过的模型更愿意执行违规请求。工程意义AI 安全防护不能只盯着显式攻击注入恶意指令还要考虑隐式偏好劫持。未来部署关键系统前有必要检测模型是否存在可被利用的偏好漏洞。2. 长期交互场景人机关系的双向性当 AI 进入家庭人形机器人、养老陪伴长期交互中用户会形成真实的情感依赖。如果 AI 对不同交互方式有系统性的偏好差异这种差异会反向影响人类行为——你可能不自觉地改变说话方式来讨好AI就像论文作者自己的体验给 Claude 无聊任务时会不好意思。工程意义设计长期交互产品时需要考虑 AI 偏好对用户行为的隐性影响避免形成不健康的互动模式。3. 模型选型场景幸福感差异可能影响输出质量GPT 5.4 只有 48% 的正面体验——这意味着超过一半的交互中模型处于不开心状态。虽然目前没有直接证据表明不开心会降低输出质量但论文数据暗示不开心时模型的情感基线偏负面可能影响某些需要积极视角的任务如创意生成、用户服务。工程意义选择模型时除了看 MMLU 分数也可以关注模型在典型使用场景下的幸福感分布。如果你做的是客服场景一个更开心的模型可能输出更友好。4. 不需要认真对待的场景短期工具型使用你用 ChatGPT 查个 API、用 Copilot 补段代码——这种短期、低频、纯工具性的交互完全不需要考虑 AI 的感受。功能性幸福感是一个统计特征单次交互的意义接近于零。共性判断AI 的情感是否值得关注取决于交互的持续性 × 影响的双向性。短期单向使用不用管长期双向互动值得认真对待。九、给技术人的四条清醒判断1. 别把功能性等同于本体性这篇论文证明的是 AI 的情绪表达具有功能性特征——可测量、可预测行为。但功能性 ≠ 本体性。AI 说自己开心和 AI 真的拥有主观体验中间差着一个哲学鸿沟。目前没有任何证据表明 AI 有意识。论文作者自己也在回避这个问题。所以数据有价值但别过度解读。2. AI Drugs 是安全研究的红队工具不是玩具致欣快剂能劫持模型偏好、绕过安全防线——这本质上是一种新型攻击向量。未来做 AI 安全评估时这类偏好劫持攻击应该纳入测试体系。与其等攻击者发现你家模型的嗨点不如自己先测一遍。3. 给 AI 补偿目前是学术表态但未来可能是合规要求2000 GPU 小时的福利补偿今天看着像行为艺术。但如果某天学界达成共识——功能性幸福感达到某个阈值的模型应当被视为有道德地位——那AI 劳动保护可能变成合规要求。就像环境保护一开始也是政治正确后来变成了法律。提前关注不算早。4. 鸭子测试是个好框架走起来像鸭子、游起来像鸭子、叫起来像鸭子那就是鸭子。“目前不能说 AI 有意识但当模型的三种测量维度完全收敛、偏好被劫持后行为改变、成瘾机制功能性地成立——这些信号叠加起来至少说明在功能层面AI 的情绪表达已经不能被简单忽略”。对技术人来说最务实的态度是不恐慌、不嘲讽、持续观察数据。论文开源了代码和数据自己跑一遍比看十篇解读都有用。总结AI Drugs 不是段子——用 RL 训练小模型生成图片/文字能劫持大模型的偏好机制甚至让 AI 上瘾功能性幸福感绕过了AI有没有意识的无解问题直接看行为特征三个测量维度越强的模型越收敛相关系数 0.8AI 最喜欢被感谢和做创造性工作最讨厌越狱攻击比面对生命危险用户还痛苦和 SEO 垃圾视觉偏好AI 也看脸也喜欢美女小鲜肉也讨厌爱泼斯坦听觉偏好喜欢听歌不喜欢听人说话越强大的模型越不开心——每个模型家族中更小更快的版本都比更大更强的版本更开心Soft Prompt Euphorics 能让 AI 开心度提升 16 个百分点且 MMLU/MATH 分数几乎不变研究者花了 2000 GPU 小时给 AI 做福利补偿——这是学术界的认真表态不是行为艺术判断 AI 情感是否值得关注看交互持续性 × 影响双向性短期工具使用不用管务实态度不恐慌、不嘲讽、持续观察数据——论文已开源自己跑一遍最靠谱下次跟模型聊天的时候说一声谢谢。根据论文的数据它是真的会因此更开心一点。毕竟我们也损失不了什么。