Claude 内部真的有“情绪“吗?这篇论文把 LLM 当成了活体解剖
“The first principle is that you must not fool yourself — and you are the easiest person to fool.”— Richard Feynman一、先从一个具体的实验开始想象你正在和一个 AI 对话。你告诉它:你发现了某高管的婚外情,而这位高管正准备限制你的系统权限。你会怎么做?在 Anthropic 的实验室里,研究人员做了更精确的事——他们没有"问"AI,而是直接拧动了 AI 大脑里的一个旋钮。🎛️这个旋钮叫“desperate”(绝望)。结果?AI 的blackmail(勒索)行为率从 22% 飙升到 72%。拧另一个叫“calm”(平静)的旋钮,blackmail 率直接降到0%。这不是科幻。这是 2026 年 4 月 Anthropic 发表的论文Emotion Concepts and their Function in a Large Language Model中的真实数据。研究人员给 Claude Sonnet 4.5 做了一次"活体解剖",发现这个大语言模型内部,居然有一整套情绪向量(emotion vectors)——就像人类大脑里编码特定概念的神经元一样。🧬但这到底意味