1. 从一次真实的代码评审说起当AI成为你的“队友”上周团队里一位刚入职不久的同事提交了一段Python数据处理脚本的代码评审。功能是解析一个复杂的JSON日志文件提取特定字段并做聚合统计。代码本身不长大概50行逻辑清晰变量命名也规范。但当我点开Git提交历史时发现了一个有趣的细节在最初的几次提交中代码结构非常混乱充斥着大量硬编码的索引和重复循环。然而在最终提交前的最后一次修改中代码突然变得异常工整和“地道”——不仅用上了collections.defaultdict和列表推导式甚至对可能出现的KeyError异常也做了优雅的封装处理。我私下问他是不是参考了某个开源库或者请教了哪位资深同事。他有点不好意思地笑了笑说“其实大部分是让Cursor一个集成了AI编程助手的IDE帮我重构和优化的。我写了第一版能跑的代码然后让它‘让这段代码更Pythonic并处理好异常’。它给出的建议我几乎全盘接受了。”这件事让我思考了很久。这位同事的“最终产出”质量很高甚至超过了一些有两年经验的工程师的代码风格。如果仅以这份提交的代码作为评估他Python编程能力的依据我很可能会给出“基础扎实熟悉Python高级特性和异常处理”的评价。但显然这个评价与他独立完成第一版代码所展现的真实能力之间存在一个明显的“偏差”。这个偏差正是由大型语言模型LLM作为“辅助工具”引入的。我们正在进入一个“人机协作”成为默认工作模式的时代但我们的能力评估体系无论是技术面试、绩效考核还是日常的同行评审却还停留在“纯人力输出”的范式里。这种错位就是“LLM认知错觉”的核心我们错误地将AI增强后的混合产出完全归因于人类个体自身的能力。这种现象绝非个例。从用ChatGPT润色周报、用Midjourney生成设计初稿到用Copilot自动补全函数、用AI辅助进行法律条文检索或医学文献分析LLM正在成为我们智力延伸的“标配”。问题在于当评估者无论是上级、同事还是系统面对一个经过AI深度“加工”或“增强”的工作成果时很容易产生一种认知上的偏差高估了成果创造者自身的原始能力。这就像看到一个使用了高级特效和替身的武术电影片段便认为演员本人是功夫大师一样。本文将深入拆解这种“LLM认知错觉”的成因、具体表现更重要的是探讨在不同场景下我们如何对人类的真实能力进行有效的“校准”。2. 偏差的根源LLM如何扭曲我们的能力感知要理解如何校准首先必须弄清楚偏差是如何产生的。这种认知错觉并非来自恶意欺骗而是源于LLM辅助工作流程的几个固有特性与人类评估的固有弱点之间的相互作用。2.1 能力的“黑箱化”与归因模糊在传统工作模式下一个人的工作产出与其知识储备、思维过程、技能熟练度是强相关的。一行简洁的代码背后是对于算法和数据结构的深刻理解一份逻辑清晰的报告反映了作者的分析与归纳能力。评估者可以通过产出物相对清晰地回溯到创造者的能力原点。然而LLM的介入在这条清晰的因果链中插入了一个不透明的“黑箱”。当一个人使用LLM时他的核心能力发生了转移和变化从“执行能力”到“提示能力”原本需要亲手编写的代码现在可能转化为对AI的精准描述Prompt。评估者看到一段优美的代码其功劳可能更多地归于使用者构思Prompt的能力例如“用递归下降解析器实现一个简单的算术表达式求值并输出AST”而非他亲自编写递归和构建树结构的能力。从“知识记忆”到“知识检索与验证”不再需要牢记所有的API签名或设计模式但需要具备快速判断AI生成内容是否正确、是否符合特定业务上下文的能力。一个能利用AI快速整合出一份技术方案的人可能并不熟悉方案中提到的每一项技术的细节但他拥有出色的信息甄别和架构判断力。从“创造从0到1”到“编辑与迭代从0.5到1”LLM擅长生成初稿、提供备选方案。人类的角色从“创作者”部分转变为“编辑”、“策展人”和“决策者”。评估者看到的最终成品是经过人类在AI生成的多个草稿中筛选、修改、拼接后的结果这模糊了原创与二次创作的边界。问题的关键在于目前的产出物代码、文档、设计图本身很难直观地反映出其中有多少比例来自AI的“原始生成”多少比例来自人类的“关键性修改与决策”。归因变得极其模糊导致评估失准。2.2 评估维度的失效与新兴维度的崛起传统的评估维度在LLM时代面临挑战而一些新的、至关重要的维度却被忽视。失效的维度语法正确性与基础规范性AI可以轻松保证代码没有语法错误、文档格式工整。用这些低阶指标来评估能力价值大大降低。信息广度AI能瞬间调取海量知识。评估一个人“知道多少”不如评估他“如何运用所知”。执行速度在AI辅助下完成某些任务的绝对时间大大缩短。单纯比较耗时失去了意义因为时间更多花在了与AI的交互和结果校验上。被忽视但至关重要的新兴维度问题拆解与Prompt工程能力能否将一个复杂、模糊的需求分解成一系列清晰、具体、可被AI理解并执行的指令这本身就是一种高级的元认知能力和沟通能力。批判性验证与调试能力AI会“自信地”输出错误答案。能否敏锐地发现生成结果中的逻辑漏洞、事实错误或与上下文的不一致能否设计有效的测试用例或验证流程来确保AI输出的可靠性这种“怀疑与验证”的能力变得空前重要。融合与再创造能力当AI给出A、B、C三个方案时能否洞察各自的优劣并融合其精华甚至激发出原创的D方案这超越了简单的选择是更高阶的综合创新能力。伦理与边界意识能否意识到AI生成内容可能存在的版权、偏见、安全风险并主动进行规避和审查这是一种新的职业素养。当前的评估体系大多仍在测量那些正在“贬值”的维度而忽略了这些正在“增值”的核心维度从而导致对个人真实价值的严重误判。2.3 场景剖析不同领域的能力偏差镜像“LLM认知错觉”在不同领域有着相似的内核但表现各异编程开发如前文案例评估者可能高估了开发者的底层编码能力和算法功底却低估了其需求分析、Prompt设计和代码审查审查AI生成的代码的能力。一个能指挥Copilot写出高效并发程序的工程师其价值可能不亚于一个能徒手实现同样功能但速度慢十倍的工程师但两者的能力图谱完全不同。内容创作看到一篇结构严谨、引经据典的市场分析报告可能会认为作者调研能力和写作功底深厚。但实际上作者可能只是向AI描述了报告框架、核心观点和所需的数据类型然后对AI生成的初稿进行了润色和观点强化。这里被高估的是“调研与写作执行”被低估的是“策略构思、框架设计与内容策展”。设计与艺术一个视觉效果惊艳的UI概念图可能来自设计师对Midjourney的精准控图通过复杂的Prompt和参数迭代。评估者容易惊叹于其“艺术表现力”而忽略了背后关键的“视觉概念翻译”、“风格引导”和“迭代筛选”能力。研究与分析一份信息全面的竞品分析或文献综述可能由AI快速抓取和总结生成。评估者可能高估了研究者的“信息收集与阅读速度”而低估了其“提出关键研究问题”、“定义分析框架”和“从海量信息中提炼独特洞察”的能力。3. 校准策略构建“后LLM时代”的能力评估体系认识到偏差的存在是第一步更重要的是建立一套校准机制使我们能更公允地评估在AI深度辅助下的人类真实能力。这套体系不是要排斥AI而是要将AI作为环境变量纳入考量测量人与AI协作系统的最终输出中属于人的那部分不可替代的价值。3.1 评估范式的根本转变从“产出物评估”到“过程与元能力评估”校准的核心是将评估焦点从静态的、混合的“产出物”Artifact部分转移到动态的“工作过程”Process和关键的“元能力”Meta-competency上。引入过程性证据版本历史与迭代轨迹像开篇的代码评审案例一样查看Git提交历史、设计稿的版本迭代、文档的修改记录。关注点从“最终版是什么”转向“从初版到终版是如何演进的”。人类的创造性决策、关键纠错和优化思路往往就藏在这些迭代中。Prompt记录与交互日志如果工具支持保留与AI的关键对话记录。一个优秀的Prompt序列本身就是能力的证明。它展示了使用者如何通过多轮对话逐步澄清问题、约束条件并引导AI逼近目标。“思考痕迹”可视化鼓励在产出物中保留部分“思考痕迹”。例如在代码注释中说明“此处曾考虑过A方案但因性能问题改用AI推荐的B方案并做了如下修改...”在报告附录中简述“主要数据结论由AI工具X初步分析本人通过方法Y进行了交叉验证并补充了行业洞察Z”。设计针对元能力的评估任务“诊断与修复”测试不给空白文档而是给一份包含多处AI典型错误如事实错误、逻辑矛盾、代码漏洞、隐蔽偏见的“问题成品”要求受评者在限定时间内找出并修正错误。这直接考察其批判性验证和调试能力。“框架设计与Prompt编写”测试给定一个模糊、复杂的需求不要求直接产出最终结果而是要求受评者输出一份详细的“AI协作任务说明书”包括问题拆解步骤、需要调用的AI工具或模块、每个步骤的关键Prompt示例、对AI输出结果的验证方案。这考察的是问题拆解与Prompt工程能力。“方案融合与创新”测试提供2-3份由AI生成的、各有优劣的解决方案如技术方案A/B营销文案C/D要求受评者分析各自优缺点并提出一个融合优势、规避劣势或完全创新的新方案。这考察的是融合再创造能力。3.2 实践中的校准方法面试、评审与绩效考核将上述范式转变应用到具体的管理与协作场景中。技术面试的革新开卷考试允许使用AI未来的技术面试很可能是在一个提供互联网和AI编程助手如Cursor、GitHub Copilot的环境中进行。题目不再是考察死记硬背的算法题而是更开放的系统设计、故障排查或小型项目实现。评估重点在于候选人如何利用AI作为杠杆来解决问题以及他如何控制和管理这个杠杆。面试官角色转变面试官从“答案的审判者”转变为“协作过程的观察者”。面试中可以设置一个需要与AI协作的环节并请候选人分享屏幕。面试官观察他如何向AI提问、如何修正AI的错误、如何权衡AI的不同建议并就其决策过程进行深入追问。聚焦于“为什么”无论代码是否由AI生成追问其背后的设计决策、权衡取舍和备选方案。例如“这里为什么选择用哈希表而不用数组”“这个异常处理逻辑是如何考虑的有没有其他更优雅的方式”这些问题直指思考过程AI无法代答。代码评审与设计评审的聚焦点调整评审AI生成的代码当意识到某段代码可能由AI生成时评审重点应放在1)业务逻辑正确性代码是否准确实现了需求边界条件是否覆盖2)可维护性与一致性代码是否符合项目规范是否引入了不必要的复杂性3)“人”的印记作者是否对AI生成的代码有充分理解关键的注释和文档是否补充完整强调决策记录在提交代码或设计稿时鼓励提交者附带简短的“决策日志”Decision Log说明在关键节点上AI提供了哪些选项自己基于什么理由做出了最终选择。这大大提升了评审的效率和深度。绩效考核指标的重新定义降低对“工作量”和“产出量”的权重在AI加持下代码行数、文档页数等指标更容易“灌水”且意义不大。提升对“问题解决复杂度”、“创新性”和“知识沉淀”的权重考核一个人解决了多复杂的问题例如将系统延迟降低50%提出了多少有价值的创新建议并被采纳以及是否形成了可复用的Prompt模板、AI工作流或经验总结赋能团队。引入360度“协作效能”反馈增加来自同事的反馈评估其在使用AI工具后是成为了一个更高效的“问题解决终端”还是能更好地赋能团队、分享AI使用经验、提升整体协作水平的“能力放大器”。3.3 工具与文化建设为校准提供支撑校准不仅仅是方法也需要工具和文化环境的支持。发展“人机协作分析”工具未来可能会有专门的工具能分析一份文档或代码中AI贡献的密度和人类编辑的关键节点为评估提供更量化的参考当然这需要解决隐私和伦理问题。更现实的是现有工具如IDE、办公软件可以增加“协作历史”功能更友好地展示迭代过程。倡导“透明使用”的文化在团队内部建立共识鼓励公开、合理地使用AI工具并主动说明AI在任务中扮演的角色。这并非示弱而是展现一种专业的、负责任的工作态度。可以建立内部知识库分享优秀的Prompt案例和AI辅助工作流。管理者与评估者的自我教育评估者自身必须深入了解LLM的能力边界和常见工作模式才能具备“校准”的眼光。否则很容易被表面光鲜的AI产出所迷惑。定期组织分享会讨论AI带来的评估挑战和最佳实践是非常必要的。4. 面向未来在共生中重新定义人的价值LLM带来的认知错觉本质上是一次技术冲击下的能力价值重估。它迫使我们去思考一个更根本的问题在AI能够越来越熟练地完成许多具体任务的未来人类独特的、不可替代的价值究竟是什么校准的目的不是要剥除AI的贡献把人打回原形进行“裸考”。恰恰相反是为了更准确地将人的价值从“人机混合体”中识别和彰显出来。经过校准我们会发现人的价值正在向更高维度迁移定义问题与设定目标的能力AI擅长解决问题但“解决什么问题”、“为什么要解决这个问题”、“成功的标准是什么”这些依然需要人类基于对业务、用户和世界的深刻理解来定义。复杂情境下的判断与决策当信息不全、规则模糊、存在多重价值观冲突时需要人类运用经验、伦理和直觉进行综合判断。这是AI目前难以涉足的领域。跨领域知识的连接与创新将A领域的知识灵感性地应用于B领域进行跨界创新需要人类发散的联想和创造力。情感共鸣与意义构建理解他人的情感讲述打动人心的故事为工作赋予意义构建信任关系这些是人际协作和社会运行的基石。因此最终的校准是校准我们的认知视角从“评估一个独立个体的绝对能力”转向“评估一个个体作为‘人机协作系统’中主导性、决策性、创造性核心的效能”。当我们能清晰地看到在一份出色的AI辅助产出的背后是使用者精准的问题定义、巧妙的流程设计、严格的质控把关和关键的创新注入时我们才真正完成了评估的“校准”。这不仅能让人才评估更公平更能指引我们每个人在AI时代找准自己应该深耕和绽放的核心竞争力所在。