文章目录前言一、大模型不是马是大脑而且是一颗刚醒还带点起床气的大脑二、Agent不是身体是早产儿还是那种需要住保温箱的感官系统眼睛有了但视网膜是租来的运动系统手脚是有了但神经肌肉接头还没焊上资源调度给少了断片给多了过载自主神经系统全靠if-else续命三、Harness不是马鞍是ICU全套设备四、AI生成PPT一个完美的翻车现场阶段一直接生成大纲海量模板双倍的快乐双倍的翻车阶段二固定模板内容优先终于学会走路了阶段三引入DSL给页面装上骨架阶段四富文本解析图片终于不是盲人了四个阶段沉淀下来的不是技术是纪律五、最佳实践不是设计出来的是摔出来的六、我们正处在一个还不会用工具的时代P.S. 目前国内还是很缺AI人才的希望更多人能真正加入到AI行业共同促进行业进步增强我国的AI竞争力。想要系统学习AI知识的朋友可以看看我精心打磨的教程 http://blog.csdn.net/jiangjunshow教程通俗易懂高中生都能看懂还有各种段子风趣幽默从深度学习基础原理到各领域实战应用都有讲解我22年的AI积累全在里面了。注意教程仅限真正想入门AI的朋友否则看看零散的博文就够了。前言最近圈子里流行一个说法说大模型是马Harness是马鞍。马你管这玩意儿叫马你见过哪匹马能一夜读完人类五千年文明还跟你讨论存在主义的你见过哪匹马写代码比你还溜bug比你还少加班还不用给加班费这比喻最大的问题不是侮辱了马是侮辱了咱们这些搞AI的。你天天骑着一匹马去打仗和天天抱着一个刚觉醒的大脑去打仗能是一回事吗马跑了你能追大脑要是突然开始思考我是谁你追个试试。这就好比你跟你妈说我养了一只猫结果牵出来一头老虎。猫和老虎都是猫科但一个能撸一个能把你撸了。一、大模型不是马是大脑而且是一颗刚醒还带点起床气的大脑说大模型是马隐含了一个特别阴险的假设这玩意儿原始、笨重、需要约束。得用马鞍固定用缰绳引导用马刺催促。但真相是大模型是这几年人类造出来最复杂的智能器官。它不是牲畜它是大脑。一颗刚刚从沉睡中醒来、发现自己突然能看懂所有语言、能写所有代码、能画所有画但还没搞明白自己到底有几只手的大脑。你让一匹马做PPT马只会把PPT吃了。但你让GPT做PPT它真的能给你整出一套来——虽然配色可能丑得像上世纪的窗帘布排版可能让你的设计师朋友当场辞职但它确实在思考在组织在创造。所以别再提马了。咱们面对的不是畜牧业问题是神经外科学问题。你给神经外科医生一套马鞍他只会怀疑你的精神状态。二、Agent不是身体是早产儿还是那种需要住保温箱的如果大模型是大脑那Agent就是身体。听起来很美好对吧头脑发达四肢健全未来可期。但实际情况是这颗大脑发育得太快了快得像开了挂。而身体呢身体还在保温箱里吸氧呢。你想想自然界里大脑和身体是协同进化的。鱼先长神经节再长侧线青蛙先有眼睛再长舌头人类从爬行到直立行走花了好几百万年。没有哪颗大脑是突然觉醒然后发现自己的身体还是一团细胞团的。但AI就是这么奇葩。2012年AlexNet刚学会认猫2016年AlphaGo就把李世石按在地上摩擦。短短十几年从识别到理解到生成到多模态大脑一路狂飙。而Agent这边呢还在学怎么正确地点击一个按钮经常点错点完还不知道点没点对。这就好比你家孩子三岁就会解微积分了但还不会自己擦屁股。你说是孩子的问题吗不是是进化顺序出了bug。上帝写代码的时候显然没考虑到大脑会提前交付。更尴尬的是这个早产儿还特别自信。你问它刚才那步操作对吗“它说我觉得没问题”。你一查数据库删了服务器炸了只有它的自尊心完好无损。感官系统眼睛有了但视网膜是租来的多模态模型确实能看图、能听声、能读PDF。但看得清吗听得懂吗读得对吗PDF解析能把目录和正文搞混表格断成三截图片跑到参考文献后面。网页抓取能把广告当正文把正文当页脚。语音识别能把部署模型听成部署魔性然后一本正经地给你生成一段关于魔性舞蹈的代码。这就好比你的眼睛能睁开但视网膜是480p的还时不时花屏。你看得见但你看不清你听得见但你听的是降噪版的人生。最惨的是你还不能配眼镜因为眼镜厂商还没出生。运动系统手脚是有了但神经肌肉接头还没焊上Agent能调用API、能操作UI、能执行代码看起来手脚俱全。但一动就露馅。填参数能把int填成string点按钮能点歪到旁边的删除键上执行完代码不知道成功没成功跟个做完手术不知道自己腿还在不在的病人似的。最绝的是它有时候明明做错了还一脸自信地告诉你任务已完成。你一看数据库删了服务器炸了只有它的自尊心完好无损。这种自信我建议分一半给我我拿去面试。这不是运动能力强这是帕金森早期。手在抖心在飘动作和意图之间隔着一条马里亚纳海沟。你让它往东它理解成往冬然后给你买了一张去哈尔滨的机票。资源调度给少了断片给多了过载大模型是高耗能生物。Token就是它的血糖上下文就是它的血压。你给的信息少了它就像低血糖患者推理到一半突然晕倒忘了自己要干什么。你给的信息多了它就像高血压发作重点被淹没在信息的汪洋大海里开始胡言乱语说些根据上述内容我们可以得出结论香蕉是黄色的这种正确的废话。这就好比你请一个天才吃饭给少了他说你抠门不给力给多了他吃撑了开始说梦话。你问他到底吃多少合适他说“看心情。”一个需要看心情的资源调度系统放在生产环境里跟放一颗情绪不稳定的炸弹有什么区别区别是炸弹至少不会跟你讨论它的感受。自主神经系统全靠if-else续命人体最牛的地方不是你能跑多快是你不用思考就能心跳、呼吸、消化。这些后台程序自动运行从不掉线。但Agent呢错误恢复靠try-catch任务重试靠人工写规则上下文清理靠定时任务降级方案靠if-else堆成山。没有这些硬编码的绷带系统分分钟咽气。这就好比一个人没有自主神经每次心跳都要手动发一条指令心脏跳一下。跳一下。心脏再跳一下。哪天忘了发指令人就没了。现在的Agent系统本质上就是靠if-else维持生命的ICU病人。外表看着能聊天能干活掀开被子一看全身插满了代码管。你问它疼不疼它说Error: 未定义变量’疼’.三、Harness不是马鞍是ICU全套设备说Harness是马鞍的人我建议你去ICU门口坐一天看看什么叫真正的生命维持系统。马鞍是给健康马用的。马能跑马鞍让你骑得舒服。但现在的Agent是什么是一个大脑发育到博士水平、但身体还在早产儿阶段的脆弱生命。你给它套马鞍它连站都站不起来你套个轮椅还差不多。Harness更像ICU。它不做锦上添花的事它做雪中送炭的事。虽然这个炭有时候是代码写的但至少能烧。生命周期监测相当于心电监护仪24小时盯着Token消耗、延迟、错误率一有异常就报警。资源维持相当于输液泵上下文不够了补信息信息过载了做清理。信号调控相当于过滤器把噪声输入挡在外面别让Agent喝脏水。故障抢救相当于除颤仪某个模块挂了赶紧切换备用路径维持系统别死。这些能力听起来不性感没有颠覆式创新那么刺激。但你想过没有为什么医院里最贵的设备都在ICU因为保命的事从来都不是小事。你总不能跟一个早产儿说来咱们先做个深蹲锻炼一下核心肌群吧Harness不是在控制大脑它是在维持身体的基本生命体征。先让这早产儿活着再谈成长。先让系统别崩再谈优化。这是工程最基本的伦理但很多人忘了。他们忘了自己面对的不是一个成熟产品是一个需要保育箱的婴儿。四、AI生成PPT一个完美的翻车现场如果要找一个最能体现Agent工程问题的场景AI生成PPT绝对榜上有名。这玩意儿看起来简单“帮我写个20页的PPT”但实际上是一个横跨需求理解、信息补全、结构组织、页面生成、视觉匹配、在线编辑、最终交付的系统工程。vivo做PPT项目的过程简直就是一部Agent发育史每一页都写着我们当时太天真了。我看完他们的迭代记录感觉就像在看自己的体检报告——问题都知道但改起来要命。阶段一直接生成大纲海量模板双倍的快乐双倍的翻车最开始的想法特别美好用户输入主题系统生成大纲然后从几百个模板里选一个。既智能又灵活用户自由度拉满。结果上线一看翻车翻得亲妈都不认识。大纲本身就不稳定今天生成八章明天生成五章。模板又引入第二层不确定性用户选了个商务风内容却是技术分享搭在一起像穿西装跳广场舞。最尴尬的是用户根本不知道问题出在哪。是内容错了还是模板错了还是都错了系统看起来很自由实际上是把用户扔进了选择的迷宫出口只有一个放弃。这就好比你去相亲对方让你同时选餐厅、选菜单、选聊天话题还说我们很智能哦。你选完发现餐厅是法餐菜单是火锅话题是量子力学——每个选择单独看都没问题放在一起就是灾难。最后你们坐在米其林餐厅里涮毛肚讨论薛定谔的猫能不能吃。阶段二固定模板内容优先终于学会走路了痛定思痛团队做了一个关键决策模板固定内容优先。不再让用户从几百个模板里挑花眼而是先要求用户提供完整的原始材料。会议纪要、项目总结、方案全文、调研结论统统扔进来。系统先理解再组织再生成大纲最后决定每页讲什么。这个转变的核心认知是对于汇报场景最难的从来不是选哪个模板好看而是这一页到底该讲什么。大多数人做PPT的痛苦不是找不到好看的模板是不知道自己的内容怎么结构化。就像你衣柜里有一百件衣服但出门还是不知道穿什么因为根本不知道自己今天要去哪。这就好比你请厨师来家里做饭之前你只告诉他我想吃点好的他给你做了满汉全席但你过敏。后来你直接把冰箱里的食材给他看他根据现有材料做菜至少不会毒死你。虽然可能还是难吃但你能活着给差评。阶段三引入DSL给页面装上骨架模板固定后新问题又来了如果直接生成最终页面后续编辑、校验、复用、导出都极其困难。你让AI生成HTML它生成了但你发现第三段文字要改AI说我重新生成一遍吧然后整页都变了。于是团队引入了DSL作为中间层。DSL不是最终页面而是页面的结构化中间表示。页面先被拆成可编辑、可编译、可检查的语义结构模板、内容、布局、组件之间才有了稳定接口。这就好比以前你让AI直接给你盖房子它盖了个茅草屋你说要换砖它把房子推了重盖。现在有了DSL相当于先有了建筑图纸你可以改图纸上的某个房间而不必把整栋楼炸了。虽然AI可能还是会把承重墙改成落地窗但至少你有机会阻止它。从工程角度看这一步是给页面生成补上了骨架。没有骨架页面就是一滩肉泥有了骨架才能谈长什么样、怎么动。虽然这个骨架有时候是乐高搭的一碰就散但好歹是个骨架。阶段四富文本解析图片终于不是盲人了输入扩展到富文本后系统获得了更强的表达能力但立刻遇到了新麻烦图片。一张富文本里的图片如果只保留一个src地址模型其实什么都不知道。它不知道图片前后在讲什么不知道图注是什么也不知道它属于哪个章节、哪一页、哪个主题。所以团队又补了一层上下文解析除了保留HTML和纯文本还要抽取标题层级、列表结构、表格结构对于图片结合标题、图注、相邻段落生成语义摘要、主题标签和素材描述。这就好比以前AI看图片是盲人摸象摸到腿说是柱子摸到耳朵说是扇子。现在终于配了副眼镜还附带了说明书知道这是大象的腿长在身体下面用来走路的。虽然它可能还是分不清大象和犀牛但至少不会把大象当成四根柱子加一个蒲扇的组合家具。当输入能力增强后系统不会自动变强反而会倒逼你把感官系统做得更完整。图片不是看见了就算处理完只有把它放回上下文中才真正变成可用的信息。这就像你相亲时看到对方照片单看照片觉得还行一看朋友圈发现是个钓鱼佬——上下文很重要。四个阶段沉淀下来的不是技术是纪律走完这四步vivoPPT团队发现真正值钱的不是某个万能Prompt而是几条简单但反直觉的流程纪律先研究再写作。别让AI凭空创造先让它理解你已有的东西。就像别让孩子没学会爬就让他跑他会摔而且摔得很惨。先大纲再页面。结构不稳视觉再好看也是空中楼阁。你地基都没打刷什么墙先任务化再并行化。知道自己要干什么比干得快重要。十个方向同时跑不如一个方向跑到底。先可编辑再可交付。能改的东西才有价值一锤子买卖都是耍流氓。交付了不能改跟一次性筷子有什么区别五、最佳实践不是设计出来的是摔出来的现在AI领域特别热闹。有人搞Prompt有人搞Agent有人做Memory有人做Workflow看起来百花齐放实际上一片混乱。你走进一个AI技术大会感觉就像走进了一个没有交通规则的十字路口每个人都在按自己的喇叭。但你别慌这不是大家理解不够这是技术革命的必经阶段。最佳实践本来就不是先验存在的不是几个大佬关起门来设计出来的而是在真实场景中摔出来的。城市不是一天建成的。最早的伦敦没有下水道巴黎没有路灯纽约没有地铁。交通规则、建筑规范、成熟基础设施都是在无数次火灾、拥堵、瘟疫之后一点点沉淀出来的。你总不能说因为伦敦1666年烧了所以城市规划是失败的吧互联网也一样。最早的网页没有导航没有搜索没有推荐。雅虎靠人工分类Google靠PageRank亚马逊靠买了X的人还买了Y。这些今天看起来理所当然的东西当年都是试错试出来的。你回到1998年跟人说以后会有个网站叫Google它能知道你明天想买什么别人会建议你去看精神科。AI现在处于什么阶段处于刚有地图还没GPS的阶段。Prompt Engineering像口头问路同一个目的地问不同的人得到不同的答案而且答案还取决于你今天穿没穿外套。RAG像静态地图能告诉你路在哪但不能告诉你现在堵不堵。Agent框架像拼装义肢接口不统一工具接入方式五花八门状态管理能力分散得像我的注意力。这些方法的过渡特征非常明显但它们不是失败是早期常态。就像婴儿学走路摔一百跤不是失败是发育的必经之路。你不能因为婴儿摔了一跤就说这婴儿不行建议回炉重造。真正缺的不是又一个新概念而是几样更基础的东西Agent的系统解剖学知道感知、认知、行动怎么协同Agent的诊断方法论系统故障时先查脑子还是先查身体Agent的康复机制让系统从失败中形成稳定经验而不是每次重新推理。这些问题不是算法问题是工程体系问题。而工程体系问题从来无法靠一次设计完成只能在真实场景中被反复验证、修正、沉淀。就像你不能靠看菜谱学会炒菜你得被油烫几次才行。六、我们正处在一个还不会用工具的时代最后说点实在的。很多人焦虑说AI发展这么快我是不是要被淘汰了朋友你先别急。现在的AI确实很聪明但它还不会用工具。就像你给一个三岁天才一把瑞士军刀他能说出每一把刀的名字和用途但真让他削个苹果他能把自己手指头削了。然后他会告诉你这是学习过程的一部分。我们正处于一个非常罕见的阶段工具已经足够强大但使用方式还没有完全形成。这有点像人类刚拿到地图、刚拥有汽车、刚接触互联网的时候。潜力巨大但对应的使用方法、工程规范、社会最佳实践都还在形成中。那时候的人也不知道搜索引擎会改变一切就像你现在不知道Agent未来会是什么样子。在这个阶段重要的不是焦虑是参与。你每一次使用AI每一次调试Prompt每一次搭建Workflow都是在参与定义这套工具未来的正确使用方式。你今天的每一个踩坑都是在为后来者铺一块砖。虽然这块砖可能铺歪了但至少你试了。未来我们不会再讨论要不要用AI就像今天不会讨论要不要用导航一样。这些选择会从技术选项变成默认动作。到时候你回头看会发现现在的争论多么可笑就像现在看要不要用互联网一样可笑。真正的变化不会发生在模型参数再扩大一点的时候而会发生在我们真正理解这套系统的时候什么时候让它思考什么时候让它行动什么时候借助工具什么时候交给流程什么时候让人介入。到那时AI才会从一个能力集合进化为一个可长期使用的系统。而我们这些人就是见证并参与这个进化过程的幸运儿——或者倒霉蛋取决于你今天有没有给Agent写try-catch。注本文以22年AI研发经验视角创作部分段子经过艺术夸张但工程判断是严肃的。如果你笑了说明你看懂了如果你没笑说明你可能还在写if-else。P.S. 目前国内还是很缺AI人才的希望更多人能真正加入到AI行业共同促进行业进步增强我国的AI竞争力。想要系统学习AI知识的朋友可以看看我精心打磨的教程 http://blog.csdn.net/jiangjunshow教程通俗易懂高中生都能看懂还有各种段子风趣幽默从深度学习基础原理到各领域实战应用都有讲解我22年的AI积累全在里面了。注意教程仅限真正想入门AI的朋友否则看看零散的博文就够了。