智谱 6 月 13 号发了 GLM-5.2。我看朋友圈、知乎、B 站都在转“国产新天花板”、“接近 Opus 4.8”、“MIT 开源”——口号不少。今天用了一整天结论提前甩出来写代码可以让它规划复杂的大事就别指望。先说今天踩到的几件具体事再拉一下网上的评价做个对照。一、它会涣散最直观的体验是它记不住自己说过什么。让它做一件分三步的小事第一步做完它问我要不要继续做第二步它做了但做的不是第二步——做的是一个跟第一步类似的事相当于绕回去重做。我重新指了一遍做第二步它哦了一声接着干然后第三步又飘了。我之前用 Claude / GPT 是不会这样的。Claude 哪怕跑久了问它我们刚才到哪一步了它能复盘出来。GLM-5.2 复盘的时候自己也不确定要我把上文贴一遍它才接得上。智谱在 5.2 上把上下文窗口拉到 100 万官方宣传是Solid 1M 无损。问题是——窗口拉到 100 万管个屁脑子还是只看头尾。长上下文模型集体的脆点5.2 给我的体感就是这个。二、它会自己加戏第二件烦的事我让它做 A它给我返回了 A B C。我并没要求它做 B 和 C——是它揣测出来既然你做 A那你应该也想要 B 吧自动补上的。听起来像贴心实际后果我要的 A 被淹没在一坨它自作主张的输出里B 和 C 不一定对但既然给了我得花时间一条条审想叫它别加得在 prompt 里写一句严格只做 X 不要扩展——多一道防御性的需求输入这个毛病行话叫幻觉式扩展需求AI 圈不少模型有但 GLM-5.2 这次给我的体感比预期严重。我的 prompt 不模糊——“把这段中文翻成英文原样保留 markdown 结构”——它非要顺手改进几个用词、给我一个表格摘要。三、识图是真的不行让它看图说话——结果说错了。具体就是图里明明是 A它说是 B。后来一查才知道——GLM-5.2 根本不是多模态模型它就是个纯文本大模型。智谱清言 APP 里那个上传图片功能背后跑的应该是 OCR 加另一个老模型做兜底。你以为在用 5.2 看图其实没在用。2026 年了新发的旗舰开源模型不带视觉这事说实话有点尴尬。同期的 Kimi K2.7 Code、MiniMax M3 都是多模态5.2 还守着纯文本——智谱自己也承认这是个短板说后面会补。四、丢个 txt 给它报错我用的是智谱的Coding Plan——官方的编程套餐入口号称编程是它最强的能力。我让它读一个 txt 文档想让它辅助分析代码上下文弹出来这么个东西[1213][The prompt parameter was not received normally.] Turn execution failed providerbuiltin:zai-coding-plan provider_code1213 modelGLM-5.2 request00fd34bf-3ced-4bd3-... reasonunknown retryablefalseThe prompt parameter was not received normally.——「prompt 参数没正常收到」。是哪个参数为啥没收到reasonunknown。能不能重试retryablefalse等于一脚踹回来。txt 啊朋友。最普通的文本格式。一行字一行字纯文本。我以为它至少会告诉我是文件太大、格式不认、还是触发了什么过滤——结果给我返了一个unknown叫我自己猜。这事最魔幻的地方是我用的是它官方的 Coding Plan。买了套餐、是它编程能力的旗舰入口。结果一个最朴素的读文档辅助写代码动作直接被它拒收。模型能力在国产开源里是头部——这是模型本身的事。但产品连 txt 文件都识别不了这就是产品稳定性的问题。五、那它什么时候值得用把上面四件事说完是不是 GLM-5.2 就一坨也不是。它真的有亮点而且亮得很编程能力是真强——但要老实说“接近 Opus 4.8” 是营销话术。SWE-Bench Pro 上 GLM-5.2 是 62.1%Opus 4.8 是 69.2%差了 7 个点。这个分数已经是国产开源里最能打的一档了写代码、改代码、看大仓库够用——但跟 Opus 还有一截别被宣传带跑1M 上下文。塞个长代码仓库进去做整体重构这事它能做不要塞完还期望它注意力均匀长上下文模型集体的脆点5.2 也没幸免MIT 开源 国产部署。对有数据合规要求的公司是刚需MIT 协议想怎么改怎么改可以 fork 出来当自家模型、国产部署数据不出国境、也不怕哪天被外部服务断供所以问题不是GLM-5.2 行不行是你拿它干什么。让它干编程的活模型在国产开源里是头部水准。让它帮你规划一件复杂的事、给一份长文档划重点、看图说话——它在错配。错配的不是模型是我的用法。后面我还是用回 Claude但用法变了。我现在的姿势是Claude GLM-5.2 搭配着用Claude 做规划——把要做的事拆清楚、列步骤、想清楚每一步要什么、卡点在哪。它擅长理解你绕来绕去的需求、能问对问题、能在乱七八糟的上下文里把重点抓出来编程丢给 GLM-5.2——规划清楚之后具体写代码、改代码、跑测试这种目标明确、步骤清晰的活交给它。它的编程能力撑得住而且比 Claude 便宜不少这套用下来体感比单用任何一边都强。Claude 当大脑GLM-5.2 当手。Claude 想清楚的事它能稳稳落地不让它去想接下来该干啥这种它弱项的活它就不涣散。错配是把它单独扔到一个既要想清楚又要写代码的全流程里——它的注意力扛不住。让 Claude 把想清楚那段接走它只干写代码状态就回来了。国产模型的进步是真的别因为一天体验就一棍打死。但宣传上全面接近 Opus听一听就好——具体到你的场景行不行自己跑一次最清楚。最后说一句。智谱这次发 GLM-5.2我用着有挺多槽点——但比起前阵子某国产大模型 PPT 阶段就喊着做到世界第一、最后东西没见着的玩法智谱算靠谱的至少东西做出来了让人能上手用、能挑出毛病。营销话术过头我可以骂但能挑出毛病这件事本身是有前提的得有东西可挑。PPT 大模型连给人挑毛病的机会都不给。