聊聊AI编程经验、模型排位及Agent工具
先给大家看看我当前的使用情况按照tokscale的统计,我总共花了$1.8K美金(12.2K)的token我主要是周末在家休息的时候用,可以从我的日使用情况看出基本都是周六周日使用我目前消耗token的最多的模型是glm-5.1,花了8个亿token,排第二的是deepseek-v4-pro,花了3.86亿glm-5.2、qwen3.7-max目前都花了3个多亿这还只是我周末在家闲的时间用的情况我在单位使用量是这里的5倍左右上面这张图也可以看出国产模型在价格上的优势gpt-5.4-pro我只用了1400万token就花了$461是我所有模型支出最高的比花了8亿token的glm-5.1还高目前体验也没有明显的差距有些问题glm解决不了切换到gpt-5.4-pro也还是解决不了上面这张图也可以看出我用的工具opencode、claude、codex、qwen code、kilo code、kimi code我都用过,在公司我还安装了cline、ZCode、continue等等工具对当前不同模型不同agent工具我的使用感受分享一下我最近也vibe coding了一个开源项目:Vibe Coding——Qt高性能绘图库QIm大家有兴趣可以去了解模型和广大感受一样国内编程最强glm-5.2这点毋庸置疑之前的glm-5.1也很强这是我的主力编程模型。qwen系列除了 3.7 外表现都一般但qwen3.7-max在编程领域有很大突破至少我体验比kimi-k2.7-code要好。kimi在qwen3.7以前一直是我编程的第二选择qwen3.7出来后kimi暂时排第三。deepseek-v4-pro强项不在编程基本编程我都不用 deepseek但规划和探索我经常用到。截至 2026 年 7 月初编程领域国内模型我的排名如下glm-5.2 qwen3.7-max kimi-k2.7-code glm-5.1 kimi-k2.6 deepseek-v4-pro有些工具如opencodeoh-my-openagent可以为不同角色配置不同模型。例如 omo 我搭配的主力写代码是glm系列审查规划用deepseek探索用deepseek flash视觉相关用qwen的plus多模态系列这是我之前的搭配。oh-my-openagent的作者认为kimi比glm好但我的体验感觉还是glm比kimi好。agent 工具目前 AI 编程的主流工具第一类是以claude code、codex、opencode为代表的 CLI 工具及其对应的插件和桌面端。国内类似的工具有qwen code、kimi code、mimo code还有智谱的ZCode——ZCode相对特殊只提供 GUI 没有 CLI。这些 CLI 端加持插件后能力提升会很大例如oh-my-xx系列插件但有时也会过度设计这个后面会讲到。第二类是基于VSCode魔改的如Cursor、Trae、Qoder、CodeBuddy等。第三类是提供VSCode插件、完全依赖VSCode生态的最经典的有cline、kilo code、roo code已停止维护、continue。上面提到的工具除了CodeBuddy和mimo code我都使用过。由于公司提供了 coding plan 且额度无限但只有国产模型基本所有新模型我都体验过且在不同工具上都有体验主要是 CLI 端因此可以横向比较不同工具和不同模型的能力。我体验较深的是第一类——claude code、codex、opencode这些工具可以自由配置 coding plan不需要登录内网可用。第二类 VSCode 魔改的都需要登录在我公司内网无法使用。第三类基于 VSCode 插件的目前能力相对较弱且claude code、codex、opencode自己也都提供了 VSCode 插件第三类目前基本没什么生存空间kilo code也开始发行了cli端。下面是我对这些工具的能力排名claude code ≈ codex qwen code kimi code opencodeVSCode 魔改类我冲过Qoder的会员效果挺好但也非常贵说实话,我个人感觉效果和Cursor不相上下甚至是比Cursor好用的前提是你充了会员,Trae唯一优点只有免费Agent能力非常一般cursor ≈ qoder traeCodeBuddy没用过不做评价VSCode 插件版本如cline、kilo code、continue总体能力和没装插件的opencode差不多。opencode安装了oh-my-openagent插件后能力接近qwen code但达不到codex而且效率会低很多token 花费也大很多。以上工具迭代速度非常快不要以一个月前的印象来评价大家可以关注它们的 GitHub 主页看看 issues。AI 编程的一些经验AGENTS.md 和 文档构建基本所有工具都带/init命令但很多人不清楚这一点我看我团队AI Agent是否用的好就先看项目根目录下是否存在AGENTS.md文档如果连这个文档都没有那说明连Agent工具都不会用目前我项目里Claude.mdQwen.md都只有一句话read AGENTS.md统一到一个文件中AGENTS.md是解决 AI 编程工具没有记忆的共同痛点一份好的AGENTS.md应该包含项目概述项目是什么、用什么技术栈、解决什么问题目录结构关键目录和文件的职责说明编码规范命名约定、格式化规则、注释风格构建与测试怎么编译、怎么跑测试、有什么前置条件文档地图指引涉及某个模块应该阅读哪些文档踩过的坑已知的陷阱和注意事项比如某个依赖有版本兼容问题、某个路径不能改实际效果非常明显且你要时刻想着更新它或补充它我经常一个事情如果Agent千难万难终于搞定我会让Agent总结并把必要的内容添加进AGENTS.md中同时一段时间后我也会让Agent主动更新一下AGENTS.md文件在ai流行前除非你的项目是开源项目否则一般很少会花大精力维护文档但 ai 流行后文档会变得非常关键我项目里必定存在docs文件夹这里面存放项目的架构、构建测试、开发规范、开发说明、业务描述、使用教程等内容。尤其是开发规范,你应该把项目的开发规范订好并在AGENTS.md中指引过去开发规范包括命名约定注释规范文档撰写规范·代码风格及特殊约定开发规范你要不断完善当你发现某次任务有偏差你就要思考的是如何完善你的“制度”而不是放任不管这个文档的开发规范就是你的“制度”就像每个公司都有自己的规章制度一样规章制度的建立都是在每次惨痛教训后凝炼出来的内容ai编程也一样你这个项目就好比一个公司你要有你的制度每次ai做错了做的不好了你首先要思考你的制度是否有问题是否有遗漏这是后续让agent健康工作的基础。两个提升效果的关键 Skillsuperpowers 与 grilling不同的 skill 会让 AI 用不同的方法论来解决问题。skill千千万我体验下来有两个 skill 对编程效果的提升特别显著。第一个是 superpowers。superpowers的核心思路是先思考再动手有一套较好的工作流对于一些预设编排弱的 agent 工具尤其需要例如没有安装omo插件的opencode但claude codecodex这些实际没有必要安装因为superpowers的思路都已经集成进他们的编排里面。superpowers的spec和plan机制我觉得设计的挺好比oh-my-openagent的计划做的更好opencode后期我觉得不开omo,直接用superpowers体验效果更佳第二个是 grilling以及它的变体grill-with-docs。grilling是一种对抗式审查的思路。当你有一个方案或设计时不要急着让 AI 去实现而是让grillingskill 对方案进行无情地质疑和挑战。它会从各个角度提问从而暴露出你自己都没想到的问题。我经常在方案设计阶段使用grill me。流程是这样的先让 AI 出一个初步方案然后启动 grilling让它对自己的方案进行多轮拷问每轮都会发现新问题然后迭代修正方案。几轮下来方案的成熟度远高于初版。当然有时候是真的在拷问你不要无脑什么事情都启用grill me有时候问题多到让你烦其实现在agent工具强大后大部分agent的plan模式能替代grill me的功能且提问的度把握的还可以。superpowers自身有brainstorm也可以做类似grill me的活但当前codex,qwen code这些工具的编排已经挺好不需要superpowers加持反而有时候grill me用的更多但如果活比较大涉及面比较广我还是会启用superpowers命令范围要精准大任务能完成但细节会丢失AI 编程的一个重要经验是你让 AI 做的事情越大它丢的细节就越多。有很多人吐槽vibe coding像下图一样如果你没有什么编程基础让ai生成一个大项目的确有可能会像上图一样但我经历过几个公司的经验来看普通人开发的软件也好不到哪里去反而有时候开源的项目更有水平。在一个小任务里ai写的代码比的过90%的普通程序员但大任务就不行。当前2026-06月AI 的上下文窗口虽然达100万大任务也都能完成但我实际体验下来经验是任务越大细节丢失越多。上下文窗口大不代表注意力分配得好当你给 AI 一个笼统的大任务比如帮我重构这个模块或帮我实现这个功能它确实能产出一个看起来完整的结果但如果你仔细审查会发现大量细节被悄悄忽略了有些情况甚至会偷懒。因为很多大任务都是基于子agent来完成在任务派发过程中的agent间沟通有时候会丢失细节AI 在处理大任务时会本能地优先保证主干逻辑跑通而把那些看起来不重要的细节牺牲掉。问题是这些一个项目的成功及稳定性这些细节往往是代码质量的关键。我的做法是把大任务拆成精准的中小任务。举个例子与其说帮我实现用户管理模块不如让AI先根据你的代码库制定一个用户管理模块的任务规划提示词模板大概如下我需要构建xxx模块{xxxxx一堆需求描述} --- 在构建前深度探索此项目提出一个任务规划把任务拆解为若干个可以独立实施和验证的中小任务。并生成一个实施计划每个任务只描述具体要做什么、涉及的模块以及简要的验收标准不要提供任何实现代码。任务之间尽量保持低耦合每个任务完成后应能独立测试不阻塞其他任务。按合理的实施顺序输出任务清单方便我逐步执行。在一些能自定义agent的工具我会设计一个任务拆解师的agent角色让他把我需求拆解为若干个任务在逐个执行后续你每次可以基于拆解的任务逐个执行和调试这样效果明显会比一次性完成一个大任务更好也更可控否则审核ai代码都会无比吃力。那些鼓吹Agent编程24小时的的确是可以编但代码质量会飞速下降我也不建议ai跑太久没有人为介入查看。Vibe Coding 时代程序员的价值AI 编程能力越来越强很多人开始讨论程序员会不会被淘汰。我的观点是普通程序员需求变少但也无法淘汰普通程序员就像大楼的监工监督和审核事情免不了沟通查bug这些都需要而高级程序员不仅不会淘汰反而会更关键。原因很简单AI 擅长的是执行——给它明确的指令它能快速产出代码。但做什么和按什么路线做最符合公司利益这两个问题AI 自己是回答不了的。这两个问题恰恰是架构师的职责ai替代的是纯粹的码农。在 vibe coding 时代程序员的角色会从写代码的人转变为指挥 AI 写代码的人。这个角色更接近架构师你决定技术选型用什么框架、什么架构模式、什么数据结构。AI 可以给你建议但最终决策权在你。一个错误的选型AI 会忠实地帮你实现得很漂亮但方向就是错的。你设计模块边界哪些功能放在一起、哪些要解耦、接口怎么定义。好的模块边界让 AI 在每个模块内的编程都简单清晰差的边界会让 AI 的代码充满跨模块的隐式依赖越写越乱。你制定规范命名约定、错误处理策略、日志规范、测试标准。这些规范写进AGENTS.mdAI 就能稳定遵循没有规范AI 每次的输出风格都不一样代码库会越来越混乱。你审查质量AI 产出的代码你需要判断是否正确、是否安全、是否可维护。AI 不会主动告诉你这段代码有安全风险或这个设计在数据量大了之后会有性能问题这些需要人来把关。一个好的架构能让 AI 的编程效果成倍提升。我自己的体会是当项目结构清晰、模块职责明确、规范文档完善时AI 几乎可以独立完成大部分开发任务我只需要做审查和微调。反之当项目结构混乱、规范缺失时AI 产出的代码质量也随之下滑需要大量人工修正。所以未来的竞争力不在于能不能写代码——这已经是 AI 的基本能力了——而在于能不能设计出让 AI 高效工作的架构。这要求你对系统设计、领域建模、工程规范有深入的理解这些恰恰是高级程序员和架构师的核心能力。低端程序员的工作CRUD、模板代码、简单 bug 修复确实会被 AI 大量替代这不是危言耸听。但能做架构决策、能把控系统质量、能让 AI 更好地工作的人价值只会越来越高。