Codex 又出王炸功能「录制回放」,实战测评!附原理浅析
大家好我是程序员鱼皮。最近Codex 上线了一个新功能叫Record Replay翻译过来就是「录制与回放」。很多 AI 圈儿的博主把这个功能吹上天了搞的我也是心痒难耐对这个功能期待值拉满了。这篇我带大家体验一下这个新功能然后聊聊它的适用场景和背后的原理。Record Replay 有什么用以前让 AI 帮你干活你得写一段提示词把每个步骤描述清楚。步骤少还行可如果流程比较复杂写提示词得花很多时间而且总有细节会漏。Record Replay 的思路是先开启录制你在电脑上正常操作一遍工作流Codex 通过 Computer Use 分析你的录制自动把你的操作提炼成一个可复用的 Skill 技能。之后你就可以用这个技能来回放整个流程了。比如 Codex 官方演示了利用这个功能自动上传发布视频有点儿像那什么比如我想教自己的小孩怎么搭好一套积木我很难用语言给他讲清楚于是亲自搭一遍积木让他在边上看着他就会了。可惜的是我没有自己的小孩儿只能把 Codex 当做赛博小孩养着。。下面咱们来实战一下。Record Replay 实战开始之前要注意这个功能目前只支持 macOSWindows 暂时还用不了。而且你需要把 Codex App 更新到最新版并且提前安装好 Computer Use 插件。之前我写过一篇 Codex 桌面 APP 保姆级教程从安装到实战都讲过了不熟悉的同学可以先看看。首先安装 Record Replay 插件准备工作做好了我来录一个试试。想一想平时我有哪些重复执行的操作呢有了我平时做视频经常要找一些能直接下载使用的 BGM每次都得手动打开网抑云音乐、搜索曲风、下载文件、再检查格式能否使用。正好拿这个场景来测试让 Codex 学会从网抑云音乐下载 FLAC 格式的指定风格音乐。第一步、输入提示词进入 Record Replay 插件页面点击「在对话中试用」Codex 会自动跳转到新对话页面对话框里会默认填好一句提示词「Record my workflow and turn it into a reusable skill」意思是录制我的工作流并生成一个可复用的技能。我在下面追加了一句自己的需求我要自动下载 FLAC 格式的特定音乐。然后提交。第二步、演示操作AI 读取技能后会请求屏幕录制权限批准之后就可以开始演示了。录制期间Codex 会观察你的操作行为和窗口内容一直持续到你手动停止录制。接下来我只需要像平时一样操作就好打开网易云音乐搜索想要的音乐风格找到目标歌曲并下载然后检查一下格式是否符合自己的预期不符合就删掉。。。第三步、停止录制生成 Skill操作完成后点击停止录制按钮。Codex 会分析我刚才录制的操作自动生成一个「音乐下载」 Skill 文件。这个 Skill 包含了几个关键信息什么时候使用这个技能、需要哪些输入参数、具体的执行步骤、以及怎么验证任务完成了。第四步、回放Skill 生成好了接下来就可以愉快地使用了。新开一个对话使用刚才生成的 Skill描述需求就好比如我让 AI 自主下载 3 首逗比音乐。Codex 会按照之前演示的操作路径自动完成整个流程。什么场景适合用 Record Replay试了一圈之后我个人的感受是这个功能对我来说用处不大华而不实。一方面目前只支持 macOS、有些应用 AI 还操作不了速度也慢、而且时不时搞错操作。另一方面Record Replay 底层用的就是 Computer Use而 Computer Use 本身已经能通过提示词来操控你的电脑了。所以如果你能用一两句话就把操作描述清楚直接写提示词让 AI 干就行没必要录制。那什么时候 Record Replay 才真正有价值呢我认为是当你的操作流程「说不清楚、但做得出」的时候。比如公司内部的 OA 系统、报销平台这种 AI 从没见过的界面你没法用提示词描述清楚但录制一遍它就学会了。再比如整理数据报表时你会下意识选某种排序、调某种配色、跳过某些字段这些隐性偏好你自己可能列举不全但通过录制能全部捕获。还有那种横跨好几个应用、每个应用点好几层菜单的长链路流程写几百字的提示词不如录制 2 分钟。不过可惜的是我个人基本没有这些场景。大多数的操作通过让 AI 操作 CLI 命令行就能搞定不比操作界面快多了而且还有一个坑我估计大多数同学很难一次性把自己的工作流录制清楚难免会有一些误操作比如点错按钮了之类的。但 AI 可能无法分辨导致最后生成的技能也有多余的操作。所以总结一下Record Replay改变的不是 AI 能做什么而是你告诉 AI 怎么做的方式。像我们程序员写提示词本来就是强项很多场景自己写 Prompt 就能搞定。但如果你身边有不太会写提示词的同事比如运营、HR、行政这个功能对他们可能更实用。Record Replay 的原理最后聊聊 Record Replay 底层是怎么实现的做 AI 应用开发方向的同学最好了解一下万一面试被问到呢不知道大家有没有用过按键精灵我小时候拿它做自动打怪脚本来着。按键精灵录制的是死板的鼠标轨迹比如坐标 (320, 450) 点击一下、等 500 毫秒、坐标 (180, 600) 再点一下。窗口位置稍微挪一下就全废了。Record Replay 和这种传统宏录制有本质区别。录制阶段Codex 其实只是在观察和采集并不会实时分析你的操作意图。等你停止录制之后它才会对捕获到的完整工作流进行检查和提炼。前面大家已经看到了Codex 生成的是一个SKILL.md文件本质上就是一份人类可读的 Markdown 文档里面记录的是「在搜索框中输入关键词」、「点击下载按钮」、「选择 FLAC 格式」这样的语义化步骤而不是像素级的坐标。回放的时候也不是在机械地重放轨迹。Codex 会把 Skill 作为上下文加载然后结合 Computer Use、浏览器操作、已安装的插件这些工具来执行。因为理解的是语义而不是坐标所以理论上同一个 Skill 可以在不同的环境和工具组合下复用。另外生成的 Skill 是可以编辑的你可以手动改SKILL.md也可以让 Codex 帮你进一步优化调整到满意为止。OK 就分享到这里本文会收录到我免费开源的 《Vibe Coding 零基础入门教程》上千张图、几十万字带你从 0 开始快速学会 AI 编程做出自己的产品、跑通变现全流程一次拿捏。开源指路https://github.com/liyupi/ai-guide我是鱼皮持续分享 AI 编程干货。觉得有用的话记得点赞收藏和关注也欢迎在评论区聊聊你日常有哪些重复性的电脑操作觉得 AI 能帮你自动化哪些工作流