懂事的 Agent 已经开始自己看屏幕干活了,效率起飞!
这是苍何的第 558 篇原创大家好我是苍何。最近 Codex 新出了一个能力让 Codex 捕捉你的屏幕然后录制一套工作流Codex 就可以把它转为 skill然后,形成你自己的工作流 SOP。我尝试使用该功能来辅助我对微信聊天记录进行读取并回复我发现它并没法把聊天记录同步到上下文中更无法直接帮我回复。虽说我已经拿到了微信小微的内测但目前还仅限于手机端很多时间其实我是对着电脑的。找了一些骚操作感觉都不够丝滑和安全这两天倒是被安利了个能读取屏幕干活的 Agent。你可以看到在右侧这个助手它帮我总结了 AI 先行者联盟微信群聊昨天的精华内容这个 Agent 的逻辑是像人一样盯着你的屏幕然后自己滑动总结上下文。遇到视频或者链接还能自己打开看完后并放在上下文里。它叫 Vida是一个 Proactive Agent它能够持续理解用户的上下文、积累长期记忆并能够预判用户意图主动协助完成复杂工作交付可直接使用的成果。它能感知到我当前所处的应用环境结合上下文帮我做文案润色比如回复消息。就比如最近 Wesight 推出了宠物语音新功能我很想在用户群里问问大家使用体验。在聊天界面快捷键直接唤起 Vida你可以看到此时 Vida 的上下文里添加了微信应用当我发送指令润色我的回复的时候实际它能感知当前群聊上下文信息并给我优化回复。有时候甚至还能充当智能客服的场景比如刚好有个小伙伴问了一个项目的问题说实话细节我有点忘了。我尝试把这个问题丢给Vida。很神奇的是我没有给它上传过项目文档。它自己在我电脑里搜索相关资料、 GitHub 本地仓库、历史聊天和项目记录给了我一个可以直接复制的回复。这个点还是很强的Vida 会理解上下文判断用户意图并主动协助完成任务。Wesight 后台也积累了不少 Issue。说实话项目规模起来之后我很难一眼看出哪些问题需要优先解决。于是我让Vida把整个仓库过了一遍。它自己把所有代码和 Issue 读了一遍按照核心架构、运行环境、AI 引擎集成等维度分门别类甚至排好了优先级。后面该修啥、先修啥我直接看它列的清单干活就行真香我让它把这些加到待办顺便安排到明天的日程里面。讲真这种感觉真的很妙。我还用 Wesight 连接 Claude Code 做网页。我只输入了一句提示词让Vida帮我进行一波提示词优化。它很快给了两个优化版本我直接复制贴回了 Wesight。优化后的提示词生成的网页效果交互感直接拉满样式也很不错。在休息间隙我还让Vida帮我做了个桌面大扫除。堆在桌面上的各种凌乱文档、临时图片被分类整理得整整齐齐。忙活到晚上它还会自动为我生成一张「今日战报卡」。清晰总结了完成的事项、关键产出、用时分布、今日关键词以及明天的 To-do 计划。很神奇的是。我在做视觉交互测试和整理 Obsidian 笔记时没有主动打开过Vida。但等我晚上看战报时Vida居然在今日进展里把这两件事清清楚楚地列了出来。你还别说这种无需主动召唤、默默在后台打助攻的能力真的很顶。这也就是它最核心的定位Proactive Agent主动型智能体。相比普通被动等待指令的 AIVida能持续理解你的工作上下文积累属于你自己的长期记忆。Vida能提前预判你的意图主动站出来协助你处理各种复杂日常直接交付成型的结果。不知道大家有没有发现Agent 的上下文正在从「文本/对话」向「屏幕」快速转变。不管是前段时间 Codex 录屏固化 SOP还是操作系统级别的 Agent。我有预感智能体的演进正在迎来一个颠覆性的全新方向。那就是从「你告诉我」变成「我看见你」。这种转变某种程度上意味着AI助手正在从工具走向伙伴。你不需要频繁给它输入指令它默默看着你的屏幕就能懂你在忙什么、需要什么然后主动打出助攻。