我解放啦，网页终于能自己干活了！阿里 2 万 Star 开源 Page Agent，20 次点击变一句话-尧图建网站

嗨我是小华同学专注解锁高效工作与前沿AI工具每日精选开源技术、实战技巧助你省时50%、领先他人一步。免费订阅与10万技术人共享升级秘籍先说结论Page Agent 最值得看的地方不是“AI 能点按钮”而是它把 Agent 直接放进网页里。如果你做过后台系统、SaaS、CRM、ERP 或管理平台就会知道真正劝退用户的往往不是功能少而是按钮太多、路径太深、流程太绕。这篇文章不做源码长拆只用 3 分钟讲清楚它为什么火、和传统浏览器自动化有什么不同、以及你自己的产品能不能借这个思路做 AI Copilot。官方还放了一个 Demo 视频想先看效果的可以打开https://github.com/user-attachments/assets/a1f2eae2-13fb-4aae-98cf-a3fc1620a6c2你有没有发现现在很多 AI Agent 都在“控制浏览器”用截图识别页面用 Playwright 点按钮或者让一个外部自动化程序远程操作网页。但阿里开源的Page Agent换了一个思路不是让 AI 从外面操控浏览器而是让 Agent 直接住进你的网页里。上面这张图就是这篇文章最核心的反差传统浏览器自动化更像“外部脚本控制页面”Page Agent 更像“网页自己长出一个 AI 操作员”。截至 2026-06-27我查到这个项目已经有20.2k Star、1.7k ForkMIT 协议主语言是 TypeScript最新版本是v1.10.0。一句话概括Page Agent 是一个运行在网页里的 GUI Agent可以让用户用自然语言控制 Web 页面。比如你对后台说“帮我把今天新增的客户筛出来导出销售线索。”它要做的事情不是回复一段操作教程而是直接理解页面、点击按钮、填写表单、切换选项把流程跑起来。30 秒看懂它你遇到的问题Page Agent 的思路后台系统按钮太多新人不会用用自然语言直接描述目标一个流程要点 20 次变成一句话执行想给 SaaS 产品加 AI Copilot前端接入 JavaScript不必重写后端不想用截图和多模态模型基于 DOM 文本理解页面想接自己的模型支持自备 LLM想做多页面任务可选 Chrome 扩展和 MCP Server最吸引我的地方不是“它能点按钮”。真正有价值的是它把网页从“只能被人操作的界面”变成了“可以被 AI 理解和执行的工作台”。它和传统浏览器自动化有什么不一样很多人一听“AI 操作网页”第一反应是PlaywrightSeleniumbrowser-use浏览器扩展这些当然都很强但 Page Agent 的定位不完全一样。对比点Page Agent传统浏览器自动化运行位置页面内 JavaScript页面外的脚本或客户端面向对象Web 应用开发者、SaaS 产品测试、爬虫、自动化脚本典型用途给产品加 AI 操作员自动执行任务页面理解DOM 文本和语义结构截图、选择器、浏览器控制集成方式CDN / npm 接入单独启动自动化环境简单说它更像是给你的 Web 产品加一个“内置 AI 操作员”而不是写一个外部机器人。这对 B 端系统尤其有想象力。ERP、CRM、管理后台、数据平台、客服后台很多产品不是功能不够而是路径太深、表单太多、操作太绕。如果用户能直接说目标系统自己完成一串点击和填写这就是非常典型的 AI Copilot 场景。它主要能做什么Page Agent 官方给的几个应用场景我觉得都挺实用场景可以怎么用SaaS AI Copilot给现有产品加自然语言操作入口智能表单填写把复杂表单、审批、配置流程自动跑完产品教学让 AI 一边操作一边演示流程无障碍增强用语音或自然语言辅助操作页面多页面 Agent通过扩展跨标签页执行任务MCP 接入让本地 Agent 客户端控制浏览器它的核心特点也比较明确轻集成无需 Python、无头浏览器页面里引入 JS 即可。文本 DOM 操作不截图不依赖多模态模型。自备 LLM可以接 OpenAI-compatible API、Ollama 等模型服务。可扩展有 Chrome 扩展也有 Beta 版 MCP Server。怎么接入最简单的体验方式是直接用 CDNscriptsrc{URL}crossorigintrue/script如果在项目里使用可以通过 npmnpminstallpage-agent然后初始化一个 Agentimport{PageAgent}frompage-agentconstagentnewPageAgent({model:qwen3.5-plus,baseURL:https://dashscope.aliyuncs.com/compatible-mode/v1,apiKey:YOUR_API_KEY,language:zh-CN,})awaitagent.execute(点击登录按钮)官方也提醒了免费 Demo LLM 仅用于技术评估长期使用建议配置自己的模型服务。但它不是万能的这点一定要说清楚不然很容易把它理解成“网页自动化银弹”。Page Agent 是基于 DOM 理解页面的所以它更适合语义化较好的 Web 应用。它目前更擅长点击文本输入下拉选择表单提交页面滚动单层同源 iframe可选执行 JavaScript但它不适合这类场景复杂拖拽右键菜单纯视觉识别Canvas / WebGL / 图片内容理解跨域 iframeMonaco、CodeMirror 这类复杂编辑器的细粒度操作所以我的判断是它不是替代所有浏览器自动化工具而是给“你自己控制的 Web 产品”增加 AI 操作能力。这个定位反而更清晰也更适合落地。为什么值得关注我觉得 Page Agent 值得技术人关注原因有三个。第一它站在了一个非常热的方向上AI Agent 浏览器操作 MCP SaaS Copilot。第二它选了一个很巧的切入点不从外部控制浏览器而是让 Web 应用自己拥有 Agent 能力。第三它已经不是概念项目GitHub 2 万 Star、npm 版本到1.10.0、文档里有扩展、MCP、数据脱敏、自定义工具等工程化能力。如果你正在做后台系统、低代码平台、CRM、ERP、数据分析平台或者想给自己的产品加一个 AI 操作入口这个项目非常值得看看。最后以前我们总说AI 会帮用户看懂页面。但 Page Agent 给我的感觉是下一步网页本身就要开始听懂人话了。这才是它真正有意思的地方。后面我准备继续拆它的源码结构包括 DOM 是怎么“脱水”给 LLM 的、Page Agent 和 browser-use 的关系、MCP Server 怎么接本地 Agent。感兴趣的话可以先收藏这篇。项目地址GitHubhttps://github.com/alibaba/page-agentDemohttps://alibaba.github.io/page-agent/文档https://alibaba.github.io/page-agent/docs/introduction/overviewHN 讨论https://news.ycombinator.com/item?id47264138

相关新闻

如何免费创建专业级虚拟摄像头：OBS VirtualCam终极指南

终极指南：如何用OBS VirtualCam打造专业级虚拟摄像头系统

Vue 3 项目宝塔面板部署踩坑记录—为什么你的网页一直返回Nginx欢迎页？

最新新闻

Flow Launcher终极指南：彻底解放Windows效率的免费开源神器

D435i标定环境搭建避坑指南：从Ubuntu版本选择到Kalibr编译

不用盲目扩容带宽：靠流量优先级调度，稳稳扛住核心业务高峰三倍访问压力

3大革命性功能：Snap.Hutao为原神玩家打造的专业级数据管理方案

APK安装器技术方案：在Windows生态中无缝运行Android应用

如何快速解锁中兴光猫隐藏功能：zteOnu工具终极指南

日新闻

管理者的六个层次

华为OD机试2025C卷-座位调整[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

CrabCode v1.0.7与v1.0.8 更新速览！

周新闻

管理者的六个层次

华为OD机试2025C卷-座位调整[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

CrabCode v1.0.7与v1.0.8 更新速览！

月新闻