MidScene:用自然语言重新定义跨平台自动化测试
MidScene用自然语言重新定义跨平台自动化测试【免费下载链接】midsceneAI-powered, vision-driven UI automation for every platform.项目地址: https://gitcode.com/GitHub_Trending/mid/midscene你是否曾为编写繁琐的UI测试脚本而烦恼是否希望有一种更直观的方式来控制浏览器、移动设备和桌面应用MidScene.js正是为解决这些问题而生的开源项目——一个基于视觉语言模型的AI自动化框架让你用简单的自然语言就能完成复杂的界面操作。传统自动化测试的困境与MidScene的解决方案想象一下你需要在三个不同平台上测试同一个功能Web端、Android应用和iOS应用。传统的自动化测试需要为每个平台编写不同的脚本使用不同的选择器还要应对频繁的UI变更。每次页面重构都意味着测试脚本需要重写这种维护成本让很多团队望而却步。MidScene采用了一种革命性的方法纯视觉驱动。它不依赖DOM结构或无障碍树而是像人类一样通过截图来理解界面。这意味着无论界面如何变化只要人眼能看到MidScene就能操作。这种设计从根本上解决了传统自动化测试的脆弱性问题。MidScene安卓自动化界面 - 通过自然语言指令控制Android设备核心技术视觉语言模型的智能应用MidScene的核心技术基于先进的多模态视觉语言模型。当你输入打开设置应用查看系统版本信息这样的自然语言指令时MidScene会视觉理解通过截图分析当前界面状态意图解析将自然语言转换为具体的操作步骤智能规划生成最优的执行路径精准执行在正确的位置执行点击、滑动、输入等操作系统支持多种主流模型包括Qwen3.x、Doubao-Seed-2.0、GLM-4.6V、gemini-3.5-flash和开源的UI-TARS模型。你甚至可以在本地部署这些模型确保数据安全和隐私保护。MidScene iOS自动化界面 - 智能控制iPhone设备设置全平台支持一次编写处处运行MidScene最强大的特性之一是其跨平台能力。无论你面对的是Web浏览器、Android应用、iOS应用还是桌面软件都可以使用相同的API和自然语言指令。Web自动化通过Chrome扩展或Bridge模式MidScene可以智能操作任何网页。从简单的表单填写到复杂的多步流程都能轻松处理。// 示例自动填写并提交表单 await aiAct(在搜索框中输入MidScene自动化并点击搜索按钮) await aiAct(找到第一个结果并点击进入详情页) await aiAct(点击添加到购物车按钮)移动端自动化对于Android和iOS设备MidScene通过ADB或WebDriverAgent进行连接提供与Web端一致的开发体验。桌面应用自动化通过RDP协议和原生输入驱动MidScene能够控制Windows、macOS和Linux上的桌面应用。MidScene桥接模式 - 通过本地终端脚本远程控制浏览器两种自动化风格灵活适应不同场景MidScene提供了两种主要的自动化风格满足不同复杂度的需求。自动规划模式对于简单任务你可以直接描述最终目标让AI自主规划执行路径// AI会自动分解任务并执行 await aiAct(逐一点击所有记录。如果某个记录包含文本completed则跳过它)工作流模式对于复杂业务逻辑你可以将任务拆分为多个步骤提高代码的可控性和稳定性// 手动控制每个步骤 const recordList await agent.aiQuery(string[], the record list) for (const record of recordList) { const hasCompleted await agent.aiBoolean(检查记录 ${record} 是否包含文本 completed) if (!hasCompleted) { await agent.aiTap(record) } }实际应用场景从测试到业务自动化自动化测试验证MidScene彻底改变了UI测试的编写方式。测试工程师不再需要编写和维护复杂的选择器而是用自然语言描述测试用例# 示例YAML测试脚本 name: 电商购物流程测试 steps: - action: 打开电商网站首页 - action: 搜索智能手机 - action: 按价格从低到高排序 - action: 选择第一个商品 - action: 添加到购物车 - assert: 确认购物车中有1件商品数据采集与处理MidScene可以自动从各种网站采集结构化数据支持定时任务和批量处理// 自动采集商品价格信息 const products await agent.aiQuery(提取页面上所有商品名称和价格) for (const product of products) { // 处理数据逻辑 console.log(${product.name}: ${product.price}) }业务流程自动化重复性的业务操作如数据录入、报表生成、系统巡检等都可以通过MidScene实现自动化。MidScene Chrome扩展 - 直接在浏览器中控制自动化流程详细执行报告透明化的自动化过程每次自动化任务执行后MidScene都会生成详细的执行报告包含操作步骤分解清晰展示每个步骤的执行情况耗时分析记录规划、定位、执行等各阶段的用时截图对比展示每个操作前后的界面状态错误诊断当操作失败时提供详细的错误信息和修复建议自动化测试报告 - 清晰展示每个步骤的执行情况快速开始五分钟上手MidScene环境准备确保你的系统已经安装了Node.js 18和Git然后执行以下命令获取项目代码git clone https://gitcode.com/GitHub_Trending/mid/midscene cd midscene npm install启动服务安装完成后只需一个命令即可启动MidScene服务npm run start第一个自动化任务启动服务后在浏览器中打开MidScene的AI自动化界面尝试输入简单的指令打开设置应用查看系统版本信息MidScene会自动识别并执行这个任务让你立即感受到AI自动化的便利。架构设计模块化与可扩展性MidScene采用模块化架构设计核心功能位于packages/core/目录下AI模型层(packages/core/src/ai-model/)负责视觉理解和意图解析设备适配层(packages/android/,packages/ios/,packages/computer/)各平台的具体实现自动化引擎(packages/core/src/agent/)任务规划和执行控制报告生成(packages/core/src/dump/)执行结果的可视化展示这种设计确保了系统的可扩展性你可以轻松地为新的平台或应用开发适配器。MidScene Playground界面 - 交互式调试和测试环境集成生态与现有工具链无缝对接与Playwright集成MidScene可以作为Playwright的补充为现有的测试框架增加视觉AI能力import { test } from playwright/test import { createAgent } from midscene/web test(使用MidScene增强Playwright测试, async ({ page }) { const agent await createAgent(page) // 使用MidScene的AI能力 await agent.aiAct(点击登录按钮) // 继续使用Playwright的传统方法 await page.fill(#username, testuser) })MCP集成通过Model Context ProtocolMidScene可以与各种AI助手集成让AI助手直接控制界面# 通过MCP让AI助手自动测试应用 tools: - name: midscene_automate description: 使用MidScene自动化界面操作 parameters: instruction: 要执行的自动化指令常见问题解答Q: MidScene需要编程经验吗A: 完全不需要MidScene专为普通用户设计自然语言即可完成所有操作。即使你没有任何编程背景也能轻松上手。Q: 执行效率如何A: MidScene采用智能缓存和优化算法重复任务执行速度会越来越快。系统会自动学习界面布局和操作模式提升后续执行效率。Q: 如何处理动态内容A: MidScene基于视觉识别不依赖DOM结构因此能够很好地处理动态生成的内容、单页应用和实时更新的界面。Q: 是否需要网络连接A: 基础功能可以在本地离线运行。如果需要使用云端AI模型增强功能才需要网络连接。Q: 支持哪些浏览器A: MidScene支持所有基于Chromium的浏览器Chrome、Edge、Brave等通过Chrome扩展或Bridge模式提供支持。Q: 如何保证数据安全A: 所有数据处理都在本地完成支持自托管AI模型确保数据安全和隐私保护。开始你的AI自动化之旅MidScene.js代表了UI自动化测试的未来方向——从依赖代码和选择器的传统方式转向基于自然语言和视觉理解的智能方式。无论你是开发人员、测试工程师、产品经理还是业务分析师MidScene都能为你提供强大的自动化能力。下一步行动体验在线演示访问官方文档中的示例项目安装Chrome扩展零代码体验自动化功能查看示例代码学习如何使用JavaScript或YAML编写自动化脚本加入社区在Discord或飞书群中与其他用户交流经验记住最好的学习方式就是动手实践。从简单的任务开始逐步探索MidScene的各种功能你会发现AI自动化的无限可能。官方文档apps/site/docs/zh/核心源码packages/core/示例配置packages/cli/tests/开始用自然语言控制你的数字世界让AI成为你最得力的助手【免费下载链接】midsceneAI-powered, vision-driven UI automation for every platform.项目地址: https://gitcode.com/GitHub_Trending/mid/midscene创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考