Page-Agent:阿里开源的GUI Agent,不用截图,纯文本照样操作网页 阿里巴巴最近开源的Page Agent——它是一个JavaScript库跑在你自己的网页里不需要Python、不需要浏览器扩展、不需要截图。项目目前v1.11.0TypeScript编写MIT协议。7月3日刚发了新版本提交数超过一千还上了Hacker News首页。Page Agent做的事情很直接读DOM树理解页面结构然后执行操作。因为它是你网页的一部分所以天然能访问所有DOM节点、表单状态和事件。不需要像传统方案那样截图、OCR、计算坐标再模拟点击——它直接操作DOM。这意味着它不需要多模态模型任何支持function calling的LLM就能驱动它。跟同类方案比差异主要在执行位置。Python生态里最知名的browser-use走的是服务端自动化路线——用Playwright控制浏览器截图发给视觉模型做决策。Page Agent把这个过程移到了浏览器端用文本化的DOM信息替代截图。优点是省掉了截图开销和Python依赖代价是只能控制自己所在的那个页面。代码层面集成一行HTML脚本就能试用script srchttps://cdn.jsdelivr.net/npm/page-agent1.11.0/dist/iife/page-agent.demo.js crossorigintrue/script这个demo模式用的是项目提供的免费测试LLM只适合技术评估。正式接入用NPM安装npm install page-agent然后几行代码就完成初始化import { PageAgent } from page-agent const agent new PageAgent({ model: qwen3.5-plus, baseURL: https://dashscope.aliyuncs.com/compatible-mode/v1, apiKey: YOUR_API_KEY, language: en-US, }) await agent.execute(Click the login button)配置项不多就是模型名、API地址、密钥和语言。支持接入任何兼容OpenAI接口的LLM不限阿里自己的模型。Page Agent受browser-use启发DOM处理组件和prompt设计都有致敬成分。但两者的定位完全不同browser-use是服务端的通用浏览器自动化引擎Page Agent是给网页产品嵌入AI操控能力的客户端方案。你在做一个SaaS产品想加AI CopilotPage Agent直接嵌入你的前端代码。你要做自动化测试或爬虫browser-use更适合。必须说清楚的几个限制。第一demo模式用的免费LLM接口仅供评估生产环境必须接入自己的LLM。第二可选Chrome扩展支持多页面任务但基于文本DOM的方案在跨域iframe场景下仍有天然的隔离限制。第三项目明确声明不接受纯AI生成的贡献。第四这是一个网页增强工具不是服务端自动化方案不要期望它能替代Selenium或Playwright。适合什么场景如果你在做一个有复杂表单的ERP、CRM或管理系统想让用户用一句话完成几十次点击的流程这个方案特别合适。另外SaaS产品的AI Copilot功能、无障碍访问增强语音命令驱动页面也是它的天然用例。不适合什么场景跨多个网站的自动化测试或数据采集、服务端的批量浏览器任务、需要截图做视觉判断的场景。这些用传统的Playwright/Puppeteer方案更靠谱。项目地址https://github.com/alibaba/page-agent 同类方案 - browser-usehttps://github.com/browser-use/browser-usePython/Playwright,服务端浏览器自动化