Page-Agent：阿里开源的GUI Agent，不用截图，纯文本照样操作网页-拓冰建站

阿里巴巴最近开源的Page Agent——它是一个JavaScript库跑在你自己的网页里不需要Python、不需要浏览器扩展、不需要截图。项目目前v1.11.0TypeScript编写MIT协议。7月3日刚发了新版本提交数超过一千还上了Hacker News首页。Page Agent做的事情很直接读DOM树理解页面结构然后执行操作。因为它是你网页的一部分所以天然能访问所有DOM节点、表单状态和事件。不需要像传统方案那样截图、OCR、计算坐标再模拟点击——它直接操作DOM。这意味着它不需要多模态模型任何支持function calling的LLM就能驱动它。跟同类方案比差异主要在执行位置。Python生态里最知名的browser-use走的是服务端自动化路线——用Playwright控制浏览器截图发给视觉模型做决策。Page Agent把这个过程移到了浏览器端用文本化的DOM信息替代截图。优点是省掉了截图开销和Python依赖代价是只能控制自己所在的那个页面。代码层面集成一行HTML脚本就能试用script srchttps://cdn.jsdelivr.net/npm/page-agent1.11.0/dist/iife/page-agent.demo.js crossorigintrue/script这个demo模式用的是项目提供的免费测试LLM只适合技术评估。正式接入用NPM安装npm install page-agent然后几行代码就完成初始化import { PageAgent } from page-agent const agent new PageAgent({ model: qwen3.5-plus, baseURL: https://dashscope.aliyuncs.com/compatible-mode/v1, apiKey: YOUR_API_KEY, language: en-US, }) await agent.execute(Click the login button)配置项不多就是模型名、API地址、密钥和语言。支持接入任何兼容OpenAI接口的LLM不限阿里自己的模型。Page Agent受browser-use启发DOM处理组件和prompt设计都有致敬成分。但两者的定位完全不同browser-use是服务端的通用浏览器自动化引擎Page Agent是给网页产品嵌入AI操控能力的客户端方案。你在做一个SaaS产品想加AI CopilotPage Agent直接嵌入你的前端代码。你要做自动化测试或爬虫browser-use更适合。必须说清楚的几个限制。第一demo模式用的免费LLM接口仅供评估生产环境必须接入自己的LLM。第二可选Chrome扩展支持多页面任务但基于文本DOM的方案在跨域iframe场景下仍有天然的隔离限制。第三项目明确声明不接受纯AI生成的贡献。第四这是一个网页增强工具不是服务端自动化方案不要期望它能替代Selenium或Playwright。适合什么场景如果你在做一个有复杂表单的ERP、CRM或管理系统想让用户用一句话完成几十次点击的流程这个方案特别合适。另外SaaS产品的AI Copilot功能、无障碍访问增强语音命令驱动页面也是它的天然用例。不适合什么场景跨多个网站的自动化测试或数据采集、服务端的批量浏览器任务、需要截图做视觉判断的场景。这些用传统的Playwright/Puppeteer方案更靠谱。项目地址https://github.com/alibaba/page-agent 同类方案 - browser-usehttps://github.com/browser-use/browser-usePython/Playwright,服务端浏览器自动化

Page-Agent：阿里开源的GUI Agent，不用截图，纯文本照样操作网页

相关新闻

如何在Windows 10/11上轻松安装Android子系统：WSABuilds终极指南

浏览器自动化工具选型指南：Playwright、CDP与Agent Browser深度对比

如何在Windows 10/11上安装安卓应用：WSABuilds终极完整指南

最新新闻

WS2812智能LED与TM4C1294微控制器的嵌入式视觉开发

用LangGraph+Gemini 3 Pro构建可调试的数据分析工作流

终极指南：3分钟学会用NBTExplorer编辑Minecraft游戏数据

2026最新8款基础版免费AI编程工具权威实测

基于语法树比对的SQL注入防御：从原理到工程实践

MCP数据安全实战：IAM权限管理与数据加密策略详解

日新闻

中文大模型选型不是比参数，而是做工程化决策

STM32与LENA-R8构建全球定位与通信嵌入式系统

含金量高的EMBA｜2026国内及境外中英双语EMBA综合实力TOP5榜单

周新闻

3步彻底解决Windows右键菜单混乱问题：ContextMenuManager使用全攻略

GXDE OS下Wayland兼容性实战：从deepin-mutter原理到VMware Tools修复

企业AI落地困境与AgenticOps实践指南

月新闻

[C++]内存管理：串顺序存储的内存回收

移动端游戏功耗测试实战：电流、功率、亮度和场景对比

足球口袋教练 HarmonyOS 离线应用实战（03/20）：ArkUI 首页仪表盘搭建