CUA Browser: 基于Browserbase和OpenAI CUA Model的浏览器自动化开源项目
CUA Browser是什么?
CUA Browser 是一个提供一个测试和探索 Browserbase 和 Openai 的 Computer-Using Agent (CUA) 功能的免费开源项目。用户可以通过自然语言命令与浏览器交互,并观察浏览器的响应。
CUA Browser功能特征
多模态交互:CUA通过处理屏幕上的原始像素数据来理解界面内容,借助虚拟鼠标和键盘完成操作。
多步骤任务执行:可将复杂任务分解成多个步骤,并能动态调整操作顺序。
推理与自纠正能力:执行任务时,CUA会通过链式思考进行推理,再依据环境反馈动态调整操作。
用户确认机制:对于敏感操作,像输入登录信息或处理验证码这类,CUA会请求用户确认,防止出现潜在错误。
无需专用API:CUA不依赖特定的操作系统或网页API,能直接通过屏幕、鼠标和键盘与各种数字环境交互。
CUA Browser项目特点
开源免费:CUA Browser是开源项目,采用MIT许可证,用户可免费使用。
技术基础:该项目基于Browserbase和OpenAI的CUA技术开发。CUA是一种能通过图形用户界面(GUI)与计算机应用交互的人工智能模型。
使用场景:用户输入自然语言指令后,CUA Browser就能执行网页浏览、表单填写、信息提取等任务。
CUA Browser应用场景
网页自动化任务:能自动填写表单、搜索信息、筛选内容等。比如搜索特定商品、预订酒店、查询航班信息等。
复杂任务执行:可以处理多步骤任务,像创建项目、生成购物清单、管理日程等。例如在Todoist中创建购物清单或在Spotify中创建歌单。
信息检索与整理:从多个网站提取和整理信息,比如搜索不同网站上的产品信息并比较。
辅助决策:在复杂任务中提供辅助决策支持,例如计算退款金额或解决逻辑推理问题。
安全与合规:执行敏感操作时,CUA会要求用户确认,确保操作安全。
CUA Browser使用方法
1. 环境准备
Node.js:需要安装 Node.js(推荐版本 14.x 或更高)。
API 密钥:需要从 OpenAI 和 Browserbase 获取相应的 API 密钥。
2. 项目克隆与配置:
git clone https://github.com/browserbase/cua-browser.git cd cua-browser cp .env.example .env.local
3. 安装依赖:
npm install
4. 配置环境变量:
OPENAI_API_KEY=your_openai_api_key OPENAI_ORG=your_openai_org_id (optional) BROWSERBASE_API_KEY=your_browserbase_api_key BROWSERBASE_PROJECT_ID=your_browserbase_project_id
5. 启动开发服务器:
npm run dev
与OpenAI的Operator关系
CUA Browser的灵感源于OpenAI的Operator项目,后者是一个能通过浏览器执行任务的AI智能体。Operator使用CUA模型,结合了GPT - 4o的视觉能力和强化学习的推理能力,能通过屏幕截图“看到”网页内容,并通过模拟鼠标和键盘操作与网页交互 。
GitHub仓库:https://github.com/browserbase/cua-browser
项目官网:https://www.browserbase.com/computer-use