Amazon Nova Act:亚马逊推出的具备操控网页浏览器并自主执行简单任务的的AI智能体
Nova Act是什么?
Nova Act是亚马逊推出的一款具备操控网页浏览器并自主执行简单任务的的ai智能体,能够控制网页浏览器并独立完成诸如搜索、填写表单、完成结账等简单任务。它还支持详细指令识别和复杂任务分解,帮助用户简化日常操作。
Nova Act功能特征
浏览器操控能力:Nova Act可通过分解复杂任务为原子指令(如搜索、结账、填写表单),并调用浏览器API或Playwright工具实现自动化操作,例如在线订购沙拉、预订餐厅或设置自动回复邮件。其内部测试显示,在日期选择、弹窗处理等UI交互任务中成功率超90%。
复杂任务分解:Nova Act SDK允许开发者将复杂任务分解为一系列可执行的简单命令,例如“找出从我家到这三家商店的最便捷路线,然后在大约下午6点看电影”。
详细指令识别:它能够识别更详细的指令,比如在购物时拒绝接受保险推销。
多模态交互架构:依托自研的Nova基础模型(如Nova Micro/Lite/Pro)解析网页内容,结合ScreenSpot Web Text 94%的高分能力模拟人类操作逻辑,实现视觉识别、行为模拟与流程控制的闭环。
性能表现
在亚马逊内部的ScreenSpot Web Text测试中,Nova Act得分为94%,优于OpenAI的CUA(88%)和Anthropic的Claude 3.7 Sonnet(90%)。不过,亚马逊并未使用更常见的代理评估基准(如WebVoyager)对其进行测试,其性能对比仍需更多外部验证。
Nova Act应用场景
购物助手:Nova Act可以帮助用户完成在线购物,例如从Sweetgreen订购沙拉、进行晚餐预订等。
行程规划:它可以协助用户规划行程,如找到从家到多个地点的最佳路线,并安排看电影等后续活动。
表单填写:Nova Act能够自动填写各种在线表单。
日程安排:它还可以在日历上选择日期,帮助用户安排日程。
信息查询:Nova Act可以根据用户指令,搜索并回答屏幕上显示的内容相关问题。
与Alexa+集成:Nova Act还将为亚马逊即将推出的Alexa+升级提供支持,这是对亚马逊流行的语音助手的生成式AI增强版本。
Nova Act由亚马逊新成立的旧金山AGI(人工通用智能)实验室开发,Amazon Nova Act是该实验室的首款公开产品。
详细介绍:https://labs.amazon.science/blog/nova-act
官网:https://nova.amazon.com/