PC-Agent:一款用于PC上自动执行复杂任务的多智能体框架
PC-Agent是什么?
PC-Agent 由阿里通义实验室和上海交通大学联合推出的一种基于多模态大模型(MLLM)的新型层次化ai智能体框架。可以通过模拟人类认知过程,实现复杂 PC 任务的自动化操作,它可以根据指令控制Chrome、Word、微信等,比现有方法的任务成功率提高了32%,解决传统方法在复杂 PC 任务上的局限性。
PC-Agent核心特点
主动感知模块(APM):通过结合多模态大模型和屏幕截图内容,PC-Agent 能够实现对屏幕内容的精细感知和操作。
层次化多智能体协作结构:PC-Agent 将复杂指令分解为指令、子任务和动作三个层次,并分别设置了 Manager、Progress、Decision 和 Reflection 四个智能体。这种结构能够实现自上而下的任务分解和自下而上的精确反馈。
动态决策机制:通过 Reflection Agent 对执行结果进行实时反馈和调整,确保任务的准确性和适应性。
PC-Agent应用场景
任务自动化:PC-Agent 可以自动化执行复杂的数字任务,例如整理研究资料、撰写报告、制作演示文稿等。
跨应用工作流:该框架能够处理复杂的跨应用任务,例如在不同软件之间进行数据交互和操作。
高效数据利用:即使在少量高质量数据的训练下,PC-Agent 也能处理多达 50 步的复杂工作流。
PC-Agent 优势
任务成功率高:复杂任务成功率比现有方法提升32%。
数据效率高:仅需少量数据即可学习复杂任务。
操作能力强:能精准感知屏幕内容,完成复杂编辑和跨应用操作。
适用场景广:可自动处理文档、表格、演示文稿、日程管理等办公任务。
用户满意度高:准确率92%,响应快,用户评分4.5分(满分5分)。
性能提升:在复杂任务的实验评估中,PC-Agent 的任务成功率比现有方法提升了 32%。
适应性强:通过模拟人类认知过程,PC-Agent 能够更好地适应复杂的交互环境。
GitHub仓库:https://github.com/X-PLUG/MobileAgent/tree/main/PC-Agent