playwright-mcp:能够使大语言模型直接操控浏览器完成复杂任务

laywright-MCP是什么?

laywright-MCP 是一个结合了 Playwright 的跨浏览器能力和模型上下文协议(MCP)的开源工具,它能够使大语言模型(LLM)能够直接操控浏览器完成复杂任务,核心是让LLM通过结构化的可访问性快照与网页交互,而无需依赖屏幕截图或视觉模型,可以用来自动填写网页表单、自动收集网页信息、自动进行网页测试等

playwright-mcp:能够使大语言模型直接操控浏览器完成复杂任务.jpg

laywright-MCP功能特点

  • 浏览器自动化:支持打开网页、点击元素、填写表单、截屏、执行 JavaScript 等操作。

  • 结构化数据交互:基于 Playwright 的可访问性树生成结构化数据,无需视觉模型,适合基于文本的 LLM。

  • 两种模式:提供默认的“快照模式”(Snapshot Mode)和“视觉模式”(Vision Mode),后者可通过截图实现视觉交互。

  • 无头模式支持:可以在后台运行浏览器,不显示界面。

  • 快速轻量:基于 Playwright 的轻量级架构,响应速度快。

laywright-MCP使用场景

  • 自动化测试:创建 ai 驱动的测试场景,模拟真实用户行为。

  • 数据提取:从复杂结构的网站中提取特定数据。

  • 智能 Web 代理:构建能够自动执行复杂任务的代理,如预订旅行、比较价格等。

  • API 测试:支持发送 HTTP 请求并检查响应内容。

  • 网页导航和表单填写

  • 从结构化内容中提取数据

  • 代理的通用浏览器交互

laywright-MCP安装与配置

1. 安装:通过 npm 全局安装 Playwright-MCP 服务器:

npm install -g @executeautomation/playwright-mcp-server


2. 配置:在 Claude Desktop 或其他支持 MCP 的客户端中配置 Playwright-MCP:

{
  "mcpServers": {
    "playwright": {
      "command": "npx",
      "args": ["-y", "@executeautomation/playwright-mcp-server"]
    }
  }
}

laywright-MCP优势

  • 降低门槛:允许用户通过自然语言指令控制浏览器操作,无需编写复杂代码。

  • 高效性:基于结构化数据的交互方式比传统基于视觉的方法更高效。

  • 灵活性:支持实时生成指令,适应动态变化的页面。

github项目:https://github.com/microsoft/playwright-mcp

收藏
最新工具
AutoGLM沉思
AutoGLM沉思

智谱推出的一款集深度研究与实际操作能力于一体的AI Agent产...

JustAI
JustAI

一款AI文案写作与营销工具,能生成多场景文案,包括小红书笔记、抖...

巧文书
巧文书

原通答AI,一款专为企业打造的AI智能写标书工具,通过AI大模型...

Ai2 Paper Finder
Ai2 Paper Finder

一款由艾伦AI研究所发布的基于LLM的文献搜索系统,Ai2 Pa...

Vivago AI
Vivago AI

北京智象未来科技有限公司面向全球市场推出的一款综合性在线 AI ...

Ghibli AI
Ghibli AI

一款专门用于生成吉卜力风格的AI图像生成器,能够根据用户的文本描...

快出题
快出题

金数据旗下的一款AI驱动的在线考试软件,能够快速生成题库并自动组...

BotSharp
BotSharp

一个基于.NET开发的开源AI多智能体应用开发框架,它可以快速将...

Seede AI
Seede AI

一款简单易用的AI驱动设计工具,只需输入文字描述或上传参考图片,...

Colors
Colors

一个开源的学术期刊配色推荐器,收集整理了众多高质量论文插图的配色...