DevDocs:一款专为程序员打造的开源文档爬取和处理工具

DevDocs是什么?

DevDocs 是一款由 CyberAGI Inc专为程序员设计的开源技术文档管理工具。它支持智能爬取技术文档,可自定义爬取深度,自动发现并分类相关内容,提取纯净信息并支持导出为 MD 或 JSON 格式,将以往需要花数周理解文档的时间缩短至几个小时。除此之外,DevDocs还内置 MCP 服务器,支持集成到 Claude、Cursor、Cline 等 ai 应用,实现聊天对话查询文档。

DevDocs:一款专为程序员打造的开源文档爬取和处理工具.webp

DevDocs功能特征

智能爬取:

  • 支持选择爬取深度(1-5 级)。

  • 自动发现并分类所有相关页面。

  • 可选择性爬取,精确提取所需内容。

  • 自动检测并映射网站结构中的子 URL。

性能与速度:

  • 支持并行处理,可同时爬取多个页面。

  • 智能缓存,避免重复爬取内容。

  • 支持懒加载,可处理现代 Web 应用。

  • 尊重服务器,设置了爬取速率限制。

内容处理:

  • 提取纯净内容,去除无关信息。

  • 支持导出为 MD 或 JSON 格式,方便用于 LLM 微调。

  • 逻辑化组织内容,便于理解和使用。

  • 与 MCP 服务器集成,可直接用于 AI 处理。

企业级功能:

  • 爬取失败时自动重试。

  • 全面记录操作日志。

  • 提供 API 接口,方便与其他工具集成。

  • 支持团队管理,可设置多个席位和角色。

DevDocs:一款专为程序员打造的开源文档爬取和处理工具.webp

DevDocs使用教程方法

启动服务:

  • 使用 Docker(推荐):

  • 克隆项目仓库:git clone https://github.com/cyberagiinc/DevDocs.git

  • 进入项目目录:cd DevDocs

  • 根据操作系统运行启动脚本:

  • Mac/Linux:./docker-start.sh

  • Windows:docker-start.bat

  • 手动设置权限(Windows 用户可能需要):

  • 通过 Windows 资源管理器:

  1. 右键单击 logs、storage、crawl_results 目录。

  2. 选择“属性”。

  3. 切换到“安全”选项卡。

  4. 点击“编辑”以更改权限。

  5. 点击“添加”以添加用户或组。

  6. 输入“Everyone”,并点击“检查名称”。

  7. 点击“确定”。

  8. 在列表中选择“Everyone”。

  9. 勾选“允许”下的“完全控制”。

  10. 点击“应用”和“确定”。

通过命令提示符(以管理员身份运行):

icacls logs /grant Everyone:F /T
icacls storage /grant Everyone:F /T
icacls crawl_results /grant Everyone:F /T

访问 DevDocs:

  • 前端 UI:http://localhost:3001

  • 后端 API:http://localhost:24125

  • Crawl4AI 服务:http://localhost:11235

查看日志:

  • 使用 Docker 时,可以通过以下命令查看容器日志:

  • 查看特定容器的日志:docker logs devdocs-frontend、docker logs devdocs-backend、docker logs devdocs-mcp、docker logs devdocs-crawl4ai

  • 实时跟踪日志:docker logs -f devdocs-backend

停止服务:

在运行 docker-start 的终端中按下 Ctrl+C。

如何集成Cline/Roo

1. 创建模式:

  • 在Roo Code中打开“模式”界面,点击+号创建一个新的模式特定提示。

2. 命名模式(例如,Research_MCP)。

3. 定义角色:

  • 专业知识:开发者文档检索、技术综合和文档搜索。

  • 个性:系统化、注重细节、精确。

  • 行为指令:始终使用目录和章节访问工具来回答关于MCP文档的查询。

4. 自定义指令:

  • 目录工具:返回完整的或过滤后的文档主题列表。

  • 章节访问工具:检索特定文档章节的详细内容。

5. 工作流程:

  • 解析用户查询以提取关键主题、关键词和上下文。

  • 使用目录工具搜索文档索引以找到相关章节。

  • 对于每个识别出的相关文档或章节,使用章节访问工具检索其内容。

  • 合并检索到的内容,确保包含所有必要的细节,并清晰引用。

Github:https://github.com/cyberagiinc/DevDocs

官网:https://www.cyberagi.ai/

收藏
最新工具
SearchAny
SearchAny

一款免费的集提问、搜索和研究功能于一身的AI搜索工具,整合谷歌、...

支付宝百宝箱Tbox
支付宝百宝箱Tbox

一个零代码AI应用开发平台,用户可以通过自然语言就可以快速创建A...

Vanna AI
Vanna AI

一个基于RAG技术的开源Python框架,用于将自然语言问题转换...

Awesome GPT-4o Images
Awesome GPT-4o Images

一个精选的GPT-4o生成图片集锦,收集了OpenAI 最新多模...

OPPO小布助手网页版
OPPO小布助手网页版

网址是xiaobu.coloros.com ,融合满血版Deep...

OldPicRestore
OldPicRestore

一个免费的老照片修复工具,可修复老照片中的损坏、模糊和褪色问题,...

HaiSnap
HaiSnap

一个适合小白用户快速开发简单应用的零代码开发平台。用户只需描述需...

OpenCut
OpenCut

一款智能音视频剪辑工具,具备去水印、视频转GIF、音频提取、人声...

Singify
Singify

一款FineShare推出的在线AI音乐与歌曲生成器,可将文本、...

iFable AI
iFable AI

一个结合了冒险棋盘游戏、《龙与地下城》和视觉小说叙事元素的角色扮...