Crawl4LLM:专为LLM预训练准备的网络爬虫工具

Crawl4LLM是什么?

Crawl4LLM是清华大学和卡内基梅隆大学一起开发的,专门给大型语言模型(LLM)预训练用的网络爬虫工具。它能智能判断网页对LLM预训练的作用,先抓那些有价值的网页,少抓没用的,仅抓取了21%的网络数据,就与之前全部抓取的数据性能相同,这样数据质量就提高了,爬取速度也快了不少。

Crawl4LLM是什么.webp

项目情况:

  • 来源:清华和卡内基梅隆大学合作开源的。

  • 目标:解决传统爬虫抓取效率低、数据质量差的问题,让LLM预训练更高效。

Crawl4LLM的主要功能:

智能选网页

  • 智能评估:能自动看网页对LLM预训练有没有用,先抓有用的。

  • 效率高:比传统爬虫抓的网页少多了,效果却差不多甚至更好,效率差不多能提高5倍。

多种爬取办法

  • 智能模式:主要的模式,自动挑有价值的网页抓。

  • 随机爬取模式:网页内容不用太精确选的时候能用。

  • 按链接数量爬取模式:要抓大量数据的时候可以用。

状态管理和恢复

  • 定期保存:能定期存爬虫的状态,要是中途停了,能接着上次的地方抓,不会丢数据。

数据可视化工具

  • 直观查看:有数据浏览工具,能看抓的数据,随时了解进度和效果。

兼容性和集成

  • 和DCLM框架对接:能提取文档ID、拿文档内容,还能和深度学习模型(DCLM)预训练框架无缝连接,直接给模型训练用。

Crawl4LLM的技术细节:

  • 模块架构:有爬虫调度器、网页解析器、数据存储器这些模块。

  • 错误处理:有很强的纠错和自动重试能力,保证数据采集稳定。

  • 数据质量管理:能去重和清洗数据,让数据质量好又一致。

Crawl4LLM的应用场景:

  • LLM预训练:给大规模LLM预训练提供好数据。

  • 数据集构建:自己做数据集。

  • 搜索引擎优化:分析改进SEO策略。

  • 网络监测与分析:实时看网络情况。

  • 写在网络监测与分析:做情感分析和其他数据分析

Crawl4LLM的使用方法:

1. 准备工作:

  • 获取ClueWeb22数据集。

  • 创建Python虚拟环境并安装必要的库(numpy, tqdm, fasttext, pyyaml, wandb)。

  • 下载DCLM FastText分类器并放置在指定目录。

2. 创建配置文件:在configs/目录下创建一个YAML配置文件,指定数据集路径、种子文档列表、输出目录、每次迭代选择的文档数量、工作线程数、爬取状态保存频率、最大爬取文档数量、文档选择方法、排序方式、是否启用wandb日志记录等参数。

3. 启动爬虫:在命令行中运行python crawl.py crawl --config

Crawl4LLM作为一个专业性强的爬虫系统,很适合用来给大语言模型做预训练。它先进的算法和技术方面的特点,能让抓取数据的效率和质量都有明显提升,这样就能让大语言模型的发展更快一些。

GitHub仓库:https://github.com/cxcscmu/crawl4llm

论文地址:https://arxiv.org/pdf/2502.13347

收藏
最新工具
小恐龙公文排版助手
小恐龙公文排版助手

一款专为Word和WPS设计的插件,主要功能是帮助用户快速完成文...

Pippit AI
Pippit AI

一款由 CapCut 推出的专注于营销内容生产的AI创作工具。用...

PPT AI
PPT AI

一个在线AIPPT生成平台。通过 AI 的智能内容分析,将文本、...

DroidRun
DroidRun

一款可以通过AI代理实现Android设备的自动化操作开源框架,...

CloneUI
CloneUI

一款强大的AI驱动的图片转代码工具,能够将截图、网址或 Figm...

PaneFlow
PaneFlow

一款所见即所得的PPT制作工具,它采用拖拽式界面,用户可以通过简...

SearchAny
SearchAny

一款免费的集提问、搜索和研究功能于一身的AI搜索工具,整合谷歌、...

支付宝百宝箱Tbox
支付宝百宝箱Tbox

一个零代码AI应用开发平台,用户可以通过自然语言就可以快速创建A...

Vanna AI
Vanna AI

一个基于RAG技术的开源Python框架,用于将自然语言问题转换...

Awesome GPT-4o Images
Awesome GPT-4o Images

一个精选的GPT-4o生成图片集锦,收集了OpenAI 最新多模...