Crawl4LLM:专为LLM预训练准备的网络爬虫工具

Crawl4LLM是什么?

Crawl4LLM是清华大学和卡内基梅隆大学一起开发的,专门给大型语言模型(LLM)预训练用的网络爬虫工具。它能智能判断网页对LLM预训练的作用,先抓那些有价值的网页,少抓没用的,仅抓取了21%的网络数据,就与之前全部抓取的数据性能相同,这样数据质量就提高了,爬取速度也快了不少。

Crawl4LLM是什么.webp

项目情况:

  • 来源:清华和卡内基梅隆大学合作开源的。

  • 目标:解决传统爬虫抓取效率低、数据质量差的问题,让LLM预训练更高效。

Crawl4LLM的主要功能:

智能选网页

  • 智能评估:能自动看网页对LLM预训练有没有用,先抓有用的。

  • 效率高:比传统爬虫抓的网页少多了,效果却差不多甚至更好,效率差不多能提高5倍。

多种爬取办法

  • 智能模式:主要的模式,自动挑有价值的网页抓。

  • 随机爬取模式:网页内容不用太精确选的时候能用。

  • 按链接数量爬取模式:要抓大量数据的时候可以用。

状态管理和恢复

  • 定期保存:能定期存爬虫的状态,要是中途停了,能接着上次的地方抓,不会丢数据。

数据可视化工具

  • 直观查看:有数据浏览工具,能看抓的数据,随时了解进度和效果。

兼容性和集成

  • 和DCLM框架对接:能提取文档ID、拿文档内容,还能和深度学习模型(DCLM)预训练框架无缝连接,直接给模型训练用。

Crawl4LLM的技术细节:

  • 模块架构:有爬虫调度器、网页解析器、数据存储器这些模块。

  • 错误处理:有很强的纠错和自动重试能力,保证数据采集稳定。

  • 数据质量管理:能去重和清洗数据,让数据质量好又一致。

Crawl4LLM的应用场景:

  • LLM预训练:给大规模LLM预训练提供好数据。

  • 数据集构建:自己做数据集。

  • 搜索引擎优化:分析改进SEO策略。

  • 网络监测与分析:实时看网络情况。

  • 写在网络监测与分析:做情感分析和其他数据分析

Crawl4LLM的使用方法:

1. 准备工作:

  • 获取ClueWeb22数据集。

  • 创建Python虚拟环境并安装必要的库(numpy, tqdm, fasttext, pyyaml, wandb)。

  • 下载DCLM FastText分类器并放置在指定目录。

2. 创建配置文件:在configs/目录下创建一个YAML配置文件,指定数据集路径、种子文档列表、输出目录、每次迭代选择的文档数量、工作线程数、爬取状态保存频率、最大爬取文档数量、文档选择方法、排序方式、是否启用wandb日志记录等参数。

3. 启动爬虫:在命令行中运行python crawl.py crawl --config

Crawl4LLM作为一个专业性强的爬虫系统,很适合用来给大语言模型做预训练。它先进的算法和技术方面的特点,能让抓取数据的效率和质量都有明显提升,这样就能让大语言模型的发展更快一些。

GitHub仓库:https://github.com/cxcscmu/crawl4llm

论文地址:https://arxiv.org/pdf/2502.13347

收藏
最新工具
优雅AI创作平台
优雅AI创作平台

中科闻歌发布的一款多模态内容智能生成平台,用户只需输入关键词或简...

如知AI笔记
如知AI笔记

一款智能化的AI知识管理工具,提供AI搜索探索、AI结果转笔记、...

Mdnice
Mdnice

一款由墨滴软件开发的功能强大的Markdown编辑器,Mdnic...

Doocs
Doocs

一款高度简洁的微信 Markdown 编辑器,支持 Markdo...

HiveChat
HiveChat

一个专为中小型团队设计的开源AI聊天机器人项目,支持Deepse...

NeuraPress
NeuraPress

一款专注于微信公众号排版的Markdown编辑器,支持移动端,搭...

灵伴科技Rokid
灵伴科技Rokid

也和称Rokid,2014年成立,总部在杭州,创始人是前阿里巴巴...

Alpha派
Alpha派

讯兔科技打造的智能投研APP,主要面向投研人员提供一站式信息服务...

MultiPost
MultiPost

可辅助你通过自动化的方式规划自媒体的内容发布,一键将内容发布到多...

WeChat Bot
WeChat Bot

基于WeChaty结合OpenAI ChatGPT、Kimi、讯...