DeepSearcher:一款在私有数据上进行智能搜索和分析的工具

DeepSearcher是什么?

DeepSearcher 是一个开源的深度搜索工具,结合了大型语言模型和向量数据库,用于在私有数据上进行搜索、评估和推理。DeepSearcher 适用于需要高效处理私有数据、生成智能内容和提供数据分析的场景,尤其适合企业、研究机构和金融、医疗、法律等行业。

DeepSearcher.jpg

DeepSearcher功能特征

  • 私有数据搜索:在企业内部数据中安全地进行搜索,支持本地文件和网页爬取。

  • 向量数据库支持:集成 Milvus 和 Zilliz Cloud,实现高效数据检索。

  • 多 LLM 支持:兼容 Openai、DeepSeek、Claude 等多种语言模型,用于智能问答和内容生成。

  • 灵活的嵌入模型:支持 OpenAI、Milvus 内置模型、VoyageAI 等,用于数据向量化。

  • 文档加载器:支持本地 PDF、TXT 等文件加载,以及网页内容爬取。

  • 高效推理:结合 LLM 和向量数据库,快速生成准确答案和全面报告。

  • 灵活配置:通过代码或配置文件动态调整模块,支持 RESTful API 接口。

  • CLI 模式:支持命令行加载数据和查询,方便快速上手。

  • 部署为服务:可通过 FastAPI 部署为 Web 服务,便于集成。

DeepSearcher 的应用场景

  • 企业知识管理:快速检索内部文档和知识库。

  • 智能问答系统:构建企业内部智能客服或问答助手。

  • 报告生成:自动生成市场、技术或行业报告。

  • 信息检索:在海量数据中快速定位关键信息。

  • 内容创作辅助:生成文案、新闻稿等文本内容。

  • 数据分析:提供商业智能分析和市场趋势洞察。

  • 教育与研究:辅助学术研究和文献综述。

  • 医疗健康:检索医学文献和分析病历。

  • 金融行业:生成投资报告和风险评估。

  • 法律行业:检索法律条文和案例分析。

  • 多语言内容处理:支持跨国企业多语言数据处理。

DeepSearcher安装使用

安装步骤:

1. 克隆仓库:

git clone https://github.com/zilliztech/deep-searcher.git
cd deep-searcher

2. 创建虚拟环境:

python3 -m venv .venv
source .venv/bin/activate

3. 安装依赖:

pip install -e .

4. 配置环境变量:

根据使用的 LLM,设置对应的 API 密钥(如 OPENAI_API_KEY)。

使用方法:

1. 配置 LLM 和嵌入模型:

from deepsearcher.configuration import Configuration, init_config
config = Configuration()
config.set_provider_config("llm", "OpenAI", {"model": "o1-mini"})
config.set_provider_config("embedding", "OpenAIEmbedding", {"model": "text-embedding-ada-002"})
init_config(config=config)

2. 加载数据:

from deepsearcher.offline_loading import load_from_local_files
load_from_local_files(paths_or_directory="your_local_path")

3. 执行查询:

from deepsearcher.online_query import query
result = query("Write a report about xxx.")
print(result)

GitHub仓库:https://github.com/zilliztech/deep-searcher

收藏
最新工具
AutoGLM沉思
AutoGLM沉思

智谱推出的一款集深度研究与实际操作能力于一体的AI Agent产...

JustAI
JustAI

一款AI文案写作与营销工具,能生成多场景文案,包括小红书笔记、抖...

巧文书
巧文书

原通答AI,一款专为企业打造的AI智能写标书工具,通过AI大模型...

Ai2 Paper Finder
Ai2 Paper Finder

一款由艾伦AI研究所发布的基于LLM的文献搜索系统,Ai2 Pa...

Vivago AI
Vivago AI

北京智象未来科技有限公司面向全球市场推出的一款综合性在线 AI ...

Ghibli AI
Ghibli AI

一款专门用于生成吉卜力风格的AI图像生成器,能够根据用户的文本描...

快出题
快出题

金数据旗下的一款AI驱动的在线考试软件,能够快速生成题库并自动组...

BotSharp
BotSharp

一个基于.NET开发的开源AI多智能体应用开发框架,它可以快速将...

Seede AI
Seede AI

一款简单易用的AI驱动设计工具,只需输入文字描述或上传参考图片,...

Colors
Colors

一个开源的学术期刊配色推荐器,收集整理了众多高质量论文插图的配色...