DeepSearcher:一款在私有数据上进行智能搜索和分析的工具
DeepSearcher是什么?
DeepSearcher 是一个开源的深度搜索工具,结合了大型语言模型和向量数据库,用于在私有数据上进行搜索、评估和推理。DeepSearcher 适用于需要高效处理私有数据、生成智能内容和提供数据分析的场景,尤其适合企业、研究机构和金融、医疗、法律等行业。
DeepSearcher功能特征
私有数据搜索:在企业内部数据中安全地进行搜索,支持本地文件和网页爬取。
向量数据库支持:集成 Milvus 和 Zilliz Cloud,实现高效数据检索。
多 LLM 支持:兼容 Openai、DeepSeek、Claude 等多种语言模型,用于智能问答和内容生成。
灵活的嵌入模型:支持 OpenAI、Milvus 内置模型、VoyageAI 等,用于数据向量化。
文档加载器:支持本地 PDF、TXT 等文件加载,以及网页内容爬取。
高效推理:结合 LLM 和向量数据库,快速生成准确答案和全面报告。
灵活配置:通过代码或配置文件动态调整模块,支持 RESTful API 接口。
CLI 模式:支持命令行加载数据和查询,方便快速上手。
部署为服务:可通过 FastAPI 部署为 Web 服务,便于集成。
DeepSearcher 的应用场景
企业知识管理:快速检索内部文档和知识库。
智能问答系统:构建企业内部智能客服或问答助手。
报告生成:自动生成市场、技术或行业报告。
信息检索:在海量数据中快速定位关键信息。
内容创作辅助:生成文案、新闻稿等文本内容。
数据分析:提供商业智能分析和市场趋势洞察。
教育与研究:辅助学术研究和文献综述。
医疗健康:检索医学文献和分析病历。
金融行业:生成投资报告和风险评估。
法律行业:检索法律条文和案例分析。
多语言内容处理:支持跨国企业多语言数据处理。
DeepSearcher安装使用
安装步骤:
1. 克隆仓库:
git clone https://github.com/zilliztech/deep-searcher.git cd deep-searcher
2. 创建虚拟环境:
python3 -m venv .venv source .venv/bin/activate
3. 安装依赖:
pip install -e .
4. 配置环境变量:
根据使用的 LLM,设置对应的 API 密钥(如 OPENAI_API_KEY)。
使用方法:
1. 配置 LLM 和嵌入模型:
from deepsearcher.configuration import Configuration, init_config config = Configuration() config.set_provider_config("llm", "OpenAI", {"model": "o1-mini"}) config.set_provider_config("embedding", "OpenAIEmbedding", {"model": "text-embedding-ada-002"}) init_config(config=config)
2. 加载数据:
from deepsearcher.offline_loading import load_from_local_files load_from_local_files(paths_or_directory="your_local_path")
3. 执行查询:
from deepsearcher.online_query import query result = query("Write a report about xxx.") print(result)
GitHub仓库:https://github.com/zilliztech/deep-searcher