首页 > Ai资讯 > Ai产品

LocAgent：一款开源的辅助代码定位的程序员工具

LocAgent于2025-04-11发布在Ai产品

LocAgent是什么？

LocAgent 是由斯坦福大学、耶鲁大学和南加州大学等机构联合开发的代码定位框架。它通过将代码库解析为有向异构图，捕捉代码的结构和依赖关系，从而帮助开发者快速准确地找到需要修改的代码部分。

图基代码表示：LocAgent 将代码库解析为一个有向异构图，其中节点代表代码库中的实体（如文件、类、函数等），边则表示这些实体之间的关系（如文件之间的导入关系、函数之间的调用关系以及类之间的继承关系）。这种图结构能够揭示隐藏在代码中的复杂依赖关系，为后续的代码定位任务提供了坚实的基础。
多跳推理机制：基于大型语言模型（LLM）的多跳推理能力，LocAgent 可以穿透多层依赖关系，定位问题代码的根源。例如，在处理复杂的代码库时，即使目标代码没有在问题描述中明确提及，LocAgent 也能通过图结构进行推理，找到相关的代码实体。
稀疏层次索引：LocAgent 通过稀疏层次实体索引来增强其搜索能力。这种索引机制为图中的每个节点创建了多个索引，包括基于实体 ID 的索引、基于实体名称的索引以及基于 BM25 算法的倒排索引。这些索引能够帮助 LocAgent 在几秒钟内快速定位到与问题描述相关的代码实体，即使在大型代码库中也能保持高效的性能。

快速定位问题代码：根据自然语言描述的问题（如错误报告、功能请求、性能问题或安全漏洞），LocAgent 能够快速定位到代码库中需要修改的具体文件、类、函数或代码行。
多类型问题支持：LocAgent 支持多种类型的软件开发和维护任务，包括错误修复、功能添加、性能优化和安全漏洞修复。
智能依赖分析：自动追踪代码实体间的复杂调用关系。

在 SWE-Bench-Lite 数据集上，LocAgent 使用 Qwen2.5-32B 模型时，文件级定位准确率达到了 92.7%，相比 Claude-3.5 的 86.13% 有显著提升。
在 Loc-Bench 数据集上，LocAgent 实现了 84.59% 的 Acc@5 和 87.06% 的 Acc@10 文件级定位准确率。
LocAgent 的成本效益也非常高，使用 Qwen2.5-7B 模型时，每个样本的成本仅为 0.05 美元，相比 Claude-3.5 的 0.66 美元，成本降低了约 86%。

图基代码表示

多层索引检索体系

三大智能工具

环境准备

安装依赖：LocAgent 依赖于 Python 环境，需要安装 Python 3.8 及以上版本。此外，还需要安装一些 Python 包，如 torch、transformers 等。可以通过以下命令安装：

pip install -r requirements.txt

下载代码库：LocAgent 支持多种数据集，如 SWE-Bench_Lite 和 Loc-Bench 等。可以根据需求选择合适的数据集，并将其下载到本地。例如：

git clone https://github.com/czlll/SWE-bench_Lite.git

代码库解析

生成图索引：LocAgent 需要将代码库解析为有向异构图，并生成图索引。可以通过以下命令完成：

python parse.py --dataset czlll/SWE-bench_Lite --repo_path ./SWE-bench_Lite --index_dir ./index

其中，--dataset 指定数据集名称，--repo_path 指定代码库路径，--index_dir 指定生成的图索引保存路径。

启动 LocAgent

运行脚本：启动 LocAgent 进行代码定位，可以使用以下命令：

python run.py --localize --dataset czlll/SWE-bench_Lite --repo_path ./SWE-bench_Lite --index_dir ./index --use_function_calling True

其中，--localize 表示启动定位过程，--use_function_calling 启用 LLM 的函数调用功能。

评估结果

评估定位结果：定位完成后，结果将保存在 JSONL 文件中。可以使用 LocAgent 提供的评估工具对结果进行评估。例如：

python evaluation/run_evaluation.py --result_file ./results.jsonl

其中，--result_file 指定定位结果文件路径。

Github项目：https://github.com/gersteinlab/LocAgent