GPT-4.1系列相比GPT-4o有哪些改进和区别?
Openai 昨晚发布了 GPT4.1 系列,GPT4.1 替代了 4o,性价比超高(在 OpenAI 体系内)。 具备 1M 超长上下文,性能出色,4.1 nano 和 mini 版本价格实惠,适合处理大量长文本任务。 代码能力超越 GPT 4.5,但不及 o1 等推理模型,GPT-4.1 在多个方面相较于 GPT-4o 有明显的提升,以下是他们的主要区别:
1. 性能提升
编码能力:
GPT-4.1:在 SWE-bench Verified 编码基准测试中得分为 54.6%,比 GPT-4o 提高了 21.4%。
GPT-4o:在相同测试中得分为 33.2%。
改进:GPT-4.1 在处理代码仓库、完成任务以及生成可运行并通过测试的代码方面表现出色。
指令遵循:
GPT-4.1:在 Scale 的 MultiChallenge 基准测试中得分为 38.3%,比 GPT-4o 提高了 10.5%。
GPT-4o:在相同测试中得分为 27.8%。
改进:GPT-4.1 在遵循复杂指令、格式化输出、避免错误行为等方面表现更好。
长文本理解:
GPT-4.1:在 Video-MME 长文本理解基准测试中得分为 72.0%,比 GPT-4o 提高了 6.7%。
GPT-4o:在相同测试中得分为 65.3%。
改进:GPT-4.1 在处理长视频(无字幕)和长文档时,能够更好地理解和提取关键信息。
2. 上下文窗口
GPT-4.1:支持 100 万 token 的上下文窗口,比 GPT-4o 的 12.8 万 token 大幅增加。
GPT-4o:支持 12.8 万 token 的上下文窗口。
改进:GPT-4.1 能够处理更大的代码库、多文档任务和长文本,适用于法律、编程、客户支持等多个领域。
3. 模型效率
GPT-4.1:在推理效率上有显著提升,延迟更低,成本更低。
GPT-4.1 mini:延迟降低了近一半,成本降低了 83%。
GPT-4.1 nano:是最快的模型,延迟极低,适用于低延迟需求的任务。
GPT-4o:在推理效率上相对较低,尤其是在处理大规模上下文时。
4. 图像理解
GPT-4.1:在图像理解方面表现出色,特别是在多模态任务中。
GPT-4.1 mini:在 MMMU 图像理解基准测试中得分 72.7%,优于 GPT-4o 的 68.7%。
GPT-4o:在图像理解任务中表现较弱。
5. 成本
GPT-4.1:每百万输入 token 收费 $2.00,输出 token 收费 $8.00。
GPT-4.1 mini:每百万输入 token 收费 $0.40,输出 token 收费 $1.60。
GPT-4.1 nano:每百万输入 token 收费 $0.10,输出 token 收费 $0.40。
GPT-4o:每百万输入 token 收费更高,具体未明确,但 GPT-4.1 系列在成本上更具优势。
6. 应用场景
GPT-4.1:适用于需要强大计算能力和复杂任务处理的场景,如专业软件开发、法律文档分析、大规模数据处理等。
GPT-4.1 mini:适合在资源受限的环境中使用,如普通个人电脑、小型服务器等。
GPT-4.1 nano:主要针对移动端和嵌入式设备,适用于对响应速度要求高且资源受限的场景,如快速文本分类、自动补全等。
GPT-4o:适合一般用途,但在处理大规模上下文和复杂任务时表现较弱。
更多测试指标请参考 OpenAI 博客:https://openai.com/index/gpt-4-1/。