GPT-4.5与GPT-4o相比,有哪些特点变化或提升?
北京时间凌晨4点钟Openai举行一个14分钟左右的直播活动,发布最新大模型GPT-4.5,OpenAI在新闻稿中表示,这是公司有史以来最大、最好的聊天模型,在计算效率上较GPT-4提升超过10倍,我们看看,同GPT-4o相比较,具体有哪些改变和提升。
GPT-4.5与GPT-4o相比较有哪些变化?
在知识准确性和幻觉率方面:GPT - 4.5在AIME2024基准测试里得了36.7%,GPT - 4o才9.3%,可见GPT - 4.5知识准确性提升很大。像“人类的第一种语言是什么”这种问题,GPT - 4.5会诚实说这是未解之谜,幻觉答案减少了。
世界知识和理解上:GPT - 4.5通过多种优化有了更广知识和更深理解能力,不再乱说了,可靠性提高。
人类偏好与对话能力:人类偏好测试里GPT - 4.5更受欢迎。它能更好理解人类想法,情商更高地对话,对微妙线索和隐含期望把握更细腻,审美直觉和创造力更强。
技术进步方面:GPT - 4.5有新的可扩展技术,能用小模型数据训练出强大模型,可引导性、细节理解和自然对话能力都提升了。
推理与应用能力:GPT - 4.5虽不是专门的推理模型,但简单有挑战的知识问题能回答得不错,代码编写、物理问题解决也还行,不过有些地方比不上Claude 3.7这种专门的推理模型。
价格:GPT - 4.5使用成本比GPT - 4o高多了。每百万输入输出费用,GPT - 4.5是75美元,GPT - 4o是3美元;输出费用GPT - 4.5是150美元,GPT - 4o是15美元,GPT - 4.5成本是GPT - 4o的好几倍。
功能与限制方面:GPT - 4.5功能更多,像搜索、文件和图像上传、画布写作和编码都能支持,但不支持语音、视频和屏幕共享等多模态功能,这方面比GPT - 4o差些。
以下是GPT-4.5与GPT-4o的对比表格:
特性 | GPT-4.5 | GPT-4o |
---|---|---|
发布时间 | 2025年2月27日 | 2023年3月15日 |
模型规模 | 1T激活参数的Transformer MoE架构 | 较小的参数规模 |
训练数据 | 截至2024年6月的互联网全量内容 | 相对有限的训练数据 |
计算效率 | 提升10倍以上 | 较低的计算效率 |
幻觉率 | SimpleQA基准测试中为37.1% | 较高的幻觉率 |
知识广度 | 通过无监督学习扩展知识储备 | 相对有限的知识储备 |
情感智能 | 能够识别用户情绪并提供更具温度的回应 | 较低的情感智能 |
对话自然度 | 对话体验更加自然,理解用户言外之意 | 对话体验较为机械 |
创造力 | 在写作、设计等方面表现出色 | 创造力较弱 |
多模态能力 | 支持文件和图片上传,处理写作和代码任务 | 相对较弱的多模态能力 |
价格 | 输入75美元/百万token,输出150美元/百万token | 输入2.50美元/百万token,输出10美元/百万token |
OpenAI的GPT系列模型的发展历程
GPT-1:
发布时间:2018年
特点:几乎无法生成连贯的文本,标志着GPT系列的开始。
GPT-2:
发布时间:2019年
特点:能力有限,有时显得混乱,但开始展现出一些生成连贯文本的能力。
GPT-3:
发布时间:2020年
特点:显著的飞跃,生成文本的能力大幅提升,成为GPT系列的一个重要里程碑。
GPT-3.5 Turbo:
发布时间:2022年
特点:在某些问题上提供了更准确和简洁的答案,但仍有一些改进空间。
GPT-4:
发布时间:2023年3月
特点:整体感觉更好,词语选择更具创造力,对prompt的理解有所提升,幻觉的频率略有降低。尽管提升是微妙的,但整体表现更佳。
GPT-4.5:
发布时间:2025年2月
特点:更像人的对话体验,情感理解和情商的提升,知识储备和能力显著增强。尽管提升微妙,但仍然令人兴奋。