GPT-5 发布:性能飞跃与争议并存
日期:2025-08-09 11:12:26 / 人气:23

千呼万唤始出来的 GPT-5 终于在 8 月 7 日正式问世,OpenAI 在这场长达一个小时十分钟的发布会上,向世界展示了一个性能卓越、更加易用,甚至能精准理解并猜测用户意图,交付超预期产品的强大大模型。用 Sam Altman 在发布会上的话来说,GPT-5 在各个领域都能达到博士的知识水平,能力可与专业人士比肩,让普通人能够完成从前难以想象的工作。
相较于 OpenAI 两年前发布 GPT-4 时,如今整个世界对大模型的认知和体验已丰富得多。观众和用户不再会对模型能看懂网络梗图这类事感到惊叹。但作为一个几乎每日都会使用 AI 产品的人,GPT-5 的发布依旧足够惊艳。最重要的原因在于,从发布会传递的内容来看,OpenAI 致力于让大模型从一个时而带来惊喜,时而令人挫败的 “玩弄” 语言和 “智能” 的大玩具,加速进化为生活中可靠的帮手,就如同手机一般,一旦离开便会让人深感不便、不习惯,甚至没有安全感。
发布会中的几个瞬间能很好地帮助我们理解这一转变。当孩子要求解释流体力学中的伯努利公式时,以往的 AI 可能只会给出一篇文章,而 GPT-5 却能按照要求,一句话就能生成一个可互动的页面。若你想学习法语,GPT-5 能依你的要求生成一个类似多邻国的学习应用,可用于背单词,还能通过贪食蛇游戏辅助复习。要是对生成的应用不满意,也能直接通过自然语言让 GPT-5 进行修改。对于创业公司的 CFO 而言,只需用 100 字左右描述所有数据,GPT-5 就能在约 3 分钟内生成详细且可互动的财务状况演示板。它还能从零生成代码,确保完成任务,并能推测用户想要呈现的形式,自动优化代码和展示效果。最为夸张的是,OpenAI 的工作人员仅用 3 段提示词,就让 GPT-5 生成了一个带有射击小游戏功能的城堡 3D 模型,不仅能与城堡上的士兵聊天,点击周围气球还能发射弹药打爆气球,同时伴有爆炸音效。从这些演示足以看出,GPT-5 已全面进化成一个能直接输出专业产品的万能百宝箱。
然而,最让人触动的是 OpenAI 在医疗健康方面能力的介绍。发布会上,一位从 3 种癌症中康复的患者分享了 GPT-5 在她抗癌过程中的帮助。当她刚拿到诊断结果,面对医生提供的几种治疗方案时,求助 GPT-5 后才真正理解自己的处境。与 GPT-5 深入交流自身情况后,她做出了最适合自己的选择,最终战胜病魔,重获新生。她难以想象,若没有 GPT-5 的专业建议,毫无医疗专业知识的自己该如何理解医生给出的方案并做出选择,更不确定自己能否挺过来。
看完发布会,能明显感觉到大模型技术本身已进入相对稳定的发展阶段。GPT-5 的发布意味着 OpenAI 也没有其他 “魔法” 能让大模型能力实现跨越式发展。接下来,AI 巨头们的竞争将愈发激烈。
一、性能介绍
(一)模型系统
GPT-5 不再是单一模型,而是进化为一个模型系统。其中的自动切换器能够精准判断查询意图,简单问题会被路由到聊天版本,以实现极速响应;复杂问题则会被路由到推理版本,进行深度思考。它拥有 256k token 上下文窗口,支持文本和图像输入,还支持函数调用和结构化输出。目前,打开 ChatGPT 会发现左上角的模型选项已默认为 “GPT-5”,且下拉选项中不再能看到前代模型。正如奥特曼之前承诺的,GPT-5 时代不会再有繁琐的模型选择,模型会自行判断用户在当下情境是需要快速响应,还是需要深度思考和推理。
(二)编码和写作
OpenAI 称 GPT-5 为 “我们迄今为止最强大的编码模型”,在复杂的前端生成和大型代码库的调试方面表现出色。通常只需一次提示,它就能创建出美观且响应迅速的网站、应用程序和游戏,将创意直观而优雅地转化为现实。同时,OpenAI 也称其为 “我们迄今为止最强大的写作工具”,能够写出引人入胜、富有文学深度和节奏感的文本。它能更可靠地处理结构模糊的写作,比如持续不押韵的抑扬格五音步或流畅自然的自由诗,将对形式的尊重与清晰的表达完美结合。这意味着 ChatGPT 能更好地协助用户完成日常任务,如起草和编辑报告、电子邮件、备忘录等。简单尝试新模型的作诗能力,以 “秋天的第一杯奶茶” 为题,能明显感觉到它比 GPT-4 更加自然,“AI 味儿” 减轻了许多。
(三)评估
GPT-5 的全面智能化程度显著提升,这在学术和人工评估基准测试中的表现得以体现,尤其是在数学、编码、视觉感知和健康领域。它在数学(AIME 2025 无需工具测试得分 94.6%)、真实世界编码(SWE-bench Verified 得分 74.9%,Aider Polyglot 得分 88%)、多模态理解(MMMU 得分 84.2%)和健康(HealthBench Hard 得分 46.2%)方面均创下新的最高水平,这些提升在日常使用中也能充分感受到。凭借 GPT-5 pro 的扩展推理能力,该模型在 GPQA 上同样创下新的最高水平,无需工具测试得分高达 88.4%。目前,GPT-5 已在 LMArean 登顶,在 Intelligence Analysis 获得的预览访问中,也荣获第一名。
(四)幻觉降低
在启用搜索的情况下,GPT-5 出现事实性错误的概率比 GPT-4o 降低约 45%。在 “思考(thinking)” 模式下,这一概率比 OpenAI o3 降低 80%。除了事实性错误,AI 还常出现 “睁眼说瞎话” 的情况,例如明明做不到或没有权限做的事,却会告知用户已完成。而 GPT-5 在这方面表现更好、更诚实。例如,OpenAI 从多模态基准测试 CharXiv 的提示中删除所有图像进行测试,结果发现 OpenAI o3 仍能以 86.7% 的概率对不存在的图像给出自信答案,而 GPT-5 的这一比例仅为 9%。
二、更 “高效”,更 “节省”
在 OpenAI 的评估中,具备思考能力的 GPT-5 表现优于 OpenAI o3,在视觉推理、代理编码和研究生水平的科学问题解决等功能上,输出 token 数量减少了 50% 至 80%。也就是说,GPT-5 用更少的思考时间实现了更大的价值。在 API 价格方面,GPT-5 性能最强,价格却低得超乎想象,可见 OpenAI 掌握了跨代的优化方法。
OpenAI 和奥特曼对 GPT-5 寄予厚望,他们深知外界对这一代模型期待已久。奥特曼称,与 GPT-5 对话就如同与某个领域的专家交流。若将 GPT-4o 比作大学生,那 GPT-5 就是博士级的专家。这种重视从发布会时长也能看出,以往新模型发布,OpenAI 的线上发布会仅约半个小时,此次却持续了一个多小时。奥特曼本人还在发布会进行时,在 X(前推特)上进行 “文字直播”。
不过,或许是心急,发布会 PPT 出现重大错误。在 “SWE-bench(人工验证版)” 相关图表中,条形图明显有误。GPT-5 不加思考(thinking)的准确率为 52.8%,图上却高于 OpenAI o3 的 69.1%,而 o3 的 69.1% 又和 GPT-4o 的 30.8% 一样高。这一尴尬情况导致奥特曼在 “文字直播” 发布会时,很多网友在评论区发布这张截图,调侃 OpenAI 离谱的图表。奥特曼大方转发消息并表示已改正,部分粉丝认为这只是无心之失,但不少人觉得这是 “有意为之”,是为让 GPT-5 显得更厉害而在图表上耍花招,甚至称之为 “本世纪最大的图表犯罪”。
这一事件表明,GPT-5 的发布会未能让所有人信服,不少人开始询问 “GPT-6 什么时候出”。马斯克已直言两周前发布的 Grok 4 Heavy 比 GPT-5 更智能。一向喜欢泼冷水的 AI 学者盖里・马库斯(Gary Marcus)在赞扬 GPT-5 有诸多良好进展的同时,称这 “并非一个巨大的飞跃”,GPT-5 也未达到外界的期待,“显然不是 AGI”。
GPT-5 是否足够优秀,还需更多时间检验。或许 OpenAI 能从中吸取的教训是,做好外界的预期管理,避免拖延太久。
作者:门徒娱乐
新闻资讯 News
- 张元英节目脱口 “哎一西” 引热...08-30
- aespa新专辑《Rich Man》:多元...08-30
- 民国悬疑电影《兔儿谣》:童谣背...08-30
- 消失 20 年后,张曼玉高调复出:...08-30