GPT-5 发布：性能飞跃与争议并存

日期：2025-08-09 11:12:26 / 人气：199

千呼万唤始出来的 GPT-5 终于在 8 月 7 日正式问世，OpenAI 在这场长达一个小时十分钟的发布会上，向世界展示了一个性能卓越、更加易用，甚至能精准理解并猜测用户意图，交付超预期产品的强大大模型。用 Sam Altman 在发布会上的话来说，GPT-5 在各个领域都能达到博士的知识水平，能力可与专业人士比肩，让普通人能够完成从前难以想象的工作。
相较于 OpenAI 两年前发布 GPT-4 时，如今整个世界对大模型的认知和体验已丰富得多。观众和用户不再会对模型能看懂网络梗图这类事感到惊叹。但作为一个几乎每日都会使用 AI 产品的人，GPT-5 的发布依旧足够惊艳。最重要的原因在于，从发布会传递的内容来看，OpenAI 致力于让大模型从一个时而带来惊喜，时而令人挫败的 “玩弄” 语言和 “智能” 的大玩具，加速进化为生活中可靠的帮手，就如同手机一般，一旦离开便会让人深感不便、不习惯，甚至没有安全感。
发布会中的几个瞬间能很好地帮助我们理解这一转变。当孩子要求解释流体力学中的伯努利公式时，以往的 AI 可能只会给出一篇文章，而 GPT-5 却能按照要求，一句话就能生成一个可互动的页面。若你想学习法语，GPT-5 能依你的要求生成一个类似多邻国的学习应用，可用于背单词，还能通过贪食蛇游戏辅助复习。要是对生成的应用不满意，也能直接通过自然语言让 GPT-5 进行修改。对于创业公司的 CFO 而言，只需用 100 字左右描述所有数据，GPT-5 就能在约 3 分钟内生成详细且可互动的财务状况演示板。它还能从零生成代码，确保完成任务，并能推测用户想要呈现的形式，自动优化代码和展示效果。最为夸张的是，OpenAI 的工作人员仅用 3 段提示词，就让 GPT-5 生成了一个带有射击小游戏功能的城堡 3D 模型，不仅能与城堡上的士兵聊天，点击周围气球还能发射弹药打爆气球，同时伴有爆炸音效。从这些演示足以看出，GPT-5 已全面进化成一个能直接输出专业产品的万能百宝箱。
然而，最让人触动的是 OpenAI 在医疗健康方面能力的介绍。发布会上，一位从 3 种癌症中康复的患者分享了 GPT-5 在她抗癌过程中的帮助。当她刚拿到诊断结果，面对医生提供的几种治疗方案时，求助 GPT-5 后才真正理解自己的处境。与 GPT-5 深入交流自身情况后，她做出了最适合自己的选择，最终战胜病魔，重获新生。她难以想象，若没有 GPT-5 的专业建议，毫无医疗专业知识的自己该如何理解医生给出的方案并做出选择，更不确定自己能否挺过来。
看完发布会，能明显感觉到大模型技术本身已进入相对稳定的发展阶段。GPT-5 的发布意味着 OpenAI 也没有其他 “魔法” 能让大模型能力实现跨越式发展。接下来，AI 巨头们的竞争将愈发激烈。
一、性能介绍
（一）模型系统
GPT-5 不再是单一模型，而是进化为一个模型系统。其中的自动切换器能够精准判断查询意图，简单问题会被路由到聊天版本，以实现极速响应；复杂问题则会被路由到推理版本，进行深度思考。它拥有 256k token 上下文窗口，支持文本和图像输入，还支持函数调用和结构化输出。目前，打开 ChatGPT 会发现左上角的模型选项已默认为 “GPT-5”，且下拉选项中不再能看到前代模型。正如奥特曼之前承诺的，GPT-5 时代不会再有繁琐的模型选择，模型会自行判断用户在当下情境是需要快速响应，还是需要深度思考和推理。
（二）编码和写作
OpenAI 称 GPT-5 为 “我们迄今为止最强大的编码模型”，在复杂的前端生成和大型代码库的调试方面表现出色。通常只需一次提示，它就能创建出美观且响应迅速的网站、应用程序和游戏，将创意直观而优雅地转化为现实。同时，OpenAI 也称其为 “我们迄今为止最强大的写作工具”，能够写出引人入胜、富有文学深度和节奏感的文本。它能更可靠地处理结构模糊的写作，比如持续不押韵的抑扬格五音步或流畅自然的自由诗，将对形式的尊重与清晰的表达完美结合。这意味着 ChatGPT 能更好地协助用户完成日常任务，如起草和编辑报告、电子邮件、备忘录等。简单尝试新模型的作诗能力，以 “秋天的第一杯奶茶” 为题，能明显感觉到它比 GPT-4 更加自然，“AI 味儿” 减轻了许多。
（三）评估
GPT-5 的全面智能化程度显著提升，这在学术和人工评估基准测试中的表现得以体现，尤其是在数学、编码、视觉感知和健康领域。它在数学（AIME 2025 无需工具测试得分 94.6%）、真实世界编码（SWE-bench Verified 得分 74.9%，Aider Polyglot 得分 88%）、多模态理解（MMMU 得分 84.2%）和健康（HealthBench Hard 得分 46.2%）方面均创下新的最高水平，这些提升在日常使用中也能充分感受到。凭借 GPT-5 pro 的扩展推理能力，该模型在 GPQA 上同样创下新的最高水平，无需工具测试得分高达 88.4%。目前，GPT-5 已在 LMArean 登顶，在 Intelligence Analysis 获得的预览访问中，也荣获第一名。
（四）幻觉降低
在启用搜索的情况下，GPT-5 出现事实性错误的概率比 GPT-4o 降低约 45%。在 “思考（thinking）” 模式下，这一概率比 OpenAI o3 降低 80%。除了事实性错误，AI 还常出现 “睁眼说瞎话” 的情况，例如明明做不到或没有权限做的事，却会告知用户已完成。而 GPT-5 在这方面表现更好、更诚实。例如，OpenAI 从多模态基准测试 CharXiv 的提示中删除所有图像进行测试，结果发现 OpenAI o3 仍能以 86.7% 的概率对不存在的图像给出自信答案，而 GPT-5 的这一比例仅为 9%。
二、更 “高效”，更 “节省”
在 OpenAI 的评估中，具备思考能力的 GPT-5 表现优于 OpenAI o3，在视觉推理、代理编码和研究生水平的科学问题解决等功能上，输出 token 数量减少了 50% 至 80%。也就是说，GPT-5 用更少的思考时间实现了更大的价值。在 API 价格方面，GPT-5 性能最强，价格却低得超乎想象，可见 OpenAI 掌握了跨代的优化方法。
OpenAI 和奥特曼对 GPT-5 寄予厚望，他们深知外界对这一代模型期待已久。奥特曼称，与 GPT-5 对话就如同与某个领域的专家交流。若将 GPT-4o 比作大学生，那 GPT-5 就是博士级的专家。这种重视从发布会时长也能看出，以往新模型发布，OpenAI 的线上发布会仅约半个小时，此次却持续了一个多小时。奥特曼本人还在发布会进行时，在 X（前推特）上进行 “文字直播”。
不过，或许是心急，发布会 PPT 出现重大错误。在 “SWE-bench（人工验证版）” 相关图表中，条形图明显有误。GPT-5 不加思考（thinking）的准确率为 52.8%，图上却高于 OpenAI o3 的 69.1%，而 o3 的 69.1% 又和 GPT-4o 的 30.8% 一样高。这一尴尬情况导致奥特曼在 “文字直播” 发布会时，很多网友在评论区发布这张截图，调侃 OpenAI 离谱的图表。奥特曼大方转发消息并表示已改正，部分粉丝认为这只是无心之失，但不少人觉得这是 “有意为之”，是为让 GPT-5 显得更厉害而在图表上耍花招，甚至称之为 “本世纪最大的图表犯罪”。
这一事件表明，GPT-5 的发布会未能让所有人信服，不少人开始询问 “GPT-6 什么时候出”。马斯克已直言两周前发布的 Grok 4 Heavy 比 GPT-5 更智能。一向喜欢泼冷水的 AI 学者盖里・马库斯（Gary Marcus）在赞扬 GPT-5 有诸多良好进展的同时，称这 “并非一个巨大的飞跃”，GPT-5 也未达到外界的期待，“显然不是 AGI”。
GPT-5 是否足够优秀，还需更多时间检验。或许 OpenAI 能从中吸取的教训是，做好外界的预期管理，避免拖延太久。

作者：门徒娱乐

GPT-5 发布：性能飞跃与争议并存

新闻资讯 News

案例展示 Case

现在致电 5243865 OR 查看更多联系方式 →

现在致电 5243865 OR 查看更多联系方式 →