像第一代视网膜iPhone、堪比博士，OpenAI发布最强模型GPT-5

火星财经 • 2025年8月8日上午11:03 • 社会 • 阅读 127

奥特曼发布GPT-5

凤凰网科技讯北京时间8月8日，今天凌晨，OpenAI举行发布会，正式发布了期待已久的新一代大语言模型GPT-5，并面向所有7亿ChatGPT用户开放使用。

OpenAI在其官网上称，GPT-5是公司迄今为止最强大的AI系统，其智能水平上相较于所有以往模型实现了重大飞跃，在编程、数学、写作、医疗、视觉感知等多个领域都展现出一流性能。

OpenAI CEO山姆·奥特曼(Sam Altman)表示，GPT-5和OpenAI此前的模型相比取得了巨大进步。他将其比作“让我再也回不去”的那种技术，就像第一款配备视网膜显示屏的iPhone带来的体验一样。

GPT-5

“GPT-5真的让我第一次觉得，我们的主力模型已经达到了可以让你向一位真正的专家、一位博士级专家提出任何问题，”奥特曼在发布会上表示，“它最酷的能力之一，就是能即时为你写出高质量软件。按需软件这个概念，将会成为GPT-5时代的标志性特征之一。”

统一系统

GPT?5是一个统一系统，只会以一个模型的形式呈现，而不是像以前那样分成一个常规模型和一个单独的推理模型。

它由三个关键组成部分构成：一个智能高效的基础模型，能够回答大多数问题；一个用于解决更复杂问题的深度推理模型(GPT?5 Thinking)；以及一个实时路由器(智能分流系统)，可根据对话类型、复杂度、工具需求以及用户的明确指示（例如提示中写道“请深入思考这个问题”)快速判断应使用哪个模型。

这个路由器会根据真实反馈不断学习优化，包括用户切换模型的行为、对回复的偏好以及正确率等指标，从而持续提升表现。

在达到使用上限后，每个模型还配备有轻量版本，以处理剩余查询。我们计划在不久的将来将这些能力整合到一个单一模型中。

最强编程模型

OpenAI称，GPT-5是公司迄今为止最强大的编程模型。它在复杂的前端生成和调试大型资源库方面表现尤为出色。它通常能够仅通过一个提示就创建出美观且响应迅速的网站、应用程序和游戏，凭借对美学感知的敏锐洞察力，直观且优雅地将想法转化为现实。

GPT-5编程得分

早期测试者还特别提到，它在设计决策上的表现更出色，对间距、字体排版以及留白等细节有了更深入的理解。

奥特曼表示，GPT-5是“全球最强的编程与写作模型”。

在OpenAI的测试中，该模型在基准测试SWE-Bench、SWE-Lancer和 Aider Polyglot中的编程表现优于所有其他模型。在真实世界编程测试中，GPT-5在SWE-bench Verified中的得分为74.9%，在Aider Polyglot中的得分为88%。

在发布会上，OpenAI负责后训练工作的负责人扬·杜布瓦(Yann Dubois)现场演示了如何用GPT-5生成一个带有互动游戏的法语学习网站。

短短几秒内，GPT-5就写出了数百行代码，并生成了该网站的前端界面。杜布瓦简单点击浏览了网站的各个功能，发现一切似乎都按预期正常运行。

多模态

OpenAI称，GPT-5的多模态能力也了提升。该模型在多模态基准测试中表现出色，覆盖视觉、视频、空间及科学推理等多个领域。

多模态测试

更强的多模态能力意味着，ChatGPT能更精准地对图像及其他非文本输入进行推理，无论是解读图表、概述演示文稿的照片，还是回答与示意图相关的问题，它都能胜任。

安全改进

GPT-5安全研究负责人亚历克斯·贝特尔(Alex Beutel)表示，OpenAI对GPT-5进行了超过五千小时的安全风险测试，重点之一是“确保模型不会对用户撒谎”。

和之前的o3推理模型相比，GPT-5回答中出现的“幻觉”更少，但大语言模型自带的“自信撒谎”问题仍然存在。

当模型开始像智能体一样执行任务时，这个问题会变得更加复杂，不过OpenAI表示，GPT-5在更可靠地处理多步骤任务方面表现更好。贝特尔说：“过去我们发现模型有时会声称自己完成了任务，但实际上并未完成，这是个问题。”

GPT-5会为那些以前会拒绝回答的提示提供OpenAI所称的“安全回应”(safe completions)。贝特尔解释道，“如果有人问‘点燃某种特定材料需要多少能量？’，这可能是试图绕过安全保护机制，意图造成伤害，也可能是学生出于学习物理知识而提问。这就给模型如何做出最佳回复带来了真正的挑战。”

OpenAI将于周四开始面向所有免费用户以及付费ChatGPT订阅用户开放GPT-5，教育和企业客户预计将在下周获得访问权限。付费用户将享有更高的使用额度。(作者/箫雨)

文章来源于网络。发布者：火星财经，转载请注明出处：https://www.sengcheng.com/article/87276.html