像第一代视网膜iPhone、堪比博士,OpenAI发布最强模型GPT-5

奥特曼发布GPT-5

凤凰网科技讯 北京时间8月8日,今天凌晨,OpenAI举行发布会,正式发布了期待已久的新一代大语言模型GPT-5,并面向所有7亿ChatGPT用户开放使用。

OpenAI在其官网上称,GPT-5是公司迄今为止最强大的AI系统,其智能水平上相较于所有以往模型实现了重大飞跃,在编程、数学、写作、医疗、视觉感知等多个领域都展现出一流性能。

OpenAI CEO山姆·奥特曼(Sam Altman)表示,GPT-5和OpenAI此前的模型相比取得了巨大进步。他将其比作“让我再也回不去”的那种技术,就像第一款配备视网膜显示屏的iPhone带来的体验一样。

GPT-5

“GPT-5真的让我第一次觉得,我们的主力模型已经达到了可以让你向一位真正的专家、一位博士级专家提出任何问题,”奥特曼在发布会上表示,“它最酷的能力之一,就是能即时为你写出高质量软件。按需软件这个概念,将会成为GPT-5时代的标志性特征之一。”

统一系统

GPT?5是一个统一系统,只会以一个模型的形式呈现,而不是像以前那样分成一个常规模型和一个单独的推理模型。

它由三个关键组成部分构成:一个智能高效的基础模型,能够回答大多数问题;一个用于解决更复杂问题的深度推理模型(GPT?5 Thinking);以及一个实时路由器(智能分流系统),可根据对话类型、复杂度、工具需求以及用户的明确指示(例如提示中写道“请深入思考这个问题”)快速判断应使用哪个模型。

这个路由器会根据真实反馈不断学习优化,包括用户切换模型的行为、对回复的偏好以及正确率等指标,从而持续提升表现。

在达到使用上限后,每个模型还配备有轻量版本,以处理剩余查询。我们计划在不久的将来将这些能力整合到一个单一模型中。

最强编程模型

OpenAI称,GPT-5是公司迄今为止最强大的编程模型。它在复杂的前端生成和调试大型资源库方面表现尤为出色。它通常能够仅通过一个提示就创建出美观且响应迅速的网站、应用程序和游戏,凭借对美学感知的敏锐洞察力,直观且优雅地将想法转化为现实。

GPT-5编程得分

早期测试者还特别提到,它在设计决策上的表现更出色,对间距、字体排版以及留白等细节有了更深入的理解。

奥特曼表示,GPT-5是“全球最强的编程与写作模型”

在OpenAI的测试中,该模型在基准测试SWE-Bench、SWE-Lancer和 Aider Polyglot中的编程表现优于所有其他模型。在真实世界编程测试中,GPT-5在SWE-bench Verified中的得分为74.9%,在Aider Polyglot中的得分为88%。

在发布会上,OpenAI负责后训练工作的负责人扬·杜布瓦(Yann Dubois)现场演示了如何用GPT-5生成一个带有互动游戏的法语学习网站。

短短几秒内,GPT-5就写出了数百行代码,并生成了该网站的前端界面。杜布瓦简单点击浏览了网站的各个功能,发现一切似乎都按预期正常运行。

多模态

OpenAI称,GPT-5的多模态能力也了提升。该模型在多模态基准测试中表现出色,覆盖视觉、视频、空间及科学推理等多个领域。

多模态测试

更强的多模态能力意味着,ChatGPT能更精准地对图像及其他非文本输入进行推理,无论是解读图表、概述演示文稿的照片,还是回答与示意图相关的问题,它都能胜任。

安全改进

GPT-5安全研究负责人亚历克斯·贝特尔(Alex Beutel)表示,OpenAI对GPT-5进行了超过五千小时的安全风险测试,重点之一是“确保模型不会对用户撒谎”。

和之前的o3推理模型相比,GPT-5回答中出现的“幻觉”更少,但大语言模型自带的“自信撒谎”问题仍然存在。

当模型开始像智能体一样执行任务时,这个问题会变得更加复杂,不过OpenAI表示,GPT-5在更可靠地处理多步骤任务方面表现更好。贝特尔说:“过去我们发现模型有时会声称自己完成了任务,但实际上并未完成,这是个问题。”

GPT-5会为那些以前会拒绝回答的提示提供OpenAI所称的“安全回应”(safe completions)。贝特尔解释道,“如果有人问‘点燃某种特定材料需要多少能量?’,这可能是试图绕过安全保护机制,意图造成伤害,也可能是学生出于学习物理知识而提问。这就给模型如何做出最佳回复带来了真正的挑战。”

OpenAI将于周四开始面向所有免费用户以及付费ChatGPT订阅用户开放GPT-5,教育和企业客户预计将在下周获得访问权限。付费用户将享有更高的使用额度。(作者/箫雨)

文章来源于网络。发布者:火星财经,转载请注明出处:https://www.sengcheng.com/article/87276.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
火星财经的头像火星财经
上一篇 2025年8月8日 上午11:03
下一篇 2025年8月8日 上午11:09

相关推荐

  • A股收评:沪指跌0.1%创指涨1.07%北证50涨0.48%,机器人、汽车零部件板块活跃!近3100股上涨,成交1.26万亿放量1413亿

      格隆汇4月23日|A股主要指数今日涨跌不一,截至收盘,沪指跌0.1%报3296点,深证成指涨0.67%,创业板指涨1.07%。全天成交1.26万亿元,较前一交易日增量1413亿元,全市场近3100股上涨,逾2000股下跌。   盘面上,机器人板块集体冲高,秦川机床(000837)、兆威机电等多股涨停;汽车零部件板块活跃,恒勃股份20%涨停;消费电子板块拉…

    2025年4月23日
    17000
  • 印度将罚大众14亿美元 博主:非雁过拔毛、实雁过炖了!逃税风波或致退出市场

    印度将罚大众14亿美元博主!去年11月,印度指控大众汽车公司故意少缴奥迪、大众和斯柯达汽车零部件的进口税,逃税金额高达14亿美元。通知指出,大众汽车曾进口几乎整辆未组装的汽车,根据规定需缴纳30%-35%的进口税,但大众通过将这些产品错误申报为单个零部件来逃避税收,只缴纳了5%-15%的关税。 涉及的产品包括斯柯达速派Superb和柯迪亚克Kodiaq,大众…

    2025年2月5日
    13900
  • DeepSeek重新开放API充值功能

    【大河财立方消息】2月25日,大河财立方记者注意到,DeepSeek已重新开放API充值。同时,DeepSeek平台显示,由于deepseek-chat模型优惠期结束,调用价格已变更为每百万输入tokens2元,每百万输出tokens8元。 此前,DeepSeek一度停止API充值功能。2月6日,DeepSeek平台显示,其API服务充值按钮显示灰色不可用状…

    2025年2月25日
    14500
  • 警方通报女子称遭无人机偷拍 事件正在调查中

    2月8日,三亚市公安局天涯分局通报了一起无人机偷拍事件。2月7日凌晨2时38分,宋女士报警称在天涯区某酒店阳台泡澡时疑似被一架无人机偷拍。接警后,公安机关立即展开调查,目前相关情况正在进一步调查中。 此前报道显示,2月7日,一名女游客发视频称在三亚一酒店入住后疑遭无人机偷拍。该女游客表示,凌晨她在洗澡时,发现一架无人机在不远处疑似盘旋偷拍。事发后,酒店方面已…

    2025年2月9日
    15000
  • 春节返程路:每掉1%电就关一个功能,后视镜上挂的腊肠成了唯一热源

    春节返程路:每掉1%电就关一个功能,后视镜上挂的腊肠成了唯一热源! 时间飞逝,2024年春节小长假即将结束,高速公路上再次迎来大规模的返程高峰。每年这个时候,高速公路上都会出现严重的堵车现象,车辆排成长龙,一堵就是几公里、几十公里甚至上百公里。 近年来,随着新能源汽车的普及和发展,越来越多的人选择开电动车回家。然而,当春节返程高峰期与新能源车的缺陷相遇时,一…

    2025年2月6日
    13100

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信