GPT-5 没有惊喜,但信号拉满

在GPT-4发布两年之后,经历多次“跳票”的GPT-5终于在今日登场。

北京时间8月8日凌晨1点,OpenAI举办了一场超过一小时的发布会,系统展示了GPT-5在智能水平、编程能力、任务推理等维度的性能迭代。

但相比此前GPT-3到GPT-4所带来的全方位升级,许多人表示,这次GPT-5并没有带来更多的惊喜,从发布会规模、产品亮点、到性能升级,都显得较为平庸,相较当前主流SOTA模型,提升幅度并不显著。

反倒是价格策略成了此次发布的最大亮点。GPT-5的API调用价格仅为前几日发布的Claude Opus 4.1的1/15,显著低于Gemini 2.5 Pro,在当前大模型市场上展现出极强的性价比。

近两年,随着AI工具开始席卷各行各业,人们渴望AI能够取代重复繁琐的工作,也在担忧自己是否会被AI所取代,这也是GPT-5发布前备受关注的原因之一。但就目前GPT-5的能力突破来看,人类智能在通往AGI的路上仍有很长一段路要走。

回顾过去几年GPT的迭代历程,不仅是众多AI公司争相效仿的对象,也是整个大模型行业发展的缩影。而此次GPT-5相对平庸的表现,虽然打破了外界对大模型技术持续突破的惯性认知,但某种程度上,也在大多数人的意料之中。

相比AI兴起阶段大众对于大模型技术的过高展望,市场上有关大模型参数突破的讨论正势渐微弱。相比起技术突破,人们开始更加关心的是,AI如何更有效地渗透进日常生活。

01从GPT1到GPT5 GPT的未来要走向哪里?

自2018年OpenAI发布首个大模型GPT-1以来,GPT系列已经走过了七年。

2020年GPT3的出现,让大模型参数规模从15亿直接拓展到了1750亿,也因此通过“上下文学习”能力,摆脱了对大量标注数据的依赖,使大模型能够开始作为效率工具使用。

两年后,基于GPT-3.5构建的对话式模型ChatGPT上线,进一步推动大模型走入C端日常,成为通用AI应用的重要落地转折点。

随后GPT-4的全面升级,更是在实现万亿级模型参数的同时,让大模型在单纯文本输出的基础上,实现了图像的交互提升。

此后一年里,GPT发布的多款模型,都在围绕图像、语音互动等多模态能力迭代; deepseek的横空出世,将推理模型带向了大众视野,去年OpenAI接连发布了O1、O3系列产品,将复杂推理作为了性能优势,开始强调对科学、编程等专业领域的协助能力。

与此同时,围绕大模型参数量的宏大叙事开始逐渐消失,转变为对多模态、长文本等细节能力的追求,以及对医疗、教育等落地场景的讨论。正因如此,大模型产品形态也开始从单一模型转向了多版本并行。

截至目前,OpenAI已构建起由GPT系列(主打对话交互)、O系列(聚焦复杂推理)以及图像/视频生成模型(支撑多模态创作)组成的三大产品矩阵。

在本次升级的GPT-5中,GPT进一步统一了O系列的推理能力和GPT的快速响应,相比较deepseek在模型使用时,自主选择是否使用深度思考模式,GPT-5的区别在于能够自动判断对话类型。

除此之外,在此次发布会中,OpenAI首次同时推出了4个版本,标准版GPT-5、轻量级的GPT-5 mini与GPT-5 nano,以及面向企业与高级订阅用户的GPT-5 Pro(需企业授权或月付200美元)。加深了按需定制、分层定价的SaaS化路径演进。

这种转变也意味着,对于AI公司来说,竞争的门槛不再仅是技术突破,还在于是否具备构建产品体验、搭建商业模型、整合跨界资源的综合能力。

02GPT-5难产真相:大模型升级为何越来越难?

DeepSeek上线所带来的用户量激增,不仅向外界证明了开源模型的商业化可行性,也进一步加深了大模型公司对“先发优势”的重视。当模型性能差距趋于收敛,前期对于用户心智的争夺上升为第一要义。

正因如此,随着GPT-5问世的风声不断,最近一段时间,各大厂商开始纷纷加速竞跑,相继推出新品。

字节在两个月前将豆包更新至1.6版本,阿里也在昨日推出了Qwen3-4B-Instruct-2507与Thinking-2507双版本,MiniMax近几日发布了新一代语言生成模型Speech 2.5,智谱也在上月底发布旗舰模型GLM-4.5……一场集中式更新潮,给沉静许久的大模型赛道掀起了又一波浪潮。

但当我们把时间拉长来看,这波密集的模型上新趋势,距离上一次“百模大战”的盛景,已经过去了一年多。

大模型的更新趋势正在逐渐放缓。不仅如此,相较GPT-3到GPT-4参数暴涨、多模态突破、上下文显著增强的跃迁,近期多款新品的提升幅度也显得颇为有限,大多数模型的升级和GPT-5一样乏善可陈。

很多人把背后的原因归结为数据瓶颈。

去年万众瞩目的Orion,项目开发时长超过了18个月,曾经被寄予厚望,原计划作为GPT-5推出。结果在验证时,性能却远未达到预期,最终只能被降级成GPT-4.5,在今年2月默默上线。

据业内人士称,Orion之所以失败,最核心的原因在于,团队摸到了预训练阶段的天花板。随着训练数据的不断扩充,高质量网络数据存量不断减少,直接导致了模型训练效果的下降。

除此之外,随着大模型参数量不断增加,硬件水平所带来的掣肘也在越发放大,据媒体报道,有开发人员透露,OpenAI在去年年底所推出的推理模型O3,之所以能够实现核心的性能提升,主要依赖于使用更多的英伟达芯片进行开发。

更进一步的问题在于,大众对于AI幻觉、AI味的抵制正在呈现更为激进的态势。

GPT-5发布前夕,奥特曼曾在社交平台分享了模型对话能力的演示。但出乎意料的是,评论区关注的焦点已不再是性能指标,而是GPT频繁使用破折号的语言习惯。

此前OpenAI在今年2月推出的GPT 4.5,核心性能升级也在于提升模型情商,减少AI痕迹。与此同时,在有关GPT-5的权威测评数据中,也表示出AI事实性幻觉的大幅减少。

但正如众多网友所吐槽的那样,相比较数学能力的准确度提升,GPT-5在写作流畅度、情商表现上却远不如GPT 4.5。

某种程度上来说,AI的思维机制和生成原理,注定了“事实性幻觉”始终是一种概率性存在。

Meta首席AI科学家杨立昆曾经对当前主流的LLM背后的自回归模型表示质疑,认为其通过预测下一个词来生成文本的模式,本质上无法孕育出真正的智能。

这一判断也对过去大模型训练逃不开的Scaling Law路线进行了质疑,即单纯增加参数数量并不能使得AI更好的拟合人类智能。背后的原因在于,两者在思维结构上存在本质不同,前者是从更大、更多的参数中,以最小的成本组织信息;而后者则为了在不确定中生存和繁衍,具有更强的冗余性和模糊性。

03AI Agent落地,大模型要让位?

一直以来,围绕ChatGPT的订阅收费、API接口调用是OpenAI的重要盈利来源,但随着今年AI Agent 的大量涌现,大模型公司的商业化重心,开始发生了迁移。

上半年,OpenAI发布了两款基于ChatGPT的AI Agent,一是可以代替用户操作浏览器,自主执行任务的Operator;二是可以辅助做深入研究,生成专业研究报告的Deep Research。

据The Information披露相关文件表示,OpenAI已告知投资者,预计到2025年末,AI Agent及其他新产品的合计销售额将超越ChatGPT。

与此同时,对比去年全年37亿美元的营收, OpenAI预计今年的营收能达到127亿美元,相比去年的营收估值足足增长了2倍以上。背后最重要的驱动力之一,就是AI Agent。

事实上,AI Agent的商业化爆发并非OpenAI独享。以辅助编程为核心的“vibe coding”编辑器Cursor便是典型代表。

凭借多行智能重构、代码自动补全和代码库查询等功能,Cursor付费用户已超36万,最新估值较年初激增三倍。与此同时,曾引发全网“账号抢购”热潮的Manus,尽管被曝“出逃海外”,依然反映出AI Agent在垂直细分领域的极高用户粘性。

AI Agent的兴起,一方面得益于大模型底层性能的持续提升,另一方面则源自各垂直领域对定制化智能工具的刚性需求。这种需求不仅使得Agent能够更精准、高效地服务专业场景,也催生了更强的用户依赖。

但需要指出的是,AI Agent在实际应用中通常面临更高的Tokens消耗,这对创业公司尤其是资金实力有限者而言是沉重的压力。Manus的“出逃”,一定程度上折射出了初创团队在高成本运维与现金流压力下的两难境地。

此外,AI Agent本质上是建立在大模型基座之上的“套壳”应用,模型能力的天花板直接限制了Agent的性能上限。相较之下,OpenAI等头部大模型厂商在底层模型研发上拥有明显优势,也因此更具主导权和话语权,这也解释了为何它们不会放弃AI Agent的开发与布局。

由此可见,大模型商业化正加速向细分场景和专门化应用迁移。另一个与之相佐证的趋势在于,OpenAI对“大模型闭源”的保守态度开始出现了松动。

在GPT-5发布前夕,OpenAI时隔三年再次推出了两款开源模型:gpt-oss-120b 和 gpt-oss-20b。这一动作不仅被外界视作GPT-5发布前的技术热身,也被认为是在试图回应业界对模型开源日益高涨的呼声。

与此同时,GPT-5调用价格也被进一步拉低,仅为前几日发布的Claude Opus 4.1的1/15。当模型迭代的平台期和Agent商业化趋势同时出现,从“卖模型”转向“卖能力”,大模型公司的产品重心正在发生实质性转变。

文章来源于网络。发布者:火星财经,转载请注明出处:https://www.sengcheng.com/article/88157.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
火星财经的头像火星财经
上一篇 2025年8月10日 下午8:41
下一篇 2025年8月10日 下午8:41

相关推荐

  • 天味食品2025上半年净利降23%,现金流大减44%,问题出在哪?

    8月27日晚间,一纸财报将天味食品推上了风口浪尖。这家以火锅调料闻名的上市公司,交出了一份令人揪心的成绩单:2025年上半年营收仅为13.91亿元,同比下滑5.24%;净利润更是锐减23.01%,至1.9亿元。冰冷的数字背后,是三大核心品类的全线溃退——火锅调料暴跌41.05%,菜谱式调料下滑12.24%,香肠腊肉调料断崖式下滑55.77%。尽管二季度净利润…

    2025年8月28日
    24600
  • 革新生活体验!小熊电器全面升级用户的品质生活

    叔本华曾说,“你可以做你想做,但无法想你所想”。然而,现代人似乎正用自己的生活方式打破这一定律。年轻人煮饭可以不囿于厨房,在雪山顶用加热饭盒吃泡面,攀登千米用钛杯煮咖啡,拿风景下饭怡情;人们的放松也不止在卧室,在办公桌用养生壶煮杯花茶悠哉悠哉,还有,旅途上车载冰箱装满食材的快乐、出差时用迷你洗衣机清洗内衣的安心…… 总之,不再按图索骥…

    2025年1月25日
    20200
  • 余额宝体验金有风险吗?亲测30天后,我总结出这4个真相

    打开支付宝,不少人都遇到过这样的场景:弹窗提示 “恭喜获得 10 万余额宝体验金,3 天收益可提现”。点进去后,账户里果然多了一笔虚拟的 “体验金”,每天还能看到收益数字在跳动。但看着这白来的 “钱”,心里难免犯嘀咕:这体验金到底是什么?会不会有看不见的风险? 要弄明白余额宝体验金有没有风险,得先搞清楚它的本质。简单说,体验金是支付宝推出的一种营销工具,既不…

    2025年7月26日
    28000
  • 母亲节,用华为云空间留住妈妈的“美”一面

    爱意满满的母亲节礼物,可以不止是美丽的鲜花、衣服或首饰。从妈妈的生活细节里,也许能发现关于她的温暖秘密。这个母亲节,华为云空间策划《老妈的空间都去哪了》温情短片,带你发现藏在妈妈手机里的回忆与可爱,给妈妈多点“空间”,留住她的“美”一面。 给老妈更充裕的空间,装下她更多样的瞬间 当手机存储空间告急,妈妈先删掉的往往是自己的照片,以腾出更多空间保留孩子的成长瞬…

    2025年5月10日
    13400
  • 荣耀背水一战

    最近,今年二季度以激活量为标准的中国手机市场销量排名出炉,荣耀坐Others那一桌。如果算上一季度,荣耀已经半年没能回到top5的位置。 虽然滑落到Others的窘境其他家也遭受过,但此刻荣耀面临的压力会更大些: 一方面,荣耀正站在上市的紧要关口:中国证监会网站披露,荣耀已于6月26日取得上市辅导备案,中信证券担任辅导机构。荣耀比任何时候都需要证明自己的价值…

    2025年7月10日
    12000

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信