文生图功能升级 ChatGPT追击

AI图像生成领域传来了新进展。当地时间3月25日,OpenAI在直播中对GPT-4o和Sora进行更新,并宣布其最新一代多模态模型GPT-4o正式集成迄今为止最先进的图像生成器,并开放免费使用。这一动作被业界视为对同日凌晨Google发布的Gemini 2.5 Pro Experimental模型的直接狙击。两大巨头的同日对垒,标志着生成式AI竞赛进入白热化阶段。

文生图功能升级 ChatGPT追击

攻克生成图像中的文字难题

据OpenAI介绍,GPT-4o图像生成功能擅长准确呈现文本,并精准遵循提示词,该功能还会将GPT-4o的知识库和聊天上下文作为灵感来源,这有助于使用者与图像生成工具更有效地沟通并提高生成图像的质量。该功能供ChatGPT Plus、Pro、Team和免费用户使用,并计划随后向企业、教育和API使用者推出。

在OpenAI的示例中,要求大模型生成一名女子在一个俯瞰海湾大桥的房间里用笔在白板上写字,衣服上印有OpenAI字样,白板映着摄影师的身影,并描述了白板上所写的文字。GPT-4o生成的图像都体现了以上要求。随后,OpenAI要求摄影师走到镜头前与女子击掌,GPT-4o也呈现了这一画面,且白板上的字不会变得凌乱,女子的身形和发型也与前一张图像呈现的背影一致。

生成图像中的文字,此前是图像生成领域的一个难题。ChatGPT在2022年底上线,最初只能生成和编辑文本,不能生成图像。大约一年后,OpenAI发布第三代图像生成模型DALL-E 3,并集成到ChatGPT,但两者一直是互相独立的系统。国内厂商中,去年豆包升级文生图能力,支持一键生成指定文本。今年3月,智谱AI发布了首个支持生成汉字的开源文生图模型CogView4。

就如何训练GPT-4o图像生成功能,OpenAI解释,OpenAI使用了网络上的图像和文本训练模型,让模型学习图像与文字、图像与图像之间的关系,使模型具有视觉流畅性,生成的图片是有用的、具备上下文连贯性的。

就GPT-4o图像生成功能的特点,OpenAI还表示,用户可以通过自然对话与大模型交流,要求大模型改进图像,在这个过程中图像中的人物等要素会保持一致性。使用者与大模型的交流也更顺畅,可以同时要求大模型处理10到20个不同的对象,以便图像中各要素呈现出相关性。OpenAI对比其他图像生成系统时称,其他系统只能同时处理5到8个对象。

不过,OpenAI也指出,GPT-4o图像生成功能也具备一些限制,例如存在幻觉、难以呈现太多依赖知识库的图像要素(例如元素周期表)、图表准确性不足、呈现非拉丁语言时可能容易出现幻觉、要求修改图像中的错别字时难以精准编辑。

一位从业者对记者表示,GPT-4o图像生成确实强大,但完全替代UI设计师还早,创意和细节还得靠人。88分的设计流,剩下12分才是设计师的真正价值。

GPT-5路线图

此次更新GPT-4o的图像生成功能之后,OpenAI更大的产品更新将是推出GPT-5。今年2月,OpenAI首席执行官山姆·奥尔特曼表示,OpenAI将会在ChatGPT和API服务中搭载新模型GPT-5,GPT-5将集成公司多项技术,包括推理模型o3的技术,GPT-5可能会在未来几个月内推出。

相比于之前一直不明确GPT-5的推出节点,奥尔特曼突然官宣GPT路线图,或许是因为OpenAI面临用户流失的压力。奥尔特曼此前表示,DeepSeek让OpenAI的领先优势不会像前几年那么大了,并称个人认为在开源权重模型和研究成果的问题上,OpenAI已经站在了历史的错误一边,需要制定不同的开源策略。

此前据《华尔街日报》报道,OpenAI内部代号为猎户座(Orion)的GPT-5项目的开发已持续近两年,目前面临严峻挑战。按原计划,该项目应在2024年年中完成,但现在进度严重滞后。

OpenAI已经进行了至少两次大型训练,每次训练都需要数月时间处理大量数据,目的是让猎户座变得更聪明。一位前OpenAI高管表示,如果说GPT-4的表现相当于一个优秀高中生,那么GPT-5的目标是要在某些任务上达到博士水平。然而熟悉该项目的人士表示,猎户座的训练每次都会出现新问题,软件也达不到研究人员的预期。

东吴证券发布研报称,判断OpenAI对大模型的产品线与预期曾进行过调整。GPT-5的发布时间或提前,或由于DeepSeek近期的重磅更新和亮眼表现对OpenAI产品版图构成了威胁,进而希望加快产品迭代步伐。

外部竞争

困扰OpenAI的不只是数据和成本,外部竞争同样关键。就在OpenAI宣布更新的大约一小时前,谷歌正式推出了旗下新一代人工智能模型Gemini 2.5。该模型基于多模态大语言框架升级,显著增强了推理能力、多语言支持及长文本处理能力。

谷歌将Gemini 2.5定义为公司迄今为止最智能的AI模型,Gemini 2.5 Pro实验版本在多项基准测试中全面超越OpenAI o3-mini、Claude3.7Sonnet、Grok-3和DeepSeek-R1。据官方介绍,Gemini 2.5通过优化算法架构,将响应速度提升40%,能耗降低25%。在关键指标测试中,其复杂逻辑任务完成度较前代提升65%,尤其在医疗诊断辅助、法律文书生成等垂直领域展现出更高精度。

Gemini 2.5 Pro支持文本、图像、音频、视频及代码的多模态输入,上下文窗口达100万token(约75万单词),可解析完整《指环王》系列文本,未来将升级至200万token。谷歌表示,推理能力不仅仅指分类和预测,而是指系统分析信息、得出逻辑结论、融入上下文和细微差别,以及做出明智决策的能力。

该模型一经发布,便在各大基准测试上全面屠榜,在所有测试中都稳居第一名的位置,包括常见的编程、数学和科学基准测试。在推理能力方面,Gemini 2.5 Pro在一系列需要高级推理的基准测试中都处于领先地位。在人类的最后考试中(一个由数百名学科专家设计的数据集,旨在捕捉人类知识和推理的前沿),它在未使用工具的模型中也获得了18.8%的最高分数,这是目前最先进的成绩。

谷歌Deepmind首席技术官Koray Kavukcuoglu在博客中写道:现在,通过Gemini 2.5,我们结合了显著增强的基础模型和改进后的后续训练,实现了全新的性能水平。未来,我们将把这种思维能力直接构建到我们所有的模型中,使其能够处理更复杂的问题,并支持更强大、更具情境感知能力的智能体。

研究机构Gartner预测,到2026年,多模态生成模型的商业价值将占AI市场的45%。随着谷歌与微软等巨头持续加码,生成式AI正从通用工具向产业基础设施演变,但其社会伦理、监管框架的完善也有待各方共同探索。

记者 赵天舒

文章来源于网络。发布者:火星财经,转载请注明出处:https://www.sengcheng.com/article/42784.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
火星财经的头像火星财经
上一篇 2025年3月27日 上午8:07
下一篇 2025年3月27日 上午8:08

相关推荐

  • 直播电商监督管理办法将出台

    |相关新闻| 严查以假充真 北京织密直播带货防护网 针对直播电商的监管,地方层面已经有所行动。4月17日,北京市市场监管局发布了关于规范网络销售、直播带货领域不合理经营行为的若干措施(以下简称《若干措施》)。在网络销售、直播带货方面,北京市市场监管局将严查虚假宣传、价格违法、大数据杀熟和强制搭售、售卖假冒伪劣产品以及食品安全违法等五种违法行为。 《若干措施》…

    2025年4月18日
    9700
  • 52TOYS赴港IPO 如何讲出新潮玩故事

    继名创优品、泡泡玛特、布鲁克、卡游之后,港股又迎来了一家潮玩企业。近日,北京乐自天成文化发展股份有限公司(以下简称52TOYS)递表港交所,拟主板挂牌上市,花旗集团与华泰国际担任联席保荐人。行业头部泡泡玛特凭借亮眼的成绩单拉高了市场对潮玩行业的预期,后来者52TOYS如何讲出不一样的故事自然备受关注。有关分析指出,潮玩行业竞争的关键也不只在原创IP上,52T…

    2025年5月26日
    16400
  • 兰蔻换帅 欧莱雅求变

    作为欧莱雅高端品牌部当家花旦的兰蔻传出更换总裁的消息,被认为是欧莱雅面对近两年高端品牌部增长放缓局面作出的调整。根据公开信息,此次兰蔻总裁新继任者为现任欧莱雅集团首席创新官Vania Lacascade,其此前主导了欧莱雅旗下另一护肤品牌薇姿的快速增长。在整体业绩增长放缓、主要营收贡献部门高端化妆品部门增长乏力的当下,欧莱雅需要重整旗鼓,而作为高端化妆品部门…

    2025年5月28日
    17300
  • 新总统李在明“闯关”韩国经济

    山重水复,李在明三度角逐韩国总统大选终于成功。绝食抗议、遇刺受伤、出演夫妻真人秀、狂奔翻墙进国会……他走向青瓦台的道路铺满了惊与险。上任伊始,李在明在就职讲话中表示,将首先恢复民生和经济,启动紧急经济专班,依靠国家财政实现经济良性循环,建设持续增长和发展的社会。但面对依然分裂的韩国政坛和社会挑战,李在明这位新总统的闯关之路才刚刚开…

    2025年6月5日
    17500
  • 业绩预喜 年内银行股表现亮眼

    8月7日晚间,常熟农商行率先披露期中考成绩单,A股上市银行2025年半年报正式迎来放榜期。根据半年报,常熟农商行上半年实现营业收入60.62亿元,同比增长10.1%;归母净利润19.69亿元,同比增长13.51%。而在该行之前,杭州银行、宁波银行、齐鲁银行、青岛银行、浦发银行也曾发布业绩预喜公告,其中多家银行归母净利润同比增幅达两位数。业绩的回暖也对股价形成…

    2025年8月8日
    12000

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信