Soul App实时人像视频生成研究成果获国际学术顶会CVPR2025录用

近期,IEEE国际计算机视觉与模式识别会议( Conference on Computer Vision and Pattern Recognition)CVPR 2025公布论文录用结果,社交平台Soul App技术论文《Teller: Real-Time Streaming Audio-Driven Portrait Animation with Autoregressive Motion Generation》(《基于自回归动作生成的实时流式音频驱动人像动画系统》)被接收。

 Soul App实时人像视频生成研究成果获国际学术顶会CVPR2025录用

Soul App团队在论文中提出了一个新的面向实时音频驱动人像动画(即Talking Head)的自回归框架,解决了视频画面生成耗时长的行业挑战外,还实现了说话时头部生成以及人体各部位运动的自然性和逼真性。此次论文的入选,也证明了Soul App在推动多模态能力构建特别是视觉层面能力突破上取得了阶段性成果。

CVPR是人工智能领域最具学术影响力的顶级会议之一,是中国计算机学会(CCF)推荐的A类国际学术会议。在谷歌学术指标2024年列出的全球最有影响力的科学期刊/会议中,CVPR位列总榜第2,仅次于Nature。

根据会议官方统计,本次CVPR 2025会议总投稿13008篇,录用2878篇,录用率仅为22.1%。相较2023年(25.8%)、2024年(23.6%),录用率的持续下降也凸显了CVPR不断严格的审核标准,以及论文入选竞争的逐年激烈。

对Soul而言,研究成果再次入选国际顶级会议,证明了团队在AI领域,特别是多模态方向的自研能力受到行业和学术界认可。2024年,Soul多模态情感识别研究论文《Multimodal Emotion Recognition with Vision-language Prompting and Modality Dropout》(《基于视觉语言提示与模态暂退的多模态情感识别》),入选ACM国际多媒体会议(ACM International Conference on Multimedia,ACM MM 2024)上组织的多模态与可靠性情感计算研讨会MRAC 24。而在人工智能领域顶级的国际学术会议之一——国际人工智能联合会议组织的第二届多模态情感识别挑战赛(MER24)上,Soul技术团队还在SEMI(半监督学习)赛道获得第一名。

作为较早思考将AI应用于社交领域的平台,2016年Soul在上线后快速推出了基于AI算法的灵犀引擎,重构关系网络发现的新模式,受到了广大用户的热烈反馈,也坚定了平台对AI持续投入的发展路线。2020年Soul开始启动AIGC技术研发工作,在智能对话、语音、3D虚拟人等方面拥有前沿积累,并较早将重点聚焦在多模态方向。

自2023年推出自研语言大模型Soul X后,Soul已陆续上线了语音生成大模型、语音通话大模型、音乐生成大模型等语音大模型能力。目前,Soul AI大模型能力已整体升级为了多模态端到端大模型,支持文字对话、语音通话、多语种、多模态理解、真实拟人等特性,能够实现更接近生活日常的交互对话和“类真人”的情感陪伴体验。

在Soul看来,AI融入社交场景,除了需要AI介入内容表达以及关系的发现、建立、沉淀等环节,提高社交效率和社交体验,同时也需要AI作为交互对象向个体提供情绪价值。而这要求团队必须加快提升AI的感知能力和交互能力,即需要在语音、视觉、NLP的融合上下功夫,让用户能实时与具备形象、表情、记忆的 AI 多模态交互,而这也是更接近真实社交互动的方式。

在近期接受媒体采访中,Soul App CTO陶明这样解释团队关注视觉交互的逻辑,“从交互的信息复杂度来讲,人和人面对面的沟通是信息传播方式最快的,也是最有效的一种。所以我们认为在线上人机交互的过程当中,需要有这样的表达方式。”

此次论文的研究成果正是Soul在融合视觉的多模态交互方向的积极探索。在论文中核心介绍了Soul团队为提高视频生成效率以及生成效果的拟人性、自然度所提出的创新方法。

该论文的动机是解构diffusion-base的模型关键步骤,用LLM和1step-diffusion进行重构,融合视频模态,使SoulX大模型成为同时生成文字、语音、视频的Unified Model。

具体而言,将talking head任务分成FMLG(面部Motion生成)、ETM(高效身体Movement生成)模块。FMLG基于自回归语言模型,利用大模型的强大学习能力和高效的多样性采样能力,生成准确且多样的面部Motion。ETM则利用一步扩散,生成逼真的身体肌肉、饰品的运动效果。

实验结果表明,相比扩散模型,该方案的视频生成效率大幅提升,且从生成质量上来看,细微动作、面部身体动作协调度、自然度方面均有优异表现。

在Soul多模态大模型能力方向基础上,该方案的提出将有助于AI构建实时生成的“数字世界”,并且能够以生动的数字形象与用户进行自然的交互。

此前,Soul基于自身的多模态大模型能力上线了语音交互功能,受到了用户的热烈讨论和积极反馈。如今,从语音到视觉的模态升级,也意味着交互方式的颠覆式改变。

后续,Soul将把最新的AI能力尽快落地到站内多元场景中,如即将上线的实时视频通话能力将融入平台的AI虚拟人情感化陪伴体系“虚拟伴侣”、多对多互动场景“群聊派对”等功能中,进一步提升平台AI虚拟人的交互能力,以及人机交互的在场感和情感温度,为用户带来有趣、温暖的社交体验。

文章来源于网络。发布者:火星财经,转载请注明出处:https://www.sengcheng.com/article/41559.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
火星财经的头像火星财经
上一篇 2025年3月22日 下午3:27
下一篇 2025年3月22日 下午3:28

相关推荐

  • 荔枝旺季倒计时!顺丰构建荔枝全链条流通体系,构筑“品牌兴农”新格局

    进入五月,夏日的气息愈发浓烈,广西荔枝也将迎来崭新的丰收季。作为中国荔枝主产区之一,广西正以科技创新和品牌升级为引擎,推动荔枝产业向价值链高端迈进。5月8日,2025年广西荔枝品牌推介暨顺丰荔枝行业解决方案发布会在钦州灵山隆重启幕。会上举办授牌仪式、表彰金牌合作伙伴、并发布2025荔枝行业解决方案,与各位嘉宾携手描绘 “中国荔乡” 的…

    2025年5月12日
    20500
  • 大厂“AI”智能体,等待 DeepSeek 时刻

    2025年的WAIC(世界人工智能大会)闭幕了,AI等待的重磅「靴子」却没有落地。 热度高涨,人群汹涌。WAIC今年全网超23.6亿的流量,比去年增长了21.6%;但是悬念未解:Open AI即将发布的新一代GPT-5,以及DeepSeek延期已久的新一代模型V4或R2,有分析认为8月初都有望推出,但WAIC并未见它们的身影和消息。 格局没有变,AI行业主要…

    2025年7月31日
    16500
  • 周鸿祎的搜索梦,纳米AI搜索担不起

    这已经是周鸿祎第五次发起“搜索战”。 继3721、雅虎“一搜”、奇虎、360“好搜”后,新物种AI搜索的到来,让周鸿祎更加积极入局。 周鸿祎做AI搜索的思路,秉承了他一贯的激进模式。在纳米AI搜索去年年底的发布会上,周鸿祎甚至喊出了“做出全球第一的AI搜索”。 两年时间来,从2024年底的360AI搜索,到升级为纳米AI搜索,再到嵌入智能体的纳米超级AI搜索…

    2025年9月9日
    9400
  • DeepSeek越强,Kimi越慌?

    被DeepSeek吊打的Kimi,还有多少人在用? 去年,月之暗面创始人杨植麟别提有多风光了。90后清华学霸,国产大模型六小虎之一,手握十几亿美金的融资。旗下的AI助手Kimi烧钱如流水,单月光是投流就花费2个亿。 疯狂烧钱带来了短暂的繁荣,Kimi的月活冲上行业第二。可谁能想到,半路杀出个DeepSeek,在没有任何广告的情况下,7天狂揽1亿用户,直接给K…

    2025年6月10日
    12900
  • 被叫“小妹”56年后,她有机会写下自己的名字

    创业11年里,黄嘉榆接受过很多次采访,在不同场合下讲述过自己创办“小黄香蕉手钩”的故事。 故事开头始于2014年,因父亲的工厂订单锐减,这一年大学毕业的黄嘉榆“被迫”接厂创业,她只身拎着毛线南下大理,在古城街头支起小摊,一边用钩针编织着小物件换生活费,一边在淘宝开店,试图为濒临绝境的家族生意杀出一条血路。 线下走红后,小黄香蕉的淘宝店在当年开张。 当创业渐入…

    2025年6月29日
    25000

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信