通义AI“音效师”:阿里开源首个音频模型ThinkSound

凤凰网科技讯 7月4日,阿里通义实验室宣布开源首个音频生成模型ThinkSound。该模型首次将思维链(CoT)技术应用于音频生成领域,旨在解决现有视频转音频(V2A)技术对画面动态细节和事件逻辑理解不足的问题。

根据通义语音团队介绍,传统V2A技术常难以精确捕捉视觉与声音的时空关联,导致生成音频与画面关键事件错位。ThinkSound通过引入结构化推理机制,模仿人类音效师的分析过程:首先理解视频整体画面与场景语义,再聚焦具体声源对象,最后响应用户编辑指令,逐步生成高保真且同步的音频。

图源:通义大模型微信公众号

为训练模型,团队构建了首个支持链式推理的多模态音频数据集AudioCoT,包含超2531小时高质量样本,覆盖丰富场景,并设计了面向交互编辑的对象级和指令级数据。ThinkSound由一个多模态大语言模型(负责“思考”推理链)和一个统一音频生成模型(负责“输出”声音)组成。

ThinkSound 音频生成模型的工作流

据悉,ThinkSound在多项权威测试中表现优于现有主流方法。该模型现已开源,开发者可在GitHub、Hugging Face、魔搭社区获取代码和模型。未来将拓展其在游戏、VR/AR等沉浸式场景的应用。

以下附上开源地址:

https://github.com/FunAudioLLM/ThinkSound

https://huggingface.co/spaces/FunAudioLLM/ThinkSound

https://www.modelscope.cn/studios/iic/ThinkSound

文章来源于网络。发布者:火星财经,转载请注明出处:https://www.sengcheng.com/article/75347.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
火星财经的头像火星财经
上一篇 2025年7月5日 上午11:02
下一篇 2025年7月5日 上午11:03

相关推荐

  • 2024年云南鲜切花出口值7.6亿元 同比增长34.2%

    昆明海关数据显示,2024年云南省鲜切花出口值达到7.6亿元,同比增长34.2%,主要销往泰国、日本和新加坡等国家和地区。 云南作为中国重要的花卉生产和出口基地,拥有优越的气候和地理条件,孕育了高品质的“云花”。为促进“云花”出口,滇中海关加强了对鲜切花注册种植基地、加工厂和包装厂的日常监管,指导企业改进硬件设施和管理制度,帮助企业建立更完善的品控体系,提升…

    2025年2月8日
    13800
  • 陈冲回应在美读书时被性侵 公开谈论耻辱经历

    陈冲回应在美读书时被性侵!陈冲 接受《人物》的采访,公开回应在美读书时被性侵一事,直言这是一段曾被自己刻意遗忘的耻辱经历。在采访中大方谈及衰老,坦言 30 岁生日就自觉青春已逝,此后衰老并未带来焦虑。 责任编辑:卢其龙 CN070

    2025年2月10日
    17700
  • 超长蛇年工作日即将开启 网友热议多上班节奏

    春节长假即将结束,明天将迎来蛇年的第一个工作日。由于这个农历蛇年长达384天,网友们纷纷感叹要多上班了。 为什么这个蛇年会这么长呢?通常情况下,一年有365天,这是公历纪年的方法。但在农历纪年中,一年只有354天或355天。这样算下来,一个农历平年与一个公历年相差约11天。如果每年都提前11天左右过年,那么若干年后春节就会从冬天移到夏天。为了避免这种情况,古…

    2025年2月4日
    15700
  • 网传微信朋友圈可查看访客记录,并附有相关使用教程!微信辟谣:暂无查询功能,后续会不断优化产品

    新浪科技讯 5月27日下午消息,近日,部分社交平台上流传出“微信朋友圈有访客记录了”的相关内容,并附有相关使用教程。有用户根据教程尝试操作后发现,所谓查看方法需跳转至第三方小程序,且需付费使用。 对此,腾讯客服人员回应称:“微信暂无查询访客功能,我们后续会不断优化我们的产品,给您带来更好的体验。”

    2025年5月27日
    22000
  • 叙利亚曼比季爆炸案已致20死 伤亡人数上升

    叙利亚汽车炸弹15死15伤。叙利亚曼比季市汽车炸弹爆炸致15死15伤。叙利亚民防组织3日说,叙利亚北部城市曼比季当天发生汽车炸弹爆炸,已造成15死15伤。(新华社) 责任编辑:卢其龙 CN070

    2025年2月4日
    24500

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信