通义AI“音效师”:阿里开源首个音频模型ThinkSound

凤凰网科技讯 7月4日,阿里通义实验室宣布开源首个音频生成模型ThinkSound。该模型首次将思维链(CoT)技术应用于音频生成领域,旨在解决现有视频转音频(V2A)技术对画面动态细节和事件逻辑理解不足的问题。

根据通义语音团队介绍,传统V2A技术常难以精确捕捉视觉与声音的时空关联,导致生成音频与画面关键事件错位。ThinkSound通过引入结构化推理机制,模仿人类音效师的分析过程:首先理解视频整体画面与场景语义,再聚焦具体声源对象,最后响应用户编辑指令,逐步生成高保真且同步的音频。

图源:通义大模型微信公众号

为训练模型,团队构建了首个支持链式推理的多模态音频数据集AudioCoT,包含超2531小时高质量样本,覆盖丰富场景,并设计了面向交互编辑的对象级和指令级数据。ThinkSound由一个多模态大语言模型(负责“思考”推理链)和一个统一音频生成模型(负责“输出”声音)组成。

ThinkSound 音频生成模型的工作流

据悉,ThinkSound在多项权威测试中表现优于现有主流方法。该模型现已开源,开发者可在GitHub、Hugging Face、魔搭社区获取代码和模型。未来将拓展其在游戏、VR/AR等沉浸式场景的应用。

以下附上开源地址:

https://github.com/FunAudioLLM/ThinkSound

https://huggingface.co/spaces/FunAudioLLM/ThinkSound

https://www.modelscope.cn/studios/iic/ThinkSound

文章来源于网络。发布者:火星财经,转载请注明出处:https://www.sengcheng.com/article/75347.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
火星财经的头像火星财经
上一篇 2025年7月5日 上午11:02
下一篇 2025年7月5日 上午11:03

相关推荐

  • 商务部:推进中国-东盟更宽领域、更深层次区域经济一体化合作

      格隆汇5月29日|商务部新闻发言人何咏前5月29日在例行新闻发布会上表示,5月20日,中国和东盟十国经贸部长共同宣布全面完成中国—东盟自贸区3.0版谈判,这是双方历经两年多的密集磋商,取得的重大标志性成果。中国—东盟自贸区3.0版包含数字经济、绿色经济、供应链互联互通、标准技术法规与合格评定程序等9个新增章节,有利于全面拓展中国与东盟间新兴领域和新质生产…

    2025年5月30日
    12100
  • 老人失散20年女子发视频1天找到家人 网络力量见证团圆奇迹

    老人失散20年女子发视频1天找到家人!1月23日,重庆一名女子发布了一条“寻人视频”,迅速引起了大量网友的关注和热议。视频中的奶奶来自云南,二十多年前被骗至重庆,与一位老爷爷生活在一起,没有身份证、子女,也没有手机。奶奶清晰记得老家地址及五个子女的名字。女子在母亲与奶奶聊天时得知这些信息后,决定将寻人信息发布到网络上寻求帮助。 视频发布后,许多热心网友纷纷响…

    2025年1月24日
    21100
  • 日本央行行长:经济达标将持续加息 维持宽松政策支持价格趋势

    日本央行行长植田和男称,潜在通胀趋势仍低于2%。日本央行将维持宽松政策以支持价格趋势。货币政策不以汇率为目标;如果经济走势符合预期,将继续加息。 责任编辑:张佳鑫 0764

    2025年2月1日
    14900
  • 大寒时节护血管做好这6件小事 防寒保暖养阳气

    1月20日是二十四节气中的最后一个节气——大寒。此时天气寒冷,人体血管易收缩、痉挛,容易诱发心脑血管疾病。特别是高血糖、高血脂、肥胖等高危人群需要特别注意。 在大寒节气,预防心脑血管疾病的方法可以总结为“两多一少一适量”。首先,多保暖,尤其是有心脑血管疾病的老年人,要关注气温变化,适时添衣。其次,多喝温开水,特别是在早上起床和晚上睡觉前,适当饮水可以降低血液…

    2025年1月20日
    17400
  • 用棉花代替真雪景区道歉 未达预期效果闭园升级

    近日,有游客反映成都邛崃市南宝山旅游区的“成都雪村”用棉花和肥皂水制造雪景,实景与宣传图差别过大,引发关注。2月9日,南宝山旅游区通过其微信公众号表示,由于今年春节天气暖和,无法呈现雪景,为了营造出“雪”的氛围,旅游区在网上采购了雪棉铺装,但没有达到预期的效果。 在各大社交平台上,不少游客发帖称,“成都雪村”并未下雪,而是使用棉花铺设在地面、屋檐、树枝等处代…

    2025年2月9日
    20900

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信