让美国硅谷恐慌!中国工程院院士揭秘:DeepSeek究竟厉害在哪里

1月17日消息,在AI领域,DeepSeek带来的影响力,一点也不亚于六代机。那么,DeepSeek究竟厉害在哪里?

据新浪科技报道,今日,中国工程院院士、清华大学计算机系教授郑纬民指出了DeepSeek其成功出圈的关键所在。

让美国硅谷恐慌!中国工程院院士揭秘:DeepSeek究竟厉害在哪里

目前,业界对于DeepSeek的喜爱与赞美,主要集中在三个方面。

第一,在技术层面,DeepSeek背后的DeepSeek-V3及公司新近推出的DeepSeek-R1两款模型,分别实现了比肩OpenAI 4o和o1模型的能力。

第二,DeepSeek研发的这两款模型成本更低,仅为OpenAI 4o和o1模型的十分之一左右。

第三,DeepSeek把这一两大模型的技术都开源了,这让更多的AI团队,能够基于最先进同时成本最低的模型,开发更多的AI原生应用。

DeepSeek是如何实现模型成本的降低的呢?郑纬民指出,DeepSeek自研的MLA架构和DeepSeek MOE架构,为其自身的模型训练成本下降,起到了关键作用。

他指出,MLA主要通过改造注意力算子压缩了KV Cache大小,实现了在同样容量下可以存储更多的KV Cache,该架构和DeepSeek-V3模型中FFN 层的改造相配合,实现了一个非常大的稀疏MoE 层,这成为DeepSeek训练成本低最关键的原因。

据了解,KV Cache是一种优化技术,常被用于存储人工智能模型运行时产生的token的键值对(即key- value数值),以提高计算效率。

具体而言,在模型运算过程中,KV cache会在模型运算过程中充当一个内存库的角色,以存储模型之前处理过的token键值,通过模型运算计算出注意力分数,有效控制被存储token的输入输出,通过以存换算避免了多数大模型运算每次都是从第一个token开始运算的重复计算,提升了算力使用效率。

此外,据郑纬民透露,DeepSeek还解决了非常大同时非常稀疏的MoE模型使用的性能难题,而这也成了DeepSeek训练成本低最关键的原因

DeepSeek比较厉害的是训练MoE的能力,成为公开MoE模型训练中第一个能训练成功这么大MoE的企业。郑纬民说

此外,DeepSeek还充分利用专家网络被稀疏激活的设计,限制了每个token被发送往GPU集群节点(node)的数量,这使得GPU之间通信开销稳定在较低的水位。

早先,图灵奖得主、主导Meta AI研究的首席科学家杨立昆(Yann LeCun)认为,DeepSeek成功的最大收获并非中国竞争对其他国家带来更大威胁,而是AI开源的价值使任何人都能受益。

对那些看到DeepSeek表现并认为‘中国在AI领域正超越美国’的人而言,你的解读错了,杨立昆在Threads写道,正确解读应是‘开源模型正超越专有模型’。

让美国硅谷恐慌!中国工程院院士揭秘:DeepSeek究竟厉害在哪里

文章来源于网络。发布者:火星财经,转载请注明出处:https://www.sengcheng.com/article/13294.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
火星财经的头像火星财经
上一篇 2025年1月27日 下午3:00
下一篇 2025年1月27日 下午3:00

相关推荐

  • 加量升级更实惠!霸王招牌洗发水官方半价冲量:券后29元

    天猫【霸王官方旗舰店】 霸王招牌洗发水 500ml(新升级版)标价 79 元,下单立减 15 元,领取 35 元优惠券,实付 29 元官方包邮。 购买链接:天猫(券后29元) 精选侧柏叶、人参、当归等多种植物精华,持证上岗更放心。 此款为霸王招牌洗发液,加量升级款,500ml 招牌洗发液仅需 29 元,真真划算。 购买提醒: 天猫霸王官方旗舰店商品,正品保障…

    2025年5月24日
    10800
  • “靠流量活着的企业”:经济学家批胖东来遭起诉索赔百万

    4月6日消息,昨晚,胖东来商贸集团有限公司发布《胖东来关于侵权行为的处理公示(五)》,其中微博账号宋清辉被列为拟起诉对象。 涉嫌侵权行为包括:该账号在胖东来基层员工平均月薪9886元的微博超话中评论称:胖东来基层员工平均月薪9886元,一家没有什么核心竞争力的企业,只能变着花样靠流量活着。 胖东来方面认为,这些言论涉嫌贬损公司品牌形象,已将此列为侵权诉讼案件…

    2025年4月6日
    15200
  • 热量比猪大肠还高!很多人却在把腐竹当减脂餐

    腐竹作为豆制品,是很多火锅、麻辣烫爱好者受欢迎的食材。尤其在即将到来的夏季,餐桌上会经常出现凉拌腐竹的身影。 但你可能不知道,这种看似清淡的豆制品,热量其实比猪大肠还要高! 腐竹热量和脂肪含量堪比猪大肠 咱们先来看看《中国食物成分表(标准版)》上的一组数据: 干腐竹:每 100 克热量为 461 千卡,脂肪含量为 21.7克[1]; 猪大肠:每 100 克热…

    2025年4月10日
    10300
  • 三个首次!华为Vision智慧屏5系列正式推出:2799元起

    4月16日消息,今天,华为正式推出Vision智慧屏5系列新品,打造更懂年轻人的潮酷巨幕手机。 Vision智慧屏5系列以Vision系列的三个首次带来越级体验:首次接入鸿蒙AI,首次升级Super MiniLED鸿鹄画质,首次实现超薄零贴墙设计。 华为Vision智慧屏5首次接入小艺大模型,深度融合与华为Mate 70系列手机同源的AI能力,用户可以通过模…

    2025年4月16日
    17200
  • 低至8.8元/月:QQ音乐豪华绿钻年卡104.4元(几乎半价)

    QQ音乐豪华绿钻会员年卡官方售价为216元,618 大促价113元。 天猫旗舰店今日可使用 8.61 元淘金币,抵扣后仅需 104.39 元即可入手,单月低至 8.69 元即可入手。 第一步:点击详情页领取 10 元数字生活券; 第二步:点击详情页【淘金币补贴】卡片,淘金币可抵 8.6 元。 需到付款页面才能看到实付价格。 购买链接:天猫(券后104.39元…

    2025年6月12日
    17700

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信