清华团队突破大模型算力难题 英伟达面临挑战

清华大学KVCache.AI团队联合趋境科技发布了KTransformers开源项目的重大更新,成功打破了大模型推理算力的门槛。这次更新支持在24G显存(4090D)的设备上本地运行DeepSeek-R1、V3的671B满血版。

清华团队突破大模型算力难题

KTransformers项目的核心在于异构计算策略。通过稀疏性利用,MoE架构每次仅激活部分专家模块,团队将非共享的稀疏矩阵卸载至CPU内存,并结合高速算子处理,使显存占用压缩至24GB。此外,项目采用了4bit量化技术,配合Marlin GPU算子,效率提升了3.87倍;CPU端通过llamafile实现多线程并行,预处理速度达到286 tokens/s。CUDA Graph加速减少了CPU/GPU通信开销,单次解码只需一次完整的CUDA Graph调用,生成速度可达14 tokens/s。

这一突破带来的影响显著。传统方案中,使用8卡A100服务器的成本超过百万,按需计费每小时数千元。而现在,单卡RTX 4090方案的整机成本约为2万元,功耗仅为80W,非常适合中小团队和个人开发者。NVIDIA RTX 4090运行DeepSeek-R1满血版的案例不仅展示了技术奇迹,也是开源精神与硬件潜能结合的典范。这证明了在AI快速发展的时代,创新往往源于对“不可能”的挑战。

责任编辑:张蕾

文章来源于网络。发布者:火星财经,转载请注明出处:https://www.sengcheng.com/article/30325.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
火星财经的头像火星财经
上一篇 2025年2月15日 下午4:25
下一篇 2025年2月15日 下午4:25

相关推荐

  • 三百万年前南方古猿是素食主义者 氮同位素揭示饮食秘密

    最新一期《科学》杂志发表的研究表明,大约350万年前生活在南非的人类祖先——南方古猿,饮食几乎完全由植物构成,很少或根本不包含肉类。这一结论基于对7颗南方古猿个体化石牙釉质中氮同位素的分析。 在人类进化史上,动物资源特别是肉类消费被认为促进了大脑体积增长,提高了工具使用技能。然而,关于肉类何时成为早期人类饮食的一部分以及这种饮食习惯如何演变的问题,一直缺乏直…

    2025年1月23日
    17800
  • 特朗普正式推迟禁令90天,TikTok回应

    TikTok 凤凰网科技讯 北京时间6月20日,据路透社报道,美国总统特朗普在周四签署行政令,将TikTok“不卖就禁”的截止日期推迟90天到9月17日。这是特朗普第三次给予TikTok宽限期。 特朗普曾表示,他希望TikTok继续在美国运营,该应用在2024年总统大选中帮助他吸引到了年轻选民。 TikTok在其官网发布的声明中表示:“我们感谢特朗普总统在确…

    2025年6月20日
    14200
  • 与抢票软件有没有合作?12306回应 从未授权第三方

    1月21日,铁路12306开始发售2月4日即正月初七的车票,迎来节后返程车票发售最高峰。系统保持安全稳定运行。 中国铁路提醒旅客,部分“抢票软件”推出的“加速包”服务实际上是一种营销噱头,通过买短乘长、买长乘短或推荐不合理的换乘方案等方式诱导旅客购票。无论是否购买“加速包”,均需通过铁路12306系统排队,加钱并不会提高购票速度,反而可能因异常访问而降低速度…

    2025年1月22日
    24500
  • 假期前3天吉林9家景区纳客超10万人次 山东重点景区游客量大增

    山东省文化和旅游厅发布的数据显示,2025年春节假期前三天(除夕到初二),全省重点监测的200家旅游景区累计接待游客806.1万人次,实现营业收入38485.4万元。接待游客数量最多的五个景区分别是天下第一泉、烟台山旅游景区、台儿庄古城景区、青岛海滨风景区和青州古城景区。 责任编辑:张佳鑫 0764

    2025年2月1日
    13500
  • 古装剧为何流行起“女主二婚”人设 顺应观众需求变化

    古装剧为何流行起女主二婚人设。杨紫和李现主演的古装剧《国色芳华》在最近新开播的电视剧中表现突出。两人从现代剧《亲爱的,热爱的》转战到大唐背景的爱情故事,再次续写前缘。不同于之前甜美的恋爱剧情,《国色芳华》中的角色设定更为复杂。 杨紫饰演的角色何惟芳是一位商贾之女,有着一次离婚经历。她被当作筹码嫁入攀炎附势的刘家,经历了许多苦难。这种离婚苦难人设在近年来的古装…

    2025年1月20日
    16100

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信