国产显卡动作神速!摩尔线程全面支持DeepSeek开源周成果

3月2日消息,日前摩尔线程宣布,随着DeepSeek开源周收官,摩尔线程在短时间内,成功实现对DeepSeek各个开源项目的全面支持,涵盖FlashMLA、DeepEP、DeepGEMM、DualPipe 以及 Fire-Flyer文件系统(3FS)。

摩尔线程表示,这一成果充分验证了MUSA架构和全功能GPU在生态兼容与快速适配方面的强大优势。

以下是摩尔线程支持DeepSeek开源周全家桶代码合集:

FlashMLA:

FlashMLA是一款高效的MLA(Multi-Head Latent Attention)推理内核开源仓库,旨在加速MLA机制的计算,特别适用于DeepSeek系列模型(如DeepSeek-V2、V3和R1)。

摩尔线程基于全新MUSA Compute Capability 3.1计算架构,可提供原生FP8计算能力,同时升级了高性能线性代数模板库MUTLASS,快速支持了FlashMLA。

借助MUTLASS 0.2.0,摩尔线程发布开源仓库MT-FlashMLA,能够快速对DeepSeek FlashMLA进行兼容部署。

MT-FlashMLA开源地址:

https://github.com/MooreThreads/MT-flashMLA

MUTLASS FlashAttention3地址:

https://github.com/MooreThreads/mutlass/tree/main/experimental/mp31_flash_attention_fwd

DeepEP:

DeepEP是一个用于MoE(混合专家)模型训练和推理的开源EP(expert parallelism,专家并行)通信库,主要适用于大模型训练,特别是需要EP的集群训练。

它通过优化通信信道的使用率,显著提升了训练效率。摩尔线程基于MUSA Compute Capability 3.1全功能GPU,第一时间适配了DeepEP。

MT-DeepEP开源地址:

https://github.com/MooreThreads/MT-DeepEP

DeepGEMM:

DeepGEMM是一个支持密集矩阵与混合专家(MoE)矩阵乘法的FP8 GEMM库,为V3/R1的训练与推理提供强大动力。

这个开源仓库基于高性能通用矩阵乘法(GEMM)的C++模板库进行开发,摩尔线程基于MUTLASS在全新GPU架构上优化实现了FP8矩阵乘法,支持DeepGEMM的相应功能。

MUTLASS FP8 GEMM地址:

https://github.com/MooreThreads/mutlass/tree/main/examples/02_mp31_fp8_gemm_with_collective_builder

https://github.com/MooreThreads/mutlass/tree/main/examples/03_mp31_fp8_scaling_gemm

DualPipe:

DualPipe是DeepSeek-V3提出的双向流水线并行算法,通过前向计算与后向计算阶段的计算与通信完全重叠,显著减少了流水线气泡(设备空闲等待)。

与传统流水线并行相比,DualPipe 采用双向数据流设计,使数据从两端相向处理,大幅提升了资源利用率与训练效率。

摩尔线程依托深度学习框架Torch-MUSA(已开源)和MUSA软件栈全方位的兼容性,实现了对DualPipe这一算法的高效支持。

MT-DualPipe可以完整接入摩尔线程 MT-Megatron框架和MT-TransformerEngine框架(即将开源),实现DeepSeek V3训练流程的完整复现。

MT-DualPipe开源地址:

https://github.com/MooreThreads/MT-DualPipe

Torch-MUSA开源地址:

https://github.com/MooreThreads/Torch_MUSA

3FS:

Fire-Flyer文件系统(3FS)是一种利用现代SSD和RDMA网络的全部带宽的并行文件系统,可以把固态硬盘的带宽性能利用到极致。

摩尔线程在一天内完成了高性能分布式文件系统3FS的搭建,并高效开发了存储插件,成功实现与夸娥智算集群的无缝集成,为AI训练、AI推理、科学计算等场景提供全栈存储加速方案。

3FS CSI Driver地址:

https://github.com/MooreThreads/csi-driver-3fs

国产显卡动作神速!摩尔线程全面支持DeepSeek开源周成果

文章来源于网络。发布者:火星财经,转载请注明出处:https://www.sengcheng.com/article/35824.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
火星财经的头像火星财经
上一篇 2025年3月2日 下午3:00
下一篇 2025年3月2日 下午3:00

相关推荐

  • 无需第三方网络!小米汽车推出车载网络服务包:199元/年

    3月14日消息,小米汽车车载网络服务包正式上线,售价199元/年,用户可通过小米汽车App选购。 开通后,车主可在无第三方网络支持的情况下,随时随地畅享车载应用。 包括在线KTV、播放视频、车载游戏以及开启Wi-Fi热点为其他设备提供网络连接。 此外,哨兵模式激活时还可远程查看实时画面。 若车主已购买小米汽车无忧服务包,车载网络服务包将在车载网络升级权益到期…

    2025年3月14日
    25100
  • 银行股破净是好事还是坏事?散户看懂3点,抄底不踩坑

    “XX 银行股 PB 才 0.6 倍,都破净 40% 了,是不是捡漏机会?”​ “银行股破净是不是意味着经营出问题了?会不会像有些小票一样退市?”​ 最近后台私信快被这类问题淹没了 —— 咱们散户买银行股,图的就是个 “稳”:盘子大、分红高,可一遇到 “破净” 就犯怵:一边是 “股价低于净资产,等于花 5 毛钱买 1 块钱资产” 的诱惑,一边是 “破净后还能…

    2025年12月14日
    2100
  • 仅隔两年再次改款!新款宝马5系假想图曝光:换装新世代前脸

    5月22日消息,外媒最近放出了一组新款宝马5系的假想图,虽然不是官方版本,但已经足以让车迷们兴奋。 从图中可以看出,新款5系采用了类似于Vision Neue Klasse车型的设计风格,预计会在2027年3月开始生产。 新款5系的前脸设计非常引人注目,没有采用宝马传统的双肾进气格栅,而是将格栅和头灯组进行了融合,前包围采用了黑色设计,并在左右两侧配有三角形…

    2025年5月22日
    17300
  • 10粽4蛋1酱鸭 :真真老老嘉兴粽子竹篮礼盒39元节前大促

    天猫真真老老旗舰店,真真老老嘉兴粽子竹篮礼盒日常售价140元,今日大促,限时领取80优惠券,叠加打折优惠,到手价为39元。 产品名称:竹风雅粽尊享款(1620克/盒) 产品包括:经典肉粽(130克x2只),蛋黄肉粽(130克x1只) ,金丝蜜枣粽(130克x1只) ,红袍豆沙粽(130克x2只),高山桂花粽( 100克x1只) 火腿肉粽( 100克x1只),…

    2025年5月29日
    17000
  • 中国市场销量跌幅全球最高!宝马上半年净利润下降近3成

    7月31日消息,宝马集团今日公布了上半年财报。 数据显示,宝马集团上半年营业收入总计676.85亿欧元,同比下降8.0%;净利润40.15亿欧元,同比下降29.0%。 销量层面,今年上半年,宝马汽车总销量同比微降0.5%至1,207,388辆,不过,宝马纯电和插电混动动力等车型的销量大涨18.5%至318,949辆,其中纯电动车型的全球销量同比大涨15.7%…

    2025年7月31日
    10000

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信