国产显卡动作神速!摩尔线程全面支持DeepSeek开源周成果

3月2日消息,日前摩尔线程宣布,随着DeepSeek开源周收官,摩尔线程在短时间内,成功实现对DeepSeek各个开源项目的全面支持,涵盖FlashMLA、DeepEP、DeepGEMM、DualPipe 以及 Fire-Flyer文件系统(3FS)。

摩尔线程表示,这一成果充分验证了MUSA架构和全功能GPU在生态兼容与快速适配方面的强大优势。

以下是摩尔线程支持DeepSeek开源周全家桶代码合集:

FlashMLA:

FlashMLA是一款高效的MLA(Multi-Head Latent Attention)推理内核开源仓库,旨在加速MLA机制的计算,特别适用于DeepSeek系列模型(如DeepSeek-V2、V3和R1)。

摩尔线程基于全新MUSA Compute Capability 3.1计算架构,可提供原生FP8计算能力,同时升级了高性能线性代数模板库MUTLASS,快速支持了FlashMLA。

借助MUTLASS 0.2.0,摩尔线程发布开源仓库MT-FlashMLA,能够快速对DeepSeek FlashMLA进行兼容部署。

MT-FlashMLA开源地址:

https://github.com/MooreThreads/MT-flashMLA

MUTLASS FlashAttention3地址:

https://github.com/MooreThreads/mutlass/tree/main/experimental/mp31_flash_attention_fwd

DeepEP:

DeepEP是一个用于MoE(混合专家)模型训练和推理的开源EP(expert parallelism,专家并行)通信库,主要适用于大模型训练,特别是需要EP的集群训练。

它通过优化通信信道的使用率,显著提升了训练效率。摩尔线程基于MUSA Compute Capability 3.1全功能GPU,第一时间适配了DeepEP。

MT-DeepEP开源地址:

https://github.com/MooreThreads/MT-DeepEP

DeepGEMM:

DeepGEMM是一个支持密集矩阵与混合专家(MoE)矩阵乘法的FP8 GEMM库,为V3/R1的训练与推理提供强大动力。

这个开源仓库基于高性能通用矩阵乘法(GEMM)的C++模板库进行开发,摩尔线程基于MUTLASS在全新GPU架构上优化实现了FP8矩阵乘法,支持DeepGEMM的相应功能。

MUTLASS FP8 GEMM地址:

https://github.com/MooreThreads/mutlass/tree/main/examples/02_mp31_fp8_gemm_with_collective_builder

https://github.com/MooreThreads/mutlass/tree/main/examples/03_mp31_fp8_scaling_gemm

DualPipe:

DualPipe是DeepSeek-V3提出的双向流水线并行算法,通过前向计算与后向计算阶段的计算与通信完全重叠,显著减少了流水线气泡(设备空闲等待)。

与传统流水线并行相比,DualPipe 采用双向数据流设计,使数据从两端相向处理,大幅提升了资源利用率与训练效率。

摩尔线程依托深度学习框架Torch-MUSA(已开源)和MUSA软件栈全方位的兼容性,实现了对DualPipe这一算法的高效支持。

MT-DualPipe可以完整接入摩尔线程 MT-Megatron框架和MT-TransformerEngine框架(即将开源),实现DeepSeek V3训练流程的完整复现。

MT-DualPipe开源地址:

https://github.com/MooreThreads/MT-DualPipe

Torch-MUSA开源地址:

https://github.com/MooreThreads/Torch_MUSA

3FS:

Fire-Flyer文件系统(3FS)是一种利用现代SSD和RDMA网络的全部带宽的并行文件系统,可以把固态硬盘的带宽性能利用到极致。

摩尔线程在一天内完成了高性能分布式文件系统3FS的搭建,并高效开发了存储插件,成功实现与夸娥智算集群的无缝集成,为AI训练、AI推理、科学计算等场景提供全栈存储加速方案。

3FS CSI Driver地址:

https://github.com/MooreThreads/csi-driver-3fs

国产显卡动作神速!摩尔线程全面支持DeepSeek开源周成果

文章来源于网络。发布者:火星财经,转载请注明出处:https://www.sengcheng.com/article/35824.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
火星财经的头像火星财经
上一篇 2025年3月2日 下午3:00
下一篇 2025年3月2日 下午3:00

相关推荐

  • 黄牛克星!NVIDIA推出RTX 5090/5080优先通道:仅限美国

    2月20日消息,NVIDIA近期推出的RTX 5090和RTX 5080显卡由于库存紧俏,引发了一卡难求、黄牛到处抢购高价售卖的情况。 为了打击黄牛,也为了真正的玩家能够买到显卡,NVIDIA今天宣布推出验证优先购买权(Verified Priority Access)计划。 申请者需要满足以下条件:首先必须拥有2025年1月30日之前注册的NVIDIA账户…

    2025年2月20日
    13900
  • 理想汽车上线五一假八天大促活动:L7、8、9购车现金优惠至少1.2万

    5月2日消息,理想汽车官网显示,2025年5月1日起至5月8日24点前定购理想L7、L8、L9的用户可享限时购车权益,其中理想L7和理想L8可享限时现金补贴12000元等;理想L9可享限时现金补贴16000元等。 理想L7/L8:限时现金补贴12000元;首付9.98万元,享3年0息或5年低息购车金融政策;享价值8000元特殊颜色、21英寸轮辋或电动踏板选装…

    2025年5月2日
    14800
  • 信仰加成!华硕《毁灭战士》联名RTX 5080卖到14400元:限量666件

    5月16日消息,华硕与Bethesda及id Software合作,推出了一款限量版《毁灭战士:黑暗时代》联名款ROG夜神RTX 5080显卡。 如今这款限量显卡的售价已经公布,为1999.99美元(约合人民币14400元),也就是RTX 5090的建议零售价,包含了一份《毁灭战士:黑暗时代》游戏,如果不包含游戏,显卡的售价为1899.99美元(约合人民币1…

    2025年5月16日
    15800
  • 华为曝光一底双长焦专利:Pura 80系列首发

    6月6日消息,国家知识产权局最新公开信息显示,华为全新一底双长焦摄像头结构专利正式亮相,该技术创新地通过可移动棱镜的位置切换实现长焦和超长焦之间的光路切换,使得两组不同焦距的前透镜组分别与后镜群形成两种焦段。 其中,两种焦段共用大底CMOS传感器和传感器防抖模块,显著提升了双焦段摄影成像效果。 据悉,这项专利将应用于华为Pura 80系列,带来突破行业现状的…

    2025年6月6日
    10900
  • 1.2mm全球最窄物理四等边!魅族22官宣

    7月28日消息,今天上午,魅族科技正式开启预热魅族22,该机将挑战1.2mm全球最窄物理四等边。 魅族科技表示,时间来到了7月的最后一周,对不起太难了,盛夏错过7月,奔赴最美的22岁之约,我们迟到了。 因为没有人会不喜欢纯白色的东西,行业说白是妄想,边框越窄,白面板良品率便断崖式下跌,这个断崖是大多数品牌不愿碰触的禁区,少数坚持者也大都转身弃守。 自MX2白…

    2025年7月28日
    11300

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信