DeepSeek突围奥秘曝光,一招MLA让全世界抄作业!150 天才集结,开出千万年薪 5万块GPU助力创新

DeepSeek近期的一系列动作,尤其是其模型的发布,迫使OpenAI在深夜紧急推出了o3-mini。过去半个月里,中国AI公司在国内外媒体上频频亮相,影响力持续上升。关于DeepSeek的模型训练数据、GPU用量、成员构成以及强化学习算法等细节,成为了公众关注的焦点。

DeepSeek突围奥秘曝光,一招MLA让全世界抄作业!150 天才集结,开出千万年薪

SemiAnalysis的一篇深度报道对这些方面进行了详细推测。报道指出,DeepSeek不是简单的副业项目,其在硬件上的支出远超5亿美元。论文中提到的600万美元仅是预训练阶段的GPU成本,而研发和硬件总拥有成本并未计算在内。据估计,DeepSeek拥有约5万块Hopper GPU,包括特供版H800和H20,并且有150名员工,其中不乏来自北大、浙大的顶尖人才,优秀候选人的年薪可高达934万元人民币。

DeepSeek突围奥秘曝光,一招MLA让全世界抄作业!150 天才集结,开出千万年薪 5万块GPU助力创新

DeepSeek的一个关键创新是多头潜注意力机制(MLA),这一技术显著降低了推理成本。V3模型性能超越了R1和o1,而谷歌的Gemini 2.0 Flash Thinking与R1不相上下。此外,H100的价格因V3和R1的发布而猛涨,体现了杰文斯悖论的作用。

DeepSeek突围奥秘曝光,一招MLA让全世界抄作业!150 天才集结,开出千万年薪 5万块GPU助力创新

幻方量化作为DeepSeek的主要投资者,早期就看到了AI在金融领域之外的巨大潜力。2021年,他们购入了1万块A100 GPU,随后在2023年成立了DeepSeek,专注于推进AI技术发展。目前,两家公司在人力资源和计算资源方面保持密切合作。

DeepSeek突围奥秘曝光,一招MLA让全世界抄作业!150 天才集结,开出千万年薪 5万块GPU助力创新

DeepSeek在人才招聘上注重实际能力和求知欲望,经常在北京大学和浙江大学举办招聘活动。公司提供极具竞争力的薪酬待遇,优秀候选人年薪可达130万美元以上。这种灵活的人才战略使得DeepSeek能够快速扩张。

DeepSeek突围奥秘曝光,一招MLA让全世界抄作业!150 天才集结,开出千万年薪 5万块GPU助力创新

DeepSeek的成功不仅在于资金充足,还在于高效的运营模式。相较于大公司的繁琐决策流程,DeepSeek能更快地将创新理念付诸实践。他们主要依靠自建数据中心进行技术创新,这为他们在整个技术栈上提供了更大的实验空间。

DeepSeek突围奥秘曝光,一招MLA让全世界抄作业!150 天才集结,开出千万年薪 5万块GPU助力创新

尽管论文中提到的600万美元仅指预训练阶段的直接成本,但高级分析师认为,DeepSeek在硬件方面的累计投资已远超5亿美元。例如,多头潜注意力机制的开发耗时数月,消耗了大量资源。随着算法优化,训练和推理同等性能所需的计算资源不断减少,这种趋势在行业内屡见不鲜。

DeepSeek突围奥秘曝光,一招MLA让全世界抄作业!150 天才集结,开出千万年薪 5万块GPU助力创新

R1在短时间内实现了与o1相当的性能水平,得益于新的“推理”范式。这种方法通过合成数据生成和后训练强化学习来提升推理能力,以更低成本获得快速进展。谷歌的Gemini Flash 2.0 Thinking也在基准测试中表现优异,但在市场策略和用户体验上有所欠缺。

DeepSeek突围奥秘曝光,一招MLA让全世界抄作业!150 天才集结,开出千万年薪 5万块GPU助力创新

DeepSeek的技术突破,如多Token预测(MTP)和混合专家模型(MoE),引起了西方实验室的关注。这些创新提高了训练效率并降低了推理成本。R1的成功还得益于强大的基础模型V3和强化学习的应用。

DeepSeek突围奥秘曝光,一招MLA让全世界抄作业!150 天才集结,开出千万年薪 5万块GPU助力创新

多头潜注意力机制(MLA)显著减少了每次查询所需的KV缓存量,降低了运营成本。这项创新特别受到美国顶级实验室的关注。此外,由于H20芯片具有更高的内存带宽和容量,DeepSeek在推理工作负载方面获得了更多效率提升。

DeepSeek突围奥秘曝光,一招MLA让全世界抄作业!150 天才集结,开出千万年薪 5万块GPU助力创新

R1虽然在性能上接近o1,但成本更低,这符合市场逻辑。率先突破新能力层次的公司将获得价格溢价,而追赶者只能获得适度利润。当前正处于技术快速迭代的周期,产品更新换代速度前所未有。未来,开源模型市场将在下一代技术中迅速商品化,计算资源的集中度仍将是关键因素。

DeepSeek突围奥秘曝光,一招MLA让全世界抄作业!150 天才集结,开出千万年薪 5万块GPU助力创新

责任编辑:张蕾

文章来源于网络。发布者:火星财经,转载请注明出处:https://www.sengcheng.com/article/16592.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
火星财经的头像火星财经
上一篇 2025年2月1日 下午1:58
下一篇 2025年2月1日 下午1:58

相关推荐

  • 高雄分尸案凶嫌黑历史曝光 曾被判无期徒刑

    高雄分尸案凶嫌黑历史曝光。台湾高雄市一名73岁的张姓男子涉嫌杀人分尸。警方在其住处采集到三名不同女子的血液迹证,其中包括他的大嫂黄姓妇人。张嫌落网后矢口否认犯罪,态度狡猾,给侦办工作带来很大困扰。值得注意的是,张嫌年轻时曾是职业军人,在1981年因犯下妨害性自主、窃盗、毁损及抢夺等罪行,被判处无期徒刑并入狱执行。依据当时的法规,他在服满10年刑期后申请假释,…

    2025年2月8日
    16000
  • 山西发现魏晋时期砖室墓 吕梁首次揭示

    2月6日,山西省考古研究院公布了汾阳上庙村魏晋墓M2、M5的发掘资料。这两座魏晋时期的砖室墓为吕梁地区首次发现,对研究该地区墓葬形制演变及魏晋北朝墓葬地域特点具有重要意义。 2021年7月至11月期间,山西省考古研究院、吕梁市文物考古调查勘探队联合组成考古队,在汾阳市文化和旅游局的配合下,对山西新晋商酒庄建设项目占地范围内的古墓葬进行了田野发掘。发掘区位于吕…

    2025年2月6日
    16600
  • 港股早评:三大指数高开,科技股普涨,金价创新高黄金股强势!京东涨3%,美团阿里涨2%,快手涨2%,腾讯涨1%

      格隆汇3月14日|隔夜美股三大指数均跌逾1.3%,中概指数跌0.2%。港股三大指数大幅高开,恒指涨0.81%,国指涨1.12%,恒生科技指数涨1.36%。盘面上,大型科技股全线上涨,京东涨近3%,美团、阿里巴巴、百度涨超2%,快手涨近2%,腾讯涨1%;现货、期货黄金均创历史新高,逼近3000美元关口,黄金股集体强势,带领有色金属股齐涨,中国白银集团涨超5…

    2025年3月14日
    15200
  • 谷爱凌摔倒受伤退赛 双板街式赛排名第四

    2025阿斯本世界冬季极限运动会X Games Aspen比赛中,谷爱凌第三位出场,但在比赛过程中接连摔倒三次并受伤,街式赛仅排名第四,并退出了稍后进行的U池和大跳台比拼。 赛后,谷爱凌表示摔倒造成了严重的挫伤,当下还不能走路,身体已经达到了极限。 好好养伤,健康回归! 责任编辑:梁云娇 CN079

    2025年1月25日
    13100
  • 躺着刷手机竟致双眼近视差距400度?健康护眼需做好这四点 警惕错误用眼习惯

    春节期间,很多人长时间看电视、玩手机,导致眼睛出现干涩、视物模糊等症状,这被称为眼睛的“假期综合征”。最近,眼科诊室接诊了不少患者。其中一些人在日常生活中经常侧躺着看手机,这个看似舒适的姿势更容易导致视力下降。 在湖北武汉,蔡女士发现即使戴着眼镜也看不清楚东西。检查后发现她的近视度数有所增加,两只眼睛的近视度数相差了400度。医生李新宇表示,她两个眼睛屈光差…

    2025年2月9日
    18400

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信