DeepSeek婉拒所有采访专注研发 引发OpenAI紧急应对

DeepSeek婉拒所有采访专注研发。DeepSeek的最新动作迫使OpenAI在深夜紧急上线o3-mini。近半个月来,中国的人工智能技术持续占据国内外媒体头条,影响力不断扩大。关于DeepSeek模型的训练数据、GPU使用量、团队构成及强化学习算法等细节成为关注焦点。

DeepSeek婉拒所有采访专注研发

SemiAnalysis的一篇深度报道从多个角度进行了推测,包括训练成本、对闭源模型利润的影响以及团队规模等。报道指出,DeepSeek并非简单的副业项目,其在GPU等硬件上的支出超过5亿美元。论文中提到的600万美元仅是预训练阶段的GPU成本,研发和硬件总拥有成本并未计算在内。DeepSeek拥有约5万块Hopper GPU,包括特供版H800和H20。公司大约有150名员工,并定期从北大、浙大等顶尖高校招募人才,优秀候选人年薪可达130万美元。

DeepSeek婉拒所有采访专注研发 引发OpenAI紧急应对

DeepSeek的一个关键创新是多头潜注意力机制(MLA),该机制显著降低了推理成本。此外,V3模型性能远超R1和o1,谷歌的Gemini 2.0 Flash Thinking与R1不相上下。随着V3和R1的发布,H100价格大幅上涨,这体现了杰文斯悖论的作用。

DeepSeek婉拒所有采访专注研发 引发OpenAI紧急应对

幻方量化作为DeepSeek的主要投资者,很早就看到了AI在金融领域之外的巨大潜力。他们在2021年购入了10,000块A100 GPU,这一决策后来被证明极具前瞻性。2023年5月,幻方决定分拆成立DeepSeek,以更专注地推进AI技术发展。目前两家公司在人力资源和计算资源方面保持密切合作。

DeepSeek婉拒所有采访专注研发 引发OpenAI紧急应对

DeepSeek专注于招募中国本土人才,强调实际能力和求知欲望。他们在北京大学和浙江大学等顶尖高校举办招聘活动,提供极具竞争力的薪酬待遇。现有员工约150人,公司保持快速扩张态势。

DeepSeek婉拒所有采访专注研发 引发OpenAI紧急应对

DeepSeek的定价策略和运营效率引发了广泛关注。尽管预训练阶段的成本仅为600万美元,但整体投入远不止于此。开发新架构的过程中需要大量资源进行测试和验证。例如,多头潜注意力机制的开发周期长达数月,消耗了大量人力和计算资源。

DeepSeek婉拒所有采访专注研发 引发OpenAI紧急应对

V3模型的性能提升显著,但在AI快速迭代的背景下,半年前的技术已显得陈旧。随着时间推移,用更少的计算资源实现相当或更强的性能成为行业趋势。例如,现在可以在普通笔记本电脑上运行的小型模型能达到与GPT-3相当的性能水平,而后者在发布时需要超级计算机进行训练。

DeepSeek婉拒所有采访专注研发 引发OpenAI紧急应对

DeepSeek的独特之处在于他们率先实现了成本和性能的突破。虽然开源模型权重的做法已有先例,但DeepSeek的成就仍然显著。预计到今年年底,相关成本可能还会进一步下降5倍左右。

DeepSeek婉拒所有采访专注研发 引发OpenAI紧急应对

R1能够达到与o1相当的性能水平,关键在于新的“推理”范式。这种范式通过合成数据生成和后训练强化学习提升推理能力,使得以更低成本获得快速进展成为可能。然而,R1在许多场景下表现不如o1。OpenAI最近发布的o3测试结果显示,其性能提升几乎呈垂直上升趋势。

DeepSeek婉拒所有采访专注研发 引发OpenAI紧急应对

谷歌推出的Gemini Flash 2.0 Thinking在基准测试中表现优于R1,具有很强的稳定性。尽管如此,DeepSeek凭借快速行动、充足资金、卓越智慧和明确目标,在竞争中超越了Meta等科技巨头。

DeepSeek婉拒所有采访专注研发 引发OpenAI紧急应对

DeepSeek的多Token预测技术和混合专家模型架构显著提高了训练和推理效率。这些创新引起了西方实验室的关注。RL在R1中的应用也起到了重要作用,使其在格式化和安全性方面表现出色。通过合成数据集微调,R1的推理能力得以自然涌现。

DeepSeek婉拒所有采访专注研发 引发OpenAI紧急应对

MLA技术显著降低了DeepSeek模型的推理成本,减少了每次查询所需的KV缓存量,从而降低运营成本。由于H20芯片的高内存带宽和容量,DeepSeek在推理工作负载方面获得了更多效率提升。

R1并未真正动摇o1的技术优势,而是以更低的成本实现了相似的性能。这种现象符合市场逻辑,类似于半导体制造业的发展模式。率先突破新能力层次的公司将获得显著的价格溢价,而追赶者只能获得适度利润。DeepSeek通过零利润率策略打破了OpenAI的高利润率格局,但这是否可持续仍存疑。未来,计算资源的集中度将变得更加重要。

责任编辑:卢其龙 CN070

文章来源于网络。发布者:火星财经,转载请注明出处:https://www.sengcheng.com/article/20603.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
火星财经的头像火星财经
上一篇 2025年2月5日 下午3:26
下一篇 2025年2月5日 下午3:51

相关推荐

  • 《哪吒2》百万条锁链制作细节:特效难度创新高

    《哪吒之魔童闹海》在春节期间取得了票房冠军,其成功背后是制作团队的用心和努力。该片的故事比前作更加宏大,涉及仙界、人间和妖界的角色数量显著增加,特效镜头超过1900个,超过了前作全片的镜头数量。 影片中,龙族带领海底妖兽通过虚空裂口穿越到陈塘关的场景尤其引人注目。在这个场景中,束缚所有海妖的锁链成为关键元素。如果让所有妖兽都被锁链相连,不仅会影响画面构图,还…

    2025年2月4日
    15900
  • 多地景区发布紧急提醒 取消限流门票售罄

    2月1日,农历大年初四,旅游市场持续火热。多地景区因游客量激增发布紧急公告,取消部分活动或限流。例如,广东省潮州市文化广电旅游体育局宣布取消牌坊街文化巡游活动,西安市兴庆宫公园也取消了原定的非遗打铁花、火壶演出。 九寨沟景区1月31日至2月2日的门票已售罄。成都大熊猫繁育研究基地的熊猫谷景区实行全网实名预约分时限流入园,截至发稿时,2月1日(初四)、2月2日…

    2025年2月1日
    15500
  • 湖人vs快船 赛后新闻发布会 哈登引领反击高潮

    湖人vs快船赛后新闻发布会。泰伦·卢认为第三节和第四节之间的32比9高潮是进攻开始运转的结果。詹姆斯·哈登站了出来,帮助推动了胜利。球队找到了破解联防的方法以及理想的进攻方式。尽管上半场有些停滞,但下半场在执行战术方面做得更好,得到了很多好机会并投进了球。 关于特伦斯·曼恩没有上场的问题,泰伦·卢表示赛前与他交流过,并调整了轮换阵容,尝试了一些新的东西。 对…

    2025年1月20日
    24700
  • 男子驾驶越野车陷泥沙中 不幸身亡 轻视生命酿悲剧

    男子驾驶越野车陷泥沙中不幸身亡。生命只有一次,不应轻视。面对大自然的广袤与神奇,巍峨的高山、浩渺的大海、璀璨的星空无不展现着它的无穷力量和无尽魅力。人类在自然面前显得渺小,不应为了逞一时之勇而忽视生命的价值,因为背后还有家人需要照顾。 1月19日下午,河北一名男子驾驶越野车时陷入泥沙中。他没有自救,反而站在车顶上双手插兜,直到汽车完全沉入水中后才点燃求生欲望…

    2025年1月20日
    17300
  • 东契奇生涯荣誉:连续5次全明星 辉煌数据见证成长

    东契奇在职业生涯中的表现如下: 他在常规赛中出战422场比赛,全部首发,场均上场34.9分钟,得到28.6分、8.7个篮板、8.3次助攻、1.2次抢断和0.5次盖帽。投篮命中率为47.0%,三分球命中率34.8%,罚球命中率74.8%。 在季后赛中,他出战50场比赛,全部首发,场均上场39.0分钟,贡献30.9分、9.4个篮板、8.0次助攻、1.7次抢断和0…

    2025年2月2日
    15000

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信