曾昭睿 陈经伟:Deepseek重要里程碑技术改进下的期盼与现实

 

DeepSeek的重要里程碑意义在于实现高效计算与低成本训练,并以开源和低成本策略推动AI普惠。这不仅是一场技术革新,更是一次全球AI竞争逻辑的重构。其通过开源生态、效率优化与成本控制,打破欧美闭源垄断,推动技术民主化,重构全球AI生态,推动行业从“算力军备竞赛”转向效率优化;同时,以工程智慧突破硬件限制,重塑国际社会对中国技术能力的偏见与盲区。然而,其发展仍面临地缘政治、技术竞争、商业模式、数据安全及社会认知等诸多围堵和挑战。中国面对AI霸权能否突破封锁,取决于技术韧性,也需在品牌叙事、合规策略等生态协同上实现系统性升级,并应坚定对外开放信念,充分利用美西方围堵下“替代方案”需求为国内企业带来的机遇,守得云开见月明。

一、DeepSeek的重要里程碑意义:降本增效的重要改进

当前大模型的常规范式有预训练模型与推理模型两种。从技术上来说,更为大众熟知的OpenAI GPT系列以及DeepSeek-V3模型都属于预训练模型。而OpenAIo1与DeepSeek-R1则属于推理模型,这是一种新的范式,即模型会自己通过思维链逐步分解复杂问题,一步步反思,再得到相对准确并且富有洞察力的结果。DeepSeek的重要里程碑意义在于,其实现高效计算与低成本训练,并以开源和低成本策略推动AI普惠。

(一)高效计算与低成本训练

一是DeepSeek具有独特技术路径,实现算法创新。相比于OpenAI的GPT-4和Anthropic的Claude等先进模型,DeepSeek-R1不仅在事实核查和减少幻觉生成方面表现优异,还在数学和编程等STEM(科学、技术、工程、数学)领域展现了强大能力。其成功得益于算法创新、强化学习技术、优化的硬件配置、数据处理、系统优化等原因。在模型训练范式上,研究团队突破性地采用大规模强化学习(Large-scale RL)作为核心训练方式,相较于传统依赖海量标注数据的监督微调(Supervised Fine-tuning,SFT)方法,这一革新策略有效提升了模型的复杂推理能力,为预训练语言模型的优化开辟了全新研究方向。

DeepSeek-V3的基础架构建立在Transformer框架之上,其关键技术突破体现在两大核心架构创新。其一是多头潜在注意力机制(MLA):通过改进注意力机制的计算效率,该技术使推理成本实现数量级下降,解决了大模型应用中的核心瓶颈问题。其二是动态优化的混合专家系统(MoE):构建每层含256个路由专家和1个共享专家的特殊架构,创新性提出LossFree算法,在消除传统Auxiliary Loss引发的梯度扰动问题的同时,巧妙实现专家负载均衡,突破了模型收敛性与计算效率难以兼得的业界难题。综合评估显示,DeepSeek-V3不仅成为当前性能最强的开源模型,还达到了与GPT-4和Claude-3.5-Sonnet等顶级闭源模型几乎相当的水平。DeepSeek-R1在后训练阶段,采用大规模强化学习优化基础模型,并通过知识蒸馏技术将学习成果迁移至小型模型,从而提升其性能表现,其效果优于直接对小型模型进行强化学习训练。开源的DeepSeek-R1及其API将支持学术界开发更优秀的小型模型。

二是兼顾效率与成本,实现低成本的模型开发。AI及半导体行业分析机构Semi Analysis在报告“DeepSeek Debates: Chinese Leadership On Cost, True Training Cost, Closed Model Margin Impacts”中称,DeepSeek预训练成本远非该模型的实际投入,其进行估算得出,DeepSeek购买GPU的总花费是25.73亿美元,其中购买服务器的费用为16.29亿美元,运营费用为9.44亿美元,DeepSeek-V3模型的净算力成本约558万美元。可对比2024年7月Meta发布开源AI模型Llama 3.1,该模型采用了超过1.6万个英伟达H100 GPU,并在包含超过15万亿个tokens的数据集上完成训练,相当于7500亿个单词,可估算其成本超过6000万美元,相比之下Deepseek-V3的训练成本仅不到其十分之一。ReepSeek-V3训练只花了不到十分之一。近年来,美国的人工智能实验室一直在努力提高模型质量,而不是追求价格低廉、速度快且性能好的模型。DeepSeek或许指向一条更具工程化思维的道路,其性能媲美谷歌和OpenAI模型,但开发成本却仅占其一小部分,实现真正的“降本保质”。

(二)以开源和低成本策略推动AI普惠

2018年图灵奖得主、Meta首席科学家杨立昆参加约翰霍普金斯大学的一个讲座时发言称,对DeepSeek崛起的正确解读,应是开源模型正在超越闭源模型。在此之前,开源社区最有力的支柱是Meta的4 000亿参数模型Llama3。尽管Meta祭出4 000亿参数的Llama3试图扛起开源大旗,但其与GPT-4等顶尖闭源模型存在代际差距的现实,曾让技术理想主义者们陷入迷茫。

技术透明化是DeepSeek革命性突破的核心。通过开源6710亿参数的基础模型和独特的知识蒸馏体系,为开发者提供了强大的工具和丰富的资源。其发布的V3/R1模型技术报告分别达到50页和150页的惊人厚度,完整披露了从架构设计到训练技巧的每个技术细节。这份“AI制造说明书”的详尽程度,使得具备同等算力的团队完全能够复现模型性能。开发者社区将其誉为“教科书级的技术披露”,这种开放精神与硅谷巨头们的技术黑箱形成鲜明对比,推动了技术自主性、多样化和个性化的发展。

更具颠覆性的是DeepSeek采用的MIT开源协议。相较于传统开源协议的商业限制,MIT协议允许无保留的二次开发和商业化应用。当OpenAI和Anthropic仍在构筑专利壁垒时,DeepSeek已搭建起全球协作的创新平台——任何开发者都能基于其模型进行微调改进,而企业客户则可直接将其集成到商业产品中。

这种“技术平权”正在引发链式反应。中小型企业首次获得与科技巨头同台竞技的AI能力。正如Linux当年打破操作系统垄断,DeepSeek的开源策略正在人工智能领域掀起一场去中心化的技术革命。当知识壁垒被彻底打破,AI发展的加速度或将超出所有人预期。

二、DeepSeek带来的行业变革

DeepSeek不仅是一场技术革新,更是一次全球AI竞争逻辑的重构。其通过开源生态、效率优化与成本控制,打破欧美闭源垄断,推动技术民主化;同时以工程智慧突破硬件限制,重塑国际社会对中国技术能力的认知。

(一)DeepSeek冲击市场与竞争格局

一是重构全球AI生态,推动行业从“算力军备竞赛”转向效率优化。大模型训练需要“上万加速卡”的论调被打破,DeepSeek以“高性能+低成本+开源”,在数学推理、代码生成等关键指标上媲美GPT-4,例如,DeepSeek-V3在数学竞赛任务(如Math 500测试)中的准确率达90.2%,在代码生成任务中准确率达到95%,显着高于GPT-4的90%。

二是DeepSeek的开源模式打破了闭源模型的商业壁垒。DeepSeek-V3的API服务价格仅为GPT-4的十分之一左右,且支持本地部署与定制开发,能够赋能中小企业和开发者。开源社区(如Hugging Face)围绕其技术形成活跃生态,Meta等企业甚至“逆向借鉴”其架构。此举推动全球AI竞争从“技术封闭垄断”转向“开源生态共建”,加速在医疗诊断、金融分析等垂直领域的应用落地。

(二)Deepseek冲击美国对中国的偏见与盲区

一是冲击美国AI技术霸权。在美国H100芯片禁令下,DeepSeek通过PTX指令集优化、计算单元重分配等底层优化策略,在H800芯片上实现高效训练,仅用2000块H800芯片完成模型开发,远低于欧美企业动辄上万芯片的投入。这一实践证明,中国并非依赖硬件堆砌,而是通过工程创新突破技术封锁,挑战美国“硬件优势即竞争力”的固有认知。

二是冲击美国长期秉持的科技例外论以及与之相伴的排外主义。一方面,是美国狭隘的技术精英论。在美国社会中,存在着一种有害且狭隘的思维定式,使得科技精英们坚信只有他们才能够引领全球科技潮流。另一方面,美国对中国科技发展的认知存在显着的盲区。西方媒体在报道中国科技时,往往过分关注地缘政治博弈,或热衷于探讨国家政策对产业发展的影响。然而,这种片面的视角忽略了一个关键事实:中国科技进步的核心动力源于超过十亿中国人民的智慧与努力。他们不是单纯依赖政府推动,而是凭借自主创新能力,推动着科技的发展。中国科技行业的规模之庞大,市场潜力之巨大,以及国内竞争的激烈程度,都是西方媒体报道中常被忽视的重要维度。这些充满创造力的中国人,才是中国科技生态系统的中流砥柱。

三、DeepSeek面临的挑战

DeepSeek作为中国AI领域的突破性力量,尽管在技术性能、成本控制和开源生态方面取得了显着成就,但其发展仍面临多维度挑战,涉及地缘政治、技术竞争、商业模式及社会认知等多个层面。

(一)地缘政治与技术封锁压力

一是国际禁令与市场准入限制。美国以“国家安全”为由对DeepSeek实施技术封锁,甚至推动立法要求中美在AI领域“脱钩”。韩国等国家也以数据隐私风险为由限制其应用,导致DeepSeek在国际市场拓展受阻。此类政策不仅直接限制其商业落地,还可能引发其他国家效仿,形成连锁反应。

二是硬件供应链的脆弱性。尽管DeepSeek通过算法优化降低了对高端芯片的依赖,但美国对H100等芯片的出口管制仍威胁其长期发展。国产芯片(如华为昇腾)虽在崛起,但性能与生态成熟度尚无法完全替代英伟达产品,硬件自主可控仍是隐忧。

(二)技术竞争与生态博弈

一是国际巨头的技术反制。Deepseek的出现让英伟达股价遭遇重挫,单日内蒸发6000亿美元。在2025年GTC大会上,英伟达推出NVIDIA Blackwell Ultra GPU,并声称已构建帮助 GPU 计算渗透到各行各业的CUDA生态,在NVIDIA Blackwell架构深度优化的NVIDIA开放生态推理开发工具链的支持下,DeepSeek-R1模型的推理性能破世界记录,单用户推理速度超过每秒250个token,峰值吞吐量超过每秒30000个token。这一操作旨在维护英伟达的“算力护城河”,向世界宣称AI推理仍需要大量英伟达GPU和高性能网络,削弱业界对DeepSeek的算法优势的利好预判。同时,OpenAI等企业加速GPT-4模型迭代,将加剧技术竞赛压力。

二是开源生态的可持续性争议。DeepSeek的开源策略虽快速构建了开发者生态,但也面临技术被逆向借鉴的风险。例如,Meta等企业可能基于其架构开发竞争性产品,削弱其技术壁垒。此外,开源模式下存在依赖API服务盈利等商业变现难题,可能限制长期投入能力。

(三)数据隐私与安全问题

一是数据隐私保护及数据安全问题。模型通过反向推断,可能会泄露训练数据中的敏感信息,需要采取技术措施防止模型反向推断,保护数据隐私;在引入新的数据处理活动或技术之前,需要进行数据隐私影响评估,识别潜在的隐私风险;在处理敏感数据时,采用数据匿名化技术,去除或屏蔽个人身份信息,降低数据泄露带来的风险。

二是合规性与法规遵守问题。全球范围内对AI监管趋严,如欧盟的《人工智能法案》等,迫使DeepSeek投入更多资源应对合规审查,增加运营成本。

(四)技术路径与商业模式的平衡

一是硬件-算法协同优化面临极限。DeepSeek通过算法优化显着提升算力效率,但随着模型复杂度增加,边际效益可能递减。需持续突破架构创新,比如在算法设计、硬件支持以及实际应用中,进一步研究动态路由、稀疏激活推动AI架构创新的潜力,以维持优势。

二是面临垂直领域落地碎片化的挑战。尽管Deepseek已在医疗、金融、文旅等领域初步应用,但不同行业的需求差异大,如医疗需高精度诊断,文旅需实时交互等,定制化开发可能稀释其作为通用模型的成本优势。

(五)市场信任与舆论挑战

一是美西方的污名化叙事。美西方媒体一贯企图通过污名化指控打压中企,比如指责DeepSeek“窃取技术”或存在数据安全风险,试图通过舆论战削弱其国际公信力,此类指控虽无实证,但可能影响企业与政府对DeepSeek的采用意愿,尤其是在欧美市场。

二是用户认知与品牌重塑难题。美国科技巨头(如英伟达、谷歌)通过长期积累的品牌优势,仍占据用户心智。DeepSeek需在技术优势之外,强化“高效+普惠”的品牌叙事,以突破既有市场认知惯性。

四、中国AI未来:守得云开见月明

未来,DeepSeek能否突破封锁,不仅取决于技术韧性,更需在品牌叙事、合规策略及生态协同上实现系统性升级。正如光伏、超算等领域的逆袭历史所示,外部压力或将成为催化中国AI“技术韧性”的另类动力。

(一)技术创新

一是面对算力困境,中国应进一步加强算力、存力和运力三者合一。从芯片到集群是一个复杂的技术发展和应用拓展过程,涉及芯片设计、制造、集群架构设计以及应用场景等多个方面,通过统一的大模型技术生态栈解决算力瓶颈,或将成为可行路径之一。

二是创新训练方式,从构架、算法上进行优化,以弥补中国在算力领域的差距。例如,可以尝试通过模型结构选择与调整、模型压缩技术等进行架构优化;尝试通过优化算法选择、超参数调优、分布式训练等进行算法优化。

(二)生态建设

一是品牌叙事,中国AI企业可以以“工程化、高效、普惠”的品牌叙事,突破既有市场认知惯性。

二是生态协同,通过开放合作、技术协同、场景赋能、产学研用一体化,促进产业链上下游协同发展、推动数据共享与开放。并加速应用落地进程,推动AI技术与经济社会的深度融合。

(三)坚定对外开放的决心

开放包容、自由竞争才是促进创新的良方。资本流向受到全球产业发展需求和技术进步的双重影响。面对美国在硬件领域的围堵,中国应继续扩大开放,积极回应国内外对AI的广阔需求。

一是把握国内企业发展机遇,美围堵政策导致各国和各企业寻找“替代方案”的需求增加,而利益和安全是决定资本流向的底层逻辑,意味着资本或可加速中国实现技术突破,完善产业链,扩张国内企业的全球化布局。

二是坚定扩大开放的决心,积极参与全球AI治理,加强联盟合作以及推动AI技术的合法应用,承担大国责任与担当。

 

曾昭睿:中国银河证券博士后科研工作站博士后

陈经伟:中国社会科学院金融研究所副研究员

原文载于《科技中国》2025年第4期

文章来源于网络。发布者:火星财经,转载请注明出处:https://www.sengcheng.com/article/61507.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
火星财经的头像火星财经
上一篇 2025年5月28日 上午7:24
下一篇 2025年5月28日 上午7:26

相关推荐

  • 向南:康德与黑格尔之间:马克思“抽象与具体”辩证法阐释路径转换及其限度

      摘要:在当前的研究中,黑格尔辩证法是马克思“抽象与具体”辩证法的主要阐释路径,但造成了存在论、认识论与逻辑学等多个研究视域之间的相互冲突。应适当将阐释路径转向康德式先验逻辑,在认识论与逻辑学相统一的视域下,将“从具体到抽象”和“从抽象上升到具体”视为“抽象与具体”辩证法的“两条道路”,将A版主观演绎和B版客观演绎视为范畴的先验演绎的“两条道路”,对先验演…

    2025年6月9日
    12800
  • 手机厂商扎堆机器人,下一场科技竞赛开启?

    近日,在博鳌亚洲论坛2025年年会现场,vivo执行副总裁兼首席运营官胡柏山宣布,vivo将成立「机器人Lab」进入家庭机器人领域。据他介绍,vivo将聚焦机器人“大脑”和“眼睛”的研发,主攻个人和家庭场景的消费级机器人产品。 在智能手机进入存量竞争、手机厂商扎堆造车的当下,vivo却投向另一个“万亿级市场”——机器人行业。胡柏山直言:“机器人是手机行业的未…

    2025年4月8日
    13600
  • 李忠杰:关于作风建设的五个思考

      “党的作风关系党的形象,关系人心向背,关系党的生死存亡。”习近平总书记这一振聋发聩的判断和警示,从历史、时代和大局的高度,深刻阐明了作风建设的极端重要性。中国共产党100多年的作风建设,取得了历史性的成就,也积累了丰富的经验。成就令我们欣慰,经验深化我们的思考。 思考之一:党的作风是党的性质和生命力的直接表现 党的作风,是党在思维和活动中表现出来的行为取…

    2025年7月22日
    10000
  • 不到20天 美国6万公务员离职 马斯克推动政府瘦身

    美国总统特朗普在1月20日宣誓就职当天签署行政令,组建名为“政府效率部(DOGE)”的顾问委员会,由特斯拉首席执行官马斯克牵头,旨在削减政府开支。马斯克此前收购推特后短时间内解雇了4000多名员工,这次他设定了更宏大的目标:在几个月内大幅减少美国联邦政府的工作人员数量。不到20天的时间里,他已经关停了一些机构和项目,超过6万名美国公务员接受了劝退。 距离截止…

    2025年2月12日
    14800
  • 百思特高级副总裁邓佳驰受邀出席华中科技大学EMBA公开课,深度赋能企业战略选择与能力构建

    2025年8月24日,华中科技大学EMBA“走进武汉创意天地暨喻见・公开课”活动成功举办。百思特管理咨询集团高级副总裁邓佳驰先生作为特邀嘉宾出席,围绕《企业战略选择与能力构建》这一核心主题,为现场企业经营者、华科大EMBA学员及校友带来深度分享,助力企业精准洞察时代趋势,科学规划战略布局。 洞察趋势与组织建设,夯实战略落地根基 活动伊始,邓佳驰先生便从宏观视…

    2025年8月26日
    20600

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信