曾昭睿陈经伟：Deepseek重要里程碑技术改进下的期盼与现实

DeepSeek的重要里程碑意义在于实现高效计算与低成本训练，并以开源和低成本策略推动AI普惠。这不仅是一场技术革新，更是一次全球AI竞争逻辑的重构。其通过开源生态、效率优化与成本控制，打破欧美闭源垄断，推动技术民主化，重构全球AI生态，推动行业从“算力军备竞赛”转向效率优化；同时，以工程智慧突破硬件限制，重塑国际社会对中国技术能力的偏见与盲区。然而，其发展仍面临地缘政治、技术竞争、商业模式、数据安全及社会认知等诸多围堵和挑战。中国面对AI霸权能否突破封锁，取决于技术韧性，也需在品牌叙事、合规策略等生态协同上实现系统性升级，并应坚定对外开放信念，充分利用美西方围堵下“替代方案”需求为国内企业带来的机遇，守得云开见月明。

一、DeepSeek的重要里程碑意义：降本增效的重要改进

当前大模型的常规范式有预训练模型与推理模型两种。从技术上来说，更为大众熟知的OpenAI GPT系列以及DeepSeek-V3模型都属于预训练模型。而OpenAIo1与DeepSeek-R1则属于推理模型，这是一种新的范式，即模型会自己通过思维链逐步分解复杂问题，一步步反思，再得到相对准确并且富有洞察力的结果。DeepSeek的重要里程碑意义在于，其实现高效计算与低成本训练，并以开源和低成本策略推动AI普惠。

（一）高效计算与低成本训练

一是DeepSeek具有独特技术路径，实现算法创新。相比于OpenAI的GPT-4和Anthropic的Claude等先进模型，DeepSeek-R1不仅在事实核查和减少幻觉生成方面表现优异，还在数学和编程等STEM（科学、技术、工程、数学）领域展现了强大能力。其成功得益于算法创新、强化学习技术、优化的硬件配置、数据处理、系统优化等原因。在模型训练范式上，研究团队突破性地采用大规模强化学习（Large-scale RL）作为核心训练方式，相较于传统依赖海量标注数据的监督微调（Supervised Fine-tuning，SFT）方法，这一革新策略有效提升了模型的复杂推理能力，为预训练语言模型的优化开辟了全新研究方向。

DeepSeek-V3的基础架构建立在Transformer框架之上，其关键技术突破体现在两大核心架构创新。其一是多头潜在注意力机制（MLA）：通过改进注意力机制的计算效率，该技术使推理成本实现数量级下降，解决了大模型应用中的核心瓶颈问题。其二是动态优化的混合专家系统（MoE）：构建每层含256个路由专家和1个共享专家的特殊架构，创新性提出LossFree算法，在消除传统Auxiliary Loss引发的梯度扰动问题的同时，巧妙实现专家负载均衡，突破了模型收敛性与计算效率难以兼得的业界难题。综合评估显示，DeepSeek-V3不仅成为当前性能最强的开源模型，还达到了与GPT-4和Claude-3.5-Sonnet等顶级闭源模型几乎相当的水平。DeepSeek-R1在后训练阶段，采用大规模强化学习优化基础模型，并通过知识蒸馏技术将学习成果迁移至小型模型，从而提升其性能表现，其效果优于直接对小型模型进行强化学习训练。开源的DeepSeek-R1及其API将支持学术界开发更优秀的小型模型。

二是兼顾效率与成本，实现低成本的模型开发。AI及半导体行业分析机构Semi Analysis在报告“DeepSeek Debates: Chinese Leadership On Cost, True Training Cost, Closed Model Margin Impacts”中称，DeepSeek预训练成本远非该模型的实际投入，其进行估算得出，DeepSeek购买GPU的总花费是25.73亿美元，其中购买服务器的费用为16.29亿美元，运营费用为9.44亿美元，DeepSeek-V3模型的净算力成本约558万美元。可对比2024年7月Meta发布开源AI模型Llama 3.1，该模型采用了超过1.6万个英伟达H100 GPU，并在包含超过15万亿个tokens的数据集上完成训练，相当于7500亿个单词，可估算其成本超过6000万美元，相比之下Deepseek-V3的训练成本仅不到其十分之一。ReepSeek-V3训练只花了不到十分之一。近年来，美国的人工智能实验室一直在努力提高模型质量，而不是追求价格低廉、速度快且性能好的模型。DeepSeek或许指向一条更具工程化思维的道路，其性能媲美谷歌和OpenAI模型，但开发成本却仅占其一小部分，实现真正的“降本保质”。

（二）以开源和低成本策略推动AI普惠

2018年图灵奖得主、Meta首席科学家杨立昆参加约翰霍普金斯大学的一个讲座时发言称，对DeepSeek崛起的正确解读，应是开源模型正在超越闭源模型。在此之前，开源社区最有力的支柱是Meta的4 000亿参数模型Llama3。尽管Meta祭出4 000亿参数的Llama3试图扛起开源大旗，但其与GPT-4等顶尖闭源模型存在代际差距的现实，曾让技术理想主义者们陷入迷茫。

技术透明化是DeepSeek革命性突破的核心。通过开源6710亿参数的基础模型和独特的知识蒸馏体系，为开发者提供了强大的工具和丰富的资源。其发布的V3/R1模型技术报告分别达到50页和150页的惊人厚度，完整披露了从架构设计到训练技巧的每个技术细节。这份“AI制造说明书”的详尽程度，使得具备同等算力的团队完全能够复现模型性能。开发者社区将其誉为“教科书级的技术披露”，这种开放精神与硅谷巨头们的技术黑箱形成鲜明对比，推动了技术自主性、多样化和个性化的发展。

更具颠覆性的是DeepSeek采用的MIT开源协议。相较于传统开源协议的商业限制，MIT协议允许无保留的二次开发和商业化应用。当OpenAI和Anthropic仍在构筑专利壁垒时，DeepSeek已搭建起全球协作的创新平台——任何开发者都能基于其模型进行微调改进，而企业客户则可直接将其集成到商业产品中。

这种“技术平权”正在引发链式反应。中小型企业首次获得与科技巨头同台竞技的AI能力。正如Linux当年打破操作系统垄断，DeepSeek的开源策略正在人工智能领域掀起一场去中心化的技术革命。当知识壁垒被彻底打破，AI发展的加速度或将超出所有人预期。

二、DeepSeek带来的行业变革

DeepSeek不仅是一场技术革新，更是一次全球AI竞争逻辑的重构。其通过开源生态、效率优化与成本控制，打破欧美闭源垄断，推动技术民主化；同时以工程智慧突破硬件限制，重塑国际社会对中国技术能力的认知。

（一）DeepSeek冲击市场与竞争格局

一是重构全球AI生态，推动行业从“算力军备竞赛”转向效率优化。大模型训练需要“上万加速卡”的论调被打破，DeepSeek以“高性能+低成本+开源”，在数学推理、代码生成等关键指标上媲美GPT-4，例如，DeepSeek-V3在数学竞赛任务（如Math 500测试）中的准确率达90.2%，在代码生成任务中准确率达到95%，显着高于GPT-4的90%。

二是DeepSeek的开源模式打破了闭源模型的商业壁垒。DeepSeek-V3的API服务价格仅为GPT-4的十分之一左右，且支持本地部署与定制开发，能够赋能中小企业和开发者。开源社区（如Hugging Face）围绕其技术形成活跃生态，Meta等企业甚至“逆向借鉴”其架构。此举推动全球AI竞争从“技术封闭垄断”转向“开源生态共建”，加速在医疗诊断、金融分析等垂直领域的应用落地。

（二）Deepseek冲击美国对中国的偏见与盲区

一是冲击美国AI技术霸权。在美国H100芯片禁令下，DeepSeek通过PTX指令集优化、计算单元重分配等底层优化策略，在H800芯片上实现高效训练，仅用2000块H800芯片完成模型开发，远低于欧美企业动辄上万芯片的投入。这一实践证明，中国并非依赖硬件堆砌，而是通过工程创新突破技术封锁，挑战美国“硬件优势即竞争力”的固有认知。

二是冲击美国长期秉持的科技例外论以及与之相伴的排外主义。一方面，是美国狭隘的技术精英论。在美国社会中，存在着一种有害且狭隘的思维定式，使得科技精英们坚信只有他们才能够引领全球科技潮流。另一方面，美国对中国科技发展的认知存在显着的盲区。西方媒体在报道中国科技时，往往过分关注地缘政治博弈，或热衷于探讨国家政策对产业发展的影响。然而，这种片面的视角忽略了一个关键事实：中国科技进步的核心动力源于超过十亿中国人民的智慧与努力。他们不是单纯依赖政府推动，而是凭借自主创新能力，推动着科技的发展。中国科技行业的规模之庞大，市场潜力之巨大，以及国内竞争的激烈程度，都是西方媒体报道中常被忽视的重要维度。这些充满创造力的中国人，才是中国科技生态系统的中流砥柱。

三、DeepSeek面临的挑战

DeepSeek作为中国AI领域的突破性力量，尽管在技术性能、成本控制和开源生态方面取得了显着成就，但其发展仍面临多维度挑战，涉及地缘政治、技术竞争、商业模式及社会认知等多个层面。

（一）地缘政治与技术封锁压力

一是国际禁令与市场准入限制。美国以“国家安全”为由对DeepSeek实施技术封锁，甚至推动立法要求中美在AI领域“脱钩”。韩国等国家也以数据隐私风险为由限制其应用，导致DeepSeek在国际市场拓展受阻。此类政策不仅直接限制其商业落地，还可能引发其他国家效仿，形成连锁反应。

二是硬件供应链的脆弱性。尽管DeepSeek通过算法优化降低了对高端芯片的依赖，但美国对H100等芯片的出口管制仍威胁其长期发展。国产芯片（如华为昇腾）虽在崛起，但性能与生态成熟度尚无法完全替代英伟达产品，硬件自主可控仍是隐忧。

（二）技术竞争与生态博弈

一是国际巨头的技术反制。Deepseek的出现让英伟达股价遭遇重挫，单日内蒸发6000亿美元。在2025年GTC大会上，英伟达推出NVIDIA Blackwell Ultra GPU，并声称已构建帮助 GPU 计算渗透到各行各业的CUDA生态，在NVIDIA Blackwell架构深度优化的NVIDIA开放生态推理开发工具链的支持下，DeepSeek-R1模型的推理性能破世界记录，单用户推理速度超过每秒250个token，峰值吞吐量超过每秒30000个token。这一操作旨在维护英伟达的“算力护城河”，向世界宣称AI推理仍需要大量英伟达GPU和高性能网络，削弱业界对DeepSeek的算法优势的利好预判。同时，OpenAI等企业加速GPT-4模型迭代，将加剧技术竞赛压力。

二是开源生态的可持续性争议。DeepSeek的开源策略虽快速构建了开发者生态，但也面临技术被逆向借鉴的风险。例如，Meta等企业可能基于其架构开发竞争性产品，削弱其技术壁垒。此外，开源模式下存在依赖API服务盈利等商业变现难题，可能限制长期投入能力。

（三）数据隐私与安全问题

一是数据隐私保护及数据安全问题。模型通过反向推断，可能会泄露训练数据中的敏感信息，需要采取技术措施防止模型反向推断，保护数据隐私；在引入新的数据处理活动或技术之前，需要进行数据隐私影响评估，识别潜在的隐私风险；在处理敏感数据时，采用数据匿名化技术，去除或屏蔽个人身份信息，降低数据泄露带来的风险。

二是合规性与法规遵守问题。全球范围内对AI监管趋严，如欧盟的《人工智能法案》等，迫使DeepSeek投入更多资源应对合规审查，增加运营成本。

（四）技术路径与商业模式的平衡

一是硬件-算法协同优化面临极限。DeepSeek通过算法优化显着提升算力效率，但随着模型复杂度增加，边际效益可能递减。需持续突破架构创新，比如在算法设计、硬件支持以及实际应用中，进一步研究动态路由、稀疏激活推动AI架构创新的潜力，以维持优势。

二是面临垂直领域落地碎片化的挑战。尽管Deepseek已在医疗、金融、文旅等领域初步应用，但不同行业的需求差异大，如医疗需高精度诊断，文旅需实时交互等，定制化开发可能稀释其作为通用模型的成本优势。

（五）市场信任与舆论挑战

一是美西方的污名化叙事。美西方媒体一贯企图通过污名化指控打压中企，比如指责DeepSeek“窃取技术”或存在数据安全风险，试图通过舆论战削弱其国际公信力，此类指控虽无实证，但可能影响企业与政府对DeepSeek的采用意愿，尤其是在欧美市场。

二是用户认知与品牌重塑难题。美国科技巨头（如英伟达、谷歌）通过长期积累的品牌优势，仍占据用户心智。DeepSeek需在技术优势之外，强化“高效+普惠”的品牌叙事，以突破既有市场认知惯性。

四、中国AI未来：守得云开见月明

未来，DeepSeek能否突破封锁，不仅取决于技术韧性，更需在品牌叙事、合规策略及生态协同上实现系统性升级。正如光伏、超算等领域的逆袭历史所示，外部压力或将成为催化中国AI“技术韧性”的另类动力。

（一）技术创新

一是面对算力困境，中国应进一步加强算力、存力和运力三者合一。从芯片到集群是一个复杂的技术发展和应用拓展过程，涉及芯片设计、制造、集群架构设计以及应用场景等多个方面，通过统一的大模型技术生态栈解决算力瓶颈，或将成为可行路径之一。

二是创新训练方式，从构架、算法上进行优化，以弥补中国在算力领域的差距。例如，可以尝试通过模型结构选择与调整、模型压缩技术等进行架构优化；尝试通过优化算法选择、超参数调优、分布式训练等进行算法优化。

（二）生态建设

一是品牌叙事，中国AI企业可以以“工程化、高效、普惠”的品牌叙事，突破既有市场认知惯性。

二是生态协同，通过开放合作、技术协同、场景赋能、产学研用一体化，促进产业链上下游协同发展、推动数据共享与开放。并加速应用落地进程，推动AI技术与经济社会的深度融合。

（三）坚定对外开放的决心

开放包容、自由竞争才是促进创新的良方。资本流向受到全球产业发展需求和技术进步的双重影响。面对美国在硬件领域的围堵，中国应继续扩大开放，积极回应国内外对AI的广阔需求。

一是把握国内企业发展机遇，美围堵政策导致各国和各企业寻找“替代方案”的需求增加，而利益和安全是决定资本流向的底层逻辑，意味着资本或可加速中国实现技术突破，完善产业链，扩张国内企业的全球化布局。

二是坚定扩大开放的决心，积极参与全球AI治理，加强联盟合作以及推动AI技术的合法应用，承担大国责任与担当。

曾昭睿：中国银河证券博士后科研工作站博士后

陈经伟：中国社会科学院金融研究所副研究员

原文载于《科技中国》2025年第4期

文章来源于网络。发布者：火星财经，转载请注明出处：https://www.sengcheng.com/article/61507.html

曾昭睿 陈经伟：Deepseek重要里程碑技术改进下的期盼与现实

相关推荐

芝麻工作室与脉驰文化签署中国区室内家庭娱乐中心独家授权协议

玛里亚·帕加内里等：贸易能够带来和平吗？来自亚当·斯密的启示

浩海生命“善食”大模型合规通过生成式人工智能服务备案

2025春节档上映新片总票房突破15亿 三强领跑榜单

疯抢Labubu、药丸变潮牌、与拳王对打的品牌们：这届年轻人正在重新定义北美消费

发表回复

曾昭睿陈经伟：Deepseek重要里程碑技术改进下的期盼与现实

2025春节档上映新片总票房突破15亿三强领跑榜单