通过思维链看懂DeepSeek为何强低成本高效率的AI革新

中国人工智能实验室DeepSeek推出的人工智能语言模型R1引起了巨大反响。它在所有应用商店榜单上超越了美国的竞争对手ChatGPT，触发科技股市高达1万亿美元的抛售，并在硅谷引发末日般的评论。美国知名风险投资家马克·安德森将R1的发布誉为全球人工智能发展竞赛中的“斯普特尼克时刻”，比肩当年苏联通过发射卫星而令冷战对手美国震惊的历史性事件。

通过思维链看懂DeepSeek为何强

英伟达作为为AI模型提供支持的领先计算机芯片制造商，股价暴跌17%，市值蒸发近6000亿美元，跌幅创美国股市最高纪录。谷歌母公司损失了1000亿美元，微软损失了70亿美元。美国总统唐纳德·特朗普表示，DeepSeek应该成为“美国行业的警钟，我们需要全力以赴，专注于竞争以取得胜利”。

通过思维链看懂DeepSeek为何强低成本高效率的AI革新

根据DeepSeek的说法，其R1模型在“各种基准测试”中表现优于OpenAI的o1-mini模型，Artificial Analysis的研究也表明，R1模型在整体质量方面超越了谷歌、Meta和Anthropic开发的模型。业界的震动不仅源于质量的高低，还在于DeepSeek声称仅花费不到600万美元就训练出了一款可与ChatGPT媲美的人工智能模型。相比之下，OpenAI的主要合作伙伴微软计划今年在人工智能基础设施上投入约800亿美元。

R1是一种“思维链”模型，这意味着当你给它一个查询时，它会通过自我推理来给出答案。反复测试表明，DeepSeek-R1在解决数学和科学问题方面的能力与OpenAI于2024年9月在旧金山发布的o1模型相当。R1不仅可以直接与o1进行比较，还增强了自身回答数学和编程问题的能力，这些能力在AI专家中被高度重视。不仅如此，R1在语言处理和自然语言推理任务中的表现也令人印象深刻，适用于更广泛的应用。

R1还更具可访问性。它不仅通过应用程序免费提供使用（而OpenAI的o1则需要每月支付20美元），而且对于开发者来说完全免费，可以下载并集成到他们的业务中。这鼓励更多科学家在日常研究中尝试使用大语言模型，而无需担心成本问题。此外，R1的开放性可能会给科学研究带来颠覆性的变化：研究人员可以通过其应用程序接口（API）使用该模型，或者通过在线聊天机器人DeepThink免费查询。他们还可以将该模型下载到自己的服务器上，免费运行并在此基础上进行开发。

从人工智能研究的角度来看，DeepSeek展示了一种改进无数其他模型的方法。它通过使模型构建变得更便宜、更快速、更易于获取，代表了全球AI的重大进展。虽然LLM并不是通向先进AI的唯一途径，但DeepSeek的创新当得起“AI里程碑”的美誉。

Anthropic的联合创始人杰克·克拉克表示，该公司的模型Claude也受到启发。“现在互联网上出现了一个开放权重的模型，任何足够强大的基础模型都可以通过它引导成为一个AI推理器，”他在新闻简报Import AI中写道，“全球的AI能力刚刚实现了一次不可逆的进步。”

DeepSeek在构建其R1模型时的重大创新是摒弃了人工反馈，设计算法来识别并纠正自身的错误。研究人员写道：“DeepSeekR1-Zero展示了自我验证、反思和生成长链推理等能力……值得注意的是，这是首次通过强化学习验证大规模语言模型的推理能力可以仅通过这种方式进行激励。”

R1的创建方法削弱了硅谷目前的AI发展方式。美国主导的方式是通过简单地增加更多的数据和计算能力来扩展现有模型，以实现更高的性能。这种方法导致了该行业能源需求的巨大增加，并使科技公司与政客紧密相连。特朗普提到他一直在“阅读有关中国DeepSeek”及其公司的内容，特别是一家提出了“更快且更低成本的人工智能方法”的公司。“这很好，因为你不需要花费那么多钱。我将其视为一种积极的因素，一种资产，”特朗普表示。

市场对旧AI发展方式受到的冲击反应迅速且猛烈。《金融时报》报道称，对冲基金Elliott Management在一份致投资者的通知中表示，人工智能被“过度炒作”，而作为这一热潮的大赢家之一的英伟达正处于一个“泡沫”之中。随着DeepSeek的崛起，科技公司可能会开始质疑是否还需要像以前那样大量购买英伟达的工具。

从长远来看，AI领域的新竞争者对英伟达来说，会是个好消息吗？其他公司在AI军备竞赛中投入的计算能力是否代表了浪费的资金？通过开发出一个与美国同行相匹敌、在许多方面超越它们的AI模型，DeepSeek挑战了硅谷的故事，即技术创新需要庞大的资源和最小的监管。

DeepSeek做了什么是财力雄厚的OpenAI没有做到的呢？很难确定答案，因为OpenAI对其GPT-o1模型的训练过程一直非常保密。不过，两家公司在方法上的一些明显差异，以及DeepSeek似乎在某些领域取得的令人印象深刻的突破，都值得关注。可能最大的差异在于DeepSeek能以远高于其规模对手的效率创造出竞争模型。

OpenAI能否转向高效？当然可以。但其与微软的合作伙伴关系和问题重重的领导结构可能使这种转变昂贵得多。该公司深度整合了微软的Azure基础设施，曾经看似是战略优势，现在看起来越来越像一种负担。虽然OpenAI一直在推动客户转向微软庞大的数据中心，但市场正在发现一条不同的道路：高效的开源AI模型，可以在明显更便宜的基础设施上运行。

近年来，OpenAI通过将现有的机器学习算法扩展到前所未有的规模，在语言处理领域实现了一系列令人瞩目的突破。然而，早在2023年4月，公司CEO山姆·阿尔特曼就表示，进一步的进展不会来自于模型规模的继续扩大。他认为，巨型模型时代的尽头已经到来，未来将以其他方式改进它们。

不过这并不妨碍包括Anthropic、AI21、Cohere和Character.AI在内的许多资金充裕的初创公司，投入巨大的资源，致力于构建越来越大的算法，试图赶上OpenAI的技术。直到DeepSeek出现的时刻。R1颠覆了“扩展是前进之路”的普遍认知。据认为，R1的开发成本比OpenAI的o1便宜95%，而且仅使用了Meta的Llama 3.1模型十分之一的计算能力。能够以极小的预算实现等效的性能，才是R1令人震惊之处，这也是它发布后产生巨大影响的原因。

DeepSeek粉碎了“AI霸主地位需要亿万美元支票”的神话。更进一步地，DeepSeek的发展引发了对AI基础设施（如芯片）重大投资必要性的质疑，并对美国科技公司在AI领域的市场领先地位产生了影响。美国投资银行高盛的分析师在2024年6月发布了一份题为《生成式AI：过多的支出，过少的收益？》的报告，敲响了AI投资的警钟。该报告质疑未来几年内对AI的1万亿美元投资是否“值得”，并表达了对投资回报的担忧，而这种担忧现在被DeepSeek的案例所加剧。

短期来看，这对英伟达来说是个坏消息，因为它将抑制需求。然而，从长期来看，较低的成本（以及因此而降低的能耗）将为更多的初创企业和企业提供创建模型的机会，从而增加整体需求。这进一步验证了一个事实：仅依靠提供核心AI基础模型的供应商是不够的，此一颠覆性转变将进一步打开AI模型市场的大门。

所有这一切都意味着R1发布的确切影响是无法预测的。涉及的因素太复杂，未知数太多，无法确定未来会怎样。然而，这并没有阻止科技界和市场的疯狂反应。可以确定的是，实现下一个层次的人工智能仍然需要大量的计算资源。推动我们迈向下一个里程碑的因素仍然不确定——是规模、数据、微调、强化学习，还是完全不同的其他因素。DeepSeek目前代表了我们所知道的最先进技术，但它并不是下一个层次的人工智能。

DeepSeek R1代表了人工智能发展中的一个重要里程碑。AI行业现在正处于十字路口：通往AI主导地位的道路可能不再是由庞大的数据中心和巨额预算铺就，而是通过优雅的算法和无情的高效性，最终将人工智能从象牙塔带入到大众手中。在接受中国媒体采访时，梁文锋表示：“AI应该是人人都能负担得起并可获取的。”这一点，就是DeepSeek的最大意义之所在。

责任编辑：张佳鑫 0764

文章来源于网络。发布者：火星财经，转载请注明出处：https://www.sengcheng.com/article/28353.html