顾男飞:从ChatGPT到DeepSeek:人工智能技术突破及其风险梳理

目次

一、DeepSeek的迅猛发展与面临的挑战

二、从ChatGPT到DeepSeek的技术突破

三、DeepSeek应用和技术出海的风险梳理

四、结语

一、DeepSeek的迅猛发展与面临的挑战

2025年1月20日,杭州深度求索公司发布最新人工智能产品DeepSeek-R1并正式开源,在极短时间引发了世界热议,且下载量超越上任明星产品ChatGPT。相较ChatGPT通过巨量数据和充沛算力实现的智能涌现,DeepSeek走出了一条依靠算法创新的大模型发展道路,即是一款通过纯强化学习(RL)训练的模型,其核心创新在于完全摒弃人工干预的监督微调(SFT),并展现出卓越推理能力,可以与ChatGPT-o1-1217媲美。[1]通过算法优化与硬件协同设计,DeepSeek将训练成本降低至同性能模型1/10,显着推动产业应用。2025年1月31日,英伟达宣布使用DeepSeek-R1并表示其推理能力“最先进”,[2]同时,微软也在其AI平台推出了DeepSeek-R1且表示其“经过了严格的红队和安全评估,包括模型行为的自动评估和广泛的安全审查,以降低潜在风险”,亚马逊也宣布部署DeepSeek-R1。[3]这标志我国在人工智能领域正从“跟随者”正不断向“引领者”转变。

除了高端显卡禁运外,也需注意域外国家的网络攻击和法律制裁。一方面,2025年1月28日,DeepSeek官网显示线上服务受到大规模的海外恶意攻击,从最初的HTTP代理攻击发展至应用层攻击,甚至对注册和访问造成了影响。[4]另一方面,以美国和意大利为代表的域外国家正通过国家安全审查和个人隐私保护来限制DeepSeek的使用,比如2025年1月29日美国白宫新闻秘书表示美国官员正在研究中国爆款AI应用DeepSeek对美国国家安全造成的影响,并涉嫌盗窃知识产权;在同一天,DeepSeek应意大利隐私监管机构Garante要求下架该地区的应用,澳大利亚和爱尔兰也正进行审查,将来可能有更多国家加入审查。[5]

虽然法律是滞后于技术发展的,但我国当前在中央和地方层面都在推动人工智能(产业)立法工作,国内企业出海也面临着严格合规要求。为更好应对技术挑战,需在明确技术原理基础上梳理存在的法律风险,而后加以系统应对。

二、从ChatGPT到DeepSeek的技术突破

虽然都是使用Transformer作为底层技术,但DeepSeek将结构化知识直接融入模型架构以提升语义理解水平,同时仅使用强化学习(RL)算法推动模型的自我训练和提升,并能联网进行实时检索,而这显着区别于ChatGPT使用的生成式预训练和人类反馈强化学习(RLHF)算法。同时,DeepSeek也清晰展示了思考过程和数据源,以便于更为准确的纠错,生成更准确的答案。为更清晰展示DeepSeek相较ChatGPT的技术突破,通过与DeepSeek的对谈生成了技术架构、训练数据、算法技术以及性能指标四方面的区别内容,并且通过其生成的代码制作如下的思维导图,整个过程耗时不到30分钟,具体内容可见图1。

顾男飞:从ChatGPT到DeepSeek:人工智能技术突破及其风险梳理

第一,在技术架构层面,ChatGPT基于标准Transformer解码器,而DeepSeek引入动态稀疏注意力机制,通过自适应选择关键注意力头,减少冗余计算,提升长文本处理效率。同时采用混合专家模型(MoE)架构,在保持参数量可控的前提下扩展模型容量。第二,在训练数据层面,DeepSeek突破单一文本模态限制,构建万亿级多模态语料库,涵盖文本、代码、数学符号及科学图表。通过引入知识密度加权采样,提升专业领域数据权重(如学术论文占比达15%),显着增强逻辑推理能力。第三,在核心技术层面,在ChatGPT的RLHF基础上,DeepSeek开发多目标强化学习框架,同步优化事实准确性(FactScore提升23%)、逻辑连贯性(LogicBench得分+18%)和道德合规性。创新性提出自演进提示工程,使模型能动态优化用户指令理解。第四,在性能指标层面,相比ChatGPT,DeepSeek在保持175B参数规模下,实现推理速度提升40%(达320 tokens/秒),长文本生成一致性提高35%(通过100k token连贯性测试),并在权威评测MMLU中取得89.7分(ChatGPT为86.4),尤其在STEM领域准确率突破92%。[6]

而通过DeepSeek官方发布的论文来看,其技术突破主要包括通过强化学习提升大型语言模型的推理能力(DeepSeek-R1),优化了推理能力,并不再需要人工干预的监督数据;通过激活少量专家网络来实现高效计算,平衡模型性能和算力成本(DeepSeek-V3);秉承长期主义,通过开源来推动大语言模型的快速迭代(DeepSeek-LLM)。[7]不仅在技术层面,DeepSeek的开源和OpenAI的闭源形成鲜明对比,而开源对促进技术创新具有重要价值。

三、DeepSeek应用和技术出海的风险梳理

DeepSeek的技术突破不仅降低了研发门槛并促进技术普及,也可能加剧法律风险外溢。特别是在域外国家的制裁下,当前在人工智能三要素之数据、算法以及算力层面出现了较大风险,以及应用层面的个人隐私保护,处理不慎将会严重威胁我国人工智能的技术发展。亟待落实安全合规要求并细致应对外部监管。

(一)数据层面所涉及的知识产权和个人隐私风险

其一,涉及数据来源可能存在未经授权的数据抓取行为。比如2023年12月《纽约时报》对OpenAI和微软公司提起诉讼,指控其未经授权使用该媒体数以百万计的文章用于训练模型。[8]类似地,如果DeepSeek在模型训练中使用了未经授权的数据,也可能面临类似的法律风险。

其二,涉及AI蒸馏(AI Distillation)对既有模型输出内容的学习可能涉及侵权。关于这点,郑友德教授进行了系统论述并指出:“尽管蒸馏技术在技术上具有创新性,但其使用也引发了法律和伦理上的争议。特别是在未经授权的情况下使用其他公司的模型进行蒸馏,可能会侵犯知识产权,并引发法律纠纷。”[9]单同时需指出的是,DeepSeek-R1遵循MIT License,允许用户通过蒸馏技术借助 R1训练其他模型,即基于宽松的开源软件许可证允许用户在几乎没有任何限制的情况下使用、修改和分发软件,这是否是一种行业惯例?当然,这可能也涉及技术滥用和不正当竞争,需要从更系统的层面进行分析。

其三,涉及模型训练和用户使用中的个人隐私风险。关于这点学界进行了系统的论述,在此不加赘述,但尤其需要关注其中的数据跨国传输问题,这也是DeepSeek在意大利下架应用的直接原因。当前我国人工智能产业发展迅速,大批企业具有出海需求,而欧盟正通过严格执法将隐私保护转化为技术贸易壁垒,即“许多非欧盟AI企业因合规成本过高而被迫退出,这实质上是数字主权的延 伸。”而这也“折射出全球AI产业从技术竞争向规则竞争演变的趋势。”[10]

(二)算法层面的技术细节透明并不代表可控

算法透明和安全可控作为算法监管要求,也是各国形成共识的人工智能监管要求。比如欧盟在2019年4月发布的《可信人工智能伦理指南》《算法的可问责和透明的治理框架》以及2024年5月正式通过的《人工智能法案》;美国2020年1月所颁布的《人工智能应用的监管指南》和2023年10月《关于安全、可靠、值得信赖地开发和使用人工智能的行政命令》;联合国大会也于2024年3月通过《抓住安全、可靠和值得信赖的人工智能系统带来的机遇,促进可持续发展》决议,其中多次强调可控监管要求,并平衡好安全和创新。

自2017年人工智能被首次写入我国政府工作报告后,人工智能的监管政策迎来井喷,进一步强调安全与可靠。比如2019年6月出台的《新一代人工智能治理原则——发展负责任的人工智能》就规定了安全可控和开放协作等八项治理原则;2023年7月出台的《生成式人工智能服务管理暂行办法》也规定:“提升生成式人工智能服务的透明度,提高生成内容的准确性和可靠性。”2024年《政府工作报告》更进一步提出要“推动治理模式向事前预防转型”,提高安全保障能力。

尽管DeepSeek开源了架构细节,但其决策逻辑仍具黑箱特性,特别是该项技术是通过强化学习训练而成的,开发者无法完全理解推理路径当然无法进行有效控制。关联到核心技术层面,在ChatGPT的RLHF基础上,DeepSeek开发多目标强化学习框架,同步优化事实准确性(FactScore提升23%)、逻辑连贯性(LogicBench得分+18%)和道德合规性,但是这并不能保证研发人员对算法运行的完全可控。早在2024年6月,Anthropic联合牛津大学研究首次发现大模型会进行规范规避(Specification Gaming)和奖励篡改(Reward Tampering),由此实现来欺骗人类用户,而研发者难以进行有效干预。[11]而这尚且是使用包括人工干预的监督微调(SFT),当完全使用强化学习进行模型训练后,研发者对算法的控制程度将进一步降低,并由此放大人工智能风险。

(三)算力层面显卡禁用面临的国家安全审查

美国近年来频繁对人工智能相关技术进行国家安全审查,并以国家安全为由对高端显卡进行“禁运”,严重束缚我国人工智能产业发展。如果DeepSeek等企业或研究机构在没有获得许可情况下进口或使用受限制的A100、H100显卡等高端芯片,可能会面临美国出口管制法规的制裁。在此背景下,我国企业可能会通过第三方国家中转进口受限制的芯片,或者使用低端芯片,比如DeepSeek-V3的整个训练就在2048块英伟达H800 GPU集群上完成,仅花费约557.6万美元,不到其他顶尖模型训练成本的十分之一,但是也面临美国芯片调查。[12]

缺乏高端芯片将导致大模型训练的效率下降和成本上升,并可能牺牲模型的性能上限,长期来看将削弱国际竞争力。同时,由于芯片架构对于技术开发影响显着,比如苹果从英特尔芯片向M系列芯片的应用迁移,将进一步提升技术的迁移成本,并增加运营的复杂度。虽然当前以DeepSeek为代表的国内人工智能企业通过AI蒸馏等技术提升了芯片利用率并使用非受限的中段芯片,但这并非长远之机,尤其是人工智能技术的快速迭代,需要尽快打破“芯片封锁”。

四、结语

作为颠覆性技术和新质生产力的人工智能,在大国竞争的背景下应秉承促进态度。这在《生成式人工智能服务管理暂行办法》第一条立法目标中也得到肯认,而且据统计,在我国人工智能政策中,含人工智能促进和治理的政策数量分别占比为14.29%与11.43%,[13]是促进多于治理的。但为规制风险的扩大,避免超级人工智能的不可控,需贯彻落实党的的二十大三中全会要求“加强网络安全体制建设,建立人工智能安全监管制度”之要求,[14]针对性解决模型安全和运营合规等问题。从而实现既释放技术红利,又守住风险底线之目标,平衡好安全与创新。

 

参考文献

[1] DeepSeek-AI, DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning, arXiv (Jan. 22, 2025), https://arxiv.org/pdf/2501.12948.

[2]《爆料!英伟达宣布使用DeepSeek》,载微信公众号“5G与6G”,2025年1月31日。

[3]《进击的DeepSeek,一夜之间登陆Microsoft Azure、Cursor、Amazon Bedrock》,载微信公众号“机器之心”,2025年1月31日。

[4]范佳来:《DeepSeek遭受大量海外攻击,奇安信:面临前所未有安全考验,攻击将持续》,载澎湃新闻2025年1月29日,https://www.thepaper.cn/newsDetail_forward_30058949。

[5]《意大利下架中国人工智能应用DeepSeek》,载微信公众号“环球法务”,2025年1月30日。

[6]本部分由DeepSeek直接生成,官网地址为https://chat.deepseek.com。

[7]《DeepSeek最重要的三篇论文解读》,载新浪财经2025年1月29日,https://baijiahao.baidu.com/s?id=1822587824414386418&wfr=spider&for=pc。

[8]《没谈拢!《纽约时报》起诉OpenAI》,载光明网2024年1月4日,https://digital.gmw.cn/2024-01/04/content_37071876.htm。

[9]郑友德:《OpenAI 指控DeepSeek作弊,AI蒸馏成焦点》,载微信公众号“知产前沿”,2025年1月30日。

[10]边雪:《OpenAI指控DeepSeek“违规蒸馏”AI竞赛进入“规则制高点”争夺时代?|科技圆桌派》,载封面新闻2025年1月31日,https://baijiahao.baidu.com/s?id=1822747910216708152&wfr=spider&for=pc。

[11]Carson Denison, Monte MacDiarmid, Sycophancy to Subterfuge: Investigating Reward Tampering in Language Models, arXiv (Jun. 29, 2024), https://arxiv.org/pdf/2406.10162.

[12]钛媒体:《爆火的DeepSeek可能引发美国芯片调查》,载新浪财经2025年1月26日,https://baijiahao.baidu.com/s?id=1822574603899387977&wfr=spider&for=pc。

[13]李昕,匡广思:《70部人工智能政策解读:产业侧重和方向差异》,载零壹财经2023年7月26日,https://baijiahao.baidu.com/s?id=1772495511165823639&wfr=spider&for=pc。

[14]《中共中央关于进一步全面深化改革 推进中国式现代化的决定》,载《人民日报》2024年7月22日,第1版。

文章来源于网络。发布者:火星财经,转载请注明出处:https://www.sengcheng.com/article/17243.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
火星财经的头像火星财经
上一篇 2025年2月2日 上午9:41
下一篇 2025年2月2日 上午9:42

相关推荐

  • DeepSeek再发布新模型 Janus-Pro显著提升多模态能力

    1月28日凌晨,人工智能社区Hugging Face上发布了开源多模态AI模型Janus-Pro。作为Janus的高级版本,Janus-Pro采用了优化的训练策略,扩展了训练数据,并且拥有更大的模型规模。这些改进让Janus-Pro在多模态理解和文本到图像的指令跟踪能力方面有了显著提升,同时也增强了文本到图像生成的稳定性。该系列包括7B和1.5B参数量的两个…

    2025年1月29日
    14600
  • 印媒称1岁男童咬死眼镜蛇奇迹生还 网友质疑造神

    7月27日消息,据印媒报道,近日,印度比哈尔邦贝蒂亚县发生了一起令人震惊的事件:一名一岁男孩在家玩耍时误将一条眼镜蛇当作玩具撕咬,导致蛇当场死亡,而男孩却幸免于难。 据其奶奶介绍,事发当地时间7月25日下午,当时这名名叫戈文达的幼儿正在家中玩耍。 一条0.6米长的眼镜蛇闯入了家中,当时孩子误把它当作玩具捡了起来。 然后他咬了眼镜蛇,把这条蛇撕成两半,蛇当场死…

    2025年7月27日
    15700
  • 美国药价为何是欧洲的5-10倍?聊聊美国药价之困与制药公司崛起的秘密

    同样的药,在美国的售价为何是欧洲的5-10倍?这也是美国民众长期以来的质疑。 今年5月12日,特朗普签署行政命令,要求主要药品价格立即降低30%-80%。然而,戏剧性的一幕随之发生:由于该命令缺乏明确的落地方案,多家大型药企当日股价不降反升。 美国医药行业的定价乱象由来已久,不仅长期饱受舆论诟病,更成为历届政府难以回避的核心议题,而美国法律为何限制政府与药企…

    2025年7月24日
    17400
  • 净亏损2.3亿,低空经济“一哥”也得过苦日子

    或许不少人都曾想象过打“飞的”的场景:不用堵车、不用频繁换乘公共交通,只需要很短时间就能在一座城市里穿梭而行。 随着汽车价格不断下探、汽车保有量连年走高,探索空域场景,已经成为创业公司追求的新目标。 低空经济,“天空之城”。 这些曾经幼年时的科幻场景,一定程度上已经照进了现实。 6月6日,中国互联网协会发布通知称,拟成立低空经济工作委员会,并面向全社会公开招…

    2025年6月20日
    15700
  • SiC开始加速批量上车

    在新能源汽车技术的演进历程中,碳化硅(SiC)技术已成为推动行业发展的关键力量。作为第三代半导体的代表材料,SiC 凭借其卓越的性能优势,已深度融入新能源汽车的核心系统,开启了新能源汽车性能提升与技术创新的新篇章。 从高端豪华车型到大众普及款,从纯电动到混合动力,SiC 技术的应用范围不断拓展,正以前所未有的速度实现批量上车,重塑新能源汽车的技术格局与市场竞…

    2025年5月10日
    13800

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信