刘庆峰：推动我国大模型技术与产业发展迈向自主可控

随着人工智能的快速发展，大模型技术已成为当今人工智能领域的热门话题。2022年底以来，认知大模型掀起通用人工智能的全新热潮，其历史意义被认为“不亚于PC和互联网的诞生”。2024年12月底，深度求索公司先后发布DeepSeek V3和DeepSeek R1大模型，并快速“出圈”，提升了我国在全球人工智能领域的影响力，引发国内外广泛关注，在全球范围掀起又一轮大模型发展浪潮。鉴于此，梳理大模型技术的进展和产业发展现状，剖析其面临的困难挑战以及未来发展趋势，并找到针对性的对策，有助于我们全面深入地掌握大模型这一前沿领域，加快推动我国大模型技术与产业的发展迈上新台阶。

大模型技术及产业发展现状

2017年，Google提出Transformer架构，成为大模型领域主流算法基础。次年，OpenAI发布GPT-1、Google推出BERT，预训练大模型由此成为自然语言处理主流。此后，AI大模型技术不断突破。2020年起，OpenAI陆续推出GPT-3、GPT-3.5、GPT-4，AI能力多轮提升。至2024年，全球大模型井喷式发展。OpenAI发布的文生视频Sora模型，推动大模型技术向语音、视觉等多模态及学科交叉方向拓展；随后推出的GPT-4o能够实时处理多类型信息，显着提升了人机对话响应速度；发布的o1-Preview大模型则大幅提高了复杂推理能力。同年末，又推出了o1 pro、o3等新一代推理大模型，向通用人工智能进一步迈进。在国内，众多公司以及高校和科研机构均加大投入，发布众多通用大模型，形成了“百花齐放”的景象。例如，百度的“文心一言”、阿里的“通义千问”、字节跳动的“豆包”以及科大讯飞的“讯飞星火”，特别是深度求索公司发布的DeepSeek V3和DeepSeek R1大模型，通过打破传统的“算力竞赛”规则并完全开源，成为国内的一个里程碑事件。

在产业应用方面，国外微软、谷歌等大厂积极探索企业级服务商业化路径，加快产业落地。微软先后把ChatGPT/GPT-4能力融入Bing搜索引擎、Office全家桶、Azure云服务和Teams程序等，推出Microsoft 365 Copilot，显着提升Office生产力与交互体验。OpenAI借助插件接入互联网，能调用各类APP、解决复杂任务，甚至被美国国防部、NASA等政府机构用于情报分析、军事战略规划等领域。随着我国新基建、新经济推进，众多团队加速大模型场景创新应用。如在教育领域，大模型赋能智慧课堂、个性化学习等，助力教育公平与教学质量提升；在医疗领域，大模型全方位提升“医、教、研、管”各环节诊疗水平。此外，在金融、工业、政府、科研、电商、文旅、司法等其他领域，大模型也得到广泛应用，为各行业发展注入新的动力。通过融合DeepSeek等深度搜索技术的优势，国内团队也在不断探索如何进一步提升大模型在特定应用场景下的信息检索与处理能力，以满足更加复杂多样的用户需求。

面临的困难和挑战

尽管大模型技术及其产业生态已取得阶段性显着成果，但其发展之路仍布满复杂且亟待解决的难题与挑战。

国产大模型的创新升级在较大程度上依赖于国外的先进算力。当前国产算力软件系统的生态还不成熟，每一次大模型算法创新，都需要额外投入数月的时间来进行大量的国产适配移植和效率优化工作。此外，国产大模型训练高度依赖进口算力，除个别模型外，多数可下载的大模型均基于英伟达卡训练。考虑到未来我国获取英伟达先进制程算力资源的渠道可能会进一步受限，若不能尽快解决国产自主可控人工智能产业生态薄弱、适配困难等问题，我们或将面临“在他国基石上构筑高楼”的困境。

国产大模型在落地应用生态方面缺乏成熟有效的工具链体系支持。尽管国家已出台多项政策措施，鼓励和支持基于国产硬件开展大模型的落地应用，但大模型在实际行业应用中需要语言、语音及多模态等多个大模型的组合创新，同时还需要针对行业/私域知识和特定场景任务进行定制优化，这迫切需要成熟、高效且易用的工具链体系来支撑。然而，当前国产落地工具链体系的缺失和不足，正严重制约大模型在行业中的广泛、快速应用，以及创新创业生态的构建和发展。

人工智能生成的虚假信息泛滥正在威胁网络信息安全。在技术机理上，现行人工智能系统主要依托深度神经网络架构进行统计建模，这种数据驱动范式导致模型存在知识记忆模糊、幻觉等问题。以OpenAI发布的GPT-4.5为例，虽将幻觉发生率较GPT-4o降低40%，但在SimpleQA基准测试中仍高达37.1%。随着具备长思维链的推理模型用户增多，由于推理模型在生成内容逻辑自洽性、结构严谨性方面的优势，幻觉数据会变得更具迷惑性和欺骗性。普通民众对AI技术了解不足，极易将算法输出的幻觉数据误判为真实可信信息。更严峻的是，这些带算法偏差的虚假信息会被迭代训练的新一代AI系统重新学习，并通过搜索引擎等渠道指数级扩散，最终形成“数据污染—算法吸收—再污染”的恶性循环。

通用大模型技术的发展趋势及应对策略

当前大模型性能的上限天花板在不断地被抬高，大模型训练和推理的成本也实现了成倍的降低，预示着大模型的赋能价值和产业规模都有了更大的发展空间。面对上述困难和挑战，我们需时刻保持敬畏之心，紧跟大模型发展趋势，尽快实现我国大模型核心技术突破，全方位推动大模型落地。

一是加大并保持对通用大模型底座“主战场”的持续投入。我国通用人工智能战略的实施，可以围绕以下几个核心目标展开。其一，确保以中英文为代表的通用底座大模型能力持续追赶并努力对标国际最高水平；其二，在示范行业应用的效果和落地价值形成赶超优势；其三，加大多语种大模型的研发力度，积极在海外布局大模型推广，为世界提供多样化的选择。对此，可以采取以下措施：建立全国性的计算资源共享及调度平台，统筹调配算力资源，并加快制定算力资源的合理分配、获取、使用和监管政策。支持开展创新算法及核心技术研究，探索大模型高效并行训练技术，以及逻辑和知识推理、指令学习、人类意图对齐等调优方法。深入研究基于增量预训练的行业大模型训练技术、多源异构行业知识检索等关键技术，并结合教育、医疗、金融、司法等应用场景，设计适合特定垂直领域的算法架构。

二是加快构建国产算力平台上的自主可控大模型及产业生态。近期，DeepSeek的推出引发了国际社会对我国人工智能发展的高度关注，未来可能会面临对人工智能芯片、存储、计算架构等技术要素的更严格限制，国产自主可控比以往任何时候都更加迫切。为此，我们要鼓励基于自主可控国产算力平台的大模型研发和应用，加速基于国产算力的大模型算法创新。鼓励国有企业尤其是央企优先采购基于国产算力平台研发的全栈自主可控大模型。加快推进面向教育、医疗、工业、科研等领域的国家人工智能行业应用基地建设，推动国产大模型在各基地落地应用，持续形成迭代“数据飞轮”。鼓励依托自主可控算力底座建立的大模型开发者生态发展和开源社区建设，通过专项支持加快形成国产大模型生态体系和工具链，加速我国自主可控人工智能产业生态发展。支持全国产化大模型“线上”开放平台建设，推动国产化大模型能力和工具开放共享，降低中小企业国产化开发门槛。

三是构建预防大模型幻觉数据泛滥的专项治理体系。幻觉数据不仅影响AI行业的深度应用，更危及互联网和数字经济时代的社会安全。为此，应建立针对不同可信度和危害程度的数据标签体系，搭建分层分类的数据信息可信等级认证与溯源体系，为公众提供安全可靠的信息和知识来源。定期清理幻觉数据，及时澄清重大事件真相，降低舆情风险和社会危害。推动国家级高质量训练数据的开放和共享，为AI模型训练提供优质的数据集和知识检索增强信源。重点攻克深度推理模型的长思维链幻觉治理难题，确保思考推理过程及结果的可信可溯源，特别是在教育、医疗、安全等高敏感行业，研发专业思维链融合和行业知识数据增强等技术。同时，组织研发AIGC幻觉治理与数据安全防护技术及平台，突破幻觉自动分析、AIGC深度鉴伪、虚假信息检测、有害内容识别以及互联网传播溯源等关键技术。此外，构建公众可用的AIGC幻觉信息检测工具与服务平台。

四是加快出台更加客观、公正、可信的评测方法。目前业界大模型缺乏有公信力、标准化的科学方法评测体系，构建和制定全面、科学、权威的大模型质量评测体系，规范评测乱象，对牵引和推动行业应用更良性发展具有重要意义。因此，要加快构建涵盖文本生成、语言理解、知识问答、逻辑推理等多维能力的认知大模型测评体系。联合国家级权威机构和行业龙头企业等组织，共同发布具有公信力的行业大模型评测标准和应用指南，指导各行业甄别和选型大模型。科学认识大模型能力的边界，以更少的算力、更高的效率打造专属模型和专属应用。支持大模型朝通专结合的方向发展，强化云边端一体化+软硬件一体化，用更小的算力作出相对更优的效果。

五是坚持源头核心技术系统性创新，在战略性、前瞻性的基础研究领域做好布局。重点布局大模型的宽基础研究，力求在大模型能力涌现机理、可信训练推理、强化学习技术、自主学习技术等方面形成突破。加强脑科学与类脑智能、量子计算等领域与人工智能关键研究的协同攻关，形成交叉学科的突破性研究。促进通用人工智能和各科学领域的交叉融合，打造AI for Science的科研新范式，研究基于科学数据的AI建模和科学知识提取技术，助力科研人员更高效地进行科学研究和探索。在生命科学、化学、制药、物理、材料等多个科研领域，引入人工智能通识课，培养一批具备专业科研能力和高水平通用人工智能理解能力的人才，为可能涌现的交叉学科重大突破作储备。

六是加速通用人工智能技术相关的法律法规制定与审议。全世界都在呼吁人工智能技术的设计、开发、应用要以维护人类安全、隐私、利益为初衷，但现行法律法规在面对人工智能技术引发的伦理等问题时，往往难以对法律责任进行合理评判。大模型的可信度、可解释性是未来发展的重要方向，为此可以从当前人工智能技术应用过程中的人工智能事故责任中划分出伦理问题、人工智能后台数据泄露问题、人工智能技术滥用问题、大数据平台的漏洞问题和着作权保护等细分问题，并着手制定相应的法律法规。鼓励企业和研究机构开展数据隐私保护技术的研发和应用，提高数据的安全性和隐私性。鼓励企业创新内容安全审核算法，以更优的人工智能初步筛查构建高效、准确的审核流程体系。

（作者系语音及语言信息处理国家工程研究中心主任、科大讯飞股份有限公司董事长）

文章来源于网络。发布者：火星财经，转载请注明出处：https://www.sengcheng.com/article/38718.html