谢馨慧 赵燕:加快建设人工智能中文语料库

 

人工智能语料库是大模型训练的基础性资源,其规模和质量对模型的性能起决定性作用,是提高模型准确性和泛化能力的核心驱动力。目前,国际主流大模型训练语料以英文为主,占比超过90%。近年来,国内10亿参数规模以上的大模型数量以及参研单位持续增加,人工智能中文语料库供给量难以满足快速增长的大模型训练需求,部分模型不得不使用外文语料进行训练。然而,外文语料通常以西方价值观为主导,可能包含种族歧视、文化和意识形态偏见等问题。因此,加快建设大规模、高质量人工智能中文语料库势在必行,这是推动我国人工智能领域健康发展、提升国际竞争力的重要支撑。

建设现状

人工智能中文语料库是以中文文本为对象,经系统收集、整理、标注后形成能够用于模型训练的结构化数据集合。它既包含新闻资讯、学术论文等正式文本,也涵盖社交媒体对话、网络评论等非正式语言素材,是帮助模型理解中文语义、语法规则、语义逻辑和句式结构的核心要素。近年来,我国积极推进人工智能中文语料库建设,并取得显着进展。

一是通用语料库和专业领域语料库规模持续扩大。2025年1月,在中央网信办指导下,集成27个数据集、总量达2.7TB的中文互联网语料资源平台正式发布,涵盖基础语料、专业语料和权威出版物样本。中译语通发布的西部AI语料库包含100多种语言,多语言多模态高质量数据达到PB级,内容覆盖农业、科技、金融、工业等领域。上海交通大学研究团队创建涵盖6种语言,包含255亿个token的医学语料库,以提高医疗诊断模型的准确性。

二是技术创新促进人工智能中文语料质量提升。智源研究院发布的中文互联网语料库CCI3.0,从语法、句法、教育程度等维度对原始数据进行分类和标记。DeepSeek-LLM(V1)通过数据去重、过滤和混洗构建了包含约2万亿token的中英双语预训练数据集,DeepSeek-V3通过提高数学和编程样本的比例进一步优化预训练语料库,构建包含14.8万亿token的多语言数据集。

三是人工智能中文语料生态建设持续完善。上海人工智能实验室牵头成立全国首个大模型语料数据联盟。深圳、上海数据交易所支持开设语料交易专区,促进人工智能语料共享和交易。上海启动开源创新生态建设和语料普惠计划,为中小企业提供低成本语料服务,促进跨领域合作与知识技术的共享。此外,《语料库建设导则》《具身智能语料库建设导则》等团体标准已正式实施。

三大难题

尽管国内诸多行业企业、研究机构均已开始布局人工智能中文语料库建设并发布高质量数据集,但相较于Common Crawl等国际领先水平的语料库,人工智能中文语料库在规模、质量和领域覆盖度上仍落后于英文语料库。

人工智能中文语料库收集获取难度高。一是中文语料历史积累薄弱。互联网早期以英文为主导,中文互联网起步较晚,百科知识、专业语料、学术资源等优质中文内容沉淀不足。二是中文语料的数字化程度偏低。中文使用人群庞大,文化典籍丰富,但系统性、机器可读的高质量数字化建设难度高,许多中文语料资源仍以纸质或非结构化形式存在,无法直接用于人工智能模型训练。国家图书馆3700万册藏书中完成深度数字化处理并发布在中华古籍资源库中的古籍数字资源仅有13.9万部。三是中文语料分布分散。中文互联网内容分散于不同社交媒体、新闻网站和论坛平台,高质量中文语料则往往集中在政府机构、学术团体、出版社和头部企业手中,出于版权保护、隐私安全等因素考虑,这些中文语料往往被封闭管理,形成数据壁垒和数据孤岛。

人工智能中文语料库建设规范性不足。一是中文语料来源广泛。网络文本中充斥着大量非正式、低质量甚至错误的内容,导致训练数据的真实性、准确性和逻辑性难以保障。二是缺乏统一的标注标准和清洗规范。不同机构在构建语料库时采用的分词方式、句法结构、语义标注体系各不相同,导致不同语料库之间存在结构差异,难以兼容互通。三是专业领域语料稀缺且标注成本高昂。法律、医学、科技等领域通常依赖人工标注且对标注者专业性要求高。语料标注也易受标注者主观判断影响,而不同标注者的判断标准差异可能影响数据标注的一致性和准确性。此外,随着生成式人工智能广泛应用,其生成内容反向污染训练语料库的现象日益凸显,“幻觉”信息也将进一步降低语料的可信度。

人工智能中文语料库建设机制尚不完善。一是缺乏统一的语料共享与协同机制。语料通常被企业视为核心数据资产和竞争壁垒。由于缺少合理的利益分配机制和版权归属界定,企业出于担心数据外流可能削弱自身竞争优势的考量,共享意愿不足。二是政策引导和法律法规尚不健全。语料涉及版权归属、用户隐私等问题,尽管国家已出台数据安全法、个人信息保护法等相关法规,但在语料方面的具体实施细则仍不明确,法律边界尚不清晰,导致企业在获取和使用语料时存在顾虑。三是尚未形成成熟的语料交易与授权模式。缺乏以市场为导向的语料流通机制和公共服务平台,难以发挥语料资源价值,进一步降低了企业积极性。

破解路径

面对困局,必须打通中文语料“收集——处理——共享”的全链条堵点。

收集层面。在国家层面统筹协调,牵头设立国家级语料库联盟,联合国家图书馆、档案馆、科研机构、重点高校、核心出版社等单位,系统性推进中华典籍、学术文献、政府公开信息、专利数据等重要资源的权威数字化与结构化处理。基于统一的数据标准和规范体系,实现语料的分级分类管理,构建覆盖广泛、结构清晰、质量上乘的国家基础语料资源池,为人工智能发展提供坚实支撑。

处理层面。加大对中文自然语言处理工具的研发投入。研发更精准的中文分词算法,提高分词准确率,利用深度学习技术实现自动去噪去重和标准化处理,降低人工成本。建议由行业协会牵头,联合各方专家制定涵盖语料收集、清洗、标注、存储等环节的统一标准,确保不同来源的语料在处理后具备结构一致性。建立数据质量评估体系,定期对入库语料进行质量检测和修改校验。

共享层面。制定明确的公共数据开放目录与实施细则,加快推动高质量公共数据的开放共享,在保障国家安全和个人隐私的前提下,优先释放科研论文、统计报告、政策法规、历史文化资源等非敏感内容。鼓励科研机构、高校、企业在合规前提下,开放共享高质量中文预训练语料、微调数据集或基准测试集。探索建立安全可控的跨境数据流动“白名单”,充分利用“一带一路”等平台,推动多语言语料资源的流通合作,提升中文在全球数字空间的话语权。

(作者单位:中国电子信息产业发展研究院)

文章来源于网络。发布者:火星财经,转载请注明出处:https://www.sengcheng.com/article/74824.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
火星财经的头像火星财经
上一篇 2025年7月3日 下午8:53
下一篇 2025年7月3日 下午8:56

相关推荐

  • 中央气象台:北方大部晴日多风 6日起较强冷空气来袭

    北方大部分地区近期晴朗多风,2月3日内蒙古中部、山西、北京、天津、河北北部、辽宁西部和东南部、山东半岛及青海、西藏部分地区出现了6~7级阵风,局地达到8~10级。全国大部分地区降水较弱,黑龙江中南部、山东半岛东部等地出现小雪,山东威海局部地区有中到大雪。 预计4日至5日,受补充冷空气影响,北方多晴好大风天气。中央气象台继续发布大风蓝色预警:4日,西藏中北部、…

    2025年2月4日
    16900
  • 中国船舶集团重大资产重组有何深意?推动国有经济优化布局

    中国船舶集团重大资产重组有何深意。继“南北船”整合重组后,中国船舶集团推动了历史上的又一次重大资产重组。1月7日晚间,中国船舶工业股份有限公司发布公告称,国务院国资委等主管部门近日出具了有关批复意见,原则同意公司换股吸收合并中国船舶重工股份有限公司的总体方案。 中国船舶和中国重工均为全球最大造船集团中国船舶集团旗下上市公司。本次重组完成后,中国船舶将成为资产…

    2025年1月20日
    17000
  • 李扬:“稳定币”五议

      本文为中国社会科学院学部委员、国家金融与发展实验室理事长李扬在2025年7月13日深圳香蜜湖国际金融科技研究院和中国数字金融合作论坛联合举办的数字金融闭门研讨会第37期 “人民币稳定币的发展前景”上所作的主题交流,研究院根据发言实录整理,业经作者修定。 大家下午好!很高兴受邀参加今天的研讨会。 今天讨论的主题是稳定币。鉴于我们讨论的对象仍在不断演化之中,…

    2025年7月24日
    10700
  • 广州美博会圆满收官:向上升、向内求、向外走,开创美业新生态

    站在“十四五”收官与“十五五”启航的关键节点,美博会以“开年第一展”,打响美业2025年奋进奔跑的发令枪。就在3月12日,为期3天的万美京·第66届中国(广州)国际美博会在琶洲会展中心圆满落幕。 30万平米超大展览面积,专业院线、供应链、日化电商、美甲美睫、养生健康全线迸发,超3800家参展企业同台亮相,其中既有行业巨头的风采展示,也不乏独角兽企业和瞪羚企业…

    2025年3月13日
    15300
  • 济南文创酒被格乐大学收藏 弘扬圣贤文化

    近日,中国广告创意策划名人肖南昌历时多年精心打造的“齐鲁十二圣贤酒”作为文创产品走进泰国,并被泰国格乐大学永久收藏。 肖南昌随山东高校美术与设计教育联盟访问泰国,参加了中泰建交50周年系列活动——第九届山东高校美术与设计教育联盟研讨会,并出席了“齐鲁十二圣贤酒”的捐赠仪式。泰国教育部前部长、格乐大学校长为肖南昌颁发了“铭志善举”的捐赠证书,承诺全套“齐鲁十二…

    2025年2月13日
    16500

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信