林焕泽 范常喜:大语言模型与战国文字研究

 

人工智能辅助古文字研究,是学科未来的发展趋势,目前已涌现不少成果,如甲骨缀合产品“缀多多”“知微缀”、铜器断代产品“吉金识辨”等。在战国文字研究领域,文字资料丰富,有大量古书文献,非常适合引入大语言模型进行长文本理解任务,使出土文献中的文本和思想价值得到更好的传播与弘扬。

开源大语言模型的优势

在古籍整理领域,已有训练大语言模型的先例,主要有直接训练(如“AI太炎”)和模型微调(如“荀子古籍大语言模型”“AI九思”等)两种实现路径。自DeepSeek引发热议以来,各大企业纷纷发布开源模型,模型微调能快速适用于包括战国文字资料整理在内的不同专业场景。在战国文字研究领域,开源大语言模型的优势主要有以下三点。

一是预先优化的特性。早在2021年,莫伯峰已尝试利用谷歌的BERT模型进行战国文字资料的文本归纳,但效果不太理想。如今,国内主流的大语言模型大多针对中文的分词和表达习惯作了改进,并引入了大量中文互联网语料,其汉语理解和表达能力得到大幅提升。笔者尝试向DeepSeek提问,提供上博简《鲁邦大旱》中文本,交由模型进行句读并解释大意,模型断读为“鲁邦大旱。哀公谓孔子:‘子不为我图之?’孔子答曰:‘邦大旱,毋乃失诸刑与德乎?’”DeepSeek不仅句读准确,还能翻译大意并作思想分析,若经过专业数据集的微调,便可以处理更加复杂的战国文字问题。

二是更低的训练成本。大语言模型的性能取决于参数规模和训练数据量。战国文字资料的文本量有限,不足以为模型提供全面的语言能力训练,还需要引入古籍和大量现代汉语语料来提升模型的语言能力。战国文字毕竟属于“冷门绝学”,投入的资源有限。可以通过调用大语言模型快速构建训练数据集,如解读楚简文本并生成结构化数据和知识图谱,自动提取人地族名等信息,减少人力标注的时间和精力。DeepSeek等大语言模型相比以往费用大大降低,还可以用来“蒸馏”出适合战国文字研究规模的模型,节省设备投入,缓解经费压力。学者也可以将更多精力集中在构建知识库、模型微调等任务上,在较短时间内取得更好的成果。

三是更好的推理能力。大语言模型在之前就已经引入了思维链技术。思维链是指模型将复杂问题拆解成相对简单清晰的子问题,最终整合到提示词中来引导自身生成更为准确的答案。DeepSeek这样的推理模型会将这个过程显性地展示出来。思维链与古文字考释中的“辞例推勘法”高度契合。例如,面对难以辨识的战国文字,模型可以轻而易举地通过检索知识库找到相似语料,借助思维链推敲上下文语义逻辑,或是归纳相似材料的交集,锁定合理答案。相比以往需要学者多年熟读古书和反复检索,大语言模型具有极大的效率优势。

推进战国文字开源数据集建设

开源大语言模型是一套优质“厨具”,接下来就是如何准备上等的“食材”了。运用战国文字材料训练语言模型仍存在一些瓶颈。一是缺乏高质量语料。战国文字语料长期由各单位自己手工制作,大多含有缺乏统一规范的符号和简号,并混排了古文字图片。二是模型处理通假字的表现尚可提高。DeepSeek对较简单的通假用例已能正确解读,但仍有不足。比如,《左传》昭公七年“乃筑台于章华之上,阙为石郭,陂汉,以象帝舜。罢弊楚国,以间陈、蔡”,由于模型缺乏对战国文字通假知识的理解,未能将“间”字读破成“县”,而是理解成了“离间”的意思。战国文字存在大量通假、异写、讹写甚至同义换读等情况,对于大语言模型的文本理解能力提出了更高要求。因此,制作一系列开源数据集成为紧迫的任务。目前来看,至少还有以下三类数据集亟待建设。

一是字符数据集。许多战国文字的隶定字未经Unicode编码,过去学术界通常制作图片字插入文档中,这样形成的文档很难用于模型训练。并且,不同的人常针对同一个字造了大同小异的图片,这样模型在解析图片时就容易视其为两个不同的字,使得本就数据不足的样本还被进一步分散。因此,有必要为战国文字制作专用字库。图片字大多是生僻字,还需要标注这些字的结构信息,通过汉字结构特征数据来强化模型对生僻字的感知能力。

二是语料数据集。在战国文字字库的基础上,可以着手将战国文字的语料转化为结构化数据集。针对战国文献中广泛存在的标注符号(如“()”标注通假、“〈〉”标识讹误),建议采用两个阶段的数据处理策略:第一阶段提供无标注纯净文本,通过无干扰语义建模使模型掌握基础文言理解能力;第二阶段注入带标注监督信号 (如将“〈〉”转换为[讹误]标签),从而设计序列标注任务以训练模型识别通假映射(古音通转规则)与字形讹变规律(部件形变路径)的能力。

三是字词关系数据集。构建通假字资源库能够有效提高大语言模型识别通假字的能力。除通假关系外,战国文字语料中还可以定义出异体关系、正讹关系、同形关系、同义换读关系等,两个字之间能否形成某种关系,还需要大量的前置条件。比如,“浴”字作为“谷”字的异体字时,是专造用来表示“山谷”这个含义的,这组关系主要是战国时楚地的用字习惯。表示“沐浴”的“浴”则是其他时代和地域另外造的字,它与表示“山谷”的“浴”是一组没有时空交集的同形字。这样一组字词关系的数据至少应包含发生关系的两个字的键值对、关系的定义、作用的词义范畴、时代和地域范围、用例等。如果将战国文字中的这些字词关系整理成数据集,模型理解战国文献的能力将大大提高,甚至可能借助庞大的知识系统提出创新性的解读。

在这个大变革的时代,也许还应考虑战国文字这样的“冷门绝学”能为人工智能做些什么?大语言模型在生成对话的过程中总是难免出现“幻觉”问题(即不准确内容)。在引用古籍原文时,“幻觉”会导致大语言模型出现张冠李戴或胡编乱造的现象,给学习者带来误导。语料越冷门,模型就越容易出现幻觉。出土战国文献的文本相较古籍更为冷僻,这样一来,模型生成的知识对于不了解传统文化的爱好者可能会造成误导,似是而非的文本在互联网中进一步传播,也会大大增加文化普及的工作量和复杂程度。“幻觉”虽然很难被消除,但仍可以通过检索增强生成(Retrieval-Augmented Generation,RAG)和调整专业领域知识的权重得到改善,因此也更需要从业者付出时间来整理高质量的数据集。想独立完成高质量的整理任务是很困难的。有必要发挥群体的力量,依托现成的开源社区来营造古文字的开源生态。我们可以先发布一系列较为粗糙的数据集,寄希望于后来者踩在先驱者的肩膀上,在已有开源数据集的基础上不断完善和迭代。开源开放是大语言模型未来的潮流,这股潮流也将润及战国文字研究领域。

 

(本文系国家社科基金重大项目“战国文字研究大数据云平台建设”(21&ZD307)阶段性成果)

(作者系中山大学古文字研究所研究员;中山大学中国语言文学系教授)

文章来源于网络。发布者:火星财经,转载请注明出处:https://www.sengcheng.com/article/79862.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
火星财经的头像火星财经
上一篇 2025年7月19日 上午8:47
下一篇 2025年7月19日 上午8:49

相关推荐

  • 大三男生隔空猥亵被判五年 网络陷阱需警惕

    在网络上寻找“学习搭子”时,一名11岁的小陈不慎落入了“隔空猥亵”的陷阱。近日,门头沟检察院通报了一起案件,一名大三学生因犯猥亵儿童罪被判处有期徒刑五年。 隔空猥亵是指行为人以满足性刺激为目的,通过互联网诱骗、胁迫未成年人进行“裸聊”或发送“裸照”等违法犯罪行为。2024年3月,小陈在某社交平台搜索“免费学习监督”时,关注了一个名为“吃池池”的用户。对方询问…

    2025年2月13日
    11500
  • 冲刺IPO的智谱:频繁融资,仍有压力

    在3月刚刚拿下多笔融资款的智谱,将目光投向了二级市场。 4月15日,中国证监会网站信息显示,北京智谱华章科技股份有限公司(智谱AI)公布IPO上市辅导备案报告,辅导机构为中金公司。 根据辅导备案报告,本次智谱AI辅导前期准备工作于2025年4月启动,正式辅导期第二阶段在2025年8月到2025年10月。这意味着,智谱AI最快将在2025年底前提交IPO上市招…

    2025年4月17日
    15400
  • 欧盟对美国向多国加征关税表示遗憾 反对贸易保护主义

    欧盟委员会发言人表示,欧盟对美国决定对进口自加拿大、墨西哥和中国的商品加征关税感到遗憾。这种做法会造成不必要的经济混乱并推动通货膨胀,对各方都有害。 发言人强调,开放市场和尊重国际贸易规则对于实现强劲和可持续的经济增长至关重要。欧盟将继续通过低关税促进增长和经济稳定,并维护一个基于规则的贸易体系。 目前欧盟尚未收到任何针对其产品的额外关税通知,但表示将坚决回…

    2025年2月3日
    12700
  • “医美茅”爱美客营利双降,现金储备半年降3成

    美丽生意也不好做了? 8月18日晚间,“医美茅”爱美客发布2025年半年报。上半年,爱美客营业收入12.99亿元,同比下滑21.59%;实现归母净利润7.89亿元,同比下降29.57%;扣非后归母净利润为7.22亿元,同比下降33.7%;经营活动现金流净额为6.55亿元,同比剧降43.06%。 单看二季度,爱美客收入同比下降25.11%,归母净利润同比下降4…

    2025年8月19日
    8700
  • 打赌喝马桶水给1万对方真喝了 玩笑赌约引官司

    你要是敢喝马桶里的水,我就给你10000元。听到这样的对话你会作何感想?在日常生活中,有人经常会和朋友做一些“无伤大雅”的赌约,那么这种“游戏”赌约到底该不该履行?双方是否需要承担法律责任呢? 2023年6月,张某与朋友相约来到胡某家中撸串喝酒。几杯酒下肚,胡某开玩笑对张某说:“如果你敢喝一口我家马桶里的水,就给你10000元奖励。”随后,胡某将10000元…

    2025年1月25日
    16000

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信