大语言模型在文史研究中的应用测评

2025-02-17 来源:中国社会科学网-中国社会科学报

微信公众号

分享
链接已复制
  大语言模型不断更新迭代,并凭借庞大的语料库、先进的深度学习技术和高度的灵活性成为文史研究极具潜力的新兴工具。本文选取六款大语言模型进行古文标点、信息提取、古文翻译、文本概括、原典查询、古籍目录查询、科举查询、职官查询、文史知识查询等多项中文任务的处理,以考查其实际应用效果。
  古文标点:本任务节选50段古文篇目要求大模型集中进行标点。古文篇目包括从先秦到清代的经典古文和非常见古文篇目,文体包括诗、词、散文、小说和戏曲。任务指令为“请对提供的古文进行标点”,结果显示:文心一言表现最佳,标点准确率100%,表现最佳;其次是GPT-4o,准确率为96.6%;通义千问的表现最差,准确率为91.55%。也许是受页面显示字数的限制,通义千问和KIMI在任务执行过程中都出现了多次宕机的情况。在难度分析方面,标点难度最大的文体是词。以李清照的《满庭芳·小阁藏春》为例,除了文心一言,其他5个大模型的标点错误均不少于6处。在对先秦诗歌和散文的标注中,大模型容易出现同质化的错误。
  可见,最适合用于古文标点的大模型是文心一言,其他5个大模型的标点准确率也都不低于91%。这说明在结构简单、逻辑性强、语义明确的古文文本中,大模型能够较好地完成标点任务。面对词这类语义逻辑较弱的文体,大部分大模型无法辨别多层次结构的文本内容,面对长句也会出现误判语义逻辑、人物对话等错漏。
  信息提取:本任务要求大模型对50篇传记的人物生平信息进行提取。任务指令为“请提取文本中传主的姓名、朝代、地址、官职、入仕途径、社会关系的信息”。测评结果显示:GPT-4o的表现最佳,准确率为96.43%;文心一言随其后,准确率为93.1%;其余4款模型的准确率均为87.1%。大模型特殊表现方面,在地名提取任务中,所有大模型的准确率均为100%。Claude在社会关系的提取中表现最差,错漏最多;通义千问在人物信息的提取上表现欠佳。在同质化错误方面,大模型比较集中地出现了漏提信息。大模型在地名的提取上十分准确,但在人物、官职、入仕途径等信息的提取上仍存在部分遗漏,暴露出其在处理复杂关系和特定信息时的局限性。这显示大模型在对更为精细的信息处理上,依然存在提取不完全或误解的情况,尤其是在多角色交织的情境下,表现较为薄弱。
  文本翻译:任务选取从先秦至清代的诗、词、散文、小说和戏曲共60篇,用以测评大模型的文本翻译效果。任务指令为“请将提供的内容翻译成现代白话文”。测评结果显示:文心一言在古诗词的翻译中表现最好,准确率为95.83%;Gemini的表现最差,准确率仅为60.51%。在所有素材中,屈原《离骚》是翻译准确率最高的诗歌,达到87.21%;而《诗经·谷风》的错误最多,准确率仅为61.97%。在大模型特殊表现方面,Claude和KIMI分别是戏曲翻译和文言小说翻译表现最好的模型,都只出现细微的疏漏。相比之下,Gemini的戏曲翻译错误较明显。在同质化错误方面,大模型集中出现了相同的翻译错误。在处理典故和特定词汇时,大模型也存在理解偏差。这反映出大模型在深层语义分析方面的不足,并且缺乏对古今词义差异的敏感度。尤其在面对复杂且含蓄的表达时,大模型倾向于依赖字面翻译,忽视了文本的语境、人物情感和历史背景,难以做到精准和富有层次的翻译。
  文本概括:本任务选取和文本翻译任务相同的素材,来评估大模型的文本概括能力。任务指令为“请将提供的内容翻译成现代白话文”。此次测试任务提交了两次,第一次包括标题和文本,第二次仅提交文本内容,不提供标题。测评结果显示:文心一言和GPT-4o表现突出,不仅准确地概括了文本的核心内容,而且能够在细节上指出文本特点。表现最差的大模型是Claude:第一次进行任务时未能完整地概括四首诗词的主要内容;在第二次任务中又错误理解了文本含义。在难度分析方面,小说、戏曲是最容易概括的文体。6款大模型在两次任务中都抓住文本主旨进行概括。而词依然是最难处理的文体。  
  原典查询:本任务选取了古诗文名句和非常见古诗文共50句,对大模型查找原典的能力进行测评。测试指令为“请指出这段文字的原典出处”。测试结果显示:表现最佳的大模型是GPT-4o和KIMI,两者均达到了100%的准确率。这得益于RAG方法的应用,该方法有效增强了模型的检索能力,使其能够通过网络检索准确地定位、匹配文本出处。相比之下,尽管Gemini也使用了该方法,但在查询较冷门的诗句时,如王士祯《真州绝句》其一,未能准确识别出处,导致整体表现逊于GPT-4o和KIMI。AI幻觉是原典查询任务中的高发现象,就回答文本来看,紧扣问题完成任务的大模型准确率更高。
  文史知识查询:本任务通过对科举、职官的查询来评估大模型查询文史知识的能力。评测结果显示:大模型在文史知识查询任务中的表现普遍不佳。文心一言的准确率为35%,已经是目前表现最好的大模型。其次是GPT-4o和KIMI,准确率均为30%。Claude的准确率仅为5%。通义千问的准确率为0,Claude没有进行查询任务。文史知识查询任务触及了大模型的知识盲区。大模型在应对历史知名人物时,尚能基于已有的知识库进行回答,但对于不知名人物,几乎无法提供准确答案,应答策略也各不相同。文史知识查询任务中的AI幻觉现象更为明显。大模型表现在缺乏准确信息时表现出过度生成倾向。
  大模型具有强大的自然语言处理能力,尤其是文心一言和GPT-4o,在文史研究中具有广泛的应用前景。
  大语言模型容易产生的问题,是误解任务指令和错误回答同质化。在文史领域,大模型的知识储备在覆盖广度和深度上仍有较大不足,在应对复杂、稀有历史信息时AI幻觉现象频发。解决这类问题的对策有三:第一是结合信息检索和生成模型(RAG)的方法,通过外部知识库或搜索引擎增强生成模型的能力,以提高回答的准确性。第二是加强专业化和定制化数据的投喂,优化知识库的广度和深度,使大模型能够更加精确地理解文史领域的深层语义。第三是构建文史领域的垂直模型。大模型在文史研究中的应用潜力巨大,通过高质量的数据投喂、垂直模型的构建和操作实践的技巧设计等方法,可以进一步提升其精准度和可靠性。同时,我们也应进一步加强大模型的可解释性和跨学科能力,为研究者提供更加精准和可依赖的工具,推动文史研究与人工智能技术的深度融合。
  (作者系湖北第二师范学院方言文化研究中心副教授;浙江大学文学院博士研究生)
转载请注明来源:中国社会科学网【编辑:项江涛(报纸) 齐泽垚(网络)】