人工智能拓展古籍数字化工作的新方向

2025-06-23 来源:中国社会科学网-中国社会科学报

微信公众号

分享
链接已复制

  2022年4月,中共中央办公厅、国务院办公厅印发《关于推进新时代古籍工作的意见》(以下简称《意见》)。《意见》在论及“加快古籍资源转化利用”这一核心任务时,明确提出要大力“推进古籍数字化”,“统筹实施国家古籍数字化工程”。《意见》中有关“加强古籍数据流通和协同管理,实现古籍数字化资源汇聚共享”“推进古籍专业数据库开发与利用”和“积极开展古籍文本结构化、知识体系化、利用智能化”的一系列要求,为我国古籍数字化工作指明了方向。2022年11月,美国OpenAI公司发布闭源大模型GPT-3.5,引发文献学界对古籍数字化与人工智能技术交叉融合路径的广泛探讨。2025年1月,我国深度求索公司推出可开源部署的低成本、高性能大模型DeepSeek-R1,显著降低了前述路径的技术应用门槛。于是,在政策引领与技术革命的双重驱动下,我国的古籍数字化工作开始进入建制化、智能化发展的新阶段。

  众所周知,古籍数字化工作的核心产物是古籍数据库,后者的技术迭代轨迹清晰映射着前者的发展脉络。通过解析后者的利用模式创新,我们得以系统把握前者从基础数据建设向智慧文化应用跃迁的价值嬗变。具体来说,受到数字人文技术全方位渗透的影响,目前已涌现出一批关系型、空间型、图谱型和生产型的结构化古籍数据库。它们不仅在很大程度上改变了传统古籍数据库的理念、架构和功能,还有效推动了古籍知识体系构成方式的重大变革——由分类导览转向开放聚合。而大模型技术兴起之后,上述数据库的利用方式再次发生深刻变化,即从常规查询转向语义交互,人工智能时代古籍数字化工作的重点探索方向也随之浮现。

  从分类导览到开放聚合

  从知识体系层面来看,传统古籍数据库主要包括版本数据库和目录数据库,分别对应版本学和目录学两大领域,其分类导览获取方式可从内外两个层面加以描述。在数据库内部,研发者多基于经典目录学分类体系(如四部分类法、六部分类法甚至是现代的中图法)构建树状结构,其数据调取依赖人工选择与关键词匹配,存在着知识离散化与语义关联弱化的局限;在数据库外部,面对数量日益增长、类型各不相同、处于离散状态的数百个古籍数据库,学术界主要采取分类导览的方式加以利用。例如,2019年问世的“中国古典文献资源导航系统”使用多维度分类体系动态追踪著录海内外古籍数据库,将其分为古籍影像、古籍全文、古籍目录、鉴定工具、数字人文等,又搭配各种专题(释道、敦煌等)和各种标签(语种、研发者性质等)进行多层次组织,有效实现了“互著别裁”,初步构建了“数字目录学”的基本架构。

  然而,随着近年来全球古籍数字化工作的推进,资源分散、不易通检、数据寿命短等问题日益突出,加之不少新型古籍数据库开始通过多维数据融合、细粒度语义标注、动态知识图谱等手段构建知识体系,都对传统的基于分类导览方法的体系架构提出了挑战。针对上述形势,清华大学刘石、孙茂松和中国出版集团张力伟等提出建立“中国古典知识库”的宏大设想,即以20多万种存世古籍为基础,在保障其完整性、逻辑性的基础上突破其原有结构,构建实体属性和关系,对文献进行深层组织和管理。而在该设想实现之前,学术界的现有做法是:一方面,加快普及数据库统一标准,强化数字出版版权保护,建立云存储备份设施,使不同建设主体的古籍数据库能够更好地利用应用程序接口(API)进行便捷互联,确保数据流通共享,避免重复建设。例如,“古籍文献知识图谱网”建立了十分详细的、基于RESTful设计的Web API接口,将其所有数据功能以JSON(JavaScript Object Notation)等格式免费开放给使用者进行快速集成与获取;“书格数字图书馆”对来自各馆藏机构的高清古籍资源进行整理,将其发布在长效云存储中,提供基于CDN加速技术的公益性下载共享,形成了活跃度很高的古籍活化利用兴趣社区。另一方面,则是在开放共享协议下采取数据采集聚合和众包机制对海量资源进行整合,建立“一站式”知识平台。例如,清华大学数字人文团队2023年推出的“全球汉籍影像开放集成系统”已聚合全球上百个古籍数据库中的资源(截至2025年6月,数量达到60万条),首次实现了全球中文古籍的“一站式”阅读,为“数字版本学”建立了基本架构,对于文献学研究起到了重要推动作用。2023年,字节跳动公益部门正式发布“识典古籍”阅读与整理平台。该平台引入了基于人工智能的众包校对技术,在短时间内汇聚了上万部古籍,并顺利完成数字化工作。中华书局古联公司承建的“国家古籍数字化资源总平台”目前也已进入测试阶段。

  从常规查询到语义交互

  从利用方式层面来看,传统古籍数据库主要是基于结构化查询语言(SQL)的指令式检索,需要使用者精确预设检索条件(关键词),这显然难以适应学者开展学术研究时的模糊语义表达与复杂逻辑推理的需求。加之已被数字化、可被检索的古籍数据越来越多,使用者输入关键词后,动辄返回数百甚至上千条命中结果,即便如此,仍不免遗漏,这说明提升人机交互的有效性和准确性迫在眉睫。大模型技术兴起之后,基于通用大模型和各种垂域大模型的智能体已具备语义推理(如自动补全研究问题)与知识生成(如输出文献综述框架)的能力。这标志着古籍数据库的角色将从“被动知识仓库”向“主动研究协作者”转换,而这一方向有望成为未来古籍数据库深化学术价值的关键突破口。清华大学数字人文团队正在研发“全球汉籍AI智能聚合系统”,运用DeepSeek大模型实现全球古籍数字化资源版本数据和目录数据的高效对齐。这不仅使《意见》强调的“加强古籍数据流通和协同管理,实现古籍数字化资源汇聚共享”成为现实,对于学术界探索智能时代版本学与目录学的再度融合也有启示意义。

  与此同时,学术界也需警惕大模型利用过程中的黑箱化风险,应坚持可解释性优先、以学者为中心、受伦理框架限制等原则。可解释性优先,指应公开古籍实体标注规则、置信度等信息,确保交互过程可追溯、被引用的材料可查验。例如,2024年浙江大学徐永明团队推出的古籍垂域模型“云四库智能问答系统”,对所有引用材料均明确出注,解除了使用者对模型幻觉的一些担忧。以学者为中心,即让大模型在古籍数据库中承担数据处理、辅助决策、文献归纳等功能,而不是替代学者的判断,更应保留人工干预接口,确保研究全过程可由人来操控。伦理框架限制,即对古籍数据库的大模型运用建立历史语境还原度、文化表征准确性等评估指标,规避因算法偏见而导致的史实扭曲,避免在古籍活化利用和跨文化交流互鉴等场景中发生意识形态和伦理道德错误。

  在《意见》发布后,全国古籍整理出版规划领导小组随即制定了《2021—2035年国家古籍工作规划》(以下简称《规划》),就统筹古籍数字化建设进行了具体部署。在《意见》《规划》的指导下,学界同仁守正创新、通力合作,必将使我国的古籍数字化工作迈上崭新台阶,加快推进中华优秀传统文化的传承与发展。

  (作者系安徽大学文学院副教授)

转载请注明来源:中国社会科学网【编辑:唐萌(报纸)赛音(网络)】