拜占庭学以拜占庭帝国的历史和文化为研究对象,发轫于文艺复兴,历经四个多世纪形成了以文献学为核心支撑的跨学科研究范式。15、16世纪,复兴古代希腊罗马文化的社会思潮引发了欧洲的古物收藏热,并诞生了一门准学科——拜占庭学。16世纪末,奥格斯堡富格尔家族的秘书赫罗尼姆斯·沃尔夫在整理“古代希腊作家”的手稿时,识别出了古代希腊语手稿和中世纪希腊语手稿在词汇、语法和句子结构上的重要区别,并用“拜占庭的”对这些中世纪手稿加以限定。上述学术史揭示出文献对于拜占庭学的重要支柱作用,也揭示出拜占庭文明给我们留下的丰富古典文献与文物。对于眼下这场以大语言模型和计算机视觉所驱动的AI技术革新,这两者都是宝贵的基础训练材料。而拜占庭学也在AI技术的助力下获得了新的学术增长点。
计算模型与拜占庭文献
400多年前,沃尔夫凭借浸润于古代手稿的经验和直觉,识别出了古代希腊语与拜占庭时期希腊语的差别。如今,借助现代计算模型,研究者已经能够定量捕捉从古希腊语到拜占庭希腊语语义演变的蛛丝马迹。这就是由英国阿兰·图灵研究所研发的“古希腊语文类感知语义演变模型”(Genre-Aware Semantic Change for Ancient Greek,简称GASC)。
虽然GASC目前还不是基于深度神经网络的预训练大语言模型,但是构建这样的历时性古希腊语语义变迁模型仍然需要海量的、多文体的、连续性的希腊语语料。拜占庭帝国早期文献成为该模型语料库中必不可少的组成部分。GASC语料库涵盖了从公元前8世纪到公元5世纪的820份希腊语文本,涉及诗歌、喜剧、悲剧、哲学、书信、学术散文、叙述、演说、宗教、技术等多种体裁。通过对古希腊语历时意义概率建模,该模型扩展了传统人工语义分析的维度,展现出计算模型量化分析复杂语义现象的潜力。不过正如它的研发者所意识到的,尽管他们选用了至今最大的古希腊语语料库,但是拜占庭帝国早期数据的稀疏性仍是该模型的短板。这也是制约当前古代语言大模型研发的主要瓶颈。
然而,拜占庭文明中后期留下的大量文献使得细分领域的建模研究仍有可为。例如,由比利时根特大学研发的“拜占庭书籍题铭数据库”(Database of Byzantine Book Epigrams,简称DBBE)项目。该项目不仅首次系统整理了公元800—1453年间拜占庭书籍题铭这类非常冷门的文献,将它们数字化,并且还构建了一种基于图的计算模型研究这些书籍题铭更深层次的文化和历史联系。
神经网络与拜占庭印章
如果说在拜占庭文献领域,目前的研究还仅停留在构建计算模型进行量化分析的准AI阶段,那么在拜占庭印章学领域,“拜占庭混合人工智能”(Byzantine Hybrid Artificial Intelligence, 简称BHAI)项目则展示出了以神经网络为支柱性技术的AI在拜占庭印章学领域的实践与前景。
除手稿外,拜占庭文明还遗留下了约80000枚实物印章。而且,随着考古发掘的进行,拜占庭印章数量还在以每年出土1000—1500枚的速度增长。这些印章是拜占庭帝国教俗两界高级官员的身份证明,其铭文和图像暗含家族谱系、地理信息、荣誉头衔、官职体系等丰富的历史信息密码。在拜占庭学领域,印章是除文献之外最重要的史料。19世纪末,古斯塔夫·施伦贝格开创了拜占庭印章学学科范式。如今,拜占庭印章学已经成为拜占庭学领域最重要的分支学科之一。
在AI技术出现之前,学者们主要靠人工释读印章铭文和图像信息,并对其历史含义进行解读。印章释读是否成功在很大程度上取决于印章的保存状态,而大部分现存的拜占庭印章都处于残缺状态。神经网络算法的出现使研究者们看到了释读印章铭文和图像的曙光。2021年,法国国家科研署资助了一个为期四年的混合人工智能在拜占庭印章学中的应用项目(BHAI)。该项目的目标就是将计算机视觉等人工智能技术应用于拜占庭印章学研究领域,通过调整神经网络算法,破译拜占庭印章的历史信息密码。
目前,BHAI项目已经进入收尾阶段。从其发布的阶段性研究成果来看,该项目已经建立了印章图像的分割与图像标注体系,构建了基于深度神经算法的印章铭文和图像识别系统。而该项目的最终目标是开发基于深度神经网络的生成式印章识别AI工具,使人工智能生成受损印章残缺部位的设想成为可能。
拜占庭学的新发展
正如400多年前的“印刷革命”使拜占庭手稿实现了从手抄本到可复制的印刷本的转型,从而推动了该学科的形成。目前,由AI技术革新引发的大模型竞赛对拜占庭学产生了两个方面的积极影响。
一方面,大模型研发中的语料库建设进一步打破了现有数据库的准入壁垒和语言障碍,使得研究者更容易获得和阅读拜占庭文献,从而推动以文献为基础的拜占庭研究。20世纪下半叶以来的数字化技术使拜占庭文献的范围扩大并且更加容易获得。然而,数据库的封闭性却让很多研究者望而却步。以TLG数据库(《希腊文文库》)为例,到目前为止,该数据库已经收录了从公元前800年到公元1453年4000多名希腊语作者的约10万份作品,是一个巨大的古希腊和拜占庭文献宝库。然而,该数据库目前还是半开放状态,仅对付费订户全开放。这显然不利于以古代语言为目标的大语言模型的开发。对此,越来越多的开源数据库出现了。
另一方面,在AI技术赋能下,当前拜占庭研究领域呈现出以项目驱动为导向的、高效率的研究生培养与科研创新深度融合的新趋势。从比利时根特大学的数据库项目与法国国家科研署的拜占庭混合人工智能项目中,我们可以看出项目组成员来自多个研究领域,不仅实现了文理交叉互融的局面,而且还实现了质量高、数量多的科研产出。例如,DBBE项目由拜占庭文献学教授克里斯托弗·德莫恩负责,而项目组中的研究生则围绕该项目主题展开具体研究,涉及书籍史、文化史、计算模型量化分析、古代语言语料库建设和自然语言处理等多学科方向。
拜占庭学兴起于文艺复兴时代,并在“印刷革命”的助力下取得了奠基性的成就。如今AI技术革新又为拜占庭学带来了前所未有的机遇。这一变革不仅促进了拜占庭帝国历史和文化的深入研究,更进一步拓宽了其学术边界,使得拜占庭学具有的跨学科研究范式得以进一步实现。
(作者系安徽师范大学历史学院副教授、古典文明研究中心研究员)