赵薇:网络分析与计算批评

2025-10-10 来源:《中国社会科学评价》2025年第3期P5—P63

微信公众号

分享
链接已复制

  网络分析源自网络理论,是探索实体之间的关系结构、实现数据可视化的一种有效方式,也是量化社会科学的重要一支,近年来被整合进数字人文,和各种文本挖掘技术结合,成为数字人文最具吸引力、最有前景,也是取得实质性进展最多的方向之一。网络分析既是一种实践理论,以图论和数学模型为基础,将研究对象抽象为节点与边构成的网络结构,旨在揭示复杂系统中实体间的关系模式与交互机制;同时还是一种方法和技术体系,在漫长的历史中逐步形成了一套统计计算指标与算法,来探索网络的拓扑结构特征,并依托数据处理与可视化工具,将抽象关系转化为直观图谱。

  与传统统计分析不同,网络分析处理的对象是关系型数据,它将关系看做节点和边组成的网络,节点表示网络内的实体,例如各类人、事、媒体或组织;边则可以是人际关系、组织关系,也可以是万物间任何一种可能存在的联系。社会网络分析基本遵循结构功能主义的设定,认定行动者之间的关系和交往会造就特定的社会结构,反之社会结构也会制约行动者的行动本身。一般而言,经过关系提取、网络建构、计算分析,可得出包括节点层面的中心度,网络整体层面的网络密度、模块化、凝聚子群,以及整体上的分布形态等统计指标,这些指标通常对应着某项人文社科研究中所关心的核心问题。

  一、一种发展线索:从隐喻到模型,由模型而批评 

   网络分析是一门实践科学,它的起源有两个版本。物理学家和数学家强调的是网络现象的图论和拓扑学基础;而社会科学领域的网络分析能够发展起来,社会心理学家、社会学家和人类学家功不可没。按照社会学家约翰·斯科特(John Scott)勾勒的路线图,网络分析兴起于20世纪,有三个起源。其一是早期的德裔格式塔心理学者对社会构型和群体动力学的研究。莫雷诺(Jacob Moreno)等认为人际间相互吸引或排斥的作用空间可以用拓扑学和集合论中的数学思想如“场论”(field theory)来分析,他们以点、线绘制“社群图”,推动了图论在群体动力学方面的应用。到20世纪30年代,已经可以从文献中看到作为盘根错节的社会关系隐喻的“网络”了。另外两个起源来自哈佛和曼彻斯特的社会人类学家,他们对霍桑工厂中的“派系”关系展开著名实验,对挪威渔村和非洲部落的亲属关系做田野调查,并于50年代开始对“网”“网络”这些隐喻做符号化、系统化的分析,把图论翻译成社会学语言。社会网络分析最终在方法论上有所突破,得益于群体代数模型的建立以及多维量表的发展,可以将“关系”翻译为“距离”,从而具有了一种可以直接测度、计算的办法。70年代后这一方法开始真正引领实践管理。进入社交网络时代,人们对网络分析的需求激增,然而更多的社会科学家缺乏相应的数学训练,只是对应用方面更感兴趣,如何运用以及如何解释这些运用变成了一种专门的分析法。 

  在中国,历史学家、社会学家、政治学家最迟自20世纪90年代起将社会网络分析用于中国社会中非正式关系的研究。社会网络分析为群体传记学开辟了新天地。“中国历代人物传记资料库”(CBDB)从史料中提取近53万条亲属关系数据以及逾18万条社会交往数据,可以直接为网络分析所用。历史学家运用网络分析,结合CBDB和各种自建数据集,对历史上门阀士族的交往情况、唐宋政治精英的联姻模式、理学思想的兴起等一系列课题展开了全新的研究。

  尽管如此,社会网络分析绝非简单地等同于人际关系的分析。网络由关系构成,但是关系并不天然是网络。网络更是一个分析概念,是研究者的思维建构,它为研究人际关系、社会结构乃至更普遍的事物结构提供了一个模型。正是基于此,考古学家以考古遗址为节点、以是否曾发掘出同类器物为关系,来构建文化交流网络;经济学家以国家为节点,以贸易往来情况构建国际经济关系网;语言学家根据对语料所做的语法、语义依存的标注,构建句法语义依存关系网络;文学史研究在对家集或著作编年进行数据挖掘的基础上,建构起文人之间的酬唱关系网络;文体学研究则尝试用单维或多维文体特征建立起某种文体关系网络(图1); 如此种种,不一而足。

   近年来网络分析进一步深入人文领域,被创造性地用于计算批评的推理和论证,成为数字时代人文学者阐明观点,介入文化、历史和意识形态批评的有效途径。这些研究已不再拘泥于分析社会、经济和政治现实,而是恢复了表征实践的悠久传统,巧妙地借助建模操作,找到了思想观点的“客观对应物”,完成了从传统观念到新阐释的飞跃。如果说网络分析仅仅是一种数据分析法、一种建模方法,计算批评则成为人文学者运用它的旨归。由隐喻而模型,由模型而批评,或可成为网络分析在数字人文中的一种发展趋势。2021年和2022年,在欧洲和中国,Journal of Historical Network Research特刊“Beyond Guanxi: Chinese Historical Networks”和《数字人文·网络分析专刊》出版,这两种并生花特刊聚焦于近年来中文数字人文领域中的网络分析个案,对社会网络和文本网络分析在人文学术批评中的实践起到了实质性的推动作用。  

  二、网络分析的基本功用 

  (一)由“午夜骑行”说开去 

  网络分析法在人文研究中有什么用途,神奇之处何在?这一数据分析的手段又是如何成为计算批评的一部分的?不妨以美国独立战争史上一个家喻户晓的故事“保罗·里维尔的午夜骑行”(Paul Revere’s Midnight Ride)为例,看看社会学家是怎样借助网络建模来对社会历史结构进行批评性分析的。或许对于大多数人,这一具有导火索性质的事件更为人所熟悉的还是它的结果——“莱星顿的枪声”。然而,关于这枪声背后的故事——是谁为当时的爱国者阵营成功截取、传递了大英帝国的行军情报,却是网络分析关注的重点。我们先从这个角度回顾一下:

  保罗·里维尔是谁?1774年的时候,他并非独立战争的领袖,还只是英国早期殖民地新英格兰地区的一个银匠、一个小人物。他还有另外一些身份,大多是隐藏的。当时的一些民众通常会参加数个辉格党的地下组织,里维尔是马萨诸塞州通信委员会的骑手,同时他还参与一个叫“机械师”的小组,这个组织主动地收集有关英国人的行动信息。

   1775年春天,“机械师 ”小组成员发现英国船只正准备渡河,里维尔立即报告给他的朋友和上级约瑟夫·沃伦医生(Dr. Joseph Warren)。4月16日,沃伦派里维尔去莱星顿警告波士顿马萨诸塞州省议会的临时领导人约翰·汉考克(John Hancock )和塞缪尔·亚当斯(Samuel Adams),他们可能会被逮捕,并去康科德(Concord)提醒民众,英国人的真正目标是他们的武器库。4月18日天黑后,保罗·里维尔开始了他生命中最重要的一次骑行。接下来的故事有了各种流传的版本,如人们所熟知的,里维尔登上老北教堂的塔楼顶放置信号,如果英军走陆路,会挂上一盏灯,如果是从海上来,则挂上两盏灯;又如他是如何在月光的掩护下神奇地躲过了英舰,骑马连夜赶到莱星顿,在被抓前把消息送到。最终,消息被传递,形成了一个巨大的警报链,成功唤起了各个社区的辉格党领袖,集结了民兵,抵抗盖奇将军的入侵。美国独立战争史上的第一次大战——波士顿围城战就此拉开序幕。 

  正如人们所指出的,“午夜骑行”是罕见的遵循亚里士多德时间、地点和行动统一性的历史事件,就其戏剧张力而言,很少有虚构的情节可以与之媲美。20世纪90年代之前,几乎所有的历史叙事都在渲染这次天才行动的戏剧性和传奇色彩。如上所述,这些叙述更多集中于夜晚骑行这一单一情节,突出的是个人特定行动的历史偶然性,而只有少数例外,如美国历史学家费舍尔(David Hackett Fischer),注重的是如何从历史进程中去揭示新英格兰民众对英军“自发”抵抗的必然性,格外关注了事件发生的整个社会结构基础,也就是作为“信使”的里维尔能够发生作用的整个人际关系网络。在出版于1994年的一本书中,他要探究的是:为什么里维尔可以做到?在1774年秋到1775年春的关键时期,到底是什么使他以一种不可思议的天赋成为事件中心的?

  在这一思路的影响下,近二十年来先后有两位社会学家,以相对简单或复杂的办法将焦点转移到了这样一个问题上来:为什么是保罗·里维尔?这个革命前夜的“吹哨人”的角色有没有可能由别人来担当?历史真的只是受到一种偶然性,或者说行动者的主观性驱使的吗?于是,杜克大学的社会学家希力(Kieran Healy)教授也讲了一个故事。他把时间的节点设置在1774年初,那是各个自发的爱国者组织暗潮涌动的时刻,他从费舍尔著作附录中发现了活跃在波士顿地区的七个不同地下组织的245个会员的“黑名单”(图2),试想,如果费舍尔是一名效忠大英帝国的老牌特勤人员,他手里已经握有这份名单,那么,有没有可能在事情发生之前,就利用这份名单,来发现保罗·里维尔这样一个或者多个可疑人物?

  他做了一个简单的实验。简单说,画了三个矩阵:一个245×7的,一个7×7的,一个245×245的。

  矩阵1(图3)很简单,是对这份名单的二值化表示,体现了人和组织的关系:可以看到塞缪尔·亚当斯属于一个叫作“北部核心”(North Caucus)的组织,同时还属于“长厅俱乐部”(Longroom Club)。从这个矩阵中我们只能知道人和组织的单向联系。该如何发现这些组织之间,乃至人和人之间的关系?

  从矩阵2(图4)中可以看到哪些组织通过同时属于它们的人而联系起来,数字表示共同成员的数量。矩阵3(图5)则是人与人的关系,以共同参与的组织数来表示人与人的关系深浅。例如,图5中的某两位人物是通过共同参与7个组织中的两个而建立起关系的。这是一张“很大”的表格,在18世纪它的计算量足以称为大数据了。

  仅凭这些矩阵,我们就能对这些地下党的关系有一个明确印象了吗?没有。我们的脑子里完全是浆糊一团,就像图6中的网络一样,尽管它已经是用人与人的关系建立起来的了。

  接下来,如果我们仍旧以人物为节点,以任意两个人物共同参与的组织数为边关系的权重,做出网络图并按中心度(centrality)对节点大小进行排序,再按社区发现算法进行“模块化”着色,最后以力导向布局的方式呈现,便可以看到几个较大的节点被突出出来了(图7):处于图中心的保罗·里维尔以一种不同寻常的方式连接起几个“危险”群体。在图7中,我们找不到那些公众历史记忆中重要的政治人物——按费舍尔的观点,他们都不是真正的领袖,波士顿的革命运动是一个由许多不同团体组成的半公开联盟。里维尔在许多不同的圈子里活动,这位联合者把他们联系在了一起。

  至此可以说,社会学家是在对此人的传记信息一无所知的情况下——不知道他的信仰、他的写作、他的私生活种种,而仅仅利用了他参与组织的信息,便发现了他在情报联络中肩负的至关重要的桥梁作用。而这些元数据之所以可以起到“四两拨千斤”的作用,其实是通过把一个245×7的二模网络转换成了245×245的一模网络,再将节点的大小按所谓中介中心度(betweenness centrality)排序并做模块化计算得到的结果。具体而言,图5的矩阵被转化为了从源节点(source)到目标节点(target)的一条条用两人共同参与组织数来赋值的边关系列表。

  根据所谓中介中心度的算法,可以计算出谁是网络中最具居间作用的人。这是因为该指标表示一个网络中经过该点的最短路径的数量,它关注的是某点“介于”其他两者之间、筛获两点间资讯的“能力”,因而构成了两个群组之间的重要桥梁而显得身价倍增。最后,使用社区发现算法可以算出情报网络中有多少个潜在的社群,从可视化效果中不难发现,里维尔成了这个网络最具有跨社群信息传播能力的人。

  借助希力教授自己的分享,我们回顾了网络分析进入社会历史研究的最初场景,然而,仅仅算出这些指标似乎仍然无法有力而令人信服地说明问题,或者说,这些计算看上去得出了新的结论,但是依然没有回答历史社会学家的核心疑问:里维尔究竟是如何做到这点的?

  (二)对“午夜骑行”另一面的讨论 

  实际上,在希力教授研究元数据的前一年,伊利诺伊大学厄巴纳—香槟分校的另一位社会学家已经对“午夜骑行”的数据集做了更深入的网络分析。他不仅同样利用了费舍尔提供的名单,还借助其他二手数据(如一些反殖民研究索引)调查清楚了当时活跃在波士顿地区的245名组织成员的身份、职业、教育等背景信息,从更丰富的角度论证了社会动员赖以发生的结构性基础。他试图说明,在美国革命中,里维尔和他的领导沃伦医生(网络中的第二大节点)是如何利用当时社会上存在的严重断层和分裂来将自身“嵌入”18世纪新英格兰地区的制度和组织环境中的。也就是说,他们利用了革命运动在结构上的脆弱性——既是脆弱的,同时作为中间人更便于将脱钩的人群结为搭档,来发挥整体上的推动作用。

   首先是背景调查。通过卡方检验和方差分析,他认为当时的社会分化既为广泛的群众动员(如请愿、抵抗)带来了极大困难,同时又赋予特定人群以契机。一方面是城乡分化,有95%的人在乡村;另一方面是贫富分化,像约翰·汉考克这样的富商是极少的。从运动的构成来看,组织相互间的构成差别也极大。殖民地社会活跃着一些后期成立的革命组织,如“通讯委员会”的成员大部分是有地位的富商、哈佛毕业生;而“北方核心”小组是后期辉格党的核心领导层,囊括了所有重要人物。剩下的一些早期组织如“共济会”,吸收了工匠、零售商等中下层人士,或由外省民兵这一重要革命力量集合而成。难得的是里维尔恰属于中间阶层,他是银匠,又不同于学徒,有自己的店铺,介于贫富之间,得以在工匠和绅士的社会中往来穿梭,成了唯一一个被那些专属俱乐部选中的技工。与此相类,沃伦的身份是医生,同样赋予了他结交三教九流的能力,他也在很多组织中担任角色。 

  继而,如果同样采用中心度指标来考察,还可以把各种中心度的分布列出来(图8)。在网络中大部分组织成员的中介中心度即间度中心性为零,根本不具有跨社区的桥接作用,只有少数人的中介性极大,他们显然填补了社群之间的“结构洞”,也造成了不平等分布。紧密度中心度也同样如此。如果同时移除里维尔和沃伦这两个中介度极高的节点,则图的总密度下降了31%,对连通性造成极大影响。返回到原始数据中细读,会发现这是因为绝大多数人(约82%)只存在于一份名单上。没有人能够出现在全部七组名单上,只有两个人在多达五份名单上出现——就是约瑟夫·沃伦和保罗·里维尔。据此,作者认为此二人在网络中的位置是同源性的。

  这些操作也再次证明,这些团体并没有形成一个紧密、统一的组织。恰如费舍尔所说,独立战争前新英格兰地区的革命运动并非小规模、控制严密、等级森严,它庞大、开放、多样,是由许多彼此疏离的圈子组成的,用今天的话说,这恰是一个自组织系统。里维尔和沃伦的活动比波士顿其他领导人都要多,这使他们成为运动的关键人物,他们并不是刻意牵线搭桥的人,但实际上成了自由事业集体努力的“领导者”、协调者和组织者。这就是“午夜骑行”中另一个鲜为人知的故事。

   今天,当我们再次回顾关于“午夜骑行”另一面的分析,不得不说它是精彩有效且已经具备了计算批评的意味,看似复杂的数据分析实则有迹可循。这位社会学家之所以善于利用多种历史材料进行互证,源于他强烈的假设—验证意识,这使他能够站在前人肩膀上,从散落各处的文献中提炼出各种变量设计实验,让各种检验手段相辅相成,而不仅依靠网络分析一种建模方式。如果说针对波士顿地区的情报网络建构是正确的,历史学家费舍尔提供的名单有足够代表性,则人们必然能够通过其他环节来验证其合理性。因而研究者引入背景调查和多种统计推断来探求组间差异,确证了究竟是哪些因素真正区隔了社群,造成新英格兰地区的社会分化;统计推断的结果反过来强化了对于里维尔和其他成员阶层身份的关注。这些结果都支持了里维尔担当的中介角色对于既往“经济人”理论的突破,并且让人们意识到了他和沃伦在功能上的互补,二者的关系也成为后续研究的一个重心。在后面的网络分析中,为了进一步验证二者角色,不仅可用度分布来直观呈现整体结构的特性,研究者还引入移除实验,将假定的重要角色去掉后观察网络形态变化,结果颇能说明问题。 

  应该说,在多轮检验的驱动下,对“午夜骑行”另一面的分析从群体社会学的角度成功揭示了革命动员的微观机制。不过,若真正从计算批评的角度反思之,它似乎仍然不够细微,缺乏某种更加深入的讨论。在费舍尔的著作中,对社会结构和重要人物的研究始终是与对人的价值观、信仰的观照紧密扣合的,毋宁说历史学家更关心的是行动背后的观念和人,或者是观念如何促成了人的行动。这是为什么他将大量笔墨放在了对方的重要人物盖奇将军行动合理性的剖析上。他写的是同属一个党派内部的两种不同的自由主义之间的冲突,而并没有把人和组织仅仅抽象为关系节点和群体结构,他的关怀更在于一个个能动的精神主体和整个社会基础之间的互动。这也提醒我们必须想办法将基于现实经验的细读纳入分析中,如此数字人文才能同时具备数据的、计算的、社会历史的和人文的维度。

  三、作为一种推理和论证手段的网络分析 

  近年的人文研究中,作为一种已经脱离了人际关系问题的抽象模型,网络分析的思想和建模手段更多被用于计算批评的推理和论证。这类研究中的网络不再是真实社会关系的映射,而是蜕变为一种形式化的表征。人们通常会从文本中抽取可量化且有价值的关系来建立文本网络,至于网络的意义该如何解释、得出的各项结构指标是否有意义、关系如何编码,以及是否有细读检验步骤,也反映了人文学者的建模水平和与算法对话的能力。我们以两类具体问题的展开来说明。

  (一)叙事性文本中的人物角色与节点的关系 

  叙事性文本(如历史、小说、剧本、游戏等)中的节点指标与人物角色之间到底有什么关系?这个问题自21世纪初以来一直有人关注。曾有人对漫威宇宙系列动画中角色合作关系做统计,计算得出最大分支结构中接近中心度最高的人物是美国队长,他与所有其他角色之间的平均距离是170,故而认为接近中心度是用于衡量故事中谁是主人公的重要参考指标。弗朗科·莫莱蒂(Franco Moretti)也认可了这个指标,他认为莎剧《哈姆雷特》中哈姆雷特到所有节点的平均距离最短(为1.45),是理所当然的“主角”。

  莫莱蒂关心的不仅仅是主角问题。与“午夜骑行”一例中两位社会学家的做法相似,他默默地引用网络分析中的聚类化、中介度等概念,试图说明霍拉旭(Horatio)这样看似无足轻重的小人物,正因其居于宫廷与市民社会的中介位置上而具有了迷之魅力。此外,他也同样引入度分布,发展了沃洛克(Alex Woloch)“人物空间”的思想,提出应将人物按叙述功能的重要性重新排布。事实上,莫莱蒂建立的只是简单的共现网络,人物只要在一幕里同台且有台词就可以建立起关系,且网络无权重,最终样貌也缺乏计算的支撑,所谓“远读”在此还是一种开放式的探索,而非根据假设来设计实验解决问题。

   那么,在最基本的关系抽取步骤上,有没有做法是以人们感兴趣的问题为中心,来设计出有明确文学意义的规则呢?在文史领域,有针对性的建模须跟随网络的各种指标和结构特征提示的线索,着意探讨叙事组织背后的深层意图。如果面对的是体量庞大或某种质素过于复杂的叙事性作品,人们会从中寻找有意味的数据挖掘点,提取可计量的关系。有学者以《世说新语》中人名的提及次数代表人物之间的“互动频率”建立网络,从中观察这部轶事集中的人物按时代、地域聚集的趋势。同样是轶文小说集,另一种方法是以不同角色间各异的对话情境为边来构建互动网络。为了探讨《唐语林》中“语”的性质,秦颖将关注点完全放在对话方向和次数上,算出全部节点的权威度和枢纽度,经过分析,她认为后半部分的玄宗形象由一个积极发话者(高枢纽度)反转为了被动受话方(高权威度),就此提出潜藏在一千多条轶事材料中的“玄宗因素”。对这一因素的建模将引导研究者进一步考察它在多大程度上反映了中晚唐轶事材料对玄宗时期的关注,又在多大程度上体现北宋笔记编撰者在选材时出于对唐帝国兴衰的反思而作出的选择,换句话说,它成为研究北宋初年对唐代的历史记忆问题的计算批评工具,而后续的经验性细读则在不断检验这一建模可靠性的过程中,从不同规模的阅读体验上反复激活了议题本身。 

   在以人物话语为焦点的计算批评中,人们还希望通过关系权重的加入,在加权话语网络中细致入微地考察叙事中的角色功能,以此触及人物观问题。在这方面,廖俊凡在2010年开发出一种描述会话角色关系的程序用于《儒林外史》对话网络的建构,这一算法经改进后被用于李劼人历史小说的人物研究。这一系列超长篇小说成为同样具有“摭拾话柄”特色的晚清新小说向现代体式转型中不可多得的样本,由巨量对话和近六百个人物频繁上下场组成的“口传网络”为勘破叙事意图和人物观问题提供了突破口。为检验莫莱蒂命题,根据会话情景、对话次数和对话容量三个变量为纷繁复杂的对话关系加权后,采用“核心—边缘”模型来代替幂率分布的检验,得到的结果与中介度计算排序正相吻合,便可以从不同算法的角度将莫莱蒂对霍拉旭的阐释向前推进一步。如果将主人公形象和这一由计算得出的“中介者形象序列”进行细读对比,可以发现后者的命运轨迹很可能提供了比主角更大的意义。应该看到,此类网络分析中仍存有大量开放性探索,结果也没有在更大范围的样本上做检验,但大体是在较清晰的批评意识指引下完成的,也已带有明显的与学术史对话的意图。 

  (二)网络分析与历史文化批评 

  正如在“午夜骑行”另一面的分析中看到的,网络建模的手段如果与其他量化方法密切结合,还可以获得更加精细化的论证效果,在这方面,陈松对宋代碑记作者网络的研究堪为典范。

   宋代地方在修建官学的时候会刻碑,碑记请有影响力的文人来写,这样的“学记”能够潜移默化地传达士人的理学思想。由此,人们便可以借对媒介网络的研究,来考察宋代理学思想实际上的渗透力和影响力怎样,又是如何兴起、发展的。这需要在评估一位作者的影响力时,不仅要考虑他为多少州县学撰写了碑记,而且要看这些州县学分布在哪些地方,有没有先后之别。研究者首先构建双模网络,将地方官学碑记的作者和这些学校所属的“地文宏区”连接起来,已初步发现四川和外界在传播上的结构性鸿沟。随后,为了论证理学思想在南宋的崛起,将任意两位曾为同一宏区的官学撰写过碑记的作者之间连线,将双模网络转化为单模网络。通过计算单模网络的中介度并做核心—边缘分析,可以看出沟通上游至下游“地文宏区”的重要人物从北宋的宋祁、黄裳、晁补之等文章之士、经学之士,变为了南宋的魏了翁、朱熹、张栻等理学人士,这恰证明了随着时间的推移,理学人物的影响力日益增强,得以媲美以至取代古文家而成为各宏区之间思想交流的桥梁,促进了不同子群之间的整合。随后,再将这些核心作者为各地官学撰碑记的所在州县投射到一张地图上,则可以从地理的角度进一步证实其全局影响力。但是,论证至此还不算完,文本分析还提供了来自碑记内容方面的证据。 

  文中采用k-means算法对773篇碑文的内容做主题聚类,结果分成了三组,而最晚出现于四川的一组内容中恰少了孔子、天子、先圣这样的高频词汇,而代之以孔孟、濂溪、二程等词汇,这便呼应了前面的假设:川地与其他地方的交流确实有限。后面还有深入的讨论,例如对碑记所属的组别和篇题中凸显的官学设施的种类做交叉分析,借此得出理学在地方官学中也开始扮演一定的角色等结论。这个研究经网络分析、地理分布、文本语义三重循证,论证了理学思想在南宋地方官学中与日俱增的影响力,使这一原本不易察觉的观念传播过程得到“迹化”。遗憾之处在于没有充分落实到文本细读上,因而错失了让读者对所谈之观点有更真切体会的机会。

  计算批评的主要对象是作为一套社会实践的观念领域,在这方面青年汉学家卢娴立(Henrike Rudolph)关注的是历史书写的意识形态问题。中国女性在20世纪上半叶的政治舞台上曾经扮演了什么角色,这种扮演和后来的历史书写是什么关系?研究者从《中国妇女名人录》中提取一种“传记关系”,以1949年前的两份集体传记资料做参照,想要弄清从20世纪30年代到80年代的传记资料是如何借由对妇女运动的记录来为对象“赋权”的。

  首先研究从传记文本资料中提取语词实体的共现关系,为人名与人名,以及人名和各种组织、机构之间建立关系,从而编码出两种关系网络:第一种是个人与个人的一模网络,第二种是个人与事件/机构/组织的双模关系网络。比较第一个网络中女性节点度和男性节点度,可清楚地看出重要女性人物与重要男性人物的关系,揭示出女性和男性的关系仍然是最重要的社会关系,而并非如妇女运动研究者所说,女性自己的网络发挥了重要作用。由于前者是私人网络,而后者可视作社会活动网络,比较同一个女性在两个网络中的中心度变化(如史良和宋庆龄在单模网络中都高,但是后者在双模网络中远高于前者),可呈现集体传记是如何采用不同的叙述策略来为不同角色的女性“赋权”的。

  其次,比较接近中心度等指标在1949年前后的网络中排名的变化,还可以了解生平叙事到底是将某些妇女仅仅描述为民国时期的早期活动家,还是同时也兼顾她们在上级领导下参政的经历。其中最大偏差体现在谭惕吾的例子上,研究注意到了入册与否不仅取决于某人是不是妇女运动的“老兵”,还要看她们在新的历史时期能否继续与社会主义革命建设保持密切关系,从中可以进一步确认《中国妇女名人录》在编写过程中隐含的叙述逻辑与原则,也就是说,传记是如何将她们的人生故事与主流历史论述相结合。这套被称为“赋权结构”的机制带出的是一种面向历史文化的计算批评。

  四、AI时代的网络分析与计算批评 

  2022年底以来,生成式大语言模型进展神速,为人们的生产生活带来了难以估量的影响。2025年初DeepSeek掀起开源潮,这一产品迅速成为各种知识生产工具背后的提速引擎,引发了服务商和传媒界的狂欢。进入AI时代后人们或许会问,像网络分析这样执着于细节的分析是否还有意义?或者说,基于规则的建模已经过时了吗?答案是否定的。

  实际上,正如我们在上述大部分研究中看到的,基于规则的关系建模,其关系表示、特征抽取、网络建构和论证推理等基本环节均清晰可见,可回溯、可定位,并不存在黑箱,这让研究者均可带着计算结果回到建模过程中,在每一个特征的细部上与文本细读的经验一一对应,打开了知识理解和创造的一片新天地,从而加深对问题本质的理解。这种理解是透彻浑融的、能够将人文研究真正向前推进。相反,如果仅仅依靠AI的自动化,表面高效的代价是人的体验和理解的悬置终至退场。

   在当下,推理模型与RAG技术结合,确实为构建专属知识库的业务场景提供了高效的解决方案。DeepSeek开源不久,澎湃对齐实验室推出一个应用,将近60万字的《封神演义》和《武王伐纣平话》灌给 DeepSeek R1模型,五个小时后它计算并绘制出了一张包含1126个节点、4794条关系线的封神宇宙人物关系网。这个网络不仅可以答出“李靖和哪吒开始是父子关系,在李靖被哪吒追杀时会变成敌对关系”这样的显性逻辑关系,还会就这些关系“推断”出文本主旨:“1、天命意志与世俗伦理的碰撞;2、个人修行与宗法制度的调和;3、因果业力与封神使命的交织。这三点共同构成《封神演义》‘以劫证道,替天封神’的核心主旨。”值得注意的是,这是一个标准的RAG流程,即实验者先行引导AI调用开源大模型对人物关系做向量表示,知识库建立起来后再利用DeepSeek强大的“推理”能力,对人物关系做出“深层”判定。 

   不难想象,在人工智能时代这种方案解决的门槛会越来越低。此前花费多时训练出的向量模型以及图知识库搭建,现在仿佛瞬间完成了。不仅如此,真正实现“端到端”的从文本到动态关系网络的自动化构建也似乎指日可待。如果说这就是数字人文,今后AI确实可以替代人,在所谓人机协作的过程中,人的戏份将越来越少。但问题是,当工具几乎代劳一切,用户对其背后的计算逻辑所知有限,最终真的能增进人们对文本和网络的理解吗?退一步说,即便用户具备理解这一切的知识基础,这一问题解决的过程对人文研究来说就是有意义的吗?这里不仅涉及复杂的认知挑战,也与我们认同什么样的本体论有关,关键点在于计算的机制能否真正透明。DeepSeek一类“推理模型”固然可以在思考过程中直接呈现“推理链”,但具体计算细节仍然不会给出,也无力给出。在此例中,即便把对关系的归类依据以用户指定的格式输出出来(图9),但是这依据本身未必是可解释、可溯源的,且很难弄清为何模型只定义了这些关系类型。这是因为它处理的并非真正的文本,而是全部语词被转化为高维向量后通过复杂计算得来的语义距离,如经基础语义相似度计算,“盘古”与“伏羲”的向量更接近。其输出实质永远都是通过概率来预测下一个分词(token),这一过程不再与对现实世界的认识、概念、思维和操作具有一一对应的关系,它所制造的更是一种语言上的可能性。所以“创造与被创造”这一结果绝非依据规则可以还原,给出的溯源文本也未必有理据性。也就是说,AI最终生成的是一个复杂的语义网络,或许可以得到一个看似合情理的“推理”结果,但它算的到底是什么已无法说清,人们很难返回有意义的语义特征中去深究这关系的实质为何,也就谈不上对网络的分析和深层次理解了。 

  高维向量计算的复杂性导致数值向量无法映射到人类可理解的概念,个体的生命体验无法通达计算本身,黑箱的问题不可避免,这个问题并不始于大模型,而是从深度学习的图计算就开始了。随着深度学习和分布式语义表示的推进,基于向量的人物表示一直是人物网络建构与识别的基础,单一文本的标注数据集训练出来的人物向量模型也已经可以用于聚类、分类等任务。就功用而言,由于缺乏细读检验环节的支撑,此种手段—目的式的驱动方法已然面临解释的难题,导致最终结果的呈现与实现和算法总是隔着一层,不仅难以引起人文学界的注意,其精神与计算批评也是背道而驰的。

   AI时代,技术工具的解放带来生产力的普遍提高,善假于物的人文学者也是受惠者。计算批评一方面应继续从有明确人文意义的规则出发,巧妙地构建关系型数据集,学会利用网络模型解决传统问题,推进社会文化批评,重申人文价值;另一方面也应直面挑战,积极探索大模型的运用之道,以有效的方式发力。在二者的结合上,目前可行的做法仍然是将AI视为前期关系提取的提效工具。就上述例子而言,由DeepSeek生成的“封神宇宙网络”固然意义不大,但经过一些人工分类和辨识,或许可以从现有结果中筛选出有意思的关系类型建构网络,用于后续进一步的分析计算。也就是说,对于所谓知识发现来说,大模型或许是有价值的。另一种路径当然是将其整合进基于特征的网络建模中,从问题出发定义关系、建构高精度数据集,再在适配的模型底座上微调出专门提取工具,实行点对点准确抓取,以期更有针对性地服务于计算批评的研究设计。 

  〔本文注释内容略〕

原文责任编辑:李琳

关键词:网络分析;计算批评;数字人文;人工智能;远读
【编辑:苏威豪】