网络分析源自网络理论,是探索实体之间的关系结构、实现数据可视化的一种有效方式,也是量化社会科学的重要一支,近年来被整合进数字人文,和各种文本挖掘技术结合,成为数字人文最具吸引力、最有前景,也是取得实质性进展最多的方向之一。网络分析既是一种实践理论,以图论和数学模型为基础,将研究对象抽象为节点与边构成的网络结构,旨在揭示复杂系统中实体间的关系模式与交互机制;同时还是一种方法和技术体系,在漫长的历史中逐步形成了一套统计计算指标与算法,来探索网络的拓扑结构特征,并依托数据处理与可视化工具,将抽象关系转化为直观图谱。
与传统统计分析不同,网络分析处理的对象是关系型数据,它将关系看做节点和边组成的网络,节点表示网络内的实体,例如各类人、事、媒体或组织;边则可以是人际关系、组织关系,也可以是万物间任何一种可能存在的联系。社会网络分析基本遵循结构功能主义的设定,认定行动者之间的关系和交往会造就特定的社会结构,反之社会结构也会制约行动者的行动本身。一般而言,经过关系提取、网络建构、计算分析,可得出包括节点层面的中心度,网络整体层面的网络密度、模块化、凝聚子群,以及整体上的分布形态等统计指标,这些指标通常对应着某项人文社科研究中所关心的核心问题。
一、一种发展线索:从隐喻到模型,由模型而批评
在中国,历史学家、社会学家、政治学家最迟自20世纪90年代起将社会网络分析用于中国社会中非正式关系的研究。社会网络分析为群体传记学开辟了新天地。“中国历代人物传记资料库”(CBDB)从史料中提取近53万条亲属关系数据以及逾18万条社会交往数据,可以直接为网络分析所用。历史学家运用网络分析,结合CBDB和各种自建数据集,对历史上门阀士族的交往情况、唐宋政治精英的联姻模式、理学思想的兴起等一系列课题展开了全新的研究。
尽管如此,社会网络分析绝非简单地等同于人际关系的分析。网络由关系构成,但是关系并不天然是网络。网络更是一个分析概念,是研究者的思维建构,它为研究人际关系、社会结构乃至更普遍的事物结构提供了一个模型。正是基于此,考古学家以考古遗址为节点、以是否曾发掘出同类器物为关系,来构建文化交流网络;经济学家以国家为节点,以贸易往来情况构建国际经济关系网;语言学家根据对语料所做的语法、语义依存的标注,构建句法语义依存关系网络;文学史研究在对家集或著作编年进行数据挖掘的基础上,建构起文人之间的酬唱关系网络;文体学研究则尝试用单维或多维文体特征建立起某种文体关系网络(图1); 如此种种,不一而足。
二、网络分析的基本功用
(一)由“午夜骑行”说开去
网络分析法在人文研究中有什么用途,神奇之处何在?这一数据分析的手段又是如何成为计算批评的一部分的?不妨以美国独立战争史上一个家喻户晓的故事“保罗·里维尔的午夜骑行”(Paul Revere’s Midnight Ride)为例,看看社会学家是怎样借助网络建模来对社会历史结构进行批评性分析的。或许对于大多数人,这一具有导火索性质的事件更为人所熟悉的还是它的结果——“莱星顿的枪声”。然而,关于这枪声背后的故事——是谁为当时的爱国者阵营成功截取、传递了大英帝国的行军情报,却是网络分析关注的重点。我们先从这个角度回顾一下:
保罗·里维尔是谁?1774年的时候,他并非独立战争的领袖,还只是英国早期殖民地新英格兰地区的一个银匠、一个小人物。他还有另外一些身份,大多是隐藏的。当时的一些民众通常会参加数个辉格党的地下组织,里维尔是马萨诸塞州通信委员会的骑手,同时他还参与一个叫“机械师”的小组,这个组织主动地收集有关英国人的行动信息。
正如人们所指出的,“午夜骑行”是罕见的遵循亚里士多德时间、地点和行动统一性的历史事件,就其戏剧张力而言,很少有虚构的情节可以与之媲美。20世纪90年代之前,几乎所有的历史叙事都在渲染这次天才行动的戏剧性和传奇色彩。如上所述,这些叙述更多集中于夜晚骑行这一单一情节,突出的是个人特定行动的历史偶然性,而只有少数例外,如美国历史学家费舍尔(David Hackett Fischer),注重的是如何从历史进程中去揭示新英格兰民众对英军“自发”抵抗的必然性,格外关注了事件发生的整个社会结构基础,也就是作为“信使”的里维尔能够发生作用的整个人际关系网络。在出版于1994年的一本书中,他要探究的是:为什么里维尔可以做到?在1774年秋到1775年春的关键时期,到底是什么使他以一种不可思议的天赋成为事件中心的?
在这一思路的影响下,近二十年来先后有两位社会学家,以相对简单或复杂的办法将焦点转移到了这样一个问题上来:为什么是保罗·里维尔?这个革命前夜的“吹哨人”的角色有没有可能由别人来担当?历史真的只是受到一种偶然性,或者说行动者的主观性驱使的吗?于是,杜克大学的社会学家希力(Kieran Healy)教授也讲了一个故事。他把时间的节点设置在1774年初,那是各个自发的爱国者组织暗潮涌动的时刻,他从费舍尔著作附录中发现了活跃在波士顿地区的七个不同地下组织的245个会员的“黑名单”(图2),试想,如果费舍尔是一名效忠大英帝国的老牌特勤人员,他手里已经握有这份名单,那么,有没有可能在事情发生之前,就利用这份名单,来发现保罗·里维尔这样一个或者多个可疑人物?
他做了一个简单的实验。简单说,画了三个矩阵:一个245×7的,一个7×7的,一个245×245的。
矩阵1(图3)很简单,是对这份名单的二值化表示,体现了人和组织的关系:可以看到塞缪尔·亚当斯属于一个叫作“北部核心”(North Caucus)的组织,同时还属于“长厅俱乐部”(Longroom Club)。从这个矩阵中我们只能知道人和组织的单向联系。该如何发现这些组织之间,乃至人和人之间的关系?
从矩阵2(图4)中可以看到哪些组织通过同时属于它们的人而联系起来,数字表示共同成员的数量。矩阵3(图5)则是人与人的关系,以共同参与的组织数来表示人与人的关系深浅。例如,图5中的某两位人物是通过共同参与7个组织中的两个而建立起关系的。这是一张“很大”的表格,在18世纪它的计算量足以称为大数据了。
仅凭这些矩阵,我们就能对这些地下党的关系有一个明确印象了吗?没有。我们的脑子里完全是浆糊一团,就像图6中的网络一样,尽管它已经是用人与人的关系建立起来的了。
接下来,如果我们仍旧以人物为节点,以任意两个人物共同参与的组织数为边关系的权重,做出网络图并按中心度(centrality)对节点大小进行排序,再按社区发现算法进行“模块化”着色,最后以力导向布局的方式呈现,便可以看到几个较大的节点被突出出来了(图7):处于图中心的保罗·里维尔以一种不同寻常的方式连接起几个“危险”群体。在图7中,我们找不到那些公众历史记忆中重要的政治人物——按费舍尔的观点,他们都不是真正的领袖,波士顿的革命运动是一个由许多不同团体组成的半公开联盟。里维尔在许多不同的圈子里活动,这位联合者把他们联系在了一起。
至此可以说,社会学家是在对此人的传记信息一无所知的情况下——不知道他的信仰、他的写作、他的私生活种种,而仅仅利用了他参与组织的信息,便发现了他在情报联络中肩负的至关重要的桥梁作用。而这些元数据之所以可以起到“四两拨千斤”的作用,其实是通过把一个245×7的二模网络转换成了245×245的一模网络,再将节点的大小按所谓中介中心度(betweenness centrality)排序并做模块化计算得到的结果。具体而言,图5的矩阵被转化为了从源节点(source)到目标节点(target)的一条条用两人共同参与组织数来赋值的边关系列表。
根据所谓中介中心度的算法,可以计算出谁是网络中最具居间作用的人。这是因为该指标表示一个网络中经过该点的最短路径的数量,它关注的是某点“介于”其他两者之间、筛获两点间资讯的“能力”,因而构成了两个群组之间的重要桥梁而显得身价倍增。最后,使用社区发现算法可以算出情报网络中有多少个潜在的社群,从可视化效果中不难发现,里维尔成了这个网络最具有跨社群信息传播能力的人。
借助希力教授自己的分享,我们回顾了网络分析进入社会历史研究的最初场景,然而,仅仅算出这些指标似乎仍然无法有力而令人信服地说明问题,或者说,这些计算看上去得出了新的结论,但是依然没有回答历史社会学家的核心疑问:里维尔究竟是如何做到这点的?
(二)对“午夜骑行”另一面的讨论
实际上,在希力教授研究元数据的前一年,伊利诺伊大学厄巴纳—香槟分校的另一位社会学家已经对“午夜骑行”的数据集做了更深入的网络分析。他不仅同样利用了费舍尔提供的名单,还借助其他二手数据(如一些反殖民研究索引)调查清楚了当时活跃在波士顿地区的245名组织成员的身份、职业、教育等背景信息,从更丰富的角度论证了社会动员赖以发生的结构性基础。他试图说明,在美国革命中,里维尔和他的领导沃伦医生(网络中的第二大节点)是如何利用当时社会上存在的严重断层和分裂来将自身“嵌入”18世纪新英格兰地区的制度和组织环境中的。也就是说,他们利用了革命运动在结构上的脆弱性——既是脆弱的,同时作为中间人更便于将脱钩的人群结为搭档,来发挥整体上的推动作用。
继而,如果同样采用中心度指标来考察,还可以把各种中心度的分布列出来(图8)。在网络中大部分组织成员的中介中心度即间度中心性为零,根本不具有跨社区的桥接作用,只有少数人的中介性极大,他们显然填补了社群之间的“结构洞”,也造成了不平等分布。紧密度中心度也同样如此。如果同时移除里维尔和沃伦这两个中介度极高的节点,则图的总密度下降了31%,对连通性造成极大影响。返回到原始数据中细读,会发现这是因为绝大多数人(约82%)只存在于一份名单上。没有人能够出现在全部七组名单上,只有两个人在多达五份名单上出现——就是约瑟夫·沃伦和保罗·里维尔。据此,作者认为此二人在网络中的位置是同源性的。
这些操作也再次证明,这些团体并没有形成一个紧密、统一的组织。恰如费舍尔所说,独立战争前新英格兰地区的革命运动并非小规模、控制严密、等级森严,它庞大、开放、多样,是由许多彼此疏离的圈子组成的,用今天的话说,这恰是一个自组织系统。里维尔和沃伦的活动比波士顿其他领导人都要多,这使他们成为运动的关键人物,他们并不是刻意牵线搭桥的人,但实际上成了自由事业集体努力的“领导者”、协调者和组织者。这就是“午夜骑行”中另一个鲜为人知的故事。
应该说,在多轮检验的驱动下,对“午夜骑行”另一面的分析从群体社会学的角度成功揭示了革命动员的微观机制。不过,若真正从计算批评的角度反思之,它似乎仍然不够细微,缺乏某种更加深入的讨论。在费舍尔的著作中,对社会结构和重要人物的研究始终是与对人的价值观、信仰的观照紧密扣合的,毋宁说历史学家更关心的是行动背后的观念和人,或者是观念如何促成了人的行动。这是为什么他将大量笔墨放在了对方的重要人物盖奇将军行动合理性的剖析上。他写的是同属一个党派内部的两种不同的自由主义之间的冲突,而并没有把人和组织仅仅抽象为关系节点和群体结构,他的关怀更在于一个个能动的精神主体和整个社会基础之间的互动。这也提醒我们必须想办法将基于现实经验的细读纳入分析中,如此数字人文才能同时具备数据的、计算的、社会历史的和人文的维度。
三、作为一种推理和论证手段的网络分析
近年的人文研究中,作为一种已经脱离了人际关系问题的抽象模型,网络分析的思想和建模手段更多被用于计算批评的推理和论证。这类研究中的网络不再是真实社会关系的映射,而是蜕变为一种形式化的表征。人们通常会从文本中抽取可量化且有价值的关系来建立文本网络,至于网络的意义该如何解释、得出的各项结构指标是否有意义、关系如何编码,以及是否有细读检验步骤,也反映了人文学者的建模水平和与算法对话的能力。我们以两类具体问题的展开来说明。
(一)叙事性文本中的人物角色与节点的关系
叙事性文本(如历史、小说、剧本、游戏等)中的节点指标与人物角色之间到底有什么关系?这个问题自21世纪初以来一直有人关注。曾有人对漫威宇宙系列动画中角色合作关系做统计,计算得出最大分支结构中接近中心度最高的人物是美国队长,他与所有其他角色之间的平均距离是170,故而认为接近中心度是用于衡量故事中谁是主人公的重要参考指标。弗朗科·莫莱蒂(Franco Moretti)也认可了这个指标,他认为莎剧《哈姆雷特》中哈姆雷特到所有节点的平均距离最短(为1.45),是理所当然的“主角”。
莫莱蒂关心的不仅仅是主角问题。与“午夜骑行”一例中两位社会学家的做法相似,他默默地引用网络分析中的聚类化、中介度等概念,试图说明霍拉旭(Horatio)这样看似无足轻重的小人物,正因其居于宫廷与市民社会的中介位置上而具有了迷之魅力。此外,他也同样引入度分布,发展了沃洛克(Alex Woloch)“人物空间”的思想,提出应将人物按叙述功能的重要性重新排布。事实上,莫莱蒂建立的只是简单的共现网络,人物只要在一幕里同台且有台词就可以建立起关系,且网络无权重,最终样貌也缺乏计算的支撑,所谓“远读”在此还是一种开放式的探索,而非根据假设来设计实验解决问题。
(二)网络分析与历史文化批评
正如在“午夜骑行”另一面的分析中看到的,网络建模的手段如果与其他量化方法密切结合,还可以获得更加精细化的论证效果,在这方面,陈松对宋代碑记作者网络的研究堪为典范。
文中采用k-means算法对773篇碑文的内容做主题聚类,结果分成了三组,而最晚出现于四川的一组内容中恰少了孔子、天子、先圣这样的高频词汇,而代之以孔孟、濂溪、二程等词汇,这便呼应了前面的假设:川地与其他地方的交流确实有限。后面还有深入的讨论,例如对碑记所属的组别和篇题中凸显的官学设施的种类做交叉分析,借此得出理学在地方官学中也开始扮演一定的角色等结论。这个研究经网络分析、地理分布、文本语义三重循证,论证了理学思想在南宋地方官学中与日俱增的影响力,使这一原本不易察觉的观念传播过程得到“迹化”。遗憾之处在于没有充分落实到文本细读上,因而错失了让读者对所谈之观点有更真切体会的机会。
计算批评的主要对象是作为一套社会实践的观念领域,在这方面青年汉学家卢娴立(Henrike Rudolph)关注的是历史书写的意识形态问题。中国女性在20世纪上半叶的政治舞台上曾经扮演了什么角色,这种扮演和后来的历史书写是什么关系?研究者从《中国妇女名人录》中提取一种“传记关系”,以1949年前的两份集体传记资料做参照,想要弄清从20世纪30年代到80年代的传记资料是如何借由对妇女运动的记录来为对象“赋权”的。
首先研究从传记文本资料中提取语词实体的共现关系,为人名与人名,以及人名和各种组织、机构之间建立关系,从而编码出两种关系网络:第一种是个人与个人的一模网络,第二种是个人与事件/机构/组织的双模关系网络。比较第一个网络中女性节点度和男性节点度,可清楚地看出重要女性人物与重要男性人物的关系,揭示出女性和男性的关系仍然是最重要的社会关系,而并非如妇女运动研究者所说,女性自己的网络发挥了重要作用。由于前者是私人网络,而后者可视作社会活动网络,比较同一个女性在两个网络中的中心度变化(如史良和宋庆龄在单模网络中都高,但是后者在双模网络中远高于前者),可呈现集体传记是如何采用不同的叙述策略来为不同角色的女性“赋权”的。
其次,比较接近中心度等指标在1949年前后的网络中排名的变化,还可以了解生平叙事到底是将某些妇女仅仅描述为民国时期的早期活动家,还是同时也兼顾她们在上级领导下参政的经历。其中最大偏差体现在谭惕吾的例子上,研究注意到了入册与否不仅取决于某人是不是妇女运动的“老兵”,还要看她们在新的历史时期能否继续与社会主义革命建设保持密切关系,从中可以进一步确认《中国妇女名人录》在编写过程中隐含的叙述逻辑与原则,也就是说,传记是如何将她们的人生故事与主流历史论述相结合。这套被称为“赋权结构”的机制带出的是一种面向历史文化的计算批评。
四、AI时代的网络分析与计算批评
2022年底以来,生成式大语言模型进展神速,为人们的生产生活带来了难以估量的影响。2025年初DeepSeek掀起开源潮,这一产品迅速成为各种知识生产工具背后的提速引擎,引发了服务商和传媒界的狂欢。进入AI时代后人们或许会问,像网络分析这样执着于细节的分析是否还有意义?或者说,基于规则的建模已经过时了吗?答案是否定的。
实际上,正如我们在上述大部分研究中看到的,基于规则的关系建模,其关系表示、特征抽取、网络建构和论证推理等基本环节均清晰可见,可回溯、可定位,并不存在黑箱,这让研究者均可带着计算结果回到建模过程中,在每一个特征的细部上与文本细读的经验一一对应,打开了知识理解和创造的一片新天地,从而加深对问题本质的理解。这种理解是透彻浑融的、能够将人文研究真正向前推进。相反,如果仅仅依靠AI的自动化,表面高效的代价是人的体验和理解的悬置终至退场。
高维向量计算的复杂性导致数值向量无法映射到人类可理解的概念,个体的生命体验无法通达计算本身,黑箱的问题不可避免,这个问题并不始于大模型,而是从深度学习的图计算就开始了。随着深度学习和分布式语义表示的推进,基于向量的人物表示一直是人物网络建构与识别的基础,单一文本的标注数据集训练出来的人物向量模型也已经可以用于聚类、分类等任务。就功用而言,由于缺乏细读检验环节的支撑,此种手段—目的式的驱动方法已然面临解释的难题,导致最终结果的呈现与实现和算法总是隔着一层,不仅难以引起人文学界的注意,其精神与计算批评也是背道而驰的。
〔本文注释内容略〕
原文责任编辑:李琳