摘 要:计算社会科学共同体对如何进行科学研究有一定共识,从证伪主义出发,这一共识可以用“预言—复现”范式进行概括。通过识别“预言”的三种类型及机器学习在社会科学研究中的五种用法,我们可以回应社会科学研究者对以机器学习方法为代表的计算社会科学方法“不易阐释”和“数据驱动”的疑问和批评。研究者阐释方法的责任与所用方法在论证中的中心性呈正比,“预言”和“阐释”之间存在权衡,研究越容易频繁地得到校验,阐释越可以后置;在认知的经济性视角下看,“数据驱动”和“理论驱动”没有原则上的高下之别。在当前社会条件下,“社会科学智能”介入社会科学研究,会面临算力不平等、数据不平等以及成果发表和认定困难等一系列问题和挑战。
关键词:网络;机器学习;预测;重复研究
作者李代,中国政法大学社会学院副教授(北京102249)。
人工智能在科学研究中的运用方兴未艾。早在20世纪90年代,社会科学就出现过“人工智能”热潮:“社会学家之前已经熟练地掌握了如此多种多样的统计工具,有人或许以为我们的量化方法论已经彻底成熟。因此,神经网络竟然可以和多元回归等地位得到公认的方法竞争,令人惊讶。尤其是对文本数据的分析,社会人工智能或许会被证明比其他方法更加优越。对于量化数据的管理和分析,人工智能也可能会扮演重要的角色。”
“社会科学智能”是计算社会科学的一个子集,借助机器学习等人工智能方法研究社会科学问题。近年来由机器学习方法的突破引发的人工智能浪潮,是将改变社会科学研究的格局,还是像20世纪90年代一样无法留下影响深远的遗产?本文采取“预言—复现”范式理解“社会科学智能”的内在逻辑,回应人工智能方法“不易阐释”“数据驱动”等批评,通过列举“社会科学智能”的五种应用来探讨“阐释”与“预言”的权衡,并指出学术界面临的若干现实挑战。
一、计算社会科学的“预言—复现”范式
社会科学共同体基于朴素的证伪主义理解“科学”的边界。基于这一证伪主义方法论,可以建立计算社会科学与传统量化研究者相互理解的桥梁。
(一)证伪主义视域下的“社会科学”
“科学”的边界何在?波普尔的证伪主义给出过一个界定方案:可证伪的命题即科学命题。在波普尔的论述中,科学命题未必是全称命题,但因为科学命题的适用范围越广则价值越大,因此科学家更倾向于追寻适用范围广的命题。可见,波普尔提出的方案不只包含用来给命题“定性”的判定标准,也包含对思想经济性的“量化”考量。由此出发,符合波普尔定义的、关于社会的命题或可称为“社会科学”。在这种立场看来,“社会科学”是一般意义上的科学的一个子集。需要指出,这种观点未必是“科学主义”的:“科学”高于“非科学”,科学家应该做科学而不做非科学。本文则悬置这一价值判断,文中带引号的“社会科学”仅是“可以被证伪的、关于社会的命题”的简写。
波普尔的证伪主义过于理想化。科学实践并未把逻辑上的可证伪性作为评价的单一标准。柯林斯的“智识网络”和布迪厄的“场域理论”把科学家看作社会行动者,科学理论的发展离不开科学家共同体的社会互动。因而,学术共同体的一个重要使命是约定实践中“证伪”的标准和规则。即使共同体不能约定种种情况下“证伪”的标准和规则,至少研究者本人也应该明确自己特定研究的被证伪条件:如果作者可接受的证伪条件极为苛刻,可能意味着其结论适用的范围也相当有限,因而价值不高,这和波普尔关于思想经济性的考量是一致的。
基于上述关于证伪主义的讨论,我们可以总结一种对“社会科学”边界的理解方案:“社会科学”指的是关于社会的可证伪命题。命题适用的范围越广,价值也就越高;不过,适用的范围越广,也越容易遭遇反例。在二者权衡之下,“社会科学”共同体对自身研究的价值和贡献可以给出适度的评估。在这一点上,计算社会科学家和其他社会科学研究者可以达成共识。
(二)证伪主义基础上的“预言—复现”
基于上述逻辑,可以想象科学研究实践遵循“预言—复现”范式。为了准确描述这一范式,首先需要对关键概念作出说明。
第一,本文将“对研究过程进行重复的行为”称为“重复”,而将“得到与原研究类似结果”称为“复现”,对某研究进行重复,不论结果是否复现,都将其称为“重复研究”。
社会学等“社会科学”在实践中重视重复研究的程度远逊于其方法论主张。如果在学术实践中拒绝开展、发表重复研究,就无从发现反例、检验科学命题。这样,科学研究难以持续积累,在诸多问题上或许只能浅尝辄止。
第二,还需要界定“预言”的含义。“社会科学”的预言有明确前提条件。若忽视这些条件,会导致对“社会科学”抱有不切实际的期盼,或者无法切实评估研究结果的复现水平。关于“预言”或“预测”,陈云松等的探讨值得参考。词源学表明,“prediction”由表示“在前”的词根“pre-”和表示“说”的词尾“-dict”构成,因此译为“预言”比“预测”更加准确。问题是,在什么之前说?在日常语境下,“预言”似指在事件发生之前说。但在“社会科学”语境下,“预言”指的是在答案揭晓之前说,预言之“预”发生在认知维度而非时间维度上。
科学家在使用“预言”一词时有至少三种不同的用法:“(模型内)样本内预言”“(模型内)样本外预言”和“模型外预言”。样本内预言,指的是对于给定的样本数据,用一部分数据训练模型,再用另一部分来检验模型预言的表现,例如V折交叉检验,其目的往往是避免“过拟合”问题。样本外预言,指的是用旧样本数据训练出模型后预言新样本数据中输出变量的情况。样本外预言是一种典型的重复研究,也最符合“预言—复现”的应有之义。
样本内预言和样本外预言都有一个隐含的前提,那就是用来预言的模型前后不发生改变。由此,本文将前两类预言称为“模型内预言”。此外还有模型外预言,超出经验模型的范畴。例如,“大学排名”就是这样一个例子:经验世界中并不存在一个客观的变量“大学质量”,用来排名的指标的权重、最终排名的高低注定是人为产物。在这个意义上,“大学排名”是“不可证伪”的,也不存在“科学”的排名方法。
区分三类预言有助于澄清社会科学智能的限度。社会科学智能利用“样本内预言”训练模型,进行“样本外预言”,“模型外预言”则不在其能力范围之内。这意味着把机器学习方法用于“社会科学”不总是能提高研究质量。诸如“大学排名”等问题在原则上就不太可能通过这类方法解答。不仅如此,还有现实条件制约。例如,多来源的行政管理数据往往缺失重要变量,或数据结构、口径不统一,难以直接应用机器学习方法。另一局限体现在“因果推断”(causal inference)。因为“反事实”不可能被观测到,也就不能被直接用于检验模型预言的准确性。在这个意义上,目前机器学习不能直接用于识别因果,只能辅助进行因果推断,例如通过随机森林方法建构“反事实”做参照组,研究者可以计算政策效应。
二、社会科学智能与传统量化研究的观念张力
社会科学中传统量化研究亦可在“预言—复现”的框架下理解与评估,这是社会科学智能与量化研究兼容的前提。 有些量化研究并不可证伪,因此量化研究与狭义的“社会科学”并不能画等号。在知识或哲学层面,证伪主义或“预言—复现”思想中的诸多成分对社会科学来说并不陌生;但在实践层面,传统量化研究对这些规范重视不足。在这个意义上,裹挟着另一套“做研究”实践和规范的计算社会科学异军突起,促使人重新审视量化研究“做研究”的惯习,彰显二者之间的观念张力。
在“预言—复现”范式的框架下,量化研究实践中的一些观念与社会科学智能不同。二者之间的差别与其说是关于“真伪”的认识论差别,不如说是关于“好坏”的价值观差别。本文并不拟说服任何一方哪种观念更加优越,仅试图澄清二者之间的张力。
(一)“不可知论”的社会科学智能研究
传统量化研究对机器学习方法的第一个批评是其“不易阐释”。在此首先需要辨别,计算机科学或统计学界也会谈论机器学习方法“不易阐释”,但很多时候“不易阐释”的是计算过程。例如,计算机科学家谈论卷积神经网络可以根据图片数据中每个像素及其周围像素的信息对图片内容进行分类,这个过程可能是难以“阐释”的,但这里的“阐释”属于计算机科学专业知识,与一般社会科学家感兴趣的问题相去甚远。本文谈论的“不易阐释”仅限社会科学家发出的疑问,即复杂性较高的模型结果何以加深我们对社会现实的理解。
阐释为什么必要?这反映了两种文化、两套观念的差异。社会科学存在两种研究文化:一种认为模型反映现实生活中的社会机制,另一种认为社会机制高度复杂、不易观察,因而“不可知”(agnostic)。这种对阐释的理解继承了对统计学中“数据模型”与“算法模型”两种文化的思考。数据模型文化假设模型反映客观世界中变量间的关系,往往采用参数模型形式;而算法模型文化不假设模型符合客观世界中的机制,更看重模型的预言表现。
从观念来看,传统量化研究的惯习更接近数据模型文化。不过反映“不可知论”思想的机器学习方法亦可在社会科学研究中有一席之地。下文总结五种机器学习方法的用法,据此提出判断阐释重要性的约定:对方法进行阐释的责任应与其在论证中的中心性成正比。
第一,机器学习方法的发现可以用于启发进一步研究。有学者主张机器学习的发现可以尝试用其他方法校验,这时前者可以被理解成“指月”之“指”,既已见月,其任务便已完成。例如,采用主题模型对文本进行分析后发现了一些研究者预想不到的主题,以此为契机重返文本可能发现推进研究的新方向,并通过其他研究方法对此进行检验。如果此时作者对方法不加辩护,也就不应主张其具备证明效力。
第二,机器学习方法可以为数据进行编码。例如对文本、图片、视频之类的数据进行识别、分类。此时使用者的主要关注点是编码是否准确、是否存在系统性偏误。例如访谈者将访谈录音转为文字,只要准确性差强人意即可。不过机器学习算法的预言准确率会影响基于其结果的后续分析模型中变量系数的大小和显著性,应先进行矫正。
上述两种情况下,研究者对机器学习算法可阐释性的要求极低。第二类仅对模型预言准确性有要求,而第一类的要求更少。它们与研究其他环节耦合程度较低、模块化较强,相应的,研究者需要承担的阐释责任也较低。机器学习方法更深入地卷入“社会科学”研究,则又包括以下两种情况。
第三,机器学习方法可以辅助其他量化研究方法。例如,用LASSO回归筛选与因变量相关的协变量,再用LASSO筛选与处置变量(treatment)相关的协变量,最后用这两组变量进行使用最小二乘法的线性回归分析。
第四,机器学习方法可以生成变量用于后续分析。例如,结构主题模型把文本分为若干主题,而每个文档中这些主题的占比可以被用作变量,探究其与其他变量之间的关系。与第二类用法不同,这里“主题”是算法生成的变量,不能在原有数据中找到,通过已有数据来校验算法的准确性较为困难。这时“社会科学”往往通过某种外部校验来评估方法的效度。对于非监督学习方法,这个问题有一定普遍性。
跟前两种用法相比,研究者在这两种机器学习用途中对算法的阐释责任变得更大。在第三类用法中,研究者需要解释为什么采用某机器学习方法能帮助研究者找到效果较好的模型,但不一定需要讨论该方法与特定经验中的社会事实之间有何关系。在第四类用法中,研究者需要解释算法生成的变量与社会现实之间的关联,从而说服读者接受作者不乏主观性的外部校验。
第五,机器学习方法还可以被直接用于寻找变量之间的关系、回答研究问题。例如,用词嵌入(word embedding)模型探讨20世纪的英语文本中“阶级”概念的七个维度如何演变。词嵌入模型自身有清晰的“预言—复现”含义:根据大量文本中词语共同出现的关系训练出的模型可以根据输入的词语预言接下来出现什么词语。在这一过程中词嵌入模型生成了一个巨大的、描述词语有多大可能一起出现的网络。学者利用这一网络描画词语关系的结构及其变迁,在此,机器学习直接被用以回答研究问题,研究者肩负的阐释责任也最大。这意味着提高机器学习结果的可阐释性对于其应用非常重要。
由此看来,机器学习方法在“社会科学”中完成的任务不同,其“不可知”的程度不同、研究者肩负的阐释责任也不同,不可一概而论。因此“不易阐释”作为一个问题在不同研究中可接受的程度不同,应当专事专论。
在认知终极,“预言—复现”与“阐释”趋于统一。如前所述,科学的任务是生产可证伪命题,并且在不断的重复研究中确认其逼真性。如果成功的“阐释”可以在符合论的意义上揭示客观世界中变量间的关系,那么能够最好地“阐释”世界的模型也能最好地“预言”世界。由此而言,“预言”与“阐释”在认知的终极统一,因此二者之间的对立是表面的、暂时的。
当然,现实中人类没法走到这个终极,因而总要对二者进行权衡。假想如下情况:针对一个特定社会现象存在两个模型。数据模型(例如一个线性回归模型)简单易懂,但它预言时准确率仅有20%;算法模型预言的准确率提高到80%,但社会科学家“看不懂”模型建立的输入变量与输出变量的关系。两相比较,哪一个模型更加可取?
在“预言—复现”范式下,算法模型更加可取,因为其较高的预言准确率暗示它的结构可能更接近现实世界中相关变量之间的关系。社会科学家能否理解它未必重要,因为此时我们已经得到适用范围较广的可证伪命题,且其逼真性得到重复研究的校验。这符合前述学者的主张,即应首先选择预言能力最好的模型,之后再尽可能搞明白为什么。我们并非鼓励研究者放弃理解、阐释模型,只是不主张将这些作为研究发表的必要前提,模型的阐释工作可以后置。
此外,把阐释作为锚点来批评算法模型文化,自身也有问题。如果事先把某些被认为具有“可阐释性”的形式作为认知世界的前提,有可能陷入认知陷阱。例如,线性模型就是这样一种看上去很容易阐释的形式。但是即使物理世界较为简单,物理定律的形式也千变万化;人类社会更为复杂,我们却往往采用简单的线性模型进行分析。对非线性的社会事实采取线性模型本就是“不可知论”式的用法。量化研究者用着“不可知论”的方法,若因反对“不可知论”而从原则上反对机器学习方法,在逻辑上就不自洽了。
社会科学智能研究者理念与算法模型文化更亲和,而传统量化研究者观念更靠近数据模型文化。双方对阐释问题的重要性估量不同,算法模型文化认为阐释可以后置,或者由学术分工中的其他环节来解决,而先发表研究结果才能给阐释创造更有利的条件;数据模型文化则认为阐释优先,如果作者不能给出令人满意的阐释就不应允许其结果进入知识世界(例如在同行评议的期刊发表)。与这些观念差异相比,双方在统计技术和对社会世界的认识上存在的差别可能只是次要的。
两种观念的差异与两种文化下的实践差异紧密相联。如果研究能够短周期、高频率得到公开发表与重复,则可以通过频繁的纠错和迭代来甄别有价值的研究,每个研究也就可以悬置阐释。而若研究发表的周期长、通过重复研究得到检验的频率低,每个研究一开始就需要阐释得很充分。传统量化研究中的很多规范,目的恰恰是在低重复预期下力图提升研究质量,而这不一定适用于所有的研究实践。
(二)“数据驱动”的“社会科学”研究
对机器学习的第二个批评是它由“数据驱动”,与“理论驱动”存在本质差异。“理论驱动”的研究绝对优于“数据驱动”的研究,这似乎是部分“社会科学”研究者的信念,这种信念的依据其实并不明晰。
批评“数据驱动”的一个角度是“过拟合”。学术界不赞同先进行数据分析再包装成理论驱动的研究,这被称作“根据结果提出假设”(Hypothesizing After the Results are Known,HARKing)。这种做法不仅在道德上不诚实,还可能导致其理论结果在新数据得到重复的可能性降低,因为从数据中归纳的理论有可能拟合了数据中的“噪音”,造成“过拟合”的问题。机器学习研究受数据驱动,自然存在过拟合的风险。此外,如果这类研究一定要符合理论驱动的口味才能发表,往往被倒逼形成“根据结果提出假设”。对此,下述两方面问题有待澄清。
其次,不同的研究文化对于命题如何上升成“理论”的理解存在差异。例如,不少传统量化研究回答的仅仅是适用于一时一地的具体问题,这在一些批评者看来已经相当缺乏“理论”贡献,所以才有认为这些研究“精致的平庸”的批判。与此同时,一些社会科学智能研究的现象甚至没法回应已有文献中的“理论”问题,而自己另起炉灶提出了新的问题,这样似乎更加脱离“理论脉络”。
在“预言—复现”范式下,如果研究命题的普适性更强,固然价值更大;如果能形成一套这样的命题构成的系统性解释,固然价值更大。但是限于种种现实条件,有时研究者的选择是把更多精力投入到结果的扎实性上。到底看上去更加普适或更加系统性但逼真性可能不太高的结果更有贡献,还是看上去非常具体但逼真性更有说服力的结果更有贡献?这本身便是价值判断而没有天然正确的答案。
总之,关于“数据驱动”还是“理论驱动”的问题,还需要更贴合研究实践的讨论。采取“数据驱动”进行研究到底会带来什么恶果?对此需要更多经验证据来揭示。
三、社会科学智能带来的现实挑战
在讨论“预言—复现”范式的基本逻辑时我们已经触及了思想的经济性问题,但对在真实世界的政治、经济、技术条件下运作的社会科学智能,目前的讨论还相当不足。实际上社会科学智能的勃兴根源在技术条件的改变,而其发展也不能忽视下述三方面问题。
其次,社会科学智能面对一定程度的算力不平等问题。社会科学智能的方法本身不具备排他性,研究者可以自己学习使用。但是要实现算法需要的算力却并非如此。例如,当前备受关注的大语言模型参数可达上百亿,训练这样的模型所需的算力远非普通研究者自己能够满足。虽然也可对产品化的模型进行调优,但是这对技术和资源的要求已经把不少社会科学界的研究者拦在门槛之外。除非学术共同体有意提供相应的基础设施,否则算力不平等问题势必不同程度地存在,研究者将日益依赖大型技术企业的支持。
以上两点虽然非常值得警惕,但不能因此而否定整个领域。近年来关于企业或其他组织中数据化治理的研究表明,企业或其他组织正逐步开展大量的社会科学智能研究,在此基础上可以理解系统中利益攸关方的行为,甚至寻找操控攸关方行为的干预方案。如果学术界不能获得对等的认知能力,难以为有效地监督滥用算法的行为建言献策。
最后,目前的学术出版实践不满足发展社会科学智能的要求。如前文所说,社会科学智能研究包含大量的技术问题,如果不加以澄清则重复研究难以实现。传统量化研究也面对这一问题,因此目前国内外有一些高水平刊物提供在线技术附录以及代码。但是实际上仅靠期刊提供的代码能成功重复原有研究的比例相当低。由于社会科学智能涉及的非参数方法内在的不确定性往往更大,这一问题对社会科学智能来说更为突出。
总之,社会科学方法获得合法性并不仅仅依赖方法论上的合法性,还受其所处的社会现实条件的影响。对此必须从社会学的视角加以理解,否则难免陷入“不接地气”的窘境。
结语
通过观察计算社会科学和传统的社会科学量化研究,本文尝试归纳出一个基于波普尔证伪主义的“预言—复现”范式,作为理解其各自研究运作逻辑和二者间张力的方案。由此回应量化研究对社会科学智能的两条主要批评,即其“不易阐释”和受“数据驱动”而非“理论驱动”的问题。在“预言—复现”范式下这些批评都有逻辑自洽的解答方案,成为问题的与其说是方法本身,不如说是方法所内嵌其中的学术研究条件和学术共同体的实践。在数据积累、方法更新、范式转型逐渐显现的当下,就“社会科学”研究方法论达成一定共识,形成新的约定,从而与社会各界共同探索数据、算力和理论等各种要素在新研究实践中的作用方式,是亟须学术共同体重视的问题。
需要补充的是,基于仿真的计算社会科学研究——例如采取多主体行为仿真方法、以演绎逻辑为主的研究,是否也统摄于本文所说的“预言—复现”范式之下?这类研究可以用于生成可证伪的命题、建构待探索的理论,因而在“预言—复现”范式中扮演了“命题—理论”生成的角色,从而可以被统摄于“预言—复现”范式之下;亦有部分并不能生成可证伪命题,但或许能给读者带来启发,价值不可抹杀。多主体行为仿真的系统参数设定可能需要参考经验数据,因而也并非无本之木。在这个意义上,两类计算社会科学研究互相渗透。关键不在于具体的研究方法本身,而在于研究者如何使用这一方法。
〔本文注释内容略〕
原文责任编辑:李凌静 余朋翰