摘 要:对于因果的哲学研究,哲学文献至少可以追溯到《斐多篇》。
关键词:潜在结果模型;结构因果模型;规则性理论;四因说
摘要:亚里士多德的四因说,作为因果理论的肇始,界定了之后两千年因果讨论的范式,而休谟的因果理论和穆勒五法蕴含着现代因果推断的思想雏形:用反事实来分析因果。随着后牛顿物理学的兴起,因果概念本身的合法性与重要性遭到质疑。20世纪末,用反事实分析因果的径路兴起了“因果的革命”,逐步建立起了当代三个因果的反事实模型:以可能世界的反事实模型为基础的因果理论,以及数据科学的结构因果模型与潜在结果模型,尽管它们有共同理论直觉,却选择了不同的刻画方式。这一“因果的革命”也对其他社会科学领域的研究方法构成革命性影响。
关键词:潜在结果模型 结构因果模型 规则性理论 四因说
作者吴小安,西北工业大学马克思主义学院暨陕西省舆情信息研究中心研究员(西安 710072);张瑜,北京大学哲学系博士研究生(北京 100871)。
责任编辑:王志强
一、因果关系
日常生活中充斥着因果语言显性和隐性的使用,“因为”“导致”“影响”“干预”“改变”,且以因果关系为基础,我们行动、展望、决断、解释、辩护和干预。很难想象没有因果语言的日常生活会成为什么样子,也很难想象不遵循因果关系而行的世界将会是什么状态。难怪德谟克利特(Democritus)会动情地说:“相较于成为波斯王,我更偏爱于发现一条因果律。”
对于因果的哲学研究,哲学文献至少可以追溯到《斐多篇》,在其中苏格拉底回忆道:
我年轻的时候对自然界的研究深有兴趣,我急切地想求得这方面的智慧。我想知道世间万物的原因,为什么一件东西从无到有,为什么它死了,为什么存在?这种种,我要是能知道,该多了不起啊。
当然他最终否定了他探求的意义,“我研究的完全糊涂了”。之所以会如此,主要是因为他的那些问题,要么太难了,比如“人为什么会生长”,不是他那个时代能够回答的;有些问题则和因果无关,比如“为什么一加一等于二”,这种问题需要的是一个数学解释。但是他基本界定了他之后因果研究的范式:关于原因的寻求就是关于“为什么”问题答案的寻求。
亚里士多德接续了这样一个传统,“原因”对应的是对“为什么”的回答。如果要认识一个事物,要拥有关于一个事物的知识,那么必须首先了解它的“原因”。在综述前人研究的基础上,他提出了“四因说”来解释事物的运动与变化。而质料因、形式因、动力因和目的因分别对应着四个“为什么”的问题:为什么事物在运动中持续存在?为什么事物以某种特定方式运动?为什么事物开始和停止运动?为什么事物要运动?
亚里士多德理论的问题在于,首先,他把因果的探求设想为是对“为什么”问题的回答,而“为什么”的问题就是寻求一个解释,但是并不是所有的解释都是因果解释,比如你要给别人解释为什么哥德尔不完备性定理是对的,那么这就不是一个因果解释;其次,亚里士多德对于原因的一些理解也在今天的时代逐渐被扬弃,比如他提出目的因(final cause),一个对象的目的因就是这个对象是为何而被创造,它存在的理由为何,为何在某个特定的时间以某种方式存在。比如,安装玻璃是为了透光,沙漠中的植物根系比较发达是为了更好地吸收水分和养料。今天受自然主义的影响,以及科学解释理论对通过目的来解释为什么事物发生以及为什么对象是其所是之方式的普遍怀疑,越来越多的人开始反对自然对象有目的因。斯宾诺莎指出,“一切目的因只不过是人心的幻象”,是人们“无知和贪婪的产物”。而人们之所以认为万物皆有“目的”,是因为昧于事物的真正原因,便只好“凭主观的揣想”来思考事物。最后,目的因之外,在当代的因果讨论中,亚里士多德的形式因、质料因也都被扬弃了,只有动力因还契合着当代因果的讨论,比如玻璃破碎的动力因是那些顽劣又糟心的孩子。
一般认为,因果的当代讨论肇始于休谟。作为一个彻底的经验主义者,首先,休谟认为我们所有的观念都是来自感觉印象(即来自经验或者是对经验的反思);其次,在休谟的时代,大家都持有一种决定论的立场,认为因果的观念似乎就是必然联结(necessary connection)的观念——即给定原因,结果必然会发生;最后,根据休谟的认识论,我们没有(不能有)任何必然联结的经验(我们可以经验到一个事情正在发生,而不是它必然会发生),所以他最终得出:因果的观念不是必然联结的观念。
如果上述结论是对的,那么有如下两个问题休谟需要回答。第一个问题:如果因果的观念不是必然联结的观念,那么它是什么观念?在休谟看来, 经验告诉我们一个原因是时间上先于(temporally prior)且空间上接近(spatially contiguous)它的结果,与原因类似的事件(events similar to the cause)是和与结果类似的事件(events similar to the effect)恒常结合着(constantly conjoined)。
我们也回忆起那些对象在过去一切例子中的恒常结合。没有经过任何进一步的程序,我们就把一个称为原因,把另一个称为结果,并由一个的存在推断另一个的存在。
所以关于因果的观念包含着如下三个要素:首先,时间上优先(succession);其次, 空间上接近(contiguity);再次,恒常的结合(constant conjunction)。结合这三个要素就可以给出休谟的因果定义,一般称之为“因果的规则性理论”。据此可知,因果的规则性理论是一个还原理论——它把因果还原为一个非因果的事实和“规则的后继”(regular succession)的关系,而且因果的定义和因果的推断模式是一致的。
第二个问题:为什么我们会那么确定因果观念是必然联结的观念? 休谟指出,关于与原因类似的事件和与结果类似的事件之间恒常结合的经验使得我们形成了一种心灵的习惯(habit of mind):当看到与原因类似的事件的时候,很自然地期待与结果类似的事件的发生。这种期望(expection)被我们投射到世界之中,成了原因和结果之间必然联结的观念。在这个解释之下,因果的规则性理论否定了必然联结的观念是某种独立于我们的期望而存在于这个世界中的观念。
正如上面所说,休谟的因果定义和因果推断模式是“一而二,二而一”的。哲学家约翰·斯图尔特·穆勒(John Stuart Mill)同样主张因果的规则性理论,但是有别于休谟,他详尽阐述了因果归纳推断的基本工具,即穆勒五法:求同法、求异法、求同求异并用法、剩余法、共变法。他的方法论深刻影响了当时社会科学的研究。比如,约翰·斯诺(John Snow) 发现1854年伦敦霍乱的原因所使用的方法就是穆勒的“求同法(也称为契合法)”。疫情暴发的时候,人们不清楚疾病是如何传播的,斯诺发现这些病患有一个共同点,即他们都在宽街的水泵附近居住,更近一步,发现那些不住在宽街水泵附近的病患也有饮用宽街水泵中水的经历,由此确定宽街被污染的水源是这次疫情的原因,而并非之前所认为的“空气”。
穆勒五法中和当代因果模型在精神上最切近的是“求异法”,穆勒是这样描述的:
如果在所研究的现象中一个例示发生了,一个例示没有发生,这两个例示除了一个情形不同之外其他所有情形都相同,这个唯一不同的情形出现在第一个例示中,那么这两个例示唯一不同的那个情形就是现象的结果,或者现象的原因,或者现象的原因不可或缺的一部分。
求异法本质上是通过判定原因是否是结果的充分条件来判定它们之间是否有因果关系的方法,如果事件A(比如熬夜)的发生必然伴随着事件B(比如疲劳)的发生(注意并不要求事件A是事件B的必要条件),那么由此可以推定事件A是事件B的原因。
求异法预设了非常严苛的条件。首先,它预设了决定论,一个原因的发生必然伴随着它结果的发生。但是现实的数据一般都是不满足,用当代社会科学的研究术语来表述就是,要完全消除所研究个体的异质性(heterogeneity)是非常困难的,哪怕是在最严格的对照实验中, 两个个体也很少背景条件完全相同的。就算熬夜是导致第二天疲劳的原因,但是可能还有其他因素让一个熬夜的人感受不到疲劳,比如他非常年轻、身体健康,偶尔的熬夜对于他第二天的精神状况没有什么影响;其次,它要求原因是每一次结果发生的必要条件,现实的情形要远为复杂和不确定,在实践中存在测量误差 (Measurement Error) 的可能性,所以数据可能不存在完美的规则性,可能存在一个结果的发生有多个原因的情形,所以就算某一个原因不发生,结果还是会发生。这也是后来约翰·麦基(J.L.Mackie) 提出 INUS 条件 (INUS,是英文Insufficient but Necessary part of an Unnecessary but Sufficient condition的缩写,意思是“某个充分但不必要条件中的必要不充分部分”)的张本。
但是求异法实质上已经蕴含了现代因果推断的思想雏形,通过处理个体和控制个体的比较来判定因果关系,它隐含着一个非常强的假定:在处理之前,两个个体是确切类似的(这两个例示除了一个情形不同之外其他所有情形都相同)。现代统计科学的方法就是构造类似的两个子总体来实现因果推断。
二、 因果与反事实条件句之劫
在19世纪之前,人们普遍认为我们对于物理世界的理解是围绕着原因概念和一般的“因果律”构建起来的,之所以被封为“律”,就隐含着认为它是无例外的,具有普遍性。休谟认为:“一切关于实际的事物的推理,似乎都建基于因果关系之上”,因果是“宇宙的黏合剂”(the cement of the universe)。康德认为因果律(Laws of Causality)是我们获得经验世界知识的必要条件。
但是到了20世纪初,主流的物理学家和哲学家都认为,在根本上,因果的概念对于理解物理世界并不是特别重要。哲学家伯特兰·罗素(Bertrand Russell)就明确指出:
所有的哲学家都想象地认为因果是科学基本的公理之一,但奇怪的是,在最前沿的科学(advanced science),像引力天文学(gravitational astronomy)中,“原因”这个词从来没有出现过 ……但物理学从来没有试图去寻找因果关系。对我来说,哲学家们应该不要再将因果概念视为一个合理的概念,因为物理学停止寻找原因的理由是事实上不存在因果这样的东西,我相信因果律只是过去时代的遗迹罢了,就像君主政体一样,只是因为被错误地认为是无害的,它才能够延续至今。
罗素反对的是因果实在论(Causal Realism),那种认为因果具有客观的或者心灵独立的特征,具体地说,罗素反对那种认为因果关系是前沿物理学描述现实的基本构成之一的观点。但有一点需要强调的是,罗素并不反对决定论,事实上他认同拉普拉斯式的决定论。时至今日,决定论是否成立依然是一个悬而未解的问题,哲学家约翰·诺顿(John D.Norton)论证了罗素所谓最前沿的科学“引力天文学”并不蕴含着决定论,甚至在经典力学中决定论都是不成立的。
于是在20世纪早期,因果有预谋般地从哲学家的工具箱中消失了。当古德曼的反事实理论要决定哪些事实可以和一个反事实假定“可共同支撑”(cotenable)时,诉诸因果概念也许是有助益的,但是古德曼并没有这么做。亨普尔并不认为因果概念在任何解释理论中都是有用的,他戏谑地写到,试图用一个原因来做解释,就像在一张纸条上写着“在某个地方隐藏着宝藏”, 但却没有说具体地址。
对于反事实条件句(后面非必要都简称为“反事实”)的分析同样命途多舛(反事实条件句作为一个问题浮出水面,是因为逻辑实证主义者试图用弗雷格所创立的那套严格的新逻辑来整编科学的语言,当使用真值函项来分析倾向谓词时,反事实作为真值函项分析的一个例外就凸显了出来),它的可共同支撑分析和严格条件句分析(strict conditional)都不是特别成功。蒯因甚至认为反事实的命题可以是没有任何意义的,比如下述两个条件句:
1.如果比才和威尔第是同胞,那么威尔第是法国人(If Bizet and Verdi had been compatriots, Verdi would have been French);
2.如果比才和威尔第是同胞,那么比才是意大利人(If Bizet and Verdi had been compatriots, Bizet would have been Italian)。
它的真值是模糊的,说明反事实作为一种主观条件句缺乏清晰和确定的真值,而且反事实要预设一个“虚构的世界”(feigned worlds),这在蒯因看来同样不具有合理性:
虚拟条件式与间接引语类似,甚至比间接引语更加依赖于一种戏剧性的投射:我们要佯装相信前件,然后看看后件在多大程度上是可信的。要设想现实世界的什么特征被保留在反事实前件的虚构世界中,人们只能从虚构者在编造故事时可能抱有的目的来设身处地地去猜测。
蒯因的反驳义正词严,确定反事实的真值需要设想一个“反事实前件”在其中为真的“虚构世界”,但是对应于现实世界,这个虚构世界需要保留什么,需要移除什么似乎并没有一个客观标准,而是与表达这个反事实的人的主观意图以及对话语境密切相关。比如上述比才和威尔第的例子,反事实前件到底要表达的是他们同为法国同胞还是同为意大利同胞?这依赖于当时说这个反事实的人想表达什么,依赖于听话者听到这个反事实的时候以为说话者表达的是什么。既然真值完全依赖于语境,那么反事实的哲学分析殊无必要。
三、 三种因果的反事实理论
尽管因果概念本身的重要性和本体论地位在20世纪初叶饱受质疑,以至于以它为工具的哲学讨论很长一段时间都销声匿迹了,尽管对于反事实的哲学分析受到大哲学家蒯因的公然反对,但是因果概念既基本又勾连甚广,通过反事实来理解因果也是如此自然,以至于没有任何牵强不适,不同的学科,如统计学、经济学以及哲学,都各自发展出用反事实来讨论因果的范式。
对于因果的使用在20世纪60年代之后也出现了反转。格莱斯(H.P.Grice)和怀特(Alan R.White)提出感知的因果理论,主张看到一个花瓶就是要求感知者和花瓶之间有相恰的因果关系;齐硕姆(Roderick M.Chisholm) 提出了行动者因果理论,主张人行动的自由不是由几率或者随机所导致的,而是直接由行动者所决定的。戴维森(Donald Davidson) 指出行动的理由就是行动的原因。古德曼发展出了知识的因果理论,以及克里普克的指称理论,正确地使用一个名字就是要求存在一个连接使用和名字承担者之间的因果链条, 还有刘易斯解释的因果理论,解释一个事件就是给出关于这个事件因果历史的信息。
而对反事实的可能世界分析也大获成功(刘易斯隐含着如下对于蒯因的批评:“相较于通过语境来解决含糊性的废纸篓中占多数的那一团乱麻,它把更能够对其做系统分析的东西也甩入了其中。” ),通过反事实来分析因果的哲学理论也应运而生。其实规则性理论的鼻祖休谟早就提出了这样一个想法:
我们把原因定义为有另一个对象伴随的对象,那么所有和前一个对象相似的对象都有和后一个对象相似的对象伴随。或者换句话说,如果前一个对象不曾存在,后一个对象永远也不会存在(“if the first object had not been, the second never had existed.”)。
上述阐述的前半部分是关于因果的规则性理论,而后半部分则被认为“他(休谟)提出了完全不同的设想:因果的反事实分析”。
接下来,让我们先从因果的反事实理论开始,再探讨数据科学的两个反事实模型,尽管它们的分析着力点和理论野心不同,但是对于如何判定反事实的出发点和基本直觉还是共通的。
(一)哲学的反事实模型
逻辑学家和哲学家对于反事实的语义和逻辑研究早已经汗牛充栋,最广为人知的是大卫·刘易斯(David Lewis) 和 罗伯特·斯托内克(Robert Stalnaker)的反事实的可能世界理论(严格来说,斯托内克不只是要给反事实提供一个真值条件,而是要给条件句提供一个一体的理论,在斯托内克看来,反事实条件句和直陈条件句之间的区别只是语用的区别,是属之下的两个种的区别,而不是属之间的区别)。当然,对于反事实的分析除了有研究反事实本身的义趣之外,同样也是为了以之为基础进一步分析因果,因为“我们已经听到了太多说反事实并没有得到很好的理解,因而使用它们来分析因果和其他任何东西似乎并不能获得更多的理解”。
斯托内克语义理论的出发点是拉姆塞(Ramsey)的一个想法:
如果两个人在论辩“如果P,将会有Q吗?” 且双方都对P存疑。他们就是把P当成假说添加进他们的知识储备(stock of knowledge)中去,在这个基础上对Q展开论辩。
上述这样一种解释只涵盖了你对于前件的真值没有任何想法的情形,它可以很自然地推广到你知道或者相信前件为真的情形,但是 如果是已经知道前件为假或者相信前件为假的情形,这时直接地把前件添加进知识储备的方法就不适用了。考虑如下反事实:
如果袋鼠没有尾巴,它就会跌倒。(If kangaroos had no tails, they would topple over.)
通常,当考虑袋鼠没有尾巴的可能世界时,我们不会毫无缘由地偏离现实,也不会天马行空地设定袋鼠有翅膀,或者袋鼠拄着双拐,也不考虑有不同的自然律比如一个没有引力的世界,我们让袋鼠和自然律尽可能和现实世界保持一致的,或者尽可能相似(尽管它还是没有尾巴),那么袋鼠在这个可能世界将会如何,得出结论它会跌倒,于是反事实为真。
所以不只是要把前件添加到信念库中,而且为了保持信念库本身的一致性,还需要删除那些与前件相抵牾的信念才行。
于是,斯托内克给出了一个条件句的赋值过程:
首先,将该前件(假设性地)添加到你的信念库(stock of belief)中去;其次,做不拘一格的修正(adjustment),只要它是维持一致性所必须的(但并不修改前件中的假说性信念);最后,考虑后件是否为真。
至此,刘易斯认为他已经为反事实的理解奠定了坚实的基础,确立了反事实分析的合理性与可靠性,接下来就可以安心地通过它来分析因果,他提出了一个很有影响的因果的反事实理论, 甚至一项制造哲学论文的产业应运而生,即不断地制造刘易斯因果理论的反例,以及在刘易斯理论的基础上,不断地构建更为复杂的因果理论以应对这些反例。
(二)数据科学的两个反事实模型
在经济学中,通过反事实来分析因果的思路其实很早就有了,正如赫克曼(James J.Heckman) 所说:“自从哈维默(Haavelmo)的时代, 经济学家们就已经认识到用精确的模型来构建反事实的需要,计量经济学的框架就是具体关于反事实如何产生以及干预如何指派的。”
但是同样的思路却产生了不同的研究径路,唐纳德·鲁宾(Donald Rubin) 在奈曼(Neyman) 工作的基础上发展出了潜在结果模型,其理论初始是“以个体为基础的因变量”(unit-based response variable),一般表示为 Yx(u),它表征了如下反事实“设使X取值为x,在个体u中Y将会得到的值”。珀尔的结构因果模型径路则与之不同,其理论初始或者理论出发点则是因果机制(causal mechanism),他设想了一种对于具体情形的决定论式的表征或者模拟,并通过干预(intervention) 来实现反事实:“设使一个‘手术式的’干预作用于X以设定其值为x,Y的值将会如何”,进而判定X是否是Y的原因。
让我们以社会科学中发现因果关系的金字标准“随机对照实验”来说明几种反事实模型之间的区别。假定要考察某种药物对某种疾病的疗效。首先,澄清为什么非做随机对照实验不可,为什么不可以通过比较得病服药的一部分人和得病不服药的另一部分人,看看最后结果以确定药物的疗效与安全呢?问题在于现实太复杂。如果按照上述方法操作,就算观察到服用药物的人都康复了,也不能说明药物是病人康复的原因。有可能这纯属巧合;有可能是因为混杂因素的存在,比如,如果让病人自主选择服药与否,那么家庭背景或者性别等因素可能既影响病人服药,也影响病人最终康复,从而导致“选择偏倚”(selection bias);也有可能是逆因果,即与所设想的因果关系恰恰相反。所以要去伪存真,把这些虚假相关(spurious correlations)撇除,以便让真正的因果关系彰显出来。
一种自然的设想,通过“现实”与“反事实”的对比来发现因果关系,根本上就是通过构造反事实来分析因果。比如,为了说明华盛顿是美国独立革命胜利的原因,我们会试图把华盛顿投身美国革命的现实世界与华盛顿没有投身美国革命的反事实世界来对比,说明在反事实世界中,美国独立战争的胜利因为华盛顿的缺席可能会被逆转,以此证明这个因果关系的成立。但是怎么实现这个反事实世界呢?我们又没有时光机可以回到过去改变历史进程:设法阻止华盛顿父母相识结婚以实现一个没有华盛顿的世界。鲁宾称这个问题为“因果推断的根本问题”。于是退而求其次,能否设计出与现实情形相对照的“反事实”情形呢?它既满足反事实前件,又与现实情形尽可能相似,从而就不再是英语谚语中所谓“苹果与橘子”(apple and orange)的比较,而是“苹果对苹果”(apple vs apple)的比较,或者更学术的表述:即实现“其他条件均同”(ceteris paribus)条件。
哲学上,在反事实的可能世界理论中,确定“反事实”情形就是确定与现实世界最接近的前件世界。而世界之间的接近性(closeness)是通过世界之间的相似性(similarities)得到确定的。但是这里的相似性和日常所理解的相似性是不同的,日常所理解的相似事实上就是两个事态之间的一致,但是刘易斯的相似性设想要复杂很多,事态之间的一致只是其中一个方面,违背自然律的奇迹的大与小在世界之间相似性的判定中占有更大的权重。根据他的分析,在判定非回溯的反事实的时候,相似性由如下两个方面的加权来决定:自然律(laws of nature) 和具体事实(matters of particular fact)。当然, 刘易斯的理论是服务于他念兹在兹的“休谟式随附”的形而上学工程,他并未想过要把他的这一套理论建构,这个本体论的工作为生活世界的反事实推断和因果推断提供认识论的指引。
随机对照实验就是要实现这样一种“苹果对苹果”比较,首先通过随机抽样(random sampling)的方式确定所要研究的总体,再通过抛硬币或者抽签的方式(一般称之为随机指派(random assignment)),将研究总体分为处理组(treatment group)和控制组(control group)。不妨采用潜在结果模型的表示法, 令Y1(u)表示总体中一个个体u接受处理(X=1)的潜在结果,令Y0(u)表示一个个体u接受控制(X=0)的潜在结果。于是就可以给出对应于总体的平均因果效应(表示为ACE):
ACE=E(Y1(u))-E(Y0(u))
上述公式所求的就是相同的总体接受处理的平均结果和接受控制的平均结果。但是一个个体要么进入处理组,要么进入控制组,不可能两个全占,所以上述公式的计算乍看是不可完成的任务。但是既然没有条件,那么我们就创造条件。创制出(或者构造出)与现实相对照的“反事实”,以克服这个“因果推断的根本问题”。
根据大数定律,当样本规模不断增加时,样本均值会越来越接近对其进行抽样的总体均值。一个经常举的例子就是掷骰子。每次所掷骰子的结果都是独立的,且随着掷骰子的次数越来越多,所得结果的平均值会越来越接近于3.5,即总体均值。同样地,在随机指派中,当来自同一总体的对象被随机分配到处理组和控制组,当样本足够多时,大数定律也同样确保了这两个组最终也是类似的。
干预组实现的是“设使接受干预……”的世界,控制组实现的是“设使不接受干预……”的世界,两相比照,可以确定因果关系是否存在。即尽管随机对照实验所实现的结果是如下公式:
E(Y1(u)∣X=1)-E(Y0(u)∣X=0)
但是因为大数定律确保了两个子总体之间的相似性,可以把控制组理解成与处理组对应的“反事实”,上述公式可以进一步分解为:
E(Y1(u)∣X=1)-E(Y0(u)∣X=0)=E(Y1(u))-E(Y0(u))
=ACE
通过代入实验数据即可确定因果关系。
但是现实的很多问题并不是随机对照实验所能解决的,正如吴小安和张瑜在《人工智能与因果语言》 中所论述的,有太多内在外在的原因使得实验不能践行,那么能否通过观测性研究(observational study)来解决上述问题呢?鲁宾和因本斯为这个问题的回答作出了开创性和奠基性的贡献,他所提出的倾向得分(propensity score)、工具变量(instrumental variables),以及以之为基础所发展出的更精细的方法,比如回归断点分析(regression discontinuity design)和双重差分法(difference in difference)等,都是把观测性研究看做一种假想的随机化实验来寻找恰当“反事实”情形的技巧。这些方法有很强的技巧性和应用性,特别是近20年,实质地推动了社会科学以及应用统计学的研究。
但是潜在结果分析亦有其问题,比如因果推断的实现有一个非常重要的条件:可忽略性(ignorability)(即“Z是一个可接受的协变量集,如果给定Z,如果X取值为x,Y将取得的值独立于X。”)这个概念实质上是把混杂问题用反事实的词汇重新阐述了一下。缺点在于,它并不能为研究者提供一个可行标准用于指导协变量的选择。既然反事实是不可观测的,既然关于反事实条件独立的判断在寻常的科学知识中并不能轻易可断言,问题随之而来:应该使用什么标准去判定哪些变量对于调整是合适的?珀尔的工作为这个问题的解决提供了一个思路。
总体上,珀尔的结构因果模型(Structural Causal Model)理论的思想资源由两部分构成,一部分就是在经济学和社会科学中所使用的结构方程模型(Structural Equation Models), 另一部分是为概率推理和因果分析而发展出来的图模型理论。首先,珀尔有对于世界的根本设想:拉普拉斯式的准—决定论(Laplace’s quasi-deterministic conception),即认为我们世界根本上是决定论的,而概率只是因为我们对于潜在因素的无知。这不同于诉诸量子力学物理观的随机设想(stochastic conception)。后者认为概率是根本的和内在的,而前者认为因果关系可以以决定论的、函数方程的形式表达,概率的引入是因为方程中某些变量是不可观测或者无知的。由此具体情形可以通过形如 xi=fi(pai,ui),i=1,2,…,n方程组成的方程组来表征,其中pai表示的是确切包含在模型中的xi的直接原因,ui称为误差项,它概括了被排除在方程之外的因果相干变量的影响,并被一个联合分布函数P(ui)所决定。且由此可以画出与这个模型对应的因果图;其次,因果模型只是刻画这个世界的手段,最终的目标是要用反事实来分析因果。把因果模型和反事实联系在一起的桥梁就是干预。在图表征中,对于某个变量的干预意味着移除所有指向这个变量的箭头,同时把变量的取值设定为干预值;最后,珀尔给出了do演算,对于非参数的因果模型,可以来计算和判定展望式反事实(prospective counterfactuals),对于参数的因果模型,可以进一步求解反省式反事实(retrospective counterfactuals)。
四、因果研究再展望
正如前面对潜在结果模型的批评,它并没有给出一个判定标准以确定合适的协变量集,实验的设计本身更多也是一种“黑箱”,其应用只能限制在特定的学科,因本斯(Imbens)和鲁宾的作品可以算是潜在结果模型的“圣经”,但是从它的标题就可知,它把自己的理论应用限定在统计学、社会学和生物医学领域,在科学解释或者因果机制的讨论中它没有贡献。同样地, 珀尔的理论尽管可以判定“可忽略性”,但其理论本身有一些很强的假定,比如,他以模块化(modular)的方式来编码知识。一个结构模型(structural model)是有满足如下条件的方程所组成的一个集合,其中每一个方程都表示了一个稳定的(stable)、自主的(autonomous)和不变的(invariant)物理机制。稳定的意味着,如果方程在其中成立的背景条件在一定范围内发生改变,也不会影响方程的成立;自主的意味着,那些影响其中某些方程的外在干预并不会改变其他方程;不变的意味着,如果干预某个变量Y的直接原因PAY,那么对于模型中其他变量的干预不会影响Y的分布。如果把所有变量的一次取值看成一个世界,其确保对应反事实前件的变量做干预,可以得到可能世界框架中所谓“最接近的前件世界”,从而实现潜在因果模型所谓“苹果对苹果”的比较。首先,世界是否可以以这种拉普拉斯式的准决定论(quasi-deterministic)来刻画?自从牛顿之后,人类开始认识到物理的定律总是通过微分方程的语言来表达,对于世界的刻画,微分方程和结构方程之间的关系如何呢?其次,就算可以如此刻画,是否可以以这种模块化的方式来组织(卡特赖特(Cartwright)对于这种模块化的知识设想有很多批评)?再次,干预所实现的那种干预反事实和随机化的实验过程是否一致?以及它何时才能从纯理论的探讨,从简单的理想化模型分析中飞升出来,在更宽更广的社会科学的应用中去大展拳脚?所说这些,并不是要否定它们,只是说因果的科学化尽管平地起高楼,但是还有很多问题有待去努力、解决和完善。
无可否认,相较于几十年前,革命中的因果理论已足以让人“侧目而视”, 林德利(Lindley)和诺维卡(Novick)曾提到要用因果语言来解释辛普森悖论,但随即又否决了这个方案,因为“这个概念(因果),尽管广为使用,似乎并没有得到很好的定义”。而今,在珀尔的结构因果模型中,它得到了很好的(尽管也许不是最终的)解决。珀尔曾这样评价潜在结果模型:“当前,潜在结果模型只被很少的人所认可,更不用说被应用了”, 这些评价在今天看来已经很不中肯了,不温不火地发展了数十年之后,潜在结果模型和结构因果模型都在近十年迎来了它们的“冲天香气透长安”的黄金时代。“因果推断……是一种独特的思辨方式,很多层面上是传统的数学和概率论所不具备的”,格尔曼(Gelman)等评选了过去50年最重要的统计学想法,因果推断名列榜首, 其实何止在统计学,在计算机、哲学,还有大量的社会科学领域,一个科学化、数学化的因果研究越发蒸腾开来,“在因果的土地上,一场革命正在进行。” 因果的革命深刻改变了固有的社会科学的研究范式。但今天的因果研究能否最终挺进知识的“英灵殿”不是我们能逆睹的,且沉潜下来“琢磨切磋”,至于败寇成王,静待天命。
扫码在手机上查看