摘 要:当前社会科学研究正经历着数据革命和识别革命(又称“信度革命”)两大变革。
关键词:识别革命;信度;设计驱动型研究;大数据;经验主义
摘要:识别(identification)是在理论假定基础上将实证信息与研究对象进行独一无二的映射,是社会科学实证研究的基本任务和核心工作。社会科学正经历着两大变革,即数据革命(the Data Revolution)和识别革命(the Identification Revolution)。在数据革命似乎变一切“不可能”为“可能”时,识别革命却怀疑这些“可能性”的信度(credibility),诘问研究“变为可能”的代价,强调理论假定的清晰度(cleanness)和透明度(transparency),要求建立严格信度标准下的“设计驱动型”实证研究范式。在识别革命尚待推进的一些领域,大数据带来机遇的同时也伴随着研究缺乏信度、理论与实证脱节、过度量化等问题的凸显。强化识别意识和识别策略设计,提高实证研究的信度、连接理论和实证并恰当适度地使用数据及技术,对于大数据时代的社会科学发展具有迫切而深远的意义。
关键词:识别革命 信度 设计驱动型研究 大数据 经验主义
作者庞珣,清华大学国际关系学系教授(北京100084)。
责任编辑:张萍 褚国飞
当前社会科学研究正经历着数据革命和识别革命(又称“信度革命”)两大变革。它们都已持续多年并从根本上改变着研究的范式和形式。数据革命在近年来尤其高歌猛进,呈排山倒海之势。海量、多样和实时的数据在井喷式的新算法技术助力下,极大拓展了社会科学的研究议题和探索空间。相比而言,识别革命更像是“静悄悄的革命”,但在其持续约四十年的时间里已经证明了它持久的生命力和创新性。识别革命要求对数据和技术采取前所未有的谨慎态度,强调以严格的研究设计来提高实证研究的信度,坚守科学内核而拒绝经验主义。在数据革命似乎把一切不可能变为可能时,识别革命却怀疑这些“可能”的信度,要求诘问研究“变为可能”的代价。识别革命在某种意义上是反机械化、反自动化和反技术流的,而数据革命则以将一切工作交予机器为评判进步的标准。如此,数据革命和识别革命形成了一个“双重运动”。数据革命以“技术”来强势扩展自己的边界,而识别革命则以捍卫研究的科学“价值”(信度)为使命,要将数据革命限制在某个合理的范围内以抵御经验主义的诱惑。已有实践表明,平衡数据革命与识别革命的“双重运动”,对社会科学健康蓬勃发展至为关键。但在识别革命尚未确立地位的一些领域中,当数据革命的浪潮席卷而来时,令人担忧的问题和有识之士的焦虑也随之加深。
例如,海量数据、前沿技术和强大计算能力貌似铜墙铁壁地保证着实证发现的信度,但令人眼花缭乱的“数据技术密集型”实证研究得出的结论却常常显得“不靠谱”。是什么的缺失造成了数据技术与研究信度之间的紧张关系?理论与实证脱节的情况依然严峻,大数据与计算社会科学等新兴研究范式的发展不仅没有起到弥合作用,反而在加速两者之间的脱节。理论与实证脱节的症结究竟在哪里?是否不可避免?数据革命带来了对社会科学“过度量化”的批评和担忧。数据及其分析技术在什么意义上被“过度”使用了?“过度”中的“度”在哪里?过度使用在什么意义上损害到社会科学?
以上问题的出现可以视为数据革命趋向“脱嵌”于研究的科学内核的表现。识别革命通过拒绝经验主义而对这种趋势进行回推,对于保证数据革命的“嵌入”——服务于追求持久性知识而非满足于对经验现象的追逐——十分必要。缺乏识别革命回推绝非数据革命的完胜,如果深切的焦虑得不到回应、严重的问题得不到解决,社会科学中的一些领域也可能放弃数据革命带来的机遇作为保护社会科学精神内核的代价。
为什么识别革命是在大数据时代保障研究信度、防止理论与实证脱节、避免过度量化的关键?围绕识别进行的“设计驱动型研究”(design-driven 或design-based research)如何区别于传统的“模型驱动型研究”(model-driven research) 和当前盛行的“数据驱动型研究”(data-driven research)?本文将对这些问题进行抛砖引玉的讨论,目的不在于全面系统地介绍识别革命或识别策略,而是聚焦于设计驱动型研究范式对于社会科学的重要性和紧迫性,探讨社会科学如何恰当而充分地受益于数据革命带来的机遇。数据革命和识别革命之间可以,并也已经在一些领域内建立起互补互助、相得益彰的关系,但基于本文的关切所在,讨论的重心将集中于当前研究实践中呈现出的两者之间的张力(tension),偏重强调识别革命而非数据革命在平衡“双重运动”中的作用。
一、避免错误的实证结果:识别意识与研究信度
识别可以被简单地定义为,在理论假定基础上将实证信息与研究对象(quantity of interest)进行独一无二的映射。这里的研究对象通常是难以直接观测的、具有理论意义的存在及其相互关系,本文统称为识别对象。识别任务是要寻找和认证识别对象或其局部的经验呈现,从而连接和贯通理论世界和经验世界。这里的“识别”不同于今天家喻户晓的大数据人工智能语境下的“识别”,也不限于狭义的因果识别,更不是定量研究的特有任务。相反,识别是所有类型实证社会科学中基本和核心的工作,贯穿于测量、描述、因果探索以及预测等各个方面。
识别关乎我们在理论假定和实证信息的基础上可以(或不可以)得出什么结论的问题,因此“识别革命”又称为“信度革命”,即以专注识别问题来提高研究信度。 信度问题区别于学术诚信,它不是学术伦理问题,而是研究质量问题。如果研究者对识别对象及其可识别性(identifiability)的判断出现偏差、没有对理论假定进行认真思考和明确探讨、或对识别所需(所缺)信息思虑不周或决策不当,就会得到偏差或错误的实证结果、下不该下的结论。保证信度的首要条件不是增大数据量或升级计算技术,而是强化识别意识和严谨化识别策略。由于缺乏自觉的识别意识而出现信度问题的研究比比皆是。我们可以通过一个看似安全但却“翻车”的真实研究例子,一窥识别的无处不在以及识别错误如何导致研究“下不该下的结论”。
政治学知名学术期刊在2003年发表一篇研究论文,探讨自杀性恐怖袭击现象背后的理性逻辑。研究报告了一个重要的实证发现,即自杀性恐怖袭击的发生与西方国家在相关恐怖主义组织所认为的本国领土上驻军(简称“军事占领”)高度正相关,暗示军事占领可能是导致自杀性恐怖袭击的原因,并提出了停止以军事占领来打击和遏制恐怖主义活动的政策建议。这一结论所建立的实证信息来自作者对全球新闻在线数据库进行的全面提取,得到了1980年到2001年间所有公开可知的188件自杀性恐袭事件。从数据量和人工编码方式来看,论文并非“大数据”研究,但从文本数据库获取事件数据是国际关系中大数据研究的重要思路和长期探索,因此这一原创性数据集被认为是该研究的最大亮点之一。作者通过描述性分析发现,在这188件自杀性恐袭事件中,涉及军事占领的事件有178件,约占94.68%,并在这个百分比的基础上得出以上结论。94.68%这个比例、作者获取数据的途径、数据公开透明的态度和规范,都让这个研究发现看上去具有很高的可信度。时值“9·11”事件发生后不久和美国发动伊拉克战争伊始,该文的这一实证发现在当时也产生了广泛的政治社会影响。
然而时隔5年后,另外四位学者在同一期刊上发表联合署名文章,从识别的角度分析和指出了前文作者的实证结论因存在重大错误而完全缺乏信度。批评者认为,这些数据不但无法用于识别自杀性恐袭与军事占领之间的相关性,而且即使仅对这一相关性的可能范围进行识别,这些数据也几乎毫无价值。值得注意的是,批评者们并没有以“相关不等于因果”来苛责这个研究,这更凸显了信度问题并非独属因果研究(推论)的问题。他们将识别对象限制在相关关系上并正式而清晰地表达为:
识别对象=Pr(Suicide|Occupation)-Pr(Suicide|~Occupation)(1)
第一个条件概率是军事占领的情况下(Occupation)发生自杀性袭击(Suicide)的概率,第二个是没有军事占领的情况下(~Occupation)自杀性袭击概率,两者的差异显示军事占领是否与更高的自杀性袭击风险相关。在明确了识别对象后,我们就可以来看识别这个对象要求什么样的实证信息。将式(1)作一个简单的概率变换得到:
根据式(2),要识别这一相关关系我们需要关于构成该识别对象的三个概率的信息,即Pr(Suicide) 、Pr(Occupation|Suicide) 和Pr(Occupation)。原文透露了第一个概率的实证信息:4155件恐怖袭击中有188件自杀性恐怖袭击,因此PrSuicide≈4.52%。研究中也包含关于第二个概率的信息,Pr(Occupation|Suicide) ≈94.68%。但原文作者没有搜集第三个概率PrOccupation的信息。这表明,原文的实证信息根本无法得出军事占领和自杀性恐怖袭击之间的高度正相关的结论,但原作者却将这个结论建立在其中一个组成概率的实证信息上,误将Pr(Occupation|Suicide) ≈94.68%当作识别结果,基于这一错误的识别结果下结论和给建议。
批评者们继续放松对识别对象的要求,不求对相关关系进行“点识别”(精确到对象本身),而是看数据能在多大程度上局部识别相关关系的边界和范围。他们根据原文提供的信息对这个信息缺失的概率进行边界值估算,得到178/4145≤PrOccupation≤4145/4145, 即4145件恐怖袭击事件中至少已知178件有军事占领情况。将这两个边界值带入式(2)可以计算出-0.957≤识别对象≤0.944。但即使没有任何关于这个识别对象的信息,我们也知道-1≤识别对象≤1,因为两个概率相减不可能小于-1或大于1。比较两组边界值不难看出,原作者的数据对我们关于研究对象的知识促进微乎其微。
至此,从方法论的角度我们已经看出这是一个典型的“根据因变量进行选择”错误,尽管“因变量”一词在这一相关关系研究中并不准确。从识别的角度来理解,我们不但可以更清楚地看到这是一个识别对象定义不清引起的错误,而且能够体会到错误背后的原因是识别意识的缺乏或薄弱。原作者或许仅将识别等同于因果识别,而认为相关关系、描述或测量研究无关乎识别,从而无须进行识别的严谨思考和设计。但事实是,只要不只是就信息谈信息、就判断谈判断,而是将信息和判断相连即构成识别。此外,这个例子表明,信度问题并非定量研究中才会出现的问题,因为该研究从严格意义上说是一个定性研究(描述性而非推论性研究),这个错误尤其发人深省。
本文用这个简单的例子来强调“识别意识”是保证研究信度的前提,它也显示了研究信度出现问题与识别难度并无必然关系。事实上,并不存在“识别难度高则研究信度低”这样的逻辑和规律。例子中识别对象的识别难度可谓很低,而且所犯的错误在数据革命时代极易改正和弥补——我们可以立即搜集所需要的数据来估算Pr(Occupation)。但这并不表明错误本身无足轻重,更不意味着错误容易被发现或避免。其实,正是因为此类错误的普遍性,我们才需要强调要以严谨的识别设计来避免识别错误对研究信度的伤害。保证实证研究信度的关键是研究设计而不是数据量或分析技术。在识别策略正确的前提下,数据和技术可以提高识别的精确度和降低不确定性,但识别设计的错误则很难通过增大数据和技术复杂程度来自动纠正。原文“亮点之一”的原创性数据对识别几乎毫无用处,告诉我们数据是否“有用”不在于其本身的新颖性、原创性、甚至是质量高低或规模大小,而是取决于它是否以及在多大程度上能够服务于特定的研究任务。我们可以进一步想象,原作者使用最先进的方法对事件进行机器编码而得到关于自杀性袭击的“全样本”,可以极大提高对Pr(Occupation|Suicide)这个概率估计的精度,却仍然无助于识别军事占领与自杀性恐怖袭击之间的相关关系,也无法提升研究信度。
二、避免理论与实证的脱节:定位和定义识别对象
对理论与实证脱节的担忧至少有两层不同的意思:一是两者在发展节奏上的差异越来越大,理论研究创新突破缓慢而实证研究在数据和技术的推动下日新月异;二是两者有相背而行的趋势,实证研究在数据革命中趋向经验主义,而理论研究则从定义和本质上拒绝经验主义。两者渐行渐远不利于任何一方:实证研究趋向经验主义而缺乏对持久知识的追求,而理论研究不结合实证检验则只能止于猜想和思辨。社会科学理论的构建方式在公理、数理或正式逻辑方面通常相对薄弱,实证就成为检验理论的主要甚至是唯一的途径。避免理论与实证的脱节,需要双方调整节奏、付出努力,相向而行并在“识别”处相遇。
识别如何让实证研究向理论而行?模型驱动型研究对于识别对象的选择、定义和认识太过依赖方法设定和工作惯性,而数据驱动型研究则偏重缺乏理论关怀的识别对象,两者都不利于实证与理论的结合。设计驱动型研究要求将识别对象的定位、定义和表达作为识别策略设计的关键环节、先于和高于数据搜集和方法选择。我们以一个假想的例子来比较模型驱动型研究和设计驱动型研究在定位和定义识别对象时的不同做法,并分析由此产生的实证分析与理论之间距离的差别。
模型驱动型研究确定识别对象的方式是以建立一个回归模型为暗含的思路和要求,我们说的“因变量”其实就是模型等式左端的量,而“自变量”是右端的量,确定了这两个变量即可以建立一个回归模型。于是,“有清晰的因变量和自变量”成为模型驱动型实证研究确立识别对象的路径。现在设想我们要研究关贸总协定/世界贸易组织(GATT/WTO)对国家出口带来的影响,根据模型驱动型研究的做法,我们知道 “自变量”为GATT/WTO,操作化为“是否为GATT/WTO成员国”,而因变量为一国的出口量。识别对象就这样确立为下式中的β1:
yit=f(β1xit,αzit)+εit(3)
式中脚标i和t分别表示“国家”“年份”,yit是自变量(国家的出口总量),而xit是因变量(是否为GATT/WTO成员国的哑变量),zit是以α为系数的控制变量,εit是残差项,f(.)是某种模型的方程形状(线性或非线性,更严格的写法为g-1(.))。自变量xit的系数β1即是这个模型表达出来的“识别对象”,解读为“其他条件不变(或其他变量固定在某个特定取值),一国从非GATT/WTO成员国变为成员国带来其当年出口变化期望值为β1”,即GATT/WTO对出口的因果效应。这个流程简单流畅,充满程式化色彩,像一个有质量保证的成熟生产线。
然而,设计驱动型研究则要求在定位和定义识别对象时不可“轻举妄动”,认为“因变量—自变量”方式定义的识别对象依然过于模糊。我们必须通过思考一系列理论和逻辑问题来谨慎地、清晰地确定识别对象,如:我们关心的“因”究竟是什么?是成员国身份的转变、是转变的时机、还是GATT/WTO形成的网络带来的结构性影响?等等。对这些问题的回答取决于对国际组织的何种理论关切,是关心它带来的外部机遇、对国内政策共识的促进或它形成的国家间同侪压力?我们选择原因的不同变化维度其实就是在构建不同的理论。进而,我们还需思考,理论关心对“谁”在什么时段内的结果的影响?关心所有各具特色的国家还是某类经济体?关心所有时间还是某个特殊时段?对这些问题的不同回答将定义出不同的识别对象。设计驱动型研究将定位和定义实证识别对象和理论构建融为一体,而不是将理论和实证人为割裂为两个不同的阶段。最重要的是,确定识别对象的过程与模型和数据无关,而是探究识别任务的理论意义和逻辑可能性,即设计必须先于实证观察和实证分析。选择和定义识别对象要求思考的广度和深度远超出惯常所讲的“问一个清晰的研究问题”或确定“因变量和自变量”。
设计驱动型研究还要求研究者将识别对象尽量正式地表达出来,然后再根据需要选择数据和实证方法,而不是根据数据和模型来表达识别对象,这一先后次序十分关键、不能颠倒。对识别对象的表达可以使用语言文字或数学符号,但须清晰而精确。回到GATT/WTO的例子,设计驱动型研究不会将识别对象表达为某统计模型中的系数,因为此时统计模型还未进入研究者的考量范围中,是否使用任何统计模型则要在之后根据识别任务的要求来决定。我们这个假想的例子涉及因果关系为识别对象,研究者可以选择“鲁宾因果模型”(Neyman-Rubin Potential Outcomes)对因果效应的表达方式:
其中,δit是i国在t年的因果效应(由原因带来的出口量的改变),Yit 表示i国在t年的潜在出口量(结果),而括号里面的字母分别表示对不同类型原因的考虑:wit(i国t年是否为成员国)、 ai(i国何时加入GATT/WTO,a'i为另一个可能的年份)、Wt(所有国家在t年是否GATT/WTO的组合,W't是另一种可能的不同组合)。将识别对象正式表达出来的优势,不仅在于明确了什么是原因、因果效应是对哪两种清晰定义的原因状态对应的结果进行比较等必要问题,而且体现了真正的“其他条件不变”,即包括单元i和时间t的不变,与因果关系的理论相契合。这种表达还坦率承认了因果识别的巨大困难。我们如果仔细想一想就会发现,识别对象δit“无法识别”,因为对任何特定国家i在任何特定一年t,等式右边的两个结果最多只有一个可以被实证观察到(假设第一个是观察到的事实),而另外一个则是永远无法被实证观察到的“反事实”。而在回归表达中,我们掩盖了这一“因果推论中的最基本难题”。现代因果识别研究正是在承认个体因果效应无法识别的基础上,通过调整识别对象和明确识别假定,不断将原来“不可识别”的对象变得“可识别”的科学探索。
从理论一方看,识别虽不是理论构建的必要工作,但带着识别意识进行理论创新,对避免所创建的理论与实证脱节至关重要。这对理论创新本身有莫大裨益,因为如果理论无法在经验世界中找到哪怕是局部的或间接的映射,这个理论就会由于缺乏实证检验而停留于猜想。或许有人担心,顾及实证考量的可行性会限制“理论高度”,认为经验世界由特殊性构成,因此理论的普遍性越高,它在现实中的可识别度就越低。这种担忧是对实证研究的误解,将其等同于直接观察所得。实证研究尽管可以停留于经验归纳,但更多的实证方法是推论性的,即超越经验观察而作为连接理论世界和经验世界之间的桥梁。换言之,实证方法通常致力于帮助我们从经验世界的束缚中走出足够远而可以与纯粹的理论在某处相汇合。普遍性高的理论并非不能通过实证研究来与现实世界相连接,关键在于理论对象的可识别性和实证研究的识别策略,即桥梁应架在哪里和桥梁应如何设计。因此,不可识别在任何情况下都不应成为对理论的褒奖。
有一些理论的不可识别性确系观测技术滞后所带来,克服这类理论与实证相脱节问题需要后者的努力而非理论的屈就。但其他一些不可识别的理论则需要修改理论本身,如果不可识别性来自理论自身的缺陷,如概念含混和概念间逻辑关系模糊导致无法定位识别对象、假定设置过强以致完全无法映射到现实世界等。致力于理论创新的研究者在构建自己的理论时,有必要考虑以下问题:理论哪些部分可识别、哪些部分无法识别?这些部分对整个理论而言在逻辑上处于什么地位?可识别部分的主要识别困难在哪里?不可识别部分能否进行修改而变得尽量可识别?理论有哪些可观察含意(observable implications)?等等。带着这些问题进行理论构建,不但能够帮助理论得到实证检验,还有助于理论的严谨和优雅。
三、避免过度量化:明确和透明的识别假定
判断任何现象和行为是否“过度”,首先需要明确什么是“适度”以及在什么意义上超过了这个合适的“度”。即使定量研究使用的频度非常高、范围非常广和增长速度非常快(事实上在很多社会科学领域并非如此),其本身都不必然为“过度量化”。从识别的角度来理解过度量化的问题,“过度”可能是因为定量研究在以下三个方面产生了问题。第一,过度扩展定量研究的识别对象范畴,对那些在理论和逻辑上缺乏可识别性的对象进行强行(错误或有重大偏差的)识别。第二,将识别策略等同于对数据的技术分析,忽视或否认理论假定在识别策略中的重要作用和地位,缺乏对理论假定的深入探讨和仔细斟酌。第三,试图以数据和技术来弥补甚至是自动纠正识别设计中的缺陷和错误。
“不可识别”并不是研究对象的“不可知”,而是对在什么程度上“可知”的判断错误。前文的探讨中我们已经看到,在选择和定义识别对象时,设计驱动型研究承认不是所有的对象在任意程度上均可以得到识别,比如因果效应因包含无法观测的“反事实”而不可“精准”识别,只能进行近似识别。即使我们有再多的数据和再强的技术,也无法直接观测到它。如果无视这一点而认为大数据可以提供因果识别的全样本从而通过直接观测而非推论即可识别因果效应,从而不承认识别所依赖的假定以及识别结果的不确定性,就会产生“过度量化”的问题。
任何识别对象的“可识别”均不同程度建立在识别假定上,数据的丰富和技术的进步可以帮助我们放松一些识别假定,但“可识别”始终无法做到完全脱离假定。因此,我们有必要让这些假定清晰化和透明化,而用数据和技术来淹没或掩盖这些假定则会造成“过度量化”。比如,在上文的GATT/WTO例子中,虽然个体因果效应不可识别,但我们可以给予一个强假定,Yit(0) =Yjt(0) ,即非GATT/WTO国家j的出口结果可以视为GATT/WTO国家i在t年的“反事实”而提供所需识别信息。这之所以是一个假定而无法用数据或技术来证明或检验,仍在于它是对从定义上即无法观测的反事实Yit(0)的假定。如果不愿意使用如此强的假定,我们还可以通过降低识别对象细粒度来降低识别难度,“退而求其次”地追求平均因果效应δ=E[Y(1)-Y(0)\]。虽说从个体因果效应到平均因果效应还是没有解决“反事实”不可观测的问题,但假定一组“国家—年份”的平均结果为另一组的平均结果的反事实,这个假定要比在个体层次上更弱、更有可能成立。比如在随机实验的条件下,随机分配让“可忽略性”(ignorability)这一关键识别假定变得合理,一组单元的平均可以合理地视为另一组单元平均的反事实,从而δ成为可识别的对象。但社会科学能够进行随机试验的情况很少,大多时候只能依靠观察性信息,因此无法较好地满足“可忽略性”假定。比如,我们很难接受国家加入或不加入GATT/WTO是随机选择的假定,即“可忽略性”假定难以成立,从而δ仍然不可识别。于是,我们可能不得不继续“退而求其次”定义一个新的可识别的对象,比如“条件的平均因果效应”δ(Z)=E[Y1-Y0 |Z\]。这个识别对象的“可识别性”建立在“有条件可忽略性”假定上,即只要GATT/WTO成员国和非成员国在Z维度上的特征相同,我们就可以将它们的结果视为彼此的反事实。这些Z在设计驱动型研究中叫“混杂因子”(confounders),因为它们与结果之间的关系会混杂在我们感兴趣的这对因果关系中。“有条件可忽略性”是否成立依然无法以数据和技术来进行检测或保障,因为这一假定排除了Z之外的其他数不胜数的维度上的特征是混杂因子的可能,包括可观测的和不可观测的特征。我们只能根据理论和逻辑来谨慎选择Z,尽量让这个假定“合理”。数据或计算技术可以在特定情况下对一些不可观测的混杂因子进行近似,但仍然必须依靠假定来排除为数众多的可能的混杂因子而使δ(Z)可识别。
如此依赖假定的识别,是否让研究变得主观而缺乏信度?回答是否定的。假定的使用无疑会让研究的主观性增大,但以正确的态度对待和处理假定却恰恰是研究信度的保障。无论我们承认与否,所有的理论和实证研究都会在不同程度上依赖假定。没有假定的研究,也正是非理论研究(atheoretical research)。我们并不能在“要假定”和“不要假定”之间做选择,只能选择何种假定和如何假定,认真回答以下问题:哪些假定是必须的?哪些假定可以被放宽?哪些假定太强以至于我们宁可放弃识别对象也不愿做出?在对同一个识别对象的不同识别策略中,我们偏好使用更少、更弱的假定而能够得到同样无偏和有效识别结果的设计。但识别研究一般始于较强的假定,随着知识和经验的积累以及数据和方法的改进,一些假定逐渐得到放松。假定不是反科学而是科学的组成部分,假定清晰和透明正是科学精神的要求和科学工作的规范。既然假定构成了研究工作的重要部分,它就需要被报告,它的合理性和必要性就需要被公开讨论、质疑和挑战。为了追求“客观”表象而淡化甚至藏匿假定的态度与做法是反科学的。正是对假定的承认和讨论让研究的可信度上升,而回避谈论假定而制造客观的假象,对社会科学研究的信度造成伤害。
避免过度量化除了将识别假定提到重要位置,还要求对数据及其分析技术采取正确的态度。它们是实证研究完成识别任务的必须,信息的丰富和技术的进步也能够帮助我们放松一些识别假定和降低识别的不确定性。但是,数据和技术无法弥补识别策略在设计上的根本缺陷,如错误定义或模糊不清的识别对象、无意识下所依赖的不合理的假定等。学习、理解、练习使用数据和分析技术非常必要,但同样重要的是建立起对待数据和技术的成熟态度来避免“过度量化”。这样的态度至少包括以下几个方面。
首先,设计驱动型研究要求在尚未见到数据之前就思考数据,包括识别任务需要关于什么单元、时间和维度的数据?如何取得这些数据?这些数据生成过程中可能存在什么混杂?需要获得什么信息以进行纠偏?对于无法排除的混杂因素,我们怎样估算出混杂带来的偏差?……总之,对数据的重要思考要基于研究设计而非运行特定统计模型或算法,更不是用便利的数据来“讲故事”。
其次,对待数据的成熟态度和方式不仅是关于如何“取” 数据,还包括如何“舍”数据,即根据识别设计对数据进行修剪和舍弃。这听上去似乎很不“科学”,我们不是总说让数据说话、要实事求是吗?这里的“舍”并不是无视那些不符合我们预设的数据,而是要剔除那些带来混杂的信息,防止识别偏差。回到GATT/WTO的例子,那些无法进行横向或纵向比较的“国家—年份”应该被排除在识别之外,因为找不到它们的近似“反事实”导致其因果效应无法合理地识别。换言之,对于完全找不到现实可比性的“案例”,它们的因果效应无法识别,而要将这些案例包含在分析中就会出现前文所言的“强行识别”问题而带来偏差和有损信度。这告诉我们,对于特定的识别任务而言,并不是所有的实证信息都是有用的或有益的,不对实证信息进行选择而将可得数据机械性地纳入分析,也是导致“过度量化”的重要原因之一。
最后,我们也要认识到,复杂、高端、前沿的分析技术并不一定等同于好的识别工具,也不一定会产生更可靠的实证结论。分析技术的选择要根据识别任务、识别策略和数据情况,并无某种普遍的高低标准。分析技术可以是定性的或定量的,可以是简单浅显的统计检验或极为复杂高深的算法,但其本身都不是判定社会科学实证研究质量的标准。在这个充满了技术崇拜的时代,一个很有趣的规律值得特别一提,那就是往往识别策略越精妙,需要使用到的数据分析技术越简单。例如,在随机实验或者巧妙地寻找到自然实验的识别策略下,数据的分析往往极为简单,根本无须复杂模型和精深算法。社会科学识别充满了复杂的混杂因素,需要处理复杂的数据生成过程和难以观测的因素,统计分析技术和算法为此提供强大的工具。我们并不是要反技术,而是不要过度依赖技术而失去对研究的审慎态度和深思熟虑。
结语
以识别为核心的设计驱动型研究追求“胜兵先胜而后求战”的研究,要避免在缺乏理论关怀和逻辑保障的情况下进行“败兵先战而后求胜”,更不要败而不自知、误以败为胜。大数据、算法、人工智能等为社会科学提供了更多的可选信息和技术支持,但却无法替代研究者所要承担的核心研究工作。这或许是一个令人喜忧参半的事实:一方面,无法将困难工作交予机器多少令人沮丧;但另一方面,在识别任务上机器无法取代人脑也表明,科学求索仍是人类得到的特别待遇。当数据革命让行动变得空前容易时,研究者对探索目标和方向的把控也变得空前重要,因为方向的偏差可以让研究“失之毫厘,谬以千里”。确立识别革命在社会科学中的地位,建立和平衡它和数据革命之间的双重运动,对于社会科学的发展具有迫切而深远的意义。
本文意在强调以识别为核心的设计驱动型研究对大数据时代社会科学发展的特殊重要性,尤其关注在识别革命尚未到达或尚不充分的研究领域中出现的一些重要问题,目的不在于全面系统地介绍设计驱动型研究,也无意于在文中就识别问题提出新颖观点,文中例子均意在尽量浅显,仅用以辅助说明。建立和增强识别意识,以及掌握识别策略设计的理念、程序和规范等,需要我们深入和广泛研读因果识别教材和相关具体研究,并结合自己的研究进行不断练习和探索。这是一个渐进的长期积累过程,我们寄希望于通过捷径来“速成”。从教学和人才培养来看,平衡社会科学中当前的“双重运动”需要加强识别方面的课程建设,包括关于一般识别和因果识别的原理和方法的系统教学,贯穿于高等教育的各个阶段,尤其注意在教学中避免以识别“技术”为中心,而是要透彻讲解技术背后的科学原理和认识论逻辑,让学生知其然也知其所以然。我们有必要让未来的研究者受到“数据革命”鼓舞的同时也知晓“识别革命”审慎的要义,较早开始建立两者之间的平衡。
最后我们回顾和总结本文所提及的关于识别革命对实证研究的几点基本要求:
第一,让识别对象的定位、定义和表达成为研究工作的重点。这个工作远远超过“提一个清晰的‘为什么’问题”或“有明确的因变量和自变量”的要求。它需要在理论和逻辑上进行严密而反复的思考和斟酌,平衡识别对象的细粒度和可行性。进而,无论是使用语言文字还是数学符号,我们都应该在选择识别技术前将识别对象明确而郑重地表达出来。
第二,将更多的精力放在识别策略的设计上,包括选择识别假定、明确什么是识别任务所需要的实证信息以及如何取得这些信息和使用这些信息等。
第三,最大程度地保证研究的透明度,尤其是对识别假定的陈述和讨论要严肃和细致,包括它们的必要性、合理性、是否过强、在什么情况下无法成立、在多大程度上影响到识别的结论等。
第四,不过度依赖统计稳健性检验。稳健性检验几乎成为传统定量研究的一个惯性化的操作,而且常常以变换模型设定尤其是将控制变量拿进拿出为主要操作。试想,在精心设计的识别策略下,“控制变量”是那些理论和逻辑告诉我们的混杂因子,不控制它就理应看到识别结果产生变化。如果控制变量随意进进出出而结果依然“稳健”,这正好暴露出研究者对控制变量的选择缺乏考虑,于提高研究信度并无帮助。模型假定与识别假定是两套不同的假定,更重要的检验是实证发现对于重要识别假定的敏感性分析(sensitivity analysis)。
扫码在手机上查看