摘 要:大数据时代,新的信息处理技术深刻影响了当前历史学的发展。文献资料爆炸式增长、信息日趋数据化以及处理工具的创新,为量化历史研究方法的应用提供了重要契机。量化历史研究以量化数据库为基础,借鉴社会科学的理论与方法,着重揭示历史演进的规律性与因果关系,这一方法在面对长时段、大问题,以及对抗碎片化研究方面优势明显。量化方法正成为传统史学方法的有益补充。作为跨学科领域,量化历史研究需要不同学科背景的研究者加强合作。量化方法虽然以数字为基础,偏重社会结构的讨论与分析,但也不会忽略数字背后折射出的“人的历史”。量化历史研究对普通人生活经验的关注以及对数据的考证辨析过程,体现了历史学对“人”的关切。历史学应结合微观视角,兼采量化方法和阐释分析的优长,形成有“生命”维度的综合性研究。
关键词:量化历史;碎片化;人的历史;新文化史
作者王康,中国社会科学院近代史研究所社会史研究中心助理研究员(北京100101)。
历史能否被“量化”?量化方法能否呈现有“生命”的历史?1923年,梁启超首倡历史统计法考察“全个社会的活动变化”。随后他修正了自己的观点,指出历史统计法的局限性:归纳法只能用于资料整理;因果关系是自然科学方法,无法应用于体现自由意志的文化史领域。囿于时代和技术的限制,梁启超不能将量化方法与“有生命的”“有机能的”人类活动相连接。然而,历史学发展至今天,历史学家们仍面临梁启超的“方法之困”。
数字技术作为人类身心延展的工具,它的广泛应用能够促进史学方法的不断革新。有助于在秉承历史学人文性的前提下借助量化方法诠释历史;从生命维度重新审视数字与人的关系,反思量化历史研究的理论、方法与实践。事实上,量化历史研究内蕴鲜明的“人”的因素,量化数据背后是有生命的、鲜活的“人的历史”,因此,兼采文本分析与量化方法的优长,充分展现人的生命样态与历史发展脉络是量化历史研究的发展方向。未来的史学研究将融通微观和整体,实现“人”与历史事件、社会结构的深度连接,进一步提升量化历史研究的人文价值。
新时代呼唤新史学,新史学需要新方法
(一)传统史学方法与量化方法的会通
历史学研究的基础是史料。如何鉴别与处理史料是史学研究的基本功。大数据时代,史学研究者收集和分析的资料,既有描述性文字资料,也有难以计数的数据资料。而史料的规模和形式的变化需要研究者掌握新技术,将传统史学方法与量化方法结合,充分发挥二者的效能。
考据方法在史学研究工作中仍发挥着基础作用。与文献资料一样,数字史料的真实性也离不开历史学家的考证。对于数字史料,我们不仅要考虑“数字”的形成过程,结合其他史料进行辨伪存真,还要思考以下问题:数字史料由谁记录?为什么要记录?在什么情况下记录?记录给谁看?数字史料意味着什么?是否经过加工?因为,只有建立在可靠的数字资料基础上的量化分析才具有说服力。随着史料的大量电子化,由传统文献考据方法衍生出“e考据”方法,能够实现全面挖掘材料,完成高效考据。研究者要同时通晓传统文献考据法和数据库考证方法,以传统的治史思维进行深度梳理与探勘,形成对历史的新解释。
量化分析的前提是将文献资料数据化,即建立量化历史数据库。除了文献资料中的数量信息如价格等能够直接采集生成量化数据之外,描述性信息也能转化成量化数据。文献资料数据化的目标是将文献利用方式从“读”转变为“分析”,其核心方法是将文献结构化,即“重组文献内容,置入使用者所建立的新的文本或数据结构中”。数据库能有效整理同质性的历史资料,如政府档案、民间文书等文本。文献的结构化便于后期进行统计运算,进而实现不同变量之间的相关性分析。应该说,数据库改变了文献利用的形式。数据库化的历史信息有助于史学家高效利用海量史料,便于社会科学研究者进行量化分析,极大提高了工作效率。
量化方法能够帮助研究者发现新的史学问题。基于数据库展开的量化计算,能够验证数据分析与描述性文本之间的异同,比照不同类别的系列数据,发现新的研究问题,形成新的学术增长点。如陈志武、彭凯翔、袁为鹏等学者通过系统整理历史上的借贷数据,建立包括档案和文献的利率数据库,发现刑科题本和徽州文书反映的利率变动趋势不同。在辨析考证两类数据客观性的基础上,研究者认为刑科题本数据反映了清代司法实践的利率管控强度。可见,量化方法在数据系统考证方面远远超越了传统史学考据,赋予了数据信息系统新的文本解释。
(二)对抗碎片化:长时段、大问题与大数据
从20世纪70年代到21世纪初,全球历史学家抛弃了大框架、大过程、大比较的研究取向,转而关注短期问题。这导致了全球历史学研究普遍的“碎片化”倾向,论题细小、琐碎、平面,缺乏理论观照和宏大视野。而微观史的兴起与历史学更高程度的专业化无疑强化了这种趋势。年鉴学派第三代学者曾被质疑放弃前辈学者追求的总体史目标,导致历史学的“碎片化”。
量化方法在长时段、大问题与大数据研究方面具有明显优势,是对抗史学碎片化的有效手段。新时代的历史研究要以重大问题为导向,而重大问题通常具有长时段特征。遵循历史的时间性,就要考虑人类社会长时段的规律,所谓“通古今之变,成一家之言”。计算机技术能够辅助研究者建构长时段的历史数据,实现宏观性系统分析,较为清晰地呈现一代又一代人们的生活经历的代际变化过程。数字软件将大量的文献记录迅速转化成可视化数据,极大提高了采集历史信息的能力;大幅攀升的数据量为新型量化分析提供了坚实的基础;各类量化工具为确定多层次的历史因果关系提供数理支撑。因此,量化方法能够有效利用历史大数据对抗“碎片化”,将碎片和细节的研究串连成整体,打通断代,形成贯通性和长时段研究。
(三)研究模式的更新:跨学科和团队合作
新的研究方法对研究主体提出了新的要求。一般情况下,史学研究由个人独立完成,其成果也以个人名义发表。但量化研究几乎很少由单个研究者独立完成。无论是收集、整理数据,还是对数据进行量化分析,这些工作都需要多人协作完成。因此,量化研究必须借鉴社会科学的研究模式,组建多学科专业人员参与的研究团队。
量化数据库是量化方法应用的前提和基础。建立量化数据库的第一步是利用计算机技术整理史料。从历史材料中提取重要信息,进一步分类、编码、挖掘,其目标是将原始文献资料转化成类型化的数据,直接支持量化分析。因此,在采集数据、建立数据库过程中需要团队作业,例如,陈志武团队为了收集清代刑科题本中的妻妾价格数据,有29名研究助理参与其中。
量化历史研究将描述性史实转化成可供计算的数据,为历史学与社会科学乃至自然科学提供了丰富的研究资源,进一步推动历史学和其他学科的优势整合。建立大规模量化数据库,运用量化方法进行分析性研究,要求拥有不同学科背景的研究者相互合作。基于1980—2017年主要英文期刊发表论文的量化统计,陈志武等认为近年来量化历史研究多人合作模式呈现增长趋势,呼吁历史学科研教育机构鼓励合作研究,以适应历史大数据带来的研究范式转变。
大型量化数据库平台的建立依赖研究机构和学术界的共同合作。以“清代缙绅录量化数据库”为例,香港科技大学李中清—康文林研究团队于2014年开始《缙绅录》数据库的研制,并与中国人民大学清史研究所展开合作。目前为止,《缙绅录》首批数据(1900—1912)和第二批数据(1850—1864)已公开发布。双方合作团队提供了原始数据的公开下载,其他研究机构和研究人员也向该平台提供数据,丰富数据来源。双方合作团队不定期举办研讨会工作坊、研究生研习营等活动,并以合作署名的方式发表多篇论文。
无论是前期数据库的建立,还是后期数据库的管理与维护,量化历史数据库都需要持续的经费支持和组织协调,上述多样化的工作内容已远远超过单个历史学者或研究团队的能力范围。因此,量化历史研究需要学术界的资源整合与通力合作。
(四)量化方法的工具效用
量化分析方法并非静止不变,它随着知识进步而不断更新。起初,历史学定义的“量化”多是描述性统计,相对简单,通过制作数据图表,计算均值、方差等常见统计指标。现今,随着计算机技术的进步,新的量化方法不断涌现。历史学充分借鉴了统计学、计量经济学等学科的研究成果,以探索历史规律性认识为目标,研究方法正在从统计推断向因果推断转变。量化历史研究能够高效处理大规模数据,并发现其中规律,尤其是人类行为和人类社会的因果关系。要找到合理的因果关系分析,必须对历史现象予以度量,寻找历史现象的相关性。
具体而言,对数据进行处理的量化分析方法主要有三类:一是对单个变量数据进行描述统计,包括“数据的来源、处理过程,样本量,每个变量的统计特征”。二是通过制作散点图、地图、计算相关系数等进行两个变量之间的相关性分析。三是因果关系分析。历史发展是多种因素相互作用的结果。多元回归分析方法则能将历史现象分解成不同的因果关系,探究特殊因素对于历史结果的影响,进而发现各因素间的相互作用机制,分析较为复杂的历史现象。
当然,量化方法有其局限和适用范围,这取决于研究对象、研究问题和研究资料。量化历史学者几乎都遇到过历史数据缺失的情况。所谓“数据缺失”是指收集的数据没有满足历史学家构建的理想数据矩阵。之所以出现“数据缺失”,可能因为历史记录遭到破坏,或者理想的记录未得到保存。“数据缺失”在历史工作中比较常见,也难以解决。比如缺乏随机抽样的案例,一个或多个变量的数据缺失,等等。鲜有统计理论能够解决数据缺失的问题,因此,历史学家更需要发挥主体性给出合理的解释。
“人”在量化研究中的消失与复归
历史学是否为科学,是近代以来西方学者争论不休的议题。史学和科学发生联系,始于欧洲启蒙运动时期。历史学家坚信只要充分掌握资料,运用科学的方法,就能客观地再现历史真相。历史学能像自然科学一样,揭示人类社会演变的规律。19世纪中叶,兰克在德国史学界确立了“科学”的研究范式,认为历史事件研究要升华为一种“普遍性观念”和“客观实存的知识”。科学主义史学的目标是将史学改造成独立的知识门类,成为探究过去真实知识、服务社会的专门学科。历史学研究日渐制度化与专门化。但是,在这样“科学”的历史学研究中,制度、结构等更为重要,普通人的生活和感受往往被忽视。
(一)历史学是关于人的科学
量化方法的引入是历史科学性的重要标识。它凸显了社会科学的学术规范。量化方法在美国新经济史、新社会史、新政治史领域和法国年鉴学派第二代学者的历史研究中发挥了重要作用。拉杜里认为,“凡是不可量化的历史学,就都不能声称是科学的”。将历史学转化为可量化研究的科学,成为一代历史学家努力实现的学术目标。
马克思、恩格斯关于历史的科学性也有过经典论述,“我们仅仅知道一门唯一的科学,即历史科学”。唯物史观揭示了人类社会在社会基本矛盾运动推动下从低级向高级发展的普遍规律。马克思关于历史意识与实际存在的关系论述,代表了19世纪历史学家将历史研究转化为科学的努力。19世纪以来,社会而非个人,普遍规律而非个别现象,成为史学关注的焦点,关于历史规律的理论拉近了历史学和科学的距离。
(二)量化方法并非只见结构不见人
历史学家从社会科学中借鉴了定量研究方法。20世纪五六十年代,美国联邦政府大力扶持社会科学研究,实证主义和定量研究成为主流;偏向定量研究的学科如社会学、经济学、人口统计学等在方法和理论上被认为比历史学更严谨、更缜密。美国新社会史在引入这种客观实证的量化方法的同时,社会科学所界定的“社会结构”深刻影响了新社会史研究。“社会结构是客观且超越个人的模式,或者说是参与者不能完全意识到,但其行动和思维仍然深受其约束的某种力量。包括职业分布、商业周期、人口模式、继承制度、财富分配、城市聚落模式、土地制度……”这些社会结构数据被称为“硬数据”(Hard data),更适宜使用量化方法进行分析。
事实上,虽然美国新社会史学派和年鉴学派第二代学者偏好计量方法,新文化史家倡导诠释性方法,但他们在关注“人”的价值取向上趋于一致,都承认普通民众经验的重要意义。研究叛乱和社会运动的社会史学者一边收集量化数据,一边在档案、回忆录或报章中拣选相关的语言表述信息,民众的观念、行动和日常生活被有限度地呈现。量化虽是追求“自下而上的历史”的重要途径,但新文化史家更是宣称“人”的复归,认为诠释性方法不仅在揭示社会结构特征方面与定量研究比毫不逊色,还能重现被新社会史边缘化的人类活动。
历史学家在追寻科学化的过程中,量化历史研究的人文性饱受质疑,新文化史家的批评尤甚。虽然量化方法普遍被用于经济史、社会结构研究,导致“数据至上”的研究倾向,但年鉴学派的经验揭示了量化历史研究本身所蕴含的“人”的因素。量化方法能够让更多的普通民众进入历史学家的研究视野,最大程度践行其关注普通民众的研究取向。从理论上宣称“历史学是关于人的科学”到实践上利用多元文献资料呈现“人”的日常生活,这意味着历史学的科学性与人文性并不矛盾,新文化史家倡导“人”的复归在量化历史研究中亦能实现。
生命数据的表达:历史叙事与量化分析的融合
尽管反对使用量化方法研究人类行为的呼声不断,但量化方法在处理生命历程数据方面有其独特的学术价值。量化研究的基础是数据系统,数据系统并非冷冰冰的“数字”,而是以数字形式讲述鲜活的生命故事。如果把数据看作不同形式的文本,数据分析则可被视为一种历史文本分析。量化历史研究者已经尝试融合新文化史研究的优长,实现处理数据和文本在方法上的互补。
(一)量化方法与诠释性方法的平衡:西方史学家的尝试
定量方法和诠释性方法各有优劣,能否结合使用,西方社会史学家率先做出探索和努力。新社会史学家试图将定性研究与量化方法结合,运用到对平民生活经验的量化分析中。富有生活经验的定性史料对核心量化研究能够起到补充作用。休厄尔用比喻诠释二者的关系,“对于好比是血肉的现有定性数据来说,量化方法就像是提供了让血肉得以依附的坚实骨骼”。
从研究实践看,平衡定量方法与诠释性方法并非易事。一些历史学者往往难以兼顾社会学和人类学的研究策略,以至于最终抛弃数据分析、图表和统计方法,完全投入文化研究之中。休厄尔以个人经验证明二者结合是非常困难的。他试图使用文化人类学的方法,修改有关马赛工人的博士论文,最终他只出版了原定两卷中数据化且完全社会学化的第一卷,而未完成结合文化和计量方法的第二卷。
彼得·伯克作为新文化史的代表人物,在计量史学的影响下完成了《意大利文艺复兴时期的文化与社会》一书。他尝试对传主进行社会调查传记集合研究(prosopography),即收集600名艺术家等文化精英的信息包括出生地区、出生地的规模、父亲的职业、训练、主要从事学科、专长、从事这些学科的亲戚、地理流动、赞助方、出生时间等,并以表格的形式输入电脑,进行分析。在此基础上,他聚焦文化精英的社会关系及其作品诞生的政治环境、时代背景、社会功能等,结合同时期意大利社会结构的变动和文化观念变迁进行阐释分析,试图在量化方法和人文关怀方面实现某种平衡。
彼得·伯克创造性地将宏观与微观视角结合,从对赞助人、作坊、艺术家等的微观研究,扩展到对艺术观念、社会结构、文化变迁等的宏观考察,揭示了时代的审美标准,以及艺术家和顾主群体的理想、意图或需求。他试图识别出文艺复兴艺术作品中隐藏的社会信息,寻找文化与社会之间的深层联系。同时,他运用数学模式还原艺术作品的传播、阅读和接受过程,发掘这些信息对受众的社会行为产生的影响。彼得·伯克成功证明了计量方法不仅适用于经济史和社会史研究,在文艺复兴等文化史领域亦能使用。
(二)微观与宏观的有机结合:国内史学界的探索实践
国内量化史学研究者经过十余年的研究实践,不断总结研究理论和方法,认识到微观数据本身就蕴含着鲜明的“人”因素,经由以问题为导向的量化分析,能够打破微观和宏观的分野,突破碎片化的怪圈。
构成量化数据库组成部分的元数据,体现了微观人类行为的多元样态,而微观数据的集合,则让客观、实证的宏大历史叙事成为可能,有助于研究者进一步总结和发现人类社会的发展规律。南京大学梁晨及其团队收集了33所高校近12万名大学生个人层面的多维度信息,构建“民国大学生量化数据库”,对这些信息进行量化计算。该研究动态呈现了民国大学生群体地理来源的模式、特征和变迁,对民国时期国家近代化的进程亦有反思。以个人或其他单元级的微观史料信息为基础构建量化数据库,开展多变量描述性统计分析的量化研究,能够沟通微观与宏观研究,为进一步形成突破性、宏观性历史理论提供坚实的数据支撑。
关于社会结构、历史趋势的量化分析与以人为关注对象的微观史研究能够实现共存互补。王笛的学术轨迹——从对社会结构和数据的计量分析到日常生活叙事和历史文本的多角度解读,亦能证明这一点。他在早期著作《跨出封闭的世界:长江上游区域社会研究(1644—1911)》一书中,制作300多个统计表,利用量化方法探究长江上游区域社会从传统到现代化的转型。这为他进入以“人”为关怀的微观史研究,成功完成《茶馆:成都的公共生活和微观世界(1900—1950)》《袍哥:1940年代川西的暴力与秩序》等著作奠定基础。因此,只有在宏观把握区域社会的政治经济文化的前提下,才能深度诠释历史的微观世界。正如伊格尔斯指出,历史学家的任务应该是探索历史经验在社会转型和个体生存上的两个层次之间的联系。
研究实践表明,国内外的历史学家开创了行之有效的范式,使量化方法在文化史研究领域的应用成为可能。微观数据本质上也是一种历史文本。经过文本分析检验的微观数据更为客观、可信,是量化研究的实证基础。不论是以数据形式构建社会事件对普通人生命的影响,还是以文本形式凸显“人”与社会变迁的联系,量化方法与诠释性方法各有优势。只有将历史叙事与量化分析有机融合,才能充分发掘生命数据的历史意义,有助于实现整体史书写这一宏大目标。
结语
在大数据时代,量化历史研究是否意味着人的消失?历史学家在方法层面的探索给出了答案。历史上无数个体生命经历提供了丰富的资料,值得史学家分析和评述。微观数据的生成过程本身就包含人的信息、故事和意识,量化历史数据库的建立展现了微观个人与整体社会的关联。事实上,数据是有生命的、会说话的。历史学家的任务是以专业眼光和多元方法赋予数据以生命,把大数据转化成长时段的历史叙事,讲述历史上曾经发生的故事。
当今,随着史料规模和形式的变化,历史学正朝着两个方向发展。一是整体史。历史学家在海量史料数据的基础上,运用量化工具重新观察人类社会变迁,历史的碎片有望被重新拼接成历史的全貌。二是微观史。资料型数据库和量化型数据库的出现,意味着利用数据库的考证分析成为可能。历史学家能够超越时空限制,复原个体的社会关系网络,在更宏观的社会背景下,呈现多样态的个体生命史。基于丰富的个体史料信息,深描、阐释等研究方法有了更广阔的应用空间,又进一步强化了历史学的叙事功能。传统史学研究方法并非唯一选择,历史学家需要根据史料特征和研究问题选择量化、阐释及其他方法,以达成历史学综合性研究的目标。
未来的历史学研究,要有“致广大而尽精微”的境界与追求,既要发挥微观史料的优势,又须采信大规模的文献数据,将个体生命史嵌入总体性的宏观叙事。每个微观史细节,是历史学家讲故事的重要素材,不必都被放入长时段历史叙述的链条,而是需要运用量化工具,把生命数据排成序列,放到宏观框架中,凸显历史延续性和社会结构的演进特征。历史学家凭借细致入微的个体信息与量化历史数据,重组、拼接、诠释、分析,融通宏观与微观,方能产生富有人文关怀、具有“生命”维度的综合性研究。
〔本文注释内容略〕
原文编辑:徐鑫