从微观数据到宏观历史:作为桥梁的数字史学

2021-09-23 作者:梁晨 李中清 来源:《中国社会科学评价》2021年第2期

摘  要:史学研究的理想境界通常被视为融合“求实”和“求是”两种不同研究旨趣,以微观实证研究为基础,探讨大历史变迁的特征与规律,达成宏观叙事。

关键词:

  摘要:史学研究的理想境界通常被视为融合“求实”和“求是”两种不同研究旨趣,以微观实证研究为基础,探讨大历史变迁的特征与规律,达成宏观叙事。拉长研究时段和拉低研究视角曾被视为达成理想的两种重要方法,但视角转换后研究对象和史料规模巨增,对两种理路均构成巨大挑战,以至收效有限。相较而言,以个人或其他单元级(unit-level)微观史料数据(信息)为基础构建量化数据库,开展多变量描述性统计分析的数字史学研究,能更有效地集合大规模、长时段微观史料,形成扎实的中观研究,为构建宏观史论提供宽广且坚实的基础,在沟通微观与宏观的同时,亦为更好地平衡“求实”与“求是”提供新路径。

  关键词:微观数据  宏观历史  数字史学  量化历史  数据库

  作者梁晨,南京大学历史学院暨中华民国史研究中心教授(南京210023);李中清,香港科技大学人文社会科学学院言爱基金讲座教授(香港999077)。

  20世纪以来的历史学,在一定程度上可以视为描述性的微观史和解释性的宏观史彼此竞争、交错领先的历史。出于对19世纪居于主流地位的兰克史学过于实证和视野狭窄的不满,20世纪30年代,法国年鉴学派异军突起,试图构建长时段和综合性的整体史、宏观史或大写的历史。到了50年代,现代计量史学在美国得到长足发展,统计学的引入似乎给大规模史料的运用带来了契机,使得长时段研究更具可能性,带有明显社会科学化倾向的新经济史、新社会史和新政治史也由此兴盛。但在此之后,计量史学越来越重视各种以假设为前提的复杂的数理分析模型的运用,在研究方法上更为强调技术和精密的同时,却越来越偏离史料,产生了明显的研究方向错误。出于对这种技术至上风气的反对与反思,70年代前后,强调“叙事”的微观史学“前所未有”地发展起来。伊格尔斯(Georg G.Iggers)认为,70年代后的近30年里,西方史学的新变化就是“从宏观历史转移到微观历史,从社会史转移到文化史”。2005年,曾任美国历史学会主席的芭芭拉·瓦因斯坦(Barbara Weinstein)认为,西方历史研究已经少有人分析历史的因果关系,而是满足于描写、叙述历史事件。最近几年,学者们对描述性的微观史又表现出不满。2014年,古尔迪(Jo Guldi)和阿米蒂奇(David Armitage)联合指出,20世纪后期的西方史学界“微观史成为了史学的主流”,“‘宏大叙事’——大框架、大过程、大比较——变得愈发不受欢迎”,但“微观史若不与更大的历史叙事相联系,不明确交代自身的研究想要推翻什么、坚持什么,那就很容易被人称为好古癖。我们希望复兴的是这样一种历史,它既要延续微观史的档案研究优势,又须将自身嵌入到更大的宏观叙事”,微观史档案研究与宏观史框架的完美结合将为历史研究展现一种新的境界。

  历史学者当然明白微观与宏观都是不可或缺的视角或方法。宏观史学虽然主要关注历史发展中的“重大问题、关键问题、主流问题”,认为“尽管所有的历史问题都有其研究价值,但价值大小并非完全等同,而是有的高一些,有的低一些。所谓历史的重大问题、关键问题、主流问题,研究意义应更大一些。相比之下,其他问题就较为琐细,研究价值就小一些。细小问题、微观问题虽然可由小见大,但不可能反映历史的宏观过程,也无法替代宏大历史问题的研究”。但没有微观史实为基础的宏观构建,不仅无法生动和多面向,而且严重缺乏生命力、说服力。同时,尽管微观史学以“眼光向下”和“注重日常生活”为主要标签,但作为发起人之一的乔瓦尼·莱维仍明确指出,微观史不排斥宏观叙事,对小范围事件或人物的历史的关注也不意味着放弃对一般真理的探寻。

  微观与宏观的交锋,并不反映历史学家的嬗变,而是表明融合与平衡两者所存在的挑战与困境。实际上,历史学家曾一直尝试使用两种方法努力融合微观和宏观。其方法一是拉长时段,通过长时段观察寻找历史规律,以达“求是”的目的;二是拉低眼光,深入观察社会中下层和相对小的事件,先行描述,再行归纳,通过置其于宏大历史背景,以求“以小见大”。应该说,这些努力取得了一定的成效,出现了一批有影响力的著作,但又不能令史学家全然满意。比如长时段研究,虽有年鉴学派的大力宣扬,但时段拉长意味着考察对象的极大增加和相伴随的史料膨胀,研究者甚而因此“失能”。为此,黄仁宇曾提出通过归纳法“将现有的史料高度的压缩,先构成一个简明而前后连贯的纲领,和西欧史与美国史有了相互比较的幅度与层次,才谈得上进一步的研究”,并将此定义为新的“大历史”(macro-history)。但依照此法打造出的《中国大历史》,被多数学者视为无血无肉,更类似“简明通史概述”(long-term survey)的作品,其“大历史”构想并不成功。还有学者在“大历史”思潮推动下,开展了“将自然史与人类史综合”的叙述,“起始于大约130亿年前的大爆炸”这样超越人类社会起源的、超长时段的宏大研究,但这种远离“人”、无“人”参与的历史,更难被普遍接受。

  造成宏观与微观融合困境的原因,在于拉长时段和拉低眼光所带来的研究对象规模的极大扩展和史料的膨胀。宏观叙事侧重解释,强调大结构、大过程和大比较,但如果没有大数据或大规模、长时段的史实,解释便缺少基础。大规模史料的组织与分析,不仅依靠学者的长期积累,更需要新技术方法的介入。无论多么勤奋的学者,若只依靠传统方法,在巨量史料面前也常陷入“无力”的局面,微观与宏观间的断裂也由此越来越大,直至无法弥合。大规模量化数据库的建设与研究,在群体研究和长时段分析上更具优势,在帮助学者深入认识中观对象的同时,沟通微观与宏观,成为弥补两者断裂的桥梁,推动史学演进。

  一、从历史资料到微观数据

  微观数据,特别是提取自原始史料的大规模个人微观层面数据,是构建量化历史数据库研究的重要基础。按照世界银行的定义,微观数据是来自人口普查、抽样调查,以及其他行政管理系统等单元层级(unit-level)的数据。单元可以是个人,也可以是单一实体,如家庭、商业企业、街区,甚至是村庄、城镇等地理区域。微观历史数据就是原始史料中蕴藏的单元层级信息,可以是个人的,也可以是研究对象中最基础单元的,要视研究对象而定。例如,当研究对象是民国大学生群体时,每个大学生的个人信息就是最基础的单元级微观数据;当研究对象是某一县、某一省的家庭土地时,家庭便成为单元层级微观信息。因此,地理空间里的村庄、市镇,机构体系中的学校、部门等都有可能是研究的微观单元。微观数据能够直接反映研究单元的情况,大规模微观数据的集合则能反映群体状况,成为深入研究群体特征和变化趋势的有效试验平台。

  20世纪90年代中后期,这种源自人口学的研究方法逐渐渗透到历史研究中,在形成诸多世界级的大规模量化数据库的同时,更有效地推动着多学科的研究进步。与此同时,从事东亚研究的学者们意识到,包括中国在内,东亚地区的史料中普遍存在可大规模、结构化提取的数据,甚至能形成更为系统、长时段和具有丰富信息的量化数据库,能极大地影响东亚社会经济史的研究与认识,比如有效开展东亚大规模区域性的人口行为比较等,具有很高的学术价值和较好的成果预期。

  具体到中国,传统官方文献中的历代户籍材料、历史悠久的土地及财产占有与分配登记材料(与户籍材料相伴随),以及隋唐以来以科举为核心的人才考试和官员铨选等材料,都具有历时长、系统化程度高的特点,是不可多得的量化数据库素材。此外,民间材料如家谱、族谱、商业机构的账册等都是适于构建量化数据库的重要资料。香港科技大学李中清和康文林两位教授共同领导的关于清代缙绅录的项目,依靠清代《缙绅录》资料构建起几乎全部清代官员的微观信息数据库,对研究官员的职位获得、升迁规律及任职时长等都有重要价值。

  近年来,国内数字化史料平台建设突飞猛进,大型、超大型数字史料平台竞相推出。借助网络数字技术,历史学者能够在大规模数字化开放史料平台的海量文献中,有效率地抓取所需微观信息,开展长时段、群体化研究。因此,这预示着在中国的人文与社会科学研究中,大规模历史量化数据库及数字化研究的用武之地会愈发广阔。例如中国社会科学院近代史研究所自2015年起推动的“抗日战争与近代中日关系文献数据平台”项目,到2020年6月底已在线公开报纸1000余种、期刊近3200种、图书54875册,文献总量突破2500万页。到2021年,该平台文献总量预计能达到3200万页,超过日本“亚洲历史资料中心”,成为东亚乃至整个太平洋地区规模最大、开放度最高的公益文献平台。

  微观数据直接来自原始史料,在集合成数据库进行统计分析之前,与史学家传统研究使用的材料并无二致,完全可以且必须以传统史学的标准对其进行辨析和理解。任玉雪认为,在微观层面,“量化数据库的考据从选择史料的时候就已经开始了。和所有的描述性史学研究一样,首先要对文献进行考据,辨别真伪”,“史学考据的学术规范,都是建立量化数据库必须遵循的规则”。在总体层面,“大规模数据的考据与个体数据的考据有一些差异”,“对于描述性史学来说,如果某个数据或人物的记录存在错误,那么这个史料可能完全没有价值了,但对于系统性的大规模数据来说,存在少量的错误是在所难免的,需要从整体上考察史料的价值”。基于历史微观数据库的研究,主要依靠描述性统计发现新的现象,而非对研究假想的探索或验证。在发现各类现象后必须要回归历史语境、环境和制度,在更多历史文献中对现象进行理解,而不是依靠数据计算,比如使用高级计量方法,排除干扰变量,运用统计手段研究变量相关性等。因此,这种研究是对原始史料的整合、重组,并依靠计算工具呈现出最初步或未加工的面貌,这与传统史学研究的基本考虑是一致的。

  微观数据集合具有较宽广的计算空间,特别是能够进行多维度或多截面的统计与变量比较等。数据分析就是用一定的统计分析方法对收集的大量数据进行分析,继而理解这些分析结果,以求最大限度地挖掘数据中隐藏的现象和规律,在实现数据学术价值的同时帮助我们发现新的现象,形成新的理解。数据分析主要是描述性的,包括观察各类数据时间轴上的数量变化与平均值等,以及各类数据间的对比和交叉分析等,以发现异同和相关性等。但要实现这些工作,数据必须是集合起来的原数据,而不能是加工后的总和数据。

  二、从数据集合到中观研究

  经过数据整理和结构化建库,微观数据被组织成具有一定数量规模和时间跨度的数据集合。数据集合通常是中观对象的映射,是开展中观群体性研究最直接和有效的依靠。比如李中清—康文林团队(下文简称“李—康团队”)构建的大规模清代官员群体微观数据库,不仅能为有针对性地、扎实地开展清代官员这一大规模中观群体研究提供关键性的资料平台,而且能据此进一步理解清代的官员任命与升迁规律,探讨其政治运作与权力分配的模式,从而在细碎、短期甚至是时间节点的微观研究与长时段、整体性的宏观研究之间架起了沟通桥梁,为克服困扰着当代学术研究的“短期主义的幽灵”提供了可能。

  自2010年起,梁晨与李中清等学者开始根据民国时期各大学记载的学生记录(主要是入学时填写的学籍卡、登记表等格式化资料),建构“民国大学生量化数据库”。尽管各校材料的格式不完全一致,但基本都包含三方面信息:第一,个人基本信息,包括姓名、性别、年龄、宗教信仰、籍贯、居住地等;第二,教育信息,包括入学前学校、现在的院系、专业等;第三,家庭信息和社会背景等,包括父母与保证人的姓名、职业、现居住地或工作地等。通过提取上述个人层面微观数据,研究团队掌握了民国时期34所专科以上学校136220名学生,共165981条个人信息。该数据库尽管未能包括民国时期所有大学院校,但已涵盖各地各类型的重要大学,其中包括四所规模大、精英化程度高的国立大学,分别是北平国立清华大学、上海国立交通大学、杭州国立浙江大学和广州国立中山大学;亦包括多所精英教会大学,分别是上海圣约翰大学、沪江大学、苏州东吴大学、杭州之江大学以及南京金陵大学和金陵女子文理学院;私立大学方面,数据库亦收录了一度被誉为上海滩学生数量最多的私立大同大学。这一平台筑成了深入研究民国大学生这一重要且规模庞大的群体各类特征问题的坚实基础,涉及特征包括地理来源、家庭背景、社会性别以及专业选择与家长职业关系、教育获得与家庭背景关系、民国教育社会流动性等。

  微观数据库不仅可以进行独立研究,一些主题、对象相近甚至交叉的数据集合还可以连接彼此,形成研究对象广泛、信息内容更深入的中观信息平台。中国历代人物传记资料库(China Biographical Database Project)的领导者、哈佛大学包弼德教授指出,随着“数字人文”的发展,历史数据库的建设大为增加,数字数据(史料)迅速膨胀,数据生产者之间的协作也就越来越重要。通过数据库的开放和协作,形成不同主题数据库的信息连接,是其中最能发挥数字数据优势、推动学术研究的一个方面。李—康团队自20世纪80年代中期起,便开始注意收集和整理中国教育精英个人层面的系统性历史档案资料,以期能深入、准确地掌握中国教育精英群体的长期变迁。历经30年的努力和多方合作,目前初步形成了三个独立主题的数据库:(1)涵盖清代几乎全部进士和官员以及大部分举人、贡生(1644—1911)的《缙绅录》数据库;(2)包含大部分民国时期大学生的“民国大学生量化数据库”;(3)涉及两所中华人民共和国时期国家与省级精英大学的全部大学生(1950—2008)数据库。这三个主题数据库不仅在微观信息层面彼此之间能够连接,如家长职业类型、家庭地址等,而且能通过连接呈现出两代甚至三代的多代际数据,为理解与研究近300年来中国教育精英来源与各项特征的变化等提供了可能。

  多代际的数据平台为研究历史上的代际遗传(intergenerational transmission)提供了极好的平台,多主题、多代际遗传数据平台更能帮助学界进一步拓展对历史上不同面向的代际遗传的研究和认识。除建设了在教育方面获得的微观数据的数据库外,李—康团队还先后构建了以土地分配为主的中国多世代财富信息数据库、以收集民国和新中国成立后新兴职业群体信息为主的中国劳动力量化数据库和以清代及民国时期《缙绅录》等资料为主的中国官员信息数据库。这四个数据库在帮助学界更好地理解历史上的财富、职业、权力和教育的代际遗传的同时,也帮助学界拓展了对代际遗传的认识。如学界的研究从过去以追寻财富遗传为主,扩展到考察教育甚至职业的代际传递;从过去强调血缘、宗族到探讨更直接的官职(职位)获得;等等。

  不仅数据库和数据库之间可以连接,在网络技术的帮助下,研究者还能够跳出结构性史料的限制,智能化收集大规模、超大规模文献史料数据库中的微观信息,形成更多主题的中观层级数据集合。虽然大多数量化历史数据库依靠的是结构化的历史资料,比如人口调查资料、连续的人事履历登记表、大规模的土地分配记录等,但是史料数字化规模的极大提升和网络检索工具的进步,也使得一些史学家开始尝试依靠技术手段和大规模开放数据史料,手动或自动检索各类相关历史信息,将信息填入结构化的史料数据表格,从而在构建起可量化分析的数据库的同时,也形成了新的数字化研究平台。由此,非结构化史料的结构化建构与研究在网络数字时代的可能性大为增强。例如梁晨正在领导开展的民国清华留美生职业生涯研究,即是以一部结构性同学录史料为基础,同时在国内的各类近现代报刊数据库、现代出版物数据库(读秀、超星等)中,依靠网络信息挖掘技术,逐一检索每位留学生,获取大量职业信息后再比对、核查,最终建立起较为全面的民国留美生职业信息数据库,也使得全面、系统地研究清华留美生的职业发展及其与中国近代化的关系等问题有了可能。

  刘子健在指导青年学人选题时曾指出“大题小作,未免可惜。小题大做,那又何必?”唯有中层问题“既可以从大处着想,又不会困于细琐”。这是很有启发性的,凸显了中观研究在沟通微观与宏观上的重要价值。古尔迪和阿米蒂奇则立足当下的技术和研究环境,提出通过沟通微观档案研究和宏观框架以解决两者断裂的难题。数字史学研究中,通过微观层面大规模量化数据库的构建与中观群体的研究,能为从微观过渡到宏观提供扎实的中间基础,更好地实现这样的构想。

  三、从中观“求实”到宏观“求是”

  无论是历史学,还是自然科学,“求真”“求实”都是最高原则。但随着16世纪“科学革命”的开始以及近代学科体系建立后学科畛域的加深,历史研究在逐步成为“人文”学术之一的同时,学者们追求“高明解释”的热情似乎远远超越了对“发现未知”的追求。“科学革命”的发生,标志着自然科学和人文与社会科学的逐渐分化。自然科学研究的着眼点在于发现,人文与社会科学研究则强调解释。结合学术研究发展的历程,笔者倾向于认为:自然科学研究逐渐转化成“求是型学术”,而人文与社会科学的研究则始终归于“解释型学术”。19世纪以来,文理学科这种研究范式分流的趋势被不断强化。英国化学家查尔斯·珀西·斯诺(Charles Percy Snow)1959年在其以《两种文化》(The Two Cultures)为题的演讲中,说明了人文与自然科学研究之间的严重矛盾,“科学研究面对未来,而人文研究则是对于过去的回应”。此后,科学和人文研究间的距离更加遥远,很大原因是后现代主义不断挑战历史学的科学性和史学研究的客观性。

  研究方法的分野虽与学术属性紧密相关,但绝非完全不可改变。如托马斯·皮凯蒂(Thomas Piketty)《二十一世纪资本论》(Capital in the Twenty-First Century)一书,通过构建20世纪多国收入、财富和纳税等系统微观数据库并进行量化分析,揭示资本主义社会长期不平等的演化过程。该书不仅在学界引发了热烈讨论,也激发了公众对该问题的关注。原书法语版于2013年出版,目前各语种翻译版已经在全球40余个国家和地区出版。皮凯蒂及其团队对全球财富和收入不平等长期演变问题的研究,其基础也是微观数据为基础的研究平台或数据实验室,尤其值得称道的是“世界财富与收入数据库”(World Wealth and Income Database)的构建和“世界不平等实验室”(World Inequality Lab)的成立。

  由微观历史数据集合成的数据平台,不仅能够实现宏大的数据规模,且往往具有较长的时间跨度。数量规模和时间跨度支撑下的数据平台,能够更具体、更准确地反映中观对象的变化与变迁,从而更贴近历史数据背后的规律。换言之,规模的价值在于能够构成社会体系中的中观群体,而时间轴的获得又进一步给研究者提供了发现规律以“求是”的可能。历史上,行政系统的各类登记、企事业单位的账目、人事资料等数据信息往往是连续的,延续几十年甚至上百年者都不罕见。这样的数据被提取和建库之后,量化分析工具完全能够展现出各变量在时间轴上的变化。具有时间跨度的微观数据集合,可以帮助历史学家观察到中观研究对象在时间轴上变化的过程和结果,进而为发现中观对象长时段的特征和变化规律提供基础。变化、变异等常常是历史研究的起点,社会科学家认为,“变异是人类社会的本质,没有一种定量的方法,我们就无法表述这种变异性”。尽管“思辨、内省、个人体验、观察和直觉”,也是可选择的理解变迁的方法,但无论如何,“定量方法依然是理解社会及其变迁的最佳途径”。对于理解变化或变异,量化分析当是核心方法,其他方法只能是补充。中观的历史数据集合恰恰契合了这样的研究逻辑,使得研究在获得更多史实的同时,比较自然地呈现变化规律。

  古尔迪和阿米蒂奇认为“长时段历史研究的模式不同于一般意义上的简明通史概述(long-term survey)”,必须“将历史发展的历程进行分段或分层处理(scaled),而不是像微观史那样深究个案、点到为止”,因此,这就要求研究对象即便不是整体,也需要有一定规模。同时,尽管对于历史学家来说,用长期思维取代短期思维并不困难,但要真的将“长期主义”付诸实践却异常艰辛。无论是研究机构,还是学者个人,获取足够长期的历史资料并进行系统分析都是困难的,学者们甚至因此在理解宏观历史时,开始“习惯性地求助于理论,而非事实”。但以微观数据为基础建构的量化分析平台,不仅具有规模性和长时段的优势,而且由此发现的群体特征、变化规律等均建立在个体/单元层级事实基础之上,而非来自理论,具有坚实的事实基础。

  奥斯瓦尔德·斯宾格勒(Oswald Spengler)曾警示历史学者,历史是否存在内在逻辑和规律,是否具有形而上的结构或意义,这事关历史研究能否“求是”,但依据则必须是掌握形而下的事实和变化。历史的过往在材料中的遗留,是许多混杂的“碎片”(即“史料”),对这些“碎片”进行鉴别与梳理,最终写成了“历史”。在实际研究中,微观层面史料或“碎片”的庞杂,在规模和时段上表现最突出,使得构建宏观历史的困难极大。量化历史数据库的构建,能够将规模大、变化多的“碎片”集合起来,经过计算呈现出各种特征和变化,在形成一个又一个新发现的同时,既在描述和解释的史学之外增加了发现的史学,又更好地发挥了“碎片”的价值,在微观的史学和宏观的史观之间架起了桥梁,沟通了史学多面向的努力并达于一致的认识目标。

  反过来,微观历史数据的量化分析在呈现新现象、新趋势的同时,也要求研究者必须回到历史语境、制度与文化中去进行理解和分析,才能真正“求是”。何兆武指出,历史研究有两个层次:一个是史实的认知,一个是对历史的理解和诠释。以微观数据为基础的中观群体研究,可以更好地发现新史实,从而帮助形成新的历史知识,但研究者切不可就此打住,否则“虽然在算法上运用了最新的处理技术,但却未对数据赋予‘人文性’的解释,未分析数据背后的人文信息及其背后的人文情感,没有深入到人文与历史的脉络中去”。中观群体性史实在借助数据得以呈现的同时,更需要回归到历史场景中去诠释形成机制与影响,这样才能进一步实现从中观出发去理解宏观。另外,同样要强调的是,就史学研究的立场而言,以系统性数据为基础的史实发现才是量化历史研究的第一步,而非一些社会科学家强调的“量化历史研究的第一步是提出问题和假说”,即基于史料基础的“求真”依然是微观历史数据库研究的核心目标,而非满足研究者个人化的兴趣或想法,这与传统史学是一致的。

  余论

  借助量化分析方法和相关网络数字技术,微观史料数据可以被建构成中观信息平台,在重新发现中观历史的基础上,形成宏观认识。这一研究理路的目标之一,即是在“碎片”的历史和“整体”的观照之间构建起“局部”的平台,以平台为基础,上下贯通,实现更有整体的微观和更有基础的宏观。宏观历史或“大历史”认识常常是历史学家头脑中的构思,是视野和框架,缺乏大量史实的证明,但没有大量史实就无法令人信服地去丈量、认识宏观历史。单个微观数据可能并不显眼,但被组织起来后,却有很强的认识新现象和改造大理论的能力。如果说宏观历史或“大历史”应该关注结构性变动和长期发展趋势,那么微观数据分析的作用就在于可以帮助历史学者将史料转变为刻度更精准但测量范围更大的尺子,在实现“创造史料”的同时形成新的研究工具。与依靠主题关联、以小见大的研究方法不一样,数字史学研究能够透过微观数据的结构化,获得中观层面的扎实史实、规律或趋势。有研究者将数字技术比喻成显微镜,帮助学者观察到更多微观史实。其实,数字技术或数据库平台还可以是微观信息的加速器或对撞机。被组织起来的史料,在量化运算的推动下加速运动,并在各种数据的交叉和对撞过程中呈现出可被观察到的特征、趋势和规律等。

  “材料的沉默”导致“认识的盲区”是历史研究中一个普遍的难题。如果说对于过往或古代史研究,材料的沉默更多是因为材料的缺失,那么近现代史等领域则更可能是“碎片”化史料大爆发,学者研究时无法囊括多数史料造成的。“碎片”多了,学者研究时不得不选择,但如果是随机性选择,拿到的“碎片”不仅是部分的,更可能是偶然呈现的,据此构建出的历史也是随机的,背后或许隐藏着诸多盲区。作为一种重新组织和分析史料的手段或技术,大规模微观历史数据库的构建与研究分析手段对克服这一问题提供了可能。大规模量化数据库不仅能够发现文献背后的一些现象,同时涵盖的人群、地域和要素等往往也是大规模或丰富的。比如“民国大学生量化数据库”,既能寻找到不同专业教育精英群体,还能与就业信息等联系起来,形成对教师、工程师、医生等群体的理解,不仅能广泛对比研究长三角、珠三角和华北等中国的核心区域,还能分析父母职业、宗教信仰等要素对子女教育的学校与专业选择的影响等。这既能很好突破官方统计资料等针对性有限的不足,在推动史学研究的同时,也丰富人文社会科学的研究材料、数据基础和研究手段。

  (本文注释内容略)

  原文责任编辑:徐鑫

转载请注明来源:中国社会科学网(责编:)

扫码在手机上查看