近年来,中国的区域国别学从无到有逐步完善,为政府制定政策、民间开展交流提供了更多的学术支撑。在这一背景下,如何通过不同学科的融合和相互促进,以满足政府、企事业单位、社会团体和个人等行为主体了解、认识其他国家和地区的迫切需求,更好地助力全球治理和国际交流,是一个重要命题。
区域国别研究的重要特征之一在于学科交叉属性,致力于对不同国家和地区的政治、经济、社会、人文等进行全面研究。当前,随着大规模社会调查研究在各个国家的流行,社会调查视角下的区域国别研究备受瞩目。社会调查通常比较综合,涵盖政治、经济、社会和宗教态度等多个方面,对于刻画不同国家和地区民众的文化心理差异具有重要意义。例如,不同国家和地区的民众对“礼尚往来”的理解存在很大不同。这些社会文化上的差异若不被了解和重视,不仅会阻碍研究者深入理解当地社会文化,也可能会增加企业“走出去”后与当地民众和政府产生摩擦的风险。此外,一些重要的跨国社会调查还需要持续更新,只有这样才能为研究者了解当地民众社会文化心理的现状以及变迁提供重要的实证基础。研究者只有接入外部数据库,把外部变量与社会调查数据进行匹配,才能深度挖掘重大国内外事件对民众感知、态度和行为的影响,并在此基础上预判未来类似事件的影响。在某些情况下,研究者可以通过分析社会调查数据,发现民众相对隐蔽的相关态度和偏好的变化,从而预警可能出现的重大社会经济政策转变。
近年来,以大语言模型为代表的生成式人工智能为研究者收集和分析社会调查数据提供了新的工具,有望进一步凸显社会调查方法在区域国别研究中的重要性。作为科学研究第五范式的主要推动力以及代表,人工智能正在影响着科学研究的诸多方面,其覆盖范围也从自然科学拓展到社会科学和人文学科。就笔者比较熟悉的政治学和社会学而言,最近以ChatGPT为代表的生成式人工智能在助力社会调查研究方面有突出的表现。
首先,传统的大规模社会调查通常成本高昂,且在一些国家和地区难以直接开展,而生成式人工智能能够降低调查成本并提高其可行性。比如,人工智能工具可以辅助生成复杂且逻辑一致的问卷内容。这种自动化的问卷设计过程在确保了问卷的科学性和适应性基础之上还能节省大量时间和人力成本。
更为重要的是,以ChatGPT为代表的大语言模型使用了海量的、来自各种来源的数据进行预训练,因此它们能够在一定程度上反映现存的人类的知识、感知、以及偏见。这意味着大语言模型不仅可以生成符合常识和逻辑的回答,还能捕捉到社会和文化中的复杂细微之处。研究发现,基于生成式人工智能工具生成的虚拟样本(即“硅样本”)能够在一定程度上反映现实世界中民众的感知和态度。而大语言模型生成高质量合成数据的能力有望在其迭代升级的过程中进一步增强,更准确地模拟出不同国家和地区民众的真实感知与态度。其具体运用包括以下两个方面。
一方面,研究者可以使用大语言模型生成预调查样本,并通过分析这些虚拟数据,在开展正式调查前优化问卷设计,从而减少因问卷缺陷导致的损失。另一方面,研究者也可以使用该工具改善对调查数据的分析。大语言模型在经过微调后能够捕捉到传统分析工具难以捕捉到的各个变量之间的复杂关系。因此,已有社会科学研究开始利用经过微调的大语言模型对调查问卷中的缺失信息进行插补,扩充有效样本。此方法效果显著,往往优于传统插补方法。
其次,大语言模型还能低成本、高效率地分析海量文本数据,对基于社会调查数据的研究发现进行交叉验证,为区域国别研究提供有力支持。一些研究发现,大语言模型能够给社交媒体和新闻等文本数据进行有效的标注、分类和分析,在一些领域里其精度已经趋近于人类专家的表现,但成本却低很多。在许多国家和地区,社交媒体等文本数据规模庞大且相对容易获取。借助人工智能工具对这些数据进行低成本、高精度的处理,再与社会调查数据分析相结合,可以很好地刻画各地民众的社会情绪、感知以及政治倾向的变化,帮助研究者更全面地理解当地社会文化心理的现状与长期演变。
总而言之,由于交叉学科的属性,区域国别研究在研究方法上应该是多样的。研究可以依赖既有的丰富的社会调查数据或者开展新的社会调查,以深入了解各个国家和地区。这些调查相对大规模的社会调查数据在刻画当地民众的社会文化心理、感知、态度方面具有重要优势,而这些信息是深入了解当地、加强交流的必要步骤。
(作者系北京大学光华管理学院社会研究中心研究员;北京大学光华管理学院社会研究中心研究员)