大数据是互联网技术发展的产物。大数据的特点通常被概括为“5V”,即体量大(Volume)、速度快(Velocity)、种类多(Variety)、价值高(Value)和有效性(Validity)。大数据兼顾了样本数和维度数,是大样本和多维度变量的结合。因此,对其使用和研究,需要采用新的方法,如社会网络分析、数据可视化分析、空间数据分析等。这些方法不同于传统的研究方法,将给区域国别研究带来新的变化和发展。
大数据的分类
对世界范围内不同国家和组织进行研究的资料,是一种海量的大数据。这些大数据大致可分为两类。
一类是静态的数据(库),传统意义上的数据库多可归于此类。在学术研究进入计算机时代后,数据资料方面发生的首要变化是纸质资料的电子化,即通过扫描的方式将图书、期刊等资料变成电子化资源,但这种图片化的资料一般无法进行检索。其次是纸质资料的数字化,即在扫描的基础上,加入了文本识别,因而可以对资料的内容进行检索,对数据资源的使用效率也会提高很多。将这些原始资料进行系统化、条理化整理后就形成了数据库,目前市面上常见的商业数据库和开源数据库多是此类,可称之为1.0版数据库。
就区域国别研究的主题而言,目前规模较大的静态数据库是社会科学文献出版社开发的“国别区域与全球治理数据平台”(CRGG),该平台的原型是《列国志》系列丛书及在此基础上开发的电子资源,围绕国别、区域、国际组织等领域,全方位整合基础信息、一手资料、科研成果。除了综合性的数据库资源,一些国内高校和科研机构也开发了专题性的数据库,如复旦大学美国研究中心的“美国研究信息系统”(ASIS),该数据库致力于建设一个美国研究的公共服务平台,在为专业研究人员提供深度信息的同时,也成为普通民众了解美国的一个窗口。
外文的区域国别研究类数据库,全球范围内规模较大的有美国圣智(Cengage)旗下的参考文献出版商Gale数据出版集团,它拥有数百个在线数据库,其中与区域国别研究相关的有美国《国家地理》虚拟图书馆、史密森学会美国历史原始资料库等。外文专题数据库较有代表性的美国东方观察信息服务公司开发的《俄罗斯大全》,是迄今为止全球最大的收录俄罗斯学术资源的数据库。
另一类新型大数据是动态的数据平台,也可称之为2.0版数据库。它是在传统静态数据资料的基础上,加上动态追踪研究对象国和地区的网站、媒体、资讯、论坛等开源渠道数据,利用数据挖掘技术等手段,实时采集、定期采集、重点板块高频率采集等获得的大数据。这些数据不仅可以实时更新,而且可以存储下来,帮助研究者掌握研究对象国和地区的最新情况,而这正是区域国别研究的一个重要方面。
目前较有代表性的是广西大学中国—东盟信息港大数据研究院开发的“中国—东盟大数据”平台,该平台围绕中国—东盟信息港建设目标,整合政府、高校、科研机构及企业等多方资源,充分利用云计算、物联网、大数据等新一代信息技术,力图全方位、多角度呈现东盟国家政治、经济、军事、教育、文化等方面的资讯,提供最新舆情追踪,为用户提供严谨、翔实的数据资料,为政府决策、企业投资提供高效的决策参考。
此外,教育部下属的多个区域国别研究备案中心也正在建设类似的区域国别研究数字化平台,如兰州大学的“文明互鉴与‘一带一路’大数据平台”、四川外国语大学的“区域国别研究数字化综合平台”等。这些新型区域国别研究大数据平台的开发与利用,将会促进中国区域国别研究整体水平的提升。
大数据的应用方式
大数据的广泛应用可以为高质量开展区域国别研究创造便利条件。由于大数据有着不同于传统数据资料的特征,因此,对其应用和研究需要采用一些新的方法。
一是社会网络分析。区域国别研究的一个重要方面,是对各国重要政治人物的分析,而分析政治人物,考察其社会网络则是一种重要途径。社会网络分析是一种研究人际关系和社会网络的方法,主要通过数据可视化工具建立网络图来表示个体、组织和社会之间的联系。进入网络时代以后,社交媒体的用户在应用程序上产生了巨量数据,包括用户的地理位置、发布内容、时间等信息。这些数据可以用来分析特定地理位置或不同社交媒体平台里特定的事件,展示用户在社交媒体上的活动。透过社会网络分析,可以揭示组织和个体之间的互动方式、信息传播路径和影响力等信息,从而更好地了解人与人之间的关系。这就为区域国别研究中的人物分析提供了重要渠道。
二是文本数据分析。区域国别研究中还存在大量的文本材料。基于大数据的文本分析技术是一种对海量文本数据进行自动化挖掘和分析的技术。它通过数据统计分析软件,采取数据搜集、分词、数据清洗、特征提取以及建模和其他分析等步骤,对文本进行可视化(词云分析)、情感分析、聚类分析、社会网络分析等应用,以帮助研究者更好地理解文本数据和信息,从而加深对区域国别问题的认知。
三是大数据可视化。区域国别研究会涉及海量的数据。大数据可视化是一种将大数据呈现为可视化形式的技术和方法。通过将大数据转化为图表、图形、地图等可视化元素,使得数据更加直观、易于理解和分析,从而使得人们能够更好地利用大数据为决策和判断提供支持。
在区域国别研究中,除了以上三种常见的大数据处理方法之外,还有地理信息系统、兵棋推演等大数据的应用方式,在专门领域也可以做出好的研究成果。
大数据的使用案例
大数据的出现和应用不仅促使区域国别研究的对象从国家和体系层次扩展至个体层次,还将研究的领域从宏观扩展至微观。在大数据时代,研究者不仅可以从静态的数据库中获取区域国别研究的海量信息,而且可以利用各种大数据处理软件工具,从网络中快速挖掘可用于区域国别研究的个人数据,从而扩展研究的范围和深度。
案例一:海南大学“一带一路”国际数据与舆论研究中心通过关注具有国际影响力人物的社交媒体账号,运用机器学习模型分析其与关注者的发文情况,初步判断两者之间的相互影响状况。
案例二:北京大学可视化与可视分析实验室通过可视化推文对相关国家领导人的个人行为进行分析。社交媒体作为一个分享、交流、传播平台,尤其是一些国家领导人,发文的数量非常可观,从而形成一个可供观察和研究的文本资料。通过挖掘这些文本,可以大致刻画出用户的行为特征。
案例三:清华大学国际关系研究团队使用“事件数据分析法”大数据来分析国家间关系。在区域国别研究中,两个国家之间的双边关系是一个常见的研究主题。对于两国双边关系的研究,过去通常采用历史学、政治学的研究方法对双边关系作定性的描述,而大数据的出现则使双边关系的研究实现了由定性到定量的转变。清华大学国际关系研究团队对1950年以来,中国与美、日、俄、英、法、德、印等大国的外交事件进行编辑整理,将双边关系量化,编辑成数据库,并借助可视化软件,将两国关系的变化转化成坐标系中的图形,从而帮助研究者更详细地了解中外关系的变化,并对双边关系的未来发展做出更准确的预测。
创新是区域国别研究不断前进的动力。随着大数据在区域国别研究中的日益推广,各类数据库的建设将不断完善,大数据研究方法的重要地位也将愈加凸显。
(作者系四川外国语大学区域国别研究院执行院长、教授)