科技人文融合视角下大数据的双轮驱动特征

2022-04-27 作者:王国成 来源:《中国社会科学评价》2022年第1期

摘  要:数据是人类对客观事物和现实社会认知的符号化表示。刻画主体多元行为属性和人类社会的大数据,既要借鉴自然科学和工程领域及新一轮科技革命带来的前沿技术,又要展现人本特色。深入考察数据的本征与外化、来龙与去脉、应用场景、价值评估及对数据品质的科学检验,探讨人文社会科学研究如何借大数据之机转变观念、拓宽视野,在底层逻辑和理论内核中注入并激活人文基因,进一步依托数字化精细刻画各类场景主体的关键行为特征及其复杂性,促发思维认知变革,通过条件分析和内源激发的双轮数据驱动,力促科技与人文的实质性融合创新。

关键词:数据驱动;数字化;科技与人文;融合创新

作者王国成,中国社会科学院数量经济与技术经济研究所研究员(北京100732)。

  

  随着大数据(数字化)在社会经济发展及日常生活中的重要性、实证方法对人文社会科学研究的重要性等日益增强,人们从数据中的获益加速增长、对数据的需求更为迫切,同时实际应用中数据污染和滥用问题频现且日趋复杂,对数据高效可靠的利用亟待提高,凸显更加科学合理地理解和把握数据的内涵及应用的紧迫性。人们在分享“数据红利”的同时,也逐步清醒地意识到:数据是现实世界和社会活动的另一种存在和表现形式,是人类认知的媒介、探索研究的基础;对数据的理解,决定着数据科技进步的速度、质量和效率,决定着人们探知世界的深度、广度和信度。单边的技术型思维,加剧数据瓶颈和陷阱的阻碍作用,并越来越严重地忽视价值观预设、样本选择性偏差和认知局限等主观因素的影响,相应的理论发展会越来越偏离初衷和正常轨道。实践中的倒逼机制、底层逻辑的修正可能引发颠覆性反思:在新的时代背景下,能否更透彻地看清数据内核、把相关问题说得更清楚一些、应用中更有成效一些?如何使数据的逻辑顺序与真实的行为逻辑和社会秩序同频共振?这就要跳出习惯性思维与做法,更加认真、深刻和细致地思考数据的本质和应用价值,强化对数据的科学性检验、精准定位和本原复归。

  一、数据的实质及其跨学科应用

  万物皆“数”,数映万物。在计算科学中,数据是指所有能输入计算机并可程序化处理的符号和介质的总称,也是构建和扩展科学知识体系的基础原料。

  (一)数据的共性本质与通用特征

  数据是人类有目的地对所观察事物(包括自身行为和社会运行)的状态、性质以及相互关系等进行记录并可以鉴别的表达、组织形式和映射符号(组合),是可识别、可抽象和可还原的,是对观察感知对象的逻辑归纳。当今时代,人们对大数据的认识和理解,多是从容量规模(volume)、传输速度(velocity)、模态结构(variety)、层级连通(valence)、价值发掘(value)和真实可靠(veracity)等方面给予直接形象的描述,至今未见严格精确的定义。数据反映的对象是全方位的,数据的存在和表现形式也必然是多模态的,有数字、文字、代码、符号、图像、实物、意象及空间变位等形式,以及静态与动态、事后与实时、经验与主动等获取方式;其含义或隐或显、或清晰或模糊、或精准或粗略、或有规则或“无规则”、可积累全覆盖;大数据能高保真映射行为痕迹和社会运行轨迹,横跨科技与人文两大门类,不受学科专业领域的限制,是运用交叉学科方法揭示复杂人类决策的极好机遇和有力工具。

  以人工智能(AI)所代表的新一轮科技革命,大大增强了信息处理和应用的效能,推动传统优化决策取得了实质性的技术进步,但与复杂现实变化的差距仍在拉大。这是因为仅从信息的角度就数据论数据,容易忽视数据品质,形成数据瓶颈。数据不只是信息、技术、产品(产出),而是在问题导向和对象特点影响下主体与客体的结合点和产物,是真实世界与认知空间、量与质的统一,是人类探知现实世界、搭建知识体系和理论空间的基础原料,在人与自然交互中可双向转化,是权威性思维、认知和检验评价的标底,很有必要在新一轮科技革命的时代背景下对数据的本质属性和用途意义给出更为清晰的界定。

  (二)数据质量、标准与安全

  理论上讲,数据是客观的,可应用者却有主观意图,未必都能中立地采集和处置数据,达成共识。因而,构建数据品质的检验流程和评价体系必不可少,对人文社科研究尤应如此。数据的质量受视角来源、目的方式、类型维度、层次粒度等因素的影响,评价数据质量的根本标准是看其能否客观真实地反映对象。从体系构建范围上看,数据标准包括元数据标准、主数据标准、模型赋值标准、参照数据标准、辅助数据指标标准等,元数据和主数据是架构的底基和主轴。这就有必要对不同类型、不同用途的数据分类检验,若想当然地忽略对数据的科学性检验,一切基于数据的实证研究和相应结论都是不科学、不可信的。

  传统意义上的代表性样本类数据所反映或蕴含的信息,是基于相似原理的仿射或拓扑变换,具有静态抽象、由局部(或部分)推断总体等特征的经验数据;而大数据(数字化)是全方位、全过程、多模态的满值映射的实时全景整合分析,更符合直观认知和便捷化处理。越是数据大量产生的情形,越应重视对数据来源和品质的检验;数据反映对象和采集的方式、渠道,数据预处理、清洗降噪,统计描述、分类归集、聚类回归、频繁项集,链接预置、传输转化、压缩存取,结构关联、因果(相关)分析等,都存在品质、保真和效率方面的问题;进而考察各类数据的粒度、层次和结构关联等,通过全流程的质量检验和标准控制,改善人们对数据的理解和对现实世界的认知方式。

  数据的隐私保护与数据安全,实质是主体权利保护和要素的合理结合方式,这不仅是技术问题,更重要的或许是观念和规则问题。一是要树立大数据时代的新观念。就本质属性而言,数据是一种客观存在,本身无隐私和保密可言,不应有涉密非涉密、安全不安全等问题。只有达成和遵守共同规则,才能彻底解决数据隐私保护和数据安全等类似问题;二是就数据反映的对象、获取成本和数据产权、使用数据的主体资格和相对于主体使用目的而言,要划清数据与信息和情报的边界与用途。信息获取是为了减少不确定性,而数据主要是用来真实地反映世界和对象。发挥好数据的客观功能有利于做好数据隐私保护和数据安全等相关工作,可由第三方平台对数据相关方的行为痕迹合规记录和披露,按数据的属性确定其权属。数据越是公开就会越安全,也就自然起到监督调控作用。实现以数据监管数据,以数据公开保障数据隐私安全和反数据垄断,以数据规范促进数据发展。

  二、人文社会科学视阈下数据的来龙去脉

  由于数据的多源、多态和异质、异构及应用的选择性,对数据的品质保证、价值评估和发掘、应用场景匹配和借助数字化促进科技与人文融合创新都更为复杂艰难,弄清其来龙去脉及内在关联,会使数据的获取更畅通安全、质量更有保障、应用更有成效。

  (一)数据的来源与反映对象的内在关联及模型匹配

  数据的来源和质量,决定了数据应用效果,不仅要用得好,还须弄清数据的组分结构和内在关联。来龙决定数据质量和结论的可信度,去脉决定数据的价值实现。如何看待数据,数据如何反映对象,如何分清公共通用性与私有专用性,要从观念视角、口径维度、抽样方式、技术手段、体系框架、习惯做法、常见形式等方面转变提升,考察数据的质与量、获取和存取传输成本、大数据(信息)价值与规模和数量能否正相关等。为什么要在随机试验中抽样,要有数据中性和I. I. D.(独立同分布)假设,要保证样本的同质性与总体数字特征和动态结构的一致性?计量实证分析基于将现实场景简化为随机试验的统计抽样,而非统计抽样适应于更广泛场景下的分类专项分析,尤其是大部分人文社会场景不可能严格地满足随机试验假设,这就失去了有效应用的前提;以人的行为和社会为对象的数据,有主观选择性偏差,要经过目的性、科学性、有效性和便利性检验评价,凸显数据来源和质量检验的重要性。数字化时代的人类认知,网络文本数据挖掘、文献计量分析、信息学和图书情报资料、机器学习、数据科学等,都避不开主体偏好及心理感觉,难免存在信息缺失和盲点。数据一方面要反映客观存在和演变,另一方面还刻画人类主体的行为痕迹和主观意识的外化,两种不同类型的数据所对应的分析处理方法既有可共用的技术特性,又要显现出其应有的人文属性。所以,数据驱动建模分析,要强化人文主动性和靶向性,而并不只是高度简化、条件分析下的理性最优决策。通过数据,可实现信息自动提取、地理空间定位和社交网络分析、精细刻画异质个体与群体涌现的互相反馈机制和演变过程,还可整合学科,拓宽视角,创新方法,促进理论发展。

  对数据溯根求源,其实是在对映射方式和传输渠道把关质检。雄伟的建筑必须要有足以荷载的地基,人文社科理论大厦必须建立在宽厚坚实的微观基础上,其创新发展必须要深化微观行为分析;科学可信的实证分析必须要有数据来源和高质量的科学检验,只有在数据真实的基础上推证才有意义;揭示社会经济活动复杂机理必须要内化主体行为,人文社科研究必然要考虑价值引领和服务目的,原创的学术精品必须要有独特的视角和见解,其实质性的创新突破必须要有多学科大跨度深层次的交叉融合;新的数据观念、底层逻辑、分析技术和对现实问题的解释等,可在新一轮科技革命的前沿技术推动下形成的数字世界(空间)中探索实现。

  数据与模型都是以符号形式反映世界,数据的直接常规性用途是加载模型,其与所反映对象的对应关联、与人类认知的衔接协同、与模型(算法、算力)应用的对接匹配等,是人类探知世界的基础,要动态联接和平衡协调数据与模型(形式与内容),以免厚此薄彼。如人口社会、收入分配、环境生态、健康医疗、文化教育等人文综合特征明显的领域,强化在巨量的数据集、可选模型集和拟解决的问题集之间的匹配对应,要使研究目的需求与手段和途径一致、思维与行为一致,数据反映问题、模型聚焦问题,数据矩阵(数字化模型)要在问题点上解决好数据与模型的衔接、匹配和协同,在大数据和AI时代尤其应如此,也是在神经网络、机器学习等领域的基于在线数据、基于实例和基于模型的学习等前沿技术研发的内在动力。

  数据的来源、映射现实的方式,决定了该怎样选用(理论)模型和如何加载数据。拓宽来看,数据加载、模型识别、参数估算和校验修正等都要体现出人文特色,与场景和外部条件变化动态衔接、匹配和调适。数据与模型的匹配实际上是问题与方法对路、思想与技术融洽的问题,是探索未知世界的基本训练和要求,是大数据时代人文社科研究的必然选择。

  (二)网络数据的获取与用途

  大数据时代造就了万物互联,也形成了一个天然“数据库”,而网络数据的采集获取同样只是在不同的数据库之间的一种形式转化,更应将其来龙与去脉联系起来看待。在文本分析、文献计量、网络爬取、网联传播等获取途径和方式中,需要明确如何看待多态异构的数据转换中的信息保全和价值发掘,多源异构数据的深度融合,高效实时数据的同步聚合等,如虚拟世界可否与真实世界的主体行为相互替代,网络行为多大程度上保有真实主体的行为特征和规律。数值型数据64与数字文本64的类型和价值蕴含显著不同,若要考察特定主题和因素之间的关系,那只是一般的统计分析和计量实证,并未体现出大数据的实质含义。再考虑到文化和心理的作用,网络生态中线上线下购物行为影响效用满足的因素是否一致,网上拍卖和现场拍卖等社会经济活动是否遵循同样的价值发现规律,网上政策发布与组织体系内命令下达所产生的效果是否需要平行比对,等等。即使不考虑反爬虫类技术的干扰阻碍,算法规则的取舍选择导致的认知偏差也不可忽略不计。网络即使再发达普及,也难以留下所有类型个体和人群的行为痕迹,并非所有模态的数据都适合作为大数据运用AI和机器学习等前沿技术进行分析。由于网络的多连通性,线上获取的数据层级会更多、路径会更加曲折和复杂,也应更重视对网络数据的品质检验,需要更有针对性的数据梳理技术和方法。网络环境不断变化,具有多元行为属性的参与主体随之变化的中立性、代表性、稳定性及敏感性会随规模增减涨落甚至部分消除,但网络平台上数据供需双方的技术博弈会催生新观念、提出新课题。

  (三)数据的全方位和多视角

  由于人的主体性和易变性(与场景或他人互动),因素之间交互时变、边界模糊,行为数据、模型和算法及还原应用,都涉及主体行为与发生环境、异质主体与宏观现象(群体行为)互反馈、数据结构与分层级联(cascade)、数据库规范化与鲜活场景的数字化刻画、正交试验与维度相互独立,抽象取舍中都具有主体与客体的交融不可分性。

  与多元行为属性的具体表现和结果数据相比,在先天秉赋和后天习得作用下形成的思维和行为响应模式是相对稳定和缓慢演变的,而大数据(数字化)技术的核心价值和独特优势就在于精细刻画主体行为与所处场景的交互关系及传导演变过程。不同于传统的统计(经验)数据,新观念下的大数据使认知思维、获取方式、技术方法得以转变提升,相应的也要基于(数据、场景)二元变量来设计数据库结构、规范及应用流程。

  三、数据的条件式技术驱动与内源式人本驱动

  新一轮科技革命的冲击与挑战,引发思维认知的变革,促使从人文社科视角理解数据、划定边界和理清关联,在哲学层面上正视人类与自然交互中对人与物分析方法的异同。

  (一)因果分析与关联分析

  因果分析是在特定时空中对多个因素之间的前因后果、此因彼果的逻辑关联进行分析,类似的有随机空间中的相关分析;而关联分析是在各类数据和其他信息载体中,对各种因素与可能引起的后果、现象和变数之间存在的频繁模式、关联路径、内在机理、因果结构或相关性进行分析。前者是后者的特例。因果分析是在高度抽象和简化人性基础上展开的,是学术思想中的人格物化;而关联分析更加关注主体多元行为属性和特征,挖掘、凝聚、提炼、集散个体行为与总体形态(其他个体行为)的历史与预见,是从人格物化到以人为本。于是,从技术进步角度看,因素之间的因果关系分析更适合揭示共性和一般规律,但对主体行为数据的关联分析,是在为因果(或相关)分析赋予人文灵魂,使其更具人文特色。事物是普遍联系的,因果关系作为客观现象之间引起与被引起的关系,是不以人的主观意志为转移的客观存在。因果关系的特定性且因素变量的维度和边界是清晰的,为了了解特定现象及成因,人们就把它们从普遍的联系中抽出来,分离归类地予以考察,一(多)个为原因,另一(多)个为结果。而关联分析不只是数据挖掘领域的概念和方法,可扩展到因素不可清晰分离、行为的影响和响应往往是综合模糊、群体交互影响的路径方式和效果是多样的人文现象,还能渗透到数据深层挖掘发现它们之间的内在关联(关键行为特征及相关因素之间的联系规则)。而且,数据越多所得的分析结论未必就越科学可靠。维度诅咒(curse of dimensionality)、复杂与混沌现象的分数维(分形空间,fractal)和黑洞信息悖论,不仅使计算复杂性和技术复杂性指数倍增长,更是大大增加了决策难度。科技与人文深度融合的视角能够深刻地揭示这一点。由非正交试验产生的和服从非经典分布的数据,都是因果(或相关)分析所不能及的。因果关系分析存在和有效于特定的时空关系中,而人的主观意识中的时空与真实的时空并不完全重合,考察的因素关系就不可能完全置于因果或相关分析框架中,或许对现实世界中异质主体的交互影响进行关联分析更为适宜。社会经济活动中往往是多主体、多目的、多因素的因果交替与共生演进,常见的现实场景既不是正交试验也不符合随机试验,只有在微观个体同质、动态结构一致、线性加总生成等条件下,才能满足因果分析的基本条件。这就要求还原数据的本来功能,既促进在自然和科技轨道上的前行,也加速在人文社会轨道上的并进,凸显人文特色,贯通行为主线,由研究对象和研究目的决定方法选择和评价标准。

  (二)技术驱动与人本驱动

  大数据的双轮驱动,主要是指源于和服务于人类社会活动与探索未知的多源多态、异质异构数据,对科学研究及发展数据科学的促进作用。科技进步源于和服务于人类需求与智慧创造,按驱动源头和方式类型划分,数据驱动、模型驱动等任何技术驱动本质上都归属于人本驱动,但在分析解决问题时往往容易流于表面而忽略根本。到底是技术先行还是人本主导或者两者并进,人文社科研究只有为技术和方法赋予人文灵魂才是真正意义上的进步和科学化。模拟化与数字化是人类认识世界和改造世界的两种智力实践,模拟是运用文字、语言、图像、实物、物理量及生物本能的相似原理,而满值映射和自动化处理结合的数字化则创造出数字世界,最大地体现价值和目的。模拟化与数字化分工协作、交叉渗透。数据技术驱动与内源人本驱动的结合,一是将原有的模拟世界中的人、物、事等要素“数据化”/数字化,将模拟世界中人的经验和知识“算法化”或可计算;二是新的人脑替代者(智能体/应用终端)要为技术产出提供原料、内容、算力和能源,如虚拟现实类(VR+)技术。我们面临着正在加速生成的全新的数字世界,作为物理世界和意识世界的中介和桥梁,可无死角、无盲点地反映人与自然的交互;将侧重外部条件和结果的技术驱动与以人为本自内向外的内源驱动方式(考察行为动因、规则和机理)结合,实现数字化基础上的统一混合驱动。

  在数字时代,我们须换一种思路看待数据,尤其是对人文社科研究中的数据,将它们划分成传统意义下和具有新时代特征的两类,其含义、属性和主要表现形式等都有显著不同(见下表)。

  

  四、双轮驱动为科技与人文融合创新赋能

  人类文明发展和社会进步,是人与自然生命共同体的交互演进,数据记录和承载了人类与自然和谐相处、协同发展的历史轨迹和内在规律,也必然一直以科技与人文的双轮驱动促进两者的融合创新。

  (一)数字化视角下数据的功能和价值实现

  数据既反映客观世界又展现人类社会,数字化是当今时代全面实现数据功能、衔接融合科技与人文的有力工具和途径。数据平台上有科技与人文的两条轨道,无论是理论驱动、技术驱动,还是数据驱动,都属于单向单线驱动,都要与深化行为分析基点和根源对接;人类的思维、创造和行为本来没有明确的学科界限,数据对人类文明进步也必然要科技与人文并进。一方面人类社会的发展需要科学技术与人文社科的共同推动,另一方面科技与文化的发展也需要连接两者的纽带和融合平台,而只有新观念的数据和数字化技术能担当起如此的历史重任。

  跨学科视角是创新科技的源泉,而数字化是人文与科技融合创新的基点、纽带和未来,实质性融合有助于设计我们希望的社会。比如,关于人—机接口的探索,将使某些沉寂的学科重新焕发活力,并将人文学科与人类未来联系起来。关于基因工程涉及的伦理问题,应该对人类的基因制造进行哪些修改。另外,数字经济、数字治理、数字社会、数字空间、数字文化、数字生态等,无疑会推动人文学科研究迎来全面的数字化。我们能否借此改变和重塑劳动者与劳动工具、生产者与生产资料(要素)、科技进步与人文主导之间的关系,发挥人本核心优势和主动性创造性的强劲动能,利用数据预测人的“异化”行为,从而更有针对性地指导政策决策呢?

  (二)数字化助推科技与人文融合创新

  数字化是科技与人文融合创新的技术实现途径。由模拟鸟类集群中受到启发研制“涌现”现象的人工生命程序BOIDS(bird-oid object),从简单的局部规则、特定的网联结构“涌现”出复杂的全域现象和形态,如仿生程序和原理。BOIDS的复杂性来自能动个体单元间根据简单法则频繁互动而生成的系统结构特性,其中最为关键的有三个层面(点):微观层面的分布式行为模型,根据对局域环境动态感知的自我调适,由众多个体高频地交互作用生成总体形态。其实一个简化的BOIDS世界只需遵循三条基本规则,我们从更为一般的视角给予新的解释。首先,个体异质性刻画。每一个体可分离(分体,separation),在偏好禀赋、目标选择、思维认知、行为响应、信息接收及预期调适等方面差异性显著,据此相对独立决策,并可根据意愿兴趣和研究需要任意聚焦行为属性、规则和模式,深入任意粒度层级作相应的“精细”分布式刻画。其次,交互与结构。分类考察个体的活动半径、接收信息的范围和方式,在交互影响中根据局部小群的平均方向移动进行动态调适和促动结构演变,据此形成网联方式、结构序性、群组关联的内在机理、方向校准(alignment)的自适应性等。最后,凝聚(cohesion)生成总量。每一个体都是个性与趋中心或趋同性的结合体,不断向局部小群(组)的平均方向移动,显现出渐近收敛到群体共性的向心性与“异化”个性“发酵酿造”的发散性,由此加总求和生成总体形态,并反馈影响个体决策。

  自然科学与人文社科的研究对象不同,使用的分析研究方法也有所不同,而人文社科不会满足于模仿或跟随自然科学和工程技术的方法获取与处理相关数据。大数据能精准刻画人类行为,精细记录每一历史瞬间、每一主体的行为痕迹,成为人类对自身行为和社会运行科学描述的新工具。由此,人文社科研究迎来数据获取和处理的革命性新工具,进入了与自然科学共享方法论平台的新时代。人文社科研究同样可以通过客观、全面地获取数据,深挖数据价值,发现数据所反映的人—事—物之间的内在关联,寻求蕴藏其中的社会规律。大数据、AI等新一轮科技革命前沿技术让人文社科的数据获取和处理进入自动化、智能化的发展阶段,产生和积累了客观、真实、精准、在线的巨量数据,让人文社科与自然科学和工程技术一样,能够实现“让数据说话”。在新的时代背景下,跨学科的交叉研究可作为人文文化和科学文化的纽带,通过大数据方法论平台使两种文化交融和创新发展。对于研究需要的关键行为特征和规则、网联结构类型和传导机理、总量生成模式和决定因素等,靠传统方式获取的经验数据,数据与模型的衔接、机器自动化过程中输入输出、数据代码与现实世界中的现象及变化是双向可转换的,计量经济学模型、可计算一般均衡和系统仿真等,不可能满足这些要求,基于此的建模推理分析,也不应局限在原有的学科框架内,因而必须是跨学科大交叉、多元化行为刻画和多模型思维集成的。万事万物和人类行为的数据化,大大增加了世界和人际交往透明度,未来我们的社会与自然的交互必定带来一个虚实结合、意象与情景交融、更加透明和谐的世界。

  结语

  转变和拓宽数据观念与视野,理顺甚至重建人文社科研究中的底层逻辑,加深对模型、算法和程序等技术性概念与数据支持的理解,有助于推进中国特色哲学社会科学学科体系、学术体系、话语体系的建设和创新。数字化是信息化和数据科学的高端产物与发展新阶段,从行为本源、理论硬核处寻求数据刻画、获取和处理利用方式,从根本上改变单向单边思维。用新的数据观念和处理方法,深挖数据蕴含的价值,平衡协调科技与人文两条轨道上的车轮,将主观与客观、先天禀赋与后天习得、生物本能与自主意识、辨类解析酌处与综合行为响应紧密结合,有助于更好地促进人类文明和经济社会发展,以及对自身行为和社会运行的探索认知。

  (本文注释内容略)

原文责任编辑:梁华 张天悦

转载请注明来源:中国社会科学网(责编:常畅)

扫码在手机上查看