【理响中国】数据治理助推中国生成式人工智能高质量发展

2025-01-23 来源:中国社会科学网-中国社会科学报

微信公众号

分享
链接已复制
  党的二十届三中全会通过的《中共中央关于进一步全面深化改革、推进中国式现代化的决定》中明确提出“完善生成式人工智能发展和管理机制”的任务,并对培育数据市场、加强数据建设以及加强网络安全体制建设、建立人工智能安全监管制度等问题作了重要阐述。这是党中央对数智时代新质生产力发展特征的深刻洞察和清醒判断,也表明生成式人工智能技术作为加快发展新质生产力的重要引擎和新一轮国际竞争战略要地的重要作用不能忽视。
  数据是生成式人工智能发展的基础,是决定生成式人工智能的能力和价值观的核心要素,为塑造国家竞争优势提供了新机遇。2022年6月22日,习近平总书记主持召开中央全面深化改革委员会第二十六次会议指出,“数据作为新型生产要素,是数字化、网络化、智能化的基础,已快速融入生产分配、流通、消费和社会服务管理等各个环节,深刻改变着生产方式、生活方式和社会治理方式”。通过数据要素建设推动生成式人工智能发展,是培育各行各业新动能的最优路径。目前,面向人工智能的数据治理已在我国政产学研用界达成普遍共识,但是数据治理体系尚未完全建立,治理生态也未形成气候,仍处于起步阶段。数据治理场景复杂多样、治理能力整合不足、数据安全伦理保护不足、治理工具建设不足等问题,迫切要求我们以人工智能为切入点对现有治理体系进行重新思考,以建立一个更加适应时代需求的数据治理新框架,推动构建更加安全、负责、可靠、可信的人工智能系统,为满足人民日益增长的美好生活需要提供优质高效的智能应用服务。因此,全面理解和分析数据治理的现存挑战,并探索最大化数据价值的治理方法,实现我国人工智能技术的高质量发展,是数字时代研究者亟须探讨的重要问题。
  第一,培育数据治理“四共”观念,提升多元主体共治合力。《数字中国发展报告(2022年)》显示,2022年我国数据产量达8.1ZB(万亿亿字节),占全球数据总产量的10.5%,位居世界第二。据国际数据公司(IDC)发布的《Global Data Sphere 2023》预测,2027年我国数据规模将增长至76.6ZB,位居全球第一。尽管中文数据总量大,且增幅可观,但真正可用于推动生成式人工智能技术发展的高质量中文数据却相对匮乏。例如,根据OpenAI公布的训练数据,GPT-3的英文语料占比高达92.65%,而中文仅占0.1%。从深层来看,这反映了传统数据治理模式在共商、共识、共建、共享方面主体效用发挥不足,缺乏共治能力。各组织机构由于缺乏统一的建设标准和协商渠道,对优质数据资源的整体分布及其潜在价值未达成普遍共识,往往各自为政建设语料库,数据割据和信息孤岛现象日益严重,不利于数据开放共享与流通交易,抑制了数据要素“乘数”效应,阻碍了其在人工智能领域的价值释放。
  面对这样的局面,应该充分发挥举国体制的优势,建立多元主体治理格局,鼓励企业、政府等各类组织和个人广泛参与,推动数据治理从政府单一主导向全社会协同治理的“共商”转变。首先,政府需宏观掌握国家优质数据资产的分布情况,建立行业高质量数据的动态索引目录;微观上应引导各主体在数据建设行动指南、数据质量评价标准、数据共享开放机制、数据安全保护策略、数据开发利用准则等方面达成广泛“共识”。其次,积极推动建设国家级数据中心,充分发挥各领域专业特点,分工协作,构建在自身领域具有专业优势、对他人领域具有重要补充作用、整体上全面高效的数据资源体系,分级分类制定数据准入条件,引领数据资源平台建设和标准化工具开发,构建优势互补、高效协作的数据资源“共建”模式。最后,政务数据赋能企业发展,对激发行业高质量新动能具有重要价值。应促成政务数据开放计划,鼓励企业将派生数据反哺回数据公共池,实现数据资源良性循环、高效利用,打造具有示范意义的典型案例,激发市场共享数据的能动性,创新数据“共享”环境。通过长期培育共商、共识、共建、共享的“四共”数据治理观念,有效凝聚数据治理合力,开创多元主体数据“共治”新局面。
  第二,构建安全风险评估体系,平衡大模型安全与发展。大模型在多个领域展示了强大的应用潜力,随之而来的意识形态风险、数据安全等问题更具现实紧迫性。以数据为中心的生成式人工智能存在若干典型安全问题,如偏见歧视、隐私泄露、虚假信息、数据投毒、立场回避等。面对大模型安全伦理风险问题,亟须从科技伦理教育、生成全过程监督、智能安全评估、分级分类治理四个方面推动人工智能安全发展。
  其一,现阶段大众在使用过程中普遍欠缺对大模型可能诱发的风险意识,政府需加强对使用者智能技术的伦理教育和舆论引导,强化“以人为本、智能向善”的工具使用观,提高用户数据治理的使命感、责任感。其二,高质量训练数据能有效控制大语言模型安全风险。研发者需构建安全评估框架,最大限度实现数据来源真实可靠、数据采集平衡多样、数据加工透明合规、数据结果可控可溯、数据应用公平可信,确保数据在训练全过程中受到全面有效的监督。其三,在传统的行为监管和审慎监管方式外,智能技术驱动数据治理已成为一种全新途径。监管者应从国家层面统一部署大模型应用防火墙,构建既立足我国价值观又兼顾国际视野的大模型价值观对齐框架,形成一套自主的完备动态敏感词库、安全合规的专业标注语料、典型有效的大模型评测数据集,打造可控制、可监督、可解释的人工智能安全评测技术。其四,过于繁琐的大模型安全防范法规或制度会降低大模型创新发展的速率,数据管理者需设立分类分级敏感数据评估框架,允许对不同类型中不同级别的敏感数据采取差异化安全管理办法,在确保高敏感性数据得到严格保护的同时,给予较低风险的数据更多开放空间,一定程度上优化技术资源配置,有效平衡安全与发展。尤其是大模型在数智时代被视作国之利器,代表的是一个国家和民族的文化自信、价值导向和精神面貌,面对各种立场问题,不能回避疑问,而应彰显中华文化主体精神,向公众、向世界给出基于现代文明价值观、契合事物自身是非曲直的正确答案。
  第三,优化数据要素权责体系,促进数据要素高效流通。数据常常是多元主体共同作用的结果,很少由某个单一主体独自享有,具有非排他性。公众、企业、政府等多方利益主体对数据所有权、控制权、使用权、流通权、收益权等有不同诉求,多主体权益纠葛,关系错综复杂。这包括,个人数据的隐私权与企业的商业利用权之间的矛盾,数据创新应用与知识产权保护之间的矛盾,数据政治安全和产业数据透明之间的矛盾,智能技术发展和规范技术边界之间的矛盾,国家层面的数据治理政策与跨国数据流动的自由化之间的矛盾,数据的创新利用与知识产权保护之间的矛盾,等等。缺少制度保障时,以上种种冲突难免导致数据建设陷入“大投入,小产出”,甚至零产出的困境,究其原因,是传统权利制度框架难以适配数据要素的产权形态。
  2022年12月19日,中共中央、国务院发布的《关于构建数据基础制度更好发挥数据要素作用的意见》(即“数据二十条”)提出“数据资源持有权、加工使用权、产品经营权”三权分置制度框架,为数据要素产权机制体制的确立指明了方向。面对多主体权益交织的数据格局,研究主体应以“产权分置”为探索方向,以“高效流通”为发展主线,建立一套清晰、高效、可行的多元主体权属界定体系和操作行为框架。从确权角度看,遵循“数据二十条”中“淡化所有权、强调使用权”的主张,研究主体有必要充分挖掘数据使用需求,全面调研数据交易环境,在实践中通盘考虑数据开发过程中各阶段数据所属主体,分块推进各阶段数据主体的权益形态,逐步完善各级各类数据确权制度;从授权角度看,强化公共数据在保障安全的前提下以产品形态提供社会服务,保障企业数据在开发利用过程中的权益贡献,创新授权技术手段保障个人信息采集安全合规;从立法角度看,应从国家层面明确数据生产者、数据加工者和产品使用者在数据生产、采集、加工、应用等过程中的责任、权利和义务,为保护各主体在数据交易过程中产生的多重权益主张,建立相应的数据产权法律保障。公平权益分配机制可激发各主体数据共享能动性,降低数据沟通和使用成本,有效平衡不同诉求间的关系。
  第四,研制数据治理工具集,保障数据治理机制落地。数据治理过程中所使用的各种工具和技术手段,是数据治理机制得以实现的基础保障,目前还存在若干问题。一方面,工具功能不足。当前数据治理工具的功能未能与时俱进,版本迭代缓慢,彼此相对独立,难以应对数据快速增长的复杂局面,不能保证数据收集、存储、处理、分享、共享环节的高效运行,削弱了数据治理机制塑造和落地实践的可能性。另一方面,工具使用能力不足。使用工具者依旧采用传统方式或者传统工具进行数据治理,对新治理工具缺乏了解与认知,缺乏使用和优化数据治理工具的技能。
  为此,面对数据治理工具不足的问题,应加大数据治理工具的研发投入,充分利用大数据、人工智能等新兴技术促进数据治理工具的智能化;促进产学研合作,整合各方资源和优势,共同研制先进的数据治理工具,加快数据治理工具的创新和迭代速度;制定数据治理工具的行业标准,规范数据治理工具的功能要求和性能指标,推动数据治理工具的规范化和互联互通。面对工具使用能力不足的问题,应加强数据治理相关交叉学科建设和培训课程的开发,培养既懂专业领域知识又熟练掌握治理工具的复合型人才;建立专家咨询机制,聘请数据治理领域专家为企业和机构提供治理工具使用的指导和咨询,帮助解决实际应用中遇到的问题;调研数据治理工具使用的最佳实践案例,通过研讨会、行业交流会等形式作分享和推广,帮助更多人了解和学习先进经验。
  党中央在进一步全面深化改革的战略部署中,提出“促进各类先进生产要素向发展新质生产力集聚”的任务。推进中国生成式人工智能技术的高质量发展,是一件具有战略意义的重要工作。以趋利避害、安全使用为保证,真正体现出它的革命性和引领性属性,必须在凝聚治理合力上强调数据多元主体共商、共识、共建、共享、共治,在构建安全评估评价体系上主张安全与发展并重,在数据确权授权上优化权责配置体系,在治理工具开发上重视互联互通与时俱进,在人才培养上应强化学科交叉建设,积极打造人工智能数据治理主力军,建立起立足国情、开放共享、可信可靠、安全合规、敏捷高效、自立自信的数据治理新技术、新方案、新生态。
  (作者系中国社会科学院大学文学院教授)
  审核:李建军
  网络编辑:张黎明
转载请注明来源:中国社会科学网【编辑:张黎明(网络)】