探讨人工智能价值对齐的理论与实践

2025-10-11 来源：中国社会科学网

微信公众号

— 分享 —

链接已复制

　　中国社会科学网讯（记者段丹洁）9月27-28日，中国人民大学人工智能治理研究院主办的“人工智能价值对齐的理论与实践”专题学术研讨会在京召开。来自哲学、法学、心理学、计算机科学、政治学、管理学等多个学科的专家学者共聚一堂，从多个角度共同探讨人工智能的价值对齐问题。

　　人工智能价值如何对齐

　　人工智能的价值对齐的发展需要经历“价值对齐-超级对齐-智能对齐”的上升过程，其核心是人类在面对日益强大甚至超越自己智能的AI，能否进行有效的监督和控制。清华大学计算机科学与技术系教授黄民烈提出，这不仅是一个计算机科学的技术问题，更是对伦理学和道德心理学等学科提出了要求，需要首先确定道德是什么，并以计算机能接受的、可计算量化的语言进行输入，才能使得AI拥有对其行为后果的关心和责任。

　　中国人民大学哲学院教授刘永谋从技术哲学的角度入手，认为人工智能的价值对齐从根本上说是一种功能有限性的对齐，“对齐什么”的问题难以澄清，因为人类本身缺少统一的价值观，人类价值观始终处于不断变化之中，以及各种规则总是存在实然与应然之间的偏差，我们要对“价值对齐”进行严格的范围限定和制度约束。

　　中国科学院自动化研究所研究员、人工智能伦理与治理研究中心主任曾毅从计算机科学与伦理学的交叉视角指出，鉴于人工智能在数学原理上无法保证绝对安全，必须通过主动为其建构道德与利他动机，而非仅依靠被动监管，来实现人机价值对齐，最终推动AI从工具演变为共生伙伴，引领文明新形态。

　　北京师范大学心理学部认知神经科学与学习国家重点实验室暨IDG/麦戈文脑科学研究院教授汪寅从“道德概念”出发，通过古今中外文本的大数据对比和实证研究，阐明了人类对道德概念进行表征的三维理论框架，为人工智能的价值对齐提供了重要的参照系，同时表明不同时代、不同文明的道德概念确实存在一些差异。

　　法律行业需探索可行措施

　　人工智能的价值对齐离不开法律层面的相关落地。北京师范大学法学院教授、数字法学研究中心主任汪庆华认为，大语言模型可能带来一系列法律问题，包括稀释相关权利、侵犯隐私权和著作权以及模型幻觉所带来的合同违约等，而对此的法律解决方式仍然有待探索，若仅采取惩罚式监管，可能对技术人员提出过高要求，因此法律行业需探索切实可行的措施，在维护用户合法权益的同时，不阻碍人工智能行业的健康发展。

　　中国人民大学法学院教授、未来法治研究院执行院长张吉豫分析了企业在推动AI技术落地过程中面临的伦理治理难题，她指出企业作为AI系统的主要部署者，应在产品设计阶段嵌入权利保障、公平性、隐私保护等法律价值，通过科技伦理审查、风险评估、算法备案等制度工具，实现赋能型治理。

　　北京大学哲学系教授周程认为，“算法”一词已经成为了一种“万能解释的修辞”和“现代神话”，我们有必要澄清“算法”一词的语义内涵，充分理解算法、模型、架构的不同含义以及它们之间的多层次关系，这样才有可能制定更准确、更具有可操作性的治理政策。对外经济贸易大学法学院教授张欣分析了我国现行算法公平规范中存在的不足，并提出通过反歧视法理和差异化的受保护特征清单，构建可操作且有预测性的算法公平治理框架。中国人民大学国际关系学院讲师张扬表示，AI价值对齐已不仅是伦理议题，更是国际竞争与制度博弈的新场域，需警惕算法殖民与文化霸权风险。

　　探索人类与AI之间的共情联系

　　在人类与智能体共存的未来社会，群际偏见与情感共鸣将是重要议题。中国科学院心理研究所研究员古若雷提出，提升人类与AI之间的共情联系，减少社会对新技术的排斥，成为了人智社会和谐共存的关键。只有通过情感共鸣，才能促进人类与AI之间的理解与接纳。

　　浙江大学哲学学院教授李恒威表示，意识作为一种高级的内稳态调节机制，能够帮助机器在开放环境中增强智能与适应性。他提出，通过在情感机器中植入类似生物体内稳态的调节机制，机器可以形成内在的目标和驱动力，更有效地应对不确定的挑战。

　　北京师范大学心理学部认知神经科学与学习国家重点实验室暨IDG/麦戈文脑科学研究院教授刘超结合虚拟现实、脑成像与计算建模等前沿技术，探讨人类利他与合作行为的心理与神经机制，并尝试将这些研究成果应用于AI系统的价值对齐设计，推动人工智能向善发展，提升其在复杂社会情境中的道德判断与行为能力。

　　中国人民大学哲学院教授王小伟分析了情感陪伴AI的价值对齐问题：一方面，用户需求的多样性与文化差异使得价值目标高度情境化；另一方面，情感模拟容易生成“合成的他者”，引发依赖与伦理风险。他提出，情感陪伴类AI的设计应以人类尊严、情感真实性和社会公共善为核心，以确保技术发展符合伦理规范。

　　清华大学心理与认知科学系副教授伍珍展示了先进的大语言模型（LLMs）能够有效模拟人类亲社会行为，并且其情感机制与人类表现出一定的相似性；LLMs在执行惩罚决策时，表现出较强的公平价值观，但其情感反应的灵活性和情境适应性相对较弱。她强调，通过增强LLMs的情感动态机制，可以进一步优化其在亲社会行为中的表现，提升AI在伦理和情感对齐方面的效果。

　　微软亚洲研究院研究员姚菁介绍了基于心理学和社会科学的基本价值体系，并以此构建了一个k维价值空间。她提出了一种新的算法，可精准且可解释地实现不同文化和个人价值观的对齐，提升用户体验并减缓社会冲突的潜在风险。

　　中国人民大学高瓴人工智能学院副教授王希廷探讨了大模型如何准确理解和反映人类基本价值观。她提出，在宏观层面应构建普适的基本价值观体系，在微观层面则需通过神经元级别的精准控制实现模型的行为一致性、可解释性与安全性，为构建可信赖的AI系统提供技术支撑。

　　中国人民大学哲学院教授、人工智能治理研究院院长刘玮在总结中表示，本次研讨会聚焦人工智能价值对齐的核心议题，涵盖哲学、法律、技术、心理、政治、管理等多个维度，体现了人工智能治理研究的交叉性与前瞻性，推动了跨学科合作与理论实践的深度融合。中国人民大学人工智能治理研究院将继续致力于搭建高水平学术交流平台，推动人工智能治理体系与治理能力现代化。

【编辑：李秀伟】

社科推荐

学科体系

新媒体矩阵

探讨人工智能价值对齐的理论与实践