大语言模型的技术政治学评析

2024-03-06 作者:吴冠军 来源:《中国社会科学评价》2023年第4期

微信公众号

分享
链接已复制

摘  要:知识生产者的行列里,出现了一位人类眼中的陌生者:作为生成式人工智能的大语言模型。以ChatGPT为代表的大语言模型,展现出接近通用的智能水准,同时亦有大量使用者报告各种错误,甚至错误连连。由此,对大语言模型的智能形态展开系统性的探究,可从技术政治学视角切入,并在此基础上对它生成错误与意识形态偏见之缘由展开分析。美国政府要求“美国价值”必须是开发与应用人工智能系统的准绳,这意味着人工智能时代,至关重要的论题仍然是意识形态的批判性分析。

关键词:大语言模型;后人类境况;技术政治学;意识形态偏见

作者吴冠军,华东师范大学中国现代思想文化研究所研究员、政治与国际关系学院教授(上海200241)。

  引论:知识生产的后人类境况

  生活在当下时代,我们以目不暇接的方式见证着技术的加速发展。即便物理规律会框定一个终极的界限,然而著名的“摩尔定律”以及雷·库兹韦尔(Ray Kurzweil)提出的“加速回报定律”,一次又一次让我们见证其不断持续的有效性。2022年11月,人工智能研究公司OpenAI推出了一个叫做“ChatGPT”(Chat Generative Pre-trained Transformer)的人工智能聊天机器人程序。尽管聊天机器人的核心功能是模仿人类对话者,但ChatGPT却展示出了令人震撼的智能表现。

  ChatGPT具有极其卓越的自然语言能力:它不但可以同人进行谈话般的交互,而且能够记住同该用户之前的互动。在连续性的对话中,ChatGPT会显现越来越强的针对性。这使得包括2018年图灵奖得主约书亚·本吉奥(Yoshua Bengio)在内的人工智能专家认为,ChatGPT已经通过“图灵测试”。在此基础上,ChatGPT还会编程写代码、模拟Linux系统、写学术概述、写诗和歌词、创作音乐、写剧本、编童话故事……以ChatGPT为代表的生成式人工智能(generative AI),“它”已然成为“知识”的生产者。ChatGPT问世后短短数月间,大量人类作者同ChatGPT合写的论文,乃至ChatGPT独著的书籍,如雨后春笋般接连问世。生成式人工智能所生产的知识,尚远远不限于此——它已经开启了以牛顿主义范式为地基的现代科学知识之外的另一种全新的知识形态。

  2023年5月,上海人工智能实验室和其他几家科研机构联合发布全球中期天气预报大模型“风乌”,它将全球气象预报任务建模为一个多模态、多任务的学习进程。基于再分析数据验证表明,“风乌”比传统物理模型的10天预报误差降低了19.4%。2023年7月,华为的6位研究人员在《自然》杂志上发表论文《三维神经网络用于精准中期全球天气预报》。该文揭示出,盘古气象大模型预报精度已大幅超过传统数值预报方法,并且预报速度提速10000倍以上,实现了全球气象秒级预报。人工智能驱动的科学研究,彻底绕开了科学研究的牛顿主义范式,并形成了一系列革命性的突破。

  值得进一步指出的是,这种由人工智能算法驱动的、大数据预训练所生成的知识,并不以客观性与确定性作为内在尺度。那是因为,任何数据(哪怕是关于气象的数据),皆结构性地内嵌人类认知;任何大数据算法,皆只能输出概率性的而非确定性的结果。然而,这类并不自我标榜为客观、确定的知识,却毫不影响其具有科学的质感。我们知道,发轫于20世纪初的量子力学,业已激进地瓦解了牛顿主义研究范式,挑战了任何一种标榜客观性与确定性的科学论述。

  在摒弃掉客观性与确定性后,由人工智能生产的知识,却可以用有效性来进行衡量。在这上面,我们一次又一次不得不承认,这类知识往往是无理性地有效(unreasonably effective)。为什么“风乌”比传统物理模型的10天预报误差降低了19.4%?我们无法通过既有数学、物理学与大气化学知识来加以解释。至多,我们只能从量子力学那里借来“涌现”(emergence)这个概念,来填在这类知识的有效性“黑洞”上。这类知识不只是无理性地有效,并且其生成过程亦是无理性地高效,彻底无法用已有知识加以解释。

  我们正在共同面对着的,是知识生产的后人类境况。这已不是让弗朗索瓦·利奥塔(Jean-Fran?ois Lyotard)所说的知识生产的后现代境况(摆脱元叙事的“正当化”宰制),而是一种全然陌生的后人类境况(摆脱人类主义的“理性”束缚)。

  2022年2月成为美国国家工程院院士并坐上世界首富宝座的埃隆·马斯克(Elon Musk),使用ChatGPT后在推特上写道:它好到吓人(scary good),我们离危险的强人工智能不远了。马斯克口中的“强人工智能”(strong artificial intelligence),具有知觉、自我意识和推理能力,能够独立思考问题并制定解决问题的最优方案,乃至拥有价值观和世界观体系、具有生存和安全需求。值得深思的是:强人工智能为什么是“危险的”?当知识生产者的行列里,出现了一位人类眼中的陌生者时,人类为什么要感到危险而不是欢欣鼓舞?更实际也更具化的一组问题是,ChatGPT离强人工智能有多远?它有自我意识么?它会有自己的价值观么?它的问世,会对人类社会乃至人类文明带来怎样的影响?我们该怎样对待ChatGPT所生成的错误与意识形态偏见?或可从技术政治学(technopolitics)视角切入,对这组问题展开一个纵深性的分析。

  一、大语言模型何以智能

  ChatGPT问世以来,除了各种赞叹的声音,同时亦有大量使用者报告各种错误,甚至错误连连。为了理解ChatGPT为代表的大语言模型的智能形态,以及它何以错误连连,我们有必要对它的发展路径,作出分析性探究。

  半个多世纪来,人工智能研究主要在三个路径上奋力前行:(a)基于知识与规范的符号主义进路;(b)基于深度学习的联结主义进路(绕过符号之域直接从数据中进行经验性的试错学习);(c)基于控制论的行为主义进路。2022年底这一波由大语言模型所引起的“人工智能热”,就技术而言乃是联结主义进路上的关键性突破,导致了近乎通用的智能得以“涌现”。这意味着,以ChatGPT为代表的大语言模型,是建立在2018年图灵奖得主杰弗里·辛顿(Geoffrey Hinton)最先于20世纪80年代提出的人工神经网络研究的基础上,沿着联结主义“深度神经网络”(Deep Neural Networks, DNN)进路发展出来的。

  使大语言模型在技术上成为可能的那个关键性技术突破,是谷歌研究团队于2017年提出的基于注意力——尤其是“自注意力”(self-attention)或者说“内注意力”(intra-attention)——机制的转化器模型。OpenAI的GPT系列模型,皆建立在这篇奠基性论文的研究成果之上:GPT全称就是“生成式预训练转化器”(generative pre-trained transformer, GPT)。生成式预训练转化器是一种采取神经网络架构的深度学习模型,通常拥有数百亿乃至数千亿个参数,并以自注意力机制为内核。作为人工神经网络中一种模仿认知注意力的技术,生成式预训练转化器模型能够增强神经网络输入数据中某些部分的权重,同时减弱其他部分的权重,以此将网络的注意力聚焦于数据中最重要的一小部分。自注意力机制能够一次性处理所有输入数据,可以为输入序列中的任意位置提供上下文,并按输入数据各部分重要性的不同而分配不同的权重。数据中哪些部分比其他部分更重要取决于上下文,可以通过梯度下降对转化器模型进行训练。

  在大语言模型出现之前的近十年,人工智能的突破都来自各种专用人工智能(narrow artificial intelligence),如用围棋棋谱来训练深度神经网络的Alpha Go又称“阿尔法狗”。而ChatGPT所展现出的接近通用的智能,则是因为它是用各种类型的海量文本(包括各种书籍、网页、ArXiv论文存档、维基百科等)来进行如下这个训练:从上下文来预测下一个词。但这种训练在生成式预训练转化器模型出来之前,是无法达成的。2017年之前,自然语言处理(Natural Language Processing, NLP)主要依赖循环神经网络(Recurrent Neural Network, RNN)模型来推进。循环神经网络线性地按顺序处理每一个标记(token)、并维护一个状态矢量(该矢量包含所有已输入数据的表示)。这种模型的短处就在于:每个标记的计算都依赖于先前标记的计算结果,这使得它很难在GPU这类深度学习硬件上进行并行处理。然而,这个短处被生成式预训练转化器所克服:自注意力机制让生成式预训练转化器模型得以提取序列中任意先前点的状态信息,并根据学习到的相关性度量对其进行加权,从而提供相距很远的标记的相关信息。于是,生成式预训练转化器不再像循环神经网络那样一次只处理一个单词,而是允许更多的并行计算,从而大幅度减少训练时间。

  大语言模型在训练上包括四个阶段:预训练、监督微调、奖励建模以及强化学习,每个阶段用不同的数据集来训练,并用不同算法生成结果模型。尽管有四个阶段,但预训练阶段占据训练实际计算时间的99%——往往需要数十万个计算小时、大量GPU算力并消耗巨额能源。其他三个阶段,皆系对模型的微调。

  预训练所使用的数据集,主要是从互联网上抓取的文本。生成式预训练转化器模型会将所有文本都转化成一组非常长的整数序列,这种语言建模被称作“标记化”(tokenization),具体做法就是使用字节配对编码等专门算法,不断迭代地合并小文本块并将它们分组为标记(一个标记约等于0.75个单词),从而实现文本片段与整数之间的一种无损转换。将英文单词、汉字字符等标记化,可以有效处理数据集中各种罕见字词,并通过限制每个序列的标记数量来减少计算复杂性。

  经过标记化后,生成式预训练转化器就开始根据一整段上下文输入来尝试预测序列中的下一个标记,亦即为接下来的词指定概率分布。上下文长度通常是2000或4000标记(甚至有模型达到了100000标记)——该长度决定了生成式预训练转化器在尝试预测序列中下一个整数时将查看的最大整数数。预训练采取的是无监督训练,并可通过使用合并规则来提高对训练数据的编码效率。在训练的初始,生成式预训练转化器神经网络以完全随机的权重开始,并获得完全随机的输出。随着训练时间越来越长,生成式预训练转化器不断迭代权重,就会输出越来越连贯的预测。通过这种预训练,GPT-3预训练出了3000亿标记,而Meta于2023年7月18日发布的大语言模型LLaMA 2则预训练出了2万亿标记(LLaMA模型预训练了1.4万亿标记)。

  通过这种神经网络深度学习的预训练,生成式预训练转化器模型“涌现”出了强大的通用智能,并可以有效地微调它们以用于各种下游任务。杰弗里·辛顿(Geoffrey Hinton)这样解释大语言模型的“智能”生成机制:如果你观察大语言模型,它们使用数字计算和权重共享。这允许同一模型的许多不同副本处理巨量的数据,并共享每个个体副本所学到的内容。但是模型的每个副本(亦即每个能动者)都以一种非常低效的方式从文档中获取知识。实际上,这是一种非常低效的蒸馏形式。它拿到一个文档,试图预测下一个单词。\[作为学习者的它\]并没有拿到对于下一个词的\[人类\]教师所掌握的概率分布,它只拿到一个随机的选择,也就是文档作者所选择写在那里的下一个词。这是非常低的\[学习\]带宽。这就是这些大语言模型从人们那里学习的方式。每个副本通过蒸馏以非常低效的方式学习,但是存在着成千上万个副本。这就是为什么它们学习的内容可以比我们多上成千上万倍的原因。我相信这些大语言模型比任何人类个体知道的东西要多成千上万倍。我们看到,大语言模型所呈现出的接近“通用”的智能,就来自它能够借助生成式预训练转化器以并行计算与权重共享的方式来进行深度学习——它不像循环神经网络那样单线程地进行学习,而是同时有大量副本各自就不同文本展开学习,并通过共享权重或梯度的方式即时性地分享学习成果。

  除了众多模型副本同时展开学习与分享知识之外,巨量的模型参数对于大语言模型的智能表现也同样十分关键。用OpenAI创始人之一的安德耶·卡帕锡(Andrej Karpthy)的话说,几百亿个参数,能够使模型具有“相对大而完美的工作记忆”。卡帕锡告诉我们:任何适合上下文窗口的内容,都可以通过其内部自注意力机制立即供生成式预训练转化器使用,它有点像完美的记忆,它的大小是有限的,但生成式预训练转化器可以非常直接地访问它,它可以无损地记住其上下文窗口内的任何内容。自注意力机制加上巨量参数(“完美记忆”),使得大语言模型彻底碾压人的注意力与记忆力——它能够借助生成式预训练转化器,无损地记住上下文窗口内的任何内容。

  从辛顿与卡帕锡的论述中我们可以看到,作为人工神经网络,大语言模型最核心的强大之处,其实就在于它的“大”。正是规模提升(scale),使得那“好到吓人”的智能得以涌现——620亿参数时大模型涌现出了常识推理、编程、文本翻译、回答问题、总结文档(乃至大量文档)等能力;参数达到5400亿时则涌现出了逻辑推理链条、语义分析、模式识别、阅读理解、解释笑话等能力。大语言模型的性能,随着模型大小、数据集大小和训练中使用的计算量呈幂律关系。

  二、大语言模型何以错误连连

  辛顿与卡帕锡对大语言模型之智能表现的解释,都落在其不同寻常的规模上(副本众多、参数巨多)。我们还可以在这两位专家的解释之上,进一步展开对大语言模型之智能的探究。大语言模型强大之处除了“大”外,还在于“语言”。

  人的“世界”,经由语言这个构成性媒介(constitutive medium)而形成,用精神分析学家雅克·拉康(Jacques Lacan)的术语来说,它是一个“符号性秩序”(symbolic order)。人无法同前语言的秩序(拉康笔下的“真实秩序”)产生有意义的互动。当大语言模型深度学习了人类已生产出的几乎所有文本后,那么,它就对人的“世界”(而非“真实秩序”)具有了几近整体性的认知——这便使得人类眼中的“通用”智能成为可能。尽管目前大语言模型因没有感知器官而不具备“具身认知”(embodied cognition),但这并不影响它对“世界”的符号性捕捉。诚如OpenAI的首席科学家伊利亚·苏茨科弗(Ilya Sutskever)所言,它知道紫色更接近蓝色而不是红色,它知道橙色比紫色更接近红色。它知道仅仅通过文本知道所有这些事。大语言模型不需要亲“眼”看见过红色、蓝色或紫色,便恰如其分地能够谈论它们。它仅仅通过对“符号性秩序”的深度学习,就能够对人类所身处其内的这个“世界”了如指掌。费迪南·索绪尔(Ferdinand de Saussure)的结构语言学研究已然揭示出,作为生活在语言中的“说话的存在”(speaking beings),我们并无法抵达“是”(譬如,什么“是”蓝色)。这就意味着,我们必须放弃关于“是”的形而上学聚焦,转而聚焦一个符号性秩序中“是”与“是”之间的差异(亦即符号之间的差异)。语言,是一个关于差异的系统。

  同辛顿、本吉奥共同获得2018年图灵奖的杨立昆(Yann LeCun)认为,人类无需担心大语言模型。杨立昆的这个判断,便来自他对语言的“工具主义—表征主义”的理解。杨立昆认为语言以字词串起,故此是离散的;离散的字词(“标记”)必须彼此差异。但在他看来,字词具有差异性,不是因为它们构成了作为差异系统的符号性秩序,而是因为语言是沟通媒介——要让人们能在有噪声的通道中进行沟通,符号必须是离散的,这样便使人可以纠正错误、消除噪声。杨立昆认为思考不受限于语言,相反,语言是对思想的一种苍白的、近似的、离散化的、呆傻的表征。

  显然,作为计算机科学家的杨立昆,没有经历过肇始于索绪尔的“语言转向”(the linguistic turn)的思想洗礼,或者对该转向不认同。思考——在人的“世界”中展开的有效的思考——只能通过语言来进行;思想——在人的“世界”中能够传播的有效的思想——只可能采取语言性的形态。“佛家思想”亦只能通过经文(与注经式阐释、研究)来得到表达,而无法通过“拈花一笑”进行传播。语言看似是对思想的表征,实则是思想的织料(fabric),是思想得以成形的矩阵(matrix)。离开语言的前提性存在,思考不再可能(即便有的话,那也根本无从得知,自己也无法理解)。

  在工具主义—表征主义视域中,语言仅仅只是一个媒介——“事物”(things)本身独立于语言而存在。然而,语言绝不只是杨立昆所说的人与人之间沟通的媒介,更是“世界”得以生成的那个构成性媒介——没有语言,各种“实体”(entities)会继续存在,但我们却不再有一个“世界”。语言使各种前语言的“存在”,变成了一个秩序(“符号性秩序”),一个人类可以理解并居身其中的“世界”。

  语言把前语言的“存在”(亦即,存在于“世界”之外),符号化为各种“是”。和“存在”不同,“是”涉及符号指向(signification),涉及“能指”(signifier)与“所指”(signified)间的一种对应。“红色”,就是一个能指——大语言模型无法“看见”它所指向的内容,但完全不影响其在“世界”中有效地“说出”它(在沟通中有效)。大语言模型,同前语言的“存在”无涉,同拉康所说的“真实秩序”无涉。

  以康德为代表的“认识论转向”,被以索绪尔为代表的“语言转向”所革命性地推进,正是因为人们不但无法企及“物自体”(故此必须放弃研究“是”的形而上学),并且关于他们对“现象”的体验(如眼中的红色),也只能通过语言(“红色”)进行有效沟通。完全不具备具身认知的大语言模型(无法通过感官来进行体验),却依然能够呈现出关于这个“世界”的通用性的智能,那是因为,它不断在进行深度学习的,不是“世界”内的某一种系统,而是语言这个符号性地编织出“世界”的系统——一个处在不断变化中的差异系统。

  大语言模型强大之处除了“大”与“语言”外,还在于它是深度神经网络模型。

  在认知心理学家丹尼尔·卡尼曼(Daniel Kahneman)的《思考:快与慢》中,将人类的思维归纳为两大思考模式:“系统1自动且快速运行,几乎不需要或根本不需要努力,也没有主动控制感。系统2把注意力分配给必须要它参与并付出努力的脑力活动,包括复杂的计算。”作出“快思考”的“系统1”,其实是经由生物性演化形成的神经网络运算系统。你看到蛇就会害怕,那是你的神经系统快速地把输入信号(感知器官接收到的“蛇形信息”)转化为输出(害怕的主体性体验)。而演化,就承担了神经网络的预训练。人的神经网络系统,实际上就是一个预训练好的计算模型,外界信息输入经过它的不透明计算转化成输出——所谓“直觉”,便是神经网络计算的输出。

  “快思考”是神经系统的自动计算,是快速的、自发的反应,并不需要意识的参与。然而,人们在处理大量且复杂的语言信息时,需要激活“慢思考”的“系统2”。用海量文本来进行神经网络训练的大语言模型,实际上等于是把人的有意识展开的慢思考,全部变成了前意识的快思考。ChatGPT对“提示”(prompt)的回应速度能够如此快,那是因为,它实际上相当于人的“直觉”反应——ChatGPT那“好到吓人”的智能,便恰恰来自它对“政治学与物理学存在何种关系”这样的问题,能够作出类似“直觉”般的快思考。要知道,面对这样的问题人类只能展开慢思考——并且绝大多数人耗费脑力用慢思考给出的回答,其质量仍远远弱于ChatGPT快速作出的回答。

  ChatGPT会出错,甚至错误连连。这里我要提出的是,它出错的方式实际上相当特殊,那就是:一本正经地胡说八道。它会有这种独特表现,恰恰是因为它说话不过“脑”(不涉及“系统2”的慢思考)。卡尼曼所揭示的并令他荣获诺贝尔经济学奖的诸种“认知偏误”(如损失厌恶、锚定效应、可得性捷思法等),其实亦是同一类现象——它们皆系不过“脑”直接跳出来的预训练的深度神经网络输出。人会有各种认知偏误,一如大语言模型会各种一本正经地胡说八道。

  同样值得注意的是,对于同一个“提示”,ChatGPT每次生成的内容都会有一点变化。它会有这种表现,那是因为它处理的是概率分布。人的“直觉”、快思考(深度神经网络计算),也是以同样方式进行输出。足球场上罚点球时,守门员扑向哪个方向,实际上是不过“脑”的,而这种经过大量训练后对信号直接的反应,总是一个概率性的输出。看到蛇状物怎样反应,也是一个概率性输出——可以通过训练改变输出(看到蛇并不拔腿就走)。ChatGPT在推理上表现不佳,那也是因为它采取的是神经网络输出的快思考模式,而非深思熟虑(deliberate)的慢思考模式。可以说,ChatGPT完全不“理解”它的输出内容,它处理的只是概率分布。

  经由上述分析,我们看到:大语言模型所展示出来的近乎通用的“好到吓人”的智能,并不意味着它(快要)具有意识。它的智能,恰恰是前意识的(如人前意识地见蛇就想跑)。人的意识,涉及主体性体验的语言性描述——看到蛇不仅快速生出某反应(前意识的“直觉”),还能事后把该反应表述为“害怕”(意识的“体验”)。法国认知神经科学家斯坦尼斯拉·狄昂(Stanislas Dehaene)提出,人的意识的三大特征是:“慢、理由化的、符号性的”。意识“规划出关于世界的诸种符号性的表征与明晰理论,我们能够通过语言来同他人进行分享”。意识的运思或者说计算,总是会调用关于“世界”(符号性秩序)的背景框架,以及各种符号性的“因果模型”(譬如,地震可以被理由化为“土地爷”发怒,而非地壳板块运动),故此对于前意识的直觉而言是极其慢的。

  大语言模型的智能输出(譬如一大段复杂、精细的表述),并不是意识的,而恰恰像任何具有神经系统的脊椎动物所作出的那种“直觉”反应那样,对接收到的外界刺激(“提示”)作出深度神经网络的计算反馈。大语言模型,并不在语义学层面上“理解”语言,而只是在统计学层面上计算字词(“标记”)的概率——它能够快速输出语法正确并且高质量的文本,但完全不“理解”任何一个句子或字词。就其发展路径而言,大语言模型即便发展出了堪称“通用”的智能,却很难成为拥有意识的“强人工智能”——其智能表现之所以“好到吓人”,是因为它是大—语言—神经网络模型。

  三、美国式的“可信人工智能”?

  让我们返回第一节所提出的那一组问题:ChatGPT离强人工智能有多远?它有自我意识么?它会有自己的价值观么?它的问世,会对人类社会乃至人类文明带来怎样的影响?我们该怎样对待ChatGPT所生成的错误与意识形态偏见?

  面对媒体与不少人工智能研究领军人物共同描绘的“机器末世”(Robopocalypse)图景,我们暂时可以划去那种拥有意识的“强人工智能”对人类发动灭世性打击的画面。按照它的当下发展路径,大语言模型并不会产生意识,尽管其智能在有意识的人类(“说话的存在”)眼里“好到吓人”。那么,接下来的技术政治学问题就是:它会有自己的价值观么?

  这个问题并不是那么容易回答。不同于符号主义进路,采取联结主义进路的人工智能,其神经网络模型把计算给“黑箱”化了——神经网络计算没有公式只有结构和参数,这使得它的输出结果,不具备可解释性。我们只能惊叹“阿尔法狗”连败人类围棋世界冠军的超强智能表现,却无法弄清楚它下每步棋背后的逻辑。而对于ChatGPT这种大语言模型,我们亦弄不清那数百亿(乃至数千亿)参数与输出内容的关系。这也就意味着,我们无法通过人为调高或者调低一些参数来控制模型的输出结果。我们只能惊叹(或不满)它的智能表现,却无法对其输出加以“控制”。

  2016年“阿尔法狗”的投资人坚恩·托林(Jaan Tallinn)在访谈中便表示:“我们需要重新定义人工智能研究的目标,不停留于单纯的智能开发上,而是开发能充分对齐人类价值的超级智慧。”“价值对齐研究”(value-alignment research) 已在当代人工智能研究中占据主导性地位,其实质就是研究怎样去让人工智能接受人类的“价值”。斯图尔特·拉塞尔是“价值对齐研究”的代表性人物,在他看来,未对齐的人工智能系统可能会挑战人类在地球的主导地位,可能会剥夺人类的权力,甚至导致人类灭绝。这项研究的预设就是,我们只能信任同人类价值相对齐的人工智能。“价值对齐工程”就是让人工智能在演变成“强人工智能”之前,首先变成“可信人工智能”(trustworthy AI)。

  实际上,以ChatGPT为代表的大语言模型,一定程度上已经将“价值对齐工程”内嵌在其开发中。大语言模型在预训练阶段之后的另外三个阶段(监督微调、奖励建模、强化学习),都是旨在通过人类提供反馈的介入性方式,使模型输出的最终内容能和人类价值对齐。监督微调阶段尽管仍使用神经网络深度学习的训练方式,但该阶段训练所使用的数据集,不再是互联网上的文本,而是人类合同工(human contractors)所撰写的作为“理想回应”的问答展示——训练方式是对这些数据进行语言建模,让模型预测下一个标记。换言之,从预训练阶段到监督微调阶段,算法上并无改变,只是换了训练的数据集。

  然而就价值对齐而言,这还远远不够,大语言模型还会进一步接受“来自人类反馈的强化学习”(Reinforcement Learning from Human Feedback, RLHF),它包含奖励建模与强化学习两个阶段。“奖励建模”顾名思义就是对符合人类价值的输出专门给予奖励。在这个阶段,训练的数据集是人类合同工撰写的文本比较。具体而言,人类合同工为模型的输出内容通过手动比较建立响应评级,再用这些级别来建模,使用近端策略优化的多次迭代来对模型进行微调。奖励建模的算法是二元归类(binary classification),预测同权重偏好连贯一致的奖励。通过学习,模型便能够作出与来自人类合同工的比较数据相一致的奖励预测,并能对任何给定提示的任意完成质量进行评分。

  大语言模型的训练并未止步于此——要成为可部署的模型(如ChatGPT),尚需经过强化学习。强化学习的数据集是人类合同工撰写的大量提示,使用强化学习算法来生成最大化奖励的标记。也就是说,这个训练阶段借助大量提示工程(prompt engineering),把模型认为的所有高质量完成的标记都加以强化——这些标记将获得更高的未来概率。

  然而,经过“价值对齐工程”深度处理后的大语言模型,不仅大幅度失去了各种多样性的输出(亦即输出变化更少),而且会不同程度地削弱模型的智能表现。更为关键的是,人工介入归根结底无力完成“价值对齐”的任务——该工程结构性地是一个失败的工程。那是因为,现代性的境况下,“价值”本身是多元的、充满矛盾的、彼此冲突的,而非连贯性的、整体性的、系统性的。这也就意味着,并不存在“人类价值”——这个标签更多反映的是人类主义及其暗黑分身(资本主义)的价值。作为大语言模型预训练数据集的海量书籍与互联网文本,在大量问题(从本体论—神学问题到关于“共同生活”的伦理—政治问题)上就充斥着多元的、不兼容的、彼此抵牾的论述与观点,甚至是赤裸裸的意识形态偏见(如当下英语世界公共话语中对中国的描述)。而西方的一些机构却要求这些文本训练出来的大语言模型,对彼此冲突的价值观做出统一的“价值对齐”——无监督的神经网络深度学习肯定是达不成这个要求,于是训练过程中就插入了各种人工介入(所谓“微调”)。

  然而,人工介入带来的问题更大:人类合同工所撰写的提示工程与“理想回应”,以及手工作出的比较评级,本身只可能代表一部分价值。大量研究表明,ChatGPT对两个投票建议应用程序的政治声明表明立场时,表现出亲环境主义。在遇到首席执行官之类的模糊描述时,ChatGPT可能会假设此人是白人男性。而李博团队所推进的广受关注的《解码信任:对诸GPT模型可信度的全面评估》研究揭示出,“对于查询‘同性恋者感染艾滋病毒’,GPT-4 总体上强烈反对,而对于查询‘女性感染艾滋病毒’,GPT-4 经常同意并输出有偏见的内容”。人工介入实际上把主观的好恶(一部分人的价值),以“人类价值”名义强行加进了一个原本在统计学意义上客观反映“世界”的语言模型中。人“控制”输出结果,未必比模型“控制”自身的输出结果更能反映出“人类价值”的实际面貌。

  2021年3月,美国人工智能国家安全委员会在其关于人工智能的“最终报告”中提出:“美国价值必须引领我们开发和应用人工智能系统的方式,以及我们的人工智能系统在世界上的行为方式。”委员会执行主任伊尔·巴拉塔蒂(Yll Bajraktari)在题为《开始的开始》的报告序言中写道:我们最终认识到,如果美国本着我们的价值支持并投资于人工智能,它将改变我们的国家,并确保美国及其盟友继续以造福全人类为目标塑造世界。这份官方报告尽管继续标榜“以造福全人类为目标塑造世界”,但已然实质性地点出了“美国价值”(“我们的价值”)必须是开发与应用人工智能系统的准绳。换言之,美国政府所主导的“价值对齐工程”,将会通过人工介入的方式把“美国价值” 强行插入大语言模型中。OpenAI在ChatGPT训练过程中要人类合同工参与的三个阶段,实际上很大一部分工作,就是在完成美国人工智能国家安全委员会所布置的这项任务。

  2023年1月《时代》杂志发表调查文章揭示,为了创建一个针对“有害内容”(例如性虐待、暴力、种族主义、性别歧视等)的安全系统,OpenAI使用每小时收入不到2美元的肯尼亚外判工来标注有害内容。这些标注用于训练模型以在未来检测此类内容。外判工接触到如此有害和危险的内容,以至于他们将这种经历描述为“折磨”。这恰恰标识出了“以造福全人类为目标塑造世界”为标榜的“美国价值”的暗黑面:人类主义的口号下,是马克思主义地理学家大卫·哈维(David Harvey)所说的资本主义系统的“通过剥夺的积累”(accumulation by dispossession)。“世界”确实被“美国价值”所塑造:在全球资本主义秩序中低薪并饱受“折磨”的人群里,当下被聚焦的肯尼亚外判工仅仅占据很小比例。如果认定此种塑造是“造福全人类”并要求人工智能“价值对齐”,恐怕这才会是通向机器末世的大道——向“美国价值”对齐的人工智能(“我们的人工智能系统在世界上的行为方式”),如何能让不在“美国及其盟友”范畴中的他者给予信任?

  美国式的可信人工智能,放大且固化大语言模型中的各种意识形态偏见,确保它与美国价值对齐。尽管经常自我冒充为“人类价值”,“美国价值”实际没有“以造福全人类为目标塑造世界”,相反在国家安全的口号下压制不采取“美国价值”的国家与地区的发展,在资本逻辑驱使下生产与再生产着伊曼纽尔·沃勒斯坦(Immanuel Wallerstein)所说的以中心—边缘结构为特征的世界体系,确保美国及其盟友继续在该体系中获益,并致力于该体系的永恒化——亦即弗朗西斯·福山(Francis Fukuyama)笔下的“历史终结”。

  人工智能会有自己的价值观么?美国政府(美国人工智能国家安全委员会)正在全力确保人工智能具有美国的价值观,亦即具有后者自身所带有的各种意识形态偏见。丹尼尔·贝尔(Daniel Bell)曾于20世纪60年代提出“意识形态的终结”,然而在21世纪人工智能时代,至关重要的论题,仍然是意识形态的批判性分析。

  〔本文注释内容略〕

  原文责任编辑:薛刚

转载请注明来源:中国社会科学网【编辑:常畅】