行动中的认知:预测加工框架下的具身智能

2025-12-10 来源:中国社会科学网-中国社会科学报

微信公众号

分享
链接已复制
  近年来,以大语言模型(LLM)为代表的人工智能技术取得了举世瞩目的成就,展现出强大的信息处理与生成能力。然而,在这场繁荣景象之下,一个根本性的局限日益凸显。2025年9月26日,强化学习先驱、图灵奖得主理查德·萨顿(Richard Sutton)在一次访谈中指出,当前试图利用LLM通往通用人工智能(AGI)的路径可能是一条“死胡同”。他认为,智能的本质在于能够从与世界的动态交互中持续学习并更新自身模型,而非仅通过静态数据模仿人类行为。人类与动物的智能是在身体与环境的持续互动、获得反馈、不断调整的循环中产生的。相比之下,LLM的“智能”源于对海量文本的静态训练,完全缺失了在真实世界中获得动态体验的关键环节。这种与物理世界脱节的“离身性”(Disembodiment),正是阻碍LLM迈向AGI之路的根本性瓶颈。在此背景下,具身心智(Embodied Mind)与预测加工(Predictive Processing)两大理论范式正跨越学科边界走向融合,为新一代人工智能的构建提供了极具潜力的思想框架。
    理论交融:从“具身心智”到“预测心智”
  传统认知科学的“计算隐喻”将认知视为基于内部符号表征的抽象计算过程。自20世纪末起,心智的计算范式持续受到“具身心智”与“预测心智”两大理论的有力挑战,二者的深度融合正为我们勾勒出一幅智能开发的全新图景。
  具身心智主张认知过程深度依赖于有机体的身体形态、感觉运动能力及其与环境的耦合和持续互动。智能不再被限定为封闭在头脑中的逻辑推理,而是服务于行动。从婴儿通过感知运动经验探索世界,到我们借助手势深化思考,无不印证认知诞生于“感知—行动”的循环中。预测心智理论将脑构想为一个层级化的生成模型,其核心使命是预判即将到来的感官输入。当实际输入与预测发生偏差时,“预测误差”随之产生——这个信号沿着神经通路自下而上传递,不断修正并更新高层的内部模型,使未来预测更为精准。在此意义上,脑堪称持续校准假设的预测机器,我们感知的世界本质上是脑依托既有模型对感官信号作出的最优推断。起初,这两种理论看似关注点各异甚至存在张力关系:具身心智强调外部环境与身体的决定性作用,预测加工则聚焦于脑内部模型的预测机制。但深入分析后可以发现,二者非但不矛盾,反而构成了完美的互补。以安迪·克拉克(Andy Clark)为代表的“融合派”指出,预测加工为具身心智提供了核心的计算机制。大脑进行预测的根本目的并非被动反映世界,而是为了更有效地指导行动。在此框架下,知觉与行动犹如一枚硬币的两面,密不可分:知觉是通过感官输入检验并修正内部预测的过程;行动则是主动改变感官输入,使其契合自身预测的过程。
  这种融合范式为认知科学哲学中长期悬置的内在主义与外在主义之争提供了启发性解决方案。脑的内部模型并非孤立的抽象符号,而是通过身体行动与外部世界持续动态耦合的行动指南。心智既“发生在脑中”,又必须“介入世界”,方能履行其维持生命存续和安康的使命。二者结合共同建构起“行动中的认知”主体——一个通过主动预测与行动同世界互动的“具身预测心智”。
    实现路径:主动推断与具身性的融合
  将“具身预测心智”这一理论构想转化为可操作的人工智能模型,呼唤一个扎实的计算框架。预测加工理论开创者卡尔·弗里斯顿(Karl Friston)提出的自由能原理(Free Energy Principle, FEP),及其衍生的主动推断(Active Inference),正是提供理论基石与实现路径的核心支撑。
  真正意义上的具身智能绝非徒有其表的“拥有身体的智能”,而是必然包含三大核心要素:其一,多模态感知。智能体必须能通过身体的不同器官感知并融合来自视觉、听觉、触觉、本体感觉等多通道的信息,构建对世界的统一认知。其二,感觉—行动循环。智能体的感知与行动必须形成密不可分的动态闭环。感知驱动行动,行动则重塑感知,智能在这一持续迭代中实现学习与适应。其三,世界模型。智能体必须具备能够模拟世界运行规律的内部预测模型,该模型既可追溯过往、解析当下,亦能依托反事实推理预演未来。
  基于自由能原理的主动推断框架以惊人的优雅性同时满足了上述三大要素。首先,主动推断的本质是多模态的。它的生成模型旨在预测所有感官通道的输入,而非局限于视觉等单一模态。更为深刻的是,它将推断的范围从知觉扩展到行动。行动本身被视为一种推断形式——智能体通过采取行动,主动去采样世界,以获得能够证实其关于偏好状态预测的感官证据。这完美契合了多模态感知的要求。其次,主动推断的核心是“感觉—决策—行动”的一体化循环。在该框架下,智能体降低预测误差(或自由能)有两条途径:一是改变内部信念以适应感官信号(知觉与学习),二是采取行动改变世界以使感官信号符合自身预测(行动)。最后,主动推断的生成模型是一个真正的“世界模型”。虽然许多人认为LLM海量的上下文已经内隐地构建了世界模型,但早在2023年11月,梅拉妮·米歇尔(Melanie Mitchell)在《科学》上发表的文章《AI理解世界面临的挑战》(AI’s challenge of understanding the world)已经雄辩地说明了这种观点的可疑性。萨顿认为,一个真正的世界模型必须具备两个核心能力:第一,它能够预测“世界接下来会发生什么”,而不是“一个人接下来可能会说什么”。第二,当现实反馈与模型预测不符时,模型必须能够感到“意外”或“惊奇”,并基于这种意外来调整自身。显然,LLM做不到这一点,而主动推断的生成模型恰好就是这样一种多层级的、分形式的(fractal)、动态的、时刻都在根据“意外”来进行贝叶斯更新的世界模型。因此,基于主动推断的具身智能,其内涵远超“具有身体的智能”,它是一种在统一的数学原则下,将感知、行动和学习融为一体的真正意义上的自主智能。
  这种质的区别最终可以通过一个比标准图灵测试更严苛的基准来检验——具身图灵测试(Embodied Turing Test)。与仅评估语言能力的原始测试不同,具身图灵测试要求一个智能体(通常是机器人)在物理世界中与人类互动,其行为(包括导航、物体操作、对突发情况的适应等)需要达到与人类无法区分的程度。更重要的是,主动推断将为AI设计哲学带来一场潜在革命。它将智能体的驱动力从最大化外部设定的“奖励”,转变为最小化内在的“不确定性”。这意味着未来的AI可能拥有类似好奇心的内在动机,会为了建立更完善的世界模型而主动探索,而非只能完成特定任务设定的目标。这种跨领域的映射暗示,无论是自然演化的生物智能还是人工设计的机器智能,底层逻辑应该存在共通之处。
    未来展望:迈向自主行动的通用智能
  具身认知与预测加工的融合为人工智能的发展勾勒出一幅激动人心的蓝图。它昭示着一场从当前“离身的计算智能”向未来“具身的行动智能”的深刻范式转型正在发生。
  在理论层面,这一融合框架为理解智能本质提供了更统一的视角。它超越了传统计算主义与激进生成主义的对立,将大脑内部建模能力与身体在环境中的行动实践相融合,共同构成完整的认知系统。在此系统中,感知、认知与行动不再是彼此割裂自足的模块,而是动态的、循环的、不可分割的整体。这不仅有助于解释人类智能的主动探索、直觉决策与创造力等特征,也为构建更具人类特质的通用人工智能奠定了坚实理论基础。
  在技术层面,这一融合为人工智能设计提供了新的原则。未来的AI将不再是被动处理数据的“计算器”,而是内置“预测脑”的“行动者”。它将拥有自适应的内部世界模型,并通过感觉运动回路与环境紧密耦合。这样的智能体能够基于内在的“好奇心”主动探索环境、测试假设,从而在持续的互动中自主学习和成长。在机器人、自动驾驶、人机交互等领域,这种具身的预测模型将使机器的行为更加灵活、鲁棒(Robust)且富有预见性,真正做到“知行合一”。
  当然,通往这一目标的道路依然充满挑战。如何高效地实现大规模预测模型的实时更新、如何为智能体设定符合人类价值观的内在偏好、如何确保其自主行动的安全性与伦理边界,都是亟待解决的重大课题。然而,每一次科学范式的交汇都孕育着巨大的创新潜力。从计算主义到联结主义,再到具身与预测范式,我们对智能的探索正在不断深入。基于预测加工框架下的具身智能理论,正为新一代人工智能指明方向:未来的智能将不再是漂浮于数字空间的孤岛,而是深深植根于物理世界、能够自主预测并主动行动的智能体。
  (本文系国家社科基金重大项目“马克思主义认识论与认知科学范式的相关性研究”(22&ZD034)阶段性成果)
  (作者系杭州电子科技大学马克思主义学院讲师;浙江大学哲学学院教授、浙江大学脑机智能全国重点实验室兼聘研究员)
【编辑:邵贤曼(报纸)赛音(网络)】