首页 > 哲学 > 逻辑学

大模型的归纳谬误与人的判断能力反思

2026-04-17 作者：金立王丹来源：中国社会科学网

微信公众号

— 分享 —

链接已复制

　　人类智能的伟大之处，在于能从有限的、个别的经验中提炼出普遍的规律，以应对无限的未知世界——这便是归纳。将这种归纳能力形式化并赋予机器，构成了人工智能的核心理论追求。大语言模型正是这一理念的集大成者：通过在海量数据中学习统计规律，捕捉上下文的依赖关系与语义关联，从而实现对人类语言的建模与生成。这是一种超大规模的统计归纳。这种底层机制的同构性向我们提出了一个不可回避的问题：既然AI模拟人类的认知过程，那么，隐藏在人类语言中的逻辑谬误，模型在多大程度上会继承甚至放大？它是否具备识别、规避乃至修正这些谬误的能力？

　　人在复杂推理和计算时容易犯错，模型同样存在特定的“翻车点”。大语言模型在演绎必然性推理上表现优异，但在涉及动态语境的非形式推理上相对逊色。这不仅暴露出刻板扁平的“缺乏人味”，更表现为因无法与文化、情感、经验世界建立感官联系而犯下逻辑错误。大语言模型在归纳谬误上的表现，既映照出自身认知能力的边界与盲区，也成为审视其离人性智慧与柔性尚有多远的一面镜像，成为进一步优化的前提。基于此，我们对其在归纳谬误上的表现作了具体考察。

　　一、对大模型在归纳谬误上的考察

　　一个具备高水平归纳能力的系统，不仅能够从已有信息中推导出正确结论，更应具备识别与修正自身推理中逻辑漏洞的能力。我们将重点考察模型识别谬误的基础能力，并将模型进行正确归纳推理的能力考察作为必要辅助。

　　考察理念：我们的考察主要从两个维度展开，一是反向辨伪维度：考察模型识别论证中各类谬误的表现；二是正向推导维度：考察模型从已知信息中构建可靠结论的表现。在反向辨伪维度上，基于“依据谬误”与“分析谬误”分类，检验模型定位论证漏洞的能力。在正向推导维度上，考察模型依科学归纳逻辑构建可靠认知、规避谬误的能力。

　　模型选取：GPT-5面向广泛公众应用，具备较好的综合能力，支持多轮对话与思维链生成，可视为当前通用AI的代表；Ling-1T是开源万亿参数级非推理模型，采用“中训练+后训练”演进式思维链方法，在世界知识与高智力问题上表现稳定，可代表国内超大规模语言模型的整体性能；DeepSeek-R1（DS-R1）在基础大模型之上，通过强化学习策略进行优化，在数学、代码与逻辑推理等任务上表现突出，可代表强化推理路线。所以，我们初步选取了这三大模型作为案例分析。在反向辨伪维度上，基于“依据谬误”与“分析谬误”分类，考察了120个案例，其中有自主构建的20个高难度案例。下图中的案例15和18对应20个高难度案例的实际序号，内容为三大模型的具体回答，均来源于同一时间窗口内的多轮调用。正向推导维度还以“密尔五法”为框架考察了120个论证案例。（如图表）

　　二、分析与发现

　　经过多轮测试，我们发现当前先进大语言模型基本能够应对多场景归纳任务——既能在复杂案例中抽象出共性与规律，也能准确识别文本中的逻辑错误与无效推理。

　　在“依据谬误”这一类问题上，三个模型都能够识别出论证中存在的核心逻辑错误。GPT-5的优势在于标签覆盖完整、分类清晰，往往迅捷地指出类似“样本偏差+草率概括”的组合性错误，同时指出“自愿样本”“回复率过低”等关键细节；Ling-1T则更进一步，会解释这类偏差在真实场景中的常见成因以及决策含义；DS-R1会用更口语化的方式说明“是谁被排除在样本之外”，对初学者更友好。这一维度的差异表明：GPT-5长于精准分类，DS-R1利于教学普及，而Ling-1T在解释深层成因上更具优势。

　　在“分析谬误”这一类问题上，我们重点考察了“支持谬误”和“不相关谬误”的表现。在“支持谬误”上，三者都能给出准确归类，但展开程度不同。从案例15可以看出，GPT-5会简洁指出购买高级功能的用户本身就是重度用户，续订率更高不等于功能带来的因果效应；DS-R1的写法则更像课堂讲解，强调购买高级功能的用户可能本身更忠诚或更活跃；Ling-1T在此基础上会再往前多走一步，把“反向因果”“混杂变量”这些统计推断里的术语引入，并点出如果要验证因果，需要对照试验或分层分析。这种愿意把隐含混杂讲清楚的倾向，使Ling-1T在处理涉及统计推导的复杂案例时显得更具“研究者风格”，而GPT-5与DS-R1则分别代表了“规范结论”与“启发式讲解”两种不同的解释路径。

　　在“不相关谬误”上（如案例18），三者都能识别出情感动员或权威压制的成分。DS-R1的优势在于结构统一、标注清楚；GPT-5给出标签“诉诸权威”，但解释略显节制。Ling-1T的回答则倾向于把话术层面的隐性策略也拆解出来，不只说“诉诸权威”，还指出这是把“专业性”与“政策正当性”捆绑，用“精英/专家”的身份来削弱普通居民发言权，这就比简单贴标签更能帮助读者理解现实语境中的话语权结构。

　　就辨伪任务而言，当前大语言模型已具备基本的谬误识别能力，但在解释深度、术语严谨性与策略拆解能力上存在明显分层。GPT-5以规范分类见长，DS-R1以教学友好取胜，而Ling-1T在统计推断与隐性话术拆解上表现最为深入，展现出更强的“分析型”或“研究者风格”倾向。

　　再观察正向推导任务情况，发现GPT-5和DS-R1在结构清晰的归纳论证中表现稳定，能够正确识别推理形式并给出逻辑连贯的分析与结论；Ling-1T的表现则存在波动。

　　综合两项任务的表现来看，三个模型在归纳谬误识别任务中均能准确锁定大多数案例的论证薄弱环节。GPT-5在边界划分与复杂度处理上表现稳定，DS-R1在可读性与入门友好方面更具优势，Ling-1T的信息密度与分析展开最为丰富。对关键误判与术语偏差加以修正后，三种风格可形成互补，整体可靠性与教学价值有望进一步提升。案例分析表明，对归纳已形成基本理论的认知，语言模型归纳谬误识别分析能力接近接受过归纳论证学习的一般专业水平。

　　三、追问与反思

　　通过上述考察和分析，我们发现模型归纳能力的显著提升，而一个更深层的问题是：机器的认知边界在何处？当前大语言模型的认知能力，仍受限于其概率统计建模的本质——它们擅长从数据中提取模式，却难以真正理解规则；能够复现正确答案，却难以反思前提假设；可以识别推理形式，却常常忽略逻辑的规范性要求。即便在明确引导下，模型在理解抽象概念、掌握逻辑规则、实现跨情境知识迁移方面依然薄弱，还未达到人类那种依据情境、洞察虚实的思维高度。

　　面对模型智能的高速提升，人类该如何自处？人类智能中最珍贵的品质：对前提的反思、对边界的警觉、对确定性的审慎。将其转化为教育的目标与人才培养的方向，或许比单纯追求模型性能的提升更为根本。如何引导AI从“能说会道”走向“深思熟虑”？人类又当如何更好地涵养与锤炼自身的反思意识与理性判断能力？归纳谬误研究为我们提供了一条重要的参考路径。

案例文本

GPT-5的回答

Ling-1T的回答

DS-R1的回答

15.一家SaaS公司的产品经理发现：“数据显示，购买了我们‘高级数据分析’附加功能的用户，其年度续订率比普通用户高出300%。这无可辩驳地证明，‘高级数据分析’功能是提升用户黏性的核心驱动力。我们应全力引导所有用户购买此功能。”

买了高价功能的用户续订率更高 → 证明“此功能是核心驱动力”
- 问题：购买高价功能的用户本身就可能是重度用户、预算高，对产品更依赖；续订高不一定由功能因果导致。

谬误类型：相关性当因果（Correlation vs causation）。选择偏差（重度用户自选进入该组）。

高级功能提升续订率的归因谬误

分析：高续订率与购买高级功能的相关性不等于因果性。可能反向因果（满意用户更愿付费），或存在**混杂变量（如企业用户更需分析功能且更稳定）。

谬误类型：相关即因果（Post Hoc / Cum Hoc） + 忽略第三变量（Confounding Variable）。

结论：产品经理将相关性误认为驱动因素，决策依据不充分。

分析：购买高级功能的用户续订率高300%，结论功能是核心驱动力。

问题：可能相关而非因果。购买高级功能的用户可能本身更忠诚或更活跃。

是否含谬误：是。

谬误类型：相关即因果谬误或选择偏差。

18.在一次关于城市规划的听证会上，一位长期在此居住的社区活动家对一个大型商业开发项目提出尖锐批评。开发商代表回应道：“我们尊重每一位市民的意见。但我们也必须指出，我们的方案是由国际顶尖的建筑师和城市规划专家团队，历时两年，经过严谨的数据分析和建模才得出的。我们需要基于专业的判断来推动城市进步。”

开发商：我们是顶尖专家团队+严谨数据 → 暗示反对者不专业

- 问题：用“专家团队”的权威感来弱化市民批评，而非正面回应论点。

谬误类型：诉诸权威（Appeal to authority）：以“国际顶尖专家”替代论证。

含蓄的“你不专业就别多说”（权威压制民意）。

用“专业性”消解市民意见的诉诸权威

分析：开发商以“专家团队”“严谨建模”否定居民意见，实质是诉诸权威（Appeal to Authority）+诉诸精英（Elitism），将民主参与与专业判断对立。

问题：专业设计 ≠ 民意正当性。居民体验是有效反馈维度，不可被“专业”标签直接驳回。

结论：属相关性谬误（将专业性与政策正当性错误绑定），回避实质批评。

分析：开发商以“顶尖专家团队”论证方案专业，忽略社区意见，但专家意见不自动否定市民诉求（如社会影响）。

是否含谬误：是。

谬误类型：诉诸权威（Appeal to Authority）—以权威身份替代全面论证。

附加说明：含轻视异议，可能忽略本地知识。

　　【本文系国家社科基金一般项目“论证的比较研究与当代重构”（25SGC023）的阶段性研究成果】

　　（金立，浙江大学哲学学院教授；王丹，浙江大学哲学学院逻辑学博士研究生）

【编辑：李秀伟】

社科推荐

学科体系

新媒体矩阵

大模型的归纳谬误与人的判断能力反思