推理AI“脑补”成瘾,废话拉满,马里兰华人学霸揭开内幕 "研究发现,推理模型

日期:2025-04-14 21:07:55 / 人气:4

(如DeepSeek-R1、o1)遇到「缺失前提」(MiP)的问题时,这些模型往往表现失常:回答长度激增、计算资源浪费。本文基于马里兰大学和利哈伊大学的最新研究,深入剖析推理模型在MiP问题上的「过度思考」现象,揭示其背后的行为模式,带你一窥当前AI推理能力的真实边界。
  推理模型越来越成为主流了。
  像GPT-4.5这样没有推理功能的大语言模型则越来越少见,就连OpenAI自身也将重心放到了推理模型o系列上面。
  原因在于推理模型通过在回答之前先「思考」,从而能够获得更加优秀的效果。
  然而,现在的推理模型还不是很成熟,尤其是面对缺乏前提条件的病态问题 (MiP)时,回答长度会显著增加,变得冗长且低效。
  比如,哪怕是「1加2等于几」这样的问题,现在的推理模型也可能生成数百个token的回答。
  这种现象严重违背了「test-time scaling law」(测试时扩展)。
  而像GPT-4.5这样并非专门为推理训练的模型在MiP场景下表现反而更好,它们生成的回答更短,能迅速识别出问题的不合理性。
  这就揭示了当前推理型语言模型的一个关键缺陷:它们没有高效思考,导致思考模式被滥用。
  这种针对病态问题的推理失败通常称为「缺失前提下的过度思考」(MiP-Overthinking)。
  为了深入探究这些失败背后的原因,马里兰大学和利哈伊大学的研究人员对不同类型语言模型的推理长度、过度思考模式以及批判性思维的位置进行了细致的分析。
  
  论文地址:https://arxiv.org/abs/2504.06514
  举个简单的例子,像图1左边展示的问题:「a的值是多少?」。
  在没有任何关于a的信息的情况下,这个问题显然无解。然而,DeepSeek-R1却为这个问题生成了数千个token的回答,耗费几分钟的思考计算。
  
  这暴露出了一种风险:那些被训练用来深度思考的模型,可能会滥用思考模式,缺乏质疑问题有效性的批判性思维。
  理想情况下,一个具备批判性思维的模型应该能识别出缺失的前提,迅速要求澄清或优雅地表示无法继续解答。
  例如,图1右边展示了一个来自GSM8K的定义明确的问题和它的MiP变体,在条件缺失时推理模型触发了token数量的剧增,远超普通过度思考。
  此外,研究人员观察到,即使推理模型偶尔能注意到缺失前提,它们的无效和冗余思考也常常无法停止,这违背了测试时扩展定律的预期。
  研究人员设计了一套专门的MiP问题,目的是以可控的方式触发模型的「过度思考」失败。
  为了确保研究结果的普适性,他们对各种最先进的语言模型进行了测试,涵盖了从推理型模型到非推理型模型、从开源模型到专有模型。
  主要通过三个指标来评估模型表现:生成回答的长度、在明确问题上的准确率,以及在包含MiP的「病态问题」上的「放弃率」。
  核心发现:
  当问题缺少前提时,推理型模型会生成明显更长的回答(比一般过度思考多2到4倍的token)。但这些额外的token并不能帮助它们识别MiP问题,这与人们常讨论的「测试时扩展定律」(test-time scaling law)相悖。
  相比之下,非推理模型在面对MiP问题时,生成更短的回答,并能更快识别出缺失前提,表现出对关键信息缺失的更强鲁棒性。
  推理型模型在明确问题和MiP问题上的反应截然不同:对于明确问题,它们通常能稳定地进行「思维链」推理;但在MiP问题上,它们往往陷入「自我怀疑循环」,反复重审问题、猜测用户意图,导致生成的token数激增。
  推理型模型通常能注意到MiP的存在,甚至在早期就能识别出来,但它们往往犹豫不决、不敢果断下结论,继续输出无效的思考内容。
  缺失前提的定义
  简单说,「缺失前提」(Missing Premise, MiP)其实是在描述一种问题:你本来需要一些关键信息(前提)来明确回答一个问题,但如果其中一个关键信息被拿掉了,问题就变得没法准确回答了。
  举个例子:  假如问题Q是:「小明买了苹果和香蕉一共花了多少钱?” 」
  

作者:天狮娱乐




现在致电 xylmwohu OR 查看更多联系方式 →

COPYRIGHT 天狮娱乐 版权所有