马德里理工大学发现:思考使大模型更自信(即使错误)

这项由西班牙马德里理工大学ETSI电信学院的哈维尔·孔德、佩德罗·雷维列戈教授,联合南京航空航天大学机电学院付泰然、马德里卡洛斯三世大学冈萨洛·马丁内斯教授,以及SomosNLP组织的玛丽亚·格兰杜里共同完成的研究发表�𻂉�日的arXiv平台。这个看似简单却意义深远的发现,揭示了现代大语言模型一个令人意外的特征:当它们"思考"后再回答问题时,会变得更加自信,但这种自信不分对错。有兴趣深入了解的读者可以通过arXiv:2501.09775v2访问完整论文。

当我们让ChatGPT或其他AI助手回答选择题时,通常会发现一个有趣的现象:如果我们要求它先解释推理过程再给出答案,它往往表现得更加确信自己的选择。乍一听这似乎是好事——毕竟,深思熟虑后的答案应该更可靠。但这项研究却发现了一个令人困惑的真相:AI在思考后确实变得更自信了,但这种自信对正确答案和错误答案一视同仁。

研究团队选择了七个不同的大语言模型进行测试,包括我们熟悉的GPT-4o系列、Meta的Llama系列、谷歌的Gemma模型等。他们使用了一个包�个不同学科、超�道题目的大型测试集,就像给这些AI安排了一场覆盖天文地理、历史文学、数学物理的超级考试。

测试过程就像对比两种不同的考试方式。第一种方式直接了当:给AI一道选择题,要求它立即选择A、B、C、D中的一个答案。第二种方式则要求AI先像人类学生一样,写出完整的解题思路,至少包含三个步骤,然后再给出最终答案。

研究结果让人大跌眼镜。当AI被要求先思考再回答时,它们的准确率确实有所提升,这符合我们的常识预期。但更有趣的发现在于AI对自己答案的信心程度。研究团队通过分析AI预测每个选项的概率来衡量它们的信心水平。结果显示,所有被测试的模型在经过"思考"后都变得更加自信,无论它们的答案是对是错。

这种现象的普遍性令人震惊。不仅仅是某一个模型的特殊表现,而是从小型񊄯B参数模型到大型的GPT-4o,所有测试的模型都表现出了同样的趋势。更让人意外的是,当AI给出错误答案时,这种自信心的增长甚至比给出正确答案时更为显著。

为了深入理解这一现象,研究团队进一步分析了不同学科领域的表现差异。他们发现,这种"思考后更自信"的现象在几乎所有学科中都存在,但在需要更多推理的科学类题目中表现更为明显。比如在物理、化学这类需要逻辑推导的学科中,AI的自信心增长幅度更大。而在一些相对简单的常识题目中,虽然也存在这种现象,但增长幅度相对较小。

特别值得注意的是,当AI在思考过程中改变了答案选择时,如果这种改变是从错误转向正确,那么它的自信心增长会更加显著。这就好比一个学生原本选择了错误答案,但在仔细思考后改选了正确答案,这时他会对自己的判断更加确信。

这个发现背后隐藏着什么样的机制呢?研究团队提出了一个合理的解释:大语言模型的工作原理是基于前文内容预测下一个词语。当AI写出了一段看似合理的推理过程后,这段文字会影响它对后续答案的预测。就像一个人在说服自己相信某个观点时,说得越多就越相信一样,AI生成的推理文字也会"说服"它自己相信这个答案是正确的。

这种现象不仅存在于AI世界,在人类身体上也有相似的表现。心理学研究早就发现,当人们需要解释自己的选择时,他们会对这个选择变得更加确信,即使这个选择原本是错误的。这被称为"解释即相信"的认知偏见。人们在为某个观点寻找理由的过程中,往往会说服自己相信这个观点的正确性。

从实际应用角度来看,这个发现具有重要的警示意义。目前,许多评估AI能力的方法都依赖于AI对答案的信心程度,认为AI越确信某个答案,这个答案就越可能是正确的。但这项研究表明,AI的信心程度可能并不是判断答案正确性的可靠指标,特别是在要求AI进行推理的情况下。

研究还发现了一个有趣的细节:当研究团队分析AI答案的概率分布时,发现经过思考后的答案概率更加集中在高值区间,也就是说,AI要么非常确信,要么相当确信,很少出现犹豫不决的情况。这种现象在正确答案和错误答案中都同样存在,进一步证实了思考过程对AI信心的普遍影响。

为了确保研究结果的可靠性,研究团队还对不同类型的题目进行了分类分析。他们发现,在需要事实记忆的题目中,思考对准确率的提升相对有限,但对信心的提升依然显著。在需要逻辑推理的题目中,思考既提升了准确率,也大幅提升了信心水平。最有趣的是那些涉及常识判断的题目,在这类题目中,思考有时甚至会降低准确率,但信心水平却仍然上升。

这个现象对于AI的实际应用具有深刻的启示。在一些需要快速反应的场景中,也许让AI直接给出答案会更好,而不是要求它进行复杂的推理。特别是在那些AI已经具备丰富"直觉"的领域,过度的思考可能会干扰这种直觉的发挥,就像人类在某些情况下"直觉反应"比"理性分析"更准确一样。

研究团队还观察到,当AI在两种回答方式下选择了不同答案时,如果思考后的答案是正确的,那么AI的信心增长会特别显著。这暗示着思考过程确实能够帮助AI纠正一些错误判断,但同时也会让它对结果过度自信。

从技术角度来看,这个现象揭示了当前大语言模型架构的一个内在特性。由于这些模型是通过预测下一个词语来工作的,前面生成的内容会影响后续的预测。当AI生成了一段详细的推理过程后,这段内容就成为了上下文的一部分,会影响它对最终答案的概率估计。

这项研究的实验设计非常巧妙。研究团队不仅比较了不同回答方式下的准确率,还深入分析了AI的内部信心指标。他们通过查看AI为每个选项分配的概率来量化信心水平,这种方法比简单地看AI是否给出正确答案更加精确和有意义。

实验结果的可视化分析也很有说服力。研究团队绘制了概率分布图,清晰地展示了思考前后AI信心水平的变化。这些图表显示,经过思考后,AI的答案概率更多地集中𶞐.7𳗡.0的高信心区间,而直接回答时的概率分布则更加分散。

值得关注的是,这种现象在不同规模的模型中都存在,从参数较少的开源模型到参数众多的商业模型,都表现出了相似的行为模式。这表明这不是某个特定模型的bug或特性,而是当前大语言模型架构的一个普遍特征。

研究还探讨了这一发现对AI评估方法的影响。目前许多评估AI能力的基准测试都鼓励使用"思维链"方法,即要求AI展示推理过程。虽然这种方法确实能够提升某些类型题目的准确率,但同时也会让AI对错误答案变得过度自信,这可能会在某些应用场景中造成问题。

从更广泛的角度来看,这项研究为我们理解AI的"思维"过程提供了新的视角。AI的推理过程虽然在形式上类似人类的思考,但其内在机制完全不同。人类的思考是基于大脑中复杂的神经网络活动,而AI的"思考"则是基于统计模型的文本生成。这种差异导致了一些有趣的相似性,比如都会在解释后变得更加自信,但也带来了不同的特点和潜在风险。

研究团队在论文中特别强调,这个发现并不意味着我们应该完全放弃让AI进行推理。相反,它提醒我们需要更加谨慎地使用和解释AI的信心指标。在某些需要高可靠性的应用中,我们可能需要结合多种方法来评估AI答案的可信度,而不是仅仅依赖AI自身的信心水平。

这项研究还为未来的AI模型改进指出了方向。如何让AI在进行推理的同时保持适当的谦逊和不确定性,是一个值得深入研究的问题。也许未来的AI模型需要更好的机制来校准自己的信心水平,使其更准确地反映答案的可靠性。

从教育角度来看,这个发现也很有启发性。它提醒我们,无论是对人类学生还是AI系统,解释和推理过程都是一把双刃剑。虽然它们能够帮助得出更好的答案,但也可能导致过度自信。这对于培养批判性思维和保持适当的怀疑精神具有重要意义。

Q&A

Q1:大语言模型为什么会在思考后变得更自信?

A:这主要是因为大语言模型的工作原理是基于前文内容预测下一个词语。当AI写出推理过程后,这段文字会影响它对答案的预测,就像一个人在说服自己相信某个观点时会越说越相信一样。

Q2:这种现象只出现在某些特定的AI模型中吗?

A:不是的,研究测试了七个不同的大语言模型,包括GPT-4o、Llama系列、Gemma等,发现所有模型都存在这种现象,这表明这是当前大语言模型架构的普遍特征。

Q3:AI思考后准确率提高但过度自信,我们还应该让AI进行推理吗?

A:应该继续使用,但需要更谨慎。思考确实能提高某些题目的准确率,但我们不能仅依赖AI的信心水平来判断答案可靠性,需要结合其他方法来评估答案的可信度。

清遠(yuǎn)
上一篇:{loop type="arclist" row=1 }{$vo.title}
久久成人短片| 亚洲无码性爱区| 玩弄人妻厨房系列av| 国产日韩一区二区在线| 亚洲一区二区三区在线观看成人AV | 免费无码人成视在线观看不卡| 日韩亚洲精品中文字幕| 五月天中文字幕mv在线| 亚洲国产精品嫩草影院久久| 国产精品18久久久久久久久| 鲁死你资源站亚洲AV| 国产偷国产偷亚洲清高APP| 色五月亚洲色图| 无码毛片视频一区二区本码| 麻豆一区二区三区蜜桃免费 | 人妻中文字幕一区二区三| 日韩欧美在线网站| 无码操逼视频| 午夜毛片午夜女人喷潮视频| 欧洲免费无线码2区| 丁香五月午夜| 潮喷失禁大喷水无码| 人妻色多多AⅤ久久www| 秋霞鲁丝片一区二区三区| 狠狠躁夜夜躁人人爽天天古典| 性爱一区在线| 欧洲精品一区| 亚洲18岁AV| 日日摸日日碰夜夜爽无| 精品人妻区二区三区蜜桃| 又内射了一个少妇视频| 九九九热精品视频在线观看| 宅男99网站| 成人毛片基地| 午夜av成人| www.狼窝| 男人性生交免费看蜜芽| 经典国产乱子伦精品视频| 国产免费观看久久黄AV片涩AV| 国产精品久久久久妇女| 国产高清在线精品一区免费|