2025年3月25日 星期二 甲辰(龙)年 月廿四 设为首页 加入收藏
rss
您当前的位置:首页 > 计算机 > 编程开发 > 人工智能

AI大模型真的会思考和推理吗?

时间:02-27来源:作者:点击数:11

引言

最近读到一篇论文,苹果公司的研究者们发表的《GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models》,论文链接:

https://arxiv.org/pdf/2410.05229

论文主要研究了大型语言模型在数学推理方面的局限性。研究发现,尽管LLMs在某些数学问题上的表现有所提升,但其推理能力仍然存在显著的局限性,尤其是在面对问题的复杂性增加或引入无关信息时,模型的性能会大幅下降。

论文是这样做实验的:

图片

含义如下:

当{名字}看她的{家人}时,她会拿出各种玩具给他玩。积木袋里有 {x} 块积木。毛绒玩具箱里有{y}个毛绒玩具。堆叠圆环塔上有五颜六色的圆环。{z} {姓名}最近买了一筒弹力球,使她为{家人}买的玩具总数达到了{总数}。管子里有多少个弹力球?

其中,花括号中的内容将会被随机替换。

这是一道非常简单的小学计算题,人类只要理解了题目中的情景,替换题目中的名字、人物关系、数字等等,也能够轻易的完成题目。

但论文的研究结果表示:

  • 模型对名字的改变相对不敏感,但对数值的改变非常敏感。
  • 当仅改变名字时,模型性能的方差较小;而改变数值时,方差显著增加。

也就是说,一旦随机改变题目中的数字,大模型的性能就会变得极其不稳定。这个结果似乎也在告诉我们,语言大模型(LLM)似乎还没有真正的学会推理。


思维链 CoT

最近涌现出了许多推理大模型,国内例如DeepSeek R1、kimi k1.5长思考、智谱GLM-Zero等,国外例如Chat GPT o1、o3mini、Gemini 2.0 Flash Thinking等。许多大模型都宣称“提高了推理能力”,在实际使用的过程中,也确实如此,我们可以看到推理模型思考的过程,有时甚至会对大模型的思维模式感到震惊。

但是,这种思维方式是否意味着大模型学会了思考和推理?答案不见得如此。

大模型实现推理,大多是采用 思维链 CoT(Chain of Thought)的形式。CoT 就是让大模型像人类一样,把复杂问题的思考过程一步步写出来,而不是直接给答案。这能提高推理的准确性。

问题:小明有5个苹果,买了3袋苹果,每袋8个,吃掉2个,现在有多少苹果?

  • 不用CoT的模型回答(直接给答案):

5 + 3 + 8 - 2 = 14 ❌(错误,因为没算清楚袋数)

  • 用CoT的模型回答(分步骤思考):

小明原有5个苹果;

买了3袋,每袋8个 → 3×8=24个;

总共有5+24=29个;

吃掉2个 → 29-2=27个。答案:27个 ✅


这种思维方式,看似与人类一致,但底层机制大不相同。

  • 人类的思维:是主动的、有意识的,基于对世界的理解、经验、直觉甚至情感。比如解数学题时,人类会先理解问题、回忆知识、尝试策略、验证逻辑,过程中可能犯错并自我纠正。
  • 大模型的CoT:本质是模式匹配。模型通过海量文本训练,“记住”了类似问题的分步解决模板(例如数学题的解题步骤),然后根据输入问题中的关键词(如“苹果”“每袋8个”),按概率生成最匹配的“分步答案”。它并不真正理解问题,也不会主动推理。CoT的优势是“结构化输出”,而非“真思维”。

CoT就像一个炒菜机按照菜谱做菜,而人类思维是真正理解食材和火候的原理。模型只是“照着菜谱的步骤模仿”,但并不知道“为什么要放盐”。


向量化中的信息丢失

文本输入到大模型时,要将文字转化为数字,这个过程就叫做向量化。

向量化决定了大模型似乎不能真正的理解数字。不理解数字,就难以进行严密的推理。

把一句话向量化,首先要切词。例如

  • 问题 :“小明有5个苹果,买了3袋苹果,每袋8个,吃掉2个,现在有多少苹果?”
  • 切词:“小明”、“有”、“5”、“个”、“苹果”、“,”、“买”、“了”、“3”、“袋”、“苹果”、“,”、“每”、“袋”、“8”、“个”、“,”、“吃掉”、“2”、“个”、“现在”、“有”、“多少”、“苹果”、“?”

一句话被切分成了多个词组,我们可以将每个词组称作为一个“token”。在后续的处理中,每个词被转化为了一个向量。

在数学中,数字是具有连续关系的。例如1到9之间有无数个比1大、比9小的数字。

在向量化的过程中,数字被当作字符来处理。“1”与“9”之间不是连续的,而是离散的字符,这使得数字在向量化的过程中丢失了原本的连续关系。

通用语言大模型学习数字之间的关系,往往是通过语料来学习的,例如,训练时可能有这样一条语料“9比10小”,模型会记住“9”与“10”之间的关系是“小”,而通过这条语料,模型并不能理解“9.11比9.9小”,因为数字的连续关系在向量化的过程中丢失了。这也是前一段引发热议的大模型分不清“9.11 大还是 9.9 大”的原因。


大模型的本质是预测

再如,让通用大语言模型计算“12×34=”。大模型的本质是预测,模型将会预测出答案的第一位数字,随后预测出第二位,直到大模型认为预测完成。这个过程中预测的依据是训练集中的语料,而不是真正的计算12×34等于多少。

简单来说,在逻辑推理中,大模型是在做预测,而不是在做计算。

那么为什么现在大模型能够准确的做出计算呢?

这是因为现在的大模型能够调用计算工具。大模型只需要识别出哪些是数字、哪些是运算符,并将这些信息整理后,交给计算器程序来处理,就可以得到准确的计算结果了。


斗地主实验

之前一篇文章,做实验让三个通用大模型来打斗地主游戏,最后发现三个大模型似乎都无法做到正常的出牌:

通用AI大模型不会打牌?DeepSeek、Kimi、ChatGPT一起打斗地主会发生什么

每个大模型都能够正确的理解斗地主规则,但就是无法按照规则做出正确的出牌,甚至有些出牌根本不符合斗地主的规则要求,例如用大王来压制顺子。

可见大模型虽然理解了规则,但不能做出正确的逻辑推理。其中的原因可能是大模型没有理解数字之间的关系,又或者是只对规则做出了合理的复述,而从未真正的理解规则?

也有读者问,围棋这样的游戏,需要更为缜密的逻辑思考,而AI在围棋游戏上早就战胜了人类的顶尖水平,这难道不能证明AI的思考和逻辑推理能力已经超过了人类吗?

事实上,例如Alpha Go的这类围棋AI,是通过强化学习训练而成的,原理与通用大模型AI完全不同。Alpha Go只能下围棋,而通用大模型的应用范围更广。Alpha Go的能力来源于对海量棋局的分析,找到落子与棋局之间复杂的概率关系,从而战胜人类。这并不代表Alpha Go产生了思维和推理能力。


写在最后

个人认为,大模型在未来很长时间内,都无法具备真正的思考和推理能力。大模型的“思考和推理”,实际上是对海量信息的整合。从某种角度来讲,大模型就像是在一个庞大数据集中的过拟合模型,只是这个数据集太过庞大,庞大到涵盖了人类社会的各个层面,涵盖了日常生活的方方面面。

希望大模型能够发展得越来越好。

方便获取更多学习、工作、生活信息请关注本站微信公众号城东书院 微信服务号城东书院 微信订阅号
推荐内容
相关内容
栏目更新
栏目热门
本栏推荐