【ITBEAR】苹果公司研究团队近期发表了一篇深入探讨大型语言模型(LLM)在数学推理方面局限性的论文。该论文指出,尽管LLM在生成类似人类的文本方面表现出色,但在处理简单数学问题时,若对问题稍作修改,如增添无关信息,其表现便会显著下降。
论文中举了一个例子,当询问“奥利弗三天内共摘了多少个奇异果”时,LLM能够正确计算。然而,一旦加入如“其中5个奇异果比平均小”这样的无关细节,LLM便会给出错误答案。研究人员对数百个类似问题进行了修改,并发现几乎所有这些修改都导致LLM的回答成功率大幅降低。
研究团队认为,这一现象显示出LLM并未真正理解数学问题,而是依赖于训练数据中的模式进行预测。当需要进行真正的逻辑推理时,模型往往无法得出合理结果。这一发现为人工智能的发展提供了重要的参考依据。尽管LLM在多个领域都表现出色,但其推理能力仍需进一步提升。