【ITBEAR】近日,苹果公司AI研究团队发表了一篇重要论文,题为“Understanding the Limitations of Large Language Models in Mathematical Reasoning”,揭示了大型语言模型(LLM)在数学推理方面的显著局限性。
尽管LLM在生成类人文本方面表现出色,但在处理数学问题时,即便问题只是微小改动,如增添无关信息,其表现也会大幅下降。
研究人员通过一个简单的数学问题证明了这一点。他们提出了一个关于采摘猕猴桃的问题,LLM能够正确计算出答案。
然而,一旦在问题中加入无关细节,如“其中5个奇异果比平均小”,模型便给出了错误答案。研究人员进一步修改了数百个类似问题,发现几乎所有修改都导致了LLM回答成功率的大幅降低。
这表明,LLM并未真正理解数学问题,而是更多地依赖于训练数据中的模式进行预测。当需要进行真正的逻辑推理时,这些模型往往无法产生合理结果,这一发现对人工智能的发展提供了重要参考。
尽管LLM在许多领域表现优异,但其在数学推理方面的局限性仍然明显,推理能力有待提升。