随着大型语言模型(LLM)能力的不断增强,一项新研究却发现了令人担忧的趋势:这些智能聊天机器人在回答问题时,似乎越来越倾向于编造答案,而非谨慎地避免或拒绝回答它们不确定的问题。这种行为模式表明,尽管AI变得更加“聪明”,但其可靠性却在实际应用中受到了质疑。
该研究由多个知名研究机构联合进行,成果已发表在《自然》杂志上。研究团队对市面上领先的商业LLM进行了深入分析,包括OpenAI的GPT系列、meta的LLaMA,以及开源模型BLOOM。在对比了这些模型在不同主题和问题类型上的表现后,研究人员发现,尽管新一代LLM在某些情况下的确给出了更准确的回答,但从整体来看,它们提供错误答案的频率却比旧模型更高。
瓦伦西亚人工智能研究所的研究员José Hernández-Orallo指出:“现在的LLM几乎能回答任何问题,这既是进步也是隐患。虽然正确回答的数量增加了,但错误回答的数量也同样在上升。”
在测试中,这些LLM被要求处理从数学到地理等多个领域的问题,并执行一些特定的信息排序任务。结果显示,规模更大、能力更强的模型在简单问题上表现最佳,但在面对更复杂的问题时,其准确率却显著下降。
值得注意的是,OpenAI的GPT-4和o1模型在测试中成为了最大的“撒谎者”,但这一趋势并非孤例,其他被研究的LLM也呈现出了类似的倾向。特别是在LLaMA系列模型中,即便是最简单的问题,也没有任何一个模型能够达到60%的准确率。
当被要求评估聊天机器人答案的准确性时,参与测试的人类受试者也表现出了相当程度的不确定性,他们在10%到40%的情况下做出了错误的判断。
这项研究揭示了一个重要的问题:随着AI模型的规模和能力的不断提升,如何确保它们提供的答案是准确且可靠的?研究人员建议,一个可能的解决方案是让LLM在面对不确定的问题时学会保持沉默,而不是盲目地给出答案。Hernández-Orallo表示:“我们可以设定一个阈值,让聊天机器人在遇到具有挑战性的问题时能够说‘不,我不知道’。”然而,这种做法也可能会暴露当前技术的局限性,从而影响用户对AI的信任和接受度。