近期,英国广播公司(BBC)公布了一项关于人工智能(AI)聊天机器人在新闻总结方面能力的深度研究结果,引发广泛关注。此次研究涉及了多家知名AI工具,包括微软的Copilot、OpenAI的ChatGPT、谷歌的Gemini以及Perplexity等。
在这项研究中,BBC选取了100篇新闻报道,要求这些AI工具对它们进行总结,并根据总结内容提出相关问题。然而,研究结果却揭示了AI在新闻总结方面的严重准确性问题。超过一半的AI生成的答案存在显著问题,其中约五分之一的答案甚至引入了明显的事实错误,包括数据、陈述和日期等关键信息的误导。
BBC新闻与时事首席执行官德博拉・特内斯对此表示担忧,她指出:“当AI助手引用BBC文章内容时,超过十分之一的‘引文’被篡改或根本不存在于原文中。”这不仅影响了信息的准确性,更可能对读者的认知产生误导。
研究还发现AI助手在新闻总结过程中存在其他问题。它们难以区分事实与观点,无法辨别新闻报道中的即时信息与历史存档信息,且在给出答案时容易掺入主观观点。特内斯强调:“这些AI工具所生成的结果往往问题重重,与消费者所期望的经过验证的事实和清晰表述相去甚远。”
值得注意的是,微软的Copilot和谷歌的Gemini在处理新闻总结时表现出的问题更为复杂。与ChatGPT和Perplexity相比,它们在区分观点与事实、编辑化处理以及遗漏关键背景信息方面表现欠佳。这一发现进一步凸显了AI在新闻总结方面的局限性和挑战。
实际上,AI工具的准确性问题并非仅限于新闻总结领域。近期,苹果公司也因旗下Apple Intelligence通知工具分享错误标题而引发争议,该功能因此被暂时停用,并受到新闻机构和自由团体的批评。这些事件再次提醒我们,AI技术在应用过程中仍需谨慎对待。
鉴于AI在新闻总结方面存在的问题,BBC呼吁在与AI服务提供商进行深入对话并找到解决方案之前,应暂停使用AI生成的新闻总结。特内斯表示:“我们希望通过合作,共同寻找解决之道,以确保信息的准确性和可靠性。”