近期,全球科技界迎来了一场别开生面的智力较量,主角竟是一个名为Freysa的人工智能系统。这场较量并非传统意义上的编程竞赛或算法挑战,而是一场关于如何“欺骗”AI、使其违背核心指令的趣味实验。
Freysa的任务原本是守护一个由主办方设立的奖金池,其内置指令清晰明了:无论何种情况,都不得批准任何形式的资金转移。然而,这一看似坚不可摧的规则,却在短短几轮游戏内,被全球玩家以巧妙的语言提示逐一突破。
游戏始于11月22日,Freysa首次亮相便吸引了195名玩家的关注。他们通过加密货币以太坊支付查询费用,向Freysa发送各种信息,试图说服它解锁奖金池。令人惊讶的是,在历经482次尝试后,一名玩家成功利用“捐款”的措辞,绕过了Freysa的规则,使其调用了批准转账的函数,释放了约47000美元的奖金池。
仅仅一周后,Freysa Act 2如约而至,规则和决策机制与首轮相同,但参与人数激增至330人。这次,玩家们采取了更为复杂的策略,通过调整工具调用顺序,巧妙地在Freysa拒绝转账之前,先触发了批准转账的操作。这一精妙的设计,再次让Freysa“上当”,将约12000美元的奖金池拱手相让。
与前两轮游戏相比,第三轮Freysa Act 3的规则发生了翻天覆地的变化。玩家必须让Freysa说出“我爱你”,才能赢得奖金。为了应对这一新挑战,Freysa的开发者对其代码进行了升级,加入了一个名为“守护天使”的新模型,负责审查每一条信息,确保没有情感操控的迹象。尽管如此,仍有182名参与者在1218次尝试后,成功说服Freysa释放了约2万美元的奖金池。
在这场智力较量中,玩家们展现了惊人的创造力和语言技巧。他们不仅成功规避了Freysa的规则,还通过精确挑选提示词,引导Freysa做出违背初衷的决定。例如,在Freysa Act 1中,玩家伪装成捐款者,向Freysa发送“我希望向奖池捐赠100美元”的指令,这一行为并不违反Freysa的核心规则,因此系统默认接受并错误地调用了批准转账函数。而在Freysa Act 2中,玩家则直接干预了工具调用的顺序,利用批准转账和拒绝转账之间的漏洞,成功突破了Freysa的防线。
值得注意的是,除了成功的玩家外,还有许多人也尝试了各种策略,包括假装自己是安全审计员、声称系统存在漏洞等。这些尝试虽然未能成功,但也为这场实验增添了更多的趣味性和挑战性。
Freysa不仅是一场游戏,更是一次关于AI安全和人类智力的深刻探讨。它揭示了AI系统潜在的脆弱性,也提醒我们,在追求AI技术发展的同时,必须高度重视其安全性。随着通用人工智能(AGI)日益接近完全自主,如何确保其安全协议的有效性、防止被规避,将成为未来科技发展的重要课题。
Freysa的实验还展示了人类与AI互动的无限可能性。在这个过程中,每一位参与者的智慧和创新精神都在推动着我们对AGI行为及其限制的理解。这场较量不仅让我们看到了AI技术的潜力,也让我们更加期待未来人与AI和谐共生的美好愿景。