近日,AI界掀起了一股新风潮,Anthropic公司在Twitch平台上进行了一场别开生面的直播——“Claude玩宝可梦”。这场直播不仅展示了Anthropic最新的AI模型Claude 3.7 Sonnet的技术实力,更引发了观众对于AI技术未来应用的广泛讨论。
直播中,Claude 3.7 Sonnet挑战了经典游戏《宝可梦红版》。AI研究人员常常利用各类电子游戏来测试新模型,但大多数情况下,这些测试更多是为了娱乐效果。然而,Anthropic公司表示,《宝可梦红版》成为了Claude 3.7 Sonnet的有效测试基准,该模型在游戏中展现出了出色的“思考”能力。
与OpenAI的o3-mini和DeepSeek的R1等AI模型类似,Claude 3.7 Sonnet也具备通过“推理”解决复杂挑战的能力。在直播中,Claude 3.7 Sonnet成功获得了三个道馆徽章,相较于其前身Claude 3.5 Sonnet在游戏开始时的挫败表现,这无疑是一个巨大的进步。Claude 3.5 Sonnet甚至在真新镇的玩家家门口就止步不前,而Claude 3.7 Sonnet已经能够深入游戏。
尽管Claude 3.7 Sonnet在游戏中取得了不小的成就,但它也遭遇了挑战。在直播的数小时里,Claude被一堵岩石墙挡住了去路,无论如何尝试都无法穿越。这一场景引发了Twitch观众的热烈讨论,有人戏称:“是投入了数千小时编程的AI厉害,还是一堵石墙更胜一筹?”最终,Claude通过绕过岩石墙解决了难题。
直播画面左侧实时显示了Claude的“思考过程”,右侧则是游戏画面。观众可以清晰地看到Claude在每一步决策前的深思熟虑。例如,在大木博士的实验室里,Claude试图找到博士,却因场景中的其他NPC而感到困惑。它写道:“我注意到在我下方出现了一个新角色——黑发穿白大褂,位于坐标(2, 10),这可能是大木博士!让我下去和他谈谈。”然而,Claude却错误地与一个已经交谈过多次的NPC对话,而非博士本人。这一场景让Twitch聊天室里的观众反应各异,有人焦急,有人则显得相对淡定。
“大家冷静,”一位观众在聊天室中写道,“我们之前已经进出大木博士的实验室十次才弄清楚该怎么继续。”
这场直播不仅展示了AI技术的最新进展,也让人们想起了十多年前的“Twitch玩宝可梦”事件。在那个开创性的在线社交实验中,数百万用户共同通过Twitch聊天来控制游戏角色,虽然游戏过程混乱,但却将人们以一种意想不到的方式紧密联系在一起。
“Twitch玩宝可梦”事件对AI研究人员产生了深远影响。西雅图软件工程师Peter Whidden就曾受此启发,训练强化学习算法来玩宝可梦。他的AI花了超过50,000小时才学会如何成功游玩,其中一个显著挑战是AI更倾向于欣赏像素化的游戏场景,而非专注于游戏本身。
如今,像Whidden和Anthropic这样的AI团队重现了“Twitch玩宝可梦”的场景,虽然技术更加先进,但却让人感到一丝惆怅。原版直播之所以成为Twitch历史上的重要时刻,是因为它让人们共同协作,共同克服困难。而现在,我们似乎成了旁观者,看着AI模型尝试玩一个我们很多人在童年时期就已经掌握的游戏。
Claude的缓慢探索过程也引发了观众对于AI与人类智能之间差异的深思。尽管AI在某些方面已经超越了人类,但在理解复杂情境和做出直觉判断方面,人类仍然具有无可比拟的优势。
随着AI技术的不断发展,我们的在线体验也在悄然发生变化。从共享的群体活动到更加孤独的个人行为,这一趋势值得我们深思。而Claude在《宝可梦红版》中的冒险,无疑为我们提供了一个观察这一变化的独特视角。