在人工智能领域,2025年初的一系列创新如同春潮涌动,令人目不暇接。DeepSeek R1、OpenAI的CUA以及Manus等突破性进展,正引领着AI技术迈向新的高度。
其中,Manus的推出尤为引人注目。这款基于“虚拟机+多Agent协同”模式的产品,通过整合GPT-4、Claude 3等大模型的API,实现了从需求输入到成果交付的端到端闭环。其“Less Structure, More Intelligence”的交互理念,更是大大降低了用户的使用门槛。在体验过程中,尽管Manus还存在一些不足,但其创意满满的产品设计思路,无疑为AI领域带来了新的思考。
然而,Manus也并非尽善尽美。其MultiAgent的道路上虽然提供了一种有趣的思路,但仍面临一些挑战。例如,“幻觉累加”问题就限制了其准确性的提升。当多个Agent串联工作时,即使单个Agent的准确率很高,整体准确率也会大幅下降。Manus在任务执行过程中还出现了数据硬编码等错误,这无疑影响了其工作效果。
除了Manus,OpenAI的CUA同样值得关注。这款能够自主操作电脑的Agent,融合了GPT-4o的视觉能力和强化学习实现的高级推理能力。它能够将任务分解为多步骤计划,并在遇到挑战时进行自我调整和纠正。CUA的运作原理简洁明了:通过接受文本指令和屏幕截图两种模态的输入,生成一系列动作指令,从而完成电脑操作。虽然目前CUA的操作能力还无法与人类相比,但相信在不久的将来,这一现状将发生质变。
为了解决Manus等工具不足的问题,Anthropic推出了MCP。这款Model Context Protocol定义了应用程序和AI模型之间交换上下文信息的方式,使得开发者能够以一致的方式将各种数据源、工具和功能连接到AI模型。MCP之于AI,有点类似于TCP/IP之于互联网。随着越来越多的工具及服务开始接入MCP,未来AI能够直接调用的工具将呈现指数级增长,这将从根本上打开Agent能力的天花板。
在AI技术的发展趋势方面,2025年呈现出几个显著特点。首先,预训练即将终结,后训练成为重点。随着数据的不断积累和处理能力的提升,后训练将成为大模型训练管线中的重要组成部分。其次,强化学习将成为主流,监督学习的重要性逐渐下降。DeepSeek R1的启示表明,纯粹的强化学习可能是通向通用人工智能(AGI)的正确路径。最后,MultiAgent是确定性的大趋势。通过将多个不同的模型之间互相协调,从单独的“前额叶”走向“完整的大脑”,AI将能够处理更加复杂的现实任务。
2025年是AI Agent元年,Manus、CUA和MCP等创新成果正引领着AI技术迈向新的阶段。未来两年,AI的发展速度将非常陡峭,值得我们密切关注。