在科技界的聚光灯下,一款名为Manus的产品于3月6日凌晨震撼登场,被誉为“全球首款通用型AI Agent产品”。凭借前排观众的热烈反响及官方案例的显著成效,Manus迅速成为媒体与营销界的宠儿。然而,随着用户测试的深入,邀请码的一码难求以及测试中出现的卡顿、迟缓等问题,让这款产品的口碑迅速分化,并陷入了“套壳”的质疑声中。
在此背景下,国内两大团队metaGPT和开源社区CAMEL-AI迅速行动,推出了Manus的开源复刻项目。metaGPT的Open Manus在GitHub上迅速收获了超过7000颗星标,而CAMEL-AI打造的OWL在智能体测试基准GAIA开源榜单上取得了57.7%的优异成绩。这次借势,无疑为两个团队带来了前所未有的关注度。
抛开流量炒作与营销手段不谈,单从产品思路及影响来看,Manus的这次抢跑无疑加剧了AI Agent领域的竞争,同时也预示着“GPTs类”智能体或将逐渐退出历史舞台。AI Agent在2024年已被公认为2025年AI竞争的关键领域,知名投行巴克莱的最新研报更是将“推理模型”与“Agent”推上了新时代的风口浪尖。Manus作为这股趋势中的一条鲶鱼,极有可能促使科技巨头加速布局AI Agent。
进入2025年,OpenAI接连推出了Operator和Deep Research两款AI Agent。而在Manus走红的一周内,微软也发布了两个新的AI Agent。meta也在为Facebook和Instagram推出客服领域的AI Agent。亚马逊的AWS据传已组建了一个专注于Agent开发的新团队,旨在帮助人们自动化生活中的部分事务。这些动态无疑表明了AI Agent领域的火热竞争。
随着AI Agent定位的日益清晰,无论是开发者还是用户,都更加强调AI Agent的任务执行能力,而非定制化的聊天能力。这也意味着,包括OpenAI在内的众多企业,都将逐渐放弃GPTs类智能体,转而探索如何提升AI Agent的执行效率。Manus的出现,无疑加速了这一进程。
在新的AI Agent竞争阶段,将呈现出四大趋势:从与AI合作转变为监督Agent工作;好的Agent将成为合格的终端消费品;编程平权将带来更灵活的执行;围绕Agent开始建设“统一市场”。在以往,人们通常将GPTs等基于高级Prompt搭建的、具备专业背景的聊天机器人称作智能体。然而,随着大模型的日益聪明,用户更希望AI能够直接提升效率,而非仅仅进行有趣的对话。Manus正是抓住了这一趋势,展现出了人发出命令、监督Agent执行的未来雏形。
Manus的成功之处在于,它从C端用户的需求出发,构建了一种高度灵活且低门槛的Agent服务模式。在B端市场,客户只为好的消费品买单,且对Agent的可靠性有更高要求。而在C端市场,好的消费品不仅要好用,还要简单。Manus正是满足了这一需求,用户只需说出需求,就会有Agent进行分析拆解、执行任务、调用API,并反思挑错。整个过程清晰可见,用户可随时介入调整。
然而,Manus也并非完美无缺。它在执行具体任务的准确度与精细度上仍有待提升。这是一个需要不断打磨不同能力Agent的过程。OpenAI也有类似想法,但其选择的是先通过定制化模型训练出更适合执行具体任务的Agent。未来,这些Agent可能会成为ChatGPT手下的员工。
编程平权将为Agent执行任务带来更灵活的手段。一些公司构建Agent时,会选择由人来搭建整个工作流,但这种方式构建出来的Agent往往比较死板。而利用先进的推理模型,赋予它人类工作生活中使用的工具,并针对期望Agent达成的结果进行优化,将带来更加灵活的执行方式。Manus正是采用了这一思路,减少对AI的结构化限制,依赖大模型能力来组建工作流。
Agent还需要一次“统一市场”的建设。Manus的一个局限在于,虽然可以选择使用API调用不同的信息源和能力,但API无法帮助Agent克服移动互联网的孤岛效应。为了解决这个问题,需要构建一个连接范围极广的基于一个账号的联合登陆机制。然而,在国内外的互联网环境中,这都是一个巨大的挑战。因此,一些团队开始探索GUI(图形用户接口)Agent,希望通过让AI读取屏幕信息,在更底层绕过App之间的墙。
与此同时,meta的首席AI专家杨立昆也提出了一个更长远的目标:基于GUI Agent形成一套以Agent为核心搭建的操作系统。这个操作系统将融合软硬件能力,协作不同模型,成为一个真正的“大脑”。虽然这一目标尚需时日,但无疑为AI Agent的未来发展指明了方向。
在这场AI Agent的竞争中,Manus无疑是一个重要的里程碑。它不仅展示了AI Agent的未来雏形,还激发了整个行业的创新活力。随着技术的不断进步和市场的日益成熟,我们有理由相信,AI Agent将在未来的生活中发挥越来越重要的作用。