在人工智能领域,自主决策能力正逐渐成为衡量Agent价值的关键指标,也因此被视为AI时代的新基础设施。然而,一些观点认为,Workflow在此方面似乎存在局限性,难以打造出真正的通用Agent。
谈及具备决策能力和自我意识的Agent,不得不提AlphaGo的问世。这是AI首次展现出非模板化、非规则驱动的智能行为。通过深度神经网络与强化学习(RL),AlphaGo能够自我对弈、自我优化,最终击败人类顶级棋手,标志着Agent时代的到来。
Devin的出现,可以被视为通用Agent发展的一个起点。它将AI的编码能力、任务执行与反馈机制整合为一个闭环,为后续产品提供了宝贵的范例。Manus延续了Devin的思路,并提出“More Intelligence”的理念,通过任务拆解、自我反思、模型调度等方式,增强Agent的理解力和适应能力。而Genspark则采取了更加模块化的路线,每个任务步骤都可组合,开发者可以快速搭建属于自己的Agent系统。
尽管Workflow在构建Agent中扮演了一定角色,但业内逐渐形成共识:仅靠Workflow难以打造出真正的Agent。主流观点认为,拥有基础模型是构建Agent的起点,而RL则是赋予Agent连贯行为和目标感的“灵魂”。它决定了Agent如何理解环境反馈、进行长期规划,是连接感知与行动的关键。
然而,Manus因缺乏底层模型能力和算法支撑,系统结构相对开放,容易被模仿。尽管如此,AI科技评论认为,这种批评有失公允,因为Manus在产品设计和任务编排上仍有不少创新之处。那些坚持深耕强化学习的团队,在新一轮技术演进中逐渐走到了前沿位置。
Pokee AI创始人朱哲清,前meta AI应用强化学习团队负责人,就是RL的坚定信仰者。他认为,RL的核心优势在于目标驱动,围绕清晰目标进行策略规划和任务执行。缺少RL,Agent容易陷入“走一步看一步”的模式,缺乏内在驱动力,难以胜任复杂任务。
朱哲清表示,真正的Agent不仅要有执行能力,还要对环境产生不可逆的影响。Workflow产品仍处于早期阶段,需要人为干预。真正的Agent能够根据给定目标,自主选择和使用工具完成任务。他认为,Agent的发展可分为多个阶段,从Zapier的工作流系统,到LangChain的可组合型任务执行模式,再到Claude做MCP的演进,最终将实现自主性与智能性的前所未有的水平。
然而,并非所有人都对RL持乐观态度。香港科技大学(广州)博士生、DeepWisdom研究员张佳钇认为,现有RL技术虽能在特定环境中提升Agent能力,但本质上是“任务特化”,而非真正的智能泛化。他强调,跨环境智能体才是目标,而RL在跨环境学习上面临困境。他认为,即便使用RL对语言模型进行环境内优化,若基础模型能力较弱,即便训练到“最优”,也只是对单一环境的适配,缺乏跨环境泛化能力。
张佳钇将Agent的发展过程分为六个阶段,目前大多数Agent产品公司仍处于第二到第三阶段之间,尚未迈过第四阶段的门槛。他认为,突破当前瓶颈的关键在于使Agent摆脱人类预设经验的束缚,通过自主探索获取跨环境经验,并学会与各类专业Agent协作。
Follou创始人谢扬则持有不同观点。他认为,Agent和工作流自动化可以组合起来,Agent应成为协助人类提升生产力的工具,而非独立个体。他更关心Agent是否能在现实中帮人把一件事做完,无论是搜索信息、分析数据,还是调度工具。在他看来,很多人过于执着于“Agent是否像人”,而忽略了其真正的应用意义。
谢扬表示,衡量一个Agent是否有生命力,关键在于它是否“可组合”“可调度”。只有将Agent灵活地组织在不同的垂直任务中,支持模块化的能力组合,并与人类实现高效协同,它才真正具备长期应用的可能性。基于此理念,Follou构建了一套融合Agent与工作流的架构体系。
在RL信徒与质疑者的观点交锋中,一个趋势逐渐清晰:Agent的演化不再是单一范式的胜利,而是多种技术路线的协同博弈。构建Agent需要模型能力、目标规划和执行机制等多方面的精密协作。RL塑造目标感,模型提供理解力,外部接口延展执行力,三者缺一不可。如何将这些能力组合在一起,真正打造一个可泛化、可迁移的系统,是Agent走向通用市场的关键。