字节跳动旗下的Seed实验室近日宣布了一项重要进展,正式推出了其最新一代多模态智能体——UI-TARS-1.5,并决定将其源代码开放给公众。这款智能体是基于视觉-语言模型设计的,能够在虚拟环境中灵活执行各种任务,相较于其前代,UI-TARS-1.5在高级推理能力上实现了显著提升。
UI-TARS-1.5在字节跳动早期提出的原生智能体UI-TARS的基础上进行了全面升级,引入了强化学习技术,这一创新极大地增强了模型的高级推理能力。这意味着,在执行任务前,UI-TARS-1.5能够进行更为细致的计划和策略制定,从而确保行动的高效性和准确性。
该智能体的强大功能得益于四个核心技术的集成。首先是视觉感知能力的增强,通过大量界面截图数据的训练,模型能够准确理解界面元素的语义和上下文信息,为决策提供了坚实的信息支撑。其次,UI-TARS-1.5引入了System 2推理机制,这一机制使得智能体能够在执行动作前生成“思维”,支持对复杂任务进行多步骤规划和决策,模拟了人类的深思熟虑过程。
UI-TARS-1.5还实现了统一动作建模,通过构建跨平台的标准动作空间,并结合真实轨迹学习,智能体能够更加精准地控制动作的执行,提高了动作的可控性和执行精度。最后,该智能体采用了可自我演化的训练范式,通过自动化的交互轨迹采集和反思式训练机制,模型能够不断从错误中学习,持续改进自身,以适应复杂多变的任务环境。
UI-TARS-1.5的研发团队还提出了一个创新的愿景:利用游戏作为载体来增强基础模型的推理能力。相较于数学、编程等专业领域,游戏更多地依赖于直观的、常识性的推理,而对专业知识的依赖较少。因此,游戏成为了评估和提升未来模型通用能力的理想测试场景。
UI-TARS-1.5不仅仅是一个停留在理论层面的智能体,更是一个具备实际操作能力的“数字助手”。作为一个原生GUI智能体,它能够真实地操作电脑和系统,操控浏览器,并完成各种复杂的交互任务。这一突破性的进展标志着字节跳动在人工智能领域取得了又一重要里程碑。