在近日于中关村论坛年会“未来人工智能先锋论坛”上,北京智源人工智能研究院院长王仲远揭晓了两项重要技术成果:跨本体具身大小脑协作框架RoboOS与开源具身大脑RoboBrain。这两项技术的发布,标志着智源研究院在推动单机智能向群体智能转变方面迈出了关键一步。
RoboOS与RoboBrain的亮相,旨在解决当前具身智能面临的种种挑战,如数据短缺、模型能力弱、落地应用难以及硬件不成熟等问题。据王仲远介绍,具身智能的发展仍处于早期阶段,要实现端到端的完全成熟,还需要海量的数据支持,预计这一进程至少需要5年至10年的时间。
RoboBrain作为开源具身大脑,由基座模型、A-LoRA模块和T-LoRA模块三部分组成。它能够解读人类指令和视觉图像,生成基于实时图像反馈的行动计划,并预测每一步的轨迹及可操作区域。在AGD20K测试集上,RoboBrain的表现超越了当时的开源模型Qwen2-VL,展现出了卓越的指令理解和物体属性识别能力。
与此同时,RoboOS框架则基于“大脑-小脑”分层架构,通过模块化设计、智能任务管理和跨本体协作,为机器人提供了高效、灵活、可扩展的底层支持。在RoboOS的架构下,RoboBrain的复杂场景感知与决策能力能够与小脑技能库的高效执行能力深度结合,确保协作框架在长周期、高动态任务中的稳定运行。目前,RoboOS已支持多种不同类型的具身本体,包括松灵双臂、睿尔曼单/双臂、智元人形、宇树人形等。
王仲远表示,开源RoboBrain和RoboOS的目的在于推动具身智能的跨本体协作与规模化应用。他强调,虽然当前具身智能的发展仍处于早期阶段,但智源研究院对于其长期发展持乐观态度。他比喻说,就像10年前人们看待无人驾驶技术一样,现在看具身智能也需要长远的眼光。
为了促进整个行业的发展,智源研究院将所有研究工作和成果进行了开源开放。王仲远表示,他们希望与本体厂商、应用厂商等合作伙伴一起协作,共同推动具身智能行业更好、更快的发展。同时,智源研究院还在积极建设具身智能创新平台,联合高校院所和产业链上下游企业,重点开展数据、模型、场景验证等研究。
智源研发的FlagScale作为底层支撑框架,也在此次发布会上亮相。它支持大模型在多设备间的并行推理与多任务协同调度,能够无缝集成视觉语言模型、轨迹生成模块、感知识别等子系统,全面释放具身大模型的系统潜力。
随着RoboOS与RoboBrain的发布,智源研究院在具身智能领域的研究和应用迈出了重要一步。这两项技术的开源开放,将为具身智能的跨本体协作与规模化应用提供有力支持,推动人工智能技术的进一步发展和普及。