在具身智能领域,中科视语再次传来振奋人心的消息。继成功推出PhysVLM——首个开源机器人物理空间具身大模型后,中科视语科研团队再次取得重大进展,发布了LightPlanner,一个创新的轻量化具身决策深度推理大模型。
LightPlanner的推出,标志着中科视语在解决边缘设备上“轻量与智能不可兼得”的行业难题上迈出了关键一步。通过创新的层次化决策框架,LightPlanner不仅大幅提升了机器人在复杂任务中的规划能力,更为其在物流、制造、服务等场景的广泛应用奠定了坚实基础。
传统大语言模型虽然具备强大的语义理解能力,但其庞大的参数规模限制了其在边缘设备上的高效运行。而轻量级模型虽然解决了算力问题,却在复杂推理任务中表现不佳。中科视语针对这一挑战,提出了LightPlanner,通过创新的层次化深度推理和动态参数化技能控制方法,充分释放了轻量级模型的推理能力。
LightPlanner的层次化深度推理机制模拟了人类的决策逻辑,在执行每一步动作前都会进行三层验证,包括执行反馈、语义一致性和参数有效性,从而实现了“错误自愈”、任务目标对齐和动作精度的提升。同时,其参数化动态技能链突破了固定技能模板的限制,能够根据上下文感知动态解析指令中的参数,使系统能够执行复杂的具身任务。
LightPlanner还采用了边缘设备友好的架构,通过引入动态更新的历史行动记忆模块和迭代式上下文管理,显著降低了显存占用,满足了边缘端设备的部署需求。目前,该设备已支持多种国产化边缘计算设备,包括Nvidia jetson系列、瑞芯微、算能、华为Atlas等。
为推动技术普惠,中科视语团队还同步开源了LightPlanner的量化模型和LightPlan-40K数据集。量化模型提供了多种量化版本,凭借其卓越性能和实用价值,在Hugging Face平台上热度飙升。而LightPlan-40K数据集则是首个具身决策深度推理数据集,覆盖了不同复杂度的任务,为训练LightPlanner模型提供了丰富的数据资源。
实验结果显示,在真实世界环境中的具身决策规划任务中,尽管LightPlanner的参数数量较少,但其任务成功率却最高。特别是在需要空间语义推理的任务中,其成功率比ReAct高出14.9%。这一成果不仅突显了LightPlanner在资源受限环境中的适用性,更为具身智能技术的创新与发展提供了新的动力。