近日,Figure AI公司在其官方渠道发布了一项引人注目的新进展,他们成功地将最新推出的VLM模型应用于Figure 02人形机器人,并实现了该机器人在物流工厂中的快递分拣任务。这一部署过程仅耗时30天,相较于Figure 02之前在宝马工厂进行汽车装配的工作安排,时间大大缩短。
据Figure AI透露,他们已在客户现场验证了机器人执行快递分拣流程的可行性。从公布的视频中可以看到,一排排机器人能够较为流畅地完成抓取和摆放快递的动作,尽管其速度与人类分拣员相比仍有差距。
这些机器人通过头部的摄像头识别快递上的条码,并能对漏拣的快递进行自我校正。这一功能的实现,进一步提升了物流分拣的准确性和效率。
Figure AI的研发团队还对机器人的低级视觉运动控制策略(即Helix的系统1)进行了多项改进。其中包括视觉表征优化、跨机器人迁移、数据优化以及推理时操作加速等方面。
在视觉表征优化方面,新版系统采用了立体视觉主干网络结合多尺度特征提取网络,构建了丰富的空间层次表征。这一改进使得机器人既能解析微观细节,又能把握整体场景,从而提升了视觉控制的可靠性。
为了实现跨机器人迁移,Figure AI训练了一个视觉本体感受模型,通过机载视觉输入来估计末端执行器的六维姿态。这一功能使得机器人在停机时间最短的情况下,能够实现跨机器人策略的高效迁移。
在数据优化方面,Figure AI重点筛选了高质量的人类示范数据,并剔除了低效、失误或失败的案例。通过与远程操作员的密切配合,他们优化并统一了操作策略,从而取得了显著的效果提升。
为了追赶并最终超越人类操作速度,Figure AI采用了测试阶段加速技术。通过对策略动作块输出进行插值(命名为“运动模式”),他们实现了测试时20%的加速。这一改进在提速50%时效果最好,但当提速超过50%时,由于动作变得过于不精确,系统需要频繁重置。
Figure AI还提到,这些改进带来了显著的效果。例如,多尺度特征提取和隐性立体视觉输入提高了系统性能,使得配备立体视觉的系统1能够推广应用到从未训练过的扁平包裹上。使用经过精心整理的高质量演示数据训练的模型,尽管训练数据量减少了三分之一,但其吞吐量却提高了40%。
Figure AI的这次成果展示了人形机器人在物流分拣领域的巨大潜力。尽管目前其效率尚不如人工分拣或机械臂分拣,但人形机器人展现出的强大场景适应性和跨设备迁移能力,预示着未来其在多场景大规模部署应用的可能性。随着技术的不断进步和成本的降低,人形机器人有望在更多领域发挥重要作用。