ITBear旗下自媒体矩阵:

智元机器人发布通用基座大模型GO-1,新人形机器人亮相在即

   时间:2025-03-12 00:58:25 来源:ITBEAR编辑:快讯团队 发表评论无障碍通道

在机器人技术的前沿探索中,一款名为智元启元大模型Genie Operator-1(简称GO-1)的通用具身基座模型于近日正式发布,标志着机器人智能化进程中的又一重要里程碑。这款由智元机器人公司倾力打造的模型,以其创新的Vision-Language-Latent-Action(ViLLA)框架,展现了前所未有的多模态学习与执行能力。

GO-1的核心竞争力在于其ViLLA框架,该框架融合了VLM(多模态大模型)与MoE(混合专家)技术。VLM作为模型的主干网络,通过吸收互联网上的海量文本与图文数据,赋予了GO-1强大的场景感知与理解能力。而MoE则扮演着隐式规划器与动作预测器的双重角色,前者利用人类操作视频提升动作理解能力,后者则借助高质量仿真与真机数据,确保动作的精确执行。

GO-1的五大特性尤为引人注目:采训推一体化设计,实现了数据采集、模型训练与推理的无缝对接;小样本快速泛化能力,使得模型能够迅速适应新场景与新任务,大大降低了后训练成本;一脑多形特性,确保了GO-1能在不同形态的机器人之间灵活迁移,快速适配各类本体;持续进化机制,依托智元的数据回流系统,模型能从实际执行中遇到的问题数据中不断学习与进化;人类视频学习能力,让模型能够结合互联网视频与真实人类示范,进一步加深对人类行为的理解。

在构建过程中,GO-1遵循了具身领域的数字金字塔模型。底层是互联网的大规模纯文本与图文数据,为机器人提供基础的知识与场景理解。之上是人类操作与跨本体视频,帮助机器人学习动作模式。再上一层是仿真数据,增强模型的泛化能力。而金字塔的顶端,则是高质量的真机示教数据,确保动作的精准执行。这一设计,使得GO-1能够轻松应对多样化的环境与物体,快速学习并执行新操作。

在实际应用中,GO-1展现了其卓越的性能。用户只需通过简单的语言指令,如“挂衣服”,模型便能根据视觉信号与所学知识,拆解任务步骤并精准执行。无论是家庭场景中的倒水、烤吐司,还是商务会议中的拿饮料、递苹果,GO-1都能迅速响应,完成任务。模型还能通过数据回流机制,持续优化自身性能,如从做咖啡时杯子放歪的问题中学习,直至成功完成任务。

GO-1的问世,不仅解决了具身智能面临的诸多挑战,如场景与物体泛化能力不足、语言理解能力欠缺、新技能学习缓慢以及跨本体部署困难等,更为机器人走向更多场景、适应多变真实世界提供了可能。从家庭到办公,从商业到工业,GO-1以其强大的通用性与智能化水平,正引领着具身智能向通用化、开放化与智能化的全新阶段迈进。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version