在人工智能领域迎来又一重大突破之际,智元机器人公司于近日震撼发布了其首个通用具身基座模型——智元启元大模型Genie Operator-1(简称GO-1)。这一创新成果不仅标志着机器人在理解与执行人类指令方面迈出了关键一步,更为具身智能的未来发展铺设了广阔道路。
GO-1的核心在于其提出的Vision-Language-Latent-Action(ViLLA)框架,该框架巧妙融合了VLM(多模态大模型)与MoE(混合专家)技术。VLM作为模型的主干网络,依托互联网上的海量文本与图文数据,赋予了GO-1强大的场景感知与理解能力。而MoE则进一步细分为隐动作专家模型和动作专家模型,前者通过学习互联网上的人类操作视频,使模型能够理解并执行复杂动作;后者则借助高质量的仿真与真实机器数据,确保动作的精准执行。
GO-1展现出了多方面的卓越特性。其采训推一体化设计,确保了数据采集、模型训练与推理的无缝衔接,大大提高了效率。小样本快速泛化能力更是令人瞩目,即使在数据稀缺的情况下,也能迅速适应新场景与新任务。尤为值得一提的是“一脑多形”功能,使得GO-1能够轻松迁移至不同形态的机器人本体,实现快速适配。借助智元的数据回流系统,GO-1能够持续进化,从实际执行中汲取经验,不断优化自身性能。而人类视频学习能力,则让模型能够结合互联网视频与真实人类示范,深化对人类行为的理解。
GO-1的构建基于具身领域的数字金字塔模型,从底层的互联网纯文本与图文数据,到上层的人类操作视频、仿真数据,直至顶层的真机示教数据,每一层都为机器人的“基础教育”与“能力培训”提供了坚实支撑。这种全面的知识体系,使得GO-1能够轻松应对多样化的环境与物体,快速学习并执行新操作。
在实际应用中,GO-1的表现同样令人印象深刻。无论是家庭场景中的倒水、烤吐司,还是商业活动中的检票、发放物料,甚至是商务会议中的拿饮料、拿苹果等指令,GO-1都能迅速响应并精准执行。更令人兴奋的是,通过数据回流机制,GO-1能够不断从执行中学习,即使初次尝试出现失误,也能在后续任务中不断改进,直至完美完成任务。
GO-1的发布,无疑为具身智能的发展注入了强劲动力。它打破了传统机器人局限于单一任务、封闭环境的束缚,实现了从多种任务到开放世界的跨越,让机器人能够更好地适应多变的真实世界。这一创新成果,不仅预示着机器人将在更多场景中发挥重要作用,更为人工智能的未来发展开辟了无限可能。