智元机器人发布通用基座大模型GO-1，新人形机器人亮相在即！

时间：2025-03-11 06:53:16 来源：ITBEAR编辑：快讯团队 发表评论无障碍通道

在机器人技术领域的最新突破中，智元机器人公司近日震撼发布了其首个通用具身基座模型——智元启元大模型Genie Operator-1（简称GO-1）。这一创新成果不仅标志着机器人在理解和执行人类指令方面迈出了重要一步，还预示着具身智能正加速向通用化、开放化与智能化转型。

GO-1的核心在于其提出的Vision-Language-Latent-Action（ViLLA）框架，该框架巧妙融合了VLM（多模态大模型）与MoE（混合专家）技术。VLM作为主干网络，继承了开源多模态大模型的权重，并通过互联网大规模纯文本和图文数据的训练，赋予了GO-1强大的场景感知和理解能力。而MoE则进一步增强了模型的动作规划和执行能力，使其能够精准响应各种指令。

智元机器人公司强调，GO-1具备小样本快速泛化的能力，这意味着它能够在极少数据甚至零样本的情况下，快速适应新场景和新任务。这一特性极大地降低了后训练成本，使得GO-1能够迅速应用于各种实际场景中。

GO-1的“一脑多形”特性使其成为一个真正的通用机器人策略模型。它能够在不同机器人形态之间灵活迁移，快速适配到各种本体上，从而大大拓展了其应用范围。智元公司还透露，未来几个月将推出基于强化学习的仿真模型，并即将亮相新的人形机器人，这将进一步推动具身智能的发展。

GO-1的ViLLA框架通过预测隐式动作标记（Latent Action Tokens），成功弥合了图像-文本输入与机器人执行动作之间的鸿沟。用户只需用自然语言向机器人发出指令，如“挂衣服”，GO-1就能根据所学习的知识和经验，拆解任务步骤并精准执行。这一过程中，GO-1不仅利用了互联网的大规模纯文本和图文数据来理解指令含义，还通过人类操作视频和仿真数据来学习动作模式和增强泛化性。

在实际应用中，GO-1展现出了惊人的适应性和灵活性。无论是家庭场景中的准备餐食、收拾桌面等任务，还是办公和商业场景中的接待访客、发放物品等工作，GO-1都能轻松应对。更令人兴奋的是，它还能通过数据回流系统持续进化学习，不断提升自身性能。例如，当机器人在制作咖啡时不小心将杯子放歪时，它就能从这次失败中吸取教训，并在后续任务中避免类似错误。

智元启元大模型GO-1的成功发布，不仅为机器人技术的发展注入了新的活力，也为人类生活带来了更多便利和可能性。随着具身智能技术的不断进步和应用场景的不断拓展，我们有理由相信，未来的机器人将更加智能、灵活和人性化。

具体来说，VLM作为通用具身基座大模型的主干网络，继承开源多模态大模型5-2B的权重，利用互联网大规模纯文本和图文数据，让智元机器人的Genie Operator-1（GO-1）具备了通用的场景感知和理解能…

钛媒体APP了解到，网易有道之所以能够实现14B小参数垂类模型，是因为，在数据层面，新的模型技术收集并清洗了高质量的翻译语料数据，并由英语专业八级认证人员及职业译员进行精细化人工标注，使得模型拥有海量的优质…

近日，微软CEO纳德拉在采访中谈到为何微软不执着于自建基础模型。他表示微软是一家全栈系统公司，可以在OpenAI的基础上构建系统、工具和产品。此外，微软和OpenAI有长期稳定的商业合作关系，拥有相应的知识产…

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.