ITBear旗下自媒体矩阵:

智元机器人发布通用基座大模型GO-1,新人形机器人亮相在即

   时间:2025-03-11 01:57:00 来源:ITBEAR编辑:快讯团队 发表评论无障碍通道

在人工智能领域迈出重要一步,智元机器人公司于近日震撼发布了其首款通用具身基座模型——智元启元大模型Genie Operator-1(简称GO-1)。这款创新模型通过引入Vision-Language-Latent-Action(ViLLA)框架,展现了强大的多功能性与适应性,预示着机器人技术即将进入一个新的发展阶段。

GO-1的核心竞争力在于其ViLLA框架,该框架巧妙结合了VLM(多模态大模型)与MoE(混合专家)技术。VLM作为模型的主干网络,得益于互联网大规模纯文本和图文数据的训练,赋予了GO-1广泛的场景感知与理解能力。而MoE则通过隐动作专家模型和动作专家模型,进一步提升了模型的动作理解和执行能力。特别是隐动作专家模型,通过分析互联网上的大规模人类操作和跨本体操作视频,使GO-1能够迅速理解并执行各种动作。

GO-1不仅技术先进,更具备多项显著优势。其采训推一体化设计,确保了数据采集、模型训练和模型推理的流畅衔接。小样本快速泛化能力,让GO-1能够在极少数据甚至无数据的情况下,迅速适应新场景和新任务。而“一脑多形”的特性,则意味着GO-1能够轻松迁移至不同形态的机器人上,实现跨本体应用。通过智元的数据回流系统,GO-1还能持续进化,不断从实际执行中汲取经验,提升性能。

在构建GO-1的过程中,智元机器人采用了具身领域的数字金字塔理念。底层由互联网的大规模纯文本与图文数据构成,为机器人提供基础知识和场景理解能力。上一层则是人类操作和跨本体视频数据,帮助机器人学习各种动作模式。再往上,仿真数据增强了机器人的泛化性,使其能够适应不同场景和物体。而金字塔的顶端,则是高质量的真机示教数据,确保了机器人动作的精准执行。

ViLLA框架的引入,使得GO-1能够将多相机视觉信号和人类语言指令直接转化为机器人的动作执行。与传统的Vision-Language-Action(VLA)模型相比,ViLLA通过预测隐式动作标记(Latent Action Tokens),有效缩小了图像-文本输入与机器人执行动作之间的鸿沟。例如,当用户用日常语言向GO-1发出“挂衣服”的指令时,模型能够迅速理解指令含义,并根据所学习的知识和视频数据,拆解并执行挂衣服的各个步骤。

GO-1的广泛应用潜力令人瞩目。从家庭场景中的准备餐食、收拾桌面,到办公和商业场景中的接待访客、发放物品,再到工业等更多领域的操作任务,GO-1都能迅速适应并高效完成。GO-1还能通过数据回流持续进化,不断优化自身性能。例如,当机器人在制作咖啡时不慎将杯子放歪,GO-1就能从这次经验中学习,并在未来避免类似错误。

GO-1的发布,标志着具身智能正加速向通用化、开放化与智能化迈进。这一创新成果不仅为机器人技术注入了新的活力,更为机器人广泛应用于人类生活的各个领域提供了可能。随着GO-1的持续优化和推广,我们有理由相信,未来的机器人将更加智能、灵活且适应性强,成为人类工作生活中的得力助手。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version