滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

北大推出多模态DeepSeek升级版，赋能机器人控制新纪元！

时间：2025-02-13 20:00:22 来源：ITBEAR编辑：快讯团队 发表评论无障碍通道

在人工智能领域，一项新的突破正引起广泛关注。北京大学与香港科技大学的研究团队携手，基于他们自研的全模态框架Align-Anything，成功将原本专注于纯文本模态的Deepseek R1系列模型拓展至图文模态，推出了名为Align-DS-V的多模态版本。

这一创新不仅标志着Deepseek R1系列模型在功能上的重大飞跃，更在部分视觉理解评测集上的表现超越了GPT-4，为人工智能的多模态理解与应用开辟了新的道路。

此次合作中，北京大学的指导老师杨耀东教授发挥了关键作用。作为北京大学人工智能研究院的助理教授，他同时也是北京具身智能初创公司灵初智能与北大联合成立的具身灵巧操作联合实验室的首席科学家。在杨教授的带领下，研究团队仅在一周之内就完成了Deepseek R1向图文模态的扩展，并取得了令人瞩目的成果。

团队在探索过程中还意外发现了模态穿透对模型文本模态推理能力的提升效果。经过多模态训练后，模型在文本模态任务上的表现有了显著提升，特别是在科学任务、复杂推理以及数学代码处理等方面。

Align-DS-V的多模态强推理能力被视为VLA模型（视觉语言动作模型）大脑端的核心。这一能力不仅提升了模型的理解和推理水平，还为VLA模型的小脑端控制器微调提供了可能，从而实现更高的成功率、泛化性和鲁棒性。目前，Align-Anything框架以及DeepSeek-R1的多模态版本Align-DS-V均已开源，供全球研究者共同探索与进步。

Align-Anything框架的设计初衷是实现全模态大模型与人类意图和价值观的对齐。它支持从文本、图片、视频、音频四大基本模态衍生出的任意模态模型的对齐微调，并验证了框架对齐算法的正确性。该框架具有高度的模块化、扩展性和易用性，为研究者提供了极大的便利。

为了进一步验证全模态推理大模型的实际应用能力，研究团队对Align-DS-V进行了本地化对齐，使其适应粤语、英语和普通话混合语言输入，并整合了香港本土生活场景如港铁动态、台风预警及八达通缴费等。这一举措不仅展示了Align-DS-V的灵活性，也为其在更多实际应用场景中的推广奠定了基础。

在面对包含繁体字的图文数学问题时，Align-DS-V展现出了其强大的多模态理解能力。它能够准确联动图文模态信息，使用严密的数学推导展示求解过程，进一步证明了其在复杂任务处理上的卓越表现。

随着Align-DS-V的成功推出，北大-灵初联合实验室已经在VLA领域展开了更深度的探索。他们计划利用多模态推理模型的跨模态穿透能力，实现action穿透，从而打造出真正高效的VLA模型。这一创新不仅有望推动具身智能技术的快速发展，还将为企业降低技术门槛，促进更多力量向更底层的运动控制领域集中。

举报 0 收藏 0 打赏 0评论 0

更多>同类资讯

DeepSeek落选“果链”，AI赛道上的它究竟该何去何从？

天使投资人、资深人工智能专家郭涛认为DeepSeek不会冲击行业原有的竞争格局：“文心一言、通义千问等AI大模型都已建立起完善的生态体系，且背后有百度、阿里巴巴等强大企业的支持，技术实力雄厚，能够持续投入研…

02-13

阿里巴巴AI与云计算双轮驱动，港股科技重估中一骑绝尘

02-13

马斯克揭秘：Grok 3即将面世，性能超越所有已知AI产品

02-13

施密特预警：西方若忽视开源AI，中国或领跑未来智能时代

02-13

国央企运营商携手青云科技，DeepSeek赋能知识库智能化升级

02-13

青云科技DeepSeek全系列服务上线，助力企业AI创新，私有化部署方案来袭

02-13

《哪吒2》票房火爆背后，AI配音技术如何助力动画电影新高度？

02-13

大模型价格战愈演愈烈，火山引擎总裁反驳百度“恶意”论调

02-13

火山引擎谭待回应百度沈抖：大模型降价靠创新，豆包毛利不俗

钛媒体AGI2月13日消息，百度集团执行副总裁、百度智能云事业群总裁沈抖在全员会上表示，“国内大模型去年‘恶意’的价格战，导致行业整体的创收相较于国外差了多个数量级”。对此，钛媒体AGI获悉，火山引擎总…

02-13

OPPO Find N5折叠屏手机最薄仅8.93mm，钛合金天穹铰链引领新潮流！

02-13

ZStack SupportAI携手DeepSeek：科技企业智能客服的新篇章

02-13

合思携手AI大模型，重塑企业业财管理，智慧升级新篇章

02-13

AI赋能用友YonSuite，总经理决策步入智能新纪元

02-13

苹果阿里强强联手，苹果智能将接入通义千问大模型？

02-13

《浮梦吟》热播：AI赋能古装短剧，沉浸式体验能否成新风口？

02-13

点击查看更多 +

全站最新

吉利银河L6 EM-i上市，2L级油耗引领国民精品电混家轿新时代

东风集团内部整合提速，岚图向日产输出新能源技术成亮点

吉利银河L6 EM-i上市：2L级油耗，开启国民精品电混家轿新时代

奔腾小马新成员伶俐马、玲珑马上市，4万起售，智能配置引领微型车新风潮

小鹏P7i继任者内饰抢先看，运动风满满，三季度能否如约而至？

小鹏汽车携手华为，今年新车型合作深度如何？

热门内容

本栏最新

DeepSeek落选“果链”，AI赛道上的它究竟该何去何从？

阿里巴巴AI与云计算双轮驱动，港股科技重估中一骑绝尘

马斯克揭秘：Grok 3即将面世，性能超越所有已知AI产品

施密特预警：西方若忽视开源AI，中国或领跑未来智能时代

大模型价格战愈演愈烈，火山引擎总裁反驳百度“恶意”论调

火山引擎谭待回应百度沈抖：大模型降价靠创新，豆包毛利不俗

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.