【ITBEAR】在具身智能领域,环境感知与理解能力被视为其核心竞争力。特别是在Transformer架构问世后,视觉模型与其融合,经历了一场从“小模型到大型模型,从多任务到单一模型”的变革,显著提升了全场景视觉感知能力,为技术的实际应用开辟了更广阔的道路。
近日,IDEA研究院在深圳举办的2024 IDEA大会上,隆重发布了最新的DINO-X通用视觉大模型。该模型具备物体级别的理解能力,能够无需人工提示,实现对开放世界目标的自动检测。同时,IDEA研究院还推出了行业平台架构,通过大模型基座与通用识别技术的结合,使得模型能够在不重新训练的情况下,边使用边学习,满足多种应用需求。
IDEA研究院创院理事长、美国国家工程院外籍院士沈向洋在会上表示,当前具身智能正处于新一轮的落地浪潮中,技术路径更加注重泛化性和现实场景的适应性。为此,IDEA研究院宣布了三项重要合作:与腾讯合作,在深圳福田区及河套深港科技创新合作区建设福田实验室,专注于人居环境具身智能技术的研发;与美团携手,探索无人机视觉智能技术;与比亚迪合作,拓展工业化机器人的智能应用。
传统机器人在工厂制造、汽车生产车间、物流仓储等半结构化领域中已有所应用,但面对真实场景时,其认知能力仍有待提升。IDEA研究院计算机视觉与机器人研究中心负责人张磊指出,不同类型的机器人,如双臂机器人和移动机器人,在面对复杂环境时,需要更高的认知与决策能力。特别是移动机器人,在室外环境中,其面临的挑战与无人驾驶类似,需要应对结构化、半结构化甚至非结构化的道路环境。
AI大模型的引入,为机器人的认知和决策能力带来了显著提升。腾讯Robotics X实验室智能体中心负责人韩磊认为,语言是人类知识和思维的高度抽象,而机器人则是通过第一人称视角来感知世界,因此,视觉理解是机器人首要的任务。
在圆桌讨论《从视觉到行动:具身智能的挑战和机遇》中,与会专家一致认为,多模态信息的加入,结合物理世界的认知,可以显著增强机器人对世界的理解角度。这对于机器人的运动控制、环境适应以及任务执行等方面都具有重要意义。
美团副总裁兼无人机业务部负责人毛一年表示,机器人应用的首要场景应该是人类的高风险任务,如上山巡检、深海检测、油田钻井、高楼清洁等。通过从小场景切入,逐步扩大应用范围,可以逐渐提升用户对机器人的接受度和信任度。他强调,机器人的应用需要确保安全稳定,避免给用户带来不必要的麻烦或损失。
沈向洋院士在会上还指出,在技术大爆发的时期,对技术的深度理解尤为重要。深圳这座城市以其快速的迭代速度,不仅在硬件领域不断创新,也在软件领域取得了显著成果。IDEA研究院除了与福田实验室合作外,还与前海深港合作区、深圳龙岗区、横琴粤澳深度合作区等地建立了多个分支机构,共同推动技术创新和成果转化。
在初创生态方面,IDEA研究院还孵化了一批生态企业,如识渊科技、AI玩伴机器人爱小伴、GPU加速电影工业渲染器Smaray慧光追等,这些企业在各自的领域内取得了不俗的成绩,为IDEA研究院的创新生态增添了新的活力。