在近日举行的GTC2025全球技术盛会上,杭州群核科技悄然发布了一款名为SpatialLM的空间理解模型,瞬间引起了业界的广泛关注。作为杭州“六小龙”成员之一,群核科技此次的开源之举,无疑为空间智能领域注入了一股新鲜血液。
SpatialLM,这款基于大语言模型的3D场景语义生成框架,展现出了惊人的空间认知能力。仅需一段视频作为输入,它便能精准捕捉并理解视频中的空间点云数据,进而对这些数据进行深度推理和场景描述,最终将复杂的信息以自然语言的形式清晰呈现。这一技术的突破,无疑为机器赋予了类人的空间解析能力。
SpatialLM的工作原理令人称奇,而它在国外社交平台和技术圈引起的轰动更是不可忽视。在HuggingFace的最新趋势榜上,SpatialLM迅速攀升至第二位,与同样来自杭州的Deepseek和通义千问Qwen2.5-Omni一同占据了榜单前三的位置,将英伟达、谷歌等国际巨头的模型甩在身后。
群核科技的创始人黄晓煌在接受国际知名媒体彭博社采访时坦言,开源SpatialLM旨在加速具身智能技术的奇点到来。这一表态,无疑彰显了群核科技在推动技术进步方面的决心和远见。
SpatialLM的独特之处,在于它突破了传统大语言模型对物理世界几何与空间关系的理解局限。与meta此前发布的依赖特定硬件的Scene模型不同,SpatialLM支持普通相机和手机视频作为输入,更具通用性。同时,它利用大语言模型进行输出,最终得到的是对3D场景的自然语言描述,未来还将实现原生自然语言与场景数据的交互。更重要的是,SpatialLM能够认知和理解物理世界中的空间信息,并进行结构化描述。这得益于群核科技过去十余年在物理空间模拟技术场景中的深耕细作,积累了海量的三维数据和空间认知数据。
随着SpatialLM模型的开源,全球开发者将拥有一个强大的空间认知理解基础训练框架。对于那些不具备模型开发能力的具身智能企业而言,这无疑是一个巨大的福音。他们可以在SpatialLM模型的基础上进行微调,从而大大降低具身智能的训练门槛。
事实上,群核科技在空间智能领域的布局早已开始。早在几个月前,群核科技就对外公开了两大技术引擎:启真(渲染)引擎和群核矩阵(CAD)引擎,并首次介绍了其技术底层核心——基于GPU高性能计算的物理世界模拟器。同时,群核科技还推出了群核空间智能平台SpatialVerse,面向AIGC、具身智能、AR/VR等领域的企业开放物理正确的3D空间数据资产、空间认知解决方案以及空间智能训练相关服务。该平台目前拥有全球最大的室内场景认知深度学习数据集,并与英特尔、慕尼黑工业大学共同推出了全球首个高视觉与物理逼真度环境数据合成与训练仿真平台SPEAR SIM。