在科技界的一次重大突破中,AI领域的重量级人物李飞飞创立的World Labs震撼发布了其首个核心成果——世界模型,该模型能够从单张图像中生成完整的3D世界。
这一消息迅速在行业内引发了轰动,李飞飞也迅速在社交媒体上分享了这一喜讯。她所展示的,是一个前所未有的AI新纪元,即从2D内容生成迈向3D世界创造的飞跃。
目前,市面上的大多数AI工具仍局限于制作图像或视频等2D内容,这些工具在内容的控制和一致性方面存在显著缺陷。而World Labs的3D生成技术,则显著提升了内容的可控性和一致性。其模型能够预测3D几何形状,并填充场景中不可见的部分,这将彻底改变电影、游戏、模拟器及其他数字表现形式的制作方式。
World Labs的技术允许用户通过输入任意一张图片,即可生成一个完整的3D世界。用户可以通过键盘上的WASD键控制视角的上下左右移动,还可以通过鼠标拖动探索这个世界的每一个角落。这种体验,不仅仅是视觉上的震撼,更是互动性的全面升级。
除了基本的视角控制外,World Labs还提供了多种玩法。例如,用户可以使用虚拟摄像机进行实时渲染,通过精确控制摄像机的各项参数,实现各种艺术摄影效果,如浅景深效果、推移变焦效果等。这些效果不仅增强了画面的层次感,还创造了独特的视觉冲击力和动态感。
在3D效果方面,World Labs的生成模型不仅仅局限于像素层面的预测。其优势在于生成的3D场景具有持久的现实性、实时控制性和符合物理规则的特点。一旦生成了一个世界,它就会一直存在,不会因视角的改变而发生变化。用户可以实时移动场景,探索细节,感受真实世界的坚实感和深度感。通过深度贴图技术,每个像素都按其与相机的距离着色,使得场景更具空间感。
World Labs团队还展示了他们从梵高、霍珀、修拉和康定斯基等艺术大师的作品中生成的3D世界。这些作品不仅保留了原作的艺术风格,还通过3D技术赋予了新的生命和活力。
3D生成技术还可以与其他AI工具组合使用,如Midjourney、Runway、Suno等。这将极大地改变创作者的工作流程,使他们能够更高效地创作出具有独特风格的3D世界。例如,用户可以先使用文生图模型生成图像,然后将其导入World Labs中生成3D世界,从而得到不同风格的3D场景。
World Labs的成立,是李飞飞自2018年从谷歌离职重返斯坦福后的首次直接创业项目。作为一家专注于打造世界模型进行3D世界感知、生成和互动的AI初创公司,World Labs在短短三个月内就完成了两轮融资,融资总额超过2.3亿美元,估值突破10亿美元。投资方包括硅谷知名风投a16z和AI基金Radical Ventures。
李飞飞认为,未来AI的核心在于“空间智能”,即让AI具备感知、推理并与3D世界交互的能力。她希望通过World Labs推动这一领域的发展,实现更高层次的空间智能。World Labs的团队阵容豪华,除了李飞飞外,还包括实时风格转换和超分辨率领域的专家贾斯汀·约翰逊、神经辐射场(NeRF)的提出者本·米尔登霍尔以及3D重建专家克里斯托夫·拉斯纳。
然而,尽管World Labs在技术研发和团队配置上具有显著优势,但其面临的挑战也不容忽视。从技术角度来看,构建一个高精度的3D世界理解和生成模型需要大量的数据和计算资源,同时还需要解决实时交互的技术难题。在市场竞争方面,英伟达、meta等多家公司也在积极布局物理AI与3D世界的相关技术,使得市场竞争异常激烈。