谷歌旗下的人工智能研究先锋DeepMind,于美国周三正式揭晓了其最新研发成果——Genie 2模型。这款模型是对年初推出的Genie的全面升级,标志着虚拟世界生成技术的一次飞跃。
Genie 2被定位为一种基础性的世界生成模型,它拥有将单一图片转化为无限多样、可操控及可探索3D环境的能力,专为训练和评估具身智能体而设计。这一特性让Genie 2在人工智能领域独树一帜。
据DeepMind介绍,Genie 2能生成“异彩纷呈的3D世界”,用户在这些世界中可以随心所欲地跳跃、游泳,享受与环境的真实互动。通过视频训练,模型能够精确模拟物体的交互、动画效果、照明、物理现象、反射效果以及非玩家角色的行为,为用户带来沉浸式的体验。
DeepMind发布的一段演示视频,直观展示了Genie 2的神奇之处。视频中,系统首先利用Imagen 3根据文字描述生成一张初始图片,随后Genie 2基于这张图片构建出一个完整的互动世界。用户通过键盘和鼠标在这个世界里自由探索,而Genie 2则实时渲染出用户所见的每一帧画面,流畅且自然。
Genie 2还具备从不同视角生成连贯世界的能力,无论是第一人称视角还是等距视角,都能呈现出一致且连贯的虚拟世界。这些生成的世界可持续时间最长可达一分钟,尽管大多数情况下维持在10到20秒之间,但这已足够展现出其强大的生成能力和应用潜力。
DeepMind在人工智能领域的深耕细作,不仅体现在Genie 2的研发上,还体现在其对人才的重视上。今年10月,DeepMind成功聘请了OpenAI前视频生成项目负责人Tim Brooks,同时两年前还从meta挖来了以开放式实验闻名的Tim Rocktäschel。这些重量级人才的加入,无疑为DeepMind的未来发展注入了新的活力。
随着谷歌对世界模型研究的持续投入,我们有理由相信,未来会有更多像Genie 2这样的创新成果涌现,为人工智能领域带来更多的惊喜和突破。