ITBear旗下自媒体矩阵:

DeepMind Genie2:重塑3D交互环境,开启AI新世界大门

   时间:2025-04-30 09:41:28 来源:ITBEAR编辑:快讯团队 发表评论无障碍通道

在科技界引发广泛关注的最新消息中,谷歌旗下的DeepMind人工智能研究实验室通过CBS知名栏目《60分钟》向公众展示了其最新研发的AI模型——Genie2。这一突破性技术能够将单一的图像或简单文本描述转化为高度精细的3D交互式环境,为机器人训练、虚拟世界的构建乃至通用人工智能(AGI)的发展开辟了全新的道路。

据深入了解,Genie2的核心优势在于其端到端的3D环境生成能力。用户只需提供一张静态图片,比如瀑布的风景照,或者输入一段文字描述,如“雪地中的战士”,Genie2就能自动生成一个可自由探索的3D交互环境,且无需人工参与设计。这一特性使得Genie2在技术的创新性上得到了广泛认可,并在社交平台上引发了热烈讨论。

更为引人注目的是,Genie2所生成的3D环境不仅高度逼真,还支持物理模拟,如重力、水流和烟雾效果,以及动态光影和角色动画。用户或AI代理可以通过键盘和鼠标在环境中进行跳跃、游泳等互动操作,体验极为真实。Genie2还具备环境一致性功能,能够记住未显示的场景部分,如转角后的地形,生成时长可达10至60秒,多数示例在10至20秒之间。

在技术上,Genie2基于DeepMind的Gemini架构和大规模视频数据集,结合了先进的生成技术。其核心技术包括时空视频分词器、自回归动态模型、潜在动作模型等。这些技术共同作用于Genie2,使其能够逐帧生成视频,根据用户操作和先前帧预测后续场景,确保环境的连贯性。同时,通过无监督学习从视频中提取可控动作,支持交互性,并利用未标注的互联网视频数据集训练模型理解物理、材质和光影,生成多样化的3D世界。

在应用方面,Genie2的多样化功能使其在多个领域展现出广阔的应用前景。在游戏开发领域,Genie2能够快速将概念艺术或草图转化为可玩3D环境,大大缩短了原型设计时间,对独立开发者和AAA游戏工作室来说无疑是一个巨大的福音。在虚拟现实与数字艺术领域,Genie2能够生成沉浸式的VR场景或交互式艺术作品,提升用户体验;在机器人训练方面,Genie2为AI代理提供多样化的3D训练环境,模拟现实场景,如工厂和城市,加速机器人导航和操作能力的开发。

目前,Genie2主要定位为研究与原型工具,尚未向公众开放。但开发者可以通过DeepMind或Hugging Face的测试通道申请访问权限。在申请成功后,开发者需要准备输入数据,如高分辨率照片,以优化生成质量,并配置高性能的运行环境,如A100GPU或高性能集群,以支持实时生成。同时,开发者还可以使用键盘和鼠标测试交互功能,或集成DeepMind的SIMA代理执行任务。

自Genie2亮相《60分钟》以来,社区对其3D交互生成与机器人训练潜力给予了高度评价。许多开发者认为,Genie2将静态图像转化为动态世界的过程令人叹为观止,具有在游戏和VR领域的颠覆性潜力。然而,也有部分用户指出,Genie2的生成时长和图像质量衰减问题限制了其商业化应用,并期待DeepMind能够延长一致性时间和优化渲染效率。

DeepMind对此表示,将持续优化Genie2的一致性和渲染效率,并考虑未来与Gemini Robotics整合,以增强机器人交互。同时,社区也在探讨将Genie2与其他AI技术整合,构建从环境生成到任务自动化的闭环生态。随着技术的不断进步,Genie2有望在未来成为3D世界平台,提供共享环境模板和API,推动AI技术的进一步发展。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version