滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

谷歌DeepMind新突破：Genie 2一键构建3D交互世界，人与AI共探虚拟新境

时间：2024-12-05 10:14:32 来源：ITBEAR编辑：瑞雪 发表评论无障碍通道

在AI竞赛日益激烈的当下，Google DeepMind再次推出了其最新的研究成果——Genie 2，一款能够生成各种可操控动作、可供玩耍的3D环境的大型基础世界模型。这一消息的发布，恰好赶在了OpenAI即将在未来12天内直播新发布和演示之前，为AI领域再添一把火。

据了解，Genie 2只需一张提示图像，就能根据用户输入的文本提示，生成对应的交互式虚拟世界。无论是人类还是AI代理，都可以使用键盘和鼠标在由AI生成的3D游戏世界中自由探索和互动。这种前所未有的交互体验，无疑为AI领域的研究和应用带来了全新的可能性。

Genie 2的核心是一个自回归潜在扩散模型，它在大型视频数据集上进行训练。通过自动编码器处理后，视频中的潜在帧被传递到大型Transformer动力学模型中。该模型采用与大语言模型类似的因果掩码进行训练，使得在推理时，Genie 2能够以自回归方式采样，逐帧获取单个动作和过去的潜在帧。为了提高动作的可控性，Google DeepMind还使用了CFG（无分类器指导）技术。

在Genie 2的博客文章中，展示了大量由未蒸馏的基础模型生成的视频示例，这些示例充分展示了Genie 2在行动控制、生成反设事实、长视界记忆、长视频生成、多样环境、3D结构、物体交互、复杂角色动画、NPC（非玩家角色）、物理、烟雾、光影以及快速原型设计等方面的卓越效果与优势。尽管蒸馏版本支持实时交互，但在运行时的视觉质量会略有降低。

Genie 2在模拟真实世界环境方面展现出了超强的空间记忆能力。它能够记住视野中不再存在的世界部分，并在它们再次可见时准确呈现。Genie 2还能够从同一起始帧生成不同的轨迹，为训练AI代理提供了模拟不同事实体验的可能性。

在与Genie 2互动的过程中，用户可以体验到智能响应键盘按键操作、生成反设事实、长视界记忆以及使用新生成的内容生成长视频等多种功能。例如，用户可以通过键盘和鼠标控制一个可爱的机器人，在由Genie 2生成的3D世界中自由移动和互动。Genie 2还能够模拟各种物体的相互作用，如爆破气球、打开门和射击炸药桶等。

除了以上功能外，Genie 2还能够模拟其他AI代理，甚至与它们进行复杂的交互。同时，它还能够模拟各种物理现象，如水效果、烟雾效果、重力以及灯光等。这些功能使得Genie 2成为了一个极具潜力的训练和评估具身AI代理的平台。

Google DeepMind表示，尽管这项研究仍处于早期阶段，但Genie 2已经展现出了解决安全训练具体AI代理的结构性问题的潜力。同时，它也为实现迈向通用人工智能（AGI）所需的广度和通用性迈出了重要的一步。未来，Google DeepMind将继续在通用性和一致性方面改进Genie的世界生成能力，为构建更通用的AI系统和代理做出贡献。

举报 0 收藏 0 打赏 0评论 0

更多>同类资讯

《再见爱人4》热播背后，年轻人的“零糖”社交理想何在？

12-12

谷歌Gemini 2.0震撼登场，新智能体时代最强AI模型来了！

12-12

格创东智引领AI+智造，探索制造业高质量发展新路径

12-12

格隆汇全球投资嘉年华落幕：展望未来，投资风向何在？

12-12

苹果AI功能中文命名揭晓，图乐园、智绘表情等亮相，隐私保护成亮点

12-12

TCL全球技术创新大会盛况：全领域AI应用等创新成果引领未来

12-12

ChatGPT版本大更新！沸蛇AI语音鼠标，更适合国人的创作神器

日前,OpenAI“12天12场直播”活动已开启,首秀期间带来推理大模型o1满血版和进阶模式,以及比4.0更进步的ChatGPT Pro订阅服务。相较早期版本,OpenAI本次推出的新品拥有类似人类思维方式的内部思维逻辑链条,从而显著提高在回答专业问题时的准确性。显然,AI时代早已经到来,

12-12

谷歌Gemini 2.0模型震撼发布，AI Agent时代来临，Trillium TPU芯片大放异彩

作为研究原型，ProjectMariner‌能够理解和推理浏览器屏幕上的信息，包括像素和文本、编程、图像和表单等网络元素，然后通过实验性的谷歌扩展程序使用这些信息完成任务。未来，谷歌还在试验可以通过将G…

12-12

ChatGPT全球宕机，iOS18.2 Siri集成功能也“躺枪”了？

12-12

王小川宁波新设科技公司，注册资本高达7000万美元，聚焦人工智能领域

12-12

揭秘幕后智囊：助力泡泡玛特与王老吉崛起的神秘咨询公司

12-12

ChatGPT全球宕机，苹果iOS 18.2 Siri新功能也遭殃！

12-12

Synopsys率先发布Ultra Ethernet与UALink IP，助力AI与HPC发展

12-12

谷歌新推“深度研究”AI，Gemini助力一键生成专业调研报告

12-12

ChatGPT全球宕机，苹果iOS 18.2 Siri集成功能也受影响！

OpenAI已证实其人工智能聊天机器人ChatGPT目前正经历全球范围的宕机，导致用户无法使用。这一问题也影响了iOS18.2与Siri的集成功能。据OpenAI称，该公司已查明宕机原因，并正在积极进行修…

12-12

点击查看更多 +

全站最新

微信“最近转发”大升级，效率翻倍还防尴尬！

教育软件正版化加速推进，2027年或将迎来全新“正版时代”

方程豹豹5激光雷达版来袭，华为乾崑智驾ADS 3.0加持性能再升级？

中国电视品牌席卷日本市场，本土品牌仅占不到两成

苹果Apple Watch大升级，联发科入局供应芯片！

AlmaLinux 10.0 Beta版“紫狮”来袭，新增后量子密码学支持

热门内容

本栏最新

《再见爱人4》热播背后，年轻人的“零糖”社交理想何在？

谷歌Gemini 2.0震撼登场，新智能体时代最强AI模型来了！

格创东智引领AI+智造，探索制造业高质量发展新路径

格隆汇全球投资嘉年华落幕：展望未来，投资风向何在？

苹果AI功能中文命名揭晓，图乐园、智绘表情等亮相，隐私保护成亮点

TCL全球技术创新大会盛况：全领域AI应用等创新成果引领未来

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区 · 齐鲁软件园鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.