微软在学术领域投下了一枚震撼弹,其最新研发的世界与人类行动模型(WHAM)Muse成功登上了权威学术期刊Nature。这款视频游戏生成模型不仅在技术上取得了突破,更为游戏行业带来了前所未有的变革。
Muse的核心优势在于其庞大的参数量,最高可达16亿。这一模型基于近7年的人类游戏数据进行训练,能够深入理解游戏中的物理规则和3D环境。在此基础上,Muse能够生成与玩家动作相匹配的视觉效果,为玩家带来沉浸式的游戏体验。
尽管Muse仍处于研究早期,其生成的游戏视觉效果目前仅限于300×180像素的分辨率,但其表现已足够令人瞩目。根据论文中的描述,Muse生成的游戏视频在一致性、多样性和持久性方面均表现出色。具体而言,其生成的两分钟视频效果与人类真实游戏效果极为接近,同时提供了不同摄像机角度、角色和游戏工具的多样性效果。更令人惊叹的是,Muse还支持开发者添加新元素,这些新元素能够自动且合理地融入游戏画面中。
Muse的研发团队汇集了微软研究员游戏智能团队、可教的AI体验(Tai X,Teachable AI Experiences)团队以及Xbox Games Studios旗下的电子游戏制作公司Ninja Theory。这一跨学科的合作不仅推动了技术的创新,更为Muse的实用化奠定了坚实的基础。
微软方面表示,他们正在开源Muse的权重和样本数据,并提供一个可视化的交互界面WHAM Demonstrator供开发者体验。开发者可以在Azure AI Foundry上学习试验权重、示例数据和该交互界面。这一举措无疑将加速Muse技术的普及和应用。
Xbox也在考虑基于Muse为用户构建简短的交互式AI游戏体验,并计划在Copilot Labs上进行试用。这将为玩家带来全新的游戏体验,进一步拓展游戏的可能性。
在Muse的训练过程中,研究人员使用了Xbox游戏Bleeding Edge的7张游戏地图数据,这些数据涵盖了约50万个匿名游戏会话,总数据量高达27.89TiB。通过这些数据,Muse学会了如何根据玩家的控制器动作生成相应的游戏视觉效果。
为了评估Muse的能力,研究人员进行了多学科协作的评估。他们确定了模型在一致性、多样性和持久性方面的重要性,并通过实验验证了Muse在这些方面的卓越表现。例如,在一致性方面,Muse能够生成长达两分钟的一致游戏序列;在多样性方面,它能够根据相同的初始条件生成多种不同的游戏效果;在持久性方面,它能够在修改游戏序列时保留新引入的元素。
Muse的成功不仅在于其技术的先进性,更在于其对游戏行业的深远影响。这一模型为游戏开发者提供了全新的创作工具,使他们能够以更高效、更灵活的方式制作游戏。同时,Muse也为玩家带来了更加丰富、多样的游戏体验。
随着技术的不断进步和应用场景的拓展,Muse有望在未来成为游戏行业的重要基石。它将开启重塑游戏体验的新大门,为玩家带来前所未有的沉浸式享受。