微软近日在游戏领域迈出了重要一步,宣布推出名为Muse的新一代生成式AI模型,这一创新成果已在Nature杂志上发表。Muse的核心在于其“世界与人类行为模型”(WHAM),该模型通过深度学习《Bleeding Edge》游戏七年来的玩家数据,形成了对3D空间中物体、角色及环境交互方式的深刻理解。
为了构建这一模型,微软团队处理了约50万场匿名化的游戏对局录像,总计27.89TB的数据量,相当于七年持续游戏时间的总和。这些数据被精简为每秒10帧,最终产生了约14亿帧的训练样本。团队还准备了一个包含“Skygarden”地图上一年游戏数据(3.1亿帧)的小型数据集,用于快速实验验证。
Muse的技术架构基于主流的Transformer模型,拥有16亿参数,能够处理每秒10帧的游戏画面及控制器输入序列。在数据编码上,模型采用VQGAN技术,将每帧300×180分辨率的游戏画面压缩为540个离散标记,词表大小达16,384个。对于Xbox手柄的输入,模型则将左右摇杆的x、y坐标离散化为11个区间,并处理按键的离散状态。
WHAM的训练采用了两阶段策略,首先是VQGAN编码器/解码器的训练,以确保压缩后的图像质量,并通过GAN损失提升生成效果。第二阶段则是Transformer的因果预测训练,使用交叉熵损失预测下一个标记。训练过程中,最大规模的模型使用了AdamW优化器,学习率从0.0008按余弦退火至0.00008。
Muse模型在一致性、多样性和持久性方面表现出色。一致性通过比较生成的10秒视频序列与真实游戏录像的Fréchet视频距离来评估,结果显示模型能生成长达2分钟的连贯序列。多样性则采用Wasserstein距离,比较生成的控制器操作序列与真实玩家行为的分布差异,模型展现出行为多样性和视觉多样性。持久性测试显示,当输入5帧或以上的编辑画面时,模型能在后续生成的画面中保持85%以上的编辑内容。
微软表示,Muse的应用场景广泛,包括游戏原型开发、经典游戏的现代化改造、游戏资产生成及NPC行为模拟等。然而,尽管微软对Muse的前景充满信心,并访谈了全球27位游戏创作者以确保研究方向符合行业需求,但开发者群体对此反应强烈,甚至引发争议。
资深游戏开发者David Goldfarb在社交媒体上直言不讳地批评Muse,认为生成式AI对游戏行业无益,反而可能贬低和剥夺游戏开发者和艺术家的美学积累。他担忧我们正失去工艺,依赖这些技术实际上是在赋权给那些不关心技术如何重塑我们生活的人。
一位匿名AAA游戏工作室开发者指出,Xbox在人才流失的同时却在生成式AI上投入巨资,无视市场对此技术的冷淡态度。该开发者还担忧,在游戏行业动荡的背景下,所有人都害怕因反对AI而失去工作,因此内部讨论变得沉默。
据WIRED此前的调查报道,游戏行业正经历大规模裁员,同时AI正逐步取代人工开发者的工作。仅2023年至今,游戏行业已裁员数千人,这一趋势在2025年仍在持续。例如,Unity引擎开发商最近宣布了新一轮裁员计划。
尽管业内对AI在游戏开发中的应用并非完全否定,但普遍认为AI在原型设计阶段可能提供帮助。然而,开发者强调,原型设计既重视过程也重视结果,亲历这一过程才能获得所有学习,快速原型设计是一项无法简单绕过的宝贵技能。
微软游戏AI部门副总裁Fatima Kardar在公告中表示,希望通过合作和负责任的方式引导生成式AI支持游戏行业和创作社区。然而,从开发者们的反应来看,微软要说服他们接受这项技术,显然还有很长的路要走。