在科幻电影《2001:太空漫游》和《流浪地球》中,人工智能形象如HAL 9000和Moss展现了高效、理性且逻辑严密的特性,引发了人类对智能机器的无尽遐想。随着大语言模型和深度学习技术的快速发展,人类对于“超级AI”的期待愈加强烈。然而,要实现Moss那样的“全能助手”,仍需跨越诸多技术障碍,其中最大的挑战之一便是如何让AI迅速理解并应对各种复杂场景,而不必依赖海量的数据。
最近,Karl Friston在arxiv上发表了一篇题为“Renormalising generative models:From pixels to planning: scale-free active inference”的论文,提出了一种创新的解决方案。通过主动推理(Active Inference)构建的尺度不变的生成模型(Renormalising Generative Model, RGM),该论文将分类、预测与规划等问题转化为推理问题,并利用最大化模型证据的统一框架,有效解决了视觉数据、时序数据分类及强化学习中的多种挑战。得益于重整化群技术的引入,该方法能够高效处理大规模数据集。
主动推理是一种基于当前观察现象预测未来的模型。它不仅仅是被动等待事件发生,而是通过主动观察推断事件的原因。以网球比赛为例,球的飞行轨迹如同一棵不断展开的“可能树”,每次击球都为这棵树增添新的分支。选手需在众多可能的路径中做出选择,这既取决于自身技术,也受制于对手策略。主动推理中的“自由能”代表了模型对所处环境“没看明白”的程度,通过观察和主动行动,选手可以降低这种不确定性,做出最佳决策。
RGM通过主动推理将分类、预测与规划等问题转化为推理问题,并通过重整化群技术在多层次、多尺度上处理数据。以图像为例,模型首先会将连续的像素值转化为离散值,然后通过分块处理和变换,逐层简化图像,直到达到更高层次。这种多层次处理不仅减轻了计算负担,还能跨时间、跨空间进行运算,提高模型效率。
在图像和视频处理方面,RGM展现了显著的效果。通过对图像进行量化、分块和奇异值分解,模型实现了图像的初步压缩。重复这种分块处理和变换,模型能够学习到图像的多层次结构,并根据不同层次之间的结构关系生成图像。以MNIST数字分类问题为例,RGM通过主动学习优化模型参数,达到了先进的分类准确性。
除了图像,RGM还可应用于视频和音频数据的处理。在视频生成方面,模型会考虑时间的变化,将时间分成不同的“尺度”,并在每个时间层次上进行转换,确保帧之间的过渡自然。在音频处理方面,模型将像素替换为频率和时间上的体素,通过连续小波变换和逆变换处理声音数据,实现声音的压缩和复现。
RGM还可应用于规划推理,帮助智能体在不确定性下进行决策。在主动推理框架下,智能体的行动基于对未来结果的后验预测,通过贝叶斯规划进行推理,减少了不确定性。以Atari类游戏为例,RGM可以从随机动作的结果序列中自动组装出能够以专家水平进行游戏的智能体。
Friston及其同事的研究表明,基于重整化群的离散状态空间模型(RGM)在多种场景下均表现出色。通过最小化预期自由能,RGM能够高效处理大规模数据集,并在图像、视频、音频及规划推理等领域展现出巨大潜力。未来,随着技术的不断发展,RGM有望在更多应用场景中发挥重要作用,推动人工智能向更高水平迈进。