1956年夏天,达特茅斯学院的一次学术会议悄然开启了人工智能(AI)的新纪元。数学教授约翰·麦卡锡在会上首次提出了“Artificial Intelligence”这一概念,原本计划为期两个月的讨论,意外地成为了一场影响深远的认知革命起点。
时至今日,阿里巴巴集团CEO吴泳铭在财报会上语气坚定,他预言,一旦通用人工智能(AGI)实现,其催生的产业规模或将登顶全球,甚至深刻影响乃至部分取代现有经济体系中近半数的产业形态。
在期待与忧虑交织的情绪中,人们逐渐接纳并拥抱AI,同时也不安地揣测着AGI的到来。然而,尽管大语言模型是当前AI热潮的焦点,但它或许只是通往AGI漫长道路上的一个探路者,距离真正的AGI还有很长的路要走。
AGI的概念最初由北卡罗莱纳大学的物理学家Mark Gubrud在1997年提出,他将其定义为一种能够与人类大脑在复杂性和速度上相媲美或超越的AI系统,具备获取一般性知识并进行操作和推理的能力,能够在各种工业或军事活动中发挥人类智力的作用。
长久以来,AGI被视为AI领域的“圣杯”,意味着机器能够像人类一样在多种任务中自主学习、推理并适应复杂环境。尽管近年来AI技术取得了显著进展,从GPT-4的对话能力到Sora的视频生成,但AGI的实现仍面临诸多挑战。
AI的核心在于将现实世界的现象转化为数学模型,通过语言让机器理解现实世界和数据的关系。而AGI则要求AI不再局限于单一任务,而是具备跨领域学习和迁移能力,具有更强的通用性。然而,当前的AI系统虽然在特定任务上超越人类,但本质上仍是“高级模仿”,缺乏对物理世界的感知和自主决策能力。
例如,大模型在处理任务方面的能力有限,它们只能处理文本领域的任务,无法与物理和社会环境进行互动。这意味着像ChatGPT这样的模型并不能真正“理解”语言的含义,因为它们没有身体来体验物理空间。大模型也不是自主的,它们需要人类来定义每一个任务,就像鹦鹉只能模仿被训练过的话语一样。真正的自主智能应该能够自主完成比现有AI更智能的任务,而当前的AI系统还不具备这种潜能。
尽管如此,科技巨头们仍然对大模型寄予厚望。OpenAI和谷歌等公司将大模型视为迈向AGI的关键一步。OpenAI CEO萨姆·奥特曼甚至认为GPT模型是朝着AGI方向发展的重要突破。
根据OpenAI提出的AGI五级标准,当前AI技术正从L2“推理者”阶段向L3“智能体”阶段跃迁。2025年被认为是Agent(智能体)应用爆发之年,ChatGPT、DeepSeek、Sora等应用已经开始进入普及阶段,融入人们的工作生活。
然而,通往AGI的道路并不平坦。大模型偶尔出现的“幻觉输出”暴露出当前系统对因果关系的理解局限;自动驾驶汽车在面对极端场景时的决策困境也折射出现实世界的复杂性与伦理悖论。
要让机器真正理解苹果落地背后的万有引力,不仅需要数据关联,更需要建立物理世界的心智模型。这种根本性的认知鸿沟可能比想象中更难跨越。因此,多模态模型被视为实现AGI的关键路径之一。
多模态模型的演进将经历单模态、多模态、世界模型三个阶段。当前阶段是多模融合阶段,如GPT-4V可以理解输入的文字与图像,Sora可以根据输入的文字、图像与视频生成视频。然而,现阶段的多模态融合还不彻底,“理解”与“生成”两个任务是分开进行的。
多模态模型能够处理和理解不同模态数据的机器学习模型,如图像、文本、音频和视频。通过学习和融合多种模态的数据,模型能够建立更加泛化的特征表示,从而在面对未见过的、复杂的数据时表现出更好的适应性和泛化能力。
不同模态的数据往往包含互补的信息,多模态学习能够有效地融合这些互补信息,提高模型的准确性和鲁棒性。例如,在图像标注任务中,文本信息可以帮助模型更好地理解图像内容;在语音识别中,视频信息有助于模型捕捉说话者的唇动,从而提高识别准确率。
然而,多模态模型的发展也面临诸多挑战。首先,多模态学习需要收集和处理来自不同源的数据,这些数据可能具有不同的分辨率、格式和质量,需要复杂的预处理步骤。其次,设计能够有效处理和融合多种模态数据的深度学习模型比单模态模型更加复杂。最后,在多模态学习中,不同模态之间可能存在显著的不一致性和不平衡性,需要处理这种不一致和不平衡,确保模型能够公平、有效地利用各模态的信息。
为了克服这些挑战,研究人员正在探索原生多模态技术路线。通过在训练阶段就对齐视觉、音频、3D等模态的数据实现多模态统一,构建原生多模态大模型,成为多模态大模型进化的重要方向。
世界模型也被视为实现AGI的重要途径之一。世界模型试图通过对视频、音频等媒体的模拟与补全,让AI经历一个自主学习的过程,从而形成“常识”,并最终实现AGI。世界模型主要通过传感器直接感知外部环境信息,输入的数据形式以实时感知的外部环境为主,输出的结果更多是时间序列数据,可以直接控制机器人。
然而,世界模型的发展也面临诸多挑战,如模拟环境动态及因果关系的能力、进行反事实推理的能力以及物理规则的模拟能力等。为了克服这些挑战,研究人员需要在模拟物理规律时考虑更精确的物理引擎与计算模型,确保生成的场景能够更好地遵循真实世界中的物理定律。
尽管AGI的实现还有很长的路要走,但人们已经在探索的道路上取得了显著的进展。随着技术的不断发展,我们有理由相信,未来的某一天,AGI将不再是遥不可及的梦想,而是成为改变世界的现实力量。