【ITBEAR科技资讯】5月10日消息,meta公司发布了一项新的开源人工智能模型ImageBind。该模型可以将文本、音频、视觉数据、温度和运动读数等多种数据流整合在一起,并将其嵌入到一个多维索引空间中。该研究表明,未来的人工智能系统将能够创建沉浸式、多感官的体验,与目前针对文本输入的系统一样,交叉引用这些数据。
据ITBEAR科技资讯了解,该模型是第一个将六种类型数据整合到一个嵌入空间中的模型。这些数据包括:视觉(包括图像和视频);热力(红外图像);文本;音频;深度信息;以及由惯性测量单元(IMU)产生的运动读数。
未来的人工智能系统将能够像当前针对文本输入的系统一样,交叉引用这些数据。例如,未来的虚拟现实设备将不仅能够生成音频和视觉输入,还能够生成你所处的环境和物理站台的运动。这将让用户在体验中感受到更多的真实感和身临其境的感觉。
meta公司的这项研究显示了未来版本的系统如何能够整合其他数据流,例如生成与视频输出匹配的音频。而这种开源的做法,也将在人工智能领域受到更多的关注。虽然这项研究仍处于初步阶段,但对于人工智能领域的发展具有重要的指导意义。