据国外科技媒体VentureBeat报道,微软研究人员最近利用人工智能让计算机“学会”了看图说话——为多张图片配上注解。
这一技术具有重大意义,因为计算机不是仅仅辨认出图片——甚至视频——中的物体就能将图片串成一个故事的。
为了让人工智能学会讲故事,微软员工先给每一张图片和按一定顺序排列的组图写了注解,工程师然后使用这些信息教会机器按图片顺序讲出完整的故事。
微软研究人员使用递归神经网络来训练人工智能看图说话的能力。微软研究人员使用了一种机器翻译常常使用的方法——序列到序列学习。
这项技术有着巨大的应用前景,比如帮助视障患者辨认周围的物体。实际上,研究人员已经跟微软盲人软件开发者Saqib Shaikh合作研究这方面的应用了。
当然,视力正常的人也可以从这项技术获益,比如通过看图讲故事帮助人们学习外语,激发小孩的创造性思维。
智能拍照手机越来越普及,人们通常一次性拍下多张照片,让机器看懂多张照片之间的关系变得非常重要,而微软正在往这个方向努力——尽管尚未完全成功。