【ITBEAR科技资讯】5月25日消息,巴塞罗那超级计算中心(BSC)和加泰罗尼亚理工大学(UPC)的研究人员最近取得了重大突破,成功开发出一项全新工具,可将手语翻译成文本,为听觉障碍者提供更多包容性和可及性。通过运用人工智能技术,包括自我注意机制和更高的处理速度,该工具能够更准确地识别手语者的姿势并生成准确的文字转写。
据ITBEAR科技资讯了解,该工具基于名为How2Sign的数据集进行开发,这是一个开放的、多模态和多视角的大规模数据集,包含80小时的美国手语教学视频及其对应的英语文字记录。BSC和UPC发布了这一数据集,用于训练模型将手语转化为文本。研究人员采用了膨胀式三维网络(I3D)对数据进行预处理,该网络能够从视频中直接提取时空信息,进行三维过滤。此外,他们还采用了一种类似于ChatGPT的转换器式机器学习模型。
研究人员发现,他们的模型能够生成有意义的翻译结果,但仍有改进的空间。尽管该工具目前仍处于实验阶段,研究人员表示他们将继续努力,力求开发出与无听力损失者使用的技术相媲美的工具。
Laia Tarrés,这项研究的主要作者表示:“我们开发的这一新工具是我们之前发布的名为How2Sign的研究成果的延伸。通过利用这一已公开的数据集,我们开发了一个新的开源软件,能够学习视频和文本之间的对应关系。”
她还指出,这个自动手语翻译的开放工具对于致力于创造无障碍环境的科学界来说是一项宝贵的贡献。该工具的发布代表着朝着为所有人创造更具包容性和无障碍性的技术迈出的重要一步。