近日,大规模视频分类比赛ACM MM LSVC公布了本年度最佳成绩,阿里巴巴iDST团队凭借平均准确率87.41%夺得冠军。
ACM MM是全球顶级的机器视觉会议,LSVC作为ACM MM的重要一部分,全称为Large-Scale Video Classification Challenge,主要考验参赛队伍在大规模视频分类算法方面的能力。
比赛数据集包含了来自Youtube的大约16万的视频,一共8000个小时。需要参赛队伍对视频中的500类内容做出识别,包含社会事件(如:橄榄球比赛)、物体(如:熊猫)、场景(如海滩)、动作(如:制作蛋糕)。
视频分类算法涉及到非常多的技术,包括视频帧特征提取(frame feature extraction)、视频帧特征集成(frame feature aggregation)、多模态的视频信息提取(视频画面、语音、物体运动、场景等模态)等方面。
iDST官网上的“视频标签预测”DEMO
阿里巴巴iDST团队采用了inception-resnet-v2 和 Squeeze-and-Excitation Networks 对视频帧特征进行提取,并且采用NetVLAD对提取到的视频帧特征进行集成。结合多模态信息的融合之后,单模型在验证集上的平均准确率达到了84.85%,融合多模型达到87.41%。
此外,大规模的视频处理能力也是比赛考验的重要方面。阿里巴巴iDST拥有一个强大的视频分析平台,可处理来自优酷土豆的百万量级的视频。这为高效地对LSVC数据集提取特征进行实验提供了帮助。
iDST官网上的“目标检测”DEMO
据阿里巴巴iDST视频算法高级专家刘扬介绍,这些视频分析算法目前已应用在包括优酷、土豆、UC、闲鱼等在内的多个业务中,有效改善了用户在视频搜索、推荐、编辑等方面的体验。“我们正在将这样的能力集成到阿里云ET上对外服务”。
作为阿里巴巴对外技术输出的窗口,阿里云目前提供了从计算能力、开发框架、基础AI能力到行业全局智能在内的整套服务。
iDST全称Institute of Data Science & Technologies,是阿里巴巴内部的尖端研究机构,专注于AI领域的前沿性研究。由金榕、任小枫、华先胜、司罗等知名科学家领导。在ACM MM中,阿里巴巴亦有三篇论文入选。