近日,科大讯飞凭借在道路目标检测领域多年的技术探索,刷新了Cityscapes 3D目标检测任务的全球最好成绩,得到检测分数(DS)42.9,取得了该项评测的第一名。这也是,科大讯飞继2017年、2018年参与测评之后,再一次刷新Cityscapes的世界纪录。
此次评测,科大讯飞借鉴了已在城市交通出行场景下应用的Anchor-Free车辆检测技术,将2D目标检测技术升级至3D,并结合3D到2D重投影的特殊先验信息进行算法迁移,通过结合语义、上下文信息、位置先验信息以及目标形状先验信息等,提取精确的3D目标检测框,构建形成一套具有丰富上下文信息的多层次单目3D目标检测方案
什么是Cityscapes和3D目标检测任务?
我们知道,在深度学习图像语意分割的训练过程中,需要有数据集及分好类的标签,这样才可以让你的神经网络进行学习,进而训练出模型。Cityscapes便是包含城市大量街道图片、视频用来训练识别的数据集,由戴姆勒(DAIMLER)等在内的三家德国单位联合提供,吸引了华为、阿里、微软、北大、中科院、MIT等上百个国内外著名AI实验室和顶尖学术研究机构积极参与,是CVPR、ECCV等国际顶级会议中实例分割任务常用的权威测试数据集。
2020年,在CVPR workshop上,Cityscapes公开了新的单目图像3D目标检测评测集,包含car, truck, bus, train, bicycle, motorcycle共6种类别目标。每种目标需要检测出其在空间中的三维坐标位置,目标的长、宽、高以及目标在空间中的旋转姿态。基于视觉的3D目标检测,是图像处理和计算机视觉领域的重要研究方向之一。
基于视觉的3D目标检测有什么重要意义?
基于科大讯飞在AI+3D视觉技术的结合探索之下,未来3D目标检测将能在城市治理、工业智能、机器智能、智能驾驶等多方面发挥广泛的作用。
【提供参考】
通过三维目标检测技术,可以感知目标的三维尺寸信息、空间位置。
【精准判断】
通过空间位置感知,可以更精准地判断目标和参照物之间的位置关系。
比如在城市交通管理场景中,当前交通违法判定主要还是依靠固定摄像头抓拍、二维图像判定的方式,往往存在视觉盲区。若将3D目标检测技术接入公安交警现有的交通视频智能分析平台,与AI巡检相结合,可以进一步精确判定车辆车型,基于空间位置感知和连续轨迹跟踪,计算出车辆的行驶速度、空间轨迹等,为越斑马线停车、超速抓拍、拥堵感知等违法异常事件判断提供更实时、更精准的决策依据。这不仅能够达到对已有设备资源的最大化利用,实现降本提效,还能够提升城市数字化治理能力,助力文明出行、平安出行。
如下图所示,右侧黑色车辆2D检测外边框和右侧交通线相交,此时通过二维平面相交关系判断,会认定车辆压线行驶。但从三维的检测结果分析,能够判断出车体并没有越过交通线。
AI赋能,建设美好世界
如何让机器变得更加“聪明”,具备足够的学习能力,并更精准地贴合现实使用需求,是所有人工智能研发团队所需解决的最大难题。科大讯飞直面检测精细度更高、场景更为复杂、挑战难度更大的3D目标检测任务,并一举刷新了世界纪录,意味着科大讯飞已经具备了强大的AI技术硬核实力。
多年来,科大讯飞在人工智能领域百花齐放,在基于深度学习的通用核心技术上厚积薄发。不仅在智能语音、机器翻译等大众熟悉的领域上在多项国际权威赛事上取得第一,实际上,科大讯飞在教育图文、人脸识别等计算机视觉领域也深耕多年,拥有丰富的经验和国际领先的技术,并已运用在教育、医疗、金融等多个行业,取得耀眼成绩,获得良好口碑。
未来,科大讯飞将继续坚持源头技术创新路线,秉持“顶天立地”的理念,加快开放应用场景,促进AI技术和各种应用场景相结合,加速人工智能技术落地,建设美好世界。(通讯员:科大讯飞集团 李倩)