滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

百度大脑CVPR 10项竞赛全面夺冠涉及视频理解、目标检测等多领域

时间：2019-06-26 17:17:53 来源：互联网编辑：星辉 发表评论无障碍通道

计算机视觉界的“奥斯卡”，一年一度的CVPR刚刚落下帷幕，百度大脑以CVPR 中10项竞赛的夺冠向世界彰显了其不容小觑的技术实力，令人振奋。6月16-20日，计算机视觉及模式识别领域顶级国际学术会议CVPR在美国加州长滩举行，超过9200位相关人士共赴盛会。本届会议收到了5160篇提交论文，其中1294论文最终被接收发表，其中百度共有17篇论文被收录。

百度相关视觉团队赴美参会，共举办两项Workshop、一项Tutorial讲座，并接连获得10项CVPR竞赛任务的冠军，全面涵盖视觉领域下的视频理解与分析、目标检测、图像超分辨、智能城市车辆识别、人脸&人体检测等众多热门子领域。其中，百度研究院团队获4项冠军、百度视觉团队获6项冠军，此前被CVPR大会收录的论文也大多出自这两个团队。

$D:\Download\KKKKK_死你你你\MergedMsg\image\2F\2F677E1EC91EBA1398429E23E6D71B11.jpg$

视频理解&分析领域

ActivityNet是目前视频理解领域影响力最大的赛事，与每年的顶级学术会议CVPR一起召开。在本次竞赛中，百度更是获得视频动作提名、视频动作检测两项任务的冠军，并在新增任务EPIC-Kitchens动作识别挑战赛中获两项测试集冠军(Seen kitchens和Unseen kitchens)。这已是百度视觉团队连续三年在ActivityNet相关赛事中斩获冠军。

视频理解是计算机视觉和模式识别领域的基础问题之一，其中视频动作提名和视频动作检测在安防、视频摘要等场景下具有重要的应用价值。在视频动作提名、视频动作检测两项任务中，百度分别针对动作分类、动作边界不准确等问题提出C-TCN、BMN等模型，在THUMOS和ActivityNet两个公开数据集的指标均达到世界领先，相关的代码将于6月底采用飞桨(PaddlePaddle)开源。

今年的新增任务EPIC-Kitchens动作识别挑战赛聚焦第一人称视频理解，对可穿戴设备、智能家居、人机交互等方面的应用起着关键作用，也是目前学术界、工业界关注的焦点。竞赛吸引了Facebook AI、牛津大学、INRIA(法国国家信息与自动化研究所)等66支队伍参与，百度在该任务中的Seen kitchens和Unseen kitchens 两项测试集上以很大优势获得第一，并受邀在CVPR 2019 EPIC和ActivityNet Workshop上作出报告。

$C:\Users\XINYAN~1.HUA\AppData\Local\Temp\WeChat Files\4fdfe7a34574a0a070bad178c35978e.jpg$

针对第一人称视频小物体多，模糊遮挡严重等难点，百度使用2D检测框架和3D卷积网络结合的方法进行视频特征提取。不仅如此，百度还提出了门控特征融合模块，通过增强视频片段特征与上下文物体特征之间的非线性交互，使得输出表征具有更好的分辨能力。

人体检测领域

在人体检测领域，百度更是“开挂”一般，拿下“三连冠”。在“Look Into Person”国际竞赛(以下简称LIP)三项人体精细化解析竞赛单元(Track1：Single-Person Human Parsing，Track3：Mult-Person Human Parsing，Track4：Video Multi-Person Parsing)中，百度均获第一名。LIP国际竞赛专注于人体的精细语义理解任务，包括单人的人体解析任务、单人的人体姿态估计任务、多人的人体解析任务、视频多人人体解析任务。此次比赛的主题为复杂场景中人体的视觉理解，是计算机视觉领域的基本问题之一，对视频监控、人机交互、自动驾驶、虚拟现实等场景具有重要意义。

(获奖证书)

比赛中，单人人体解析竞赛单元的任务是输出单人图片语义分割信息(如上肢和下肢等)。针对人体关键目标区域较小、难以检测的问题，百度对以往基于多尺度全卷积神经网络的模型(例如Pyramid Scene Parsing Network, DeepLab v3+等)进行改进，使每个卷积核能对图片的细节进行感知，同时输出精度更高的feature map。此外，百度还进行了图片增强、数据扩张，在训练中动态调整输入图片尺度，使用mIOU loss损失函数等，使得模型能够更精确地捕捉肢体的细节、以及被遮盖的部分。最终根据各个不同模型的效果进行融合，百度取得65.18%的mIoU，获得了单人人体解析的冠军，超过上届冠军7.2个百分点。

(单人人体解析结果展示)

多人人体解析和视频人体解析方面，解决的是对图片中以及视频中的多人语义信息分割问题。该竞赛数据集与单人人体解析任务相比，更关注多人遮挡等难题，进一步增加比赛难度。在比赛中，百度针对多人遮挡严重、姿态和视角多样性等特点，优化改进了结合多人检测和单人人体解析的top-down框架，通过最终改进的模型在多人人体解析和视频多人人体解析竞赛单元中均取得第一的成绩，成绩大幅领先第二名。

人脸活体检测领域

人脸活体检测是视觉人脸识别领域的一个经典问题。近年来随着人脸技术的不断落地，活体检测在人脸解锁、人脸支付、远程身份核验等应用上发挥着越来越重要的作用。在CVPR人脸活体检测比赛上，百度作为invited participant在300多个队伍中获得第一的好成绩(Acer即平均错误率最低)。CVPR-19-Face Anti-spoofing Attack Detection Challenge是CVPR会议历史上首次举办人脸活体检测比赛，发布了目前世界上最大的跨模态人脸活体检测数据集CASIA-SURF，包含1000人次的21000段三模态(RGB、IR、Depth)人脸视频。比赛任务兼顾学术和实用价值，十分富有挑战。

作为该项比赛的冠军，百度在活体检测方向已积累百万级的攻击图像数据，持续研发迭代了多模态(Depth、IR、RGB)、双端(云端、嵌入式)的活体检测模型。这些模型对内支持多项核心业务，对外服务众多标杆客户，满足不同的场景应用需求。

目标检测领域

目标检测是计算机视觉和模式识别领域的基础问题之一，百度在该领域获得"Objects365 物体检测"国际竞赛Full Track冠军，而Full Track主要用于探索目标检测系统的性能上限。Objects365作为一个全新的数据集，旨在促进对自然场景不同对象的检测研究。

Objects365在638K张图像上标注了365个对象类，训练集中共有超过1000万个边界框。因此，这些标注涵盖了发生在各种场景类别中的常见对象。参赛者可以使用发布的60万张图片组成的训练集训练一个目标检测模型，对图片中的存在于Objects365定义的365个类中的目标输出包围框，类别和分数。在3万张图片组成的验证集上做算法性能验证，最终在由10万张图片组成的测试集中完成挑战。据悉，百度采用了基于飞桨研发的检测训练框架，训练框架及模型即将开源。

同时，百度在NTIRE竞赛中的图像超分辨项目也强势夺冠。这是百度首次参加NTIRE(计算机视觉low-level vision领域中影响力最大的竞赛)，便在400余支参赛队伍脱颖而出。本次比赛采用了全新拍摄的真实数据集(RealSR)，百度视觉团队在PSNR和SSIM两项指标上均名列第一，同时提出极具创新性的CDSR超分模型，通过级联的方法逐步将图像从模糊变清晰。相关技术采用飞桨部署于百度App，已经应用于Feed图片查看的功能。

$C:\Users\XINYAN~1.HUA\AppData\Local\Temp\WeChat Files\6a0ef4aad8155228402b1a9b5b09521.jpg$

智能城市车辆识别领域

本届AI-city公开赛包含城市范围多摄像头车辆跟踪、城市范围多摄像头车辆重识别和交通异常检测三个子任务。百度在城市范围多摄像头车辆重识别任务中获得冠军，得益于飞桨(PaddlePaddle)框架助力，并凭借在车辆垂类领域检测、跟踪、属性分析、关键点定位等技术能力的长期积累，实现mAP Score指标达到0.855，超越第二名6.4个点。

城市范围多摄像头车辆重识别是智能车辆分析能力的核心基础技术之一。智能车辆分析能力为百度在智能城市领域积极探索提供强有力的支持，尤其是在城市安防、智能交通等重要的AI2B场景下都离不开对车辆结构化分析的需求。目前，百度已经开放车辆检测、车辆属性/车型识别、车流统计和智能定损等多项相关服务。未来，百度将继续推进车辆垂类技术能力的建设及智能车辆分析技术迭代，为不同领域赋能。

百度在今年的CVPR上满载而归，显示出百度大脑在视觉领域各个方向的长期积累、全面发力，更是百度大脑技术实力全球领先的强大佐证。不仅如此，作为百度AI技术的集大成者，百度大脑还在对外不断开放这些顶尖AI技术，目前已对外开放视觉、语音、自然语言处理等170多项领先的AI能力，为广大开发者提供AI技术研发支持，赋能各行业。

福利放送时刻：飞桨亿元免费算力支持计划进行中，扫码申请Tesla V100在线算力，让模型跑到飞起!

举报 0 收藏 0 打赏 0评论 0

更多>同类资讯

微软宣布：部分Windows版本将弃用VBS enclaves安全功能

04-18

2025人力资源管理杰出奖盛典：共探智能时代下人才战略新路径

04-18

《超级少女：明日之女》激战片段抢先看，神秘反派身份成谜！

04-18

十铨科技新推：X2 MAX高速双接口SSD与轻巧S5闪存盘亮相

04-18

中国移动5月起亲情网资费大调整，基本功能费降至5元/月！

04-18

海南大学发布脑机接口全链条技术，国产“芯”助力科研医疗新飞跃

04-18

字节跳动开源：云原生全局最优重调度框架Godel-Rescheduler

04-18

森养AF14-24mm F2.8 FE全画幅镜头即将发布，重量仅445克！

04-18

科大讯飞华为联手，“飞星一号”MoE模型集群推理性能翻倍突破极限！

04-18

三一重工2024年净利大增32%！全球化数智化低碳化战略成效显著

04-18

谷歌推出Gemini 2.5 Flash AI模型：性能卓越，成本更低廉

04-18

寡姐领衔！《侏罗纪世界4》全新特辑曝光，7月2日震撼上映

04-18

腾讯混元开源新插件：定制化角色图像生成，效果直逼GPT 4o！

04-18

台积电Q1财报亮眼：利润大涨60%，3nm制程占比高达22%

04-18

2025上海车展：马瑞利展示平台战略赋能客户多车型产品开发

平台化解决方案基于高度预开发的技术基础、预留了个性化定制空间,加速产品上市进程2025年4月18日,上海——全球汽车技术合作伙伴马瑞利将在2025上海车展上展示其基于战略平台化理念的技术方案。该理念旨在简化硬件开发流程,加快产品上市速度。在本次车展上,马瑞利将推出

04-18

点击查看更多 +

全站最新

海尔智家广交会全品类AI新品大放异彩，外商纷纷点赞绿色智慧生活

AI造游戏，路还长吗？

摩托罗拉Razr 60 Ultra来袭：7英寸大屏+骁龙8 Elite性能升级

惠普战99台式机新配置上市，Ultra 7-265处理器仅售6599元起

《荒野起源》实机预告震撼发布，PC与移动端平台即将迎来新体验！

智谱AI获多方青睐，北京基金再追投2亿助力开源生态建设

热门内容

本栏最新

十铨科技新推：X2 MAX高速双接口SSD与轻巧S5闪存盘亮相

中国移动5月起亲情网资费大调整，基本功能费降至5元/月！

海南大学发布脑机接口全链条技术，国产“芯”助力科研医疗新飞跃

字节跳动开源：云原生全局最优重调度框架Godel-Rescheduler

森养AF14-24mm F2.8 FE全画幅镜头即将发布，重量仅445克！

科大讯飞华为联手，“飞星一号”MoE模型集群推理性能翻倍突破极限！

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.

百度大脑CVPR 10项竞赛全面夺冠 涉及视频理解、目标检测等多领域

百度大脑CVPR 10项竞赛全面夺冠涉及视频理解、目标检测等多领域