2019年,百度视觉技术不断精进,在各大国际赛事屡屡夺冠。在上周结束的百度AI开发者大会中,百度视觉技术再次升级,在经历了从看清世界到看懂世界的1.0时代,百度视觉语义化平台将进入2.0时代,交互升级和软硬件结合两大方面实现突破。交互升级方面,百度视觉语义化平台依靠领先的视觉基础技术,带来一体化人机交互与大场景物理世界交互两大增强现实技术的系统级革新。
百度视觉技术部、增强现实技术部总监吴中勤表示,在小视频应用中常见的美颜滤镜、贴纸等功能,以及手机相机中自带的AR萌拍,背后都离不开AR特效能力的加持。在本次全新发布的一体化人机交互系统中,带来了人脸、人体、手势及环境特效等AR能力的创新变革,通过单点能力升级和玩法组合,将为视频拍摄、游戏互动等场景提供更丰富的创作空间和交互体验。
据吴中勤介绍,百度AR从自建人脸数据库的海量数据中提取东方人脸型基底,并以此为基础构建了一套稳定高效的用户脸型三维重建算法,实现精细化五官和实时稳定的皮肤级跟踪效果。手势交互玩法方面,百度AR建立了一系列业内领先的超轻量级(计算量小,体积小)手部交互算法能力矩阵,除了常见的控雨等手势控制操作,还能自定义手部特效、空间作画等多种创意玩法,在全民小视频、好看视频等应用中备受欢迎。
在移动端,百度率先支持了18点/59点肢体骨骼点/轮廓点检测跟踪和主流机型的全面覆盖;环境感知和理解方面,包含人像分割、天空分割、物体检测等多项算法能力在内的特效能力矩阵,实现了物理世界1:1实景实时分割,可以任意选择背景替换、染发、天空特效、动画叠加等AR效果。
交互技术的升级还将更深入地赋能智慧生活场景。现场,吴中勤通一个鲜活的案例展现了智能车机综合实现疲劳驾驶提醒、语音视觉的互动操控,以及利用3D识别跟踪技术实现与小度在家等家庭智能设备的交互。全新的一体化人机交互系统已全面接入百度智能云平台,支持为企业提供更全面、更易用的智能化能力和更完善的视频解决方案。
交互升级的另一大焦点,是基于VPAS(视觉定位与增强服务)的大场景物理世界交互系统的发布。百度首次通过视觉定位与AR技术的突破性结合,将虚拟信息与真实地理位置准确重合,标志着国内AR技术发展与应用领域取得突破性进展——在从简单的空间物体放置体验,迈向基于物理空间精准感知的高沉浸混合现实体验。
据悉,VPAS主要包含离线高精地图构建、在线定位与融合跟踪三大基础模块,相比GPS具备更稳定的实时跟踪能力,支持室外大场景及室内场景厘米级高精度定位。而且,百度AR采用了最具前瞻性的视觉技术方案,以及兼容Google、Apple平台的持续跟踪能力与独有自研跟踪能力共同构成的融合跟踪方案,能够支持当前市场主流手机设备的全场景体验需求;同时结合百度视觉语义化能力,持续提升在线定位与实时跟踪的稳定性和精准度。
百度AR在视觉信息要素积累的基础上实现了一套完整的视觉地图构建方案,即实行众源数据采集模式,对用户通过手机收集反馈的图像数据进行处理分析,结合百度地图的地理位置信息持续更新完善视觉地图。吴中勤指出,目前百度AR已打通常见三维重建数据导入接口,并且兼容相同格式下的第三方数据,具备易集成特性和数据批量化生产能力。
现场,吴中勤还展示了VPAS首个落地应用案例——重建圆明园大水法。当用户跟随百度地图导航走进圆明园西洋楼景区,VPAS将自动“找到”大水法遗址,在残垣断壁上重新建立起100多年前雕栏玉砌、“猎狗逐鹿”的恢弘奇景。这也是将百度AI能力与5G技术结合的第一个落地应用场景。随着5G时代到来,AI与5G/边缘计算相互赋能不断深化,将以大水法为起点,拓展景区、商圈等更多室内外场景,结合VPAS为物理世界可视化导航服务带来体验式变革。
吴中勤表示,“随着5G时代的到来,百度AR依托视觉技术优势所构建的虚实场景融合的基础设施,将不断弥合虚拟世界与物理世界的间隙,刷新人们探索世界的方式。”