基于腾讯优图团队和厦门大学纪荣嵘教授团队在深度合作项目中所产出的学术论文 “基于全局误差重构的深度卷积神经网络压缩方法”(Towards Convolutional Neural Networks Compression via Global Error Reconstruction)和 “面向跨模态哈希的监督矩阵分解方法”(Supervised Matrix Factorization for Cross-modality Hashing)两篇论文同时被人工智能领域的顶级会议IJCAI录用为长文,这是继去年11月所撰写的论文被另一国际顶级学术会议AAAI 2016接受后,优图在人工智能领域创下的又一佳绩。IJCAI(International Joint Conference on Artificial Intelligence)始于1969年,每两年一次,涵盖了自然语言处理、机器学习、人工智能理论与架构、机器人科学等领域。会议具有很高的学术水平和影响力,受到学术界和产业界的高度关注,因此IJCAI和ICCV、CVPR、ICML、AAAI等会议被中国计算机学会(CCF)认定为级别最高的A类会议。本届会议中,腾讯优图的两篇学术论文同时录取,说明了团队在人工智能领域又迈向了新的高度。
腾讯优图与厦门大学纪荣嵘团队从2015年初开始密切的高校合作,不仅专注于算法的深度学习及研究,同时也致力于将先进的人工智能技术应用到腾讯的产品中。此次合作的学术论文正是双方取得的又一突破,主题涵盖了机器学习当前研究的两大热门领域:深度学习领域与信息检索领域。
Paper 1 :【深度学习领域】基于全局误差重构的深度卷积神经网络压缩方法
> 项目背景:
随着深度学习技术在移动端智能业务应用中的逐步铺开,云端服务的方式越来越依赖用户上传的大量数据,比如本地照片分类管理。因此服务质量受限于网络环境、后台服务能力、用户隐私等因素。一个解决的思路是把云端的深度学习放到手机本地运行,然而云端的深度网络模型往往过于庞大,动辄上百兆,不利于SDK的本地部署。因此,如何把庞大的深度模型进行瘦身并装进手机本地运行,让更多用户充分享受技术进步的红利,成为摆在优图深度学习研究人员面前的一大挑战。
深度学习网络的移动端本地运行离不开两个因素,运行环境与网络模型。为此,优图深度学习团队一方面通过自主创新搭建了深度学习在手机端的运行环境 MiniCNN框架,具备小巧、内存占用低、模型兼容性高等特点(当前正在天天P图、手机管家等产品中落地)。另一方面,优图在移动端深度网络压缩的经验,通过和厦大纪荣嵘教授团队深入合作,共同探索出网络模型压缩的学术界和产业界的创新算法方案,并取得了丰硕的技术成果。这标志着优图已经具备了将深度学习网络运行于移动端的技术能力。
> 技术创新:
业界流行的模型压缩方案通常为: 基于SVD的low-rank近似算法粗略地对卷积网络模型中的全连接层进行压缩,以大幅减少模型参数规模。然而通过这种基于layer-wise初始化的压缩势必会造成大量误差累计。优图深度学习团队与厦大合作伙伴一起经过不断尝试和优化,创新性地提出了Global Error Reconstruction (GER)算法,减少此类误差累计,提高压缩网络准确率。实验结果表示GER算法能够取得较好的rate-distortion,该算法能压缩业界知名的网络AlexNet和VGG模型(NIPS 2012,ICLR2015) 接近15倍而失准确率。
> 应用场景:
该技术可广泛用于以深度卷积网络(CNN)为核心的移动端服务,当前已应用于移动端图片分类模型,优化压缩比在10:1以上,未来也可应用于人脸检测/识别模型、声纹辨识模型等各项需要手机端本地运行的场景中。原先动辄上百兆的模型经过瘦身后变成了十几兆甚至几兆,使得效果更好的大网络模型在手机本地运行成为可能。
Paper2 :【信息检索领域】面向跨模态哈希的监督矩阵分解方法
> 项目背景:
随着信息技术的发展,互联网中的信息形式从以往的文本为主导,开始向以文本、图片、视频、声音等多种数据形式复合出现转变,如何充分利用这些异构的信息成为一个研究的热点和难点。优图在哼唱识别的研发中就遇到了midi、人声、原声三种有很大区别的信息,并基于此研发了哈希排序算法(OEH+DTW)发表在了AAAI2016上。在此基础上,今年优图和厦门大学继续合作,从哼唱识别进一步拓展,研发了基于异构数据的检索方法,能够充分利用文字、声音等信息增强检索的效果。
> 技术创新:
传统的跨模态检索方法,尤其以哈希算法为主的检索方法,通常需要较高的时间复杂度来获取相关的哈希码字和相关的编码函数。 在对比与分析传统的跨模态哈希算法的基础上,本论文提出了一种监督矩阵分解哈希算法,创新在于将协同矩阵分解、谱图理论以及最优投影方法有效地结合在一起,以探索跨模态搜索的问题。其核心思想是采用监督信息构建成标签相似度图来约束协同矩阵分解和哈希函数学习,同时也得到训练集的哈希码本。在维基百科等多模态数据集的搜索验证性实验中,提出的方法可以以较快的训练速度得到非常令人满意的检索效能。因此,其可以很好地应用于异构数据搜索等实际问题中。
> 应用场景:
本论文提出的基于大规模数据的跨模态哈希方法可以用于改善传统音乐检索系统。传统音乐检索系统大致分为两类,一类是以基于知识图谱的文本检索的形式(即将用户提交歌曲名、歌手名等作为检索关键词通过数据库匹配返回检索结果),另一类是基于音乐内容的音乐检索形式(例如QQ音乐的哼唱搜索)。本文提出的跨模态哈希算法可以挖掘音乐数据中多种模态数据之间的关联性,让音乐的不同模态之间互补信息,将传统的两类音乐检索方式融合以提高用户音乐检索的准确率,同时也可以实现基于用户的个性化音乐推荐等应用功能。
腾讯优图团队成立于2012年,是腾讯旗下专门研究机器学习,人工智能的团队。团队专注在用户UGC内容(如人脸、图片、语音、视频等方向)上的机器学习、数据挖掘等领域展开技术研发与业务落地,并已经拥有数十项领先的图像技术和千亿规模图像大数据计算能力,为公司超过五十个业务提供图像技术支持,并在微众银行、QQ、QQ空间、QQ音乐、水印相机、天天P图等明星产品成功落地。