对于在清华大学电子工程系担任副教授和党委副书记的汪玉来说,10 月 24 日是一个特别的日子。这一天,他以深鉴科技联合创始人的身份,参加了这家高科技创业公司成立以来的第一场公开发布会;而在这场发布会上,他的学生、也就是深鉴科技 CEO 姚颂,在介绍一些新产品之后,对外宣布了深鉴科技的新一轮融资。
右二为汪玉
这轮融资对于刚刚诞生不久却已经备受业界认可的深鉴科技来说,无疑是一个重要的发展时机;而在这一重要时间节点上,汪玉也接受了雷锋网的专访。
算法与硬件的协同优化
在这场发布会上,DPU 可能是从深鉴科技 CEO 姚颂口中出现次数最多的一个技术名词。
实际上 DPU(Deep Learning Processor Unit,深度学习处理器)是深鉴科技在投入于人工智能和深度学习大潮流之中时所选择的一个核心领域。之所以如此,是因为深鉴科技的几位联合创始人在创业之前就意识到,目前被深度学习算法训练广泛应用的 GPU,根本无法在应用层面同时满足高性能低功耗的需求。
“深度学习处理器一定要经过模型压缩、模型定点化、编译三大步骤,并且一定要拥有针对神经网络的专用结构”。在此情况下,汪玉决定带领团队从算法、软件、硬件协同的角度,来开发真正的深度学习处理器,也就是 DPU。
不过,对于深鉴科技 DPU 而言,一个核心的技术名词其实是深度压缩(Deep Compression)技术。
2016 年,在世界顶级的深度学习会议 ICLR 上,一篇以 Deep Compression:Compressing Deep Neural Networks with Pruning, Trained Quantization and Huffman coding 为标题的文章获得最佳论文奖。这篇论文的第一作者是斯坦福大学的博士生韩松,而韩松也正是深鉴科技的联合创始人之一。
韩松
在接受雷锋网(公众号:雷锋网)的专访时,汪玉对深度压缩的技术原理进行了深入浅出的介绍:
我们讲究的是算法和硬件的协同优化,其中算法的优化体现在哪儿呢?举例来说,神经网络就像是一个数字矩阵,因为神经网络里面最关键的权重存的地方就是矩阵;压缩的概念就是把这个矩阵里面的好多地方都变成零,这样许多地方就不需要再计算,从而减少计算量。
通过深度压缩技术,不仅可以将神经网络压缩数十倍而不影响算法准确度,还可以使用“片上存储”来存储深度学习算法模型,减少内存读取,大幅度减少功耗。与此同时,基于优化的协同性,深度压缩技术对硬件本身也提出了新的要求。汪玉表示:
上层算法的压缩,对于底层的硬件来说也会有一个叠加加速的过程:当压缩程度特别高的时候,就不是一个稠密级的计算方式,在底层取数、做计算都不是稠密的,而是稀疏的,这就变成随机的访存过程。简单来说,变成稀疏化之后的神经网络,其所对应底层的硬件也是不一样的,所以这就是为什么我们还要做自有硬件结构的原因。
深度学习解决方案的提供者
汪玉这里所说的硬件架构,指的是深鉴科技此前已经推出的两个用于深度学习处理器的底层架构——亚里士多德架构和笛卡尔架构。
汪玉对雷锋网表示,亚里士多德架构是针对卷积神经网络(CNN),由于计算机视觉处理经常使用 CNN,所以亚里士多德架构一般用来处理图像相关的智能问题;后者针对的是全链接,由于语音相关的处理跟全链接的神经网络相关,这种神经网络主要就是用笛卡尔加购这样的结构来加速。
亚里士多德架构
笛卡尔架构
在发布会现场,深鉴科技也发布了数款基于上述两个硬件架构的 DPU 硬件产品。
首先在人脸识别方面,深鉴科技分别推出了 DP-1200-F01 人脸检测识别模组和 DP-2100-F16 人脸分析解决方案。前者的特点在于支持 18 帧的高帧率和 3 瓦的功耗,可以用在人脸识别相机等前端的产品上;后者主要应用于后端,单板卡可以支持 16 路 1080p 视频的实时识别,并且整体功耗是 30 瓦以下。
二者之外,深鉴科技又推出了视频结构化解决方案 DP-2100-O16,它可以做到 16 路 1080p 高清视频的实时视频结构化,可以做到人、车、非机动车的检测、跟踪和属性分析。
除了图像类应用,深鉴科技还推出了型号为 DP-S64 的语音识别加速方案。它支持全稀疏化的神经网络处理,单板卡最多可以支持 64 路用户同时的语音识别加速。在这种情况下基于稀疏的神经网络和模型压缩,可以让语音识别的延迟更短。
值得一提的是,这些集成了深鉴自己算法的 DPU 产品,都是基于世界第一大 FPGA 厂商赛灵思的 FPGA 芯片开发出来的。而深鉴科技在 FPGA 技术方面也有自己的开创之处;在 FPGA 2017 大会上,来自深鉴科技的《 ESE: Efficient Speech Recognition Engine with Sparse LSTM on FPGA 》被评为唯一的最佳论文。
然而,在底层硬件上,深鉴科技并不把完全局限于 FPGA,它在 ASIC 方面也有一定的计划。对此,汪玉表示:
FPGA 的好处是可以变,可以随时添加模块;如果需要改变架构,或者说核心架构迭代,都可以在 FPGA 里面很快地做迭代,所以能够在很短的时间内切入市场,提供与 GPU 相当乃至超过 GPU 的性能。但是 AISC 可以提供比 FPGA 再好十倍、也就是一个量级以上的潜力,所以在一些专用的领域(比如说手机芯片)AISC 在功耗和性能方面的表现是最好的,不过它的研发时间最长,从定下来设计的规格到设计出来是很长的时间。
不过,深鉴科技并不把自己看做是一个硬件公司,它更愿意把自己看成一个深度学习解决方案的提供者。因此在硬件的基础之上,深鉴科技又开发出面向上述 DPU 的深度神经网络开发套件 DNNDK(Deep Neural Network Development Kit)。对此,深鉴科技 CEO 姚颂表示深鉴科技的对标对象是世界上最火的 AI 公司之一英伟达,后者不仅仅提供硬件,还提供了一个整套的生态系统。
而 DNNDK 也是国内第一款专门为深度学习而开发的 SDK。
云与端一定是配合的
对于任何一个以技术为支撑的公司而言,如何面对市场实现技术的产品化,是一个不得不面对的商业问题;而大牛云集如深鉴科技,自然也毫不例外。
在当前的市场条件下,深鉴科技首先选择了对人脸识别要求较高的安防领域;实际上,上文中提到的两款人脸识别模块 DP-1200-F01 和 DP-2100-F16 以及可以实现视频结构化的 DP-2100 O16 等三款 DPU,正是深鉴科技已经面向市场推出的可应用产品。
不过显然,深鉴科技不会停留只在安防上。2017 年初,深鉴科技接受了来自赛灵思、联发科等行业领先者的数千万美元 A 轮融资;其中赛灵思作为全球第一大 FPGA 厂商,为深鉴科技提供的不仅仅是资金和技术支持,更是诸多潜在的客户资源和海外市场机会。同样地,联发科在智能手机、家庭、汽车电子等领域的深厚积累,对深鉴科技也不无用处。
而在 10 月 24 日宣布的 A+ 轮 4000 万美元融资中,三星和蚂蚁金服都有所参与。对此,深鉴科技表示,蚂蚁金服会帮助深鉴开拓包括金融在内的更多应用场景;与三星之间则侧重于存储等方面的合作。然而,在回答雷锋网关于三星投资的问题时,汪玉却透露了这样一个消息:
三星的投资最开始发起是存储部门,后来它们的多媒体和智能手机部门都对我们很感兴趣,但是现在还没有办法对外披露到底我们进展到哪一步了。
雷锋网之所以对这个消息感兴趣,是因为在发布会进行过程中,深鉴科技展示了一组将自家基于 FPGA 的 Aristotle 加速器与苹果 A11 和华为麒麟 970 进行对比的数据。数据显示,在三个产品分别面向 GoogleNet-V3、ResNet-50 和 VGG 16 三种神经网络结构进行对比时,Aristotle 加速器的效用率皆超过了 50%,并高于对手一大截。
另外,在发布会的结束,深鉴科技又宣布了一款名为“听涛”的 SoC;它采用了台积电 28nm 制程工艺和 DP4096 Aristotle 核心,功率为 1.1 瓦,能够达到 4.1 T 的峰值性能。当雷锋网问道这个芯片是否有希望用于智能手机移动端时,汪玉表示:
有希望。“听涛”的功率大概在 1.1 瓦,性能为几个 T;这个芯片可以裁剪到适合更低功耗的场景,比如说 IOT。目前 IOT 是在 100 毫瓦以下,智能手机里面是 100 到 500 毫瓦,在安防里面我们希望它是 1 瓦。芯片所能做到的每瓦的计算力是一致的,这个不会有太大的变化;在具体场景中,只是把这个“盒”里面的 PE 进行裁取,就可以用在更低功耗的场景。
关于深度学习、神经网络等技术在智能手机移动端的未来发展,汪玉也表达了自己的看法:
我觉得智能手机里面做深度学习的应用肯定会特别特别多,这是肯定的;一般苹果是在智能手机领域引领潮流,它既然做这件事情,肯定是思考了很多才慢慢开始布局。但是我觉得智能手机里面提供的计算力是一定是有限的;真正要去做到很精细的对于场景的理解或分析等,还是需要更大的计算力,所以行业里经常会把一些东西传到云端再做更细致的分析。以后云和端一定是配合的,我倒不觉得这是完全限制在手机里。