12月11日,在日前举办的第六届“ImageNet图像识别大赛”(ImageNet image recognition competition)中,微软研究院的计算机图像识别系统成功在几个类别的测试中取得了第一名的好成绩,同时也击败了包括谷歌(微博)、英特尔、高通以及其他一些初创企业和学术实验室的产品。
据悉,微软在此次比赛中所使用的系统名为“图像识别深度残差学习”(Deep Residual Learning for Image Recognition),该系统由微软研究员何恺明、张祥雨、任少卿和孙剑(均为音译)组成的团队开发。微软在官方博客中表示,公司将在今后发表的论文中详细对外介绍这一系统。
“我们对神经网络的训练深度已经超过了150层,而这一‘深度残差学习’框架能够进一步减少优化,同时整合极深度网络,图像识别的准确率也就会迎来提升。而且,这种准确率的提升是许多其他普通网络所无法做到的。”一名微软研究员如是说道。
应该说,图像识别技术近期已经得到了越来越多科技公司的追捧,因为他们都希望借这一系统改善内部系统及面向消费者的产品。
值得一提的是,微软此前已经通过几款有趣的应用幽默化的展示了公司在这一领域的实力,比如该公司发布了“我看起来有多大”(How Old Do I Look?)以及“我的胡子怎么样”(How’s My Moustache Doing?)这两款妙趣横生的应用。同时,微软还通过微软研究院发起的“牛津项目”(Project Oxford)试图将这一图像识别技术真正实现商业化。
据悉,第六届“ImageNet图像识别大赛”要求参赛方对来自图片分享网站Flickr和搜索引擎的10万张照片进行精确定位,并将他们划分到1000种目标类别下,其中包括狼蛛、iPod、清真寺、玩具店和调制解调器等。比赛中,微软系统的分类错误率仅为3.5%,定位错误率则为9%。
而在过去几年,谷歌、初创企业larifai和NEC则一直在图像分类准确率方面取得了不错的成绩。
对此,微软研究院的一名研究人员表示:“甚至连我们自己都敢不相信这一方案能够取得这么好的成绩。”
值得一提的是,中国互联网企业百度并未参与今年的“ImageNet图像识别大赛”。这主要是因为百度在去年的测试中存在严重违规行为,该公司随后对此表示道歉,并解雇了要求初级工程师这样做的团队负责人。
当时,美国网站MIT科技评论还特地撰文对百度在人工智能测试中违规一事作出评论。该网站指出,相对于其他公司一周只购买2张彩票而言,百度的行为如同一周“购买了200张彩票”,此举大大增加了其中奖概率。此后,主办方对百度作出了禁止提交测试成绩1年的处罚。