ITBear旗下自媒体矩阵:

手机百度图像搜索:让科幻就在手边

   时间:2014-10-31 20:37:09 来源:互联网编辑:星辉 发表评论无障碍通道

很多人都看过漫威的电影《钢铁侠》,大家最羡慕托尼·斯塔克的地方,并不是他如何有钱,如何泡妞,而是有一副拉风的盔甲,可以一边在天上飞,一边看它迅速对眼前事物给出的详细说明,并能跟它对话:“喂喂喂,我刚才上厕所忘了冲水你快去冲下!”

那么一个最简单的问题来了:钢铁侠究竟在跟谁对话?即便是漫威的死忠,也未必能答对这个问题。影片中托尼真的在和他的盔甲对话吗?Nonono,他对话的机器人叫贾维斯,是一部联网的超级计算机,远在托尼的海景别墅工作室里。钢铁侠的盔甲最厉害的地方不在于刀枪不入,火力威猛,而是这部无所不知无所不晓、迅速为搜索匹配最优答案的超级计算机。

换句话说,阻碍人人成为钢铁侠的最大难点,不是如何打造那身盔甲和厉害武器,而是如何制造出像贾维斯一样的超级人工智能。

不过,这真的还只是科幻漫画里才有的东西吗?Nonono,在看过手机百度新版推出的拍照搜索后,你会发现,我们离钢铁侠的距离,只剩一点点了。10月30日的百度德尔塔俱乐部“图像搜索媒体开放日”,为我们揭晓了关于拍照搜索的诸多细节。百度深度学习研究院的视觉基础负责人,及手机百度的产品经理,向到场的观众展示了手机百度拍照搜索的炫酷体验,并共同探讨了最前沿的图像识别技术趋势。

正如本次开放日的主题“一图一世界”,总体来说,听完这一切我最直观的两个感觉是:1.拍照搜索即将真正改变世界。2.钢铁侠真的要来了。

不过,拍照搜索并不是一个特别新的概念,它重要在何处?为什么到现在才来“改变世界”?

    寻找“贾维斯”

首先,人对世界的认识,90%来自视觉,移动设备上的摄像头,已经成为人类眼睛的延伸,成为人体上新的感官,在人工智能领域,它的重要程度要远超过语音识别,这一点毫无疑问。

但源于同样的人工智能科技,图像识别的难度要远比语音为高。正如大家看到的,拍照不难,网络也有了,自然语言的理解和搜索技术也已基本具备,难点在于图片搜索的两个经典问题:图片识别(图片上“有什么”)和图片反查(图片“意味着什么”)。这件事从百年前发现X射线,到登月后CT的发明,再到10年前冈萨雷斯的《数字图像处理》,以及OCR的广泛应用,一直到现在二维码的大行其道,从未停止过。

不过,这些大部分是在特定领域对特定对象的识别,真正具有普遍性的,带有“智能”色彩的图像识别研究,是源于1999年大卫·罗威的sift数据提取算法,在这个基础上,各大公司才展开真正具备“方向”的研究。其中最有名的,是Google在2006年开始的图片识别项目,以及由此衍生的,4年前推出的一个名叫“Google Goggles”的应用。

毫不夸张地说,Goggles整个成为了Google在这个领域的一场灾难。一个显而易见的事实是,推出这么多年,很少有人真正用过这款应用,甚至连项目的主页都一度荒废得长草了。这里面当然有Google“20%时间”带来的不严谨,以及投入的不足,但主要还是研究方向上的失误。

这是一个什么样的失误呢?远在项目开始之前,Google就犯了一个方向性的错误。当时UGC红极一时,用户创造内容正是一门显学,myspace如日中天,Facebook迅速蹿红,于是Goggles团队也打算跟跟风,于是上线了一个卡梅隆大学助教发明的,给图片贴标签的小游戏,想利用人力贴标签的办法来解决图像识别的问题。

和所有小游戏一样,这个项目上线后不久玩家就腻了转投他处,而SEOer们却看上了这块宝地,开始了在标签里贴无关小广告的狂欢,更糟的是这个项目居然直到2011年才下线,成为Goggles的噩梦。

Goggles开始本来是利用Google擅长的算法和技术,将手机照片传回服务器分析,利用视觉运算算法归纳出图片的特征,再与数据库中的样本进行对比并提供搜索结果。比较典型的是Goggles上线时提供的一个功能,自动解答“数独”题。

这本来是个不错的思路,但是受技术的局限,从推出至今的4年里,Goggles到现在为止都只能给出有数的几种答案——这是书。这是画。这是文字。这是条码。而当它遇到不认识的东西时,就会说:这是“东西”。明眼人一看就知道,这不就是个微信“扫一扫”的加强版吗,你甚至不知道后台到底是“贾维斯”,还是有人在孜孜不倦地贴标签?

    从110000的距离

这件事也不是Google的错。从认识书、画、条码到认识大千世界上每一样“东西”的距离,好比从1到10000那么遥远。Goggles只是钢铁侠的面具,归根结底,它的智力还是要源于背后的“贾维斯”,即图片识别,或者说人工智能在“读图”技术方面的进展。今天我们回头看,它的关键在于“深度学习”这个研究方向上的进展。

深度学习是如何成为拍照搜索的关键的呢?2006年,Geoffery Hinton发表关于深度学习的重要论文,提出“基于RBM的pretraining算法 ”,为机器“自主学习”提供了可能,这直接导致哈佛教授德·哈里斯研究出全球首个人工大脑CBM。此后,Google也于2011年开启了Google Brain项目,由华裔科学家吴恩达领衔,此后,吴在2012年在一个有16000台电脑搭建的有10亿个神经元的神经网络中,成功使机器仅从一个单词“cat”开始,自主识别了“猫”的样子,识别率达到81.7%。

这在业内引起了轰动,评论开始认为Google将成为一家机器学习公司而非搜索公司,同时更多巨头开始进入这个领域。但是,在将吴恩达的成果应用于Google街景、语音识别、广告和无人驾驶汽车等项目后,Google的态度又回到Goggles开始时的原点:认识了书和画么?好啊!那就先这样吧!有迹象显示,Google在将深度学习推广至日常方面的态度并不够积极,在投入上也缺乏继续的动力,典型的例子是2013年和2014年,百度、微软和Facebook纷纷拿出超越Google Brain的成果,而吴恩达最终转投百度加入“百度大脑”项目。

为什么是百度?事实上,百度早在2013年即成立了深度学习研究院,是Google之外,人工智能四大巨头(百度、微软、Facebook、IBM)中最早涉足此研究的一个。而百度的决心也格外明确:深度学习研究院一成立即由李彦宏领衔,在人才、架构、数据三方面以全球领先水平进行投入,一年后百度硅谷研究中心挂牌时,百度大脑项目的首个成果悄然出炉,震惊业内:这个由200亿个神经元组成的大脑已有2-3岁孩子的智力,规模是此前Google Brain的20倍!

这就是从1到10000的距离,它让“真正改变世界”成为真正的可能。那么,深度学习究竟为手机百度的拍照搜索带来了怎样的优势?一个“真正改变世界”的产品究竟是什么样?

    手机百度:梦幻的“盔甲”

回到开头提到的百度开放日那一幕,百度深度学习实验室视觉基础技术负责人余轶南在发言中提到了几个“之最”:百度大脑是由百亿级参数构成的世界上最大规模的深度神经网络,已拥有世界领先的深度学习算法。

那么问题来了,什么样的算法算是“领先”呢?传统的图像识别算法一般只有一层运算即“像素-数据”,百度的算法则更接近人类大脑的分层结构及行为,分为“像素-边界-形状-整体视觉”的多个层次。更关键的是,百度突破了深度学习旧算法在达到一定数据量后进入停滞期的瓶颈,新算法借助“海量数据-优秀产品-大量用户”的良性循环,可以达到持续的高速进化。

很多人并没有注意到的是,百度实际上已经做到了在人脸识别、OCR、以图读图等多个领域的世界级技术领先,同时借助百度大脑世界最大规模的GPU服务器集群,搭建了全球领先的“同时理解图像和自然语言”的分布式并行架构,可灵活配置适合于不同应用的各种深度网络结构,催生了一系列体验优秀的玩法,例如“看图说故事”,百度魔图的“最像明星脸”,百度翻译、作业帮等高度智能的OCR表现,甚至在英文识别上也做到了全球领先。

从余轶南展示的盲测结果来看,与竞品相比,百度识图识别结果和检索结果的“坏结果”比率仅为16%和18%,表现在搜索结果上就是——一眼即可看出哪个是百度的识图搜索结果。另一个比较通俗的例子是,当拍照进行实物搜索时,百度不仅能辨认“书籍”、“logo”和“蔬果”,更能认出“玩具”、“服饰”和“手提包”。

如此这般,也就不难理解百度为什么要在硅谷搞实验室,要高薪聘请吴恩达。还是拿钢铁侠来做解释,百度大脑好比“贾维斯”,而接入百度大脑的手机百度等则成为拥有“所见即所搜”的梦幻“盔甲”。而未来,一旦百度的“贾维斯”进化出沟通物理世界和虚拟世界的强大能力,即通过计算机视觉、3D建模和传感网络等手段进行探索和发现,拥有将现实虚拟化,同时也能将虚拟建模进行物理生成的能力,那么百度的搜索将全面介入感知-思考-决策、行动、发现、创造的每个环节。到那时,这个“一图一世界”的世界将会是什么样?想想都有些小激动呢。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version