偶然听到一首歌,却不知道歌名;看到别人穿的衣服很好看,却不知道去哪儿买;孩子询问植物的名字,爸爸却答不上来……互联网时代,信息量迅猛增长,信息的表现形式也越来越多元化,这让信息处理技术面临着更大的挑战。如何获取信息,找到所求,成为行业公认的难题。
百度副总裁向海龙
在5月29日举办的2014年百度联盟峰会上,百度副总裁向海龙表示,技术创新让百度的产品能够“想用户所想、想用户未想”,技术是搜索引擎的核心竞争力。
大数据让搜索更智能
向海龙首先给大家展示了一张植物图片,外形很像枇杷,大部分人都没有见过。通过百度识图的图像识别技术,大家了解到这是黄山本地的特产香榧。“明天我们爬黄山的时候,伙伴们可以试试百度识图这个功能。”向海龙用简洁的例子,展示了百度强大的图像识别和以图搜图能力。
百度识图和语音输入满足了用户在多媒体输入方面的需求,同时,百度还在尝试让搜索变得更智能。当用户输入一些泛需求的信息时,百度智能推荐能够“想用户所想”,甚至“想用户未想”。“例如,有的联盟伙伴对黄山了解不多,只对‘黄山松’略有耳闻。通过输入‘黄山松’,百度会智能推荐给大家其它黄山的名胜。”向海龙举例道。
互联网进入高速发展阶段后,全球信息量呈几何式跃升,从2005年的130EB(1EB=10亿GB)到2015年的8000+EB,10年增长了66倍。同时,来自可穿戴设备、LBS、语音、网络图片、视频等各渠道的数据类型越来越丰富。面对海量而庞杂的数据库,百度搜索如何脱颖而出做到“想用户所想、想用户未想”呢?
向海龙强调,“产品创新对于基础设施提出了更高的要求。”首先,百度拥有强大的数据处理能力。目前,百度已经收录了全世界超过一万亿张网页,这相当于5000个国家图书馆的信息量总和。同时,百度承担着每天百亿次的访问请求,可以离线完成1000亿网页的处理与分析。并且,时效性网页从更新到索引只需要几十秒,真正做到了在大数据量级下的低延迟和秒级响应。
创新产品的背后是百度强大的计算能力。其中,超大规模的存储技术和分布式计算技术是重要的基础。百度拥有数十万台服务器、EB级别的超大数据存储和管理规模,数据处理达到100GB/s的毫秒级响应速度,并达到100PB/天的数据计算能力。
从商业角度来看,百度专注精准营销服务十余年,一直保持对内容相关性预测模型的优化,在投入资源、算法以及最终效果上都属于国内顶尖水平。向海龙介绍,“我们对广告特征的挖掘达到了千亿级别。如果以银河系的恒星来计数,这相当于两个银河系的行星数量。我们每天有PB级的样本量来训练模型,相当于10万个地球总人口的样本。最后达到分钟级的数据时效,以及上千倍高纬度特征的搜寻效率。”
开启极速搜索时代
经过10多年的不断探索,百度搜索已经占据绝对的领先地位。然而,百度对搜索技术的优化和升级从未停止。向海龙表示,“基于百度优秀的基础架构,搜索的极速时代已经到来。”
极速搜索的特点就是“快”,比普通搜索减少80%的处理时间。“人眨一次眼睛时间是0.2秒,博尔特的起跑时间是0.16秒,子弹穿过木板的时间是0.05秒,而百度极速搜索的响应时间仅仅为0.04秒。”向海龙用形象的数据对比展现了极速搜索的魅力。
百度在不断提高基础技术能力的同时,也借助“百度大脑”、“数据工厂”、“开发云”技术构建三级开放平台。将搜索数据、地图数据、音乐数据等百度自有的数据,与伙伴们的行业数据整合起来,更好地为行业服务。
今年夏季最热门的巴西世界杯即将开幕,向海龙表示,百度将通过大数据首次尝试本届世界杯冠军球队和黑马球队的预测,同时提供单场比赛的信息。竞技场上往往风云突变,要预测比赛结果自然离不开庞大而精细的球队数据和球员数据。百度已经拿到了近1000支球队、最近5年内37000场比赛以及29610名球员的数据,并结合252万条Query和全球400多家博彩公司、超过一亿一千万条基础数据来支持预测。
向海龙最后总结道,“中国历史上最有名的旅行家徐霞客游黄山时说过,‘五岳归来不看山,黄山归来不看岳’。黄山以美景服人,百度则以技术立本。我们始终认为,技术是搜索的核心竞争力。在百度联盟12年之际,我们期望与70万联盟伙伴一起,骏者驰远,盟承未来!”