日前在国家主席习近平和巴西总统迪尔玛•罗塞夫共同见证下,百度高调推出葡语搜索进军巴西市场,这是百度继泰语搜索、阿拉伯搜索后的又一非中文语种搜索。随后几天,百度发布超预期的2014年Q2财报,双重利好引发股价一路飙升,市值已近800亿。百度股价一路飙升,市值市值已近 800 亿。
一名贴近葡语搜索的百度攻城狮告诉笔者,我们用的是 “ 土狼 ” 打法,现在百度从数据收录到效果验证,只需 3 到 4 周便可推出一款新语种搜索引擎,阿拉伯、泰语和葡语之后,百度可快速且用很少资源推出更多外文搜索或者少数民族语言搜索。
看来,在推出一个又一个新语种搜索后,依靠此前的技术沉淀再结合“土狼”打法,百度势必将会拿下越来越多的“新大陆”,而这也可能助力百度以更快的速度挺进市值“千亿俱乐部”。
新 “ 土狼 ” 打法背后的 Rank 技术
搜索引擎是十分复杂的系统,但流程又可一句话说清楚:收录WEB数据,接入结构化数据,构建索引;理解用户搜索需求,查询索引找到一堆结果,排序并进行输出。
数据处理和用户需求理解靠的是NLP(自然语言处理)。经过十多年演进百度NLP技术已经处于国际领先水平。而百度WD团队则负责接入结构化数据、组织全网资源。还有一个关键环节并且是离用户最近的环节同样十分重要:RANK。
RANK排序是计算机算法里最重要的分支,也是搜索引擎最重要的环节。早期搜索引擎比拼结果集大不大(召回率),响应时间快不快。人类进入信息过载时代后,尤其是移动搜索的崛起则让搜索结果准不准成为最重要考量。“准”,即结果与用户需求的相关性。NLP理解用户需求,WD准备数据,决定结果相关性的是RANK策略。
整个搜索引擎技术体系就像一支足球队伍,排兵布阵上需要后卫、中场和前锋,如果说NLP/WD等部门是后卫和中场,那么RANK就是前锋。一场足球比赛的胜利,固然需要后卫们坚固的防守和中场灵巧的组织协调,但是想最终赢得比赛,最需要的还是前锋的冲锋陷阵。
作为支撑数亿用户的搜索引擎,百度RANK策略十分复杂和智能。但要理解RANK并不困难。通过海量参数和权重对不同结果的相关性进行打分,分数高的排前面。参数是文本相似性,语义相关性,用户特征,搜索历史,甚至用户位置。总之,RANK要做的便是让最前面的结果最接近用户彼时的搜索需求。
进军新语种 RANK 的快与准
百度RANK部门为了更好支持国际化,对原有架构进行深度重构,实现了对新语种的即插即用。能做到这点与百度RANK新技术有关。RANK算法本身也在智能化,在国际化这块RANK部门利用内部代号为LTR的机器学习技术,对排序模型进行改造,包括样本训练,样本数据,本向算法和调优,都进行了深度改造。排序模型则面向不同语种自我进化。
在中文上,百度RANK能够根据不同用户、不同位置、不同时间等特性反馈个性化的结果排序,面向场景的RANK技术使得每个用户在不同结点都能找到自己想要的。譬如用户平时搜 “ 马航 ” ,一年前最可能想买马航的机票,了解航班和折扣信息,现在搜 “ 马航 ” ,用户就不大可能是买机票而是看新闻。但是这些例子是不能穷举的,海量搜索需求对应海量场景,因此百度工程师不可能穷举每一个场景进行算法优化,只能让 RANK 模型自我学习,智能起来。
实际上,百度RANK系统正是深度学习的智能系统,进入一个新语种搜索后,工程师把相关语料训练好,相关label标注好,放到RANK模型里自动训练后相关性效果非常好,在充分考虑国际化的RANK架构支持下,百度中文搜索的一些特有内容已经被集成到最新版的葡语搜索:直接在结果页展示表单、排序和筛选控件的知心搜索,直接在结果页面播放视频的直达搜索。不同用户,不同时间,不同场景搜索到的结果都不一定相同,随需而变。
让RANK在不同语种下智能化理论上是可行的。百度首席科学家吴恩达曾带领团队利用深度学习技术自动识别猫,要用深度学习让机器理解一门新的语言自然不在话下,目前百度RANK团队里没有葡文,泰文等语言专家,但对应搜索的相关性做得特别好,而RANK能够继续生效就在于深度学习排序技术的成功应用。
百度海外土狼战术鏖战 Google
自从李彦宏在 2012 年底提出狼性之后, 2013 年百度种种动作已在体现其狼性文化,而在海外市场上,百度就要做一头土狼去抢食 Google 市场份额。土狼战术被华为证明。华为的国际化采用 “ 农村包围城市 ” ,先易后难,首先进入香港,然后是俄罗斯。 1997 年,华为进入非洲市场,紧接着是拉美和东南亚,最后是欧洲腹地和美国,就像中国解放后的外交战术。现在百度则是先打阿拉伯,泰语和葡语,日后再继续从 “ 农村 ” 包围欧美等 Google 腹地市场。
在五年前百度和谷歌曾在中国正面交锋。两个搜索引擎有着不同思路,百度更重视结构化数据,有阿拉丁计划,同时强化UGC频道如知道、百科和贴吧,Google过分信仰和依赖技术导致其对数据和运营的轻视。结果便是百度搜索结果页面内容更加丰富多元,有直达、知心、百科结果。现在百度搜索结果页右侧则是知识图谱应用,结合用户需求和结果数据挖掘相关知识并展示出来,从各种CASE来看百度知识图谱效果已经比Google更强。这说明百度RANK,WD,NLP等技术团队已经联手成功狙击Google,就算Google不退出中国,就算Google重返中国,依然打不过百度。
百度与Google再次在海外市场狭路相逢,在新语种上百度用类似思路逐个击破。譬如以知识图谱为例,巴西百度一方面与大量第三方合作接入结构化数据,另一方面在垂直类目上开展了大量的实体挖掘、清洗和合并工作,这样在短短的半年时间内便上线了几十个垂直类目、积累了几千万实体数据,从而在实体覆盖面上将google远远甩在了身后。因为Google面向全球市场,自上而下、全面覆盖。在战略上铺得太开只能打大战,百度则是逐个击破,是打游击战的土狼思路。在技术上Google倾向于通用方案以低成本,高效率覆盖,百度则在每个本土市场推出本土化的产品并精耕细作。在运营上尤其是数据运营一直是Google弱项,百度擅长。
即便Google已有先发优势,百度还是可凭借着垂直和本土策略攻破一个个海外市场,最终再到英文市场与Google交锋是大概率事件,那时候两个搜索巨头之争将更加好看。