最近网上流传最广的一个段子是:“天台上赌球的朋友们挤一挤,高考成绩公布了……”这让我想到了当年自己高考时候的胜景,和报志愿大学时候的“押注感”。要说买彩票和报志愿之间有什么关联,那一定是,两件事儿都挺靠运气的。
彩票不用说了,其实报志愿这事儿更拼人品——要不说高考是“一半靠成绩、一半靠志愿”呢。大多数考过大学的人都深有体会:不但地区有别,学校录取分更是有“大小年”之分,参考历年录取成绩因此变得不是很靠谱,考生的真实水平、考分和与此匹配的学校三者之间往往存在“错位”和“错配”。
当年我在填报志愿的时候着实百度了不少信息,包括学校排名、概况、环境、住宿条件,等等等等,但最后还是……这事儿不提也罢。所以当我看到百度又推出了“高校热力图”的时候,差点儿骂娘,那心境和其他州看到纽约和伊利运河的那种羡慕嫉妒恨差不多吧。
(手机百度报志愿神器——高校热力图)
说回手机百度推出的这款“报志愿神器”,当你在手机百度客户端中搜索“高考”一词时,百度的展现结果将会依次是“百度预测”的框结果、高校热力图的进入链接,以及高考网的考试信息。而当你点击进入“高校热力图”之后,就会看到一个基于中国地图绘制的信息图。而在上方的搜索框输入分数、选择文/理科之后,手机百度马上会展示出一个“XX分推荐报考的学校”,没错,直接展示学校名称,还可以点击进入查看学校的报考热度、竞争激烈程度等详情。
靠谱的“高校热力图”是如何诞生的?
这个看起来还是智能得有点儿让人不放心——对全国939万高考考生来说,这种推荐的靠谱程度有多高?为此,我专门向百度的资深设计师咨询了“高校热力图”以及学校推荐背后的实现技术。百度移动云的产品设计师称,这实际上背后采用的是“脏数据”的处理和难度预测两个模型。脏数据处理,可以保证收集到数据的数据是经过处理的,是为了数据的可靠性;有了靠谱的数据后,百度再进一步把数据输入到难度预测模型,而这个难度预测模型主要结合了今年的分数线、往年的分数线、今年的搜索热度、往年的搜索热度、今年考生的分数分布……等等,然后给出报考的难度。
上面说了,报考最大的痛点是如何避免撞车,这对中等分数的考生尤为重要。在通过输入分数得出推荐学校之后,百度会进一步分析得出“关注同一所大学的分数分布”,算出自己在考生的排名情况,并给出“竞争激烈程度”评级。举个例子:北京的考生580分,选择四川大学,发现多数关注四川大学的学生都在600分以上,就会提醒考生报考时需要三思。这背后除了大数据处理技术之外,“高校热力图”和报考参考系统实际上是时下热点、用户的地理位置以及百度搜索的服务性等因素综合作用的产物。
这让我想到了手机百度此前推出的“春运迁徙图”和“景点热力图”。今年春运的时候,手机百度根据用户的移动位置,绘制了一张全国范围内的“春运迁徙图”,只要用户手机中装有内置了百度地图APP的应用,百度在云端会记录下你移动的路线,体现在这张图中。景点热力图也是如此——手机百度会对人们在网上对某个旅游景点的搜索和实际旅游人数的数据进行比对,然后绘制出某个景点在两个星期内的“热力图”,以显示这个景点的拥挤程度。这两部分都是百度“大数据引擎”的一部分。所以,这一次的“高校热力图”,是百度“大数据”能力的又一次“落地”。
“春运迁徙图”和“高校热力图”都有一个相同的特点,就是用户的地理位置成为了数据的一部分。要知道,收集、处理这些数据比起简单地用网络爬虫抓取信息和展示要困难得多。尤其是手机百度的移动搜索——把用户在移动端的搜索、用户的地理位置、高考成绩和学校热度的历年分析结合在一起,如果这张“高校热力图”坚持做下去,数据的精准程度和推荐的靠谱程度将会大大提高,甚至成为考生填报志愿的最重要参考维度也未可知。
百度的相关开发人员也透露,推荐学校的时候,手机百度结合了学校往年的高考分数线,并且对学校的波动进行处理,再结合今年关注该学校的考生分数分布,对各个维度赋值,最终计算得出推荐的学校。而这种方式,如果样本量越大,对群体的行为就会把握得越准,推荐的准确度就越好,报考的参考价值就越大。
为什么靠谱的大数据产品只有百度能做?
移动搜索和大数据的关系——这是个经久不衰的话题了。移动搜索与PC搜索不同,要更简单的搜索方式、更精准的搜索结果、更加智能……从2010、2011年就在炒移动搜索,现在,所有人都知道了移动搜索的特点,却很少有移动搜索产品真正地满足这些要求。
看看时下的这些移动搜索产品就知道了——最主要的玩家是百度,今年又新增了UC、360和搜狗这么几家构成第二梯队(Google Now和Siri这些不接地气的就不谈了),另外勉强算上豌豆荚。其中,手机百度正在向综合服务的入口发展,不但有搜索功能,还能提供新闻热点、天气等生活信息,甚至影视、综艺和小说等聚合内容。UC、360和搜狗也大同小异——虽然已经或者将要推出单独的app产品,但对浏览器渠道的依赖程度极高。
这些移动搜索产品中的大部分,要么是搜索、导购、小说的聚合,要么是简单地把PC端的搜索结果平移到移动端,除了加入了语音输入的交互方式之外,在更精准、更智能的道路上还有很长的路要走。
移动搜索结果,要么是单纯的信息、要么是为用户提供解决方案,要么是直接提供服务。现在看来,单纯的信息、大部分解决方案大家都能提供,但在链接人和服务的方面只有百度在做。所谓巧妇难为无米之炊——在我看来,第二梯队成员们不是不想做,而是技术受限,所以移动没有大数据和技术支持,谈“服务”就是枉然,也就会在链接人和服务这一环节出现问题——这一点,大多数后来者们是没有“米”的。
实际上“高校热力图”提供了一个很好的大数据和移动搜索的合作样本。在链接人和服务方面,手机百度真正地将数据处理能力变成了“服务”,并且结合热点推向了用户。另外一个令人印象深刻的例子,是维克多·舍恩伯格在《大数据时代》一书中介绍的,Google曾经根据各个地区与流感有关的关键词的搜索频率,非卫生组织的数据制作了流感地图,成功地预测了大面积的流感爆发。而“高校热力图”同样是在特定时间,为人们密切关注的话题提供一款“服务”,与以往不同的是,这款服务因为具有“移动”的特性而使体验更加便捷。
从这个角度来看,这或许是移动搜索更好的、甚至更正确的方向——如果没有大数据,或者大数据没有以正确的方式“落地”,移动搜索将永远在原地打转。