“预测只是我们的入手点,我们要做的,其实是一个在线智能系统,这个系统可能包括监控、异常检测、诊断、预测等等。我们希望把这个系统运用到各种场合,比如运维和运营,让系统来模拟人的分析与决策过程。”8月16日,百度研究院大数据实验室科学家沈志勇老师在第53期百度技术沙龙上说。
大数据指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据被认为是下一个创新竞争和生产力的前沿,基于大数据的预测技术层出不穷。本期百度技术沙龙,在百度负责大数据的预测与其他相关应用研发的沈志勇为大家带来了主题为《大数据与预测》的技术分享。
百度业内领先的大数据技术和沈志勇老师精彩的演讲使得车库咖啡座无虚席,虽然店内进行了加座,但还是不能满足听众们的需求,很多技术人员是站着听完了沈志勇老师的分享。
沈志勇老师在现场风趣的表示,其实可以根据汪峰的歌词做一个大数据主题模型,这样从中随机抽取,谁都可以轻松写出汪峰风格的歌词。
从问答到预测 大数据要关注明天
沈志勇和他的团队基于机器学习,近期主要关注预测的事情。因为预测可以作为决策和计划的依据。比如我明天想要出游,那我会看看明天的天气预报,来参考明天要不要出去,是在室内玩,还是去室外玩。又或者如果一个人能知道明天的股票价格,那他就能因为比别人有更多的信息优势而获益。
百度研究院预测的内容,大致可分为定性和定量两种。如果还是拿之前的例子,那么定量就是股票价格,定性就是明天的天气情况。
在大数据预测的方法层面,百度研究院用的最核心最多的方法是时序分析。百度目前推出的旅游预测就是根据时序 分析来进行预测的。
在谈及百度旅游预测时,沈志勇还分享了一个小故事:在测试百度语音助手的初期,它可以回答很多问题,但是有一天,百度技术人员发现它回答不了诸如“明天故宫有多少人”这种问题。尴尬之余,百度的技术人员意识到不能只看今天,要看明天的情况,所以就有了旅游预测。
除了时序分析,因果相关分析和模拟分析也是在大数据预测时常用的方法。因果是比相关性更强的参考,而模拟可以直接演绎将来的情况。
时势造英雄 机遇与挑战并存的大数据时代
百度是国内最早进行大数据技术研究的公司之一。百度研究院专门成立了大数据实验室BDL,由世界机器学习顶级学者张潼教授领衔。沈志勇表示,自己所在的BDL部门正为百度大数据引擎,尤其是其中的百度大脑部分做一些大数据相关的工作。“百度天生就是一个大数据公司,大数据技术之于百度就像空气,如果没有大数据技术,百度根本难以运转。现在业界很多公司都需要大数据,可是自己又做不了,所以我们想把大数据技术拿出来推动整个行业的发展。”
大数据这个词目前非常火,火的甚至有点意外。由于大数据如此受关注,所以每个人看它的角度都会不一样。决定这个角度的往往是自己的知识背景。目前业内很喜欢把大数据和云计算联系到一起,不过沈志勇和他的团队主要关注的是在大数据上的机器学习。
沈志勇认为,当下是一个机遇与挑战并存的时代,大数据使整个社会都有了数据意识。现在大家都知道怎么样采集和记录,把数据都写下来或通过各种各样的方式记下来。这是好事,对机器学习来讲有了更加广阔的数据源,对于算法来讲也可以有更多的数据。可是,数据越来越多就会引发数据处理的问题,多元数据往往会带来很多问题,这就是挑战。
“幸运的是在整个过程中,别的技术也在发展。随着我们计算能力的拓展,模型学习理论的发展,我们可以处理或者学习很多复杂的模型。这说明很多条件都已经成熟了,形成了一个时势造英雄的态势。”沈志勇表示。
景点预测和高考预测 殊途同归的大数据预测
谈完预测方法的概览后,沈志勇还跟大家分享了两个基于大数据预测的百度产品案例:景点预测和高考作文预测。
景点预测是一个非常典型的基于时序分析的预测。如何猜测明天某个景点有多少人?首先我们要了解这个景点一般有多少人、往年这个时候有多少人、明天什么天气,然后把这些因素都综合起来考虑。沈志勇的团队把这些因素都细分划出来,然后再加上人们在百度对该景点的搜索次数。最后把所有因素综合在一起建模,就能准确的总结出一个景点客流量的规律。
相比于旅游预测,高考作文预测要更为复杂。即使是指教多年的高考名师也不可能猜中作文题目是什么。所以当沈志勇和相关的同学接到这个项目时,仔细思考了如何去预测高考作文,最后还是找出了预测可能性:高考这种大范围的考试,具有选拨性质,所以它对作文的提醒、方向和写的内容会有限制。
“如果是一个有经验的人,比如说一个语文名师怎么做这件事情,首先需要接触过大量的优秀的作文范文。其次,要预测今年的作文题目,他要把握一下时代的脉搏。而我们要做的就是模拟这个思考过程,即在对高中生作文范文集这个语料库上做一些归纳性建模,比如说,主题模型。我们把把学到的模型与时事趋势相结合,就能预测出大概方向。”沈志勇说。
最后沈志勇老师对此次分享做了总结,他认为预测只是百度研究院大数据实验室的入手点,他们最终会利用大数据作出一个在线智能系统,帮助模拟人的分析决策过程。
本期百度技术沙龙,有超过300名观众参加,他们在沈志勇老师结束分享后纷纷向沈老师请教关于大数据预测的技术问题,为百度技术沙龙营造了良好的学习氛围。据悉,百度技术沙龙是由百度组织策划的线下技术交流活动,也是目前国内资历最老、规模最大的技术分享盛会,旨在中高端技术人员的各位提供一个自由交流的平台。