2013年全球每天产生25个PB的数据,这相当于每天都产生1500个中国最大的国家图书馆的信息量。面对来自全球平均每天60亿次的搜索请求,百度每天的数据储存量超过2000个PB。海量数据正在改变着人们的生活,从信息储存到大数据分析,医药、制造业、旅游业等越来越多的领域开始感受大数据预测的“洗礼”。
百度大数据预测:五一最热旅游地北京居首
“大数据,知天下”,马上就是五一假期,百度利用大数据技术开发的“百度预测”可以告诉你五一期间哪些城市旅游最热门。以五月一日的预测数据来看,排名前十的分别是北京、杭州、上海、九寨沟、苏州、重庆、成都、敦煌、湘西、广州。
图1 全国五一热门旅游城市预测
总体而言,五一旅游热门地点多在交通便利的东部、中部地区,短短三天假期,交通成本会成为出行者主要考虑的因素之一。如果还没确定出行地点,百度大数据风向标则是很好的借鉴,避开热门城市有助于增加旅行舒适度以及出行方便,如果游客规划的目的城市就在其中,那么尽早确定票务及住宿问题则是明智之举。
热点城市排名第一的是首都北京。哪里的游客最喜欢去北京?百度大数据同样可以得出答案。近水楼台的天津、唐山自不用说,上海、杭州游客从数据上看也喜欢北京旅游。可能和高铁的便利有关,高铁沿线的几个大城市——石家庄、郑州、武汉、广州、深圳游客都对北京颇为青睐。而独处西部的成都游客,相对而言,真是辛苦了。
图2哪里游客偏爱北京?
排名前十的热点城市大多位于交通便利的东、中部地区,敦煌因地处西北,相对而言在时间和金钱两方面交通成本更高。根据百度预测的数据分析,温州地区的游客计划五一敦煌游的人数最多,上广深北次之。百度预测通过地理定位还让我们了解到究竟何地区的人们偏爱哪些旅游城市。
图3温州游客最爱敦煌
北京作为最热门旅游目标城市的同时,也居于旅游出发地城市之冠,流入与流出都居全国榜首。北京游客最喜欢的是比邻的秦皇岛、天津和承德,远处的敦煌、丽江、重庆、湘西、三亚、嘉兴也高居榜上,成都更是大热门。一方面,北京地区人口密度高,人均旅游消费实力雄厚,交通便利,百姓乐意出行。另一方面,北京作为外来人口大城,许多人的出行可能其实是走在回家乡的路上。
图4 北京游客爱去哪儿
定位+搜索+数据挖掘=可视化大数据
对于即将出游的人而言,旅游预测就像天气预报一样实用,能让我们避开堵在华山上,塞在九寨沟的糟糕状态。那么,预测是怎么实现的?
每一天,全中国都有数以百万的互联网用户在利用百度搜索各种旅游相关信息,百度大数据部通过对搜索数据的深度挖掘,发现旅游相关词搜索数量和实际旅游人数之间的密切关系,并依此建立了旅游预测模型,于是,就做到了对未来旅游状态的预测。通过和北京市旅游委的景点实际人数对比,这种准确度达到90%以上,可以充分反映各旅游景点未来的人流趋势。
再看今年春节的“百度迁徙”数据,便是基于“百度地图”LBS(基于地理位置的服务)大数据进行计算,并采用可视的呈现方式,即时、直观地展现了中国春节前后人口大迁徙的轨迹与特征。
新闻媒体和政治同样可以利用大数据。今年的全国两会期间,新闻联播基于“百度指数”推出了“两会大数据”板块。“百度指数”是以百度网民海量的搜索数据为基础的分析平台。“两会大数据”正是利用这个平台,看到网民对实事关注的热点,对两会的期望。
大数据预测影响传统制造业
对于传统行业而言,大数据同样是有无与伦比的价值。最近北京车展如火如荼,百度数据研究中心基于网民搜索大数据发布了《2013汽车行业研究报告》。针对近年来最时髦有效的数据营销——通过数据分析将信息精准送达目标人群,效果可以量化——方兴未艾的大数据概念正是最好的解决依据。比如,这次报告发现,网民对产品安全、行业政策和新能源车的搜索增幅大幅增加,对SUV关注度上升,但是热搜产品较多,竞争激烈。报告甚至发现,网民搜索汽车信息多在上午上午12点、下午5点、晚上10点,这对广告时段投放也会非常有意义。而此前也有过百度将网民对汽车的各类搜索请求进行大数据挖掘,帮助一汽等车企深入了解消费者需求,设计新品及资源调配的案例。
目前,大数据技术已经逐渐被应用于旅游预测、行业分析、用户分析、舆情分析等方面。在互联网的时代,我们在互联网上的每一次搜索、每一次操作都产生着数据,形成一个天然的大数据库。而大数据这项技术不仅能给在已有的领域继续深挖,更能在诸如升学、就业、金融、体育、影视等生活的方方面面和社会的各行各业给我们提供更多的信息和资源,甚至在公共事件预测疾病监控等领域发挥极为重要的作用。