4 月 1 日,百度视频推出了一个可以让人不仅看得见而且摸得着的百度视频 4D 版 ,在 4D 版中,我们将不仅能够看到清晰的画面,甚至可以在屏幕上产生出屏幕中实体的触感。
当然,这么炫酷的黑科技暂时只能出现在愚人节策划里了。但是,百度视频搜索,这个自 2007 年上线以来,索引视频超过 5 亿,拥有过亿活跃用户,每天进行数亿次的视频搜索观看行为,每天的数据量打出来能绕地球 100 圈的产品背后,究竟有什么我们所不知道的技术秘密呢?在上周的一场技术分享会上,百度视频工程师们带领我们认识到了用户在轻轻敲击“百度一下”之后的故事。
搜索从还没搜索就开始了
其实和百度的网页搜索一样,百度视频也是从用户点下搜索按钮之前,搜索行为就已经开始了。
当用户在搜索窗中输入关键词的过程中,百度视频就已经把尚未输入完成的关键词提交到搜索后台,分析用户可能输入的关键词,并将结果预加载至本地。所以当用户真正按下
在保证搜索的可靠性和稳定性的基础上,这套极速搜索系统可将用户的视频搜索请求比传统的搜索缩短到十分之一,并且拥有非常高的预测准确率。
无需人工的结构化结果
影片与网页最大的区别在于搜索时网页是透明的,而视频对于计算机来说就是一块不可分析档案。比起网页的结构化,视频的结构化更难操作。我们曾经介绍过 Netflix 为旗下所有电影共计配置了七万多种风格组合 ,他们曾经拿出 100 万美金来悬赏一种算法能够自动为电影进行分类。他们的方式是用一个自然语言分析器来分析电影的描述,并生成了许多的“标签”。然后雇佣了大量人力经过训练之后来为每一部电影贴标签。
而百度则好像正好与这个过程相反,百度在确定有哪些标签可以用于描述视频的时候聘请了一些电影、电视剧相关专业的研究人员和一些深度用户,将视频共计划分了 20 多个维度,每一个维度下有上百个标签。之后,在给视频贴标签的过程中,百度却采用了技术算法来解决。
举其中的一个例子来说明百度是如何实现这一神奇的过程:
当用户搜索某一个类型的视频的时候,百度初期的反馈结果不一定能够满足用户的需求。比如“高智商科幻电影”,百度可能反馈的只是那些描述中带有高智商或科幻的电影。但搜索了这样关键词的用户,最终肯定会落在某些电影结果上。如果某一个结果是错误的,那么用户在点开视频后就不会完整观看视频(大约 10 分钟左右就关掉),这证明这部电影肯定不符合高智商、科幻这两个标签中的一个。
通过无数的搜索关键词-播放行为的相关分析,百度就能够知道将这些视频贴上标签。而视频结构化以后给用户带来的则是更加自然的搜索体验。比如在搜索“郑多燕”(一种健美操)时,百度可以让用户选择需要瘦身塑型的部位。又比如用户可以直接用“与动物相关的电影”这样的自然语言进行搜索。
之所以和 Netflix 采用了完全不同的方式,是因为百度视频是收录全网的视频,在视频索引量上远远超过 Netflix,不可能由人工完成这个操作。
虽然 Netflix 认为算法不足以满足精确的判断,但是对于百度来说显然是足够了,根据百度的数据统计。经过结构化整理的视频列表用户点击率高于传统搜索结果列表的3倍。
不用登陆也能做个性化推荐
个性化推荐现在已经成为了几乎所有内容型网站的标配,百度视频理应不会落后。但是,百度视频手机端甚至没有登陆的入口。但是如果是百度视频长期用户就会发现,在不用登陆的情况下,百度视频 App 推送的口味和首页展示的推荐也会越来越“个性化”。
根据观影记录和大数据建模进行的个性化推荐
这是怎么实现的呢?答案是百度的大数据用户建模和设备追踪。目前百度视频会从两个围堵对用户进行个性化匹配,一方面是用户在百度视频内部的行为,比如观看记录、收藏、搜索关键词和设备的地理位置等,另一方面百度会通过设备的唯一 ID 为用户建立统一的模型。这种模型甚至不需要登陆,每一个移动设备都有一个唯一 ID,当用户在其他需要登陆百度 ID 的百度应用下使用了这个设备,这个设备就会自动和这个百度 ID 建立起联系。
百度会自动分析用户在不同设备上的行为,比如贴吧的记录,空间的信息,百度网页搜索的记录,为每一个用户做一个选型。这个选型时模糊的不涉及隐私比如是屌丝还是高富帅,是学生还是上班族,男性女性等。根据为每个用户建立起的模型,百度视频可以推送不同的内容给不同的人群。
节省网费的连环画技术
受网络环境限制,用户观看视频时经常会出现缓冲不及时的卡顿情况,极大地影响用户的观影体验。针对这一现象,百度视频开发了名为“连环画模式”技术,该技术会根据当前视频的信息截取视频的关键画面,对关键画面进行排序,生成图片库。在因视频缓冲不及时、无法正常观影的时间段,百度视频会根据播放请求,从画面库中读取对应的关键画面进行播放 ,以“连环画“的形式展现视频内容,让用户在消耗最少流量的情况下可以最短时间获取视频的基本信息。
在实际体验中,连环画模式下,视频会把视频中的每一句关键字幕“截图”做成一系列静态镜头的集合。数百M一集的连续剧内容可以被压缩到 5M~10M。满足用户在外出、地铁等没有 WIFI 的环境下又想要快速了解剧情信息的需求。也满足那些不想完整看完视频只想快速了解剧情的用户。
不过这个黑科技目前还没有上线,据介绍该技术已申请专利,预计很快将正式上线。
不只是搜索,而是整个观影体验
百度视频虽然从来都认为自己是一个视频的搜索引擎而本身并不承载内容。但是其实为了能够满足用户的需求,百度也做出了搜索后的延伸。
百度通过对自身平台用户的行为统计发现一般用户在视频卡顿5分钟内如果出现3次卡顿,用户会有超过百分之八十的几率关掉这个 App 或者切换其他视频,为了减少卡顿,让用户更流畅的观看视频,百度研发了“移动云播放技术”。
影响视频播放是否卡顿的因素主要有三种:一是清晰度,越清晰的视频越消耗带宽,缓冲时间也越长,合适的清晰度会减少卡顿次数。二是编码格式,视频编码格式比较复杂多样,不同设备支持解码的能力也不同,低端设备支持的格式比较有限,编码格式不支持,或者由硬解码变成软解码,卡顿就不可避免。三是网络带宽因素,视频是一个比较耗流量的、对服务的提供商来讲比较耗带宽的应用,视频网站会在全国各地部署 CDN 节点,以提升用户观看速度,但是各个视频网站在这方面的投入是不一样的,在技术上的优化以及 CDN 的布点也有所不同,所以会导致在一些省市的用户看一些视频网站会特别卡。
通过百度搜索找到的不同视频源的视频,会经过百度的一系列优化。这些优化包括根据用户的网络状况、地理位置选择不同的网关进行分流,根据用户使用的不同的设备对原始视频进行二次编码以适应 GPU 和分辨率,保证在任何情况下的流畅播放。这实际上是为视频网站提供了一道免费的 CDN,让视频网站的用户体验更好。
为了能够给用户一站式统一的体验,百度视频还在去年年末推出了百度视频超级 VIP,让用户通过百度视频的入口接入各视频网站的会员服务,用户在购买百度视频超级 VIP 之后,观看合作站点的视频不仅能直接选择高清源还没有广告。百度再将超级 VIP 的收益返还给视频网站,实现三方的共赢。