随着VR/AR这股热潮逐渐冷却之后,2017年电视圈子又火了另外一个东西——智能语音技术,还有一种说法叫做人工智能,说的朴素一点就是电视上的语音交互。虽然不是什么新鲜的概念,可是最近所有电视厂商的每一场春季发布会,几乎都在着重的强调自家电视的智能语音技术,似巧合,又非巧合。智能语音技术为何在这个时间点在智能电视上井喷?值得我们为此探讨一番。
智能语音的风口真来了?
投资界流行这样一句话:投资要投“第三眼美女”,第一眼、第二眼美女交往的门槛和成本都比较高,而只有第三眼美女是属于大众的,对应到产品上,就是任何技术产品都要到第三代才能被大众广泛接受,才能长时间的存在下去。
人工智能技术从50年代的控制论与早期神经网络,走到如今的AlphaGo、Master,现在正好在经历技术发展的第三个阶段。50年代末是一波高潮很多死掉了,到70年代的时候国家自然科学基金会都不支持了。80-90年代又活跃了一次,但许多认知科学家强烈反对当时很火的一个人工智能概念“物理符号系统假设”,认为身体是推理的必要条件,加上科研经费的削减,又死了。今天正好是第三波,理论上机遇比较大。
第三代技术应该足够下方到消费领域,接下来我们看看各电视厂商智能语音技术具体的应用情况如何。
TCL:发布会上TCL着重演示了人工智能助手“小T”,具备感知、认知、服务、学习的三大特性。而“小T”是TCL集团与腾讯、阿里在人工智能及云服务上进行数据打通,实现资源共享的结晶。
长虹:推出以电视机为中心的人工智能平台AI Center。据悉长虹除了与IBM、科大讯飞等达成合作,也与杜比、腾讯、华帝,以及清华大学、西安交大、微软、中科院等结成“人工智能产业联盟”。
微鲸:微鲸科技推出了微鲸智能语音电视2.0高端产品醉薄A系列,并宣布微鲸全线产品也将进入2.0时代。其与科大讯飞与美国麻省理工媒体实验室、微软等,分别在语音遥控、多媒体交互领域、人脸识别等方面达成了合作。
乐视:从乐视一代超级电视开始就搭载有语音功能,超级电视语音技术经历从合作到自主研发的过程,乐视的超级语音技术,不仅包括语音识别和语义分析,其自主研发的语音合成TTS技术已全面上线。
几乎每一个厂商都在强调对语音认知已从功能层面上升到人工智能。而且背后还有巨大的合作团队,与知名的语音技术和人工智能平台密切合作和研发。这种全军出击的局面,很难否定智能语音在电视行业的发展盛况。但盛况并不意味着技术和商业的足够成熟。
语音识别究竟有多难?
为什么智能语音技术发展了这么长时间,还是做不到对语音和语意的精准识别呢?我们有必要先了解一下语音识别是怎么做到的。
声音实际上是一种波纹,就像自然中的光谱一样。如果要对声音进行分析,就要先把声音的这种波纹切分成很很多小片段,就好比一个视频由很多帧画面构成,画面又由很多个像素点构成一样,语音也可以切分成很多帧。所以语音识别的大概流程可以归纳为以下几点:
采集:声波信息分段采集
编码:把每一单位长度的语音变成多维向量(内容信息)
训练:从数据中学习对语音的判断,而不是用人工的规则。 用数据库和建立模型让语音系统自我学习(如果遇到方言,需要建立独立的一套系统)
解码:用训练好的模型组合起来就可以通过判断新的语音向量,来识别语音了。
反馈:将分析结果通过设备播放出来。
看似很简单的一个过程,其实每一个环节都有很多难点,有很多不可控的因素存在。一方面是复杂条件下,识别率显著下降,比如地方方言、背景噪音,还有说话语速的差异,都是不具规律性的;另一方面是语音的训练和测试用数据的并非完全匹配,如果用人民广播电台的语音来训练数据库,那实际操作中哪有这么多广播员呢?
这些都还只是皮毛,最重要的是人工智能对于语意的理解才是巨大的困难。就算作为人类,在没有前后文的情况下,突然扔给你一段话,你也不见得能理解它的意思。而人工智能就更是一脸懵逼了,不同的麦克风、噪音、口音以及谈话内容下,人工智能作出的反应可能都截然不同,本质上它还不具备意识,对人类的语言缺乏足够的认知。
语音交互在电视上的实际操作过程中,还会遇到这样一个窘境:反应速度问题。试想一下如果对电视提出一个问题,哪怕回答的结果是准确的,但是等待时间却长达两三秒的话,你还有欲望继续对它说话吗?
综上所述,无论是语音识别算法的亟待革命、语音工程上或缺的奇迹,或者是硬件性能上的各种限制,智能语音发展到今天远远还谈不上轻车熟路。只不过正好它遇上了这个时代,能够忽略它的不成熟,容忍它的成长过程。因为它已经发展的足够快了。
除了足够智能,还需要什么?
如今的智能语音并非完美,但是在电视这个平台上,真的需要需要那么智能吗?
电视的用途主要是什么?搜索-点播-播控,无非就这是三点,深度整合一下在线和离线时的语音识别工具包,并及时更新,就能够基本满足用户对此的需求。
但是如果把电视当做的人工智能控制中心,那电视就将会高频率的用起来。那对智能语音的要求就要高很多了。但是有一点作为智能电视的本质属性,是永远不会改变的。那就是给用户提供足够多的内容和服务。
如果电视没有足够多的模块和功能,没有足够多的内容和服务,用户使用语言的动机就会缺失。如果没能打通所有家电智能平台,没有统一控制协议,那用户使用智能语音就会处处受限。
真正要让用户把智能语音功能使用起来,优秀的语音识别技术,仅仅是其中很小的一部分,在家庭场景下的解决用户实际问题的服务,才是根本。像很多厂商在电视上加入的人脸识别、儿童教育,配合智能语音,才能发挥语音技术在这一场景下的价值。
总结:人工智能只有在不断交互的情形下,它才有使用的意义和进步的空间。所以在智能交互不断更迭的物联网时代,智能语音技术来得恰是时机。很多人把它看做是下一波风口,也并非无稽之谈。只不过,一切科技的价值都是围绕人性服务而产生,如何用智能语音连接所有家庭环境下人性的需求,才是技术研发的同时,品牌制造商们迫切需要思考的问题。