在周末的极客公园年会上,百度公司创始人李彦宏大谈人工智能,robin认为现在人工智能已经趋于成熟,在移动互联网时代,技术变得更加重要。与此同时,奇点大学的校长Ray Kurzweil表示2020 年我们模拟人类智能的成本就很低了, 2045 年人工智能超越人类的智慧带来全新形态的文明。
人工智能的新文明让人向往,我很期待自己有一个像《星际穿越》里塔斯(Tars)一样聪明的机器人伙伴,不仅能帮我解答难题,还能陪我唠嗑聊妹子。然而,即便到了2045年,也许只是实验室的人工智能大突破,我们普通人也未必能有自己的Tars。
相比颇具科幻感的未来人工智能,普通大众更容易接触到的是智能语音技术带来的生活改变,中兴通讯、nuance、audience、百度、高德、中国科学院自动化所等近十家单位成了智慧语音联盟,已经在布局智慧语音技术的规模应用和生态建设。智慧语音作为人工智能前端的交互模式,更接近于人类交流模式,而且可以分阶段、分层次、分深度地融入手机、汽车、家电等设备中,一步步地牵引人们走向人工智能的时代。
科技革命:智慧语音的四大阶段
在我的理解里,智慧语音技术和应用按照其智能程度、价值水平、交互层次、思考深度等分为四大发展阶段:语音聊天、语音操控、情感化人格化、人机合一。
语音聊天。这是语音技术的初级模型建立期。语音聊天是机器学习的过程,也是赋予机器思考能力的过程,人们和机器人进行对话聊天的过程中,机器人越来越智慧,并逐步建立人的样本特征库。像iphone 上的siri、小娜等聊天机器人都是用大数据和机器学习的技术进行人机对话,这些聊天大多数是娱乐需求,在早期活跃度很高,但随着人们新鲜期的退潮,语音聊天的热度持续性在大幅降低。
语音操控。这是智慧语音的应用阶段,将语音技术和系统软件的深度整合,是赋予机器功能以运动能力和语言系统控制的能力,好比人的语言命令系统。此阶段,让机器和人的沟通超出了聊天对话,而具有现实的应用价值,发挥技术生产力价值。像中兴刚推出不久的智能手机-星星2号就是把语音内嵌到操作系统里,可以通过智慧语音来唤醒手机的应用、通讯录、拨打电话、听音乐等功能。星星2号是中兴手机的语音手机重点产品,最抢眼的是驾驶模式下可以通过语音全操控手机,不需要触摸手机或屏幕就可以唤醒手机,并操控手机,还可以智能播报短信、语音转文字等,将智慧语音的交互模式优势发挥到了极致。
情感化和人格化。相比语音操控的语音和机器深度整合,智慧语言的下一步也许是更加充满情感,像人一样有情感交流,人格化是智慧语音接近于人类自然语言系统的高级境界。此阶段,星星2号那样语音操控会是最基本的智慧能力,星星x号的智慧语音或许可以听出人的语气、情绪、态度,而不仅仅是通过简单的字面意义的互动,它们会像你的助理一样陪着你生活、快乐、感伤,这就要要求智慧语音系统有高超的声纹识别技术和聪明的大脑。
人机合一。这听起来就比较科幻了,但是从目前的人工智能技术发展来看,也许10-20年内是能够实现的,这个阶段智能语音交互模式已经无限接近于人类的语言系统,并能将人类的自然语言转化成操控机器的指令系统,能够主动地为主人提供服务,并通过开放api能够语音操控非常多设备。机器像人一样思考,能够理解人的语言含义和情感系统,每一个机器像自己的兄弟一样可以一起战斗。
现阶段智慧语音给我们带来了什么
Siri、小娜们带了智能手机的拟人化互动沟通乐趣,偶尔放松一下也无妨,但由于其只是独立app,需要触控操作唤醒,能够实现的语音操控十分有限,是智慧语音时代一个良好的趣味开始。siri的贡献是让人们发现了语音技术的力量,并培养了初步的用户习惯,开启了智慧语音的大门。
星星2号的智慧语音水平是第二阶段的,重点强化了语音系统和手机操作系统的深度整合,语音可以操控手机的主要功能需求,其最大的特点是驾驶模式场景,智慧语音的交互模式展示了高实用价值。中兴在星星系列语音手机方面下了很大的功夫,相信开车一族会比较喜欢星星2号这种特色手机,开车时候不需要用手触摸操作手机了,语音操控交互模式在驾驶模式下变成刚性需求了。
从我对星星2号的体验来看,智慧语音操控基本上够用,驾驶模式下大部分操控都已经实现了,用的住,同时,希望中兴能够在后续版本技术升级中不断增加细粒度,也就是提高智慧语音操控手机和应用的种类、应用内动作等。比如,是否可以在未来通过开放api的方式让一些经常使用的应用能够接入进来,比如驾驶模式下语音读新闻、读帖子、读小说应用里的小说、读微信朋友圈文字等等,将整个手机操作系统彻底实现语音操控。(当然,这么干,成本是很高的,一步步来,先做好价值高的部分)
智慧语音的个性化会很有趣
星星2号现在能够唤醒并打开使用高德地图,但是高德地图有个林志玲版播报、郭德纲版播报,我很喜欢高德地图这个功能,让天天见到的地图应用充满了乐趣和亲切感,如果中兴也借鉴一下高德地图的这个思路会很有趣。每天林志玲、郭德纲们给我打开音乐、搜这搜那,读短信,会是很拉风的一件事儿。
口音识别的技术现在做的总体还是不错的,但还需要提升,降噪是一个思路,我在想,智慧语音能识别口音,是否它能用烟台话和我交互呢?根据我对汉语的研究,四川话、山西陕西话、胶东话、苏浙口音、闽粤、客家等差异都比较大,现在智慧语音是把土话识别成普通话,那么,是否可以逆向思维,输出土话呢?比如,我的星星手机起名为“小嫚”,我跟她说“小嫚,过来哈点儿酒吧”,智慧语音估计很难识别出来,这个机器学习是否能够解决呢?
我还想到一个有趣的场景,罗永浩一直被称为手机界里相声说的最好的,其实,演讲能力大家是都需要的。智慧语音的机器人可以扮演观众,手机主人面对观众进行演讲训练,每当稍长停顿就来点鼓励或掌声,让每一个人都变成相声演员,让腼腆内向的人走出封闭,让孤独寂寞的人有一地方宣泄。所以,我觉得语音情景模式和场景细节中很多东西,这些可以构建出一个智慧语音产品层面的store,让社群参与智慧语音的外部研究和应用场景研究。
语音操控的更高境界是什么
语音操控的核心就是语言系统和操作系统的无缝整合,语音指令系统和操作系统api的整合统一,在语音模式下,语音指令权重更高,操作系统的api起到很重要的作用。逆向思维,智慧语音的操控系统同样也是可以输出api的,如果以语音操控系统为基点,开放语音操控api给手机app开发者们,让各种优秀应用的操作都能够接入到语音操控系统里,这样智慧语音就可以更早一天实现全语音操控手机和使用应用。
更进一步,既然语音操控能够开放api,那么,就意味着可以进行复杂的api编程,可以根据算法序列将一个个语音指令连续起来,并且可以接入到工业机器人、军用机器人、园艺机器人等身上,从而实现语音远程操控系统。这样,我们就可以远程语音和家里的机器人管家对话了,这有点像我们现在正在推进智能家居的连接工作。
高级的语音操控编程在计算能力支撑之下,可以和人进行实时地远程对话交流,我军派出的无人机在自动化战斗的同时,也可以听从指挥部或预警机空中指挥部直接进行语音指挥作战,此时,一言既出,驷马也能追啦。