智慧语音让人工智能变性感，人机合一还有多远-人工智能-ITBear科技资讯

在周末的极客公园年会上，百度公司创始人李彦宏大谈人工智能，robin认为现在人工智能已经趋于成熟，在移动互联网时代，技术变得更加重要。与此同时，奇点大学的校长Ray Kurzweil表示2020 年我们模拟人类智能的成本就很低了， 2045 年人工智能超越人类的智慧带来全新形态的文明。

人工智能的新文明让人向往，我很期待自己有一个像《星际穿越》里塔斯(Tars)一样聪明的机器人伙伴，不仅能帮我解答难题，还能陪我唠嗑聊妹子。然而，即便到了2045年，也许只是实验室的人工智能大突破，我们普通人也未必能有自己的Tars。

相比颇具科幻感的未来人工智能，普通大众更容易接触到的是智能语音技术带来的生活改变，中兴通讯、nuance、audience、百度、高德、中国科学院自动化所等近十家单位成了智慧语音联盟，已经在布局智慧语音技术的规模应用和生态建设。智慧语音作为人工智能前端的交互模式，更接近于人类交流模式，而且可以分阶段、分层次、分深度地融入手机、汽车、家电等设备中，一步步地牵引人们走向人工智能的时代。

科技革命：智慧语音的四大阶段

在我的理解里，智慧语音技术和应用按照其智能程度、价值水平、交互层次、思考深度等分为四大发展阶段：语音聊天、语音操控、情感化人格化、人机合一。

语音聊天。这是语音技术的初级模型建立期。语音聊天是机器学习的过程，也是赋予机器思考能力的过程，人们和机器人进行对话聊天的过程中，机器人越来越智慧，并逐步建立人的样本特征库。像iphone 上的siri、小娜等聊天机器人都是用大数据和机器学习的技术进行人机对话，这些聊天大多数是娱乐需求，在早期活跃度很高，但随着人们新鲜期的退潮，语音聊天的热度持续性在大幅降低。

语音操控。这是智慧语音的应用阶段，将语音技术和系统软件的深度整合，是赋予机器功能以运动能力和语言系统控制的能力，好比人的语言命令系统。此阶段，让机器和人的沟通超出了聊天对话，而具有现实的应用价值，发挥技术生产力价值。像中兴刚推出不久的智能手机-星星2号就是把语音内嵌到操作系统里，可以通过智慧语音来唤醒手机的应用、通讯录、拨打电话、听音乐等功能。星星2号是中兴手机的语音手机重点产品，最抢眼的是驾驶模式下可以通过语音全操控手机，不需要触摸手机或屏幕就可以唤醒手机，并操控手机，还可以智能播报短信、语音转文字等，将智慧语音的交互模式优势发挥到了极致。

情感化和人格化。相比语音操控的语音和机器深度整合，智慧语言的下一步也许是更加充满情感，像人一样有情感交流，人格化是智慧语音接近于人类自然语言系统的高级境界。此阶段，星星2号那样语音操控会是最基本的智慧能力，星星x号的智慧语音或许可以听出人的语气、情绪、态度，而不仅仅是通过简单的字面意义的互动，它们会像你的助理一样陪着你生活、快乐、感伤，这就要要求智慧语音系统有高超的声纹识别技术和聪明的大脑。

人机合一。这听起来就比较科幻了，但是从目前的人工智能技术发展来看，也许10-20年内是能够实现的，这个阶段智能语音交互模式已经无限接近于人类的语言系统，并能将人类的自然语言转化成操控机器的指令系统，能够主动地为主人提供服务，并通过开放api能够语音操控非常多设备。机器像人一样思考，能够理解人的语言含义和情感系统，每一个机器像自己的兄弟一样可以一起战斗。

现阶段智慧语音给我们带来了什么

Siri、小娜们带了智能手机的拟人化互动沟通乐趣，偶尔放松一下也无妨，但由于其只是独立app，需要触控操作唤醒，能够实现的语音操控十分有限，是智慧语音时代一个良好的趣味开始。siri的贡献是让人们发现了语音技术的力量，并培养了初步的用户习惯，开启了智慧语音的大门。

星星2号的智慧语音水平是第二阶段的，重点强化了语音系统和手机操作系统的深度整合，语音可以操控手机的主要功能需求，其最大的特点是驾驶模式场景，智慧语音的交互模式展示了高实用价值。中兴在星星系列语音手机方面下了很大的功夫，相信开车一族会比较喜欢星星2号这种特色手机，开车时候不需要用手触摸操作手机了，语音操控交互模式在驾驶模式下变成刚性需求了。

从我对星星2号的体验来看，智慧语音操控基本上够用，驾驶模式下大部分操控都已经实现了，用的住，同时，希望中兴能够在后续版本技术升级中不断增加细粒度，也就是提高智慧语音操控手机和应用的种类、应用内动作等。比如，是否可以在未来通过开放api的方式让一些经常使用的应用能够接入进来，比如驾驶模式下语音读新闻、读帖子、读小说应用里的小说、读微信朋友圈文字等等，将整个手机操作系统彻底实现语音操控。(当然，这么干，成本是很高的，一步步来，先做好价值高的部分)

智慧语音的个性化会很有趣

星星2号现在能够唤醒并打开使用高德地图，但是高德地图有个林志玲版播报、郭德纲版播报，我很喜欢高德地图这个功能，让天天见到的地图应用充满了乐趣和亲切感，如果中兴也借鉴一下高德地图的这个思路会很有趣。每天林志玲、郭德纲们给我打开音乐、搜这搜那，读短信，会是很拉风的一件事儿。

口音识别的技术现在做的总体还是不错的，但还需要提升，降噪是一个思路，我在想，智慧语音能识别口音，是否它能用烟台话和我交互呢?根据我对汉语的研究，四川话、山西陕西话、胶东话、苏浙口音、闽粤、客家等差异都比较大，现在智慧语音是把土话识别成普通话，那么，是否可以逆向思维，输出土话呢?比如，我的星星手机起名为“小嫚”，我跟她说“小嫚，过来哈点儿酒吧”，智慧语音估计很难识别出来，这个机器学习是否能够解决呢?

我还想到一个有趣的场景，罗永浩一直被称为手机界里相声说的最好的，其实，演讲能力大家是都需要的。智慧语音的机器人可以扮演观众，手机主人面对观众进行演讲训练，每当稍长停顿就来点鼓励或掌声，让每一个人都变成相声演员，让腼腆内向的人走出封闭，让孤独寂寞的人有一地方宣泄。所以，我觉得语音情景模式和场景细节中很多东西，这些可以构建出一个智慧语音产品层面的store，让社群参与智慧语音的外部研究和应用场景研究。

语音操控的更高境界是什么

语音操控的核心就是语言系统和操作系统的无缝整合，语音指令系统和操作系统api的整合统一，在语音模式下，语音指令权重更高，操作系统的api起到很重要的作用。逆向思维，智慧语音的操控系统同样也是可以输出api的，如果以语音操控系统为基点，开放语音操控api给手机app开发者们，让各种优秀应用的操作都能够接入到语音操控系统里，这样智慧语音就可以更早一天实现全语音操控手机和使用应用。

更进一步，既然语音操控能够开放api，那么，就意味着可以进行复杂的api编程，可以根据算法序列将一个个语音指令连续起来，并且可以接入到工业机器人、军用机器人、园艺机器人等身上，从而实现语音远程操控系统。这样，我们就可以远程语音和家里的机器人管家对话了，这有点像我们现在正在推进智能家居的连接工作。

高级的语音操控编程在计算能力支撑之下，可以和人进行实时地远程对话交流，我军派出的无人机在自动化战斗的同时，也可以听从指挥部或预警机空中指挥部直接进行语音指挥作战，此时，一言既出，驷马也能追啦。