SACC2017第九届中国系统架构师大会
2017年10月19日,第九届中国系统架构师大会(SACC2017)于10月19日在京震撼来袭,大会云集了国内外百余位顶级技术专家及行业领袖,围绕云计算、人工智能、大数据、移动互联网、产业应用等热点领域展开技术探讨与交流。
近5年,伴随着深度学习在语音领域的革命性应用, 语音交互成为IoT时代重要的交互方式之一,在家居、车载、玩具、机器人、客服等场景得到了成功应用。大会设立了语音技术专场,邀请了阿里巴巴、滴滴研究院、思必驰、先声教育等众多领域的技术专家出席,对语音技术畅所欲言。
思必驰研发总监张顺受邀出席,以《可定制开发的语音交互技术——DUI的全链路定制探索之路》为主题,分享在可定制智能对话方面的实践与思考。
思必驰研发总监张顺
大规模定制开发的必然
人类经历着从PC时代、移动时代到现在IoT时代的发展,交互方式也从命令行、图形交互向语音交互方向发展。思必驰作为国内专业的人工智能语音企业,经历着从通用语音云、AIOS对话操作系统,到DUI开放平台(www.dui.ai)的发展过程。
思必驰AIOS对话操作系统
AIOS系统是目前在智能终端领域应用十分广泛的完整的语音交互系统,它处于交互层,封装了核心的语音技术和对话逻辑,通过抽象接口,极大降低开发者集成难度。但这却使产品对语音厂商产生严重依赖,一个垂域使用一个模型,延迟了智能终端产品的迭代更新。张顺表示,智能语音交互技术的整个链条较长,涉及到前端信号处理、唤醒、识别、语义、对话、问答等诸多核心技术,开发者往往无从下手。大规模定制开发是必然方向,思必驰DUI开放平台应运而生。
思必驰DUI开放平台是全链路智能对话定制平台,企业/个人开发者均可进行Skill开发,操作过程更简单, 可自助式定制开发。同时接入产品,更简单快速地接入新产品, 勾选使用语音Skill。从而快速赋能智能终端,加速产品的升级与迭代。
在DUI上的可定制的对话交互
在DUI平台上的可定制对话大致可分为检索型、知识型、任务型三大类型。
在DUI上的可定制的对话交互类型
检索型对话一般是单轮一问一答,不容易形成结构化的内容存储,最典型的应用是聊天或客服QA。知识型的可定制对话一般也是单轮一问一答,具备特定域、知识可以结构化、用户期待较高的特点,可以创建基于知识图谱的Skill。任务型的对话是目前语音行业倾注精力比较多的领域,具备明确的目的性、多轮对话的特点,并且需要跟踪对话状态以及决策策略,应用于严肃场景,用户期待非常高,不容出错。从用户指令到机器回答,很多场景下都是三种对话类型融合的,开发者可以使用多引擎skill的混合架构完成定制。
关于语音技术问题的思考
1、识别与语义不可分开
在应用场景中,内容资源、语言模型与语义需要三者配合好,仅有识别或语义是不够的,识别与语义不宜分开。对于像“MC子龙”类的新词汇和特殊词汇,开发者需要其添加到语言模型和训练的语料中,通过DUI平台的内置语言模型加上定制的skill的语言模型,可以实现对开发者添加的词语/句子的更好的识别。
2、对Skill的调度
对Skill实现良性的调度,可以通过强说法、指名道姓、技能优先级、对话消歧、用户画像等方式进行解决。例如亚马逊Alexa的典型做法就是指名道姓,例如,购买咖啡的时候,需要用户明确指出“打开星巴克”或者“打开Costa”等。随着用户行为数据的积累,未来机器也可以分析用户行为形成用户画像,进而对用户的指令进行个性化回复。
3、多模态交互处理
从市场应用来看,单纯的语音交互使用户接触到信息太少。例如,在中国家庭中,电视的普及程度远远高于音箱,或许未来,电视会成为家居场景下语音交互非常乐观的产品。
以电视为例,交互方式涉及GUI与VUI的结合并达到同步的状态。当语音交互成为主要方式时,需要用GUI辅助对话。对于兼具语音与图形交互的产品,DUI平台设计了对话控件, 对话控件包括数据、GUI、对话三个要素,DUI上默认提供了内容卡片、列表、音乐播放、内嵌网页等, 开发者也可以自已定义一个控件, 降低了开发者的开发难度。
4、跨Skill的上下文
在DUI开发平台上可以进行跨Skill的上下文处理、多引擎(IR,KG,Task)的融合、指代消解、知识推理。在多个技能间共享上下文,例如用户询问”北京的天气怎么样?”, 再说”导航去那”,分别对天气技能和导航技能进行处理, 这里的”那”是一个指代词, 系统可以自动利用上下文信息进行指代消解, 分析出用户是想”导航去北京”。另外一个挑战是基于知识的推理, 例如”我想看孙俪的老公的电影”,这里需要利用知识图谱推理出用户是想看”邓超的电影”, 这个能力DUI平台也在计划开放出来。
5、无网情况下可使用的功能
在应用场景下,并不是所有时候网络都是可靠的,这需要云+端的解决方案,打电话、简单命令、导航类功能的本地需求十分旺盛。DUI平台支持云+端混合方案的本地技能,在本地也可以运行ASR、SLU、DM等算法模块,当网络弱或网络差时可以切换到本地, 不依赖网络也可以运行。
从物联网到未来教育
先声教育技术服务
人工智能的浪潮席卷了各个行业,在教育领域,思必驰基金投资的AI教育服务商先声教育CTO及联合创始人秦龙也出席了SACC2017大会,在现场发表了《人工智能助力新时代K12教育》专题演讲,他表示,借助人工智能技术可以帮助老师和学生提高教学、学习效率,同时语音、语言、图像等人工智能技术在最近几年取得了长足进步,目前在K12教育多领域得到成功落地,未来人工智能将会对传统K12教育产生更深远的影响。
写在最后:
人工智能为我们带来了更多的想象,如何让交互更自然、更智能、更鲁棒,成为行业共同奋斗的方向,也留给众多企业更多的发展空间。这需要更多的工程师、设计师、产品专家等等行业人员的交流和探索,共同推动人工智能语音技术在产品级得到更好的应用和实现。