2020年1月13至17日,在韩国釜山举行的ISO/IEC JTC 1/SC 35全会上,由科大讯飞主导,联合中国电子技术标准化研究院和中科院自动化所,提出的全双工语音交互国际标准正式获批立项(ISO/IEC 24661 Information technology-User interfaces-Full duplex speech interaction)。该标准也成为在人机交互领域中,首个由中国牵头制定的智能语音交互国际标准。
人机交互,是当前AI核心技术与应用的重要领域。语音作为最自然便捷的交流方式,长期以来一直是人机交互最重要的研究领域之一。随着以深度学习、强化学习为代表的新一代AI技术发展,越来越多的语音交互产品和服务,正走入生产生活的方方面面,以更智能的方式服务于千家万户。近年来,以智能语音交互技术为核心的智能助理、智能家居、智能办公等诸多AI应用,已形成了一个巨大且成熟的市场。在此背景下,持续高质量发展的全球智能语音产业技术和贸易,亟需通过标准的制定和应用来凝聚共识。
据悉,此次立项的全双工语音交互国际标准为ISO/IEC国际标准。国际标准组织(ISO)和国际电工委员会(IEC)是全球标准化领域的两大权威组织,组织各国专家共同制定作用于全球范围的技术标准。ISO/IEC JTC 1 是ISO和IEC共同成立的负责信息技术领域国际标准制定的技术委员会,下设多个分技术委员会,是全球信息技术领域最大、成员国最多的国际标准化组织。其中,人机交互界面标准技术委员会(ISO/IEC JTC 1/SC 35)负责组织基于ICT技术的人机交互相关的国际标准制定,包括语音交互相关的语音命令、语音机器翻译、同传机器翻译等。
作为国家新一代人工智能开放创新平台、认知智能国家重点实验室和语音及语言信息处理国家工程实验室,科大讯飞凭借多年的技术积累,研发了覆盖智能语音交互全链路的自主创新技术,实现让人通过自然语音方式与机器进行双向交流。相较于传统语音交互技术,全双工语音交技术能够实现单次唤醒、连续对话、随时打断的自然流畅的人机对话体验,并具有更好的上下文语义理解和智能对话能力。在国际上,谷歌、微软、苹果等纷纷切入到这一领域。例如谷歌在2018年的开发者大会上所展示的人工智能(DUPLEX AI)技术,正是全双工语音交互的典型案例。而在国内,科大讯飞在2015年就率先发布了全双工语音交互技术,并以此为基础打造了AIUI人机交互开放平台。通过自主研发全球领先的语音识别、自然语言理解和语音合成等技术,科大讯飞正在用人工智能为万物互联时代的多模态交互赋能,从而实现人机交流无障碍,使人与机器之间可以通过语音、图像、手势等自然交互方式,进行持续、双向、自然地沟通。
目前,科大讯飞已将此项技术应用在AI+城市、AI+医疗、AI+教育等领域;以科技赋能,推动行业发展。
值得一提的是,现阶段新型冠状病毒防控工作十分严峻。基于全双工语音交互技术的讯飞智医助理外呼平台在安徽、北京、浙江、吉林、湖北等18个地区,正在帮助各级卫健委、基层医生,开展新冠肺炎相关的防控宣传和重点人群随访等工作。1月21日至2月1日,外呼平台针对新冠肺炎疫情累计服务已超过625万人次。
作为全球人工智能产业中的一员,科大讯飞始终以顶天立地的技术应用创新,持续参与全球技术标准制定。作为全双工语音交互国际标准制定的主导者,科大讯飞将紧密联合中国电子技术标准化研究院、中科院自动化所等国内产学研用单位,组织和整合世界各国专家的技术力量,针对全双工语音交互系统架构、特性方法、能力单元和技术要求等方面制定国际规范,推动中国自主创新技术走向国际,为打造全球人工智能+人机交互开放共赢的产业生态提供助力。