智能语音助手技术发展至今,大部分功能还是依托于「理解」以语音为基础的语义上。例如我对Siri说:「今天天气怎么样?」为了解答这个问题,Siri分别要做以下两个动作,先将语音文字转化为文字信息(显示在屏幕上),然后运用自然语言处理技术对句子中的关键信息进行「理解」,最后才能做出解答。
而如果这两个动作的任何一个出现差错,都会影响最终的结果输出。我想大家在使用Siri时都有过这样的体验,当你给出一句意义糊不清的语音指令时,Siri由于不确定自己「理解」得对不对,一般会反问你该输出结果的正确性,这时你可能需要多点击一次屏幕或者多进行一次回答才能获得自己想要的最终结果。
苹果在最新的专利中,打算通过引入「面部分析」的功能来帮助Siri更好地理解用户的请求。
据美国商标专利局的文件显示,苹果最近申请了一项名为「智能软件代理」的专利,能让智能助手根据用户的面部表情或情绪来完成不同的操作。
为了实现这样的功能,当用户使用Siri时,前置摄像头将自动激活来充当「眼睛」的作用,并将获取的表情动作与FACS(面部行为编码系统)进行配对,帮助Siri读懂用户的表情和情绪,并最终给出更加准确的回答。
FACS(面部行为编码系统)根据人脸的解剖学特点,将其划分成若干既相互独立又相互联系的运动单元,并分析这些运动单元的运动特征及其所控制的主要区域以及与之相关的表情,形成大量照片说明。面部行为编码系统将许多现实生活中人类的表情进行了分类,它是如今面部表情的肌肉运动的权威参照标准,也被心理学家和动画片绘画者使用。
苹果近两年来一直都在大力推动Siri的发展,从先前泄露的Siri文件来看,苹果计划在2021年秋季为Siri带来多个新功能。根据该报告,苹果正在研究未来的Siri更新,首先,Siri在两年后将配合一款尚未命名的新设备,实现「有关于健康问题的咨询问答」,并提供机器翻译功能。
而更早之前,有报告暗示苹果或许将在明年的WWDC上推出SiriOS系统,这将是一个独立开发的项目,相当于Amazon Alexa的Alexa Skills Kit或者Google Assistant使用的Action开发环境,而非成为现有操作系统(iOS、macOS、iPadOS)的一部分。基于此,报告预测SiriOS将允许开发者将其编写进应用程序,提供更强的自定义体验。