随着城市的快速发展,噪音作为“看不见的污染”,正持续地“入侵”着现代城市生活。不过,这一难题,现已在众多场景中,被思必驰新一代的智能降噪技术所攻破。
自研算法,兼顾噪音抑制和保真性
语音识别近年来有了极大的发展,但在当前,它还没有达到“一套技术打遍天下”的状态。作为一个强场景化的技术,语音识别在诸多真实应用场景中,仍然存在着“最后一公里”的问题。
这其中,特定场景的噪声,就是一个非常大的干扰因素,会使得通用系统识别准确率的急剧下降。可以说,降噪是对话式人工智能技术在实际应用中所要解决的首要问题。
传统的噪音抑制方法,只能作用于某些固定的稳态噪音,如空调等电器的运转声,通过寻找连续的背景音,预估噪声的基线,然后将其过滤掉。
而动态噪音,如开关门声、汽车喇叭声、尖叫声、宠物叫声等,和人的语音出现频率重叠时,传统方法就无法很好的抑制。深度神经网络(DNN)则在这一领域表现出了强大的优势。近几年来,深度学习方法取得飞速发展,更强大的深度神经网络被应用于语音识别,包括卷积神经网络(CNN)等。
传统降噪结合AI降噪,兼顾降噪效果与人声保真度
思必驰的智能降噪技术采用的是“两者兼融”的方式——传统分离结合深度学习方案,可以兼顾传统信号处理的保真性和深度学习的非稳态噪声抑制能力,即在很好的去除非稳态噪声的同时保证语音的较小失真,听感更自然。
在深度学习的神经网络结构方面,思必驰也与传统的语音模型仅使用1至2层卷积层不同。思必驰采用的是自研的极深卷积神经网络模型(VDCNN),该模型通过堆叠较小的卷积层和池化层,将语音模型中的卷积层的深度提高到了10层以上。利用小卷积核更加精细的局部刻画能力和频率不变性描述,能够更好地在语音模型的内部实现了声学自动降噪的能力。
原始音频
降噪音频
因地“治噪”,清晰悦耳体验即时赋予
思必驰算法模型的应用,使得系统巨大的性能提升。不过技术的价值,仍需要实际应用来检验和证明。目前,声学模型已覆盖家居环境、车载环境、卖场商场环境、公共交通环境以及办公环境等数十个典型场景,在诸多智能终端产品中大展拳脚。
会议场景
思必驰智能降噪技术基于上千小时会议场景噪声模型学习和研究,能够有效抑制会议室多种背景噪音,包括稳态噪声、动态噪声,例如空调声、电脑运转声、键盘敲击声鼠标点击声、椅子拉动声、脚步声、开关门声、翻书声、鼓掌声等等。
搭载该技术的思必驰会议魔方M1,能够保留还原出干净的语音原声,有效避免远程会议时与会人员被杂音干扰。针对在远程会议中经常听到的通话回声,严重时会听到刺耳的啸叫声等设备自噪声,会议魔方M1采用麦克风扬声器分离式设计,并内置业内领先的智能回音消除技术(AEC),能够有效地消除通话中产生的回音,线性回声消除ERL≥35dB,总体回声抑制能力≥60dB。
城市交通场景
城市交通是噪声污染的主要来源。在地铁、机场、驾车、骑行等具体环境中,所面临的噪声挑战各不相同。其中,难度最大的当属骑行过程中智能穿戴产品的降噪,一方面面临马路上的常规噪声干扰,另一方面是风噪的影响,两者都会对语音的质量造成较大影响。
针对风噪问题,思必驰耳机方案结合入耳麦的物理防风特性,配合深度学习降噪,有效地抑制了风噪带来的影响,同时具备降噪深度高、鲁棒性强、稳定性佳等优势。哪怕是在开窗行驶的汽车中等噪声环境下,通话对象也能清楚地听到用户的说话内容。
商场、餐厅场景
商场、卖场、餐厅等环境,是又一个富有挑战性的降噪场景,因为其噪声的来源较多,噪声类型非常丰富,而且噪声比较大,约70分贝以上。
在上述场景中,服务人员可通过佩戴蓝牙耳麦、智能录音工牌等拾音设备与客户交谈,将所交流的信息提取以进一步提升服务质量、驱动业务创新,让AI辅助服务行业数字化升级。
医疗场景
医疗场景的应用,面临着器械噪声、候诊人群话语声等背景噪声,不过思必驰技术团队表示,这其中最为难处理的是核磁共振检查时的设备本身的自噪音,信噪比极低。
做过核磁共振检查的人都知道,核磁共振设备运转时发出的噪音非常高,这使得医疗人员与病患在检查时存在极大的沟通困难。针对这一场景的降噪方案,能够有效帮助医疗人员指导病患配合检查,提高检查效率。
(以上场景降噪效果,可关注思必驰关微信公众号,查阅本篇内容聆听对比)