亚马逊近日震撼发布其最新一代生成式AI语音模型——Nova Sonic,标志着语音交互技术迈入全新纪元。据官方介绍,Nova Sonic在语音对话方面展现出了卓越的能力,能够无缝对接说话者的自然停顿与打断,精准把握对话节奏,相比前代Alexa,用户体验显著提升,更加流畅自然。
在多语言性能测试中,Nova Sonic同样表现出色。在LibriSpeech基准测试中,该模型在英语、法语、意大利语、德语和西班牙语上的单词错误率平均仅为4.2%,远低于业界平均水平。特别是在高音量多人互动场景下,Nova Sonic的单词错误率相较于OpenAI的GPT-4o-transcribe模型降低了46.7%,展现出强大的语音识别能力。
Nova Sonic在响应速度上也实现了突破,平均感知延迟仅为1.09秒,比OpenAI的GPT-4o模型快了0.09秒。亚马逊自豪地宣称,Nova Sonic是市场上最具成本效益的AI语音模型,其价格相比GPT-4o便宜了约80%,为用户提供了高性价比的选择。
为了让更多开发者能够利用这一先进技术,亚马逊通过Bedrock开发者平台提供了Nova Sonic。该平台专注于企业级AI应用的构建,为开发者提供了强大的支持。同时,Nova Sonic还支持全新的双向流式API,使得开发者能够更加便捷地部署和使用该模型。事实上,Nova Sonic的部分组件已经应用于亚马逊升级版数字语音助手Alexa+,进一步提升了其语音交互的精准度和流畅性。
Nova Sonic的发布,也是亚马逊构建人工通用智能(AGI)战略的重要一环。AGI被定义为能够完成人类所能做的一切事情的AI系统,是亚马逊在AI领域追求的最高目标。亚马逊透露,未来还将推出更多能够理解不同模态(包括图像、视频和语音)的AI模型,以进一步拓展其在AI领域的布局。
亚马逊还计划逐步将更多内部AI模型开放给开发者使用,以激发更多创新应用的诞生。同时,亚马逊还推出了Nova Act的预览版,这是一个基于浏览器的AI模型,为Alexa+和“代我购买”功能提供了有力支持,进一步提升了用户体验。