ITBear旗下自媒体矩阵:

亚马逊发布Nova Sonic语音模型,挑战OpenAI与谷歌前沿技术

   时间:2025-04-09 12:28:31 来源:ITBEAR编辑:快讯团队 发表评论无障碍通道

亚马逊近日震撼发布了一款名为Nova Sonic的先进生成式AI语音模型,该模型能够直接处理并生成自然流畅的语音,标志着亚马逊在AI语音技术上的重大突破。

据悉,Nova Sonic在速度、语音识别及对话质量等核心指标测试中,展现出了与OpenAI和谷歌顶尖语音模型相抗衡的实力。这一成就不仅是亚马逊对诸如ChatGPT语音模式等新兴AI语音模型的有力回应,也预示着AI语音交互新时代的到来。

相较于亚马逊早期的Alexa模型,Nova Sonic在语音交互上更加自然流畅,为用户带来了全新的体验。通过亚马逊的Bedrock开发者平台,用户可轻松接入Nova Sonic,该平台专为构建企业级AI应用而设计。Nova Sonic采用了一个创新的双向流式API,进一步提升了其应用灵活性和便捷性。

亚马逊在新闻稿中自豪地宣称,Nova Sonic是市场上“最具成本效益”的AI语音模型,其价格相比OpenAI的GPT-4o模型便宜了约80%。这一价格优势无疑将吸引更多开发者选择Nova Sonic作为他们的AI语音解决方案。

据亚马逊高级副总裁兼人工通用智能(AGI)部门首席科学家罗希特·普拉萨德介绍,Nova Sonic的部分组件已经为亚马逊升级版数字语音助手Alexa+提供了强大动力。普拉萨德还表示,与竞争对手的AI语音模型相比,Nova Sonic在路由用户请求到不同API方面表现出色,能够智能地判断何时需要从互联网获取实时信息、解析专有数据源或在外部应用程序中采取行动。

在双向对话场景中,Nova Sonic展现出了极高的智能性。它会等待“合适的时机”发言,充分考虑说话者的停顿和打断等情况,使得对话更加自然流畅。Nova Sonic还能为用户的语音生成文本记录,这些文本记录可被开发者用于各种应用场景,进一步拓展了其应用潜力。

在语音识别方面,Nova Sonic同样表现出色。据普拉萨德介绍,Nova Sonic的语音识别错误率比其他AI语音模型更低,即使在用户咕哝、说错话或处于嘈杂环境中时,也能准确理解用户的意图。在一项跨语言和方言的语音识别基准测试——多语言LibriSpeech中,Nova Sonic在英语、法语、意大利语、德语和西班牙语上的平均单词错误率(WER)仅为4.2%,这一成绩令人瞩目。

在衡量多人参与的高音量互动基准测试——增强多方互动中,Nova Sonic也展现出了卓越的性能。亚马逊称,Nova Sonic在单词错误率方面比OpenAI的GPT-4o-transcribe模型准确率高出46.7%。同时,Nova Sonic还拥有行业领先的速度,其平均感知延迟为1.09秒,比OpenAI为实时API提供动力的GPT-4o模型更快。

Nova Sonic的发布是亚马逊构建人工通用智能(AGI)这一更广泛战略的重要组成部分。普拉萨德表示,亚马逊计划推出更多能够理解不同模态(包括图像、视频和语音)的AI模型,以及“其他在将事物引入物理世界时相关的感官数据”。这一战略无疑将推动亚马逊在AI领域的持续创新和领先。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version