随着春节的喜庆氛围弥漫全球,一款名为DeepSeek的国产AI应用迅速走红,不仅彰显了国产AI技术的崛起,也展示了生成式AI所带来的前所未有的创新潜力。而在这场AI盛宴中,声网适时推出了其Conversational AI Engine(声网对话式AI引擎),为DeepSeek等大模型提供了无缝接入的能力,助力开发者轻松构建出超低延时的对话式AI应用场景。
声网的这一对话式AI引擎,是基于全球广泛认可的TEN framework开源框架构建的,它不仅实现了行业领先的650毫秒超低响应延迟,还具备对话人声锁定、全模型适配等关键优势,为用户带来更加流畅自然的对话体验。
声网Conversational AI Engine的一大亮点是其全模型敏捷适配能力。通过独创的全栈模型兼容体系,该引擎能够无缝接入第三方云端大模型服务、企业私有化模型以及本地化部署的开源模型,实现跨架构模型的快速适配。这一技术不仅适用于新模型,对于老模型也同样友好,通过标准化API,老模型也能实现一键式快速接入,大大缩短了接入周期,保障了企业AI模型资产的无损迁移和持续价值转化。
在真实的对话场景中,打断对方并提出新疑问是常有的事,而对于对话式AI来说,能否支持随时打断也成为了衡量其智能化的一个重要标准。声网自主研发的AI VAD技术,能够很好地适应人类对话的停顿、语气和节奏,使得AI在对话过程中能够随时优雅地打断对方,更加贴近人心。
声网还针对大模型语音交互中存在的误打断问题进行了优化。在嘈杂的环境中,如商场、地铁站、咖啡店等,背景人声和环境噪音很容易干扰到人与AI的交互,导致AI误触发打断机制,停止交互。为了解决这一问题,声网技术团队结合多年积累的AI降噪等音频对话处理能力,智能屏蔽交互中的各类背景人声与噪声干扰,即使在嘈杂环境中,也能保证对话的精准和流畅。据测试,在噪杂环境下,声网的方案误打断率较ChatGPT降低了50%。
除了误打断问题,多模态大模型在不稳定网络环境下的交互稳定性和流畅性也是很多AI企业需要优化的方向。声网凭借其在音视频领域的深厚技术优势和场景实践,通过实时网络覆盖、网络超强适应、海量终端适配等能力,打造出了全球一致的端云覆盖体验。即使在网络不稳定的室外环境,声网的智能路由+抗弱网算法也能实现跨区域丝滑互动,即使在面临80%丢包的情况下,人与AI也能稳定交流。
目前,声网的Conversational AI Engine已经开放了Private Beta版本的邀请测试。如果您对这款对话式AI引擎感兴趣,想要体验Demo或获取产品测试接入的服务支持,可以关注声网的官方渠道,了解更多详情。