声网近日宣布了一项重大技术创新——对话式AI引擎的正式发布。这款引擎以其卓越的性能和多功能性,为AI交互体验树立了新的标杆。
声网的对话式AI引擎具备五大核心优势,其中包括650毫秒的超低延时响应、优雅打断功能、以及全模型适配等。这些特性使得任何文本大模型都能迅速升级为具备多模态交互能力的对话式AI。在价格方面,声网经过内部测算,宣布使用该引擎的每分钟成本仅为0.098元,极具竞争力。
在现场演示中,声网的生成式AI产品负责人毛玉杰与对话式AI引擎进行了实时互动,展示了中英文翻译、优雅打断以及餐厅推荐等功能。这些演示充分展示了引擎的灵活性和实用性。
声网AI RTE产品线负责人姚光华用“多、快、好、省”四个字概括了这款引擎的主要优势。多指的是智能多样性和音色多样性,用户可以选择和定制不同的模型和语音合成方案。快则体现在响应速度和打断速度上,引擎的中位数响应延迟为650毫秒,打断延时中位数为340毫秒。好则体现在引擎的高情商和真拟人特性上,即使在嘈杂环境中也能准确识别对话内容。省则体现在开发效率上,姚光华透露,从引擎控制台到模型开口说话,仅需2行代码和15分钟。
在价格策略上,声网提供了极具吸引力的方案。智能体通话每分钟仅需0.098元,并附赠1000分钟的免费通话时长。这意味着,平均每次对话的成本极低,对于频繁使用AI交互的企业和个人来说,无疑是一个巨大的福音。
姚光华还分享了对话式AI的发展里程碑。从OpenAI发布GPT-4开始,对话式AI逐渐走进消费者的视野。随后,OpenAI和声网分别发布了Realtime API,进一步推动了对话式AI的发展。而今天,声网的对话式AI引擎作为全球首个同类产品正式发布,标志着对话式AI技术迈入了一个新的阶段。
声网的对话式AI引擎横跨模态感知和模态融合层,能够为用户带来智能价值、情感共鸣以及时间价值。通过感知物理世界的信息,并进行多模态处理,引擎能够更准确地理解和响应用户的指令和需求。
借助声网的对话式AI引擎,开发者可以迅速部署各种对话式AI场景,如智能助手、虚拟陪伴、口语陪练、智能客服以及智能硬件等。这将极大地加速对话式AI技术在各行各业的应用和普及,为用户带来更加智能、便捷和人性化的交互体验。