在首都北京的智能科技界,一场备受瞩目的盛会——MEET2025智能未来大会圆满落下帷幕。此次大会不仅汇聚了众多前沿科技与智慧火花,还揭晓了2024人工智能年度评选的璀璨榜单。声网,作为实时互动云领域的领航者,凭借其在RTE+AI领域的卓越创新与贡献,一举夺得2024人工智能年度领航企业和2024人工智能年度杰出解决方案两项殊荣。
这场评选自今年9月启动以来,历时三个月,吸引了数百家企业、机构及个人的积极参与。经过严格筛选与深入调研,结合量子位对数百家AI公司的全面考察以及多位行业权威专家的专业意见,最终评选出了这份极具分量的榜单。
在Gen AI的浪潮中,实时多模态技术正逐渐成为行业发展的主流趋势。声网,作为实时互动云行业的开创者与引领者,凭借其深厚的音视频技术底蕴与丰富的场景实践经验,成功将RTE技术与生成式AI相融合,推出了Conversational AI Agents解决方案。该方案以语音为核心,支持视频扩展,能够实现文本、音频、图像、视频等多种形式的输入输出,拥有500ms的超低延时、自然流畅的对话体验以及灵活可扩展的框架,助力开发者与企业快速构建符合自身业务需求的AI实时语音对话服务。
声网Conversational AI Agents的一大亮点在于其超低延时的语音对话能力。通过客户端的低延迟音频采集与播放,以及声网自研的SD-RTN™实时传输网络,实现了全球范围内的低延时RTC传输,语音对话延迟低至500ms。同时,通过一系列技术手段,如更快速的LLM推理首字耗时、低延迟流式TTS、同机部署等,确保了对话的实时性与流畅性,让AI与人的对话更加自然、无缝衔接。
在真实的语音对话场景中,打断对方并提出新疑问是常有的事。而在Gen AI场景中,能否支持随时打断也成为了衡量大模型智能化的重要标准。声网自研的AI VAD技术,能够精准识别人类对话的停顿、语气和节奏,支持在AI对话过程中随时打断,进一步提升了对话的灵活性和用户体验。
声网的解决方案还具备业界领先的音频3A能力,即使在嘈杂的环境中,也能通过AI噪声抑制、背景人声过滤、音乐检测/过滤等算法,确保人与AI的对话不受环境干扰,始终保持清晰流畅。这一特性使得AI在对话中能够更准确地理解人的话语,提升了对话的效率和准确性。
声网的AI Agent架构同样值得称道。该架构灵活可扩展,兼容市场主流的ASR、LLM和TTS技术,并具备工作流编排能力。这使得开发者与企业能够根据自身需求定制和扩展AI驱动的实时互动体验。同时,该方案还支持API快速调用,提供开箱即用的场景化Demo,最快3小时内即可实现方案的快速验证。还提供了端到端的SDK,适用于针对特定场景化业务开发的客户。
目前,声网已与国内外多家AI厂商展开合作,借助Conversational AI Agents帮助客户在智能助手、虚拟陪伴、口语陪练、语音客服、同声传译、智能硬件等多个场景中实现对话式AI的落地应用。例如,在虚拟陪伴场景中,通过AI虚拟伴侣提供7x24小时的在线服务,可自定义人设、声音、形象等,模拟真人声音及情感,为用户提供情感支持、心理慰藉以及陪伴。在口语陪练场景中,通过拟人化的AI口语老师提供高性价比的外教陪练服务,借助定制化的分级语料训练,为不同水平的学员提供个性化的多语言发音指导。