ITBear旗下自媒体矩阵:

声网发布对话式AI引擎:650ms超低延时,年成本仅需5元

   时间:2025-03-07 00:23:13 来源:ITBEAR编辑:快讯团队 发表评论无障碍通道

实时互动技术领域的创新再次迈出重要一步,声网在北京正式推出了其对话式AI引擎,这一消息在科技圈内引起了广泛关注。这款引擎的问世,标志着AI技术在对话交互领域迈入了新的发展阶段。

据声网介绍,这款对话式AI引擎具备多项领先技术特性。其超低的650毫秒响应延时,确保了对话的流畅性;优雅打断功能则提升了用户体验,使得人与AI的交互更加自然;全模型适配能力则意味着该引擎可以广泛应用于各种场景;而“选择性注意力锁定”功能更是能屏蔽掉95%的环境人声,确保对话的清晰度。尤为开发者仅需两行代码以及15分钟的时间,就能构建出AI Agent,实现从对话式AI引擎Console到任意模型的语音交互,同时支持文本大模型向对话式多模态大模型的升级。

在价格方面,声网也给出了极具竞争力的方案。据内部测算,使用这款对话式AI引擎,每分钟的成本仅为0.098元,也就是说,不到1毛钱就能享受一分钟的AI对话服务。考虑到用户与AI每次对话平均会有约3轮问答,平均对话时长约为21.1秒,单次成本仅需3分钱。若每月对话次数达到15次,月成本也不到5毛钱,年成本更是低至5元。

声网AI RTE产品线负责人姚光华透露,这款对话式AI引擎是全球首个同类产品。团队在春节期间就开始研发,得益于DeepSeek热潮的激励,团队像准备高考一样,集合了最核心的产品线和研发线,快速推进和决策。经过努力,2月18日发布了Public Beta版本,如今终于正式面世。

在谈及Manus AI Agent与对话式AI产品的区别时,姚光华表示,两者并不属于同一类别。对话式AI的交互方式具有颠覆性,主要通过对话产生情绪价值。如果发展得更好,它可能会超越工具范畴,成为类似于陪伴的存在。然而,目前我们对AI Agent的认知还停留在“工具”层面,替换现有工具类型的价值并非终极目的。在研发对话式AI产品时,情感陪伴、音色和人数都有所增长。但姚光华也强调,Manus目前仍被视为一个工具。

声网致力于成为“人工智能语音代理的关键基础设施”,其TEN服务已经成功应用于DeepSeek、阿里通义Qwen、阶跃星辰Step、MiniMax、Amazon Bedrock、百度、科大讯飞等多家AI企业和产品中。例如,去年10月24日,声网就宣布了与MiniMax共同打磨国内首个Realtime API。

财报显示,声网母公司Agora在2024年四季度实现总营收3450万美元,同比下降4.4%;但在美国通用会计准则下,净利润扭亏为盈,达到16万美元。整个2024财年,集团总营收为1.333亿美元,较上年同期下降5.9%。

姚光华认为,对话式Agent给用户带来的价值不仅在于解决问题的智能价值,还包括情感共鸣的情绪价值以及效率提升的时间价值。从感知到智能,Agent AI主要包含四层:模态感知层负责感知物理世界的信息,对音视频进行处理和转换;模态融合层则对感知到的信息进行统一多模态处理;任务处理层面向目标和任务进行处理和解决;顶层智能层则具备高级认知与学习能力,拥有超高情商。声网对话式AI引擎覆盖了模态感知层和模态融合层。

针对大模型“幻觉”问题,声网产品负责人和利鹏表示,虽然“幻觉”不能完全消灭,但可以通过模型的不断迭代来减少。在对话式AI引擎上,团队已经做了很多降噪、声音处理等工作。和利鹏指出,人和人交流时也会有误解和“幻觉”,因为双方的知识和背景不同。为了减少模型的“幻觉”,上下文增多和推理CoT(思维链)的不断加强都是重要方案。

姚光华还指出,目前对话式AI引擎已经可以应用于陪伴式智能硬件以及教育场景等多个领域。声网创始人兼CEO赵斌表示,生成式AI为我们带来了变革性机遇,特别是在实现人与AI模型之间的实时语音交互方面。许多大型语言模型尚未提供语音交互功能,而提供语音交互功能的模型也没有优化体验。为了弥补这一差距,公司推出了对话式AI引擎解决方案,旨在提供自然的对话动态,包括智能停顿和打断处理、高级语音处理功能以及超低延迟。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version