在科技界的一次重大人事变动中,WebRTC的早期先驱之一,Fixie.ai的联合创始人兼首席技术官Justin Uberti,宣布加入OpenAI,领导其实时AI项目的发展。Uberti坚信,语音交互将成为AI领域的未来趋势,我们正逐步回归到一个以对话为主导的社会。
这一决定显得颇为自然,特别是在OpenAI今年5月发布GPT-4o——一个端到端的语音输入输出大模型之后。这一发布让十年前电影《她》(Her)中的场景逐渐变为现实。低延迟、高智能的AI,凭借其即时回复、永不失联、全天候情感陪伴以及随时提供情绪价值的能力,已经超越了简单生产工具的角色,开始全面融入人们的日常生活。
近年来,AI从“能说话”进化到了“会说话”,能力显著增强。关于AI的讨论不再局限于“AI助手”,而是频繁出现了“AI男友/女友”的话题,AI陪伴成为了社交应用的重要发展趋势。根据A16Z 8月份的最新报告,在排名前100的应用中,有16%的产品属于AI陪伴类产品,且在排名前20的应用中占据了6个席位。
随着AI陪伴应用市场的广阔前景和巨大潜力得到市场的广泛认可,语音交互成为了当下最为关键的入口。无论是原生AI应用如星野、Character.AI、筑梦岛、Poly.AI,还是国内头部的泛娱乐应用如TT语音、Soul推出的AI分身、AI宠物、AI伴侣等功能,这些应用虽然在设计上各具特色,但核心都是通过对话作为主要交互方式,为用户提供情感体验。
这一趋势表明,随着AI陪伴应用市场的不断发展,用户对更高质量的语音交互体验的需求也将愈发强烈。在AI技术引领的时代变革中,如何紧跟用户不断变化的需求,提升产品体验,成为了一个亟待解决的问题。
近日,即构科技发布了一款自研的音频引擎——Purio AI音频引擎,为市场提供了一个新的解决方案。该方案通过AI降噪、AI回声消除和音量均衡三大核心技术,为用户带来了纯净、保真、舒适的听觉体验。它不仅支持社交应用用户获得更好的音质体验,还能与最新的AI陪伴方案相结合,让AI陪伴更加逼真。
即构科技发布的Purio AI音频引擎,正是针对语音成为交互关键入口这一趋势的回应。语音作为人类最自然便捷的沟通方式,无疑是智能时代人机交互的关键入口。通过RTC技术的应用,低延时的快速响应使得人与AI的互动更加接近真实。同时,语音识别技术的发展也使得机器能够识别人的情绪和语调,从而输出更精准、更智能的回答。
从各大AI厂商的产品发展趋势来看,语音已经成为不可或缺的一环。例如,自GPT-4o发布以来,端到端实时模态成为了国内外厂商跟进的新方向。国外AI厂商Character.AI推出了通话功能,微软AI表示年底将拥有实时语音界面;国内豆包在8月宣布大模型已支持实时语音通话新功能,10月份Kimi也发布了语音通话功能。可以预见,语音交互将成为未来对话式模态大模型交互的终极形态。
然而,尽管语音交互对用户来说已经不再陌生,在智能家居、手机、车载、智能穿戴、机器人等领域已经实现了快速渗透和落地,但在实际应用中,音质问题仍然频繁出现。例如,在人机互动中,嘈杂环境会明显降低识别准确率;在会议中,如果任意用户携带明显噪音上麦,会破坏会议氛围,影响其他用户的发言欲望,甚至导致观众流失;在K歌应用中,复杂环境也会使人声音质变得“沉闷浑浊”,甚至出现“漏回声”、“吞音”等问题,用户体验不佳。
因此,如何在复杂环境中为用户提供“丝滑”的交互体验,成为了亟待解决的问题。语音互动关键技术的创新突破是关键一环,重点在于如何在不失真的情况下尽可能地将噪声去除得更干净,保证用户听得更清晰。即构科技发布的Purio AI音频引擎,正是通过升级AI降噪算法效果、推出全新的AI回声消除算法和动态响度均衡算法等核心算法,为用户带来了纯净、保真、极致舒适的听觉体验。
Purio AI是即构科技专注于音质增强的最新技术成果。自2015年以来,即构科技就开始走上自研音频引擎的创新之路,不断推出适合各行业的一键接入语音互动解决方案。在2022年,即构科技正式发布AI降噪功能,并在此基础上不断优化和升级,形成了今天的Purio AI音频引擎。
在实际应用中,Purio AI音频引擎已经取得了显著的效果。例如,趣丸科技通过即构科技的音频技术,保障了2亿用户顺畅、优质的连麦体验,并持续为用户创造新的语音社交玩法。其中,趣丸科技在2022年上线的“在线K歌”玩法,结合即构Purio AI音频引擎技术,实现了K歌场景效果的显著突破。
值得注意的是,AI的加入虽然为语音交互带来了新的可能性,但也带来了新的挑战。其中最突出的问题就是模型复杂、性能消耗巨大,给实时场景交付带来了很大的挑战。为了解决这一问题,即构科技通过重参数化、参数共享、模型量化等技术手段,实现了低开销、低延时、高保真的效果。新品Purio AI音频引擎依然保持了以往超低延迟、轻量化的特性,保证了终端用户的高可用性。
如今,即构科技的音质增强技术已经广泛应用于直播、听歌、社交、电台等泛娱乐社交应用,以及金融双录、在线教育、视频会议、智能硬件等行业应用中。随着技术的不断进步和应用场景的不断拓展,即构科技将继续致力于为用户提供更加优质、便捷的语音交互体验。