Rokid Glasses AR+AI眼镜自去年11月面世以来,凭借戒指轻触控制提词翻页的创新交互方式吸引了广泛关注。然而,随着用户深入使用,一些痛点逐渐显现,如手动操作分散注意力、翻页节奏固定僵化以及演讲者对提词器的过度依赖等。
为了解决这些痛点,Rokid研发团队近日宣布提交了一项名为“一种基于智能算法的提词器功能”的专利。该专利旨在通过智能算法,根据演讲者的语速和节奏自动匹配文稿,实现语言表达与文稿滚动的无缝同步。
传统提词器的交互方式主要包括手动触控、物理遥控器和固定定时滚动三种。这些方式虽然在特定场景下有效,但局限性也日益凸显。例如,人工交互需要演讲者在表达内容与控制设备间频繁切换注意力,这不仅消耗精力,还可能因滑动眼镜等动作被观众误读为紧张或不自信的肢体语言。而固定节奏的定时滚动模式虽然解放了双手,却往往与演讲者的语速脱节,导致文字滚动与演讲内容错位,引发认知混乱。
Rokid的新专利则通过三项核心技术构建了智能提词系统,首先是多模态语音识别引擎系统。该系统采用端到端的深度神经网络模型,能够实时解析演讲者的语音内容,不仅支持普通话,还兼容多种方言,满足多语言场景需求。在45分贝背景噪音下,该系统仍能保持98%的识别准确率。它还能精准捕捉重复朗读、跳跃式朗读等非常规表达,智能判断演讲者的意图并调整文稿位置。
其次是动态语速适配算法。该算法构建了“语速-文本密度”的动态映射模型,能够实时追踪演讲者的语速数据,每0.5秒更新一次,覆盖80-200字/分钟的宽泛区间,满足99%的演讲场景需求。同时,它还具备弹性缓冲机制,当检测到5秒以上停顿时,系统会自动暂停并标记当前位置,恢复时通过上下文语义分析定位正确段落。
最后是多场景演讲匹配算法。该算法结合了精准匹配和模糊匹配两种模式,满足演讲场景的全方位交互需求。精准匹配算法能够确保演讲者无论是跳词还是漏字,都能精准地匹配到正在阅读的语句。而模糊匹配算法则适用于演讲者脱稿即兴发挥或与观众无稿交流时,此时匹配算法会暂停,不影响演讲者的节奏。当演讲者回到演讲稿中时,匹配算法会立即识别并继续精准匹配。
Rokid的新专利不仅解决了传统提词器的痛点,还通过智能算法提升了演讲的流畅度和观众的体验。未来,随着该专利技术的进一步推广和应用,相信将为演讲者带来更加便捷、高效的演讲体验。