ITBear旗下自媒体矩阵:

微软新探索:音生图AI,实时视觉化会议场景?

   时间:2024-10-15 14:21:09 来源:ITBEAR作者:任飞扬编辑:瑞雪 发表评论无障碍通道

【ITBEAR】近日,科技媒体MSPoweruser报道了一项微软新获得的专利,该专利描述了一种基于用户实时语音输入生成图片的技术。据悉,这项专利共计20页,于2023年4月5日提交申请,并于10月10日获得批准。

根据专利描述,此系统能够在会议或讲座等场合实时捕捉音频,通过语言模型进行处理并总结内容,随后生成相应的AI图像。此过程包含三个主要步骤:捕捉音频、处理文本以及生成图像。

具体来说,用户通过麦克风发言,系统实时记录并转化为文本。然后,系统分段记录文本,并使用语言模型对每段内容进行总结。最后,根据这些总结生成的提示,系统创建出AI生成的图像,并在屏幕上实时显示。

预计这一功能将主要应用于Microsoft Teams,随着演讲者话题的变化,实时生成的图像也会随之更新,从而为用户带来更加丰富的视觉沟通体验。微软表示,这种图像的使用有助于澄清概念,尤其适合需要通过视觉辅助来学习的用户。

此专利的获得展示了微软在AI技术领域的持续创新和进步,未来有望在会议、教育等多个领域发挥重要作用,为用户提供更加直观、高效的信息传递和沟通方式。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  网站留言  |  RSS订阅  |  违规举报  |  开放转载  |  滚动资讯  |  English Version