ITBear旗下自媒体矩阵:

OpenAI新推语音模型,助力AI语音交互更精准自然

   时间:2025-03-21 15:26:59 来源:ITBEAR编辑:快讯团队 发表评论无障碍通道

OpenAI近期在语音技术领域取得了显著进展,于3月20日正式宣布推出全新的语音转文本及文本转语音模型,这一举措旨在增强语音处理能力,并为开发者提供更加精确和可定制化的语音交互系统解决方案,进一步推动人工智能语音技术的商业化落地。

在语音转文本方面,OpenAI推出了两款重量级模型:gpt-4o-transcribe和gpt-4o-mini-transcribe。据官方介绍,这两款模型在单词错误率、语言识别准确性和性能方面,均超越了现有的Whisper系列模型。它们能够支持超过100种语言的识别,通过强化学习和多样化的高质量音频数据集进行训练,有效捕捉语音中的细微特征,显著减少了误识别率。特别是在嘈杂环境、口音差异以及不同语速下,这两款模型表现出了更加稳定和出色的性能。

对于文本转语音领域,OpenAI推出了gpt-4o-mini-tts模型。这款模型允许开发者通过指令控制语音风格,如“模拟耐心客服”或“生动故事叙述”,从而满足多样化的应用场景需求。在客服领域,gpt-4o-mini-tts能够合成更具同理心的语音,提升用户体验;在创意内容方面,它则能够为有声书或游戏角色设计个性化声音,带来更加丰富和生动的听觉体验。

OpenAI在发布的博文中还详细公布了这三款模型的费用情况。gpt-4o-transcribe模型对于音频输入、文本输入和输出的费用分别为每100万tokens 6美元、2.5美元和10美元,每分钟成本为0.6美分。相比之下,gpt-4o-mini-transcribe模型则更加经济实惠,音频输入、文本输入和输出的费用分别为每100万tokens 3美元、1.25美元和5美元,每分钟成本为0.3美分。而gpt-4o-mini-tts模型的费用则为每100万tokens输入0.6美元,输出12美元,每分钟成本为1.5美分。

此次OpenAI推出的全新语音转文本和文本转语音模型,不仅提升了语音技术的性能和准确性,还为开发者提供了更加灵活和多样化的应用方案。随着人工智能技术的不断发展,这些模型有望在更多领域得到广泛应用,推动人工智能语音技术的进一步普及和商业化。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version