ITBear旗下自媒体矩阵:

Hume AI发布情感智能语音大模型Octave,AI语音能否以假乱真?

   时间:2025-02-27 20:24:16 来源:ITBEAR编辑:快讯团队 发表评论无障碍通道

在人工智能领域,一次创新性的飞跃近日由美国情感智能技术初创公司Hume AI实现。该公司发布了一款名为Octave的新型文本转语音大模型,该模型能够根据用户输入的提示词或剧本,生成富有人设特点、语调起伏和情感色彩的AI语音,并允许用户通过文本指令进行二次调整和创作。

Hume AI由DeepMind前研究员Alan Cowen于2021年创立,最近一轮融资后估值达到2.19亿美元。在接受采访时,Cowen表示:“我们推出的首个AI文本转语音大模型,能够理解上下文中的词汇,并预测出适当的情绪、节奏、韵律和重音,从而使AI语音听起来比以往更人性化。”

Octave的设计初衷是为了解决过往AI语音生硬、缺乏情感表达的问题。它不仅能够表达愤怒、悲伤或快乐等单一情绪,还能将多种情感交织融合在一起,如“夹杂着幽默或恼怒的轻度沮丧”。这种能力使得Octave非常适合用于有声读物、播客、视频画外音和视频游戏角色配音等预先制作的内容。

Hume AI在社交媒体上发布的信息显示,Octave的训练数据量是传统文本转语音大模型的1000倍,这包括数百万小时的公开长篇语音数据和Hume AI独家采集的声音、视频数据。这种庞大的数据集使得Octave能够理解剧本,并使用更逼真的情感、语义、节奏、词语和重音等要素。

除了文本转语音功能,Octave还具备语音设计、表演指令和即将上线的语音克隆功能。在语音设计方面,Octave能够基于提示词或剧本生成各种设定的AI语音,包括人称代词、简称、用词等,从而生成与角色相符的连贯语音内容。在表演指令功能中,用户可以基于现有语音类型,用指定的情感或说话风格来朗读新剧本。而语音克隆功能则只需一段5秒的音频,就能快速克隆出相应的语音。

在一项人类评审盲测的对比实验中,Octave的输出在音质、自然度以及语音生成与预期描述匹配度等方面均优于ElevenLabs,这表明其AI语音生成过程的可控性和生成质量均高于行业水准。

目前,Octave已在Hume AI的平台和API上线,支持超过40种预设语音的语音库,以及用于生成有声书、播客等长篇内容的项目界面(预览版)。开发者可以通过Python和Type SDK访问Octave,这些SDK会处理身份验证,并提供类型化接口以确保集成的可靠性。命令行界面支持快速原型设计、测试以及直接从终端批量处理。

Hume AI的收费方式采用订阅制,分为免费、入门版、Creator和专业版等多个级别。免费版提供每月1万个字符的文本转语音服务,总时长约10分钟,并允许无限自定义声音。其他版本则提供更多的字符数和时长,以及额外的项目支持和优惠价格。

Octave的发布标志着AI语音技术向更加人性化和情感化的方向迈出了重要一步。它不仅有望解决AI语音应答机械、语调生硬的问题,还能为影视、视听、新媒体、数字人等多个行业提供定制化的配音服务,加速AI语音的商业化落地。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version