ITBear旗下自媒体矩阵:

出门问问TicVoice 7.0:新一代TTS引擎,让AI语音更自然更有情

   时间:2025-03-07 16:26:57 来源:ITBEAR编辑:快讯团队 发表评论无障碍通道

在人工智能语音技术的前沿探索中,出门问问携手香港科技大学、上海交通大学、南洋理工大学及西北工业大学等顶尖学府,共同推出了一项开创性的成果——新一代语音生成模型Spark-TTS,并随之发布了其商业化版本TicVoice 7.0,这一举动标志着语音合成技术迈入了一个崭新的阶段。

TicVoice 7.0,作为出门问问第七代文本转语音(TTS)引擎,其独特之处在于能够摒弃传统多阶段、多流生成模型的依赖,仅凭单一的语言模型(序列猴子)以简洁的单阶段、单流方式高效完成TTS生成。这一革新不仅赋予了TicVoice 7.0超自然的语音克隆与跨语种生成能力,还允许用户根据个人需求定制专属声音,为个性化语音服务树立了新的标杆。

出门问问已将TicVoice 7.0应用于其AI配音产品“魔音工坊”,显著提升了用户体验。凭借领先的3秒语音克隆技术和卓越的精品发音人定制效果,魔音工坊在客服、有声书、情感直播、影视解说及配音等多个应用场景中展现了非凡的表现力,为用户带来了前所未有的听觉盛宴。

Spark-TTS模型一经发布,便迅速在Hugging Face趋势榜上占据TTS领域前列,其增长势头强劲,同时伴随相关论文的发布,在学术界也引发了广泛关注和热烈讨论。Spark-TTS之所以能引起如此反响,关键在于它引入了全新的语音编码范式,实现了建模结构与文本大型语言模型(LLMs)结构的高度统一,为行业带来了革命性的变化。

针对主流语音token存在的痛点,TicVoice 7.0与Spark-TTS提出了一种创新的BiCodec编码方式,将语音编码为Global Token和Semantic Tokens两部分,分别负责建模全局特征和语义相关信息。这种设计不仅简化了模型结构,还提高了音色等属性的精准控制,实现了高效性与可控性的完美结合。

在语音克隆能力方面,TicVoice 7.0再次刷新了行业标准,尤其在跨语言声音克隆上表现卓越。与上一代产品MeetVoice Pro及国内外同类产品相比,TicVoice 7.0在“3秒克隆”和“至臻Pro-精品发音人”定制方面展现出明显优势。其国际通用MOS评分从3.9提升至4.2,音色相似度、情感表现及稳定性均有显著提升,为用户带来了更加自然、悦耳、稳定的听觉体验。

TicVoice 7.0还支持用户通过调整性别、语速、基频等多种属性(即将上线)来精准定制独特的声音风格。在“至臻Pro-精品发音人”定制服务中,用户仅需提供20至200句语料,即可获得播音级的专业配音体验。其国际通用MOS分数从4.3提升至4.7,语音效果达到了广播级水平,为影视、游戏角色配音等场景提供了专业级的定制服务。

出门问问自2012年成立以来,一直致力于人工智能语音技术的研发与应用,不断迭代升级TTS引擎。通过深厚的技术积累和先进的产品应用经验,出门问问成功推出了“魔音工坊”、“奇妙元”、“元创岛”等一系列语音产品或搭载语音功能的产品,稳固了其在行业内的技术与产品领先地位。此次Spark-TTS的开源与TicVoice 7.0的发布,不仅展现了出门问问在语音生成领域的又一次重大突破,更为行业的发展注入了新的活力与动能。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version