滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

海螺语音挑战ElevenLabs，多语言合成能力究竟如何？

时间：2025-01-22 15:24:31 来源：ITBEAR编辑：快讯团队 发表评论无障碍通道

在职场沟通中，一个意外的挑战让一位员工不得不面对香港客户的质疑——因项目延期，他急需在线上以完美的解释挽回信任。而这段解释中的粤语与英语自如切换的语音，却并非出自人类之口，而是由海螺语音这一AI技术所生成。这一技术的出现，不仅令人惊叹，更预示着AI语音领域的一次重大突破。

海螺语音的背后，是MiniMax公司强大的技术支持。今年1月，MiniMax在推出基础语言大模型和视觉多模态大模型后，再次升级了其语音大模型T2A-01系列。这一系列的推出，标志着海螺AI语音板块的正式开启。相较于旧版本，T2A-01系列在语音生成能力上有了显著提升，不仅音质清晰、韵律自然，还能精准表达情绪，且支持包括中文、粤语、英语在内的17种语言及上百种预置音色。

从海螺语音生成的音频中，可以清晰感受到其处理不同语种的能力，以及接近人声的自然度。无需抽卡，就能达到如此稳定的水平，这无疑是对当前AI语音技术的一次革新。为了更直观地展示海螺语音的实力，我们不妨将其与其他语音生成产品进行对比。

以难度极高的绕口令“施氏食狮史”为例，ChatTTS生成的内容粘连感强，几乎听不出在读什么；而ElevenLabs虽然字与字之间能够区分开，但存在“呱呱叫”的模型幻觉问题。相比之下，海螺语音的表现则更为出色。整段声音自然流畅，虽然部分词语存在断句问题，但在大部分短句中已有显著惊艳的表现，对音调、分词错落、节奏和断句的处理都反映出其背后的理解能力。

海螺语音的多语言合成能力，足以与ElevenLabs等领先产品相媲美。MiniMax团队采用与Seed-TTS论文相同的评测集和评测工具进行计算，结果显示，海螺语音在中文的字错率和相似度上表现最佳，英文的字错率、相似度也接近真实录音。海螺语音还建立了多语种评测集，对17个语种进行客观评测，结果显示其在多个语种上的相似度、正确率均大幅领先。

海螺语音不仅在多语言合成上表现出色，其精准的情绪控制和音色选择更是令人称奇。为了让声音更加鲜活、情感表达更加精准，MiniMax对长达超千万小时的高质量音频数据进行加工训练，实现了高音质、情感丰富的声音效果。用户既可以让系统自动检测情绪，也可以明确指定情绪，从而生成能够精准捕捉人类深层情感的语音输出。海螺语音还预置了300+音色供用户选择，风格多变，满足有声书、ASMR耳语、新闻播报等多种场景需求。

海螺语音还实现了分段控制不同情绪的功能。例如，在表达老人害怕的情绪时，可以进一步从声音中感受到从害怕到难过再到开心的完整情绪变化。这种对输入文字的精准理解和对输出声音的精细控制，使得海螺语音在商业化场景和日常对话表达中都能游刃有余。

海螺语音的成功，离不开MiniMax公司对多模态模型能力的长期投入和持续发力。虽然音频在多模态模型能力开发顺序上似乎难以排在文字、图片、视频之前，但MiniMax却凭借其在语音大模型上的深厚积累和技术突破，成功推出了海螺语音这一领先产品。从文本、视频到语音能力的全面更新，MiniMax和海螺AI正不断给人带来惊喜，推动着AI技术的不断前进。

举报 0 收藏 0 打赏 0评论 0

更多>同类资讯

2024科技大事件！嫦娥六号月球采样，星舰回收等上榜十大进展

01-22

字节跳动否认120亿美元投建AI基础设施传闻，称具体规划有出入

01-22

RockAI自研Yan架构大模型，实力登榜“最佳大模型TOP20”

01-22

字节跳动AI大投入传闻遭官方否认，真相究竟如何？

01-22

豆包APP升级实时语音通话，中文对话能力飞跃，人机对话难分辨！

更新后，豆包中文场景的对话能力在语音真实感和“喜怒哀乐”的情绪表现上近乎达到“人机难辨”的AI交互效果，可以模仿不同声线，并且在“逻辑思考”和“情绪感知”上有明显提升。豆包相关负责人介绍，交付体验上，豆包语…

01-22

字节跳动120亿美金投AI？官方：不实传闻！

北京时间1月22日，有消息称字节跳动今年在人工智能基础设施上投入超120亿美元，其中为2025年购买AI芯片准备了400亿人民币，是2024年支出的两倍。另计划在海外投资约68亿美元。对此，字节跳动相关人士回…

01-22

谷歌再掷10亿美元加码投资，Anthropic成OpenAI强劲对手？

01-22

微软调整协议，OpenAI获准使用多家云服务

微软改变了与OpenAI的多年协议，现在允许这家人工智能初创公司使用竞争对手提供的云计算服务。微软周二在声明中表示，该协议将持续到2030年，当OpenAI寻求计算能力以训练和运行人工智能模型时，微软将拥有优…

01-22

网易有道开源“子曰-o1”，打造国内首个分步式讲解推理模型

01-22

DeepSeek-R1横空出世，能否挑战OpenAI o1霸主地位？

01-22

字节跳动豆包大模型1.5 Pro重磅发布，综合能力超越GPT-4o等模型

01-22

字节跳动120亿投资AI？官方：消息不实

01-22

字节跳动否认120亿美元投AI基础设施，真相如何？

01-22

荣耀前CEO赵明离职背后：上市前夕缘何失去董事会信任？

01-22

陈天桥布局AI新战略：盛大以研究为魂，双研究院驱动未来

01-22

点击查看更多 +

全站最新

马云间接持股，湖南新成立食品科技公司聚焦食品生产与互联网销售

汇川技术济南子公司注册资本大幅提升至5.5亿

小米汽车新专利：车外便捷取电结构获授权

德业股份长沙布局新动作，成立德业供应链有限公司

*ST人乐全资控股新商贸公司，深圳侨优商贸正式亮相！

立讯精密河南布局新动作，全资成立汽车零部件研发制造公司

热门内容

本栏最新

字节跳动否认120亿美元投建AI基础设施传闻，称具体规划有出入

RockAI自研Yan架构大模型，实力登榜“最佳大模型TOP20”

字节跳动AI大投入传闻遭官方否认，真相究竟如何？

网易有道开源“子曰-o1”，打造国内首个分步式讲解推理模型

DeepSeek-R1横空出世，能否挑战OpenAI o1霸主地位？

字节跳动豆包大模型1.5 Pro重磅发布，综合能力超越GPT-4o等模型

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区 · 齐鲁软件园鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.