当你的童年男神学会了多种语言无缝切换

时间：2022-05-26 15:19:02 来源：互联网编辑：星辉 发表评论无障碍通道

字节跳动 AI Lab 语音与音频团队已能提供超过「17种语言」、「13种方言」、「100+不同风格」媲美真人的音色，其音频生成能力也通过火山引擎逐步面向市场开放。

经常在抖音上看视频或者使用过剪映创作短视频的朋友，一定对下方视频里的声音非常熟悉：

听完了不同音色、不同语言的配音，再来见识一下中、英、日三种语言无缝切换的海绵：

无论是丰富的多语言配音，还是跨语言合成，这些令人惊艳的声音效果都来自于语音合成技术。近期，为上述能力提供技术支持的字节跳动 AI Lab Speech & Audio Team 智能语音与音频团队(后文简称 SA团队 )已经将最新升级的多语言、跨语言合成技术落地，用户可以在视频创作工具剪映、CapCut平台使用这些功能。企业用户也可以通过火山引擎使用到同款音频技术。

「听得懂」、「说得好」、「会的多」的音色是这样生成的

在跟随CapCut深入不同国家地区本地化的过程中，字节跳动SA团队为其提供当地使用语言的合成能力。想要提供符合当地文化、满足当地创作内容偏好且丰富多样的音色，对语种数量、音色丰富度、语言地道性、风格表现力、生产速度等都提出了极大的挑战。

传统TTS(语音合成)的制作过程是，选择一位能说地道语言的发音人录制大量高质量语音数据，通过有该语言专业背景的团队进行标注处理，最后通过合成技术训练出对应音色，实现上线运用。然而在目标为多语种合成的前提下，传统的语音合成方式面临以下问题：

● 数据获取难：不同国家的文化法律对深度合成技术限制不同，且除中美日等配音行业较为发达的国家地区外，经过专业培养的优质发音人较为稀缺，可选发音人资源受限。

● 专业要求高：录制的音频数据需要懂该语言的专业人士进行数据标注处理，部分小语种专业人才获取难度极高。

● 训练难度大：传统技术框架下，很难细粒度建模不同语言、不同风格的韵律效果，使得合成声音的表现力难以达到创作者的更高预期。

● 消耗成本高：相比中文，多语言生产无论是从发音人，专业人士配置、过程生产都会产生更高的成本。

为了解决这四大难题，字节跳动SA团队提出了多语言、跨语言合成方案，低成本高效批量地生产出「听的懂」、「说的好」、「会的多」的音色。

● 「听的懂」指发音准确、清晰，可懂度高。

● 「说的好」指口音地道，符合Native speaker习惯。

● 「会的多」指单语发音人可以具备多种语言、口音能力。

这一方案主要在细粒度韵律建模和跨语言迁移两个方向进行突破：

细粒度韵律建模，打造不同语言、口音、风格的音色矩阵

不同的语言、方言、风格都具备自身的韵律特点，有不同的语速、语调、重音模式等语音变化信息，这种细粒度的韵律特征显著地影响着发音准确性和地道性，尤其是对于像英语这样的重音语言(pitch-accent language)，而传统的端到端神经网络框架很难隐式建模和控制这种细粒度的韵律特征变化。

为了解决细粒度韵律建模的问题，字节跳动SA团队研发了音素级别细粒度韵律建模的AM架构(Fine-grained prosody modeling in neural speech synthesis using ToBIrepresentation，Yuxiang Zou，etc，Interspeech 2021)，通过引入了音素级别ToBI韵律特征(包括pitch accent、phrase accent和boundary tone)，结合音素级的pitch、energy构成的variance adaptor，可以分别实现音节、短语、和句子级别语调、重音模式变化。相比于传统的隐式韵律特征学习，该方案可以实现更加准确、地道的语音，达成单语言「听的懂」、「说的好」的目标。

跨语言迁移，突破资源瓶颈，实现同一声音演绎多国语言

虽然基于细粒度的韵律建模可以实现更加准确、地道的语音合成效果，但这依旧要求发音人本身要具备相应的语言能力，还要满足一定数据量，极大的限制了TTS扩量能力，难以满足业务拓展的速度，以及对视频创作热点、爆款音色的快速跟进。

那么如何让发音人突破这个限制 ?实现「会的多」的目标是提升语音合成产能的关键。

字节跳动SA团队将迁移学习技术应用到了语音合成当中，结合无监督表征学习技术，研发了跨语言迁移的声学模型框架，主要解决特征空间解耦和分布映射的问题，通过SCLN和无监督表征，达到说话人、韵律、风格等特征解耦，将不同语种映射到同一个发音空间。通过跨语言迁移技术，可以实现让一个非母语发音人，具备达到native speaker程度的说话能力，实现跨语言「说的好」、「会的多」的目标。

同时为了提高标注效率，研究人员还研发了相应的自动切分工具和标注工具，自动标注流程的建立，使数据标注不再成为瓶颈。

通过技术的不断探索与迭代、主动适应不同国家地区的用户需求，SA团队已能提供超过「17种语言」、「13种方言」、「100+不同风格」媲美真人的音色，并且在「跨语言迁移」效果上取得突破，成功应用到视频配音场景，为剪映、CapCut国内外各地区的创作者们提供了更优质的本地化配音能力，在多个国家和地区获得用户的广泛好评。

来看看真实用户们的声音：

翻译：CapCut的文本朗读功能好厉害，「坊ちゃん」 (萌娃)真的是可爱娃娃的声音，好自然… 帅大叔的声音也有了吗?twitter@mikisandayo_

翻译：CapCut新出的文本朗读音色通用性很强，而且超级卡哇伊!大家喜欢哪个声音呢～

随着技术能力在业务上得到不断的验证，用户真实的声音越来越大。SA 团队的音频生成能力也通过火山引擎逐步面向市场开放，为多个行业伙伴提供领先的音频技术。包括为互娱用户提供丰富的配音玩法，激发创造力;为小说用户提供沉浸式听书体验，打造精品AI主播;为智能交互企业、硬件厂商打造助手音色实现降本增效等等;并在视频剪辑、有声书、汽车、电商等行业均达成了行业头部客户合作，成功实现了能力在各行各业中的应用与拓展。

关于字节跳动AILab智能语音与音频团队

字节跳动 AI Lab Speech & Audio 智能语音与音频团队，致力于为公司各个业务提供音频理解、音频合成、对话交互、音乐检索和智能教学等多种 AI 能力与方案。自 2017 年成立以来，团队专注于研发行业领先的 AI 智能语音技术，不断探索 AI 与业务场景的结合，以实现更大的用户价值。为今日头条、抖音、剪映、西瓜视频、番茄小说、飞书办公套件、大力智能教育台灯等字节跳动旗下的明星级产品提供了各类 AI 解决方案。截至目前，已服务了上百个业务合作伙伴。伴随字节跳动业务的快速发展，SA团队的语音识别和语音合成覆盖了多种语言和方言。未来，SA团队希望发展 70+ 语言和 20+ 方言，用于满足内容创作与交流平台的需求。团队已有 17 篇论文入选 AI 顶级会议，其中音频生成方向接受了 8 篇论文。(来源：火山引擎 )

作者：张兴

12月18日，以“携光共进与智同行”为主题的2024第二届智能车载光峰会在风景秀丽的东莞松山湖悦榕庄成功举办。本次峰会由中国智能网联汽车产业创新联盟、中国汽车工业协会车用智能显示分会联合主办，华为技术有限公司承办。峰会汇聚了来自车企、标准研究、产品测评、合

在当今手机摄影日益普及的时代，一款高性能、便携的存储设备成为了众多摄影爱好者的必备之选。雷克沙推出的Professional Go PSSD，正是为了满足这一需求而设计的。这款固态硬盘不仅体积小巧，性能卓越，还具备多重安全保障，成为专业摄影用户的得力助手。雷克沙Professi

在科技日新月异的今天，每一次技术的革新都足以掀起行业的波澜，尤其是有行业领导者推出的新技术更是如此。比如在前几天的TCL QD-Mini LED新技术发布会上，凭借一系列颠覆性的创新成果，引发了行业内外的热议。在本次发布会上重磅推出的万象分区、绚彩XDR以及量子点Pro

在科技日新月异的今天，电视显示技术正经历着前所未有的大变革。Mini LED技术的快速发展不仅为电视市场注入了新的活力，更推动了画质表现的不断突破。然而，面对激烈的市场竞争，单纯依赖参数提升已难以满足消费者对于画质的极致追求。近日，TCL QD-Mini LED新技术发布

在季节更迭的轮回中，冬季已悄然降临。然而，随着气温的逐渐下降，空气也日益干燥，给人们的肌肤带来了严峻的挑战。在这样的季节里，许多人开始感受到肌肤的微妙变化，变得干燥、紧绷，甚至出现脱皮的现象。为了应对这一季节性肌肤挑战，自然阳光焕肤水润时光面膜，正是

鸿蒙风起,未来已来——云学堂鸿蒙应用入门级开发者认证开营啦!在科技飞速发展的今天,鸿蒙系统以其开放、创新、安全的特点,正逐步构建起一个全新的智能生态。从智能手机到智能家居,从穿戴设备到出行工具,鸿蒙系统的身影无处不在,它不仅为用户带来了更加流畅、智能的使用

12月18日，2024京东金榜迎来五周年盛典，备受瞩目的“百大金奖”商品榜单也正式揭晓。过去的一年里，近9亿人次通过金榜完成下单，80%的用户在不到10秒内就能找到心仪商品；超过5200个品牌金榜留名，其中超1700个品牌在上榜当月实现销售同比增长超100%。数码品类中，从智

近日，由工信部指导的2024“绽放杯”5G应用大赛全国总决赛结果在2024中国5G发展大会期间正式揭晓——中国广电、亚信科技共同建设的全球首个全量核心网下沉本地的5G风电专网项目，从众多案例中脱颖而出斩获全国一等奖!该案例是全国一等奖中唯一的风电行业案例，此前已获

这一年我们看到的中小企业关键词是拼搏与时代共舞，书写奋斗历程是同行抱团取暖，点燃希望的火种是争先与爱采购携手，成就数智转型幸会，这一年与你们同路感恩，这一路有你们相随2024爱采购「岁末家年华」温情来袭联动全国近50个城市致敬时代同行者，期待与你共绘新章!

12月14日，2024一带一路暨金砖国家技能发展与技术创新大赛之元宇宙3D数字内容设计创作赛项(中职组)全国总决赛在湖北崇阳职业技术学校圆满闭幕。大赛于12月12日开幕，围绕文博文创、轨道交通、智能制造三个主题开展，通过比赛，参赛选手可以更深刻理解3D数字化技术在社会

在这个快节奏的时代，看电影却是一个必须慢下来的过程。相信在外奔波一天，每一位电影爱好者回家观影时，内心渴求的绝不仅仅是一台简单的投影设备，而是一份由电影原色带来的真实感动。可当今家庭影院消费市场鱼龙混杂，让人眼花缭乱，什么样的设备才能真正称得上「专业

不觉已到深冬,西伯利亚的寒风早已吹遍北方,不知已下过几场大雪。千里冰封,万物冬藏,但对另一群生命来说,却无处可藏。所以和季风一同在西伯利亚起飞的,还有候鸟。和人一样,鸟儿也在冬天向往温暖宜居的南方,为了生存每年如约开启一场浩荡迁徙。各类候鸟聚群而飞,相互支撑

相信大家最近都听说了电视圈即将迎来的年末压轴大戏吧?没错，说的就是将在12月16日举行的“光生万象”2024 TCL QD-Mini LED新技术发布会!为此官方这几天连发3张倒计时海报，引来网友的纷纷猜想，作为头部电视品牌，TCL会给消费者带来怎样的突破性技术呢?在发布正式开始

转眼又到了年底，科技圈的热闹程度堪比春节!不久前就有关TCL新技术突破的消息曝光，这几天TCL也陆续官宣新技术即将发布信息，据悉，2024年TCL QD-Mini LED新技术发布会将于12月16日14:30举行!这场被誉为“光生万象”的QD-Mini LED技术发布会，无疑将成为年底科技圈的一

我们真的太激动了，打《无畏契约》有两年的时间，真没想到有一天会拿到10万元的奖金。这对于我们战队的每个人都是莫大的鼓励，有一种热爱成为专业的不真实感。感谢掠夺者电竞大赛这个舞台，感谢宏碁品牌举办这么好的赛事活动，也感谢英特尔酷睿的加持。12月14日，掠夺

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区 · 齐鲁软件园鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.