对视障群体更友好！火山语音发布业内首个语音对话推荐数据集

时间：2023-07-25 15:17:28 来源：互联网编辑：茹茹 发表评论无障碍通道

近年来，推荐系统在工业界取得了巨大成功，甚至成为互联网发展中不可或缺的增长引擎，基于此研究者们也在积极探索推荐系统的新形态，其中对话推荐系统(Conversational Recommender System，简称CRS)作为一个备受关注的研究方向被热议。对话推荐系统主要是通过使用自然语言进行多轮对话，逐步了解用户的兴趣偏好，并向他们推荐可能感兴趣的物品。

通常对话推荐主要是以文本形式存在，即用户需要在聊天框内输入文本进行对话，然而在日常生活中，语音作为对话中常见且便捷的承载方式，除语义内容外，还包含性别、年龄、口音、情绪状态等更多信息。经过验证，这些信息可以有效提升对话推荐性能。更重要的一点，基于语音的对话推荐，对于视力障碍以及书写阅读能力有限的人群将会更加友好，因而更加包容。

创新意味着挑战，面对语音对话推荐(Voice-based Conversational Recommender System，简称VCRS)这一全新的研究课题，没有可用的数据集是当下比较棘手的事情。为了解决这个问题，火山语音团队联合新加坡科学研究院团队提出了首个VCRS Benchmark Dataset，论文入选SIGIR 2023，旨在讲述该方面的研究，推动语音对话推荐（Voice-based Conversational Recommender System，简称VCRS）的发展。

论文地址

https://arxiv.org/pdf/2306.08219.pdf

代码链接

https://github.com/hyllll/VCRS

在该数据集生产过程中，双方团队使用了ChatGPT以及语音合成技术，通过在真实推荐数据的基础上模拟生成对应的语音对话推荐数据，并进一步实验验证了语音对话推荐相较于传统的文本对话推荐具有更大优势;基于语音信号，模型可以抽取性别、年龄等辅助信息进一步提升推荐准确率;最后该论文还给出了未来语音对话推荐研究的范式判断，从而激发更多相关工作。

数据集中语音对话推荐过程

VCRS数据集的生产流程

具体来说如下图所示，VCRS数据集的生产过程主要包括四个部分，分别是：

骨干数据集选择(Backbone dataset selection)

文本对话生成(Text-based Conversation Generation)

语音对话合成(Voice-based Conversation Generation)

数据质量评估(Quality evaluation)

VCRS数据集的生产过程

骨干数据集选择（Backbone Dataset Selection）对于VCRS数据集生产，一个合格的候选骨干数据集需要包含三种信息，分别是用户-商品交互记录、商品特征以及用户特征。通过用户—商品交互记录以及商品特征可以合成文本对话，进而再凭借用户特征(性别、年龄等信息就)就可以完成语音对话合成。根据以上规则，该论文选取了Coat 和MovieLens-1M两个数据集进行了实验。

文本对话生成（Text-based Conversation Generation）论文提出根据对话模板进行slot filling的方式来完成对话语句的生成，该过程主要包含三个部分：

模板生成（Template Generation）

首先需要为每种商品特征(例如衣服颜色、款式等)设计不同形式的询问和回答组合。针对每个组合都分配了一种独特的标签-标识符tag-id，以便在后续的模板选择中方便使用。这种设计有效避免了下图所示“答非所问”的情况，从而使生成的对话更加连贯与紧凑。

Bad cases: “答非所问”示例

同时该团队还借助于ChatGPT的对话生成能力，在初始模板基础上进行改进和丰富，以增加模板的多样性和自然性;为进一步保证对话的完整性，还在基本的问询/回答模板之外为对话设计了相应的开始/结束模板。

模板选择（Template Selection）

由于在模板生成阶段，每个标签-标识符(tag-id)对应的问答模板已经具有密切相关性，所以在模板选择阶段只需分别从每个标签-标识符下采样问题和答案即可。此外，考虑到很多对话推荐场景下，用户在互动初始阶段通常没有非常清晰的意图，对此团队们采用了有偏的采样策略，即相对于询问类的问题，选择类的问题被赋予更高的采样概率。

特征选择（Feature Selection）

根据上述模板生成和选择的方法，目前可以对某一商品特征进行对话合成，但对于一件商品而言，通常会涉及多个特征，例如颜色与款式等，所以确定不同特征的询问顺序对于推荐结果常常产生显著影响，因此这些特征对用户的偏好具有不同权重。为了解决这个问题，团队们提出了一种利用决策树中的LightGBM方法来计算各个特征权重的方式，具体的计算方法如下图表示：

特征权重计算流程

语音合成（Voice-based Conversation Generation）根据上述文本对话的生成结果，双方团队进一步利用语音合成系统将生成的文本对话转化为相应的语音对话，在此过程中主要采用了当前端到端的VITS系统。对于Agent的语音合成，使用了基于LJSpeech训练的单一说话人TTS模型;而对于User的语音对话合成，则采用了基于VCTK训练的多说话人TTS模型，在该模型中，依据推荐数据集中用户的辅助信息(年龄、性别)，与VCTK数据集中的Speaker进行匹配，进而确定User的说话人ID。

数据质量评估（Quality evaluation）为了评估生成的数据质量，团队们分别从文本质量和语音质量两个维度对数据集进行了评估。在文本质量评估过程中使用了目前SOTA的FED (fine-grained evaluation of dialogue)指标，FED使用预训练的DialoGPT模型作为基准来对对话进行18个尺度的评估，具体细则既包含局部评分(如正确性，可读性及流畅性等)，又包含了全局评分(如连贯性，一致性及多样性等)。从下述的对比结果中可以看到，合成得到的对话评分超过了人类真实的对话推荐数据集(ReDial, OpenDialKG以及INSPIRED)。

同时下图示例也展示了合成的推荐对话与真实对话相似，并且明显优于之前工作HOOPS中的文本推荐对话。

合成对话示例及对比

对于语音对话的评估主要采用主观评测的方式，具体做法是将文本对话分别通过多个语音合成系统 (TacoW, TranW, FastW)与VITS进行比较，最终结果如下表所示，VITS明显优于其他模型。

更重要的一点，团队们利用以上合成的VCRS Benchmark Dataset，进一步验证了在推荐性能方面使用该数据集所带来的好处，具体方案如图：

两阶段语音对话推荐解决方案

在推荐模型的训练过程中，语音对话首先经过语音编码器(Wave2Vec2)进行编码，并从中提取出辅助信息(性别、年龄)的表示;随后这些提取到的辅助信息被注入推荐模型中，这一步能够增强推荐模型的性能;此外团队们还给出了未来在语音对话推荐场景下端到端的方案，如下图所示：

端到端语音对话推荐解决方案

实验结果

论文基于Factorization Machines (FM)在合成的语音对话推荐数据集进行了推荐性能的分析，具体结果所示：

通过实验结果的观察，可以明显看出当语音中融入性别或年龄单一信息时，推荐模型的性能会显著提高;而当性别和年龄信息同时被引入时，模型的性能则进一步得到提升。这一系列实验结果表明，语音对话推荐研究的必要性以及重要性，甚至对于未来在端到端语音推荐场景下所能发现的更多信息充满了信心，在这个领域将会展现出更多令人振奋的发现。

一直以来，火山语音团队面向字节跳动内部各业务线，提供优质的语音AI技术能力以及全栈语音产品解决方案，并通过火山引擎对外提供服务。自 2017 年成立以来，团队专注研发行业领先的 AI 智能语音技术，不断探索AI 与业务场景的高效结合，以实现更大的用户价值。

12月18日，以“携光共进与智同行”为主题的2024第二届智能车载光峰会在风景秀丽的东莞松山湖悦榕庄成功举办。本次峰会由中国智能网联汽车产业创新联盟、中国汽车工业协会车用智能显示分会联合主办，华为技术有限公司承办。峰会汇聚了来自车企、标准研究、产品测评、合

在当今手机摄影日益普及的时代，一款高性能、便携的存储设备成为了众多摄影爱好者的必备之选。雷克沙推出的Professional Go PSSD，正是为了满足这一需求而设计的。这款固态硬盘不仅体积小巧，性能卓越，还具备多重安全保障，成为专业摄影用户的得力助手。雷克沙Professi

在科技日新月异的今天，每一次技术的革新都足以掀起行业的波澜，尤其是有行业领导者推出的新技术更是如此。比如在前几天的TCL QD-Mini LED新技术发布会上，凭借一系列颠覆性的创新成果，引发了行业内外的热议。在本次发布会上重磅推出的万象分区、绚彩XDR以及量子点Pro

在科技日新月异的今天，电视显示技术正经历着前所未有的大变革。Mini LED技术的快速发展不仅为电视市场注入了新的活力，更推动了画质表现的不断突破。然而，面对激烈的市场竞争，单纯依赖参数提升已难以满足消费者对于画质的极致追求。近日，TCL QD-Mini LED新技术发布

在季节更迭的轮回中，冬季已悄然降临。然而，随着气温的逐渐下降，空气也日益干燥，给人们的肌肤带来了严峻的挑战。在这样的季节里，许多人开始感受到肌肤的微妙变化，变得干燥、紧绷，甚至出现脱皮的现象。为了应对这一季节性肌肤挑战，自然阳光焕肤水润时光面膜，正是

鸿蒙风起,未来已来——云学堂鸿蒙应用入门级开发者认证开营啦!在科技飞速发展的今天,鸿蒙系统以其开放、创新、安全的特点,正逐步构建起一个全新的智能生态。从智能手机到智能家居,从穿戴设备到出行工具,鸿蒙系统的身影无处不在,它不仅为用户带来了更加流畅、智能的使用

12月18日，2024京东金榜迎来五周年盛典，备受瞩目的“百大金奖”商品榜单也正式揭晓。过去的一年里，近9亿人次通过金榜完成下单，80%的用户在不到10秒内就能找到心仪商品；超过5200个品牌金榜留名，其中超1700个品牌在上榜当月实现销售同比增长超100%。数码品类中，从智

近日，由工信部指导的2024“绽放杯”5G应用大赛全国总决赛结果在2024中国5G发展大会期间正式揭晓——中国广电、亚信科技共同建设的全球首个全量核心网下沉本地的5G风电专网项目，从众多案例中脱颖而出斩获全国一等奖!该案例是全国一等奖中唯一的风电行业案例，此前已获

这一年我们看到的中小企业关键词是拼搏与时代共舞，书写奋斗历程是同行抱团取暖，点燃希望的火种是争先与爱采购携手，成就数智转型幸会，这一年与你们同路感恩，这一路有你们相随2024爱采购「岁末家年华」温情来袭联动全国近50个城市致敬时代同行者，期待与你共绘新章!

12月14日，2024一带一路暨金砖国家技能发展与技术创新大赛之元宇宙3D数字内容设计创作赛项(中职组)全国总决赛在湖北崇阳职业技术学校圆满闭幕。大赛于12月12日开幕，围绕文博文创、轨道交通、智能制造三个主题开展，通过比赛，参赛选手可以更深刻理解3D数字化技术在社会

在这个快节奏的时代，看电影却是一个必须慢下来的过程。相信在外奔波一天，每一位电影爱好者回家观影时，内心渴求的绝不仅仅是一台简单的投影设备，而是一份由电影原色带来的真实感动。可当今家庭影院消费市场鱼龙混杂，让人眼花缭乱，什么样的设备才能真正称得上「专业

不觉已到深冬,西伯利亚的寒风早已吹遍北方,不知已下过几场大雪。千里冰封,万物冬藏,但对另一群生命来说,却无处可藏。所以和季风一同在西伯利亚起飞的,还有候鸟。和人一样,鸟儿也在冬天向往温暖宜居的南方,为了生存每年如约开启一场浩荡迁徙。各类候鸟聚群而飞,相互支撑

相信大家最近都听说了电视圈即将迎来的年末压轴大戏吧?没错，说的就是将在12月16日举行的“光生万象”2024 TCL QD-Mini LED新技术发布会!为此官方这几天连发3张倒计时海报，引来网友的纷纷猜想，作为头部电视品牌，TCL会给消费者带来怎样的突破性技术呢?在发布正式开始

转眼又到了年底，科技圈的热闹程度堪比春节!不久前就有关TCL新技术突破的消息曝光，这几天TCL也陆续官宣新技术即将发布信息，据悉，2024年TCL QD-Mini LED新技术发布会将于12月16日14:30举行!这场被誉为“光生万象”的QD-Mini LED技术发布会，无疑将成为年底科技圈的一

我们真的太激动了，打《无畏契约》有两年的时间，真没想到有一天会拿到10万元的奖金。这对于我们战队的每个人都是莫大的鼓励，有一种热爱成为专业的不真实感。感谢掠夺者电竞大赛这个舞台，感谢宏碁品牌举办这么好的赛事活动，也感谢英特尔酷睿的加持。12月14日，掠夺

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区 · 齐鲁软件园鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.