日前,由JDD空间站及京东大学联合主办的“JDD技术探索日”语音识别专场活动在京举行,来自京东集团、京东金融、猎户星空、小米和西北工业大学的语音识别技术专家分享了研究成果。在探索日现场,还举行了“京东金融对话语音识别大赛”颁奖仪式,获得冠亚季军的三位选手分享了参赛心得,并与现场观众进行了深入的互动交流。
JDD空间站是由京东金融打造的距离产业界最近的数据探索者社区,包含大赛、社区和合作伙伴三大板块,不但为数据探索者打造实现自我价值的平台,同时也为合作伙伴连接优秀人才与前沿技术,助力企业提升数据和AI能力,让科技与商业应用快速融合。
京东金融对话语音识别大赛是JDD空间站上线后的首场比赛,是面向广大语音技术爱好者、高校学生、企业开发者而举办的语音识别邀请赛。大赛赛题基于京东金融语音识别团队的实际业务场景——客服质检而来。在大赛中,京东金融首次开放了5000小时的京东金融客服语音数据(经严格脱敏)及GPU资源,希望和大家一同去探索对话语音识别技术。
在大赛中,来自中国科学院自动化研究所的白烨,来自小米的庄伟基,来自猎户星空的宋莎莎三位选手在数百名参赛选手中脱颖而出,分获冠亚季军。
在分享交流环节,冠军获得者白烨无私地分享了参赛过程中的解题思路,并坦言,从初赛的50小时数据到决赛时的5000小时数据,要解决识别方言、口语语法以及排除数据噪音等问题,并在短时间内创建与训练模型,难度非常之大。但从另一个角度来说,在这样的压力下逼迫自己不断翻阅文献并调试完善模型,也是一个对自我极限的挑战过程,收获非常之大。他特别感谢了京东金融开放对话语音数据的做法,他表示,基于真实应用场景的对话语音数据在行业内非常珍贵,京东金融开放的5000小时对话语音数据对于开发者甚至对于整个行业来说,都有非常大的帮助作用。
在分享交流的过程中,亚军庄伟基、季军宋莎莎也高度肯定了JDD空间站开放数据、开放资源的做法。对此,在交流会后的采访中,西北工业大学计算机学院音频、语音与语言处理研究组的谢磊教授也给予了高度评价。
谢磊教授是语音识别领域的知名专家,他认为,对话语音识别是语音识别领域难度大且极其具有挑战性的任务。对话语音的"即兴化"和"口语化"的特点,造成语速快、发音随意、吞音少字、讲话不符合语法习惯、语音不流利、说话人语音交叠等现象,再叠加场景的噪声,给声学模型和语言模型的建立带来了不小的挑战。京东金融这次开放的语音数据是脱敏后的真实客服对话背景,推动了学术界对语音识别方面的研究。
谢磊教授还表示,语音识别的入门门槛较高,涉及的知识方方面面,特别是开源数据比较缺乏,在一定程度上造成了语音人才的缺乏。京东金融的这次活动是一个很好的桥梁,为连接学术界和工业界的技术人才和技术发展起到了积极作用。
谢磊教授指出,校企合作会实现“三赢”。学校在一定程度上缺乏数据和大算力,也难以获取业界丰富的大数据资源,和工业界的合作可以优势互补,利用工业界的场景大数据和大算力,做出"更靠谱"的研究结果。工业界可以把一些技术难题和前瞻性的题目放给学校去探索,同时通过校企合作吸引学生合作研究和实习,联合培养和储备人才。学生则通过接触工业界的实际场景和实际问题,获得"接地气"的锻炼,对将来求职和职业成长都很有帮助。
本次京东金融对话语音识别大赛已经画上圆满的句号,但JDD空间站才刚刚启程。京东金融将会依托JDD空间站继续推动技术开放,和更多的合作伙伴去探索推动语音领域技术发展的方式;会不断的发布更具挑战性的赛题,也会尝试开放更多的资源和数据。另外,今年的JDD大会及大赛还将如期举行,旨在为科技界、产业界、金融界、学术界搭建起一个全球化的开放平台,共同探索数字科技创新之道,实体经济数字化升级之路。