近期,国内最大的智能语音技术提供商科大讯飞成功实现”客家语语音识别技术”并达到实用水准,目前已率先使用于”讯飞输入法”打字软件,为传统文化保护助力。
客家语现状如何?
客家语,又称客话、客家话、客语等,是汉藏语系汉语族内的一种声调语言(或汉语方言)。客家语地区主要集中在粤东、闽西、赣南交界的赣闽粤客家地区,并被广泛使用于中国广东、台湾、马来西亚及一些华人社区。在汉语七大方言中,客家语是最独特的一支,联结了大陆各省乃至全球各华人地区的客家人的民系认同。只要会说客家语,坚持客家语不忘祖宗言的特点,就会互相视为老乡、自家人。但目前在珠三角、台湾、马来西亚等地区客家语受到来自粤语、闽南语、普通话的强势夹攻,年轻一代客家人已经很少使用纯正的客家语,以口头方式流传的传统的客家童谣现时已经极少人能完整诵唱。有资料显示,客家语被认为是地球上衰落最快的语言之一。
讯飞输入法如何保护它?
为此,一直致力于方言保护与语音技术研发的科大讯飞肩负起保护和传承的重任。通过技术创新成功研发客家语语音识别引擎,并率先应用于普适的讯飞输入法中。此次讯飞输入法Android5.2.2108加入客家语语音识别功能,让客家语在更为广泛的范围内让更多的客家人频繁使用,无疑为客家语的保护做出了实实在在的努力。一经上线便得到了客家语的民间保护者们的极大认可。
客家语识别如何实现?
一千个读者就有一千个哈姆雷特,同样的一千地域就有一千种口音。中国方言变化万端,客家语的复杂程度更是难以言喻。为了让客家语语音识别达到使用水准,科大讯飞使出了4大绝招:
【海量数据】首先,科大讯飞跟国家语委合作对全国各地的口音现象持续积累了一套基于知识或规则的资源(包括词典、特殊词汇、特殊发音现象等),特别是讯飞输入法上线方言识别后,每天的训练数据也是海量的。
【模型训练】结合科大讯飞基于PSC数据训练的模型对这些真实数据进行分析,以对口音现象产生很好的补充。
【口音分类】在技术方面根据全国七大口音方言区的分布特性,基于覆盖全国各口音区,总量10万小时以上的大数据,基于我们在说话人识别中使用的i-vector聚类算法,形成针对各口音区的说话人群聚类结果,再结合半监督训练算法各自训练属于各口音区的DNN模型。这种针对口音的“尖锐”模型相对于一般的通用模型可以获得15%-20%的额外提升。
【机器自学习】另一方面科大讯飞进一步充分利用DNN的自学习特色,使用“共享深度神经网络”的特殊结构将各类方言的数据混合在一起进行训练,利用DNN自动汇聚各类方言的可共享部分,而突出其自身独特的属性,进而在识别效果上获得了显著提升。
如此,才让机器能够听懂“辰朝日爱落雪(明天要下雪)”、“今晡日系礼拜三吗(今天是星期三吗)”、“涯爱转屋下矣(我要回家了)”等地道的客家语。
方言识别的未来会是什么样?
然而星辰哪能简简单单就摘到,目前输入法内置客家语识别以梅州梅县为主,其他区域客家语识别还在持续优化以期实现全覆盖中。