【ITBEAR科技资讯】3月3日消息,近日,ChatGPT发布了基于Whisper大模型的语音转文字API,旨在帮助用户更加高效地将语音转录成文字,并支持多种语言的转录和翻译。
Whisper API的收费非常低廉,每分钟只要0.006美元,即人民币约为4分钱,相信会对语音相关企业产生很大的影响。
据ITBEAR科技资讯了解,尽管Whisper API支持几十种语言的转录和翻译,但不同语言的转录准确率差别很大。Whisper large-v2模型在西班牙语、英语、意大利语、德语等语言的单词错误率都能控制在5%以内,这样的转录后只需要用户简单修改就可以得到完美的转录结果。
然而,在中文转录方面,Whisper的错误率相比其他语言要高得多。v1模型的错误率为19.6%,v2略微提高到14.7%,这对于用户来说确实是一些麻烦。这一问题可能与中文本身的特点有关,例如中文的同音字和多音字,以及口音和方言的差异。中文语料的覆盖率相对较低,也可能对模型的训练效果造成了影响。