【ITBEAR】在近日举办的DevDay活动日中,科技巨头OpenAI宣布推出全新的语音转录模型——Whisper large-v3-turbo。该模型拥有8.09亿参数,以其卓越的性能和速度引起了业界的广泛关注。
作为large-v3的优化版,Whisper large-v3-turbo在保持高质量转录的同时,实现了速度的大幅提升,比原版large-v3快8倍。新模型仅包含4层解码器层,相较于large-v3的32层,结构更为精简。
Whisper large-v3-turbo在参数规模上也有所调整,略大于7.69亿参数的medium模型,但远小于15.5亿参数的large模型,实现了性能与效率的平衡。同时,新模型所需的VRAM降低至6GB,相较于large模型的10GB,进一步减轻了硬件负担。
OpenAI表示,新模型的大小仅为1.6GB,便于用户下载和使用。同时,公司将继续遵循MIT许可证,提供包括代码和模型权重在内的Whisper资源,以支持开发者社区的创新和发展。
据Awni Hannun的测试结果显示,在M2 Ultra平台上,使用Whisper large-v3-turbo将12分钟的内容转录仅需14秒,展现了其强大的实时转录能力。
感兴趣的用户可以通过GitHub、Hugging Face等平台获取模型并在线体验其卓越性能。