近日,无问芯穹公司震撼发布了一项重大开源举措,将其端侧解决方案中的两大核心模型——全模态理解小模型Megrez-3B-Omni及其纯语言版本Megrez-3B-Instruct,向公众开放。
Megrez-3B-Omni被设计为专为终端而生的全模态理解模型,它集图片、音频、文本三种模态数据的处理能力于一身,展现了强大的跨模态融合能力。在图像理解领域,Megrez-3B-Omni在OpenCompass、MME、MMMU、OCRBench等多个主流测试集上脱颖而出,其精度令人瞩目。
在文本理解方面,Megrez-3B-Omni同样表现出色,它在C-eval、MMLU / MMLU Pro、AlignBench等多个权威测试集上取得了端上模型的最优精度,彰显了其在自然语言处理领域的卓越实力。
更令人赞叹的是,Megrez-3B-Omni在语音理解领域也展现出了强大的实力。它支持中文和英文的语音输入,能够处理复杂的多轮对话场景,还能对输入的图片或文字进行语音提问,实现了不同模态间的自由切换,为用户带来了前所未有的交互体验。
除了全模态理解小模型Megrez-3B-Omni外,无问芯穹还开源了其纯语言版本Megrez-3B-Instruct。据官方宣称,与上一代及其他端侧大语言模型相比,单模态版本的Megrez-3B-Instruct在推理速度上取得了显著提升,最大推理速度可以领先同精度模型300%,为用户提供了更加高效、快速的语言处理服务。
对于此次开源举措,无问芯穹表示,他们希望通过开放这两个核心模型,推动人工智能领域的技术创新和应用发展,为更多开发者提供强有力的技术支持和合作机会。同时,他们也欢迎广大开发者积极参与到模型的优化和应用中来,共同推动人工智能技术的不断进步。