近日,清华背景的AI基础设施创新企业无问芯穹宣布了一项重大开源举措,正式推出了针对端侧设备设计的全模态理解小模型Megrez-3B-Omni,以及它的纯语言模型版本Megrez-3B-Instruct。这一举动标志着无问芯穹在推动人工智能技术在移动端设备上的应用迈出了重要一步。
Megrez-3B-Omni是专为手机、平板等端侧设备量身打造的,其30亿参数的规模被视为端侧设备的“黄金尺寸”。这一模型不仅在结构上紧凑高效,而且在单模态版本的推理速度上,相较于同精度模型,实现了最高300%的性能提升。更Megrez-3B-Omni具备图片、音频、文本三种模态数据的处理能力,并在多个测评基准中取得了同尺寸下的最优性能。
在实际应用中,Megrez-3B-Omni的多模态能力展现出了极高的灵活性和响应速度。例如,用户可以先拍摄一张单据照片发送给模型,询问“6个人AA人均多少钱”,随后通过语音输入要求它编写一个幽默文案催促大家交钱,模型能够立即按要求生成文案。这种无缝切换模态的能力,大大提升了用户体验。
与市场上其他模型相比,Megrez-3B-Omni在主流基准测试集上的表现毫不逊色。无论是与同样三模态的VITA、Baichuan-Omni-7B,还是双模态的MiniCPM-V 2.6、Qwen2系列模型,以及单一模态的Qwen、Baichuan等模型相比,Megrez-3B-Omni都展现出了强大的竞争力。
Megrez-3B-Instruct版本还提供了WebSearch功能,支持调用外部工具进行网页搜索,进一步增强了模型的信息获取和回答问题的能力。这一功能使得用户能够构建属于自己的AI搜索系统,克服小模型在知识储备方面的局限。
无问芯穹由清华大学电子工程系教授汪玉发起,其技术团队源自清华大学电子工程系NICS-EFC实验室,在模型压缩、推理加速及硬件能耗优化等领域拥有深厚的学术研究和工程实践经验。公司致力于成为大模型时代的首选“算力运营商”,以“释放无穹算力,让AGI触手可及”为使命。
自成立以来,无问芯穹已经取得了一些规模化收入,主要来自算力销售。公司计划明年进一步扩大市场份额,并推出端侧大模型推理处理器LPU的IP形式,与合作伙伴共同发布芯片,进行落地尝试。内部测算显示,无问芯穹有望在3到5年内实现盈利。
在图像理解方面,Megrez-3B-Omni以3B的参数规模,实现了全面超过34B模型的综合性能表现。在场景理解、OCR等任务上,该模型能够准确洞察和分析图像内容,高效提取文本信息。即便是模糊截图或复杂手写字照片,模型也能快速识别并提取关键信息。
在文本理解方面,Megrez-3B-Omni同样表现出色。作为全模态理解模型,该模型没有牺牲文本处理能力,反而以更少的资源消耗实现了更高的性能输出。在C-eval、MMLU/MMLU Pro、AlignBench等多个权威测试集上,该模型取得了端上模型最优精度。
在语音理解方面,Megrez-3B-Omni支持中文和英文的语音输入,能够处理复杂的多轮对话场景,并支持对输入图片或文字的语音提问,实现不同模态间的自由切换。用户可以就任意模态内容发出语音指令,模型能够根据指令快速响应。
Megrez-3B-Instruct的WebSearch功能使得模型能够智能判断何时调用外部工具进行网页搜索,辅助回答用户问题。这一功能不仅提升了模型的回答能力,还为用户提供了更加便捷和个性化的AI体验。
无问芯穹通过“端模型+端软件+端IP”的端上智能一体化解决方案,为端侧设备提供了更完整、对硬件利用更高效的智能方案。未来,随着技术的不断发展和市场的深入拓展,无问芯穹有望在推动端侧智能方面发挥更加重要的作用。