滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

清华AI创企无问芯穹开源：端侧全模态理解模型Megrez-3B-Omni震撼登场

时间：2024-12-16 17:19:22 来源：ITBEAR编辑：瑞雪 发表评论无障碍通道

近日，清华背景的AI基础设施创新企业无问芯穹宣布了一项重大开源举措，正式推出了针对端侧设备设计的全模态理解小模型Megrez-3B-Omni，以及它的纯语言模型版本Megrez-3B-Instruct。这一举动标志着无问芯穹在推动人工智能技术在移动端设备上的应用迈出了重要一步。

Megrez-3B-Omni是专为手机、平板等端侧设备量身打造的，其30亿参数的规模被视为端侧设备的“黄金尺寸”。这一模型不仅在结构上紧凑高效，而且在单模态版本的推理速度上，相较于同精度模型，实现了最高300%的性能提升。更Megrez-3B-Omni具备图片、音频、文本三种模态数据的处理能力，并在多个测评基准中取得了同尺寸下的最优性能。

在实际应用中，Megrez-3B-Omni的多模态能力展现出了极高的灵活性和响应速度。例如，用户可以先拍摄一张单据照片发送给模型，询问“6个人AA人均多少钱”，随后通过语音输入要求它编写一个幽默文案催促大家交钱，模型能够立即按要求生成文案。这种无缝切换模态的能力，大大提升了用户体验。

与市场上其他模型相比，Megrez-3B-Omni在主流基准测试集上的表现毫不逊色。无论是与同样三模态的VITA、Baichuan-Omni-7B，还是双模态的MiniCPM-V 2.6、Qwen2系列模型，以及单一模态的Qwen、Baichuan等模型相比，Megrez-3B-Omni都展现出了强大的竞争力。

Megrez-3B-Instruct版本还提供了WebSearch功能，支持调用外部工具进行网页搜索，进一步增强了模型的信息获取和回答问题的能力。这一功能使得用户能够构建属于自己的AI搜索系统，克服小模型在知识储备方面的局限。

无问芯穹由清华大学电子工程系教授汪玉发起，其技术团队源自清华大学电子工程系NICS-EFC实验室，在模型压缩、推理加速及硬件能耗优化等领域拥有深厚的学术研究和工程实践经验。公司致力于成为大模型时代的首选“算力运营商”，以“释放无穹算力，让AGI触手可及”为使命。

自成立以来，无问芯穹已经取得了一些规模化收入，主要来自算力销售。公司计划明年进一步扩大市场份额，并推出端侧大模型推理处理器LPU的IP形式，与合作伙伴共同发布芯片，进行落地尝试。内部测算显示，无问芯穹有望在3到5年内实现盈利。

在图像理解方面，Megrez-3B-Omni以3B的参数规模，实现了全面超过34B模型的综合性能表现。在场景理解、OCR等任务上，该模型能够准确洞察和分析图像内容，高效提取文本信息。即便是模糊截图或复杂手写字照片，模型也能快速识别并提取关键信息。

在文本理解方面，Megrez-3B-Omni同样表现出色。作为全模态理解模型，该模型没有牺牲文本处理能力，反而以更少的资源消耗实现了更高的性能输出。在C-eval、MMLU/MMLU Pro、AlignBench等多个权威测试集上，该模型取得了端上模型最优精度。

在语音理解方面，Megrez-3B-Omni支持中文和英文的语音输入，能够处理复杂的多轮对话场景，并支持对输入图片或文字的语音提问，实现不同模态间的自由切换。用户可以就任意模态内容发出语音指令，模型能够根据指令快速响应。

Megrez-3B-Instruct的WebSearch功能使得模型能够智能判断何时调用外部工具进行网页搜索，辅助回答用户问题。这一功能不仅提升了模型的回答能力，还为用户提供了更加便捷和个性化的AI体验。

无问芯穹通过“端模型+端软件+端IP”的端上智能一体化解决方案，为端侧设备提供了更完整、对硬件利用更高效的智能方案。未来，随着技术的不断发展和市场的深入拓展，无问芯穹有望在推动端侧智能方面发挥更加重要的作用。

举报 0 收藏 0 打赏 0评论 0

更多>同类资讯

海螺AI再升级，细节超越Sora，网友：国产AI新巅峰？

12-16

网易伏羲发布具身智能方案，赋能人形机器人产业新飞跃

12-16

AWS Graviton4携Arm Neoverse，引领云计算性能与效率新飞跃

12-16

迈瑞医疗“启元”重症大模型发布，重构诊疗生态助力高质量发展

12-16

三星S25系列新机曝光，1月底发布外观小改主打AI技术

近期，科技界传来了一则备受瞩目的消息：三星S25系列手机即将掀起新一轮的换机热潮。据可靠消息源透露，这一系列的智能手机已经在NBTC认证网站以及Camera FV 5数据库中现身，预示着它们的发布已经为期不远。据知情博主透露，三星S25系列有望在2025年1月底正式亮相。尽管

12-16

vivo Y300震撼登场：超强音质与超长续航，打造国民手机新标杆

12-16

腾讯音乐泉州新设信息科技公司，全资控股布局多元服务

12-16

Kimi视觉思考模型k1问世，数理化能力领先OpenAI等全球标杆

12-16

马斯克千亿薪酬梦碎，美式资本游戏下的世界首富也无奈？

12-16

Kimi视觉思考模型k1横空出世，基础科学能力超越OpenAI等巨头？

三言科技 12月16日消息，今天，。据介绍，k1模型基于强化学习技术打造，原生支持端到端图像理解和思维链技术，并将能力扩展到数学之外的更多基础科学领域。在数学、物理、化学等基础科学学科的基准能力测试中，初代k…

12-16

极光GPTBots闪耀香港研讨会，科技如何重塑社会服务新生态？

12-16

众擎STEMHUB联手，人形机器人如何开启K12教育新篇章？

12-16

360马伊：深挖PC价值，共创游戏行业增长新篇章

12-16

Kimi视觉思考模型k1问世，理科基准测试力压OpenAI o1等强敌

12-16

武汉大学人工智能学院启航，小米集团携手共创AI未来？

12-16

点击查看更多 +

全站最新

巫女四乃勇闯恐怖鬼屋，《深四目朝生》发售日期揭晓！

任天堂Switch继任机型开发中，能否再创辉煌成疑问？

年终游戏玩家必看！华硕天选5 Pro锐龙版满功耗RTX 4070仅售9299元

B站MATES模型引领品牌营销，如何精准触达Z世代消费者？

爱攻电竞显示器现场助阵，热门游戏畅玩无阻，49寸带鱼屏更添沉浸感！

小米Civi 5 Pro来袭：骁龙8s至尊版加持，自拍新体验？

热门内容

本栏最新

海螺AI再升级，细节超越Sora，网友：国产AI新巅峰？

网易伏羲发布具身智能方案，赋能人形机器人产业新飞跃

AWS Graviton4携Arm Neoverse，引领云计算性能与效率新飞跃

迈瑞医疗“启元”重症大模型发布，重构诊疗生态助力高质量发展

三星S25系列新机曝光，1月底发布外观小改主打AI技术

vivo Y300震撼登场：超强音质与超长续航，打造国民手机新标杆

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区 · 齐鲁软件园鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.