ITBear旗下自媒体矩阵:

商汤新一代多模态大模型发布,为机器人赋予“真听真看真思考”能力

   时间:2025-04-11 12:43:35 来源:ITBEAR编辑:快讯团队 发表评论无障碍通道

在人工智能领域,一场关于人形机器人智能化的革新正在悄然发生。国产大模型技术的突破,让人形机器人拥有了更加接近人类的“大脑”、“眼睛”、“耳朵”和“嘴巴”。

近日,商汤科技展示了其最新一代「日日新SenseNova V6」大模型的应用成果。在一场演示中,傅利叶通用人形机器人GRx凭借这一技术,迅速识别出了“水”和“可乐”,并根据用户提出的“想减肥+爱运动”的需求,给出了贴心的建议。更令人惊叹的是,当要求它夸奖人时,GRx也能流利地表达赞美之词。

另一款具身智能机器人“飞燕”同样表现不凡。它能够详细描述眼前的场景,包括室内布置和人们的活动,这种能力使得未来的机器人迎宾或解说员不再只是呆板地站在那里,而是能够充满活力地与人交流,甚至能察觉到人的情绪,通过调整语气和音调来提供情绪价值。

这一切的幕后英雄,正是商汤科技新发布的「日日新SenseNova V6」大模型。这款模型在「长思维链 x 数理能力 x 推理能力 x 全局记忆」方面实现了全面升级,具备最长64K的思维链、领先的数据分析能力、多模态深度推理能力以及10分钟长视频理解及深度推理等强大功能。更重要的是,它将先进的视觉交互和理解能力引入了机器人应用,开启了人机交互的新篇章。

商汤科技联合创始人、执行董事及人工智能基础设施和大模型首席科学家林达华明确表示,商汤将“如何将机器人交互能力与具身智能的结合”视为未来发展的重要方向。他相信,最终的AI交互形态将像人一样自然,多模态交互将无处不在,从机器人、汽车到手机、眼镜等各种设备都能实现。

「日日新SenseNova V6」的应用场景远不止于此。在测试中,它不仅能给空白梗图设计对话,展现出丰富的创意,还能快速浏览中长视频,总结重点内容,甚至能按照用户要求将信息以列表形式输出或剪辑指定场景的视频片段。这种能力对于视频内容分析、教育辅导等领域具有巨大的潜在价值。

「日日新SenseNova V6」还支持实时视音频交互,用户只需打开手机摄像头,就可以随时向AI提问,无论是街景识别、数学题讲解还是翻译文字,AI都能迅速给出答案。这种便捷性使得AI更加贴近人们的日常生活。

值得注意的是,国产芯片也参与了「日日新SenseNova V6」的训练过程。商汤科技联合创始人、大装置事业群总裁杨帆表示,近年来国产芯片取得了快速进步,商汤持续对进口及国产芯片进行适配和优化,旨在提供市场上性价比最优的解决方案。

在技术层面,「日日新SenseNova V6」采用了混合专家架构(MoE),拥有6000亿参数,实现了多模态长思维链、多模态强化学习和多模态全局记忆的三合一能力。其推理能力显著提升,在多项数学基准测试中超过了国际领先模型。同时,主打实时视音频交互的SenseNova V6 Omni在多模态音视频学术榜单上的综合能力也全面领先。

商汤科技还发布了商汤大装置SenseCore 2.0以及四大行业解决方案,致力于成为“最懂大模型的AI基础设施”。此次技术革新不仅提升了人形机器人的智能化水平,也为AI在日常生活和办公场景中的应用带来了更多便利和生产力提升。

例如,在教育领域,「日日新SenseNova V6」可以帮助学生快速整理网课重点、回答与视频内容相关的问题;在商业领域,商家可以收集顾客对新品的评论截图,让AI进行专业的经营分析。通过商量App,用户还可以享受实时视频通话、数学解题、点读翻译、文旅讲解和绘本讲解等便捷服务。

随着「日日新SenseNova V6」系列模型的广泛应用,AI正逐渐融入人们的日常生活,成为提升效率和便捷性的重要工具。商汤科技通过持续的技术创新和生态协同,正逐步构建起作为独立AI企业的核心竞争力。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version