近日,北京迎来了一场商业领域的盛事——36氪WISE2024商业之王大会。此次大会为期两天,吸引了众多业界精英和领军人物,共同探讨中国商业的新趋势和潜力。作为已经举办了十二届的商业盛会,WISE大会在时代变迁中持续见证着中国商业的坚韧与活力。
2024年,是一个充满变化与挑战的年份。与前十年相比,商业环境变得更加复杂,企业发展步伐放缓,更加注重稳健和理性。同时,这一年也是寻找新经济动力的重要时期,产业变革对各个主体的适应能力提出了更高要求。今年,WISE大会以“Hard But Right Thing(正确的事)”为主题,引发了与会者对当前商业环境下何为正确路径的深入思考和交流。
在大会的众多精彩演讲中,「后摩智能」副总裁倪晓林的分享尤为引人注目。他围绕AI与NPU的发展,探讨了边端侧AI算力需求的变化趋势,为听众带来了深刻见解。
倪晓林首先介绍了「后摩智能」作为一家基于存算一体的AI芯片公司的背景,并表示作为AI时代的参与者和见证者,深感荣幸。随后,他详细阐述了后摩智能对边端侧AI算力需求变化的看法。
他提到,随着AI 2.0时代的到来,云端模型和端边侧模型都在迅速发展。云端模型不断增大规模和参数,探索通用智能的边界;而端边侧则出现了更适合本地部署的模型,如7B、13B、30B等,这些模型更适合应用于各行各业,解决实际问题。端边侧AI具有个性化、低时延、数据隐私保护等优势,且每年全球新增智能设备数量高达数十亿台,市场前景广阔。
然而,端边侧AI的发展也面临着硬件方面的挑战。倪晓林指出,端侧硬件需要满足“三高三低”的要求,即高算力、高带宽、高精度、低功耗、低延时、低成本。CPU无法满足全部需求,而GPU虽然能满足部分要求,但其高成本和高功耗限制了端侧设备的普及。因此,专为本地大模型设计的NPU更适合边端侧使用。
针对边端设备对AI高带宽、低功耗的需求,传统的冯·诺伊曼架构已经难以应对。倪晓林表示,存储墙和功耗墙是当前企业面临的两大难题。为了突破这两大难题,后摩智能采用了存算一体的全新架构,实现了存储单元和计算单元的高度集成,大幅降低了功耗,增加了带宽。
后摩智能已经自研了两代存算一体芯片架构,并针对LLM类大模型进行了专项设计。其自研的IPU架构提供了高并行的浮点和整型算力,配套的软件工具链简单易用,兼容通用编程语言。后摩智能还推出了后摩鸿途®️H30和后摩漫界®️M30两款NPU芯片,充分展现了存算一体架构在算力和功耗方面的优势。
为了方便AI设备方案商及生产商快速部署,后摩智能不仅提供芯片,还提供多种标准化产品形态,如力谋®️LM30智能加速卡和力谋®️SM30计算模组等。这些产品可以让现有各类终端设备通过标准接口加装NPU,实现本地AI大模型的流畅运行。
倪晓林表示,随着AI技术的不断发展,越来越多的设备将成为AI大模型使能设备,如AI PC、汽车AI座舱、AI TV等。这些设备将成为更懂用户、更聪明、更高效的助理、秘书、司机等,为用户提供各种服务。后摩智能希望通过其AI芯片助力各行业实现快速升级。
倪晓林还透露,后摩智能将在2025年推出基于新一代“天璇”架构的最新款芯片,性能将再次大幅提升。这款芯片有望进一步加速端边设备部署大模型的进程。
在演讲的最后,倪晓林表示,他相信未来十年将是AI大模型的时代,NPU将重塑所有端边场景和设备。他期待与在座的AI企业和生态合作伙伴携手合作,共同推动现有设备以及未来新型设备流畅运行AI大模型,共创AI新时代。