随着DeepSeek的兴起,本地化部署与推理市场迎来了前所未有的热潮,这一趋势不仅显著降低了算力成本,更使得众多中小企业能够享受到AI大模型所带来的效率飞跃。然而,尽管前景广阔,当前的硬件设备,特别是作为大模型运行核心的服务器,其高昂的价格仍然是中小企业面临的一大挑战。一台高性能的GPU服务器,价格往往高达数十万乃至上百万,这对于资源有限的中小企业而言,无疑是一笔沉重的负担。
在各行各业加速拥抱大模型的当下,企业对大模型的推理需求远超过了训练过程。据IDC数据显示,到2027年,智能算力的规模将比五年前增长1.7倍,其中用于推理的工作负载占比高达72.6%。这一趋势预示着AI算力需求将面临巨大的供应缺口,未来的算力必须具备智能能力。
DeepSeek的火爆也带动了一体机市场的繁荣,目前市场上已有超过60家企业推出了结合DeepSeek的一体机产品。这些产品虽然涵盖了从硬件制造商到云服务提供商,再到新兴科技企业等多个领域,但价格普遍不菲,从几十万到数百万不等。浪潮信息副总经理赵帅指出,即便是支持DeepSeek-R1蒸馏版本的一体机,其售价也高达数十万,而支持满血版DeepSeek的一体机更是价格惊人,这对于中小企业、教育机构以及科研用户而言,无疑是一笔巨大的投入。
赵帅在与媒体分享时进一步揭示了中小企业和科研院校在使用大模型时的痛点。他表示,尽管企业渴望利用DeepSeek等大模型创造价值,但私有数据上云的顾虑让他们对云服务望而却步。高昂的初始投资费用也让许多企业对大模型的应用持观望态度,尤其是在降本增效成为各行业共识的今天,管理层在选择技术和设备时会更加审慎地考虑投资回报率。
对于中小企业而言,在应用大模型的场景中,由于人员和业务规模相对较小,满血版服务器提供的高并发能力往往显得过于奢侈。赵帅指出,对于规模在100至200人的企业来说,小并发量下人均20token/s的流畅体验已经足够。因此,他们更需要一种性价比更高、更易部署和管理的硬件设备。
中小企业在使用服务器运行大模型的同时,还希望将OA、邮件等其他业务也纳入服务器的管理范围。这些现实需求对硬件厂商提出了更高的挑战。为了满足这些需求,浪潮信息等厂商开始探索CPU推理服务器的应用。
在企业部署大模型的过程中,模型参数规模与其应用场景密切相关。根据浪潮信息与IDC联合发布的报告,92%的企业使用的生成式人工智能模型平均参数量小于50B。赵帅指出,32B级别的模型在理解能力和知识储备上具有显著优势,能够平衡性能和部署成本,是大多数企业应用场景中的上佳选择。
特别是在某些特定场景下,CPU推理服务器的成本优势相较于GPU服务器更为明显。例如,当大模型推理所需的内存超过单块GPU的显存容量时,采用CPU部署的方案可以显著降低成本。
浪潮信息近期推出的元脑CPU推理服务器正是基于这一理念而设计的。该服务器采用了4颗英特尔至强6448H处理器和多通道内存系统设计,支持高达16TB的内存容量和1.2TB/s的内存带宽。结合AMX加速技术,该服务器能够高效运行DeepSeek-R1(32B)和QwQ-32B等推理模型,提供流畅稳定的用户体验。
测试数据显示,在使用DeepSeek-R1 32B进行问答场景下,该服务器的解码性能超过20tokens/s,在20个并发用户下,总token数达到255.2tokens/s。而在使用QwQ-32B进行模型推理时,同样支持20个并发用户数,总token数达到224.3Tokens/s。
赵帅表示,目前CPU推理服务器的询单客户众多,包括金融、教育、初创企业以及高校科研团队等都对这一产品表现出了浓厚的兴趣。然而,要想实现CPU的本地推理过程,除了硬件性能外,软件的优化与适配同样至关重要。
浪潮信息通过张量并行计算和AWQ量化的方式,减少了量化的误差,并采用了TP并行的方式提升了整机的内存带宽和模型解码速度。元脑CPU推理服务器还基于通用处理器进行软硬协同优化,为企业32B模型推理与云计算、数据库等通用关键业务场景融合提供了更高效、更灵活、更稳定的AI通用算力支撑。
值得注意的是,CPU在运行MoE架构的模型方面也具有优势。赵帅指出,CPU可以通过一个路由器选择某个专家模型,对于数据选择来说更加友好。用户对CPU推理服务器的易用性也提出了更高的要求,这一需求不仅体现在CPU推理服务器上,也体现在本地化部署的一体机和GPU服务器上。
为了提升硬件的易用性,软硬件服务商纷纷推出了平台化的软件产品与硬件的结合方案。浪潮信息推出了EPAI平台,通过预装AI操作系统和AIStation管理平台,用户可以自由选择不同大小的模型,并根据自己的应用场景进行简单的配置和点选。
软硬协同是端侧大模型能否落地的关键。对于中小企业而言,纯CPU的服务器在AI推理方面具有较高的推广前景。然而,对于大规模高并发的用户需求,还是需要使用高性能的AI推理服务器。赵帅坦言,如果用户规模较小,利用CPU推理服务器也可以运行DeepSeek-R1 671B的模型,但在小并发下单用户性能有限。因此,对于规模较大的企业而言,建设自己的小型智算中心并采用更高性能的推理服务器是支撑海量并发下推理需求的必要选择。
据了解,今年春节期间,浪潮信息收到了大量客户订单咨询,希望快速供货以支撑大并发需求的服务器。赵帅表示,建设自己的小型智算中心时,1至20台服务器的规模是企业部署私有化算力的较佳选择,这一规模可以满足上万人规模大型公司全员流畅的应用体验。
虽然CPU推理服务器在企业本地有不少应用场景,并能帮助中小企业快速落地小参数的模型产品,但由于硬件性能的限制,对于大型企业以及追求高并发、高性能模型的企业而言,GPU服务器仍然是更好的选择。因此,企业在选择产品时需要根据实际业务需求来选择,以达到最高的性价比。