ITBear旗下自媒体矩阵:

联想AI服务器新突破:本地部署DeepSeek大模型,性能满载支持百并发

   时间:2025-03-03 12:31:34 来源:ITBEAR编辑:快讯团队 发表评论无障碍通道

联想集团近日宣布了一项重大技术突破,成功在联想问天WA7780 G3服务器上单机部署了DeepSeek-R1/V3 671B大模型。这一成就不仅刷新了企业级大模型部署的基准,还以远低于行业公认的1TGB显存要求(实际仅使用768GB),实现了流畅支持100并发用户的能力,充分满足千人以上规模企业的使用需求。

在DeepSeek大模型本地化部署逐渐成为企业关注焦点的背景下,联想的这次技术革新为企业提供了宝贵的选型参考。面对行业普遍存在的关键问题,如单机能否部署完整版的DeepSeek R1、最低配置需求、高并发与吞吐量下的用户体验保障以及如何避免采购陷阱,联想给出了明确的答案。

联想的研发团队通过一系列创新技术,包括专家并行优化、智能访存架构升级以及PCIe 5.0全互联架构的应用,显著提升了显存利用率,从而实现了性能的大幅提升。在512 token标准测试环境下,系统能够支持100个并发用户以每秒10 token的速度稳定输出,首token响应时间更是被压缩至30秒以内。即使在面对4K长序列的复杂场景时,系统也能保持25个并发用户的同等性能。

联想问天WA7780 G3服务器仅配置了8张96GB显存的GPU卡,而DeepSeek-R1大模型的模型参数就占据了约700GB显存,剩余显存空间有限。如果不进行专门优化,系统仅能支持2至3个用户接入。然而,在联想万全异构智算平台的加持下,通过精心优化,联想成功实现了用户体验的三项关键指标:首token延迟小于30秒、单token延迟小于100毫秒、支持2K以上长序列问题处理。同时,这一方案还实现了20%以上的成本节约,充分展示了联想在服务器技术领域的深厚积累和创新实力。

联想的这一创新成果不仅为企业提供了设备选型的新思路,还提醒企业在评估测试数据时,应审慎看待总吞吐量和总并发数等指标,而应更加关注用户体验和数据精度等隐藏信息。例如,将数据精度从FP8转为int8或int4(即量化)虽然可以显著提升性能表现,但会牺牲结果的准确性,这显然不是用户所期望的。高吞吐量和高并发量也并不等同于用户体验好。如果服务器GPU卡配置不高,局部通信瓶颈可能会引发响应延迟,导致用户体验降级。

联想的这一技术突破将有效破除大模型在企业落地过程中的瓶颈,加速大模型在企业的应用进程。未来,联想基础设施业务群与联想研究院先进计算实验室将继续深化合作,依托联想万全异构智算平台对DeepSeek平台从AI预训练、后训练到推理的全流程进行持续优化,为客户提供性能更佳、性价比更高的产品和解决方案,推动DeepSeek大模型的广泛落地,引领新一轮的生产力革命。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version