【ITBEAR】9月25日消息,今日,百度云智大会顺利举行,会上,百度智能云宣布其百舸AI异构计算平台已成功升级至4.0版本,标志着该平台在技术与性能上迈出了重要一步。
据ITBEAR了解,百舸4.0版本的重点升级在于“多芯混训”能力,现已实现在万卡规模集群上达到95%的多芯混合训练效能,显著提升了训练效率。此外,在集群部署环节,升级后的百舸平台展现出了卓越的性能,能够将万卡集群的运行准备时间从数周缩短至最快1小时,极大地提高了部署效率。
针对大模型训练过程中常见的故障问题,百舸4.0也进行了全面的优化。通过升级故障检测手段和自动容错机制,该平台有效降低了故障发生的频次,并大幅减少了集群故障的处理时间,确保了万卡集群上超过99.5%的有效训练时长。
在模型推理方面,百舸4.0版本同样带来了显著的优化。通过对推理速度和成本的全面调整,该平台的长文本推理效率提升了1倍以上,为用户提供了更加高效、经济的推理解决方案。
此次百舸AI异构计算平台的升级,无疑将进一步推动AI技术的发展与应用,为用户提供更加高效、稳定的计算服务。
#百度智能云# #百舸AI异构计算平台# #多芯混训# #模型推理# #集群部署#