在2025年春节的喜庆氛围中,人工智能领域迎来了一场震撼业界的变革。DeepSeek,这家成立于2023年的新兴企业,以其卓越的技术实力和创新精神,在春节假期前后引发了一场关于高性能模型训练与低成本实现的热议。
早在今年1月20日,DeepSeek便正式开源了其R1推理模型。这款模型在数学、代码、自然语言推理等关键任务上,展现出了与OpenAI-o1正式版相媲美的性能,而其开发成本仅为600万美元,不足OpenAI-o1模型开发成本的1.2%。这一壮举不仅彰显了DeepSeek的技术实力,更为业界带来了全新的低成本高性能模型训练思路。
随后,在2024年12月26日,DeepSeek再次宣布上线并同步开源了其DeepSeek-V3模型。这款模型以惊人的效率,仅使用2000个GPU芯片,在1/11的算力下训练出了性能超越GPT-4o的大模型,训练成本更是低至GPT-4o的5.6%。这一消息无疑为业界带来了更大的震撼,多家中外算力芯片企业纷纷宣布适配DeepSeek模型,以期在激烈的市场竞争中占据有利地位。
龙芯中科率先宣布,搭载龙芯3号CPU的设备已成功运行DeepSeek R1 7B模型,实现了本地化部署。这一举措不仅为用户提供了更快、更强、更省的训推体验,还标志着DeepSeek模型在国产化硬件平台上的成功应用。同时,龙芯还联合太初元碁等产业伙伴,迅速完成了DeepSeek-R1系列模型的适配工作,并上线了多款大模型服务。
燧原科技也不甘落后,宣布完成了对DeepSeek全量模型的高效适配,并在多个智算中心完成了数万卡的快速部署。华为则宣布DeepSeek系列模型已正式上线昇腾社区,支持一键获取和开箱即用,进一步降低了用户的使用门槛。
海光信息、天数智芯、摩尔线程等企业也相继宣布完成了对DeepSeek模型的适配工作,并上线了相关服务。其中,海光信息成功完成了DeepSeek V3和R1模型与海光DCU的适配,并上线了DeepSeek-Janus-Pro多模态大模型。天数智芯则在短短一天内完成了与DeepSeek R1的适配工作,并上线了多款大模型服务。
英特尔和英伟达也加入了这一行列。英特尔宣布DeepSeek能够在其产品上运行,并在AI PC上实现离线使用,强调了其本地部署能力。而英伟达则在其开发者网站上提供了DeepSeek-R1模型微服务预览版,供开发人员测试和试验。
随着DeepSeek模型的广泛应用和不断迭代升级,业界对其前景充满了期待。而这场由DeepSeek引发的技术变革,也必将为人工智能领域带来更多的创新和突破。