【ITBEAR】在开源与闭源之争持续发酵的背景下,开源无疑已成为推动大模型技术发展与生态繁荣的关键力量。大模型,这一曾被视为极度烧钱的技术领域,如今正因开源的浪潮而发生深刻变革。
以往,大模型的训练成本高昂,如GPT-3的训练费用据传超过4600万美元,使得大模型技术主要被资金雄厚的大厂和明星创业公司所掌握。然而,随着llama、Mistral、Falcon等开源先锋的涌现,这一格局被彻底打破。如今,缺乏AI积累的企业、中小团队乃至个人开发者,都能基于开源底座模型,以低成本训练并部署专属模型。
在国内,受国际开源先锋的影响,国产开源大模型也经历了快速发展阶段,涌现出如ChatGLM、Baichuan、DeepSeek、Qwen等一系列开源模型。尤为国产开源大模型在短短一年多时间内,已具备了与国际顶尖开源模型比肩的影响力,通义千问开源模型便是其中的佼佼者。
根据Hugging Face的数据,Qwen系列血缘模型数量已高达5万多个,这意味着全世界的开发者基于Qwen系列底座,已经二次训练出5万多个衍生模型,数量仅次于Llama系列的7万左右。这一数据成为了衡量模型生态影响力最有说服力的指标。
在2024云栖大会上,通义大模型再推全新开源系列Qwen2.5,其旗舰模型展现出屠榜式的强劲性能,吸引了海内外开发者和开源社区的广泛关注。通义大模型如何在短短一年多时间内实现如此飞跃?这背后离不开其在性能与生态上的双重发力。
Qwen2.5系列在性能上稳居全球开源第一,其旗舰模型Qwen2.5-72B在多个权威测评集中全面超越同尺寸开源模型,甚至“跨数量级”超越Llama3.1-405B模型。这一成就不仅代表了国产开源模型与美国最强开源模型的一次硬刚,也极大地降低了“天花板性能”模型的使用成本。
在生态建设方面,通义团队注重生态兼容、开发者服务以及吸纳研究界和开源社区的创意。他们积极与Hugging Face等开源社区合作,提升开发者体验,并不断优化模型文档和代码片段。这些努力使得通义大模型在开源届成功跻身一流之列,比肩国际最强开源模型Llama。
截至2024年9月初,通义千问开源模型累计下载量已突破4000万,衍生模型数量也超过5万个,成为仅次于Llama的世界级模型群。这些数据充分展示了通义作为中国开源大模型的影响力。除了开源模型,通义也提供API服务,已服务了30多万客户,涉及千行百业。
通义大模型的开源之路,也是中国大模型追赶世界一线水平的缩影。开源的力量再次得到验证,它不仅推动了新技术的快速发展,也为创新提供了无限可能。在未来,随着大模型技术的不断演进和生态的日益繁荣,我们有理由相信,通义大模型将继续在全球开源社区中发挥重要作用。