ITBear旗下自媒体矩阵:

智谱AI新突破:CogView4文生图模型,首个开源支持汉字生成达SOTA

   时间:2025-03-04 14:19:13 来源:ITBEAR编辑:快讯团队 发表评论无障碍通道

智谱AI最新发布的CogView4模型在文本到图像生成领域取得了突破性进展,成为首个能够生成汉字的开源模型,并在DPG-Bench基准测试中荣获榜首,标志着开源文生图模型的新高度。这一创新成果不仅遵循Apache 2.0协议,更为图像生成领域带来了前所未有的技术革新。

据悉,CogView4模型以其卓越的复杂语义对齐和指令跟随能力,能够支持中英双语输入,无论文本长度如何,均能生成指定范围内的任意分辨率图像。这一特性使得CogView4在广告、短视频等创意领域具有广泛的应用潜力。

在DPG-Bench基准测试中,CogView4凭借其出色的表现脱颖而出,成为开源文生图模型中的佼佼者。DPG-Bench测试主要评估模型在复杂语义对齐和指令跟随方面的能力,而CogView4无疑在这一领域树立了新的标杆。

CogView4的两大技术性创新尤为引人注目。首先,它支持中英双语提示词输入,擅长理解和遵循中文提示词,这在开源文生图模型中尚属首次。通过采用具备双语能力的GLM-4 encoder,并结合中英双语图文对进行训练,CogView4成功实现了双语提示词输入功能。这一创新使得模型能够更好地满足中文用户的创意需求,如古诗文中的意境描绘等。

其次,CogView4支持输入任意长度的提示词,并能够生成指定范围内的任意分辨率图像。这一特性极大地提升了用户创作的自由度,同时也提高了训练效率。为了实现这一目标,CogView4采用了二维旋转位置编码(2D RoPE)来建模图像位置信息,并通过内插位置编码方式支持不同分辨率的图像生成任务。模型还采用了Flow-matching方案进行扩散生成建模,并结合参数化的线性动态噪声规划,以适应不同分辨率图像的信噪比需求。

作为首个遵循Apache 2.0协议的图像生成模型,CogView4的开源将极大地推动AI技术的普及和应用。智谱AI表示,将继续增加ControlNet、ComfyUI等生态支持,并推出全套的微调工具包,以满足更多用户的需求。CogView4的最新版本将于3月13日上线智谱清言平台,供用户下载和使用。

作为国内最早的开源大模型公司之一,智谱AI始终致力于推动AI技术的普惠发展。2025年被定为智谱开源年,公司将陆续开源基础模型、推理模型、多模态模型、Agent模型等,为AI技术的创新和应用注入新的活力。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version