近日,大模型领域的独角兽企业智谱科技震撼发布其最新研发成果——CogView4,这是一款开创性的开源文生图模型,特别之处在于它首次实现了对汉字生成的支持。
CogView4模型内含60亿参数,专为中文环境设计,不仅支持原生中文输入,还能将中文文本直接转化为图像。其最显著的技术更新在于,该模型能够无缝处理中英文双语提示词,将字符巧妙融入图像之中,且对长达上百字的复杂提示词也能精准理解。
与上一代产品CogView3-Plus-3B相比,CogView4在提示词处理上实现了质的飞跃,长度上限从224 Tokens大幅提升至1024 Tokens,极大扩展了用户的创意空间。
在权威的文生图基准测试DPG-Bench中,CogView4凭借卓越的表现摘得桂冠,证明了其在复杂语义对齐和指令跟随能力上的领先地位。目前,CogView4的6B-0304版本已面向公众开源,并将于3月13日正式登陆智谱清言平台(chatglm.cn)。
CogView4不仅是首个支持汉字生成的开源模型,还是首个遵循Apache 2.0协议的图像生成模型。智谱科技承诺,未来将陆续推出ControlNet、ComfyUI等生态支持,并即将发布一套完整的微调工具包,以满足用户多样化的需求。
CogView4在实际应用中展现出了惊人的创造力。无论是中英文海报的原图直出,还是根据古诗词意境绘制的精美插图,CogView4都能精准理解用户意图,将文字转化为生动形象的画面。该模型还支持超长提示词生成四格漫画或精细画面,为用户提供了前所未有的创作体验。
例如,用户只需输入一句简短的诗句“野径云俱黑,江船火独明”,CogView4就能迅速捕捉到诗句中的意象,将黑云、船、灯光、野径等元素巧妙融入画面之中,营造出一种静谧而神秘的氛围。
在技术层面,CogView4的突破在于其双语提示词输入能力和任意分辨率图像生成能力。通过将文本编码器升级为具备双语能力的GLM-4 encoder,并结合中英双语图文对进行训练,CogView4成功实现了双语提示词输入。同时,该模型采用二维旋转位置编码(2D RoPE)和Flow-matching方案进行扩散生成建模,支持任意长度提示词和任意分辨率图像的生成。
智谱科技的这一创新成果,无疑为文生图领域注入了新的活力。随着CogView4的开源和后续生态支持的完善,我们有理由相信,这一技术将广泛应用于各个领域,推动AI普惠的实现。