阶跃星辰公司近期宣布了一项重大决定,将自家图像编辑领域的明星大模型Step1X-Edit向公众开放源代码。据官方宣称,这款模型在开源社区中已达到最新技术水平,即SOTA状态。Step1X-Edit凭借其强大的功能,能够应对多种高频图像编辑需求,包括文字替换、风格迁移、材质变换、人物修图等11种常见任务类型,几乎覆盖了用户在进行图像编辑时的所有需求。
这款图像编辑大模型的总参数量达到了惊人的190亿,其中,70亿参数属于MLLM(推测为多模态语言模型),而另外的120亿参数则归属于DiT(推测为扩散模型)。Step1X-Edit专注于自然语言图像编辑任务,并具备三大核心优势。
首先,Step1X-Edit具备出色的语义解析能力。它能够准确理解并执行用户通过自然语言描述的复杂指令,无需依赖任何预设模板。这意味着用户在进行图像编辑时,可以更加自由地进行多轮、多任务的编辑操作。模型还能对图像中的文字进行精准识别、替换与重构,显著提升了图像编辑的效率和灵活性。
其次,Step1X-Edit在保持身份一致性方面表现出色。在进行图像编辑的过程中,它能够稳定地保留图像中的人脸、姿态和身份特征。这一特点对于虚拟人形象、电商模特展示以及社交图像编辑等需要高度一致性的场景来说,尤为重要。用户无需担心编辑后的图像出现身份特征不一致的问题。
最后,Step1X-Edit还具备高精度区域级控制能力。它能够根据用户的指令,对图像中的指定区域进行文字、材质、色彩等定向编辑,同时保持图像整体风格的统一。这种精细化的控制能力使得编辑后的图像更加自然、逼真,满足了用户对高质量图像编辑的需求。