OpenAI在3月25日宣布了对GPT-4o和Sora的重大更新,引入了一项引人注目的新功能——一个全新的文本到图像生成模型。这一新模型不仅限于文本到图像的转换,还具备自定义操作、连续提问、风格转换以及图像PPT制作等一系列实用功能。
在周二的一次直播活动中,OpenAI的首席执行官奥尔特曼正式宣布,基于GPT-4o模型的原生图像生成功能已经问世,这标志着DALL-E这一独立的文本到图像生成模型被整合进了ChatGPT系统。回顾历史,ChatGPT在2022年底推出时,仅支持文字聊天功能,大约一年后,虽然集成了DALL-E 3图像生成模型,但两者在系统层面上仍然是独立的。此前,AI图像生成器存在诸如“理解提示词能力不足”和“无法准确生成图片中的文字”等问题,这些问题极大地限制了其在教育和职场等领域的应用潜力。
然而,此次升级后的ChatGPT在图像生成功能方面取得了显著的进步。它能够更加准确地根据提示词生成图像中的文本,特别是在生成黑板板书、印刷体以及科学常识绘图等涉及图像文字的场景中,其表现从几乎不可用提升到了接近商用水平。图像编辑功能也得到了极大的增强,例如,可以将合照转化为动画风格,根据简单的提示词生成相对论主题的彩色漫画,还能根据漫画草稿一键上色或更换主要角色。
在商业应用方面,这一新模型也展现出了巨大的潜力。用户可以根据上传的照片和卡片模板自定义生成新的卡片,甚至能够基于聊天的上下文生成一系列风格一致的图像。这对于游戏角色设计等领域来说,无疑是一个重大的突破。然而,OpenAI也坦诚地承认,新的图像生成器仍然存在一些局限性,特别是在处理密集文字和非拉丁语文字的图像生成时,可能会遇到问题,这在一定程度上受到了模型幻觉的影响。
尽管存在这些局限性,但OpenAI的这一升级仍然为ChatGPT的发展注入了新的活力。从周二开始,这一新功能已经向所有免费和付费用户开放,而在未来几周内,开发者还可以通过API接口进行调用。这一系列的更新和改进,无疑让我们对ChatGPT在更多领域的应用表现充满了期待。