国产大模型DeepSeek在科技界再度掀起波澜,于1月28日凌晨悄然发布其最新力作——Janus-Pro多模态大模型,正式涉足文本生成图像领域。这一举动不仅彰显了DeepSeek在人工智能领域的深厚底蕴,更为全球AI技术竞赛增添了新的看点。
在备受瞩目的Geneval和DPG-Bench基准测试中,Janus-Pro-7B凭借其卓越性能,一举超越了OpenAI的DALL-E 3、Stable Diffusion以及Emu3-Gen等业界知名模型,展现了其强大的文本到图像生成能力。这一成就无疑为DeepSeek赢得了更多的关注与赞誉。
据DeepSeek方面介绍,Janus-Pro作为其此前发布的JanusFlow大模型的高级版本,在训练策略、训练数据以及模型规模等方面均进行了全面优化与升级。这些改进使得Janus-Pro在多模态理解和文本到图像的指令跟踪功能方面取得了显著进步,同时大幅提升了文本到图像生成的稳定性。
尽管目前Janus-Pro仅能处理384x384分辨率的图像,但其紧凑的模型结构却能实现如此高水平的性能,实属难能可贵。这一特点使得Janus-Pro在资源受限的环境下仍能保持出色的表现,为更多应用场景提供了可能。
作为一款多模态模型,Janus-Pro的功能远不止于文本生成图像。它还能对图片进行精准描述,识别地标景点,识别图像中的文字,并能对图片中的知识进行详细介绍。这些功能使得Janus-Pro在图像处理、信息检索以及知识问答等领域具有广泛的应用前景。
Janus-Pro采用了MIT开源协议,这意味着用户可以无限制地将其应用于商业场景。这一举措无疑将进一步推动Janus-Pro的普及与应用,为更多企业和个人提供强大的AI技术支持。