近日,科技界迎来了一项重要进展,meta公司正式推出了WebSSL系列模型,这一系列模型在视觉自监督学习(SSL)领域迈出了探索性的一步。据悉,这些模型的参数规模横跨3亿至70亿,完全基于纯图像数据进行训练,旨在挖掘无语言监督下的视觉学习潜力。
以往,以OpenAI的CLIP模型为代表的语言-图像对比学习模型,在多模态任务如视觉问答(VQA)和文档理解中表现出色,成为学习视觉表征的主流方法。然而,这类模型高度依赖语言数据,数据集获取的复杂性和规模限制成为其进一步发展的瓶颈。
meta公司此次发布的WebSSL系列模型,正是针对这一痛点而生。该系列模型涵盖了DINO和Vision Transformer(ViT)两种架构,并在Hugging Face平台上公开。这些模型使用了metaCLIP数据集(MC-2B)中的一个20亿张图像子集进行训练,完全排除了语言监督的影响。
实验结果显示,随着参数规模的增加,WebSSL模型在VQA任务上的表现呈现出接近对数线性的提升趋势,而CLIP模型在参数超过30亿后性能趋于饱和。特别是在OCR和图表任务中,WebSSL模型表现尤为突出。经过数据筛选后,仅用1.3%的富文本图像进行训练,WebSSL模型在OCRBench和ChartQA任务中的性能就超越了CLIP,提升幅度高达13.6%。
WebSSL模型在高分辨率(518px)微调后,进一步缩小了与SigLIP等高分辨率模型的性能差距,在文档任务中表现出色。值得注意的是,即使在无语言监督的情况下,WebSSL模型仍展现出与预训练语言模型(如LLaMA-3)的良好对齐性,这表明大规模视觉模型能够隐式学习到与文本语义相关的特征。
同时,WebSSL模型在传统基准测试如ImageNet-1k分类和ADE20K分割上也保持了强劲表现,部分场景下甚至优于metaCLIP和DINOv2模型。这一系列成果不仅为视觉自监督学习提供了新的思路和方法,也为未来视觉模型的发展奠定了坚实基础。