ITBear旗下自媒体矩阵:

Hugging Face新推SmolVLM多模态模型:高效能低资源新选择

   时间:2025-01-27 07:56:32 来源:ITBEAR编辑:快讯团队 发表评论无障碍通道

近日,科技界迎来了一项新的突破,Hugging Face公司于1月26日正式推出了两款精心打造的多模态模型——SmolVLM-256M与SmolVLM-500M。这两款模型是从去年训练的庞大800亿参数模型中提炼而出,成功地在性能与资源消耗之间找到了完美的平衡点。

据悉,SmolVLM-256M采用了先进的SigLIP作为图像编码技术,而更高级别的SmolVLM-500M则配备了更为强大的SmolLM2文本编码器。尤为引人注目的是,SmolVLM-256M凭借其小巧的体积,成功跻身当前最小的多模态模型之列。它不仅能够接收任意序列的图像与文本输入,还能生成丰富的文字输出,涵盖图片描述、视频字幕生成乃至PDF处理等多样化功能。

在资源占用方面,这两款模型同样展现出了极高的效率。对于移动设备而言,SmolVLM-256M仅需不到1GB的GPU显存即可完成单张图片的推理任务,这对于移动应用开发来说无疑是个巨大的福音。而对于追求更高性能的企业级应用环境,SmolVLM-500M则提供了更为精准的输出结果,尽管其资源需求稍高,仅需1.23GB的GPU显存,但其在处理复杂任务时的表现更为出色。

值得注意的是,Hugging Face此次推出的两款模型均采用了Apache 2.0开源授权,这意味着开发者可以自由地获取、修改和分发这些模型。公司还贴心地提供了基于transformer和WebGUI的示例程序,大大降低了开发者的上手难度。所有模型及其演示代码均已在公开平台上发布,方便开发者下载与使用。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version