Hugging Face 发布 SmolVLM 开源 AI 模型:20 亿参数,用于端侧推理,体积小、速度快
IT之家 11 月 27 日报道称,Hugging Face 平台昨日(11 月 26 日)发表文章,正式发布 SmolVLM AI 视觉语言模型(VLM),拥有 20 亿参数,专为设备端推理设计,凭借其出色的内存利用率在同类模型中脱颖而出。
据官方介绍,SmolVLM AI 模型具有体积小、速度快、内存高效等优点,而且完全开源,在 Apache 2.0 许可下发布了所有模型检查点、VLM 数据集、训练配方以及工具。
SmolVLM AI 模型包括三个版本:SmolVLM-Base(用于微调)、SmolVLM-Synthetic(基于合成数据微调)和 SmolVLM-Instruct(指令微调版,可直接用于交互应用)。
架构
SmolVLM 最引人注目的是其独特的架构设计,借鉴自 Idefics3,采用了 SmolLM2 1.7B 作为语言主干,通过像素混洗策略将视觉信息的压缩率提高至 9 倍。
训练数据集涵盖 Cauldron 和 Docmatix,并对 SmolLM2 进行了上下文扩展,使其能够处理更长的文本序列和多张图片。该模型通过优化图像编码和推理过程,有效减少了内存占用,解决了以往大型模型在一般设备上运行缓慢甚至崩溃的问题。
内存
SmolVLM 将 384x384 像素的图像块编码为 81 个 tokens,因此,在相同的测试图片下,SmolVLM 仅使用 1200 个 tokens,而 Qwen2-VL 需要 1.6 万个 tokens。
吞吐量
SmolVLM 在 MMMU、MathVista、MMStar、DocVQA 和 TextVQA 等多个基准测试中表现出色,且与 Qwen2-VL 相比,预填充吞吐量提高 3.3 到 4.5 倍,生成吞吐量提高 7.5 到 16 倍。
IT之家提供参考链接
广告声明:文内包含对外链接,方便查阅,结果仅供参考。
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。