Hugging Face 推出号称“世界上最小的视觉语言模型”SmolVLM-256M
最新 1 月 26 日消息,Hugging Face 发布了两款全新多模态模型 SmolVLM-256M 和 SmolVLM-500M,其中 SmolVLM-256M 号称是世界上最小的视觉语言模型(Video Language Model)。
据悉,相应模型主要基于 Hugging Face 团队去年训练的 80B 参数模型蒸馏而成,号称在性能和资源需求之间实现了平衡,官方称 SmolVLM-256M / 500M 两款模型均可“开箱即用”,可以直接部署在 transformer MLX 和 ONNX 平台上。
具体技术层面,SmolVLM-256M / 500M 两款模型均采用 SigLIP 作为图片编码器,使用 SmolLM2 作为文本编码器。其中 SmolVLM-256M 是目前最小的多模态模型,可以接受任意序列的图片和文本输入并生成文字输出,该模型功能包括描述图片内容、为短视频生成字幕、处理 PDF 等。Hugging Face 称由于该模型整体轻巧,可在移动平台轻松运行,仅需不到 1GB 的 GPU 显存便可在单张图片上完成推理。
而 SmolVLM-500M 针对需要更高性能的场景而设计,Hugging Face 称相关模型非常适合部署在企业运营环境中,该模型推理单张图片仅需 1.23GB 的 GPU 显存,相对 SmolVLM-256M 虽然负载更大,但推理输出的内容更精准。
最新注意到,两款模型均采用 Apache 2.0 开源授权,研究团队提供了基于 transformer 和 WebGUI 的示例程序。所有模型及其演示已公开便于开发者下载和使用,具体页面可(点此访问)。
相关文章
- OpenAI 周活跃用户达 4 亿,高管称用户“口口相传”发现
- Figure AI 人形机器人多模态能力升级:“听懂”语音指令
- 李开复 AI 公司零一万物被曝多处变动:计划拆分数字人业
- Spotify 启动 AI 配音有声书服务,29 种语言可供选择
- OpenAI GPT-4.5 有望下周发布,GPT-5 被曝将与 o3 大一
- 英伟达推出 Signs 平台:AI 突破美式手语学习,助力连接无
- 传字节大模型团队架构调整,知情人士称吴永辉和朱文佳都
- 清华系团队 DeepSeek 版多模态生物医药大模型 BioMedG
- DeepSeek 还在发力:官宣下周陆续开源 5 个代码库,毫无保
- 报告称 DeepSeek App 上线一个月下载量破亿:几乎没花钱