dots.vlm1— 小红书hi lab开源的首个多模态大模型

新闻中心 NEWS CENTER

您当前位置：首页 > 新闻中心 > 行业资讯

dots.vlm1— 小红书hi lab开源的首个多模态大模型

2025-08-07

浏览次数：次

返回列表

dots.vlm1是什么

dots.vlm1 是由小红书 hi lab 推出的首个开源多模态大模型，标志着其在多模态ai领域的重大突破。该模型结合了一个从零训练的12亿参数视觉编码器 n*it 与强大的 deepseek v3 大语言模型（llm），在视觉感知与文本推理方面均展现出卓越能力。其在多项视觉理解与推理任务上的表现接近当前领先的闭源sota模型，同时在纯文本任务中也保持强劲竞争力。值得注意的是，n*it 视觉编码器完全自主训练，原生支持动态分辨率输入，并引入了纯视觉监督信号以增强图像感知能力。训练过程中采用了多种合成数据策略，涵盖丰富类型的图像及其高质量描述，显著提升了整体数据质量与模型泛化性能。

Motiff妙多

Motiff妙多是一款AI驱动的界面设计工具，定位为“AI时代设计工具”

334 查看详情 Motiff妙多

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
dots.vlm1的主要功能

强大的视觉理解能力：能够精准识别图像内容，包括复杂图表、表格、文档和图形等，支持动态分辨率处理，适用于多样化的视觉任务场景。
高效的文本生成与推理：依托 DeepSeek V3 LLM，具备高质量文本生成能力，在数学解题、代码生成等需要逻辑推理的任务中表现优异。
多模态数据处理：支持图文混合输入，可融合视觉与语言信息进行联合推理，适用于复杂的多模态交互应用。
灵活的适配与扩展：通过轻量级 MLP 适配器连接视觉编码器与语言模型，便于针对不同下游任务进行快速微调和功能扩展。
开源与开放性：全面开放模型权重与代码，鼓励社区参与研究与创新，推动多模态技术生态发展。

dots.vlm1的技术原理

NaViT 视觉编码器：采用一个从零开始训练的12亿参数视觉编码器 NaViT，不依赖任何预训练模型微调。具备原生动态分辨率支持，可处理不同尺寸图像输入，并在传统文本监督之外加入纯视觉对比学习目标，提升底层视觉特征提取能力。
多模态数据训练：构建了涵盖普通图像、专业图表、表格、文档及图形的多样化多模态数据集，配备 Alt Text、Dense Caption、Grounding 等细粒度文本标注。引入网页抓取、PDF 解析等图文交错数据源，并通过自动化重写与清洗流程提高数据质量。
视觉与语言模型融合：将 NaViT 编码器输出通过轻量级 MLP 映射到 DeepSeek V3 LLM 的输入空间，实现跨模态语义对齐与信息融合，支持端到端的多模态推理。
三阶段训练流程：整体训练分为三个阶段——第一阶段为 NaViT 的纯视觉预训练；第二阶段是多模态联合预训练，逐步提升图像分辨率并引入图文对数据；第三阶段为指令微调与对齐后训练，增强模型在实际任务中的响应能力与交互表现。

dots.vlm1的项目地址

GitHub仓库：https://www.php.cn/link/b8a20bf368f5c21fcc1180f653c8293e
Hugging Face模型库：https://www.php.cn/link/d1b4924d687d27239d896aaf8b9a6444
在线体验Demo：https://www.php.cn/link/e273b4b4631a6f6e22eb40b1df2339e9

dots.vlm1的应用场景

复杂图表推理：能够深入分析各类复杂图表，提取关键信息并进行逻辑推导，辅助用户理解数据趋势与结构。
STEM 解题：在科学、技术、工程和数学领域，可协助解答问题，提供步骤清晰的解题思路与解释。
长尾识别：对低频类别或稀有对象具有良好的识别能力，适用于细粒度分类与检索任务。
视觉推理：支持基于图像的推理任务，如障碍物判断、商品对比分析、场景理解等。
图文问答与互动：支持多轮图文对话，能结合上下文进行连贯回应，适用于智能客服、教育辅导等场景。
内容推荐：利用多模态理解能力，在内容平台（如小红书）中实现更精准的图文或视频个性化推荐。

以上就是dots.vlm1— 小红书hi lab开源的首个多模态大模型的详细内容，更多请关注其它相关文章！

# ai # 小红书 # red # deepseek # git # 黑龙江企业网络推广营销 # 工业训练中心网站建设 # 宁波网络营销推广招聘 # 榆林seo公司便捷火星 # 浦东新区专业网站推广 # 淘宝关键词排名在哪里看 # seo推广运营面 # 淘客营销推广方案 # 江门网站建设建议 # 佛山网站建设路推荐 # 文档 # 安装包 # 的是 # 一键 # 高质量 # 首个 # 开源 # 适用于 # 小红 # 多模 # hugging face

相关栏目：【行业资讯67740 】【技术百科0 】【网络运营39195 】

上一篇：表单大师AI表单美化技巧表单大师AI视觉设计操作指南

下一篇：传新款蔚来ES8租电价格约35万元！本月将开启预订

首页

关于我们

产品展示

咨询研究

新闻中心

留言板

联系我们

新闻中心 NEWS CENTER

dots.vlm1— 小红书hi lab开源的首个多模态大模型

dots.vlm1是什么

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
dots.vlm1的主要功能

dots.vlm1的技术原理

dots.vlm1的项目地址

dots.vlm1的应用场景

首页

关于我们

产品展示

咨询研究

新闻中心

留言板

联系我们

新闻中心 NEWS CENTER

dots.vlm1— 小红书hi lab开源的首个多模态大模型

dots.vlm1是什么

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ dots.vlm1的主要功能

dots.vlm1的技术原理

dots.vlm1的项目地址

dots.vlm1的应用场景

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
dots.vlm1的主要功能