新闻中心

小米又开源了,一个多模态大模型 + 一个生不逢时的推理大模型

2025-06-27
浏览次数:
返回列表

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

小米又开源了,一个多模态大模型 + 一个生不逢时的推理大模型
小米又开源了,一个多模态大模型 + 一个生不逢时的推理大模型

大家好,我是 ai 学习的老章

上月底,小米开源了一个大模型:MiMo-7B,它从零开始训练并专为推理任务设计的模型系列。通过优化的预训练和后训练策略,MiMo-7B 展现出了超越许多更大模型的推理潜力。

昨天,小米又开源了 MiMo-VL-7B 系列多模态大模型、MiMo-7B-RL-0530 系列推理模型

咱们挨个看一下情况

MiMo-VL-7B 系列

MiMo-VL-7B 系列多模态大模型支持文字、图像、视频输入

小米又开源了,一个多模态大模型 + 一个生不逢时的推理大模型

技术报告:https://github.com/XiaomiMiMo/MiMo-VL/blob/main/MiMo-VL-Technical-Report.pdf

模型文件:https://www.modelscope.cn/models/XiaomiMiMo/MiMo-VL-7B-RL/files

小米又开源了,一个多模态大模型 + 一个生不逢时的推理大模型

其中

MiMo-VL-7B-SFT 是经过投影器预热、视觉 - 语言对齐、通用多模态预训练和长上下文监督微调四个阶段预训练而得。

MiMo-VL-7B-RL 是 SFT 基础上引入了混合在线强化学习,无缝集成涵盖感知准确性、视觉基础精度、逻辑推理能力和人机偏好等多种奖励信号。

MiMo-VL-7B-RL 在多个方面都强于同等参数的 Qwen2.5-VL-7B(这个模型我在这篇文章中有介绍1 张 4090,本地部署多模态大模型,部署后我测试了几个图片理解问题,感觉 7B 做到这个程度,无可挑剔)

小米又开源了,一个多模态大模型 + 一个生不逢时的推理大模型

评估方面,感觉吹牛的可能性比较大

在一般的视觉语言理解中,MiMo-VL-7B 模型比同参数甚至更高参数的开源模型都优秀

小米又开源了,一个多模态大模型 + 一个生不逢时的推理大模型

在多模态推理中,SFTRL 模型在这几项基准测试中均显著优于所有比较的开源基线。

小米又开源了,一个多模态大模型 + 一个生不逢时的推理大模型

MiMo-VL-7B-RL 具有出色的 GUI 理解和定位能力。作为一个通用的 VL 模型,MiMo-VL 达到了与专门针对 GUI 的模型相当甚至更优的表现。

PS:GUI 就是各种计算机操作的图形界面

小米又开源了,一个多模态大模型 + 一个生不逢时的推理大模型

MiMo-VL-7B 系列,既没有试用,又没有详细的本地部署文档,这一块,跟阿里差远了。

我真的蛮好奇是否真的可以吊打 Qwen2.5-VL-7B

魔法映像企业网站管理系统 魔法映像企业网站管理系统

技术上面应用了三层结构,AJAX框架,URL重写等基础的开发。并用了动软的代码生成器及数据访问类,加进了一些自己用到的小功能,算是整理了一些自己的操作类。系统设计上面说不出用什么模式,大体设计是后台分两级分类,设置好一级之后,再设置二级并选择栏目类型,如内容,列表,上传文件,新窗口等。这样就可以生成无限多个二级分类,也就是网站栏目。对于扩展性来说,如果有新的需求可以直接加一个栏目类型并新加功能操作

魔法映像企业网站管理系统 0 查看详情 魔法映像企业网站管理系统

改天部署试试

MiMo-7B-RL-0530 系列

模型文件:`https://www.modelscope.cn/models/XiaomiMiMo/MiMo-7B-RL-0530/files

技术报告:https://arxiv.org/abs/2505.07608

昨天小米还开源了 MiMo-7B-RL,太生不逢时了,赶上了DeepSeek R1 最新版本模型——DeepSeek-R1-0528,还有DeepSeek-R1-0528 蒸馏 Qwen3:8B 大模型,我用 2 张英伟达 4090 本地部署了,深得我心

模型细节就不看了,文末我用大模型基于小米这篇论文绘制了 PPT,感兴趣可以细看。

总结就是,在训练数据、预训练和后训练阶段都进行了优化,号称是在数学和代码推理任务上表现出色,达到了与 OpenAI o1-mini 相当的性能。

小米又开源了,一个多模态大模型 + 一个生不逢时的推理大模型

部署推理支持 SGLangvLLM,前者 SGLang 官方已支持,vLLM 尚未合并分支,用起来稍麻烦

代码语言:basg复制
# Install the latest SGlang from main branch python3 -m uv pip install "sglang[all] @ git+https://github.com/sgl-project/sglang.git/@main#egg=sglang&subdirectory=python" # Launch SGLang Server SGLANG_USE_MODELSCOPE=true python3 -m sglang.launch_server --model-path XiaomiMiMo/MiMo-7B-RL --host 0.0.0.0 --trust-remote-code

这个我就更懒的测试了,铁定不如DeepSeek-R1-0528-Qwen3-8B

小米这篇论文,我转成了 PPT,感兴趣看看

制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个?,谢谢你看我的文章,我们下篇再见!

搭建完美的写作环境:工具篇(12 章)

图解机器学习 - 中文版(72 张 PNG)

ChatGPT、大模型系列研究报告(50 个 PDF)

108 页 PDF 小册子:搭建机器学习开发环境及 Python 基础 

116 页 PDF 小册子:机器学习中的概率论、统计学、线性代数 

史上最全!371 张速查表,涵盖 AI、ChatGPT、Python、R、深度学习、机器学习等

以上就是小米又开源了,一个多模态大模型 + 一个生不逢时的推理大模型的详细内容,更多请关注其它相关文章!


# python  # 万元  # 企业网站  # 管理系统  # 多模  # 生不逢时  # 开源  # modelsc  # fig  # 本地部署  # deepseek  # chatgpt  # ai  # 工具  # git  # 小米开源  # qwen  # 保定外链seo  # 辽宁品质网站建设价格表  # 企业品牌策划营销推广  # 普陀网站建设选哪家  # 营销推广会议室布置图案  # 越秀房地产营销推广公司  # 数字化营销推广能力  # 正规seo搜索优化推广  # 新华区网站推广方案公示  # 网络营销精准推广方案  # 感兴趣  # 腾讯  # 将在  # 多个 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: j*a数组求和怎么算  苹果16主打颜色有哪些  固态硬盘电脑如何设置  电动车仪表盘上的power是什么意思  如何利用固态硬盘  typescript在浏览器里怎么用  typescript适合什么用  空调power灯一直闪是什么意思  如何利用运行命令查看声音启动  笔记本如何选择固态硬盘  固态硬盘如何下载网页  春运抢票到哪里抢票啊  破太岁是什么意思  固态硬盘如何装入机箱  基金市盈率是什么意思  typescript能开发什么  单片机怎么加死循环  免费恢复删除的微信聊天记录软件有哪些  nfc功能是什么意思怎么开启  语音聊天软件哪个好 语音聊天软件2025排行榜  苹果16会升级哪些  阿里云盘修复工具怎么用  typescript学多久可以学会  为什么ai老是说链接面板中缺少某些文件  ai文件在线打开工具有哪些  学typescript需要多久  怎么更新typescript  车子上面nfc功能是什么意思  typescript怎么写多个构造方法  如何看固态硬盘型号  公司的tm市盈率为负是什么意思  手机拍电脑屏幕有条纹怎么解决  typescript如何定义变量  显卡上面TYPE-C是什么接口  安卓手机怎么打开5g  如何更新typescript  typescript有哪些版本  导航power在汽车上是什么意思  如何自己加装固态硬盘  如何显示固态硬盘  linux如何使用db2命令  typescript 如何解决 null  电焊机power和oc是什么意思  如何安装台式机固态硬盘  如何测固态硬盘芯片  如何设置从固态硬盘启动  如何拍屏幕不出条纹详细方法  交管12123协议头不完整是什么原因  如何弄坏固态硬盘  npm如何声明命令 

搜索