新闻中心
UniPixel— 香港理工联合腾讯推出的像素级多模态大模型
UniPixel是什么
unipixel是香港理工大学和腾讯arc lab团队开发的首个统一像素级多模态大模型,专注于图像/视频的精细理解与交互。能在单个模型中完成对象指代、像素级分割和区域推理三大任务,通过创新设计的”对象记忆机制”和统一视觉编码方式,实现了对视频中目标的精准追踪与语义理解。模型基于qwen2.5-vl框架,支持点、框、掩码三种交互方式,在9项视觉任务基准测试中超越72b参数的传统模型,开源了代码和在线demo。核心突破在于将视觉分割与语言推理深度融合,解决了传统模型无法处理复杂指代和动态区域理解的问题。
Playground AI
AI图片生成和修图
99
查看详情
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

UniPixel的主要功能
-
像素级视觉语言理解:专注于像素级视觉语言理解,能实现视觉信号与语言语义之间的像素级对齐,支持多种细粒度任务,包括图像/视频分割
、区域理解以及PixelQA任务。
- 统一对象指代与分割:模型将对象指代和分割能力无缝集成,能根据视觉提示输入生成相关的掩码,并在推理过程中基于这些中间指针进行后续推理,实现细粒度的像素级推理。
- 多任务支持:在多个基准测试中表现出色,包括ReVOS推理分割基准、MeViS、Ref-YouTube-VOS、RefCOCO/+/g等数据集,设计了新的PixelQA任务,要求模型联合进行对象指代、分割和问答。
- 灵活的视觉提示处理:能灵活处理视觉提示输入,生成掩码并进行推理,支持单帧和多帧的视频区域理解,以及基于掩码的问答任务。
UniPixel的技术原理
- 统一框架设计:UniPixel采用统一框架,将对象指代和分割能力整合到一个模型中,实现从粗粒度场景理解到细粒度像素推理的跨越,为复杂视觉推理提供基础。
- 对象记忆库:模型包含对象记忆库,存储从指代任务中提取的对象特征,为后续的分割和推理任务提供上下文信息,增强模型在像素级任务上的性能。
- 多阶段训练策略:采用预训练、指代任务微调和分割任务微调的多阶段训练策略,逐步提升模型在像素级任务上的性能,适应不同任务需求。
- 端到端掩码生成:模型能根据语言描述直接生成像素级掩码,实现语言与视觉的深度融合,支持多种细粒度任务,如图像/视频分割和区域理解。
- 灵活的视觉提示处理:能灵活处理视觉提示输入,生成掩码并进行推理,支持单帧和多帧的视频区域理解,以及基于掩码的问答任务,适应不同场景需求。
- 强大的推理能力:在VideoRefer-Bench-Q问答任务中,UniPixel-7B模型取得了74.1%的准确率,超越了包括GPT-4o在内的多个强大基准模型,显示出其在复杂视觉推理任务中的强大能力。
- 模型权重与数据集提供:提供了UniPixel-3B和UniPixel-7B两个版本的模型权重,以及23个指代/分割/QA数据集的原始图像/视频和预处理注释,为研究和应用提供丰富资源。
- 训练与评估支持:代码库支持在23个数据集和基准测试上进行训练和评估,支持灵活的硬件设置、高效的训练技术、自定义基础LLM和对话模板,以及通过Tensorboard/Wandb监控训练过程,方便用户使用和优化。
UniPixel的项目地址
- 项目官网:http://polyu-chenlab.github.io/unipixel/
- Github仓库:http://github.com/PolyU-ChenLab/UniPixel
- HuggingFace数据:http://huggingface.co/datasets/PolyU-ChenLab/UniPixel-SFT-1M
- arXiv技术论文:http://arxiv.org/pdf/2509.18094
- 在线体验Demo:http://huggingface.co/spaces/PolyU-ChenLab/UniPixel
UniPixel的应用场景
- 图像分割:UniPixel能根据语言描述生成图像中特定对象的像素级掩码,适用于需要精确图像分割的场景,如医学图像分析、自动驾驶中的目标分割等。
- 视频分割:在视频处理领域,UniPixel可以对视频中的对象进行实时分割,支持视频编辑、视频监控和增强现实等应用。
- 区域理解:通过理解语言描述来识别和分割视频中的特定区域,可用于视频内容分析、智能监控系统和视频会议中的背景分割等。
- 问答任务:UniPixel支持PixelQA任务,能够根据语言描述和视觉信息回答问题,适用于教育、智能客服和信息检索等场景。
- 多模态交互:在需要结合视觉和语言信息进行交互的场景中,如智能助手、虚拟现实和游戏开发等,UniPixel能够提供更自然和准确的交互体验。
- 智能监控:在安防监控领域,UniPixel可以实时识别和分割监控视频中的特定对象或区域,提高监控系统的智能化水平。
以上就是UniPixel— 香港理工联合腾讯推出的像素级多模态大模型的详细内容,更多请关注其它相关文章!
# github
# git
# 视频编辑
# 游戏开发
# 大模型
# 虚拟现实
# gpt-4
# gpt
# youtube
# pdf
# 腾讯
# 编码
# 美容产品网站建设方案
# 培训seo那好
# 网站seo优化关键词哪家服务好
# 旅游网络营销推广
# 国内营销推广系统加盟
# 免费外贸网站建设教程
# 孝感湖南网站优化推广
# 鹿泉网站建设源码
# 东营优化推广seo
# 抖音优化seo视频
# 监控系统
# 细粒度
# 适用于
# 多个
# 多模
# 香港
# 掩码
# qw
相关栏目:
【
行业资讯67740 】
【
技术百科0 】
【
网络运营39195 】
相关推荐:
苹果ipad爱奇艺怎么投屏到电视
adb 命令如何后台运行
苹果16系统有哪些问题
如何看固态硬盘信息
推特是什么软件国内可以使用吗
直接gmV是什么意思?直接GMV:定义和概念
如何用命令行连接本地数据库
折叠屏手机哪款最好
5g手机怎么没视频通话功能
固态硬盘如何查看盘符
j*a中数组怎么传递
怎么用typescript 写js
固态硬盘如何打开软件
单片机怎么进行排序操作
夸克用的什么服务器
交管12123协议头不完整是啥意思
j*a怎么保存到数组
自由服务器如何做动态ip域名解析
iphone拍电子屏有横条如何解决
a03怎么根据编号找文链接入口
电信开通nfc功能是什么意思
苹果16有哪些bug
联想的固态硬盘如何
单片机的速度怎么求
linux如何跳回命令行界面
固态硬盘如何装入机箱
如何安装大华固态硬盘
阿里云盘的会员怎么用
手机的nfc是什么功能是什么意思
solidworks打开IGS文件作图教程
苹果手机16新款颜色有哪些
300秒等于多少分钟
固态硬盘如何消除缓存
windows 如何连接ftp命令行
春运抢票可以抢几张
考勤机power红灯是什么意思
远程桌面如何发送命令
如何找出命令行
单片机软件keil怎么运行
j*a怎么读取char数组
夸克内测有什么好处
如何查询固态硬盘序列
金色cmyk色值是多少
汽车收音机power是什么意思
typescript的文件如何执行
如何用命令提示符显示隐藏分区
干股是什么意思
苹果16会有哪些更新
如何通过dos命令
typescript如何定义常量


2025-10-17
浏览次数:次
返回列表
、区域理解以及PixelQA任务。