新闻中心
无编码器架构潜力或被低估,首个无编码器3D多模态LLM大模型来了
aixiv专栏:探索无编码器架构在3d大型多模态模型中的潜力
AIxiv专栏持续报道全球顶尖AI研究成果,已收录2000余篇来自高校和企业实验室的学术技术文章。欢迎投稿或联系报道,投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
作者简介: 本文第一作者汤轶,上海科技大学本科毕业,师从李学龙教授,并在上海人工智能实验室实习。研究方向涵盖3D视觉、大模型高效迁移、多模态大模型和具身智能等,代表作包括Any2Point, Point-PEFT, ViewRefer等。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

- 论文标题: 探究无编码器架构在3D大型多模态模型中的潜力
- 作者单位: 上海人工智能实验室,西北工业大学,香港中文大学,清华大学
- 代码链接: https://www.php.cn/link/e685b42794dde47c8d8304eb462cc3ae
- 论文链接: https://www.php.cn/link/75291728e2d8458a104b6abd0b062b70
近年来,大型多模态模型(LMMs)研究蓬勃发展,旨在赋予大型语言模型(LLMs)解读多模态信息的能力,例如2D图像(LLaVA)和3D点云(Point-LLM, PointLLM, ShapeLLM)。主流LMMs通常依赖强大的多模态编码器(如2D的CLIP和3D的I2P-MAE),虽然这些预训练编码器提供了丰富的预先知识,但也存在局限性,例如难以适应不同点云分辨率,以及编码器提取的特征可能无法满足LLMs的语义需求。
为此,研究人员首次系统性地研究了无编码器架构在3D LMMs中的应用潜力,直接将3D编码器的功能集成到LLM中。他们提出了首个无编码器架构的3D LMM——ENEL,其7B参数模型性能与当前最先进的ShapeLLM-13B相当,展现了无编码器架构的巨大潜力。
研究背景与动机

基于编码器的3D LMMs架构存在以下不足:
- 点云分辨率限制: 3D编码器通常在固定分辨率的点云上预训练,例如PointLLM的Point-BERT使用1024个点。然而,推理过程中的点云分辨率可能变化,导致信息丢失。ENEL在不同分辨率下表现出更强的鲁棒性。
- 嵌入语义差异: 3D编码器与LLMs的训练目标可能不一致,导致无法捕捉LLMs理解3D物体所需的语义信息。
技术方案
研究人员以PointLLM为基准模型,使用GPT-4评分标准在Obj*erse数据集上评估不同策略。他们提出了两个关键问题:如何弥补3D编码器缺失的高层语义信息,以及如何将归纳偏置整合到LLM中以更好地感知3D几何结构。

LLM嵌入式语义编码
Zyro AI Background Remover
Zyro推出的AI图片背景移除工具
145
查看详情

由于缺乏3D编码器,点云语义信息编码不足。研究人员评估了四种自监督学习损失(掩蔽建模、重建、对比学习和知识蒸馏)对无编码器3D LMM的影响,并提出了混合语义损失(Hybrid Semantic Loss),结合掩蔽建模和重建策略,有效地将高层语义嵌入LLM中,并保持几何一致性。
层次几何聚合策略

为了使LLM主动感知3D局部细节,研究人员提出了层次几何聚合策略,通过最远点采样、k-NN算法、门控自注意力机制和池化操作,逐步聚合局部几何信息,并通过几何传播将信息传递回整个点云。
实验结果

ENEL-7B在Obj*erse基准测试中取得了显著成果,在3D物体描述和分类任务中均超越了之前的基于编码器的3D LMMs,并在3D-VQA任务上也表现出色。
实现细节
研究人员使用了7B Vicuna v1.1检查点,并详细描述了模型的嵌入层、训练过程(包括预训练和指令微调)、以及使用的硬件和软件配置。
这项工作为3D大型多模态模型的研究提供了新的方向,展现了无编码器架构的巨大潜力。
以上就是无编码器架构潜力或被低估,首个无编码器3D多模态LLM大模型来了的详细内容,更多请关注其它相关文章!
# 工程
# 网易
# 镇江网站建设总部招聘
# 怎样360网站做推广
# 站外优化seo教程
# 《定位》营销推广
# 高仿网站怎么推广
# 南通网站综合优化
# 湖南网站优化公司哪家好
# 十堰seo排名
# 唐山网站制作建设费用
# 中小型企业网站优化案例
# 门控
# 系列产品
# 并在
# 来了
# 上海
# 首个
# 提出了
# 开源
# 多模
# 邮箱
# ai
# git
相关栏目:
【
行业资讯67740 】
【
技术百科0 】
【
网络运营39195 】
相关推荐:
怎么把手机里爱奇艺的视频下载到u盘里
cron表达式在线工具有哪些
破太岁是什么意思
如何查看网站域名解析
单片机速度怎么看
虚拟机如何用命令清除垃圾
j*a二数组怎么创建
单片机显存怎么设置最佳
虚拟机服务器如何关机命令
typescript参数怎么用
什么是base64
如何打开命令框
学typescript有什么用
夸克为什么会变小
linux如何合并分区命令
花呗征信不好如何恢复 如何修复不良的花呗征信
360n7锁屏壁纸怎么固定
折叠屏手机为什么有黑点
j*a整形怎么转数组
typescript接口有什么用
征信不好如何快速恢复 征信不好快速恢复的方法
阿里云盘修复工具怎么用
新网站如何填写域名解析
typescript如何使用viewer
ao3镜像网站哪个好
j*a怎么存放数组中
mysql的datediff函数怎么用
单片机程序负数怎么表示
软件命令行参数如何设置
windows 如何连接ftp命令行
make命令如何使用
苹果16如何预购
vue中datediff函数怎么用
如何打开命令提示符
命令指示符如何打开盘符
华为的nfc功能是什么意思
5G手机导航怎么旋转
access中如何使用常用宏命令
春运抢票多久能知道成功
typescript怎么解析vue TypeScript在vue中的使用最新解读
折叠屏手机为什么这么小
js怎么设置typescript
typescript和node学哪个
春运抢票何时开始抢票的
夸克投屏为什么那么卡
按键精灵datediff函数怎么用 如何使用按键精灵中的Datediff函数教程
什么是域名解析地址
固态硬盘质量如何
关系型数据库和非关系型数据库有哪些
阿里云盘扩容是什么_扩容阿里云盘方法是什么教程


2025-02-27
浏览次数:次
返回列表