新闻中心

无编码器架构潜力或被低估,首个无编码器3D多模态LLM大模型来了

2025-02-27
浏览次数:
返回列表

aixiv专栏:探索无编码器架构在3d大型多模态模型中的潜力

AIxiv专栏持续报道全球顶尖AI研究成果,已收录2000余篇来自高校和企业实验室的学术技术文章。欢迎投稿或联系报道,投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

作者简介: 本文第一作者汤轶,上海科技大学本科毕业,师从李学龙教授,并在上海人工智能实验室实习。研究方向涵盖3D视觉、大模型高效迁移、多模态大模型和具身智能等,代表作包括Any2Point, Point-PEFT, ViewRefer等。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

  • 论文标题: 探究无编码器架构在3D大型多模态模型中的潜力
  • 作者单位: 上海人工智能实验室,西北工业大学,香港中文大学,清华大学
  • 代码链接: https://www.php.cn/link/e685b42794dde47c8d8304eb462cc3ae
  • 论文链接: https://www.php.cn/link/75291728e2d8458a104b6abd0b062b70

近年来,大型多模态模型(LMMs)研究蓬勃发展,旨在赋予大型语言模型(LLMs)解读多模态信息的能力,例如2D图像(LLaVA)和3D点云(Point-LLM, PointLLM, ShapeLLM)。主流LMMs通常依赖强大的多模态编码器(如2D的CLIP和3D的I2P-MAE),虽然这些预训练编码器提供了丰富的预先知识,但也存在局限性,例如难以适应不同点云分辨率,以及编码器提取的特征可能无法满足LLMs的语义需求。

为此,研究人员首次系统性地研究了无编码器架构在3D LMMs中的应用潜力,直接将3D编码器的功能集成到LLM中。他们提出了首个无编码器架构的3D LMM——ENEL,其7B参数模型性能与当前最先进的ShapeLLM-13B相当,展现了无编码器架构的巨大潜力。

研究背景与动机

图片

基于编码器的3D LMMs架构存在以下不足:

  1. 点云分辨率限制: 3D编码器通常在固定分辨率的点云上预训练,例如PointLLM的Point-BERT使用1024个点。然而,推理过程中的点云分辨率可能变化,导致信息丢失。ENEL在不同分辨率下表现出更强的鲁棒性。
  2. 嵌入语义差异: 3D编码器与LLMs的训练目标可能不一致,导致无法捕捉LLMs理解3D物体所需的语义信息。

技术方案

研究人员以PointLLM为基准模型,使用GPT-4评分标准在Obj*erse数据集上评估不同策略。他们提出了两个关键问题:如何弥补3D编码器缺失的高层语义信息,以及如何将归纳偏置整合到LLM中以更好地感知3D几何结构。

图片

LLM嵌入式语义编码

Zyro AI Background Remover Zyro AI Background Remover

Zyro推出的AI图片背景移除工具

Zyro AI Background Remover 145 查看详情 Zyro AI Background Remover

图片

由于缺乏3D编码器,点云语义信息编码不足。研究人员评估了四种自监督学习损失(掩蔽建模、重建、对比学习和知识蒸馏)对无编码器3D LMM的影响,并提出了混合语义损失(Hybrid Semantic Loss),结合掩蔽建模和重建策略,有效地将高层语义嵌入LLM中,并保持几何一致性。

层次几何聚合策略

图片

为了使LLM主动感知3D局部细节,研究人员提出了层次几何聚合策略,通过最远点采样、k-NN算法、门控自注意力机制和池化操作,逐步聚合局部几何信息,并通过几何传播将信息传递回整个点云。

实验结果

图片

ENEL-7B在Obj*erse基准测试中取得了显著成果,在3D物体描述和分类任务中均超越了之前的基于编码器的3D LMMs,并在3D-VQA任务上也表现出色。

实现细节

研究人员使用了7B Vicuna v1.1检查点,并详细描述了模型的嵌入层、训练过程(包括预训练和指令微调)、以及使用的硬件和软件配置。

这项工作为3D大型多模态模型的研究提供了新的方向,展现了无编码器架构的巨大潜力。

以上就是无编码器架构潜力或被低估,首个无编码器3D多模态LLM大模型来了的详细内容,更多请关注其它相关文章!


# 工程  # 网易  # 镇江网站建设总部招聘  # 怎样360网站做推广  # 站外优化seo教程  # 《定位》营销推广  # 高仿网站怎么推广  # 南通网站综合优化  # 湖南网站优化公司哪家好  # 十堰seo排名  # 唐山网站制作建设费用  # 中小型企业网站优化案例  # 门控  # 系列产品  # 并在  # 来了  # 上海  # 首个  # 提出了  # 开源  # 多模  # 邮箱  # ai  # git 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 怎么把手机里爱奇艺的视频下载到u盘里  cron表达式在线工具有哪些  破太岁是什么意思  如何查看网站域名解析  单片机速度怎么看  虚拟机如何用命令清除垃圾  j*a二数组怎么创建  单片机显存怎么设置最佳  虚拟机服务器如何关机命令  typescript参数怎么用  什么是base64  如何打开命令框  学typescript有什么用  夸克为什么会变小  linux如何合并分区命令  花呗征信不好如何恢复 如何修复不良的花呗征信  360n7锁屏壁纸怎么固定  折叠屏手机为什么有黑点  j*a整形怎么转数组  typescript接口有什么用  征信不好如何快速恢复 征信不好快速恢复的方法  阿里云盘修复工具怎么用  新网站如何填写域名解析  typescript如何使用viewer  ao3镜像网站哪个好  j*a怎么存放数组中  mysql的datediff函数怎么用  单片机程序负数怎么表示  软件命令行参数如何设置  windows 如何连接ftp命令行  make命令如何使用  苹果16如何预购  vue中datediff函数怎么用  如何打开命令提示符  命令指示符如何打开盘符  华为的nfc功能是什么意思  5G手机导航怎么旋转  access中如何使用常用宏命令  春运抢票多久能知道成功  typescript怎么解析vue TypeScript在vue中的使用最新解读  折叠屏手机为什么这么小  js怎么设置typescript  typescript和node学哪个  春运抢票何时开始抢票的  夸克投屏为什么那么卡  按键精灵datediff函数怎么用 如何使用按键精灵中的Datediff函数教程  什么是域名解析地址  固态硬盘质量如何  关系型数据库和非关系型数据库有哪些  阿里云盘扩容是什么_扩容阿里云盘方法是什么教程 

搜索