新闻中心

利用全景图视觉自注意力模型进行室内框架估计的方法

2023-10-07
浏览次数:
返回列表

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

利用全景图视觉自注意力模型进行室内框架估计的方法

一、研究背景

方法主要关注室内框架估计(indoor estimation layout estimation)任务,任务输入2D图片,输出图片所描述场景的三维模型。考虑到直接输出三维模型的复杂性,该任务一般被拆解为输出2D图像中的墙线、天花板线、地线三种线的信息,再根据线的信息通过后处理操作重建房间的三维模型。该三维模型可在后期进一步用于室内场景复刻、VR看房等具体应用场景。区别于深度估计方法,该方法基于对室内墙线的估计来恢复空间几何结构,优势在于可使墙面的几何结构较为平整;劣势则在于无法恢复室内场景沙发、椅子等细节物品的几何信息。

根据输入图像的不同,可以将其分为基于透视图和基于全景图的方法。与透视图相比,全景图具有更大的视角和更丰富的图像信息。随着全景采集设备的普及,全景数据越来越丰富,因此目前有很多关于基于全景图进行室内框架估计的算法被广泛研究

利用全景图视觉自注意力模型进行室内框架估计的方法

相关算法主要包括LayoutNet、HorizonNet、HohoNet及Led2-Net等,这些方法大多基于卷积神经网络,在结构复杂的位置墙线预测效果较差,如有噪声干扰、自遮挡等位置会出现墙线不连续、墙线位置错误等预测结果。在墙线位置估计任务中,仅关注局部特征信息会导致该类错误的发生,需利用全景图中的全局信息考虑整条墙线的位置分布来估计。CNN方法在提取局部特征任务中表现更优,Transformer方法更擅长捕捉全局信息,因此可将Transformer方法应用于室内框架估计任务以提升任务表现。

利用全景图视觉自注意力模型进行室内框架估计的方法

由于训练数据依赖性,单独应用基于透视图预训练的Transformer估计全景图室内框架效果并不理想。PanoViT模型预先将全景图映射到的特征空间,使用Transformer学习全景图在特征空间的全局信息,同时考虑全景图的表观结构信息完成室内框架估计任务。

利用全景图视觉自注意力模型进行室内框架估计的方法

二、方法介绍与结果展示

1、PanoViT

网络结构框架包含4个模块,分别是Backbone,vision transformer解码器,框架预测模块,边界增强模块。Backbone模块将全景图映射至特征空间,vison transformer编码器在特征空间中学习全局关联,框架预测模块将特征转化为墙线、天花板线、地线信息,后处理可进一步得到房间的三维模型,边界增强模块突出全景图中边界信息对于室内框架估计的作用。

利用全景图视觉自注意力模型进行室内框架估计的方法

① Backbone模块

由于直接使用transformer提取全景图特征效果不佳,已经证明了基于CNN的方法的有效性,即CNN特征可用于预测房屋框架。因此,我们采用了CNN的backbone来提取全景图不同尺度的特征图,并在特征图中学习全景图像的全局信息。实验结果表明,在特征空间中使用transformer的效果明显优于直接在全景图上应用

利用全景图视觉自注意力模型进行室内框架估计的方法

② Vision transformer encoder模块

Transformer主体架构可主要分为三个模块,包括patch sampling、patch embedding和transformer的multi-head attention。输入同时考虑全景图像特征图与原始图像并针对不同输入采用不同patch sampling方法。原图使用均匀采样方法,特征图采用水平采样方法。来自HorizonNet的结论认为在墙线估计任务中水平方向特征具有更高重要性,参考此结论,embedding过程中对于特征图特征进行竖直方向压缩。采用Recurrent PE方法组合不同尺度的特征并在multi-head attention的transformer模型中进行学习,得到与原图水平方向等长的特征向量,通过不同的decoder head可获得对应的墙线分布。

利用全景图视觉自注意力模型进行室内框架估计的方法

随机循环位置编码(Recurrent Position Embedding)考虑到全景图沿水平方向位移不改变图像视觉信息的特征,因此每次训练时沿着水平轴方向随机选取初始位置,使得训练过程更关注不同patch之间的相对位置而非绝对位置。

利用全景图视觉自注意力模型进行室内框架估计的方法

③ 全景图的几何信息

全景图中几何信息的充分利用可有助于室内框架估计任务表现的提升。PanoViT模型中的边界增强模块强调如何使用全景图中的边界信息,3D Loss则帮助减少全景图畸变影响。

边界增强模块考虑到墙线检测任务中墙线的线状特征,图像中的线条信息重要性突出,因此需要突出边界信息使得网络了解图像中线的分布。使用频域中边界增强方法突出全景图边界信息,基于快速傅里叶变换得到图像频域表示,使用掩膜在频域空间中进行采样,基于傅里叶反变换变换回边界信息被突出的图像。模块核心在于掩膜设计,考虑到边界对应高频信息,掩膜首先选用高通滤波器;并根据不同线的不同走向方向采样不同的频域方向。该方法相对传统LSD方法实施简单且效率更高。利用全景图视觉自注意力模型进行室内框架估计的方法

之前工作在全景图上计算像素距离作为估计误差,由于全景图畸变,图片上的像素距离并不正比于3D世界的真实距离。PanoViT使用3D损失函数,直接在3D空间中计算估计误差。

利用全景图视觉自注意力模型进行室内框架估计的方法

2、模型结果

使用Martroport3D、PanoContext公共数据集进行实验,采用2DIoU和3DIoU作为评价指标,并与SOTA方法进行对比。结果显示PanoViT在两个数据集上的模型评价指标基本达到最优,仅在特定指标上略逊于LED2。通过与Hohonet进行模型可视化结果的比较,可以发现PanoViT能够准确识别复杂场景中的墙线走向。通过消融实验中对比Recurrent PE、边界增强和3D Loss模块,可以验证这些模块的有效性

利用全景图视觉自注意力模型进行室内框架估计的方法

利用全景图视觉自注意力模型进行室内框架估计的方法

利用全景图视觉自注意力模型进行室内框架估计的方法

为了达到更好的模型数据集,收集十万多张室内全景图像自建全景图像数据集,包含各类复杂室内场景,并基于自定规则进行标注,从中选取5053张图像作为测试数据集。在自建数据集上测试panovit模型与sota模型方法表现,发现随着数据量增大,panovit模型性能提升显著。

Glean Glean

Glean是一个专为企业团队设计的AI搜索和知识发现工具

Glean 210 查看详情 Glean

利用全景图视觉自注意力模型进行室内框架估计的方法

三、如何在ModelScope中使用

  • 打开modelscope官网:https://modelscope.cn/home。
  • 搜索“全景图室内框架估计”。
  • 点击快速使用-在线环境使用-快速体验,打开notebook。
  • 输入主页示例代码,上传1024*512的全景图片,修改图片加载路径,运行输出墙线预测结果。

利用全景图视觉自注意力模型进行室内框架估计的方法

以上就是利用全景图视觉自注意力模型进行室内框架估计的方法的详细内容,更多请关注其它相关文章!


# 开源  # 网站优化系统下载  # 好的抖音营销推广方式  # 比翻译网站建设素材  # 查询优化基本原理的网站  # 酒店营销推广问卷  # 淘宝有SEO优化吗  # 出国留学网站推广  # 云南省建设厅网站首页  # 沈阳网站建设基础步骤  # 泰州营销推广途径哪些企业  # 算法  # 下载使用  # 首个  # 不带  # 更高  # 并在  # 考虑到  # 图中  # 室内  # 全景图  # 注意力模型 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 手机如何更改固态硬盘  云淡风轻什么意思  喇叭上标的power30w是什么意思  春运大巴上抢票怎么抢票  如何查找固态硬盘  广东春运几点抢票  命令行下如何导出数据库  5g手机怎么没视频通话功能  春运抢票软件哪个好  怎么在typescript定义集合  j*a里数组怎么赋值  征信不好如何恢复信誉度 ‌征信不好恢复信誉度的方法  苹果怎么没出5g手机  市盈率负值是什么意思  为什么夸克无法注销账户  16苹果有哪些机型  typescript是什么时候出来的  j*a怎么清除数组  typescript全局配置放哪里  怎么把手机里爱奇艺的视频下载到u盘里  单片机怎么进行排序操作  typescript干什么的  什么网址不能域名解析  系统如何装进固态硬盘  如何用命令连接mysql  品道音响上的power键是什么意思  如何用固态硬盘做缓存  如何管理员打开cmd命令行窗口  苹果16更新了哪些版本  33000日元等于多少人民币  春运抢票准备什么  如何判断固态硬盘  固态硬盘如何接主机  单片机的速度怎么求  adb 命令如何后台运行  manager是什么意思  一尺是多少厘米  台达plc只有power灯亮是什么意思  咋免费领取爱奇艺会员 如何免费领取爱奇艺会员步骤  如何修改cad命令  awful是什么意思  显卡上面TYPE-C是什么接口  faq是什么意思  如何创建解压文件命令  如何利用固态硬盘  美食音乐每日推荐怎么写  移动固态硬盘如何使用  阿里云盘扩容工具怎么用  折叠屏手机哪个卖得最好  typescript和es6先学哪个 

搜索