新闻中心

效率狂增16倍!VRSO:纯视觉静态物体3D标注,打通数据闭环!

2024-04-11
浏览次数:
返回列表

标注之殇

静态物体检测(SOD),包括交通信号灯、导向牌和交通锥,大多数算法是数据驱动深度神经网络,需要大量的训练数据。现在的做法通常是对大量的训练样本在 LiDAR 扫描的点云数据上进行手动标注,以修复长尾案例。

效率狂增16倍!VRSO:纯视觉静态物体3D标注,打通数据闭环!

手动标注难以捕捉真实场景的变异性和复杂性,通常无法考虑遮挡、不同的光照条件和多样的视角(如图1中的黄色箭头)。整个过程链路长、极其耗时、容易出错、成本颇高(如图2)。所以目前公司都寻求自动标注方案,特别是基于纯视觉,毕竟不是每辆车都有激光雷达。

效率狂增16倍!VRSO:纯视觉静态物体3D标注,打通数据闭环!

VRSO+是一种以视觉为主、面向静态对象标注的标注系统,主要利用了SFM、2D物体检测和实例分割结果的信息,整体效果:

  • 标注的平均投影误差仅为2.6像素,约为Waymo标注的四分之一(10.6像素)
  • 与人工标注相比,速度提高了约16倍

对于静态物体,VRSO通过实例分割和轮廓提取关键点,解决了从不同视角集成和去重静态对象的挑战,以及由于遮挡问题而导致观察不足的困难,从而提高了标注的准确性。从图1上看,与Waymo Open数据集的手动标注结果相比,VRSO展示了更高的鲁棒性和几何精度。

(都看到这里了,不如大拇指往上滑,点击最上方的卡片关注我,整个操作只会花你 1.328 秒,然后带走未来所有干货,万一有用呢~

破局之法

VRSO系统主要分为两部分:场景重建静态对象标注

效率狂增16倍!VRSO:纯视觉静态物体3D标注,打通数据闭环!

重建部分不是重点,就是基于 SFM 算法来恢复图像 pose 和稀疏的 3D 关键点。

静态对象标注算法,配合伪代码,大致流程是(以下会分步骤详细展开):

  • 采用现成的2D物体检测和分割算法生成候选
  • 利用 SFM 模型中的 3D-2D 关键点对应关系来跟踪跨帧的 2D 实例
  • 引入重投影一致性来优化静态对象的3D注释参数

效率狂增16倍!VRSO:纯视觉静态物体3D标注,打通数据闭环!

1.跟踪关联

  • step 1:根据 SFM 模型的关键点提取 3D 边界框内的 3D 点。
  • step 2:根据 2D-3D 匹配关系计算每个 3D 点在 2D 地图上的坐标。
  • step 3:基于 2D 地图坐标和实例分割角点确定当前 2D 地图上 3D 点的对应实例。
  • step 4:确定每个 2D 图像的 2D 观察与 3D 边界框之间的对应关系。

2.proposal 生成

对静态物体的 3D 框参数(位置、方向、大小)进行整个视频剪辑的初始化。SFM 的每个关键点都有准确的3D位置和对应的 2D 图像。对于每个 2D 实例,提取 2D 实例掩码内的特征点。然后,一组对应 3D 关键点可以被视为 3D 边界框的候选。

路牌被表示为在空间中具有方向的矩形,它有6个自由度,包括平移(、、)、方向(θ)和大小(宽度和高度)。考虑到其深度,交通信号灯具有7个自由度。交通锥的表示方式与交通信号灯类似。

易标AI 易标AI

告别低效手工,迎接AI标书新时代!3分钟智能生成,行业唯一具备查重功能,自动避雷废标项

易标AI 135 查看详情 易标AI

3.proposal refine

  • step 1:从 2D 实例分割中提取每个静态物体的轮廓。
  • step 2:为轮廓轮廓拟合最小定向边界框(OBB)。
  • step 3:提取最小边界框的顶点。
  • step 4:根据顶点和中心点计算方向,并确定顶点顺序。
  • step 5:基于2D检测和实例分割结果进行了分割和合并过程。
  • step 6:检测并拒绝包含遮挡的观察。从2D实例分割蒙版中提取顶点要求每个标牌的四个角都可见。如果有遮挡,从实例分割中提取轴对齐边界框(AABB),并计算AABB与2D检测框之间的面积比。如果没有遮挡,这两种面积计算方法应该是接近的。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

效率狂增16倍!vrso:纯视觉静态物体3d标注,打通数据闭环!

4.三角化

通过三角化在3D条件下获取静态物体的初始顶点值。

通过检查在场景重建期间由 SFM 和实例分割获得的3D边界框中的关键点数量,只有关键点数量超过阈值的实例被认为是稳定且有效的观测。对于这些实例,相应的 2D 边界框被视为有效的观测。通过多幅图像的 2D 观测,将 2D边界框顶点进行三角化,以获取边界框的坐标。

对于没有在掩模上区分“左下、左上、右上、右上和右下”顶点的圆形标牌,需要识别这些圆形标牌。使用 2D 检测结果作为圆形物体的观测结果,使用 2D 实例分割掩模进行轮廓提取。通过最小二乘拟合算法计算出中心点和半径。圆形标牌的参数包括中心点(、、)、方向(θ)和半径()。

5.tracking refine

跟踪基于 SFM 的特征点匹配。根据 3D 边界框顶点的欧式距离和 2D 边界框投影 IoU 来确定是否合并这些分开的实例。一旦合并完成,实例内的 3D 特征点可以聚集以关联更多的2D特征点。进行迭代2D-3D关联,直到无法添加任何2D特征点为止。

6.最终参数优化

以矩形标牌为例,可优化的参数包括位置(、、)、方向(θ)和大小(、),总共六个自由度。主要步骤包括:

  • 将六个自由度转换为四个 3D 点,并计算旋转矩阵。
  • 将转换后的四个 3D 点投影到2D图像上。
  • 计算投影结果与实例分割得到的角点结果之间的残差。
  • 使用 Huber 进行优化更新边界框参数

标注效果

效率狂增16倍!VRSO:纯视觉静态物体3D标注,打通数据闭环!

效率狂增16倍!VRSO:纯视觉静态物体3D标注,打通数据闭环!

效率狂增16倍!VRSO:纯视觉静态物体3D标注,打通数据闭环!

也有一些具有挑战性的长尾案例,例如极低的分辨率和照明不足。

效率狂增16倍!VRSO:纯视觉静态物体3D标注,打通数据闭环!

总结一下

VRSO 框架实现了静态物体高精度和一致的3D标注,紧密集成了检测、分割和 SFM 算法,消除了智能驾驶标注中的人工干预,提供了与基于LiDAR的手动标注相媲美的结果。和被广泛认可的Waymo Open Dataset进行了定性和定量评估:与人工标注相比,速度提高了约16倍,同时保持了最佳的一致性和准确性。

以上就是效率狂增16倍!VRSO:纯视觉静态物体3D标注,打通数据闭环!的详细内容,更多请关注其它相关文章!


# 标注  # 如何用  # 如图  # 站上  # 提高了  # 腾讯  # 十大  # 都有  # 榜单  # 中心点  # 闭环  # 智能驾驶  # 3d  # 武昌seo方案  # 网站推广是如何收费的呢  # 昆山seo优化兼职  # 眼睛网站网上推广方案  # 佛山网站建设方案优化  # 建德seo推广服务  # 恒通建设集团网站首页  # 长沙营销网站建设公司  # 关键词seo排名皆选22火星  # 南宁网站建设公司利润 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 单片机怎么控制闪烁技术  市盈率回落是什么意思  市盈率百分位roe是什么意思  如何更新苹果ios16  每日推荐电声音乐软件有哪些  如何在命令行执行一个jar  如何开发typescript  typescript中文怎么读  春运抢票如何抢连坐的票  交管12123协议头不完整是啥意思  typescript入门要多久  如何给电脑加装固态硬盘  360f4怎么取消百变壁纸  台达变频器power灯是什么意思  mac如何使用vi命令行  a股等权平均市盈率是什么意思  苹果16都有哪些亮点  电动车power灯亮红灯是什么意思  如何为服务器配置静态路由?服务器配置静态路由详细教程  面包车收音机power是什么意思  linux如何查看命令的参数  typescript中如何定义json  什么是typescript  npm如何声明命令  mac如何使用vi命令  导航power在汽车上是什么意思  j*a怎么把数组输出  夸克绑定设备是什么意思  win10如何开启命令行  微波炉power中文是什么意思  如何使用程序编译 执行的命令  苹果手机16新款颜色有哪些  typescript变量是什么  如何创建sql命令  春运抢票准备什么  python如何命令行换行  爱奇艺vip会员可以同时几个人用?  苹果16有哪些改善  苹果16有哪些亮点功能  video是什么意思  单片机log怎么看  夸克投屏为什么那么卡  如何更新固态硬盘固件  为什么夸克网盘下载不了  固态硬盘装完如何使用  春运抢票技巧攻略  折叠屏手机哪个卖得最好  问一下市盈率是什么意思  苹果16系统有哪些缺陷  vivo手机爱奇艺怎么投屏到电视操作步骤 

搜索