新闻中心

更快、更强!地平线ViG,基于视觉Mamba的通用视觉主干网络

2025-01-08
浏览次数:
返回列表

ViG:高效且可扩展的视觉骨干网络

论文链接: https://www.php.cn/link/38f6986c14cd82ea09ac933d4abebea6

成果: 本工作已被AAAI 2025收录。

Vision Mamba的成功证明了将视觉表征学习转化为线性复杂度视觉序列建模的巨大潜力。然而,即使像Vision Mamba这样的线性视觉序列建模方法在高清图像上效率显著提升,但在更常见的分辨率下,其性能仍略逊于Transformer和CNN。

为了进一步提升线性复杂度视觉序列建模的效率,我们针对现代计算设备的硬件特性,设计了一种新型模型——ViG。ViG将自然语言处理中高效的门控线性注意力模块(Gated Linear Attention, GLA)引入视觉表征学习,并结合参数高效的双向建模、长短上下文动态门控机制以及硬件感知的双向算子设计。最终,ViG在各种视觉任务上,在精度、参数量和效率方面均超越了主流的Transformer和CNN模型。

技术背景

Transformer的自注意力(Self-Attention, SA)机制需要处理所有历史输入之间的交互,导致计算复杂度随输入序列长度呈二次方增长:

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

更快、更强!地平线ViG,基于视觉Mamba的通用视觉主干网络

线性注意力(Linear Attention, LA)机制通过将softmax算子替换为简单的矩阵乘法,利用矩阵乘法的结合律,预先计算KV,从而将计算复杂度降低为线性:

线性门控注意力(Gated Linear Attention, GLA)机制进一步引入门控机制,控制对历史信息的遗忘和更新,提升了线性注意力机制的表达能力:

更快、更强!地平线ViG,基于视觉Mamba的通用视觉主干网络

方法概述

双向门控注意力机制 (BiGLA):

更快、更强!地平线ViG,基于视觉Mamba的通用视觉主干网络更快、更强!地平线ViG,基于视觉Mamba的通用视觉主干网络

图片作为二维信号,在一维序列表示上具有多向特性。我们改进GLA,仅引入双向门控机制更快、更强!地平线ViG,基于视觉Mamba的通用视觉主干网络,显著提升了对视觉信号的空间表达能力。BiGLA算子将前向和反向视觉序列压缩到固定大小的隐状态更快、更强!地平线ViG,基于视觉Mamba的通用视觉主干网络更快、更强!地平线ViG,基于视觉Mamba的通用视觉主干网络

硬件感知的双向算子设计:

为了进一步提升效率,我们设计了一个硬件感知的双向实现,将BiGLA的前向和反向扫描合并到一个Triton算子中。这种设计避免了反向序列的实例化,只需维护单向视觉序列即可进行多向扫描和融合,显著降低了显存占用并提升了硬件运行速度。

更快、更强!地平线ViG,基于视觉Mamba的通用视觉主干网络

Perplexity Perplexity

Perplexity是一个ChatGPT和谷歌结合的超级工具,可以让你在浏览互联网时提出问题或获得即时摘要

Perplexity 302 查看详情 Perplexity

长短上下文动态门控机制:

BiGLA算子中的双向隐状态更快、更强!地平线ViG,基于视觉Mamba的通用视觉主干网络更快、更强!地平线ViG,基于视觉Mamba的通用视觉主干网络进行长上下文全局压缩。为了增强对图像二维空间细节的感知,我们引入了短上下文卷积门控设计:

更快、更强!地平线ViG,基于视觉Mamba的通用视觉主干网络

模型结构:

基于上述ViG模块,我们构建了两种结构变体:类似Vision Transformer的简单直筒结构ViG和类似CNN的层次化金字塔结构ViG-H。

更快、更强!地平线ViG,基于视觉Mamba的通用视觉主干网络

实验结果

实验结果表明,ViG和ViG-H在参数量和精度的权衡上优于先进的Transformer和CNN模型。ViG基础模块同时具备全局感受野和线性复杂度,这是传统CNN、基于原始注意力机制的Transformer和基于窗口化注意力机制的Transformer无法实现的。

更快、更强!地平线ViG,基于视觉Mamba的通用视觉主干网络更快、更强!地平线ViG,基于视觉Mamba的通用视觉主干网络

在高分辨率图像(1024x1024)上,ViG展现出显著的优势:计算量降低5.2倍,GPU显存节省90%,速度提升3.8倍,精度提升20.7%。

更快、更强!地平线ViG,基于视觉Mamba的通用视觉主干网络更快、更强!地平线ViG,基于视觉Mamba的通用视觉主干网络

双向设计仅增加了2%的参数量,却带来了11.1%的精度提升;硬件感知实现减少了19%的推理代价和13%的显存占用。

总结与展望

ViG在高效视觉序列建模领域具有重要创新性和应用价值。通过BiGLA和二维门控局部注入机制,ViG有效结合了全局感知能力和局部细节捕获,实现了高效且准确的视觉表征学习。ViG在图像分类、目标检测和语义分割等任务中表现出色,尤其在高分辨率场景下,其性能和资源利用效率显著提升。 其硬件感知优化设计降低了内存占用和计算成本,为高清视觉信号处理和多模态序列建模提供了强有力的技术支撑。

以上就是更快、更强!地平线ViG,基于视觉Mamba的通用视觉主干网络的详细内容,更多请关注其它相关文章!


# 新进展  # 宜宾短视频营销推广招聘  # 化肥推广的营销方案  # 西安网站建设咨询  # 优化网站标题怎么写好  # 网站优化协议书范本最新  # 百度推广增加网站权重  # 秦皇岛大型网站建设材料  # 湖北比较好的网站推广公司  # 衡阳整合营销网络推广  # 官网网站优化收费  # 前向  # 地平线  # 官网  # 一键  # 多项  # 工作流  # 显存  # 更强  # 门控  # 更快  # 2025  # 内存占用  # ai 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 春运抢票失败怎么抢  夸克为什么会变小  为什么进行域名解析  复制 命令如何撤销  闪光灯power闪烁是什么意思  如何查看网站域名解析  如何查看win10版本命令行  折叠屏手机好不好,耐不耐用  硬盘和固态硬盘如何区分  智能锁type-c接口是什么  nfc近场通讯功能是什么意思  固态硬盘如何测试好坏  manager是什么意思  为什么夸克下载不到  typescript的文件如何执行  make命令如何使用  苹果16更新了哪些版本  单片机怎么做组合  如何在命令提示符播放音频  debian和ubuntu命令一样吗  三菱变频器POWER是什么意思  mysql的datediff函数怎么用  如何打开管理员命令提示符  阿里云手机云盘怎么用_阿里云盘苹果手机怎么用教程  typescript哪个最好  苹果16系统网站有哪些  光刻机的分类及特点  sqlite中datediff函数怎么用 SQLite中DATEDIFF()函数的用法分享  j*a map数组怎么用  如何用命令下载服务器网站  ai文件里无法找到链接文件怎么解决  花呗征信不好如何恢复 如何修复不良的花呗征信  为什么夸克流畅播失败  为什么夸克无法注销账户  2025年哪个局域网聊天软件好用  typescript如何做项目  如何体验苹果16系统  夸克网盘为什么解析错误  高市盈率是什么意思  单片机怎么控制内功率  typescript怎么写call方法  固态硬盘如何启动  丰田type-c接口是什么  夸克为什么老是投屏失败  如何在一串数字前面去掉四位数的命令  linux如何打开命令窗口  建伍遥控器power是什么意思  typescript用在哪里  市盈率是什么意思高好还是低好  春运大巴上抢票怎么抢票 

搜索