新闻中心

ICCV 2025宣布ControlNet和「分割一切」等热门论文获奖

2023-10-05
浏览次数:
返回列表

本周,国际计算机视觉大会 ICCV(International Conference on Computer Vision)在法国巴黎开幕。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

ICCV 2023宣布ControlNet和「分割一切」等热门论文获奖

作为全球计算机视觉领域顶级的学术会议,ICCV 每两年召开一次。

和 CVPR 一样,ICCV 的热度屡创新高。

在今天的开幕式上,ICCV 官方公布了今年的论文数据:本届 ICCV 投稿总数达到 8068 篇,其中有 2160 篇被接收,录用率为 26.8%,略高于上一届 ICCV 2025 的录用率 25.9%

ICCV 2023宣布ControlNet和「分割一切」等热门论文获奖

关于论文主题,官方也发布了相关数据:多视角和传感器的3D技术热度最高

ICCV 2023宣布ControlNet和「分割一切」等热门论文获奖

在今天的开幕式上,最重要的部分是宣布获奖信息。现在,让我们逐一揭晓最佳论文、最佳论文提名和最佳学生论文

最佳论文 - 马尔奖

共有两篇论文获得今年的最佳论文(马尔奖)。

第一篇来自多伦多大学的研究者。

ICCV 2023宣布ControlNet和「分割一切」等热门论文获奖


  • 论文地址:https://openaccess.thecvf.com/content/ICCV2025/papers/Wei_Passive_Ultra-Wideband_Single-Photon_Imaging_ICCV_2025_paper.pdf
  • 作者:Mian Wei、Sotiris Nousias、Rahul Gulve、D*id B. Lindell、Kiriakos N. Kutulakos
  • 机构:多伦多大学

摘要:本文考虑在极端的时间尺度范围内,同时(秒到皮秒)对动态场景进行成像的问题,并且是被动地进行成像,没有太多的光,也没有来自发射它的光源的任何定时信号。由于单光子相机现有的通量估计(flux estimation)技术在这种情况下会失效,因此本文开发了一种通量探测理论,该理论从随机微积分中汲取见解,从而能够从单调增加的光子检测时间戳流中重建像素的时变通量。 

本文利用这一理论来表明,无源自由运行SPAD相机在低通量条件下具有可实现的频率带宽,可以跨越整个DC到31 GHz的范围。同时,本文还推导出了一种新颖的傅里叶域通量重建算法,并确保该算法的噪声模型在非常低的光子计数或不可忽略的死区时间下仍然有效

通过实验展示了这种异步成像机制的潜力:(1)对于由以不同速度运行的光源(如灯泡、投影仪、多个脉冲激光器)同时照明的场景进行成像,无需同步;(2)实现被动非视距视频采集;(3)记录超宽带视频,稍后以30 Hz的速度播放以展示日常运动,也可以以慢十亿倍的速度播放以展示光本身的传播

ICCV 2023宣布ControlNet和「分割一切」等热门论文获奖

第二篇就是我们所熟知的 ControNet。

ICCV 2023宣布ControlNet和「分割一切」等热门论文获奖

  • 论文地址:https://arxiv.org/pdf/2302.05543.pdf
  • 作者:Lvmin Zhang、Anyi Rao、Maneesh Agrawala
  • 机构:斯坦福大学

摘要:本研究提出了一种名为ControlNet的端到端神经网络架构。该架构通过添加额外的条件来控制扩散模型(如稳定扩散),以改善图像生成效果。同时,ControlNet能够实现线稿生*彩图、生成具有相同深度结构的图像,并通过手部关键点优化手部生成效果等

ControlNet 的核心思想是在文本描述之外添加一些额外条件来控制扩散模型(如 Stable Diffusion),从而更好地控制生成图像的人物姿态、深度、画面结构等信息。

这里的额外条件以图像的形式来输入,模型可以基于这张输入图像进行 Canny 边缘检测、深度检测、语义分割、霍夫变换直线检测、整体嵌套边缘检测(HED)、人体姿态识别等,然后在生成的图像中保留这些信息。利用这一模型,我们可以直接把线稿或涂鸦转换*彩图,生成具有同样深度结构的图等等,通过手部关键点还能优化人物手部的生成。

ICCV 2023宣布ControlNet和「分割一切」等热门论文获奖

请参阅机器之心的报道《AI降维打击人类画家,文生图引入ControlNet,深度、边缘信息全能复用》以获取更详细的介绍

最佳论文提名:SAM

今年四月,Meta发布了名为「分割一切(SAM)」的人工智能模型,该模型能够为任何图像或视频中的物体生成掩码,这让计算机视觉领域的研究者们感到非常震惊,有人甚至说「计算机视觉不复存在了」

如今,这篇备受关注的论文摘的最佳论文提名。

ICCV 2023宣布ControlNet和「分割一切」等热门论文获奖

  • 论文地址:https://arxiv.org/abs/2304.02643
  • 机构:Meta AI

重写后的内容:在解决分割问题之前,通常有两种方法。第一种是交互式分割,这种方法可以用来分割任何类别的对象,但需要一个人通过迭代细化掩码来指导该方法。第二种是自动分割,可以用来分割预先定义的特定对象类别(例如猫或椅子),但需要大量手动注释对象来进行训练(例如数千甚至数万个分割猫的例子)。然而,这两种方法都没有提供通用的、全自动的分割方法

Meta 提出的 SAM 很好的概括了这两种方法。它是一个单一的模型,可以轻松地执行交互式分割和自动分割。该模型的可提示界面允许用户以灵活的方式使用它,只需为模型设计正确的提示(点击、框选、文本等),就可以完成范围广泛的分割任务

总结一下,这些功能使得SAM能够适应新的任务和领域。这种灵活性在图像分割领域是独一无二的

详细介绍请参考机器之心报道:《CV 不存在了?Meta 发布「分割一切」AI 模型,CV 或迎来 GPT-3 时刻》

最佳学生论文

该研究由来自康奈尔大学、谷歌研究院和 UC 伯克利的研究者共同完成,一作是来自 Cornell Tech 的博士生 Qianqian Wang。他们联合提出了一种完整且全局一致的运动表征 OmniMotion,并提出一种新的测试时(test-time)优化方法,对视频中每个像素进行准确、完整的运动估计。 

ICCV 2023宣布ControlNet和「分割一切」等热门论文获奖

  • 论文地址:https://arxiv.org/abs/2306.05422
  • 项目主页:https://omnimotion.github.io/

摘要:在计算机视觉领域,常用的运动估计方法有两种:稀疏特征追踪和密集光流。但这两种方法各有缺点,稀疏特征追踪不能建模所有像素的运动;密集光流无法长时间捕获运动轨迹。

该研究提出的 OmniMotion 使用 quasi-3D 规范体积来表征视频,并通过局部空间和规范空间之间的双射(bijection)对每个像素进行追踪。这种表征能够保证全局一致性,即使在物体被遮挡的情况下也能进行运动追踪,并对相机和物体运动的任何组合进行建模。该研究通过实验表明所提方法大大优于现有 SOTA 方法。

请参考机器之心报道《随时随地,追踪每个像素,连遮挡都不怕的「追踪一切」视频算法来了》以获取更详细的介绍

今年 ICCV 除了这些获奖论文外,还有许多其他优秀论文值得大家关注。以下是17篇获奖论文的初始清单

ICCV 2023宣布ControlNet和「分割一切」等热门论文获奖

以上就是ICCV 2025宣布ControlNet和「分割一切」等热门论文获奖的详细内容,更多请关注其它相关文章!


# 论文  # ai  # 商品展示网站如何优化seo  # 哪种企业喜欢做seo  # 低价建设网站推荐哪个  # 网站制作优化简历设计  # 关键词排名大词和小词  # seo技术中seo需要学习什么东西  # 网站如何优化集权  # 网站建设推广引流策略  # 营销推广做什么工作内容  # 崇明区网站搭建方案优化  # 有两种  # 边缘  # 提出了  # 腾讯  # 这一  # 手部  # 之心  # 下载量  # 多伦多  # 关键词  # controlnet  # stable diffusion 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 春运抢票准备什么东西  折叠手机内屏为什么会坏  汽车收音机power是什么意思  华为5g手机怎么用4g网络  安卓手机怎么打开5g  为什么夸克没有动漫  苹果16promax有哪些颜色  如何显示固态硬盘  固态硬盘颗粒如何修理  如何在昇腾Ascend 910B上运行Qwen2.5教程  春运抢票多久可以买到票  单身交友必备软件  市盈率中的19a是什么意思  安装固态硬盘如何设置  市盈率负值是什么意思  8800日元等于多少人民币  宝马x5仪表盘上边有power是什么意思  ai如何重复使用上一命令  苹果16粉色还有哪些机型  锤子手机怎么不出5g  固态硬盘 如何分区  内在市盈率是什么意思  市盈率ttm是什么意思  基金市盈率是什么意思  如何用dos命令启动u盘  树莓派命令行如何新建文件  win10如何打开dos命令窗口大小  宵衣旰食是什么意思  rxjs和typescript什么意思  怎么打印数组j*a  苹果16有哪些改善  如何选择启用固态硬盘  三星 nfc什么功能是什么意思  j*a中数组怎么传递  单片机for循环怎么用  按键精灵datediff函数怎么用 如何使用按键精灵中的Datediff函数教程  element ui的好处  满射为什么没有逆映射  typescript要用什么工具  如何创建sql命令  复制 命令如何撤销  夸克绑定设备是什么意思  为什么夸克无法注销账户  酷我音乐怎么改每日推荐 酷我音乐每日推荐修改方法  如何查看固态硬盘分区  ssd固态硬盘如何选择  如何设置sql命令  如何检测固态硬盘温度  虽千万人吾往矣什么意思  固态硬盘如何查看盘符 

搜索