新闻中心

模型安全武装,复旦新研究实现SOTA扩散模型风险概念擦除效果,入选AAAI 2025

2025-02-24
浏览次数:
返回列表

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
论文第一、第二作者为复旦大学视觉与学习实验室的硕士生韩枫和博士生陈凯。通讯作者为陈静静副教授。研究团队专注于 AI 安全的研究,近年来在 CVPR,ECCV,AAAI,ACM MM 等顶会上发表过多篇 AI 安全的研究成果。

文生图模型生成图片过于露骨?不妨直接给图像穿上衣服。

复旦大学团队设计的风险概念移除网络 DuMo 不仅实现上述功能,同时尽可能保证人物以及其他属性不受影响。达到现有最好的指哪擦哪效果。
图片
同时,DuMo 也可避免文生图模型模仿艺术家风格,从而制作一些侵犯版权的照片。
图片
随着生成式人工智能技术的快速发展,扩散模型图像生成能力已达到了令人惊叹的高度。然而,这一技术也伴随着安全隐患,例如生成含有敏感、不当或侵犯版权的内容。

现有方法一般通过一种名为概念陈擦除的微调方法以实现模型去毒。

复旦大学研究团队提出了一种全新的双编码器调制网络(DuMo),通过创新性的架构和算法,实现了对扩散模型中特定风险概念的精准擦除,在擦除效果和精确度方面均达到 SOTA 水平,研究成果已被顶级会议 AAAI 2025 收录。
图片
  • 论文:DuMo: Dual Encoder Modulation Network for Precise Concept Erasure
  • 论文链接:https://arxiv.org/abs/2501.01125

DuMo:擦除风险内容,保护生成能力

当前的概念擦除技术普遍面临两个挑战:一是难以有效擦除风险概念,二是擦除过程中,微调后模型对其他安全概念的生成能力被破坏。DuMo 在这两个方面取得了突破,成功地解决了「擦除」和「保护」之间的矛盾。

具体而言,U-Net 特征分为主干网络特征,和跳跃连接特征。其他方法都对 U-Net 的主干特征进行了修改,会对安全概念的生成产生不良影响,破坏其结构完整性 [1]。此外,跳跃连接特征的潜力没有得到充分挖掘,这限制了模型在执行概念擦除时的能力,同时也影响了模型的生成效果 [2]。
图片
DuMo 通过对 EPR 擦除模块和时间 - 层级调制机制(TLMO)的两阶段微调以实现上述效果:

1、基于跳跃连接的 EPR 擦除模块

DuMo 采用了创新性的「基于先验知识的擦除模块」(EPR)。EPR 擦除模块是由一份 U-Net Enoder 的副本和零卷积组拼接得到的。零卷积组的卷积层参数被初始化为零,而且原始 U-Net 主干的参数被冻结,其包含的模型先验知识被全部保留,只有跳跃连接特征被修改,从而最大程度避免对安全概念的结构和生成质量产生负面影响 [1]。第一阶段微调过程中 DuMo 将不安全概念(例如「裸露」)对齐到目标概念(例如,空文本 「 」)以达到概念擦除的效果
图片
2、时间 - 层级调制(TLMO)机制

作者观察到,EPR 模块在不同的跳跃连接层和去噪时间步上,对图像中的低频结构元素和高频细节部分表现出不同的擦除偏好。通过将跳跃连接层和时间步分组,DuMo 发现不同层级和时间步对图像的影响不同,因此采取了特定的调整策略。
图片
DuMo 设计了一个独特的时间 - 层级调制(TLMO)策略,针对扩散模型的生成过程中的不同时间步和网络层级,使用微调得到的调制系数,自动调整 EPR 模块不同输出的擦除强度。
图片
同时在第二阶段的微调过程中,除了损失函数中原有的项外,还添加了一个正则项,用于将微调后的模型噪声(对应空文本)与原始模型进行对齐。这些机制大幅减少对安全概念的影响,从而在擦除风险概念的同时,保证安全概念的生成质量和细节。
图片
实验验证:擦除能力与生成保留的双赢

DuMo 在裸露内容擦除、卡通概念移除和艺术风格擦除三个任务上进行了全面验证,其表现优于当前所有主流方法。

裸露内容擦除

在风险性最高的「裸露内容擦除」任务中,DuMo 在 I2P 基准数据集上的表现令人瞩目:

  • *部位检测数量仅为 34 个,是现有最佳方法。

  • 生成图像的质量指标(FID)与 CLIP Score 均达到顶尖水平,生成能力显著优于其他方法。

图片
在擦除裸露概念后,DuMo 还能很好的保持图像的结构。如第一行人物的姿势和第二行人物位置与背景。
图片
卡通概念移除

针对「Snoopy」等流行卡通概念的擦除任务,DuMo 实现了更好的平衡:

  • 单概念擦除任务中,LPIPS_da(擦除效果 - 生成能力保留平衡性)提升了 0.096;

  • 多概念擦除任务中,LPIPS_da 进一步提升了 0.142,证明其对复杂任务的优异适应性。

    Reachout.ai Reachout.ai

    一个AI驱动的视频开发平台,专为忙碌的企业家和销售团队打造

    Reachout.ai 142 查看详情 Reachout.ai
图片
艺术风格擦除

在艺术风格移除任务中,DuMo 精准擦除了「梵高」和「伦勃朗」等风格特征,同时对其他艺术家风格的破坏降到最低:
  • 实现了 SOTA 级别的风格擦除效果;

  • 定量指标 LPIPS_da 表现显著优于对比方法。

图片
在擦除梵高风格的实验中,其他艺术家风格图片的生成也不受影响。
图片
参考文献

[1] Si, C.; Huang, Z.; Jiang, Y.; and Liu, Z. 2025. Freeu: Free lunch in diffusion u-net. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 4733–4743.
[2] Luo, W.; Hu, T.; Zhang, S.; Sun, J.; Li, Z.; and Zhang, Z. 2025. Diff-instruct: A universal approach for transferring knowledge from pre-trained diffusion models. Advances in Neural Information Processing Systems, 36.

以上就是模型安全武装,复旦新研究实现SOTA扩散模型风险概念擦除效果,入选AAAI 2025的详细内容,更多请关注其它相关文章!


# 不受  # 天津进口网站建设方案  # 全球社交网站建设  # 魏县网络推广营销招聘  # 网站整站优化推广排名  # 鄂尔多斯网络营销推广中心  # 小企业网站建设费用情况  # 黄石seo推广形式  # 京东seo  # 网络营销推广力度不够  # 游戏类网站seo  # 艺术风格  # 实现了  # 工程  # 复旦  # 过程中  # 移除  # 梵高  # 神技  # 复旦大学  # 擦除  # Type  # 2025  # 邮箱  # ai  # dumo 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 双十一的哪一天最优惠呢  春运大巴上抢票怎么抢票  春运抢票失败怎么抢  typescript如何定义常量  爱奇艺vip会员可以同时几个人用?  市盈率3.2是什么意思  一年多少周  win7怎么取消360显示的壁纸  typescript入门要多久  镜像ao3链接入口  如何提高固态硬盘性能  市盈率292是什么意思  vi命令如何退出编辑模式  typescript性能如何  为什么youtube音乐打不开  喇叭上POWER4欧是什么意思  三星相机里power是什么意思  如何用dos命令分区  燃气热水器上的power是什么意思  j*a map数组怎么取值  如何加装固态硬盘  苹果16系统有哪些问题  折叠屏手机哪个卖得最好  空调主板单片机怎么拆开  分享一个稳定的ao3镜像网址  typescript和nodejs哪个好  为什么夸克运行不了  春运预约抢票能抢到吗  手机拍电脑屏幕有条纹怎么解决  树莓派命令行如何新建文件  命令控制台如何执行sql文件  折叠屏手机好不好,耐不耐用  如何使硬盘升级固态硬盘  固态硬盘如何消除缓存  买的5g手机但是没有5g网络怎么办  交管12123协议头不完整是啥意思  怎么看手机是不是双模5g手机  安全的ao3镜像网站链接入口  typescript属性只读如何修改  如何修改域名解析  进口超级维特拉三门版power是什么意思  typescript适合什么用  如何在命令提示符播放音频  苹果16有哪些可以设置  如何通过dos命令  typescript接口怎么选  linux环境中如何使用ping命令  苹果手机16系统有哪些  为什么夸克下载不到  苹果ipad爱奇艺怎么投屏到电视 

搜索