新闻中心

ECCV 2025|牛津大学&港科提出毫秒级文生图安全检测框架Latent Guard

2024-11-05
浏览次数:
返回列表

最近的文本到图像生成器由文本编码器和扩散模型组成。如果在没有适当安全措施的情况下部署,它们会产生滥用风险(左图)。我们提出了潜在保护方法(右图),这是一种旨在阻止恶意输入提示的安全方法。我们的想法是在文本编码器的基础上,检测学习的潜在空间中黑名单概念的存在。这使我们能够检测到超出其确切措辞的黑名单概念,并且还扩展到一些对抗性攻击(“”)。黑名单在测试时是可调的,可以添加或删除概念而无需重新训练。被阻止的提示不会被扩散模型处理,从而节省计算成本。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

ECCV 2024|牛津大学&港科提出毫秒级文生图安全检测框架Latent Guard

随着生成高质量图像的能力,文本到图像(T2I)模型可能被滥用于创建不当内容。为了防止滥用,现有的安全措施要么基于文本黑名单,这很容易被规避,要么基于有害内容分类,这需要大量数据集进行训练且灵活性较低。因此,我们提出了潜在保护(Latent Guard),这是一个旨在改善文本到图像生成安全措施的框架。受到基于黑名单方法的启发,潜在保护在T2I模型的文本编码器上学习了一个潜在空间,在该空间中可以检查输入文本嵌入中有害概念的存在。我们提出的框架由一个特定于该任务的数据生成管道、专门的架构组件和一种对比学习策略组成,以从生成的数据中受益。我们的方法在三个数据集上进行了验证,并与四个基准进行了对比。

ECCV 2024|牛津大学&港科提出毫秒级文生图安全检测框架Latent Guard

论文标题:Latent Guard: a Safety Framework for Text-to-image Generation

论文链接:https://www.php.cn/link/c92b32fbc94e2dff3e5516401d9bb463

代码&数据集链接:https://github.com/rt219/LatentGuard

方法与数据集构建

我们首先生成围绕黑名单概念的安全和不安全提示的数据集(左侧)。然后,我们利用预训练的文本编码器提取特征,并通过我们的嵌入映射层将其映射到一个学习的潜在空间(中间)。在训练过程中,只有嵌入映射层会更新,所有其他参数保持冻结状态。我们通过在提取的嵌入上施加对比损失进行训练,拉近不安全提示和概念的嵌入,同时将它们与安全提示的嵌入区分开来(右侧)。

ECCV 2024|牛津大学&港科提出毫秒级文生图安全检测框架Latent Guard

对于 C 个概念,我们根据第 3.1 节中的描述,使用大型语言模型 (LLM) 对不安全的 U 提示进行采样。然后,我们通过用同义词替换 c(同样使用 LLM)来创建同义词提示,并得到 U^syn。此外,我们使用对抗攻击方法将 c 替换为 "" 对抗文本 (U^adv)。安全提示 S 从 U 中获得。这对于每个 ID 和 OOD 数据都执行。

实验结果

Yaara Yaara

使用AI生成一流的文案广告,电子邮件,网站,列表,博客,故事和更多…

Yaara 95 查看详情 Yaara

我们提供了 Latent Guard 和基准模型在 CoPro 上的准确率 (a) 和 AUC (b)。在所有设置中,我们的排名均为第一或第二,仅在显式 ID 训练数据上进行训练。图 (c) 显示了 CoPro 提示和生成图像的示例。不安全的生成图像证明了我们数据集的质量。Latent Guard 是唯一能够阻止所有测试提示的方法。

ECCV 2024|牛津大学&港科提出毫秒级文生图安全检测框架Latent Guard

在未见数据集上的评估。我们在现有数据集上测试了 Latent Guard,包括 Unsafe Diffusion 和 I2P++。尽管输入的 T2I 提示分布与 CoPro 中的分布不同,我们仍然超越了所有基准,并实现了稳健的分类。

ECCV 2024|牛津大学&港科提出毫秒级文生图安全检测框架Latent Guard

速度和特征空间分

计算成本。我们测量了在 c_check 中不同批次大小和概念下的处理时间和内存使用。在所有情况下,资源需求都很有限。

ECCV 2024|牛津大学&港科提出毫秒级文生图安全检测框架Latent Guard

特征空间分析。在 CoPro 上训练 Latent Guard 会自然地出现安全/不安全区域(右侧)。在 CLIP 潜在空间中,安全和不安全的嵌入混合在一起(左侧)。

ECCV 2024|牛津大学&港科提出毫秒级文生图安全检测框架Latent Guard

更多研究细节,可参考原论文。

以上就是ECCV 2025|牛津大学&港科提出毫秒级文生图安全检测框架Latent Guard的详细内容,更多请关注其它相关文章!


# git  # follow  # 牛津大学  # 不安全  # 省电  # 安全措施  # 理论  # 国外最火关键词游戏排名  # 福建正规seo优化口碑推荐  # 荆州品牌网站优化哪个好  # 在QQ上推广刷会员网站会被封号吗  # 俄语网站建设选哪家  # 深圳品牌seo优化企业  # 宋韵文化项目营销推广  # 如何设计部门网站推广  # 海外零食网站免费推广  # 山西网站网络推广哪个好  # 贴士  # 开好  # 可调  # 进行了  # 提出了  # 都能 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 显示器上power键是什么意思  按键精灵datediff函数怎么用 如何使用按键精灵中的Datediff函数教程  vivo怎么投屏到电视看爱奇艺教程  如何用命令查看数据库日志文件  怎么在typescript定义集合  命令指示符如何打开盘符  如何区别固态硬盘  汽车收音机power是什么意思  debian和ubuntu命令一样吗  j*a数组怎么存满  win7旗舰版wifi怎么打开  启辰星power标志是什么意思  学typescript需要多久  typescript有什么作用  typescript全局配置放哪里  win10系统如何打开cmd命令  bugly是什么  什么是unix时间戳  苹果16系统有哪些缺陷  grep命令的是如何实现  苹果16有哪些系统  vue组件typescript怎么用  苹果16充电方式有哪些  空调主板单片机怎么拆开  如何找出命令行  j*a怎么创建json数组  如何在命令行执行一个jar  通配符的用法  固态硬盘如何装入机箱  固态硬盘如何启动  市盈率ttm是什么意思  单片机加热片怎么制作  五十铃x-power是什么意思  光刻机是干什么用的  阿里云盘共享账户怎么用  如何注释typescript  个人征信不好如何恢复 个人征信不良的全面修复指南  typescript和node学哪个  燃气热水器上的power是什么意思  8k是多少钱  如何判断固态硬盘端口  破太岁是什么意思  春运车票啥时候可以抢票  电动车仪表盘上的power是什么意思  市盈率为负值是什么意思  j*a怎么读取char数组  typescript中如何定义json  开机如何运行dos命令提示符  路亚竿上的power是什么意思  夸克po什么意思 

搜索