新闻中心

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源

2024-04-15
浏览次数:
返回列表
InstantID 原班团队推出了风格迁移的新方法 InstantStyle。

风格化图像生成通常被称为风格迁移,其目标是生成与参考图像风格一致且与原始图像内容一致的图像。这种技术基于diffusion的方法(比如lora)进行批量的同风格数据训练,无法迁移到新的风格中。或者基于inversion的操作(如stylealign),通过将风格图像还原为latent noise,将其前向传播得到的k、v用于替换生成中的风格图像。这种方法往往由于inversion的操作,生成风格退化。

最近,InstantID 原班团队推出了风格迁移的新方法 InstantStyle。与人脸 ID 不同,它是一个通用的图像风格注入框架,采用两种简单但非常有效的技术,可以实现风格和内容与参考图像的有效分离。这种方法提供了一种简单但非常有效的技术,可以实现风格和内容与参考图像的有效分离,从而实现风格和内容的有效融合。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源

  • 论文:InstantStyle: Free Lunch towards Style-Preserving in Text-to-Image Generation

  • 论文地址:https://huggingface.co/papers/2404.02733

  • 项目主页:https://instantstyle.github.io/

  • 代码链接:https://github.com/InstantStyle/InstantStyle

  • Demo 地址:https://huggingface.co/spaces/InstantX/InstantStyle

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源

作为一种自动化介绍动机,(1)首先风格是欠定的,没有清晰的标准来定义,它囊括众多元素,比如色彩、气围、材质、布局等等,即使是人工评价,也很难有统一的结论;(2)此前基于 inversion 的方法会产生明显的风格退化,这对部分风格是无法接受的,比如纹理;(3)图像风格的注入,最关键的问题是如何平衡风格注入的强度以及参考图像的内容泄露。

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源

对此,作者团队进行了一系列实验分析,他们发现,IP-Adapter 的问题被其它许多方法都明显夸大了,作者仅通过手动调整图像特征注入的权重,就解决了大部分论文中宣称的内容泄露问题。尽管如此,在一些情况下,IP-Adapter 仍然较难找到一个合适的阈值来平衡。由于目前 Adapter-based 的方法普遍使用 CLIP 提取图像特征,作者通过图像检索的例子确认,在 CLIP 特征空间中,图像和文本的特征是可以相加减的,答案显而易见,为什么不在注入网络之前,显式地减去可能会泄露的内容信息,从而对图像特征进行内容和风格解耦呢?

最后,受到 B-LoRA 方法的启发,作者细致分析了 IP-Adapter 在每一层注入的效果,惊奇地发现存在两个独立的层分别响应风格和空间布局的信息。为此,作者引出了提出的方法。

方法介绍

基于以上的观察和实验,作者提出了 InstantStyle 方法,如图所示,该方法核心包含两个模块:

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源

(1)特征相减:利用 CLIP 空闲的特性,显式地进行特征相减,去除图像特征中内容的信息,减少参考图片内容对生成图片的影响。其中相比于风格的欠定,内容信息往往容易通过文本简单描述,所以可以利用 CLIP 的文本编码器提取内容特征,用于解耦。

(2)仅风格层注入:仅在特定风格层完成特征注入,隐式地实现风格和内容的解耦。作者在 UNet 的 mid block 附近,发现了分别控制风格和空间布局的两个特定层,并发现在某些风格中,空间布局可能也属于风格的一种。

整体而言,InstantStyle 的思路相当简单易懂,仅仅通过几行代码,就缓解了风格迁移中最困扰的内容泄露问题。

实验结果

易标AI 易标AI

告别低效手工,迎接AI标书新时代!3分钟智能生成,行业唯一具备查重功能,自动避雷废标项

易标AI 135 查看详情 易标AI

作者在文中展示了两种策略的生成结果,这两种策略不局限于特定模型,可以分开独立使用,都实现了优异的效果。

特征相减的结果:

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源

仅风格层注入:

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源

和目前领先方法的对比:

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源

基于原图的风格化:

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源

社区玩法

InstantStyle 已经提供了丰富的代码实现,开发者可以直接通过 GitHub 找到,包括文生图、图生图以及 Inpainting。近日还被视频生成项目 AnyV2V 作为推荐的风格化工具。对于社区用户,InstantStyle 还原生就支持了 ComfyUI(该结点作者也是 InstantStyle 的共同作者),用户可以通过更新 IP-Adapter 结点即可快速尝试。

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源

作为 InstantID 作者,又怎么少得了和 InstantID 的联名呢,相比于 InstantID 中仅通过文本来控制生成风格,InstantStyle 无疑可以让风格更加多样。作者团队会在 GitHub 星标到达 1000 后,官方支持人脸的风格化功能。

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源

作者也官方支持了 Huggingface Demo,可以在线试玩。

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源

以上就是曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源的详细内容,更多请关注其它相关文章!


# git  # type  # 又有  # 开源  # 工程  # 小贝科技网站建设  # 肇庆网站建设方案有哪些  # 延庆网站建设与优化  # 渭南网站建设设计  # 汉沽礼品网站建设多少钱  # 广州网站优化营销  # 营销与推广策划方案模板  # 沾化区怎么做网站推广的  # 鼓楼区正规seo公司  # 剑侠seo采集站教程  # 命令行  # 个月  # 相减  # 首款  # 可以实现  # 博客  # 两种  # 新玩法 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 负市盈率是什么意思  春运抢票到哪里抢票啊  单片机是怎么复位的  华为交换机 配置 如何复制命令行  performance是什么意思  怎么把手机里爱奇艺的视频下载到u盘里  夸克学习都有什么课程  苹果16自带配件有哪些  kingston是什么_kingston是什么意思  typescript是什么软件  折叠屏手机共有哪些  建伍遥控器power是什么意思  如何安装大华固态硬盘  新买的固态硬盘如何查  语音聊天软件哪个好 语音聊天软件2025排行榜  春运抢票准备什么  typescript中文怎么读  命令行如何运行c  云淡风轻什么意思  如何找出命令行  ka是什么意思  苹果16有哪些黑科技  如何用命令连接mysql  一帧是多少秒  阿里云盘扩容工具怎么用  双十一哪一天买比较便宜?  点焊机接触器上power是什么意思  春运抢票软件哪个好  反向春运抢票方式  51单片机贴片怎么*  闲鱼上面的power是什么意思  春运抢票何时开始抢票的  索尼type-c接口是什么  苹果16系统网站有哪些  typescript接口怎么选  typescript入门要多久  manager是什么意思  每日推荐电声音乐软件有哪些  华为使用nfc功能是什么意思  计数器上power是什么意思  为什么都用typescript  固态硬盘如何打开软件  夸克网盘为什么解析错误  ospf中交换机命令如何设置  热水器没热水显示power是什么意思  cos150度等于多少  对象数组怎么用j*a  怎么打印数组j*a  typescript全局配置放哪里  什么是typescript 

搜索