新闻中心
曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源
InstantID 原班团队推出了风格迁移的新方法 InstantStyle。
风格化图像生成通常被称为风格迁移,其目标是生成与参考图像风格一致且与原始图像内容一致的图像。这种技术基于diffusion的方法(比如lora)进行批量的同风格数据训练,无法迁移到新的风格中。或者基于inversion的操作(如stylealign),通过将风格图像还原为latent noise,将其前向传播得到的k、v用于替换生成中的风格图像。这种方法往往由于inversion的操作,生成风格退化。
最近,InstantID 原班团队推出了风格迁移的新方法 InstantStyle。与人脸 ID 不同,它是一个通用的图像风格注入框架,采用两种简单但非常有效的技术,可以实现风格和内容与参考图像的有效分离。这种方法提供了一种简单但非常有效的技术,可以实现风格和内容与参考图像的有效分离,从而实现风格和内容的有效融合。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文:InstantStyle: Free Lunch towards Style-Preserving in Text-to-Image Generation
论文地址:https://huggingface.co/papers/2404.02733
项目主页:https://instantstyle.github.io/
代码链接:https://github.com/InstantStyle/InstantStyle
Demo 地址:https://huggingface.co/spaces/InstantX/InstantStyle

作为一种自动化介绍动机,(1)首先风格是欠定的,没有清晰的标准来定义,它囊括众多元素,比如色彩、气围、材质、布局等等,即使是人工评价,也很难有统一的结论;(2)此前基于 inversion 的方法会产生明显的风格退化,这对部分风格是无法接受的,比如纹理;(3)图像风格的注入,最关键的问题是如何平衡风格注入的强度以及参考图像的内容泄露。

对此,作者团队进行了一系列实验分析,他们发现,IP-Adapter 的问题被其它许多方法都明显夸大了,作者仅通过手动调整图像特征注入的权重,就解决了大部分论文中宣称的内容泄露问题。尽管如此,在一些情况下,IP-Adapter 仍然较难找到一个合适的阈值来平衡。由于目前 Adapter-based 的方法普遍使用 CLIP 提取图像特征,作者通过图像检索的例子确认,在 CLIP 特征空间中,图像和文本的特征是可以相加减的,答案显而易见,为什么不在注入网络之前,显式地减去可能会泄露的内容信息,从而对图像特征进行内容和风格解耦呢?
最后,受到 B-LoRA 方法的启发,作者细致分析了 IP-Adapter 在每一层注入的效果,惊奇地发现存在两个独立的层分别响应风格和空间布局的信息。为此,作者引出了提出的方法。
方法介绍
基于以上的观察和实验,作者提出了 InstantStyle 方法,如图所示,该方法核心包含两个模块:

(1)特征相减:利用 CLIP 空闲的特性,显式地进行特征相减,去除图像特征中内容的信息,减少参考图片内容对生成图片的影响。其中相比于风格的欠定,内容信息往往容易通过文本简单描述,所以可以利用 CLIP 的文本编码器提取内容特征,用于解耦。
(2)仅风格层注入:仅在特定风格层完成特征注入,隐式地实现风格和内容的解耦。作者在 UNet 的 mid block 附近,发现了分别控制风格和空间布局的两个特定层,并发现在某些风格中,空间布局可能也属于风格的一种。
整体而言,InstantStyle 的思路相当简单易懂,仅仅通过几行代码,就缓解了风格迁移中最困扰的内容泄露问题。
实验结果
易标AI
告别低效手工,迎接AI标书新时代!3分钟智能生成,行业唯一具备查重功能,自动避雷废标项
135
查看详情
作者在文中展示了两种策略的生成结果,这两种策略不局限于特定模型,可以分开独立使用,都实现了优异的效果。
特征相减的结果:

仅风格层注入:


和目前领先方法的对比:

基于原图的风格化:

社区玩法
InstantStyle 已经提供了丰富的代码实现,开发者可以直接通过 GitHub 找到,包括文生图、图生图以及 Inpainting。近日还被视频生成项目 AnyV2V 作为推荐的风格化工具。对于社区用户,InstantStyle 还原生就支持了 ComfyUI(该结点作者也是 InstantStyle 的共同作者),用户可以通过更新 IP-Adapter 结点即可快速尝试。

作为 InstantID 作者,又怎么少得了和 InstantID 的联名呢,相比于 InstantID 中仅通过文本来控制生成风格,InstantStyle 无疑可以让风格更加多样。作者团队会在 GitHub 星标到达 1000 后,官方支持人脸的风格化功能。

作者也官方支持了 Huggingface Demo,可以在线试玩。

以上就是曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源的详细内容,更多请关注其它相关文章!
# git
# type
# 又有
# 开源
# 工程
# 小贝科技网站建设
# 肇庆网站建设方案有哪些
# 延庆网站建设与优化
# 渭南网站建设设计
# 汉沽礼品网站建设多少钱
# 广州网站优化营销
# 营销与推广策划方案模板
# 沾化区怎么做网站推广的
# 鼓楼区正规seo公司
# 剑侠seo采集站教程
# 命令行
# 个月
# 相减
# 首款
# 可以实现
# 博客
# 两种
# 新玩法
相关栏目:
【
行业资讯67740 】
【
技术百科0 】
【
网络运营39195 】
相关推荐:
负市盈率是什么意思
春运抢票到哪里抢票啊
单片机是怎么复位的
华为交换机 配置 如何复制命令行
performance是什么意思
怎么把手机里爱奇艺的视频下载到u盘里
夸克学习都有什么课程
苹果16自带配件有哪些
kingston是什么_kingston是什么意思
typescript是什么软件
折叠屏手机共有哪些
建伍遥控器power是什么意思
如何安装大华固态硬盘
新买的固态硬盘如何查
语音聊天软件哪个好 语音聊天软件2025排行榜
春运抢票准备什么
typescript中文怎么读
命令行如何运行c
云淡风轻什么意思
如何找出命令行
ka是什么意思
苹果16有哪些黑科技
如何用命令连接mysql
一帧是多少秒
阿里云盘扩容工具怎么用
双十一哪一天买比较便宜?
点焊机接触器上power是什么意思
春运抢票软件哪个好
反向春运抢票方式
51单片机贴片怎么*
闲鱼上面的power是什么意思
春运抢票何时开始抢票的
索尼type-c接口是什么
苹果16系统网站有哪些
typescript接口怎么选
typescript入门要多久
manager是什么意思
每日推荐电声音乐软件有哪些
华为使用nfc功能是什么意思
计数器上power是什么意思
为什么都用typescript
固态硬盘如何打开软件
夸克网盘为什么解析错误
ospf中交换机命令如何设置
热水器没热水显示power是什么意思
cos150度等于多少
对象数组怎么用j*a
怎么打印数组j*a
typescript全局配置放哪里
什么是typescript


2024-04-15
浏览次数:次
返回列表