新闻中心

神笔马良画出三维世界,基于线稿的3D生成编辑方法SketchDream来了

2024-06-01
浏览次数:
返回列表
神笔马良画出三维世界,基于线稿的3D生成编辑方法SketchDream来了
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

刘锋林是中国科学院计算技术研究所高林老师及其博士生刘锋林,香港城市大学傅红波老师,卡迪夫大学来煜坤老师。该项目研究工作受到国家自然科学基金委、北京市自然科学基金委、北京市科学技术委员会的资助,由信息高铁智算算力网络平台提供算力支持。

基于人工智能的数字内容生成,即AIGC,在二维图像生成领域取得了很大的成功,但在三维生成方面仍存在挑战。智能化生成三维模型在AR/VR、工业设计、建筑设计和游戏*等方面都有应用价值,现有的智能化三维生成方法已经可以生成高质量的三维模型,但如何对生成结果进行精确控制,并对真实模型或生成的模型进行修改,从而让用户自由定制高质量的三维模型仍然是一个待解决的问题。

最近,有一篇题为《SketchDream: Sketch-based Text-to-3D Generation and Editing》的论文提出了基于线稿和文本的三维内容生成和编辑方法SketchDream [1]。该论文发表在SIGGRAPH 2025,并被收录于图形学顶级期刊ACM Transactions on Graphics。这个3D AIGC工作助你成为神笔马良,通过画笔画出三维世界,已入选SIGGRAPH精选亮点工作宣传片。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

神笔马良画出三维世界,基于线稿的3D生成编辑方法SketchDream来了

  • 论文:SketchDream: Sketch-based Text-to-3D Generation and Editing
  • 论文地址:https://arxiv.org/pdf/2405.06461
  • 项目主页:http://www.geometrylearning.com/SketchDream/

使用该系统,即使用户不会使用复杂的三维软件,也可以基于线稿自由创作三维内容,并对真实的模型进行修改和编辑。先来看看使用 SketchDream 创作的模型的效果:神笔马良画出三维世界,基于线稿的3D生成编辑方法SketchDream来了                             图 1 基于 SketchDream 的三维生成效果 神笔马良画出三维世界,基于线稿的3D生成编辑方法SketchDream来了                               图 2 基于 SketchDream 的三维编辑效果 

背景

最近,AI 绘画非常火爆,基于 Stable Diffusion [2] 和 ControlNet [3] 等方法,通过指定文本可以生成高真实感的二维图片。最新的视频生成方法 Sora [4],已经可以基于文本生成高质量*级的视频。但是,上述工作无法直接生成高质量的三维模型,更无法对现有的三维模型进行编辑和修改。

对于上述问题,DreamFusion提出了Score Distillation Sampling (SDS)的方法,利用二维图像的Diffusion model生成模型优化神经网络的场。基于文本合成任意类别的高质量的三维模型。后续一系列工作对该方法进行了改进,提升了生成的三维模型的质量,并使生成过程更加稳定。但是,仅仅基于文本,难以实现对几何细节的控制,例如物体的形状和轮廓,不同的组件的形状和位置等。为了提高可控性,许多方法使用额外的图像作为输入,生成高质量的模型,但用户依然需要提前获取合适的图片作为输入,生成高质量的模型。

三维模型的创作是一个非常重要的问题。Vox-e [11] 和 DreamEditor [12] 根据文本自适应的确定三维编辑区域,再实现基于文本的编辑效果。为了实现更精细的控制,SKED [13] 使用线稿编辑三维模型,但如何处理复杂编辑情景仍然较为困难。

线稿作为一种用户友好的交互方法,被广泛用于三维建模。艺术家们通常会先绘制物体的线稿,再进一步使用专业软件进行建模。然而,直接使用线稿生成高质量的三维物体存在挑战:首先,线稿风格多样且过于简洁,很难使用单视角的线稿约束三维物体的生成;其次,二维线稿只包含了单视角的信息,如何解决歧义性,生成侧面和背面区域较为困难。基于线稿的模型编辑则更具挑战性,如何分析并处理不同组件的关系,如何保证编编辑区域的生成质量,如何保持非编辑区域不变,都是需要解决的问题。

SketchDream 算法原理

神笔马良画出三维世界,基于线稿的3D生成编辑方法SketchDream来了

                             图 3 SketchDream 的网络架构图,生成和编辑流程

基于线稿的多视角图像生成网络

给定单视角的手绘线稿后,仅在线稿对应的视角添加约束,无法生成合理的三维模型。因此,需要将线稿的信息有效地传播到三维空间中的新视角,从而合成与线稿对应的高质量的模型。SketchDream 算法构建了基于线稿的多视角图像生成的扩散模型。具体而言,算法在多视角图像生成网络 MVDream [8] 的基础上,添加了与 ControlNet 结构类似的控制网络,基于线稿控制多视角图像的特征。网络使用了 3D Self-Attention,在不同视角之间共享 Q,K,V 特征,从而生成三维一致的结果。

直接使用单视角二维线稿作为多视角图像控制网络的输入,由于缺乏三维信息和空间对应,难以实现有效的线稿控制。因此,算法使用扩散模型生成线稿对应的深度图,补充稀疏线稿缺失的几何信息。进一步,基于深度对线稿变形,从而将线稿显式地变换到相邻的新视角,其他视角则直接输入空白图像。尽管其他视角输入了空白图像,但 3D Self-Attention 保证了视角间的信息交换,从而实现对多视角图像的有效控制。

基于线稿的三维生成

为了实现高质量的三维生成,算法基于线稿的多视角图像扩散模型,反向优化神经辐射场。优化过程中,每一个迭代的步骤,使用不同的相机参数渲染模型并计算梯度,反向优化三维模型。算法基于多视角图像生成网络计算 SDS Loss,保证三维模型的几何合理性。并且,为了提升纹理细节的质量,算法基于 2D 的图像生成网络,计算 ISM Loss [14],提高模型生成质量。算法额外添加蒙版约束和正则化项,提高线稿的对应性和模型的合理性。

基于线稿的三维编辑

为了实现精细化的编辑,算法提出了两阶段编辑方法:粗粒度编辑阶段,算法分析组件的交互关系,生成初始的编辑结果,并基于此获取更精确的三维蒙版;细粒度编辑阶段,算法对局部编辑区域进行渲染优化,并保持非编辑区域的特征,实现高质量的局部编辑效果。

具体而言,在粗粒度编辑阶段,将手绘的 2D 蒙版转换为 3D 空间中的圆柱网格模型,粗略标记编辑的区域。优化过程中,使用与生成相同的损失函数进行优化,但在非编辑区域额外添加与原始模型的 L2 损失,保持原始模型的特征。进一步,从粗略编辑的 NeRF 结果中提取网格模型,标记 3D 网格的局部区域表示待编辑的区域,获取精细化的 3D 蒙版。在细粒度编辑阶段,为了提升编辑区域的质量,算法对局部编辑区域进行渲染,添加基于线稿的 SDS 约束,并添加更精细的非编辑区域的约束,生成更高质量的编辑效果。

效果展示

如图 4 所示,给定手绘线稿和文本描述,该方法可以生成高质量的三维模型。算法生成的结果没有类别限制,结果具备合理的几何属性和高质量的纹理属性。用户可以自由变换视角,都能得到非常真实的渲染结果。

神笔马良画出三维世界,基于线稿的3D生成编辑方法SketchDream来了

                               图 4 基于线稿生成的三维模型

如图 5 所示,给定真实的三维模型,用户可以选择任意的视角,对渲染出的线稿进行修改,从而编辑三维模型。该方法可以对已有模型的部件进行替换,例如左侧的修改狮子头部、更换裙子等,也可以添加新的部件,例如右侧的添加新的房间、添加翅膀等。

神笔马良画出三维世界,基于线稿的3D生成编辑方法SketchDream来了

                              图 5 基于线稿的三维模型编辑结果

如图 6 所示,给定线稿和文本描述,该方法可以对应的三维模型。进一步,用户可以旋转到新的视角,对局部区域进行修改,实现三维模型的精细化定制。

易标AI 易标AI

告别低效手工,迎接AI标书新时代!3分钟智能生成,行业唯一具备查重功能,自动避雷废标项

易标AI 135 查看详情 易标AI

神笔马良画出三维世界,基于线稿的3D生成编辑方法SketchDream来了

                               图 6 基于线稿的生成和编辑效果

如图 7 所示,针对同一个三维模型,用户可以绘制不同的线稿,从而生成具备多样性的结果。线稿也实现了较为精细化的控制,实现了对鸵鸟不同颈部姿态的控制效果。

神笔马良画出三维世界,基于线稿的3D生成编辑方法SketchDream来了

                               图 7 基于线稿的多样化的编辑效果

如图 8 所示,针对同一个三维模型,用户可以指定不同的文本,从而生成具备纹理多样性的结果。在给定相同线稿的情况下,可以生成黄金、铜制和石头质感的狮子头,并保持其他区域不变。

神笔马良画出三维世界,基于线稿的3D生成编辑方法SketchDream来了

                             图 8 基于文本的多样化的编辑效果

结语

基于人工智能的数字内容生成技术蓬勃发展,在很多领域已经有广泛的应用。针对三维内容生成,除了保证高真实感的生成质量,如何提高用户的可控性是重要的问题。SketchDream 提供了一种可行的解决方案,基于手绘线稿,用户可以生成高质量的三维模型,并支持对真实模型的可控编辑。

基于该系统,我们无需安装繁杂的三维建模软件并学习复杂的技能,也不需要花费数个小时时间精力,仅仅通过勾勒简单的线条,普通用户也能轻松构建心中完美的三维模型,并得到高质量的渲染结果。SketchDream 已经被 ACM SIGGRAPH 2025 接收,并将刊登在期刊 ACM Transactions on Graphics 上,已入选 SIGGRAPH 精选亮点工作宣传片。

参考文献:

[1] Feng-Lin Liu, Hongbo Fu, Yu-Kun Lai, Lin Gao*. SketchDream: Sketch-based Text-to-3D Generation and Editing. ACM SIGGRAPH(TOG). 2025

[2] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, Björn Ommer, High-Resolution Image Synthesis with Latent Diffusion Models. CVPR. 2025

[3] Adding Conditional Control to Text-to-Image Diffusion Models, Lvmin Zhang and Maneesh Agrawala, ArXiv, 2025

[4] https://openai.com/sora

[5] Poole, Ben, Ajay Jain, Jonathan T. Barron, and Ben Mildenhall. Dreamfusion: Text-to-3d using 2d diffusion. 

[6] Lin, Chen-Hsuan, Jun Gao, Luming Tang, Towaki Takikawa, Xiaohui Zeng, Xun Huang, Karsten Kreis, Sanja Fidler, Ming-Yu Liu, and Tsung-Yi Lin. Magic3d: High-resolution text-to-3d content creation. CVPR. 2025.

[7] Wang, Zhengyi, Cheng Lu, Yikai Wang, Fan Bao, Chongxuan Li, Hang Su, and Jun Zhu. Prolificdreamer: High-fidelity and diverse text-to-3d generation with variational score distillation. NeuIPS. 2025.

[8] Shi, Yichun, Peng Wang, Jianglong Ye, Mai Long, Kejie Li, and Xiao Yang. Mvdream: Multi-view diffusion for 3d generation. arXiv. 2025.

[9] Liu, Ruoshi, Rundi Wu, Basile Van Hoorick, P*el Tokmakov, Sergey Zakharov, and Carl Vondrick. Zero-1-to-3: Zero-shot one image to 3d object. CVPR. 2025.

[10] Qian, Guocheng, Jinjie Mai, Abdullah Hamdi, Jian Ren, Aliaksandr Siarohin, Bing Li, Hsin-Ying Lee et al. Magic123: One image to high-quality 3d object generation using both 2d and 3d diffusion priors. ArXiv. 2025.

[11] Sella, Etai, Gal Fiebelman, Peter Hedman, and Hadar Averbuch-Elor. Vox-e: Text-guided voxel editing of 3d objects. CVPR. 2025.

[12] Zhuang, Jingyu, Chen Wang, Liang Lin, Lingjie Liu, and Guanbin Li. "Dreameditor: Text-driven 3d scene editing with neural fields." In SIGGRAPH Asia 2025 Conference Papers. 2025.

[13] Mikaeili, Aryan, Or Perel, Mehdi Safaee, Daniel Cohen-Or, and Ali Mahd*i-Amiri. Sked: Sketch-guided text-based 3d editing.CVPR. 2025.

[14] Liang, Yixun, Xin Yang, Jiantao Lin, Haodong Li, Xiaogang Xu, and Yingcong Chen. Luciddreamer: Towards high-fidelity text-to-3d generation via interval score matching. ArXiv. 2025.

以上就是神笔马良画出三维世界,基于线稿的3D生成编辑方法SketchDream来了的详细内容,更多请关注其它相关文章!


# 3d aigc  # 产业  # 画出  # 高质量  # 来了  # type  # controlnet  # 神笔马良  # stable diffusion  # sora  # follow  # seo关键词排名丷金苹果-下拉出词快饣  # 廊坊网站推广微信hfqjwl下拉  # 红河州网站推广代运营  # 爱奇艺的营销推广策略  # 湖南推广网站建设哪家好  # 推广网站建设优势  # 安顺推广营销  # 咖啡店网络营销推广  # 沧州营销网站建设介绍  # 网站推广的违禁词汇总  # 精细化  # 提出了  # 都能  # 手绘  # 用户可以  # 所示  # 如图 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 市盈率292是什么意思  如何选择启用固态硬盘  如何寻找和修复无法在 AI 中找到文件的问题  typescript多久能学完  360n5锁屏壁纸怎么设置  华硕k20ce怎么装win7  命令控制台如何执行sql文件  怎么用typescript 写js  电信开通nfc功能是什么意思  ping命令如何看问题  所有删除的聊天记录都可以恢复吗?  新装固态硬盘如何安装  固态硬盘如何下载网页  国标控制器单片机怎么接线  rxjs和typescript什么意思  小屏折叠屏手机有哪些  学typescript需要什么基础么  如何激活固态硬盘  春运抢票最多能抢几趟车  电脑显示器上power是什么意思  typescript在浏览器里怎么用  如何学习typescript  春运抢票还用取票吗  夸克内测有什么好处  如何操作fixup命令  typescript怎么使用vue  mysql的datediff函数怎么用  估值水平比较中市盈率E是什么意思  苹果16新增哪些功能  苹果手机16有哪些功能  夸克搜题的原理是什么  夸克高考为什么不靠谱  喇叭上POWER4欧是什么意思  固态硬盘如何迁移系统  nosql数据库的应用场景有哪些  照相机上面power是什么意思  春运什么时候开始抢票  如何辨别固态硬盘坏块  迅达热水器显示power是什么意思  春运返程如何抢票成功  市盈率是负数是什么意思  xdm是什么意思  为什么进行域名解析  360f4怎么取消百变壁纸  8800日元等于多少人民币  固态硬盘如何接主机  苹果16更新了哪些软件  市盈率估值1stdv是什么意思  typescript如何做项目  闪光灯power闪烁是什么意思 

搜索