新闻中心

首个中文原生DiT架构!腾讯混元文生图大模型全面开源,免费商用

2024-05-15
浏览次数:
返回列表
中文 AI 社区迎来了一个好消息:与 Sora 同架构的开源文生图大模型来了!

5 月 14 日,腾讯宣布旗下混元文生图大模型全面升级并全面开源,目前已在 Hugging Face 平台及 GitHub 上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

首个中文原生dit架构!腾讯混元文生图大模型全面开源,免费商用

  • 官网地址:https://dit.hunyuan.tencent.com/
  • GitHub 项目地址:https://github.com/Tencent/HunyuanDiT
  • Hugging Face 模型地址:https://huggingface.co/Tencent-Hunyuan/HunyuanDiT
  • 技术报告地址:https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf
 
据了解,这是业内首个中文原生的 DiT 架构文生图开源模型,支持中英文双语输入及理解,参数量 15 亿。

升级后的混元文生图大模型采用了与 Sora 一致的 DiT 架构,即全新的 Hunyuan-DiT 架构,不仅可以支持文生图,也可以作为视频等多模态视觉生成的基础。

首个中文原生DiT架构!腾讯混元文生图大模型全面开源,免费商用

为了全面比较 Hunyuan-DiT 与其他文生图模型的生成能力,腾讯混元团队构建 4 个维度的测试集,邀请超过 50 名专业评估人员进行评估,包括文本图像一致性、排除 AI 伪影、主题清晰度、审美。

从下表结果可以看到,采用 Hunyuan-DiT 架构的腾讯混元文生图模型效果远超开源的 Stable Diffusion 模型,是目前效果最好的开源文生图模型,整体能力属于国际领先水平。

首个中文原生DiT架构!腾讯混元文生图大模型全面开源,免费商用

与其他 SOTA 模型的比较。

与这些 SOTA 模型的定性比较结果如下图所示。

首个中文原生DiT架构!腾讯混元文生图大模型全面开源,免费商用

首个中文原生DiT架构!腾讯混元文生图大模型全面开源,免费商用

首个中文原生DiT架构!腾讯混元文生图大模型全面开源,免费商用

全新 DiT 架构
腾讯混元文生图要做开源模型 No.1
 
大模型的优异表现,离不开领先的技术架构。

升级后的腾讯混元文生图大模型采用了全新的 DiT 架构(DiT 即 Diffusion With Transformer),这是 OpenAI Sora 和 Stable Diffusion 3 的同款架构和关键技术,是一种基于 Transformer 架构的扩散模型。
 
过去,视觉生成扩散模型主要基于 U-Net 架构,但随着参数量增加,基于 Transformer 架构的扩散模型展现了更好的扩展性,有助于进一步提升模型生成质量及效率。Sora 很好地说明了这一点。

腾讯混元是业界最早探索并应用大语言模型结合 DiT 结构的文生图模型之一。从 2025 年 7 月起,腾讯混元文生图团队就明确了基于 DiT 架构的模型方向,并启动了新一代模型研发。今年初,混元文生图大模型已全面升级为 DiT 架构。

Hunyuan-DiT 的模型结构如下图 7 所示,采用了创新的网络架构,结合了双语 CLIP 和多语言 T5 编码器,通过精心设计的数据管道进行训练和优化,支持多轮对话,能够根据上下文生成并完善图像。

首个中文原生DiT架构!腾讯混元文生图大模型全面开源,免费商用

易标AI 易标AI

告别低效手工,迎接AI标书新时代!3分钟智能生成,行业唯一具备查重功能,自动避雷废标项

易标AI 135 查看详情 易标AI
在 DiT 架构之上,腾讯混元团队支持了中英双语文本提示生成图像,并在算法层面优化模型的长文本理解能力,能够支持最多 256 字符的内容输入,达到行业领先水平。

首个中文原生DiT架构!腾讯混元文生图大模型全面开源,免费商用

此外,混元文生图大模型在算法层面创新实现了多轮生图和对话能力,可实现在一张初始生成图片的基础上,通过自然语言描述进行调整,从而达到更满意的效果。

首个中文原生DiT架构!腾讯混元文生图大模型全面开源,免费商用

更多多轮对话生成示例如下图所示。

首个中文原生DiT架构!腾讯混元文生图大模型全面开源,免费商用

中文原生也是腾讯混元文生图大模型的一大亮点。此前,像 Stable Diffusion 等主流开源模型核心数据集以英文为主,对中国的语言、美食、文化、习俗都理解不够。

作为首个中文原生的 DiT 模型,混元文生图具备了中英文双语理解及生成能力,在古诗词、俚语、传统建筑、中华美食等中国元素的生成上表现出色。我们可以看以下一些生成示例。

首个中文原生DiT架构!腾讯混元文生图大模型全面开源,免费商用

腾讯混元文生图还更擅长细粒度文本提示生成

首个中文原生DiT架构!腾讯混元文生图大模型全面开源,免费商用

评测结果显示,新一代腾讯混元文生图大模型视觉生成整体效果,相比前代提升超过了 20%,不仅在语义理解、画面质感与真实性方面全面提升,而且在多轮对话、多主体、中国元素、真实人像生成等场景下效果提升显著。

这一次
腾讯混元选择全面开源文生图模型
 
腾讯混元文生图能力,已经广泛被用于素材创作、商品合成、游戏出图等多项业务及场景中。今年初,腾讯广告基于腾讯混元大模型,发布了一站式 AI 广告创意平台腾讯广告妙思,可为广告主提供文生图、图生图、商品背景合成等多场景创意工具,有效提高了广告生产及投放效率。

腾讯混元文生图大模型的开源,填补了中文原生 DiT 文生图架构的缺失,有助于更多的开发者和创作者参与进来,一起探索、共创基于 DiT 架构的视觉生成生态,更好地去验证、挖掘这个技术架构的潜力。
 
腾讯文生图负责人芦清林表示:「腾讯混元文生图的研发思路就是实用,坚持从实践中来,到实践中去。此次把最新一代模型完整开源出来,是希望与行业共享腾讯在文生图领域的实践经验和研究成果,丰富中文文生图开源生态,共建下一代视觉生成开源生态,推动大模型行业加速发展。」
 
基于腾讯开源的文生图模型,开发者及企业无需从头训练,即可以直接用于推理,并可基于混元文生图打造专属的 AI 绘画应用及服务,能够节约大量人力及算力。透明公开的算法,也让模型的安全性和可靠性得到保障。
 
此外,基于开放、前沿的混元文生图基础模型,也有利于在以 Stable Diffusion 等为主的英文开源社区之外,丰富以中文为主的文生图开源生态,形成更多样原生插件,推动中文文生图技术研发和应用。

以上就是首个中文原生DiT架构!腾讯混元文生图大模型全面开源,免费商用的详细内容,更多请关注其它相关文章!


# 产业  # 腾讯  # 采用了  # 首个  # 开源  # stable diffusion  # sora  # 腾讯混元  # hugging face  # git  # 混元文生图大模型  # 新产品营销推广语术研究  # 咖啡的关键词排名分析图  # 矿泉水软文营销推广  # 如何营销服饰产品推广方案  # 肇庆推广营销渠道招聘网  # 东门旅游网站建设  # 泸州营销网站建设供应  # 生鲜电商营销推广方式  # 青羊营销推广  # 山东全套营销推广  # 前代  # 英文  # 如下图  # 中国  # 这是  # 所示 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 喇叭上标的power30w是什么意思  充电器上的power是什么意思  联想的固态硬盘如何  折叠屏手机共有哪些  什么是base64  阿里云盘的会员怎么用  typescript如何使用  夸克网盘下载为什么要钱  typescript需要学多久  苹果16送哪些配件  ai如何重复使用上一命令  faq是什么意思  小屏折叠屏手机有哪些  单片机是怎么复位的  typescript怎么拼接  mac 如何启动命令行模式  春运抢票何时开始抢票的  免费恢复删除的微信聊天记录软件有哪些  如何在昇腾Ascend 910B上运行Qwen2.5教程  typescript如何定义常量  如何让固态硬盘坏掉  手机如何更改固态硬盘  什么是域名解析 域名解析中采用了什么  360f4怎么取消百变壁纸  win10锁屏壁纸怎么换360锁屏壁纸吗  ai文件在线打开工具有哪些  xdm是什么意思  如何把u盘改成固态硬盘  萝卜快跑的收费标准是什么  夸克文字口令是什么意思  react怎么用typescript  显示器的power是什么意思  广东春运抢票怎么抢的  单片机怎么做组合  选哪个折叠屏手机好用  单片机怎么计算0xf0  m*en repository的作用是什么  折叠屏有哪些手机  春运抢票需要什么软件抢  开机如何进入命令行模式  哪个牌子的折叠屏手机好  mac如何使用vi命令行  单片机怎么控制闪烁技术  juice是什么意思  单片机加热片怎么制作  恋爱软件免费聊天不收费的有哪些  苹果怎么没出5g手机  满射为什么没有逆映射  vi命令如何使用方法  put linux命令如何书写 

搜索