ai大模型

Z-Image

Z-Image 是阿里通义推出的一款开源、高效、面向大规模应用的图像生成基础模型,主打“6B 小参数+照片级画质+极速出图+中英双语文本渲染”。 对创作者、设计师、产品经理和 AI 开发者...

标签:ai大模型

Z-Image官网,造相Z-Image-Turbo,一个超强6B参数的高效图像生成基础模型

简介

Z-Image阿里巴巴是阿里通义实验室2025年11月开源的6B参数级AI图像生成模型,采用单流S3-DiT架构,将文本、视觉语义与图像VAE token统一序列处理,实现跨模态早融合,仅需8步采样即可在16GB显存消费卡上亚秒级输出1024×1024高清图,自带原生中英双语精准文本渲染,可直出海报、广告、品牌Logo,支持自然语言编辑、LoRA微调及ComfyUI一键调用,Apache 2.0协议完全免费商用,训练成本仅63万美元却媲美20B级闭源旗舰,被称“轻量性能双冠王”。

Z-Image官网:

modelscope魔搭: https://www.modelscope.cn/models/Tongyi-MAI/Z-Image-Turbo

github项目官网: https://github.com/Tongyi-MAI/Z-Image

huggingface项目官网: https://huggingface.co/spaces/mrfakename/Z-Image-Turbo

过去一年,AI 文生图赛道“卷”得风生水起。从 Stable Diffusion、Flux、Qwen-Image到闭源的Nano-Banana,大家都在追求一个目标——更快、更强、更丝滑的使用体验。来自通义实验室的 Z-Image(造相)模型 正式亮相,引发了业内广泛关注。它不仅在性能上直接对标国际一线模型,还在 速度、显存占用、中文能力、编辑体验 上表现出了惊人的能力,被许多人评价为:“最值得关注的开源文生图模型之一。”今天,我们就用一篇文章,带大家了解这款新模型为何备受期待✨

01什么是 Z-Image?

Z-Image 是一个6B参数的高效图像生成基础模型,目前主要有三个版本:

  • Z-Image-Turbo(已开源)
  • https://www.modelscope.cn/models/Tongyi-MAI/Z-Image-Turbo
  • Z-Image-Base(即将开源)
  • Z-Image-Edit(即将开源)

其中最受关注的是 Turbo 版本,它是社区最期待的“小步数、低延迟”大模型之⼀。

Turbo 有多强?

根据官方 README 中的介绍:

  • 只需 8 步,生成速度亚秒级
  • 能跑在 16GB 显存 的消费级设备上
  • 中英双语文本渲染能力极强
  • 真实感、构图、美学表现均接近或超过国际主流开源模型

简单说就是:快、稳、轻、准。

特别是 Turbo 版本在 真实感 + 可控性 + 文字渲染 三方面的综合表现,让不少体验者直言“有内味了”。

Z-Image

Z-Image

 

02为什么 Z-Image? 生成又快又好?

Z-Image 的技术亮点可以概括为一句话:

它不是更“堆料”,而是更“聪明”。

单流架构:Scalable Single-Stream DiT(S3-DiT)

README 中提到,Z-Image 的架构是 单流(Single-Stream)Diffusion Transformer。

什么意思?

简单说,许多模型把文字、图片 Token 分开处理,需要复杂的跨模态交互;Z-Image 则直接把文本 Token、视觉语义 Token、VAE Token 全部拼成一个序列,让模型 “一条龙处理”。

这种设计带来的效果非常明显:

  • 参数更高效利用
  • 推理更快
  • 结构更简洁,训练更稳定

业内许多人认为,单流 DiT 会成为未来文生图模型的重要方向。

03 8步生成背后的“魔法”:Decoupled-DMD & DMDR

如今的小步数模型越来越多,但 Z-Image 能做到“快得离谱、好得惊人”,最重要的技术突破来自:

1、Decoupled-DMD

这是 Z-Image Turbo 核心的 蒸馏方法,其亮点是:

  • 把以前大家混在一起理解的 DMD 机制拆开研究
  • CFG 增强(CA)负责“推着模型往前冲”
  • 分布匹配(DM)负责“纠错与稳定”

这种“发动机 + 稳定器”的组合让模型:

  • 少步数但不失真
  • 速度快但场景保持力强
  • 画面一致性、美学评分全面提升

2、DMDR:把 RL 与 DMD 合在一起

在更高阶段的训练中,他们又把 强化学习(RL) 和 DMD 蒸馏 合并,提出 DMDR。

一句话总结:RL 释放创造力,DMD 保证稳定性。

这也是为什么 Z-Image 在 语义对齐、结构保持、高频细节 上表现非常好。

 

04 中文场景的“天生强者”:文字渲染 & 中文编辑

和许多海外模型不同,Z-Image 在设计之初就兼顾了中英双语场景。

README 展示的例子中,复杂的中文字体渲染清晰可控,这在许多开源模型上都是难点。

网络上体验过 Z-Image 的用户也普遍反馈:

  • 中文理解能力强
  • 中文风格图像生成准确
  • 对中国文化元素(国风、山水、艺术)表现优异

特别是即将发布的 Z-Image-Edit,支持精准的自然语言编辑(inpainting、局部改动、风格迁移等),搭配 Turbo 的速度,很可能成为中文 AI 图像编辑领域的新标杆。

 

05实际效果如何?从社区反馈看真实力

Z-Image在ModelScope上做开源首发之前,就提前接入了ModelScope的AIGC专区,供开发者试用。调试期间,模型短暂开启了“申请制”要求,在AIGC专区体验了模型及其强大的效果之后,众多的开发者排队求申请通过,甚至玩起了梗:

Z-Image

当然,申请制只是在模型开源准备期间的临时配置,现在模型已经正式对外开放下载,给更多开发者带来了惊喜,从目前网络讨论与社区 Demo 来看,Z-Image 的亮点包括:

✔️ 真实感强,光影自然

无论人物、室内、风景,都有非常优秀的质感。

✔️ 文字渲染强(尤其是中文)

相比许多模型渲染中文容易“乱码”,Z-Image 的表现稳定。

✔️ Prompt 理解精准

特别是复杂提示词、多元素、多主体场景,遵循度高。

✔️ 速度惊人

体验者普遍反馈:“第一次觉得开源模型能做到这么快。”


06 魔搭玩家:如何开始使用?

1、魔搭社区AIGC专区

点击下方链接,直接进入魔搭社区AIGC专区的“图片生成”页面:

🔗 https://modelscope.cn/aigc/imageGeneration

Z-Image已经是默认生图模型

可以根据需求,在“快速生图”或“专业生图”模式中切换:

-快速生图:适合想要即刻看到结果,对参数要求不高的朋友。

-专业生图:适合追求极致细节和个性化效果的“进阶玩家”。

Z-Image

 

2、魔搭社区API Inference

点击下方链接,进入 造相-Z-Image-Turbo 的官方模型卡片页面: 🔗 https://modelscope.cn/models/Tongyi-MAI/Z-Image-Turbo

一键复制代码,本地/云端自由部署 在页面右侧的“推理 API-Inference”侧边栏,你可以直接看到并一键复制完整的Python调用代码!

Z-Image

这意味着你可以:

  • 在自己的本地电脑或Jupyter Notebook中,轻松调用API进行推理。
  • 将Z-Image的能力无缝接入到你的开发项目中。
  • 与ComfyUI等主流工作流平台结合,打造更复杂的自动化创作流程。

免费算力支持

魔搭社区还提供了免费的API-Inference服务,让你无需担心服务器成本,就能畅快体验!

 

07 Z-Image 的意义

Z-Image 的出现,正在让开源文生图模型的“体验差距”被大幅缩小。

特别是 Turbo 版本,让人第一次感觉到:

“速度、美学、中文、稳定性,这些优点可以同时具备。”

未来如果 Base、Edit 全面开放,Z-Image 很可能成为:

  • 国内 AIGC 技术社区的底座模型
  • 创作者/设计师常用工具
  • 各类图像产品的核心能力组件
  • 二次精调、行业落地的最佳起点

更重要的是,它给了开源社区一个新的方向:

更轻、更快、更智能,而不是单纯更大。

 

它不仅是技术升级,更是体验升级。

如果说 2024–2025 是“多模态大模型之争”,
那么 2025 年之后,可能就是:

“谁能把 AI 图像做得更快、更准、更好用”之争。

 

而 Z-Image,无疑是其中最亮眼的选手之一。

 

🔗点击链接即可跳转模型:

https://www.modelscope.cn/models/Tongyi-MAI/Z-Image-Turbo

主要功能和特色

✨ Z-Image

Z-Image 是一个强大的、高效的图像生成模型,具有 6B 参数。目前有三个变体:

  • 🚀 Z-Image-Turbo – Z-Image 的精简版本,仅用 8 NFEs(函数评估次数)即可匹配或超越领先的竞争对手。它在企业级 H800 GPU 上提供 ⚡️亚秒级推理延迟⚡️,并且可以轻松适应 16G 显存的消费设备。它在逼真图像生成、双语文本渲染(英文和中文)以及稳健的指令遵循方面表现出色。
  • 🧱 Z-Image-Base – 非精简的基础模型。通过发布此检查点,我们旨在解锁社区驱动的微调和自定义开发的全部潜力。
  • ✍️ Z-Image-Edit – 专门针对图像编辑任务进行微调的 Z-Image 变体。它支持创意的图像到图像生成,并具有出色的指令跟随能力,允许基于自然语言提示进行精确编辑。

 

📥 模型库

模型Hugging FaceModelScope
Z-Image-TurboZ-Image
Z-Image
Z-Image
Z-Image
Z-Image-Base即将发布即将发布
Z-Image-Edit即将发布即将发布

🖼️ 展示

📸 逼真的质量Z-Image-Turbo 在保持优秀美学质量的同时,提供了强大的逼真图像生成能力。

Z-Image

📖 准确的双语文本渲染Z-Image-Turbo 在准确渲染复杂的中英文文本方面表现出色。

Z-Image

💡 提示增强与推理: 提示增强器赋予模型推理能力,使其能够超越表面描述,深入理解世界知识。

Z-Image

🧠 创意图像编辑Z-Image-Edit 对双语编辑指令有很强的理解力,能够实现富有想象力和灵活性的图像变换。

Z-Image

🏗️ 模型架构

我们采用了一种可扩展的单流DiT(S3-DiT)架构。在这种设置中,文本、视觉语义标记和图像VAE标记在序列级别上被连接起来,作为统一的输入流,与双流方法相比,最大限度地提高了参数效率。

Z-Image

📈 性能

根据基于Elo的人类偏好评估(在阿里巴巴AI竞技场上),Z-Image-Turbo相对于其他领先模型表现出极高的竞争力,同时在开源模型中达到了最先进的结果。

Z-Image
点击查看完整排行榜

### 🚀 快速开始 安装最新版本的diffusers,请使用以下命令:

点击这里了解为什么需要从源代码安装diffusers的详情
pip install git+https://github.com/huggingface/diffusers
import torch
from modelscope import ZImagePipeline
# 1. Load the pipeline
# Use bfloat16 for optimal performance on supported GPUs
pipe = ZImagePipeline.from_pretrained(
"Tongyi-MAI/Z-Image-Turbo",
torch_dtype=torch.bfloat16,
low_cpu_mem_usage=False,
)
pipe.to("cuda")
# [Optional] Attention Backend
# Diffusers uses SDPA by default. Switch to Flash Attention for better efficiency if supported:
# pipe.transformer.set_attention_backend("flash") # Enable Flash-Attention-2
# pipe.transformer.set_attention_backend("_flash_3") # Enable Flash-Attention-3
# [Optional] Model Compilation
# Compiling the DiT model accelerates inference, but the first run will take longer to compile.
# pipe.transformer.compile()
# [Optional] CPU Offloading
# Enable CPU offloading for memory-constrained devices.
# pipe.enable_model_cpu_offload()
prompt = "Young Chinese woman in red Hanfu, intricate embroidery. Impeccable makeup, red floral forehead pattern. Elaborate high bun, golden phoenix headdress, red flowers, beads. Holds round folding fan with lady, trees, bird. Neon lightning-bolt lamp (⚡️), bright yellow glow, above extended left palm. Soft-lit outdoor night background, silhouetted tiered pagoda (西安大雁塔), blurred colorful distant lights."
# 2. Generate Image
image = pipe(
prompt=prompt,
height=1024,
width=1024,
num_inference_steps=9, # This actually results in 8 DiT forwards
guidance_scale=0.0, # Guidance should be 0 for the Turbo models
generator=torch.Generator("cuda").manual_seed(42),
).images[0]
image.save("example.png")

🔬 分离DMD:Z-Image背后的加速魔法

Z-Image

分离DMD是支持8步Z-Image模型的核心少步蒸馏算法。

我们在分离DMD中的核心见解是,现有DMD(分布匹配蒸馏)方法的成功是由于两个独立但协同工作的机制:

  • CFG增强(CA):驱动蒸馏过程的主要引擎 🚀,这是先前工作很大程度上忽略的一个因素。
  • 分布匹配(DM):更像是一个正则化器 ⚖️,确保生成输出的稳定性和质量。

通过识别并分离这两个机制,我们能够单独研究和优化它们。这最终促使我们开发了一个改进的蒸馏过程,显著增强了少步生成的性能。

Z-Image

🤖 DMDR:将DMD与强化学习融合

 

基于分离DMD的强大基础,我们的8步Z-Image模型已经展示了卓越的能力。为了在语义对齐、美学质量和结构一致性方面进一步提高——同时产生具有更丰富高频细节的图像——我们提出了DMDR

我们关于DMDR的核心见解是在少步模型的后训练期间,强化学习(RL)和分布匹配蒸馏(DMD)可以协同整合。我们证明了:

  • RL解锁了DMD的性能 🚀
  • DMD有效地规范了RL ⚖️
Z-Image

⏬ 下载

pip install -U huggingface_hub
HF_XET_HIGH_PERFORMANCE=1 hf download Tongyi-MAI/Z-Image-Turbo

📜 引用

如果您发现我们的工作对您的研究有用,请考虑引用:

@article{team2025zimage,
title={Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer},
author={Z-Image Team},
journal={arXiv preprint arXiv:2511.22699},
year={2025}
}
@article{liu2025decoupled,
title={Decoupled DMD: CFG Augmentation as the Spear, Distribution Matching as the Shield},
author={Dongyang Liu and Peng Gao and David Liu and Ruoyi Du and Zhen Li and Qilong Wu and Xin Jin and Sihan Cao and Shifeng Zhang and Hongsheng Li and Steven Hoi},
journal={arXiv preprint arXiv:2511.22677},
year={2025}
}
@article{jiang2025distribution,
title={Distribution Matching Distillation Meets Reinforcement Learning},
author={Jiang, Dengyang and Liu, Dongyang and Wang, Zanyi and Wu, Qilong and Jin, Xin and Liu, David and Li, Zhen and Wang, Mengmeng and Gao, Peng and Yang, Harry},
journal={arXiv preprint arXiv:2511.13649},
year={2025}
}

数据评估

Z-Image浏览人数已经达到112,如你需要查询该站的相关权重信息,可以点击"5118数据""爱站数据""Chinaz数据"进入;以目前的网站数据参考,建议大家请以爱站数据为准,更多网站价值评估因素如:Z-Image的访问速度、搜索引擎收录以及索引量、用户体验等;当然要评估一个站的价值,最主要还是需要根据您自身的需求以及需要,一些确切的数据则需要找Z-Image的站长进行洽谈提供。如该站的IP、PV、跳出率等!

关于Z-Image特别声明

本站非猪ai导航提供的Z-Image都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由非猪ai导航实际控制,在2025年12月9日 下午4:14收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,非猪ai导航不承担任何责任。

相关导航

暂无评论

暂无评论...