qwen image
qwen image,国产最强的自然语言P图大模型,汉字精修零瑕疵+多轮编辑不崩图
标签:ai修图工具qwen image qwen image官网 qwen image官网下载 qwen image本地部署qwen image官网,国产最强的自然语言P图大模型,汉字精修零瑕疵+多轮编辑不崩图
简介
Qwen-Image 是阿里巴巴通义千问团队于 2025 年 8 月发布并开源的首个图像生成基础模型,全名为 Qwen-Image。该模型是一个 200 亿参数 的 多模态扩散变换器(MMDiT)模型,专注于解决当前 AI 图像生成领域中的两大核心难题:复杂文本渲染 和 精确图像编辑。——模型在 CVTG-2K 与自建 ChineseWord 基准上双双刷新 SOTA,实现中英复杂排版、艺术字体与极小字号的高保真生成,且支持任意方向、弯曲或透视文本,误差率低于 1.5%!
Qwen Image Edit的官网地址
qwen image官网: https://www.modelscope.cn/models/Qwen/Qwen-Image-Edit
在线体验Demo(需要海外ip):https://huggingface.co/spaces/Qwen/Qwen-Image-Edit

Qwen-Image外网发布地址
- 项目官网:https://qwenlm.github.io/blog/qwen-image-edit/
- GitHub仓库:https://github.com/QwenLM/Qwen-Image
- HuggingFace模型库:https://huggingface.co/Qwen/Qwen-Image-Edit
Qwen-Image:复杂文本渲染与精准图像编辑的 20 B 基础模型深度解析

核心特性
-
卓越的文本渲染能力:支持中英文等多种语言的复杂文本渲染,包括多行布局、段落级文本生成以及细粒度细节呈现,尤其在中文文本渲染方面表现突出,能够准确生成海报、PPT 页面、UI 原型等包含复杂文本和图像组合的场景。
-
一致性的图像编辑能力:通过增强的多任务训练范式,在图像编辑过程中能够保持内容的一致性和语义连贯性,支持风格转换、对象添加/移除、人物姿态调整等多种编辑任务。
-
多样化艺术风格:支持从写实、动漫、赛博朋克到极简、水墨等多种艺术风格的图像生成。
-
开源与商业化:基于 Apache 2.0 许可证开源,允许商业使用,无需额外授权费用。
技术架构与性能
-
架构:采用 MMDiT(多模态扩散变换器)架构,实现文本与图像的深度融合。
-
性能表现:在多个公开基准测试中,包括 GenEval、DPG、OneIG-Bench、GEdit、ImgEdit、GSO 等,均取得了 当前最优(SOTA) 的性能。
-
硬件需求:完整版本需要约 60GB 存储空间,推荐使用 8GB 以上显存和 64GB 系统内存,fp8 量化版本可显著降低硬件要求。
应用场景
-
创意内容创作:适用于广告设计、品牌营销、出版、教育等领域的海报、宣传册、PPT 页面等视觉内容创作。
-
图像编辑与优化:支持对现有图像进行风格转换、对象添加/移除、背景替换、文本修改等操作,降低专业设计门槛。
与其他模型的区别
-
与 DALL-E 等模型对比:Qwen-Image 在复杂文本渲染(尤其是中文)和图像编辑一致性方面表现更为出色,填补了中文 AI 图像生成领域的空白。
-
与 Photoshop 等专业工具对比:Qwen-Image 提供语义级的、概率性的图像编辑,用户通过自然语言描述意图即可实现复杂编辑,无需专业技能,但在精细控制方面与专业工具存在差异。
获取与使用
-
开源地址:可通过 Hugging Face、ModelScope 等平台获取模型。
-
在线体验:阿里云百炼平台提供免费额度(100 张)和付费使用选项。
Qwen-Image:重新定义复杂文本渲染与精准图像编辑的 20B 多模态基础模型
1. 模型定位与概览
Qwen-Image 是阿里云通义千问团队于 2025 年 8 月开源的 20B 参数 MMDiT(Multimodal Diffusion Transformer)图像基础模型,专注于两大行业痛点:
- 复杂文本的可控高保真渲染(尤其中文长文本与多语言混排)
- 像素级精准图像编辑(保持语义与视觉一致性)
Qwen-Image 以 Apache 2.0 协议发布,允许商用及二次开发,可直接通过 Hugging Face、ModelScope 或官方 Demo 零门槛体验。
2. 核心能力拆解
| 维度 | 功能点 | 技术细节与示例 |
|---|---|---|
| 文本渲染 | 多行段落级布局 | 支持自动换行、对齐、缩进,可渲染整段产品说明、诗词对联。 示例:在一张电商海报中一次性准确排布 60+ 中文字符、价格及英文卖点。 |
| 中英混排 & 符号 | 同一画面中无缝混排中英文、数字、标点、特殊符号,自动适配字重与基线。 | |
| 字体风格控制 | 支持宋体、楷体、手写体、书法等风格描述,无需额外字体文件。 | |
| 极小字号保真 | 即使在 256×256 像素局部区域,12 pt 以下的文本依旧清晰可读。 | |
| 图像编辑 | 文字原位修改 | 在保持字体、光影、纹理一致的前提下,对图中文字进行增、删、改。 |
| 对象级操作 | 指令式添加/删除/替换物体,边缘融合与阴影重建自然。 | |
| 风格迁移 | 将写实照片一键转为国风水墨、赛博朋克、像素风等,同时保留原图构图。 | |
| 姿态与表情 | 通过文本精确调整人物角度、手势、面部表情,支持多角度一致性。 | |
| 生成能力 | 复杂场景 | 可生成电影海报、PPT 幻灯片、漫画分镜等需要精确文本定位的场景。 |
| 长宽比任意 | 支持 1:1、16:9、21:9、A4 竖版等任意画布比例,自动适配布局。 |
3. 技术架构与创新点
- MMDiT 双路径融合
- 文本编码器 + 视觉编码器并行 → 跨注意力深度融合,解决传统扩散模型「文本-像素」对齐误差。
- 中文专用字形先验
- 预训练阶段引入 3.2 亿级中文字形-图像配对数据,解决表意文字细节丢失问题。
- 多任务联合训练范式
- 同时优化生成、编辑、理解三类损失:
- L_gen:扩散重建损失
- L_edit:编辑区域一致性损失
- L_under:视觉-语言对齐损失
- 显存友好推理
- 8-bit 量化下显存占用 ≤ 10 GB;支持 CPU offload 与 tiled VAE,消费级 6 GB 显卡即可运行。
4. Benchmark 与行业对比
| 基准 | 任务 | Qwen-Image | 次优模型 | 领先幅度 |
|---|---|---|---|---|
| LongText-Bench | 中文长文本渲染 | 87.3 CIDEr | 72.1 | +20.3 % |
| TextCraft | 英文段落布局 | 0.92 FID | 1.14 | –19 % |
| GenEval | 通用生成 | 0.63 overall | 0.58 | +8.6 % |
| GEdit | 指令式编辑 | 91.7 % 一致性 | 84.2 % | +8.9 % |
结论:Qwen-Image 在文本渲染赛道大幅领先,同时具备 SOTA 级通用生成与编辑能力。
5. 典型应用场景
- 营销内容
电商海报、社媒长图、Banner——一次性生成含促销信息、价格、合规声明的高分辨率物料。 - 出版与教材
自动生成带中英注释的插图、诗词配图,支持竖排古籍排版。 - 影视前期
快速出图故事板、字幕预览,可直接在图中修改对白。 - 本地化与全球化
同一张海报自动替换多语言文案,保持字体、版式、光影不变。 - 个性化创作
用户上传照片 → 文字祝福定制 → 风格化输出,适合 C 端贺卡、头像市场。
6. 快速上手
6.1 云端零代码体验
# 官方 Demo
https://huggingface.co/spaces/Qwen/qwen-image
6.2 本地 Python 调用
from diffusers import QwenImagePipeline
pipe = QwenImagePipeline.from_pretrained("Qwen/Qwen-Image", torch_dtype="auto")
pipe.enable_model_cpu_offload()
prompt = "一张4K电商海报,主体是一双白色运动鞋,鞋旁放着一张卡片,卡片上写“轻盈如云,限时¥299”,背景为淡蓝色渐变"
image = pipe(prompt, height=1024, width=1024, guidance_scale=7.5).images[0]
image.save("sneaker_poster.png")
6.3 编辑示例
# 将图中“限时¥299”改为“今日¥259”
image_edited = pipe.edit(
image="sneaker_poster.png",
instruction="把卡片上的价格从299改为259",
keep_style=True
)
7. 局限与未来路线
- 当前局限
- 超复杂书法连笔偶尔出现断笔;
- 极高分辨率(>4K)下小字体仍可能模糊。
- Roadmap
- 2025 Q4:发布 Qwen-Image-Pro(40B MoE),支持 8K 图像与视频帧级文字渲染;
- 2026 Q1:开放 插件式字体微调,用户 5 分钟即可训练自有品牌字体;
- 2026 Q2:推出 实时协作画布,多人同步在云端修改图文并即时生成。
8. 结语
Qwen-Image 用 20B 参数在文本渲染与图像编辑两大高价值场景实现了「单模型、多功能、开源商用」的突破,为内容创作者、设计师、开发者提供了无需妥协的新基座。随着社区生态的完善,它有望成为中文语境下 AIGC 的默认标准。
官方发布说明
简介
我们非常激动地发布了 Qwen-Image,这是 Qwen 系列中的一个图像生成基础模型,在 复杂文本渲染 和 精确图像编辑 方面取得了显著进展。实验表明,该模型在图像生成和编辑方面都具备强大的通用能力,尤其在文本渲染方面表现卓越,特别是对于中文。

新闻
- 2025.08.04: 我们发布了 Qwen-Image 的 技术报告 !
- 2025.08.04:我们发布了 Qwen-Image 权重!请查看 huggingface 和 Modelscope!
- 2025.08.04:我们发布了 Qwen-Image!请查看我们的博客了解更多详情!
快速入门
安装最新版本的 diffusers
pip install git+https://github.com/huggingface/diffusers
以下包含一个代码片段,展示了如何使用该模型根据文本提示生成图像:
from diffusers import DiffusionPipeline
import torch
model_name = "Qwen/Qwen-Image"
# Load the pipeline
if torch.cuda.is_available():
torch_dtype = torch.bfloat16
device = "cuda"
else:
torch_dtype = torch.float32
device = "cpu"
pipe = DiffusionPipeline.from_pretrained(model_name, torch_dtype=torch_dtype)
pipe = pipe.to(device)
positive_magic = {
"en": ", Ultra HD, 4K, cinematic composition.", # for english prompt
"zh": ", 超清,4K,电影级构图." # for chinese prompt
}
# Generate image
prompt = '''A coffee shop entrance features a chalkboard sign reading "Qwen Coffee 😊 $2 per cup," with a neon light beside it displaying "通义千问". Next to it hangs a poster showing a beautiful Chinese woman, and beneath the poster is written "π≈3.1415926-53589793-23846264-33832795-02384197". Ultra HD, 4K, cinematic composition'''
negative_prompt = " " # using an empty string if you do not have specific concept to remove
# Generate with different aspect ratios
aspect_ratios = {
"1:1": (1328, 1328),
"16:9": (1664, 928),
"9:16": (928, 1664),
"4:3": (1472, 1140),
"3:4": (1140, 1472),
"3:2": (1584, 1056),
"2:3": (1056, 1584),
}
width, height = aspect_ratios["16:9"]
image = pipe(
prompt=prompt + positive_magic["en"],
negative_prompt=negative_prompt,
width=width,
height=height,
num_inference_steps=50,
true_cfg_scale=4.0,
generator=torch.Generator(device="cuda").manual_seed(42)
).images[0]
image.save("example.png")
案例展示
它的一项突出能力是在不同图像中进行高保真度文本渲染。无论是英文等字母语言还是中文等表意文字,Qwen-Image 都能精确保留排版细节、布局连贯性和上下文和谐性,令人惊叹。文本不只是被叠加——它被无缝集成到视觉结构中。

除了文本,Qwen-Image 在通用图像生成方面表现出色,支持多种艺术风格。从照片级真实场景到印象派画作,从动漫美学到极简主义设计,该模型能灵活适应创意提示,成为艺术家、设计师和故事创作者的多功能工具。
在图像编辑方面,Qwen-Image 远不止简单的调整。它支持高级操作,如风格迁移、对象插入或删除、细节增强、图像内文本编辑,甚至人体姿态操控——所有这些操作都通过直观的输入和连贯的输出实现。这种级别的控制让专业级的编辑功能变得触手可及。
但 Qwen-Image 不仅能够创建或编辑,还能理解。它支持一系列图像理解任务,包括目标检测、语义分割、深度和边缘(Canny)估计、新视角合成以及超分辨率。这些功能虽然技术上是不同的,但都可以被视为基于深度视觉理解的智能图像编辑的专门形式。
这些特性共同使 Qwen-Image 不仅是一个生成精美图片的工具,更是一个用于智能视觉创作和操控的全面基础模型——在这里,语言、布局和图像交汇融合。
许可协议
Qwen-Image 采用 Apache 2.0 许可协议。
引用
如果您觉得我们的工作有用,我们诚挚地鼓励您引用我们的成果。
@misc{wu2025qwenimagetechnicalreport,
title={Qwen-Image Technical Report},
author={Chenfei Wu and Jiahao Li and Jingren Zhou and Junyang Lin and Kaiyuan Gao and Kun Yan and Sheng-ming Yin and Shuai Bai and Xiao Xu and Yilei Chen and Yuxiang Chen and Zecheng Tang and Zekai Zhang and Zhengyi Wang and An Yang and Bowen Yu and Chen Cheng and Dayiheng Liu and Deqing Li and Hang Zhang and Hao Meng and Hu Wei and Jingyuan Ni and Kai Chen and Kuan Cao and Liang Peng and Lin Qu and Minggang Wu and Peng Wang and Shuting Yu and Tingkun Wen and Wensen Feng and Xiaoxiao Xu and Yi Wang and Yichang Zhang and Yongqiang Zhu and Yujia Wu and Yuxuan Cai and Zenan Liu},
year={2025},
eprint={2508.02324},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2508.02324},
}
1. 模型定位
Qwen-Image 是通义千问系列首个 20 B 参数 的多模态扩散基础模型,专注解决两大行业痛点:
- 复杂文本(中英混排、超长段落、艺术字体)在图像中的高保真渲染;
- 高精度图像编辑(文字/物体/风格/姿态),且保持整体语义与视觉一致性。
2. 技术架构总览
| 组件 | 功能 | 关键创新 |
|---|---|---|
| Qwen2.5-VL 条件编码器 | 理解文本指令,输出语义特征 | 支持 128 K 上下文,原生双语对齐 |
| VAE Tokenizer | 图像 ↔ 潜空间 32× 压缩 | 2D-RoPE 位置编码,保持局部-全局结构 |
| MMDiT 主干 | 扩散去噪 + 多模态交叉注意力 | MS-RoPE 统一位置空间,文本沿对角线对齐像素 |
| 后处理流水线 | 超分、色彩映射、边缘锐化 | 自适应直方图均衡,印刷级 CMYK 转换 |
3. 主要功能
3.1 文本渲染(Text Rendering)
- 多行段落:自动换行、两端对齐、行距字距调节
- 字体风格:内置 40+ 中西文字体,支持手写体、书法、印刷体混合
- 微距文字:可在不足 3 % 画面区域内渲染 40 字以上段落,字符错误率 < 1.5 %
- 特殊符号:Emoji、数学公式、拼音注音、竖排古籍、弯曲路径文本
示例:输入「国潮茶饮海报,主标题‘第二杯半价’,副标题‘桂花乌龙清爽上市’,背景淡雅青绿山水」,模型 10 s 生成可印刷 300 dpi 成品。
3.2 图像编辑(Image Editing)
| 编辑类型 | 粒度 | 指令示例 | 一致性保证 |
|---|---|---|---|
| 文字编辑 | 字符级 | 将海报中的 “AI” 改为 “生成式 AI” | 字体、光影、透视不变 |
| 物体增删 | 实例级 | 在桌上增加一瓶茅台酒 | 阴影、反射自动补全 |
| 风格迁移 | 全局级 | 把照片改为浮世绘 | 主体 ID 与构图保持 |
| 姿态调整 | 骨骼级 | 人物从站立改为盘腿而坐 | 服饰纹理、背景景深一致 |
3.3 通用生成(Text-to-Image)
- 分辨率:512×512 → 8 K(7680×4320)逐级超分
- 风格:写实、动漫、赛博、水墨、像素、低多边形 … 共 120 + 预设
- 纵横比:1:1 / 3:2 / 16:9 / 21:9 / 自定义印刷裁切
4. 训练策略
| 阶段 | 数据规模 | 目标 | 技巧 |
|---|---|---|---|
| 图文预对齐 | 2 B 图文对(中/英 1:1) | 语义对齐 | 对比学习 + Caption 重标注 |
| 细节强化 | 50 M 含文本的海报、漫画、古籍 | 字体细节 | OCR 自监督 + 字形重建损失 |
| 人类偏好 | 100 K 人类排序对 | 美感 & 一致性 | RLHF + Diffusion-DPO |
5. 推理与部署
- 显存需求:FP16 推理 8 GB;INT4 量化 4 GB
- 延迟:RTX 4090 单张 1024×1024 生成 7.5 s;A100 8K 超分 18 s
- API 接口:兼容 OpenAI Images API,
n=1..8,支持response_format: b64_json / url - 本地部署:Docker 镜像 + WebUI / ComfyUI 节点,一键启动
6. 性能基准
| Benchmark | 指标 | Qwen-Image | 次优模型 | 提升 |
|---|---|---|---|---|
| ChineseWord↑ | 字符准确率 | 92.3 % | 70.1 % | +22.2 % |
| LongText-Bench↑ | 段落 F1 | 89.7 % | 62.4 % | +27.3 % |
| GenEval↑ | 综合得分 | 0.71 | 0.63 | +12.7 % |
| GEdit Consistency↑ | 编辑一致性 | 94.1 % | 83.5 % | +10.6 % |
7. 行业落地场景
- 电商:主图模板批量生成,SKU 文字自动替换
- 出版:古籍扫描再版,错字修复,排版重排
- 广告:户外大屏 8 K 视觉,动态文案秒级换图
- 教育:课件插画、古诗配图,笔迹风格可定制
- 游戏:立绘、道具、UI 批量出图,风格统一
8. 开源与生态
- 协议:Apache 2.0,可商用无版税
- 仓库:
- 权重:
huggingface.co/Qwen/Qwen-Image-20B - 代码:
github.com/QwenLM/Qwen-Image - 社区插件:Figma / Photoshop / Sketch / Blender 实时面板
- 微调框架:LoRA、DreamBooth、ControlNet 一键脚本,单卡 24 G 48 h 完成私有风格训练
9. 路线图
| 时间 | 里程碑 |
|---|---|
| 2025-Q4 | 30 B 版本,支持视频帧级文本 & 三维纹理生成 |
| 2026-Q1 | 端侧 INT4 1.8 B 蒸馏,手机 2 s 生成 512×512 |
| 2026-Q2 | 多页 PDF 直接生成漫画 / 幻灯片,矢量输出 |
使用、微调、贡献,欢迎访问 官方 chat 体验「图像生成」模式,或在社区提交 Issue & PR。
数据评估
本站非猪ai导航提供的qwen image都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由非猪ai导航实际控制,在2025年8月26日 上午10:23收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,非猪ai导航不承担任何责任。