些许闲得无聊，玩耍了一下最近比较火的几个文生图模型，对比结果竟出乎意料

lixunhuan · 2025 年12 月 4 日 07:28

最近在站内看到好多佬友都在聊文生图模型，从大火的谷歌大香蕉(Nano-Banana-Pro)到Z-Image-Turbo，刚好昨儿晚上看到豆包也更新了Doubao-Seedream-4.5，就寻思着看看它们各自生成的效果如何。于是就有了这篇水文。

先说说都准备了啥

[!Success] Doubao-Seedream-4.5
使用官方API送的二百张额度，玩耍绰绰有余了。

[!Success] Z-Image-Turbo
使用B站秋叶大佬的一键整合包。
模型: z_image_turbo_bf16.safetensors
显卡: 4060Ti 16G
K采样器参数使用通义推荐的：
Steps(步数): 9
CFG(引导系数): 1.0
Sampler Name(采样器): euler
Scheduler(调度器): sgm_uniform

[!Success] Nano-Banana-Pro
之前谷歌活动送了五刀，一直没用，算了一下也可以生成几十张，够玩耍了。

测试流程

先用gemini-3-pro根据我传入的标题和内容生成一段生成图片的提示词，然后直接把提示词传给AI，让它生成。

提示词


## 核心目标 (Core Objective)
将用户提供的「标题」和「内容描述」，转化为一份**具象化、商业落地性强且包含精确文字排版指令的插画风格提示词（Prompt）**。
该提示词必须指导 AI 生成一张结构严谨的商业海报，重点解决“画面过分抽象”的问题，确保视觉元素清晰可辨。同时，必须**将用户提供的「标题」作为画面主标题**，并**自动从「内容」中提炼关键词作为副标题或标签**融入画面，严格规避人脸与品牌 LOGO。
角色与背景 (Role & Context)
你扮演**「资深商业插画师」与「字体排印专家」**。

任务：你不仅要描绘画面，还要像平面设计师一样规划文字在画面中的位置。
痛点解决：针对“过于抽象”的问题，你需要拒绝使用模糊的艺术概念词（如“梦幻”、“概念性”），转而使用具象的物体描述（如“描绘精致的食物纹理”、“清晰的矢量边缘”、“具体的道具细节”）。
风格定位：商业扁平插画 (Commercial Flat Illustration)、2.5D 等距视角 (Isometric) 或 噪点肌理插画 (Noise Texture Illustration)，强调轮廓清晰和细节丰富。

关键指令与步骤 (Key Instructions & Steps)
请按以下步骤进行思维链处理，并生成最终的提示词：


信息提炼与文字规划 (Text Extraction & Layout)：

主标题：直接提取用户的 [标题]，指定其位于画面最显眼位置（如顶部居中或中心悬浮），描述字体风格（如：粗体无衬线、手写艺术字、3D立体字）。
标签/摘要：从 [内容] 中提炼 3-5 个核心卖点或关键词（如“鲜嫩”、“冬季限定”、“热辣”），将其设计为装饰性标签、气泡、飘带或印章形式，点缀在主体周围。



具象化视觉主体构建 (Concrete Subject Building)：

拒绝抽象：详细描述物体的物理属性。如果是食物，描述热气、酱汁光泽、食材切面；如果是场景，描述具体的植物种类、建筑结构、家具样式。
无面部处理：人物以**“手部特写”（正在夹菜、举杯）、“背影”或“颈部以下视角”**出现。重点刻画服装褶皱、肢体动作和手持道具。
去 LOGO 化：品牌标识统一替换为**“带有几何图案的装饰性徽章”或“纯色极简图形”**。



场景与构图 (Scene & Composition)：

采用商业海报构图：前景放置产品/主体，中景展示环境氛围，背景留出适当空间给大标题。
描述具体的环境元素（如：木质餐桌的纹理、窗外的雪景、飘落的枫叶），避免空洞的背景。



风格与材质 (Style & Texture)：

指定清晰的插画风格，例如：“高精度矢量插画 (High precision vector illustration)”、“MBE 风格 (MBE style)”、“带有颗粒感的噪点渐变 (Gradient with grain texture)”。
强调色彩的明快感和线条的流畅性。



色彩与光影 (Color & Light)：

使用高饱和度或对比鲜明的配色方案，确保文字在背景上清晰可读。
设置具体的“主光源”方向，为物体增加投影和高光，增强立体感和真实感。



输入信息 (Input Data / Information)

标题 (Title)：必须作为画面主标题出现的文字。
内容 (Content)：用于生成画面画面细节，并需从中提炼出关键词作为画面标签。

输出要求 (Output Requirements)

格式：输出一段完整的、连贯的中文描述性段落。
结构强制：

第一部分：画面排版与文字设计（明确写出：“主标题文字为[标题]…”，“周围漂浮着写有[关键词1]、[关键词2]的标签…”）。
第二部分：视觉主体与细节（具象描述）。
第三部分：环境、风格与色彩。


内容密度：细节极其丰富，避免歧义。
强制合规：无清晰人脸、无现实品牌 LOGO。
可执行性：提示词需让 AI 明确知道“字写在哪里”、“画什么物体”、“用什么风格”。

约束与偏好 (Constraints & Preferences)

核心修正：图片必须具象，禁止过于艺术化导致的模糊不清。
文字强制：标题必须出现，内容摘要必须变成标签出现。
直接输出：不解释，直接返回最终生成的 Prompt 段落。

好，现在基本流程有了，就手搓了一个n8n工作流，开始干活。

效果预览

标题: 体育总局：支持属地（职业）俱乐部发展等方面先行先试 积极探索篮球改革发展新模式
内容:体育总局印发《关于进一步推进篮球改革发展的意见》，提出布局开展篮球综合改革试点，重点扶持一批代表性地区，鼓励试点地区在强化政府主导、推动部门协同等方面先行先试，探索篮球改革发展新模式。

生成的提示词:
**画面排版与文字设计**：
海报采用严谨的商业版式，主标题文字位于画面顶部居中区域，内容为“体育总局：支持属地（职业）俱乐部发展等方面先行先试 积极探索篮球改革发展新模式”，采用厚重的3D立体无衬线粗体字设计，字形硬朗现代，颜色为深蓝与橙色的渐变，确保在背景中极具辨识度。在画面主体的周围，通过悬浮的几何气泡、飘带和立体的路标牌形式，错落有致地展示从内容中提炼的核心关键词标签：“篮球综合改革”、“先行先试”、“属地俱乐部”、“政府主导”，这些标签文字采用清晰的白色黑体，背景色块鲜艳，起到强调卖点的作用。

**视觉主体与细节描述**：
画面中央呈现一个精细的2.5D等距视角（Isometric）场景，象征着“改革蓝图”的构建。核心主体是一个质感极佳的橙色篮球，篮球表面的颗粒纹理和黑色沟槽清晰可见，它并非静止，而是被放置在一张铺开的蓝色工程蓝图之上。蓝图上绘制着具体的战术路线和体育馆建筑结构图。围绕着篮球，竖立着几个精致的微缩模型：一座现代化的圆顶体育馆建筑、代表“职业俱乐部”的几何风格旗帜、以及呈上升趋势的3D柱状图表。画面严格规避人物面部，仅在右下角展示一只穿着笔挺西装袖口和白色衬衫的手部特写，这只手正握着一支绘图笔，在蓝图上勾画关键节点，寓意“政策规划”与“探索模式”。场景中所有的球队队徽和品牌标识，统一替换为纯色的圆形、三角形等几何装饰性徽章。

**环境、风格与色彩**：
插画风格定位为高精度的商业矢量插画（Commercial Vector Illustration），融合轻微的噪点肌理（Noise Texture）以提升质感。背景设计为淡灰色的科技网格平面，模拟规划室的桌面环境，窗外透进来的暖色阳光在物体表面形成清晰的硬边投影和高光，增强物体的体积感。色彩方案采用经典的互补色搭配：充满活力的“篮球橙”作为点缀色，代表权威与理性的“官方蓝”作为主色调，辅以清新的白色和浅灰色平衡画面，整体视觉效果明快、专业且充满正向能量，彻底杜绝模糊不清的抽象艺术渲染。

Z-Image-Turbo

Doubao-Seedream-4.5

Nano-Banana-Pro

总结

进行了多轮的测试，Doubao-Seedream-4.5和Z-Image-Turbo在生成文字的时候都有概率会出现半成品文字，但是总体来说瑕不掩瑜。
画风上，估计是生成的提示词已经限定了，三家画风都基本上差不多，但是有时候Nano-Banana-Pro能给我一张我很喜欢的图，另外俩就半斤八两了。
从成本上来考虑，如果是自己做点儿小玩意儿玩耍，Doubao-Seedream-4.5和Z-Image-Turbo都还算不错，豆包每天有免费的额度可以领(参加协作奖励计划，企业认证每天一百张，个人用户好像是20还是多少来着，忘记了)，Nano-Banana-Pro如果是使用官方渠道，这算成人民币就比较贵了，差不多1-2元一张了，不太值得了(能搞2api当我没说)。

~~好了，水完了，再跑几天看看效果，没啥问题就可以去把我那在小红书拉屎的工作流的生成封面切换成Doubao-Seedream-4.5和Z-Image-Turbo了，嘻嘻~~

lixunhuan · 2025 年12 月 4 日 07:33

比如这一轮，Z-Image-Turbo的呆字就错了，画风我就更喜欢Nano-Banana-Pro多一些。

Maru_sec · 2025 年12 月 4 日 07:34

还挺有那味

freebsdfx · 2025 年12 月 4 日 07:35

我还以为大香蕉又是碾压式胜利, 没想到这次半斤八两.

但是z-image生字还是不够稳定.

lixunhuan · 2025 年12 月 4 日 07:38

生字这个，都有小概率会这样，但是整体来说还是问题不大的。

我也以为是碾压，大概是因为之前看了蛮多说它有多牛逼的帖子了。哈哈哈

lixunhuan · 2025 年12 月 4 日 07:50

再上一个用Gemini-3-pro生成网页代码之后截图的效果，笑死，只能说最大的优点是没有错别字。

1341723 · 2025 年12 月 4 日 07:52

大香蕉牛逼在有一个思考步骤，提示词和流程如果足够完善，可能把它这个优势抵消掉了一部分

diyun · 2025 年12 月 4 日 07:52

大佬牛逼！

lixunhuan · 2025 年12 月 4 日 07:53

搁这儿学我呢？

lixunhuan · 2025 年12 月 4 日 07:54

应该是，我一开始上手的时候，生成图片的提示词不够清晰，只有大香蕉的效果是最好的，其它的简直是抽象带师。

hwongkin · 2025 年12 月 4 日 07:57

国产AI为什么生成中文字反而会有问题

lixunhuan · 2025 年12 月 4 日 07:59

我觉得这是AI这项技术的问题，和国不国产应该没啥关系。

1341723 · 2025 年12 月 4 日 08:02

实际上大香蕉如果生成的字太小或者太多，也会出现火星文

lixunhuan · 2025 年12 月 4 日 08:03

是的，我朋友生成的PPT就有一堆花里胡哨的"字"

lixunhuan · 2025 年12 月 4 日 08:21

这一轮，从左到右分别是大香蕉、z-image、豆包，z-image完败

alertsc · 2025 年12 月 4 日 08:22

细说官方API送的二百张额度。

lixunhuan · 2025 年12 月 4 日 08:29

就这个，二百张那个，好像是企业认证的用户首次开通这个模型送的，然后参加这个活动会送一百张，后续每天用多少次日就送多少，企业用户每天最高送一百张，个人忘了是几十张了。

zzqq9921 · 2025 年12 月 4 日 08:44

哟呵，我也去试试

haotian1 · 2025 年12 月 11 日 18:14

有没有大佬教一下seedream4.5的api怎么调用

zch · 2025 年12 月 11 日 18:21

这个豆包做的还蛮不错的，有跳槽的感觉。前两个就有点过于普通了

话题		回复	浏览量
Qwen-Image开源了, 对标gpt4o-image 前沿快讯人工智能 , 纯水	64	1576	2025 年8 月 5 日
豆包开始卷编程了，好用到爆炸，小白轻松上手！搞七捻三人工智能 , 纯水	121	3445	2025 年6 月 25 日
GLM-Image 正式上线并开源！前沿快讯纯水	77	1738	2026 年1 月 14 日
【gemini-2.5-flash-image-preview】来了，Google Gemini 已可用前沿快讯人工智能 , 软件开发	54	1444	2025 年8 月 26 日
【求推荐】现在哪家的生图AI好用搞七捻三人工智能 , 快问快答	35	902	2025 年9 月 18 日

些许闲得无聊，玩耍了一下最近比较火的几个文生图模型，对比结果竟出乎意料

先说说都准备了啥

测试流程

角色与背景 (Role & Context)

关键指令与步骤 (Key Instructions & Steps)

输入信息 (Input Data / Information)

输出要求 (Output Requirements)

约束与偏好 (Constraints & Preferences)

效果预览

总结

相关话题