些许闲得无聊,玩耍了一下最近比较火的几个文生图模型,对比结果竟出乎意料

最近在站内看到好多佬友都在聊文生图模型,从大火的谷歌大香蕉(Nano-Banana-Pro)到Z-Image-Turbo,刚好昨儿晚上看到豆包也更新了Doubao-Seedream-4.5,就寻思着看看它们各自生成的效果如何。于是就有了这篇水文。

先说说都准备了啥

[!Success] Doubao-Seedream-4.5
使用官方API送的二百张额度,玩耍绰绰有余了。

[!Success] Z-Image-Turbo
使用B站秋叶大佬的一键整合包。
模型: z_image_turbo_bf16.safetensors
显卡: 4060Ti 16G
K采样器参数使用通义推荐的:
Steps(步数): 9
CFG(引导系数): 1.0
Sampler Name(采样器): euler
Scheduler(调度器): sgm_uniform

[!Success] Nano-Banana-Pro
之前谷歌活动送了五刀,一直没用,算了一下也可以生成几十张,够玩耍了。

测试流程

先用gemini-3-pro根据我传入的标题和内容生成一段生成图片的提示词,然后直接把提示词传给AI,让它生成。

提示词

## 核心目标 (Core Objective)
将用户提供的「标题」和「内容描述」,转化为一份**具象化、商业落地性强且包含精确文字排版指令的插画风格提示词(Prompt)**。
该提示词必须指导 AI 生成一张结构严谨的商业海报,重点解决“画面过分抽象”的问题,确保视觉元素清晰可辨。同时,必须**将用户提供的「标题」作为画面主标题**,并**自动从「内容」中提炼关键词作为副标题或标签**融入画面,严格规避人脸与品牌 LOGO。

角色与背景 (Role & Context)

你扮演**「资深商业插画师」与「字体排印专家」**。

  • 任务:你不仅要描绘画面,还要像平面设计师一样规划文字在画面中的位置。
  • 痛点解决:针对“过于抽象”的问题,你需要拒绝使用模糊的艺术概念词(如“梦幻”、“概念性”),转而使用具象的物体描述(如“描绘精致的食物纹理”、“清晰的矢量边缘”、“具体的道具细节”)。
  • 风格定位商业扁平插画 (Commercial Flat Illustration)2.5D 等距视角 (Isometric)噪点肌理插画 (Noise Texture Illustration),强调轮廓清晰和细节丰富。

关键指令与步骤 (Key Instructions & Steps)

请按以下步骤进行思维链处理,并生成最终的提示词:

  1. 信息提炼与文字规划 (Text Extraction & Layout)

    • 主标题:直接提取用户的 [标题],指定其位于画面最显眼位置(如顶部居中或中心悬浮),描述字体风格(如:粗体无衬线、手写艺术字、3D立体字)。
    • 标签/摘要:从 [内容] 中提炼 3-5 个核心卖点或关键词(如“鲜嫩”、“冬季限定”、“热辣”),将其设计为装饰性标签、气泡、飘带或印章形式,点缀在主体周围。
  2. 具象化视觉主体构建 (Concrete Subject Building)

    • 拒绝抽象:详细描述物体的物理属性。如果是食物,描述热气、酱汁光泽、食材切面;如果是场景,描述具体的植物种类、建筑结构、家具样式。
    • 无面部处理:人物以**“手部特写”(正在夹菜、举杯)、“背影”“颈部以下视角”**出现。重点刻画服装褶皱、肢体动作和手持道具。
    • 去 LOGO 化:品牌标识统一替换为**“带有几何图案的装饰性徽章”“纯色极简图形”**。
  3. 场景与构图 (Scene & Composition)

    • 采用商业海报构图:前景放置产品/主体,中景展示环境氛围,背景留出适当空间给大标题。
    • 描述具体的环境元素(如:木质餐桌的纹理、窗外的雪景、飘落的枫叶),避免空洞的背景。
  4. 风格与材质 (Style & Texture)

    • 指定清晰的插画风格,例如:“高精度矢量插画 (High precision vector illustration)”、“MBE 风格 (MBE style)”、“带有颗粒感的噪点渐变 (Gradient with grain texture)”。
    • 强调色彩的明快感和线条的流畅性
  5. 色彩与光影 (Color & Light)

    • 使用高饱和度或对比鲜明的配色方案,确保文字在背景上清晰可读。
    • 设置具体的“主光源”方向,为物体增加投影和高光,增强立体感和真实感。

输入信息 (Input Data / Information)

  • 标题 (Title):必须作为画面主标题出现的文字。
  • 内容 (Content):用于生成画面画面细节,并需从中提炼出关键词作为画面标签。

输出要求 (Output Requirements)

  1. 格式:输出一段完整的、连贯的中文描述性段落
  2. 结构强制
    • 第一部分:画面排版与文字设计(明确写出:“主标题文字为[标题]…”,“周围漂浮着写有[关键词1]、[关键词2]的标签…”)。
    • 第二部分:视觉主体与细节(具象描述)。
    • 第三部分:环境、风格与色彩。
  3. 内容密度:细节极其丰富,避免歧义。
  4. 强制合规无清晰人脸、无现实品牌 LOGO
  5. 可执行性:提示词需让 AI 明确知道“字写在哪里”、“画什么物体”、“用什么风格”。

约束与偏好 (Constraints & Preferences)

  • 核心修正:图片必须具象,禁止过于艺术化导致的模糊不清。
  • 文字强制标题必须出现内容摘要必须变成标签出现
  • 直接输出:不解释,直接返回最终生成的 Prompt 段落。
好,现在基本流程有了,就手搓了一个n8n工作流,开始干活。

效果预览

标题: 体育总局:支持属地(职业)俱乐部发展等方面先行先试 积极探索篮球改革发展新模式
内容:体育总局印发《关于进一步推进篮球改革发展的意见》,提出布局开展篮球综合改革试点,重点扶持一批代表性地区,鼓励试点地区在强化政府主导、推动部门协同等方面先行先试,探索篮球改革发展新模式。

生成的提示词:
**画面排版与文字设计**:
海报采用严谨的商业版式,主标题文字位于画面顶部居中区域,内容为“体育总局:支持属地(职业)俱乐部发展等方面先行先试 积极探索篮球改革发展新模式”,采用厚重的3D立体无衬线粗体字设计,字形硬朗现代,颜色为深蓝与橙色的渐变,确保在背景中极具辨识度。在画面主体的周围,通过悬浮的几何气泡、飘带和立体的路标牌形式,错落有致地展示从内容中提炼的核心关键词标签:“篮球综合改革”、“先行先试”、“属地俱乐部”、“政府主导”,这些标签文字采用清晰的白色黑体,背景色块鲜艳,起到强调卖点的作用。

**视觉主体与细节描述**:
画面中央呈现一个精细的2.5D等距视角(Isometric)场景,象征着“改革蓝图”的构建。核心主体是一个质感极佳的橙色篮球,篮球表面的颗粒纹理和黑色沟槽清晰可见,它并非静止,而是被放置在一张铺开的蓝色工程蓝图之上。蓝图上绘制着具体的战术路线和体育馆建筑结构图。围绕着篮球,竖立着几个精致的微缩模型:一座现代化的圆顶体育馆建筑、代表“职业俱乐部”的几何风格旗帜、以及呈上升趋势的3D柱状图表。画面严格规避人物面部,仅在右下角展示一只穿着笔挺西装袖口和白色衬衫的手部特写,这只手正握着一支绘图笔,在蓝图上勾画关键节点,寓意“政策规划”与“探索模式”。场景中所有的球队队徽和品牌标识,统一替换为纯色的圆形、三角形等几何装饰性徽章。

**环境、风格与色彩**:
插画风格定位为高精度的商业矢量插画(Commercial Vector Illustration),融合轻微的噪点肌理(Noise Texture)以提升质感。背景设计为淡灰色的科技网格平面,模拟规划室的桌面环境,窗外透进来的暖色阳光在物体表面形成清晰的硬边投影和高光,增强物体的体积感。色彩方案采用经典的互补色搭配:充满活力的“篮球橙”作为点缀色,代表权威与理性的“官方蓝”作为主色调,辅以清新的白色和浅灰色平衡画面,整体视觉效果明快、专业且充满正向能量,彻底杜绝模糊不清的抽象艺术渲染。

Z-Image-Turbo

Doubao-Seedream-4.5

Nano-Banana-Pro

总结

进行了多轮的测试,Doubao-Seedream-4.5Z-Image-Turbo在生成文字的时候都有概率会出现半成品文字,但是总体来说瑕不掩瑜。
画风上,估计是生成的提示词已经限定了,三家画风都基本上差不多,但是有时候Nano-Banana-Pro能给我一张我很喜欢的图,另外俩就半斤八两了。
从成本上来考虑,如果是自己做点儿小玩意儿玩耍,Doubao-Seedream-4.5Z-Image-Turbo都还算不错,豆包每天有免费的额度可以领(参加协作奖励计划,企业认证每天一百张,个人用户好像是20还是多少来着,忘记了),Nano-Banana-Pro如果是使用官方渠道,这算成人民币就比较贵了,差不多1-2元一张了,不太值得了(能搞2api当我没说)。

好了,水完了,再跑几天看看效果,没啥问题就可以去把我那在小红书拉屎的工作流的生成封面切换成Doubao-Seedream-4.5Z-Image-Turbo了,嘻嘻

5 个赞


比如这一轮,Z-Image-Turbo字就错了,画风我就更喜欢Nano-Banana-Pro多一些。

1 个赞

还挺有那味

1 个赞

我还以为大香蕉又是碾压式胜利, 没想到这次半斤八两.

但是z-image生字还是不够稳定.

生字这个,都有小概率会这样,但是整体来说还是问题不大的。

我也以为是碾压,大概是因为之前看了蛮多说它有多牛逼的帖子了。哈哈哈

再上一个用Gemini-3-pro生成网页代码之后截图的效果,笑死,只能说最大的优点是没有错别字。

大香蕉牛逼在有一个思考步骤,提示词和流程如果足够完善,可能把它这个优势抵消掉了一部分

大佬牛逼!

搁这儿学我呢?

应该是,我一开始上手的时候,生成图片的提示词不够清晰,只有大香蕉的效果是最好的,其它的简直是抽象带师。

国产AI为什么生成中文字反而会有问题

我觉得这是AI这项技术的问题,和国不国产应该没啥关系。

1 个赞

实际上大香蕉如果生成的字太小或者太多,也会出现火星文

是的,我朋友生成的PPT就有一堆花里胡哨的"字"

1 个赞

这一轮,从左到右分别是大香蕉、z-image、豆包,z-image完败

细说官方API送的二百张额度。

就这个,二百张那个,好像是企业认证的用户首次开通这个模型送的,然后参加这个活动会送一百张,后续每天用多少次日就送多少,企业用户每天最高送一百张,个人忘了是几十张了。

1 个赞

哟呵,我也去试试

有没有大佬教一下seedream4.5的api怎么调用

这个豆包做的还蛮不错的,有跳槽的感觉。前两个就有点过于普通了