Hello, Gemini 2.0 Flash Experimental：只需要动动嘴，就能轻松、精确地产出/修改图像

Cook_Sleep · 2025 年3 月 14 日 14:56

前言

2025 年 3 月 12 日，Google 更新了 Gemini 2.0 Flash Experimental，率先上线了 OpenAI 曾在 Hello ,GPT-4o 中展示，但至今（2025 年 3 月 14 日）仍未向用户或开发者推出的 “原生图像输出” 能力。

你可以访问 Google AI Studio，并选择 Gemini 2.0 Flash Experimental 模型的 Images and text 输出格式立即进行体验。

开启谷歌云盘后，可以选择保存对话记录。如需默认保存对话，请前往左下角的设置面板修改保存设置。

让我们对 Gemini 2.0 Flash Experimental 使用 GPT-4o Demo 中的问题和我自己设计的一些问题进行测试，看看它在原生图像输出方面的表现如何吧！

GPT-4o Demo 测试

Poetic typography with iterative editing | 诗意排版与反复编辑

Gemini 2.0 Flash Experimental

Gemini 2.0 Flash Experimental1896×1617 106 KB

Generated Image765×1024 200 KB

Generated Image763×1024 190 KB
GPT-4o Demo

GPT-4o Demo953×3388 259 KB

这一问题非常考验模型在需要生成大量文本时的表现，Gemini 2.0 Flash Experimental 的表现看起来还不错！

不过，如果我们直接使用 OpenAI 提供的输入示例，它似乎无论如何都无法输出最开头那个 Words…… 嗯…… 很怪……

Poster creation for the movie ‘Detective’ | 为电影《侦探》制作海报

Gemini 2.0 Flash Experimental

Gemini 2.0 Flash Experimental1900×1773 106 KB

Generated Image720×1024 179 KB
GPT-4o Demo

GPT-4o Demo927×3514 261 KB

这一问题更加考验模型对提示词的理解能力，并且需要模型具备对图像特征的提取、混合能力。Gemini 2.0 Flash Experimental 的表现堪称完美，GPT-4o Demo 中，GPT-4o 花了两轮、在更清晰的指令下，才输出了质量一般的图像。

Brand placement - logo on coaster | 品牌植入 —— 在杯垫上放置商标

Gemini 2.0 Flash Experimental

Gemini 2.0 Flash Experimental1888×1828 75.3 KB

Generated Image1024×1024 80.8 KB
GPT-4o Demo

GPT-4o Demo989×1222 140 KB

这个问题算是上个问题的升级版！模型需要提取更加细微的特征，并将其拆分开来。Gemini 2.0 Flash Experimental 与 GPT-4o Demo 中的 GPT-4o 的表现难分伯仲，双方都有不完美的地方：

Gemini 2.0 Flash Experimental：似乎没能很好地体现出旧版 OpenAI LOGO 内部的线条粗细变化，并且似乎更改了杯垫材质
GPT-4o Demo 中的 GPT-4o：OpenAI 字体还原度一般

个人问题测试

接下来的问题就是我自己试着提出的了，由于我没有权限使用具备原生图像输出能力的 GPT-4o，这里仅放置 Gemini 2.0 Flash Experimental 的输出结果，我们稍后详谈模型局限性。

生成老旧 CRT 显示器上的《Still Alive》歌词

我的评价是：

It’s hard to overstate
my satisfaction.

真是太酷了！

多轮编辑真实图片

这是我觉得最酷的例子！充分展现出了模型对图像的编辑能力。

不过它并不能每次都稳定复现，有时候运气不好需要多试几次，当然，我猜这也跟 Gemini 2.0 Flash Experimental 只是一个轻量级模型有关。

为快递箱添加亚马逊 LOGO

这张图的原图是我使用 NoobAI-XL (NAI-XL) - Epsilon-pred 0.5-Version 生成的，快递员的快递箱怎么能缺少 LOGO 呢？

这次，让 Gemini 帮我们加上吧！

受 NoobAI-XL 的许可证限制，您不应该将此图片用作商业用途。

看起来专业多了！

为图像添加背景艺术字

这张图的原图是我使用 NoobAI-XL (NAI-XL) - V-Pred-0.65S-Version 生成的，它其实本来已经被我使用 Photoshop 添加了由真正的字体显示的背景，但我想测试一下 Gemini 在这方面的能力。

受 NoobAI-XL 的许可证限制，您不应该将此图片用作商业用途。

这样的死神狼看起来帅气多了！

来点儿抽象……

额…… 大家自行欣赏吧）

除此之外，它还能……

输出绘画作品的“线稿”（效果确实还不错！）
创建连环画且保持角色特征
……

模型局限性

Gemini 2.0 Flash Experimental 作为一个轻量级模型，且还是预览版，仍有很多局限性，比如：

并非每次都能生成完美的图像
图像分辨率看起来不是非常高（或许正式版会添加可调整的参数支持）
修改图片时，并不是 Stable Diffusion 那种局部重绘，而是整张图片都像是被使用低重绘幅度参数重新生成了一遍，部分细节会被改变
对复杂提示词的理解能力不是很强，有时候，你必须将其分割为多个步骤，模型才能正确输出
如果需要在图像中生成文本，只有将文本内容直接发给它 / 让它自己以文字形式输出后，再进行图像生成，效果才会比较好（前文 生成老旧 CRT 显示器上的《Still Alive》歌词 部分已经展示）
只有使用英文提示词，才会获得最佳质量的输出
- 它经常把中文提示词部分也放进图像中，但英文基本不会
  
  中文提示词 | 690x2731930×766 124 KB
  
  英文提示词 | 690x2751930×771 131 KB
- 对于英文之外的文本，生成准确率不是非常高，但对比其他模型，那还是挺高的……
它不擅长加滤镜

我…… 我是死了吗…… 补药啊！1901×1111 54.7 KB
拒绝生成 NSFW 内容，即便被破限，依旧有外部审查系统阻止内容显示
~~唉，Google。~~

总结

很酷，非常酷！

但也有一定的局限性，期待正式版以及 Gemini 2.0 Pro 这个旗舰模型原生图像输出的表现！

也欢迎大家在评论区分享自己的例子！

你可以访问 Google AI Studio，并选择 Gemini 2.0 Flash Experimental 模型的 Images and text 输出格式立即进行体验。

开启谷歌云盘后，可以选择保存对话记录。如需默认保存对话，请前往左下角的设置面板修改保存设置。

fancxzi · 2025 年3 月 14 日 15:04

感谢分享，Mark了

jingjing123 · 2025 年3 月 14 日 15:10

谢谢分享，很有用

Linxiaobai · 2025 年3 月 14 日 15:12

感谢分享！

JasonWenTF · 2025 年3 月 14 日 15:36

不是轻量级的模型也是会抽卡的，只不过对于你的意图可能理解得更好

Cook_Sleep · 2025 年3 月 14 日 15:37

只是有的问题我感觉它确实受到模型大小限制了）需要描述和解释得更加清楚才能输出正确的图像

LingBu · 2025 年3 月 14 日 15:39

看着不错

fengying · 2025 年3 月 14 日 15:57

谢谢分享

Rickywong · 2025 年3 月 14 日 22:52

试了好几次，都不生成图

flyfre · 2025 年3 月 15 日 00:21

为啥你这里表现好，我这里表现就很拉胯

Lush · 2025 年3 月 15 日 00:24

我这也是拉胯的很

bopomofo · 2025 年3 月 15 日 00:40

感谢分享！

Cook_Sleep · 2025 年3 月 15 日 00:54

谷歌逆天屏蔽器导致的

Cook_Sleep · 2025 年3 月 15 日 00:55

尝试使用更加精确的提示词，或者使用英文提示词。这个模型不是旗舰模型，考虑到Gemini 2.0 Flash本来性能就一般，所以这个表现算是正常吧……

Joelori · 2025 年3 月 15 日 02:20

赞大佬啊

handsome · 2025 年3 月 15 日 04:06

狼狼更新了耶！

Rickywong · 2025 年3 月 15 日 05:05

那怎么可以跳过这个屏蔽器

hiagfh · 2025 年3 月 15 日 05:08

我站大佬已接入owu

yhlinny · 2025 年3 月 15 日 05:19

谢谢佬友

Cook_Sleep · 2025 年3 月 15 日 07:10

没有办法
~~收购Google DeepMind，然后把过滤器删了~~

话题		回复	浏览量
【gemini-2.5-flash-image-preview】来了，Google Gemini 已可用前沿快讯人工智能 , 软件开发	54	1444	2025 年8 月 26 日
实测 Gemini 火热的 p 图能力🔥 前沿快讯纯水	26	1282	2025 年4 月 14 日
群友分享的使用 Gemini 2.0 Flash exp 来炒个菜开发调优人工智能 , 纯水	54	2098	2025 年4 月 23 日
Gemini-exp-1114的视觉能力得到巨大提升资源荟萃 Gemini , 人工智能	26	1695	2024 年11 月 29 日
谷歌AI Studio 中Gemini 2.0 Flash Experimental 进行图片创作搞七捻三 Gemini , 人工智能	58	1339	2025 年4 月 17 日