Hello, Gemini 2.0 Flash Experimental:只需要动动嘴,就能轻松、精确地产出/修改图像

前言

2025 年 3 月 12 日,Google 更新了 Gemini 2.0 Flash Experimental,率先上线了 OpenAI 曾在 Hello ,GPT-4o 中展示,但至今(2025 年 3 月 14 日)仍未向用户或开发者推出的 “原生图像输出” 能力。

你可以访问 Google AI Studio,并选择 Gemini 2.0 Flash Experimental 模型的 Images and text 输出格式立即进行体验。

开启谷歌云盘后,可以选择保存对话记录。如需默认保存对话,请前往左下角的设置面板修改保存设置。

让我们对 Gemini 2.0 Flash Experimental 使用 GPT-4o Demo 中的问题和我自己设计的一些问题进行测试,看看它在原生图像输出方面的表现如何吧!


GPT-4o Demo 测试

Poetic typography with iterative editing | 诗意排版与反复编辑

这一问题非常考验模型在需要生成大量文本时的表现,Gemini 2.0 Flash Experimental 的表现看起来还不错!

不过,如果我们直接使用 OpenAI 提供的输入示例,它似乎无论如何都无法输出最开头那个 Words…… 嗯…… 很怪……

Poster creation for the movie ‘Detective’ | 为电影《侦探》制作海报

这一问题更加考验模型对提示词的理解能力,并且需要模型具备对图像特征的提取、混合能力。Gemini 2.0 Flash Experimental 的表现堪称完美,GPT-4o Demo 中,GPT-4o 花了两轮、在更清晰的指令下,才输出了质量一般的图像。

Brand placement - logo on coaster | 品牌植入 —— 在杯垫上放置商标

这个问题算是上个问题的升级版!模型需要提取更加细微的特征,并将其拆分开来。Gemini 2.0 Flash Experimental 与 GPT-4o Demo 中的 GPT-4o 的表现难分伯仲,双方都有不完美的地方:

  • Gemini 2.0 Flash Experimental:似乎没能很好地体现出旧版 OpenAI LOGO 内部的线条粗细变化,并且似乎更改了杯垫材质
  • GPT-4o Demo 中的 GPT-4o:OpenAI 字体还原度一般

个人问题测试

接下来的问题就是我自己试着提出的了,由于我没有权限使用具备原生图像输出能力的 GPT-4o,这里仅放置 Gemini 2.0 Flash Experimental 的输出结果,我们稍后详谈模型局限性。

生成老旧 CRT 显示器上的《Still Alive》歌词


我的评价是:

It’s hard to overstate
my satisfaction.

真是太酷了!

多轮编辑真实图片



这是我觉得最酷的例子!充分展现出了模型对图像的编辑能力。

不过它并不能每次都稳定复现,有时候运气不好需要多试几次,当然,我猜这也跟 Gemini 2.0 Flash Experimental 只是一个轻量级模型有关。

为快递箱添加亚马逊 LOGO

这张图的原图是我使用 NoobAI-XL (NAI-XL) - Epsilon-pred 0.5-Version 生成的,快递员的快递箱怎么能缺少 LOGO 呢?

这次,让 Gemini 帮我们加上吧!


受 NoobAI-XL 的许可证限制,您不应该将此图片用作商业用途。

看起来专业多了!

为图像添加背景艺术字

这张图的原图是我使用 NoobAI-XL (NAI-XL) - V-Pred-0.65S-Version 生成的,它其实本来已经被我使用 Photoshop 添加了由真正的字体显示的背景,但我想测试一下 Gemini 在这方面的能力。



受 NoobAI-XL 的许可证限制,您不应该将此图片用作商业用途。

这样的死神狼看起来帅气多了!

来点儿抽象……


额…… 大家自行欣赏吧)

除此之外,它还能……

  • 输出绘画作品的“线稿”(效果确实还不错!)
  • 创建连环画且保持角色特征
  • ……

模型局限性

Gemini 2.0 Flash Experimental 作为一个轻量级模型,且还是预览版,仍有很多局限性,比如:

  • 并非每次都能生成完美的图像

  • 图像分辨率看起来不是非常高(或许正式版会添加可调整的参数支持)

  • 修改图片时,并不是 Stable Diffusion 那种局部重绘,而是整张图片都像是被使用低重绘幅度参数重新生成了一遍,部分细节会被改变

  • 对复杂提示词的理解能力不是很强,有时候,你必须将其分割为多个步骤,模型才能正确输出

  • 如果需要在图像中生成文本,只有将文本内容直接发给它 / 让它自己以文字形式输出后,再进行图像生成,效果才会比较好(前文 生成老旧 CRT 显示器上的《Still Alive》歌词 部分已经展示)

  • 只有使用英文提示词,才会获得最佳质量的输出

  • 它不擅长加滤镜

  • 拒绝生成 NSFW 内容,即便被破限,依旧有外部审查系统阻止内容显示
    唉,Google。


总结

很酷,非常酷!

但也有一定的局限性,期待正式版以及 Gemini 2.0 Pro 这个旗舰模型原生图像输出的表现!

也欢迎大家在评论区分享自己的例子!

你可以访问 Google AI Studio,并选择 Gemini 2.0 Flash Experimental 模型的 Images and text 输出格式立即进行体验。

开启谷歌云盘后,可以选择保存对话记录。如需默认保存对话,请前往左下角的设置面板修改保存设置。

71 个赞

感谢分享,Mark了

1 个赞

谢谢分享,很有用

1 个赞

感谢分享!

1 个赞

不是轻量级的模型也是会抽卡的,只不过对于你的意图可能理解得更好

4 个赞

只是有的问题我感觉它确实受到模型大小限制了)需要描述和解释得更加清楚才能输出正确的图像

1 个赞

看着不错 :tieba_087:

1 个赞

谢谢分享

1 个赞


试了好几次,都不生成图

1 个赞

为啥你这里表现好,我这里表现就很拉胯

我这也是拉胯的很 :tieba_087:

感谢分享!

谷歌逆天屏蔽器导致的

尝试使用更加精确的提示词,或者使用英文提示词。这个模型不是旗舰模型,考虑到Gemini 2.0 Flash本来性能就一般,所以这个表现算是正常吧……

赞大佬啊

1 个赞

狼狼更新了耶!

2 个赞

那怎么可以跳过这个屏蔽器

我站大佬已接入owu

1 个赞

谢谢佬友

1 个赞
  1. 没有办法
  2. 收购Google DeepMind,然后把过滤器删了