前言
2025 年 3 月 12 日,Google 更新了 Gemini 2.0 Flash Experimental,率先上线了 OpenAI 曾在 Hello ,GPT-4o 中展示,但至今(2025 年 3 月 14 日)仍未向用户或开发者推出的 “原生图像输出” 能力。
你可以访问 Google AI Studio,并选择 Gemini 2.0 Flash Experimental 模型的 Images and text 输出格式立即进行体验。
开启谷歌云盘后,可以选择保存对话记录。如需默认保存对话,请前往左下角的设置面板修改保存设置。
让我们对 Gemini 2.0 Flash Experimental 使用 GPT-4o Demo 中的问题和我自己设计的一些问题进行测试,看看它在原生图像输出方面的表现如何吧!
GPT-4o Demo 测试
Poetic typography with iterative editing | 诗意排版与反复编辑
-
Gemini 2.0 Flash Experimental
-
GPT-4o Demo
这一问题非常考验模型在需要生成大量文本时的表现,Gemini 2.0 Flash Experimental 的表现看起来还不错!
不过,如果我们直接使用 OpenAI 提供的输入示例,它似乎无论如何都无法输出最开头那个 Words…… 嗯…… 很怪……
Poster creation for the movie ‘Detective’ | 为电影《侦探》制作海报
-
Gemini 2.0 Flash Experimental
-
GPT-4o Demo
这一问题更加考验模型对提示词的理解能力,并且需要模型具备对图像特征的提取、混合能力。Gemini 2.0 Flash Experimental 的表现堪称完美,GPT-4o Demo 中,GPT-4o 花了两轮、在更清晰的指令下,才输出了质量一般的图像。
Brand placement - logo on coaster | 品牌植入 —— 在杯垫上放置商标
-
Gemini 2.0 Flash Experimental
-
GPT-4o Demo
这个问题算是上个问题的升级版!模型需要提取更加细微的特征,并将其拆分开来。Gemini 2.0 Flash Experimental 与 GPT-4o Demo 中的 GPT-4o 的表现难分伯仲,双方都有不完美的地方:
- Gemini 2.0 Flash Experimental:似乎没能很好地体现出旧版 OpenAI LOGO 内部的线条粗细变化,并且似乎更改了杯垫材质
- GPT-4o Demo 中的 GPT-4o:
OpenAI字体还原度一般
个人问题测试
接下来的问题就是我自己试着提出的了,由于我没有权限使用具备原生图像输出能力的 GPT-4o,这里仅放置 Gemini 2.0 Flash Experimental 的输出结果,我们稍后详谈模型局限性。
生成老旧 CRT 显示器上的《Still Alive》歌词
我的评价是:
It’s hard to overstate
my satisfaction.
真是太酷了!
多轮编辑真实图片
这是我觉得最酷的例子!充分展现出了模型对图像的编辑能力。
不过它并不能每次都稳定复现,有时候运气不好需要多试几次,当然,我猜这也跟 Gemini 2.0 Flash Experimental 只是一个轻量级模型有关。
为快递箱添加亚马逊 LOGO
这张图的原图是我使用 NoobAI-XL (NAI-XL) - Epsilon-pred 0.5-Version 生成的,快递员的快递箱怎么能缺少 LOGO 呢?
这次,让 Gemini 帮我们加上吧!
受 NoobAI-XL 的许可证限制,您不应该将此图片用作商业用途。
看起来专业多了!
为图像添加背景艺术字
这张图的原图是我使用 NoobAI-XL (NAI-XL) - V-Pred-0.65S-Version 生成的,它其实本来已经被我使用 Photoshop 添加了由真正的字体显示的背景,但我想测试一下 Gemini 在这方面的能力。
受 NoobAI-XL 的许可证限制,您不应该将此图片用作商业用途。
这样的死神狼看起来帅气多了!
来点儿抽象……
额…… 大家自行欣赏吧)
除此之外,它还能……
- 输出绘画作品的“线稿”(效果确实还不错!)
- 创建连环画且保持角色特征
- ……
模型局限性
Gemini 2.0 Flash Experimental 作为一个轻量级模型,且还是预览版,仍有很多局限性,比如:
-
并非每次都能生成完美的图像
-
图像分辨率看起来不是非常高(或许正式版会添加可调整的参数支持)
-
修改图片时,并不是 Stable Diffusion 那种局部重绘,而是整张图片都像是被使用低重绘幅度参数重新生成了一遍,部分细节会被改变
-
对复杂提示词的理解能力不是很强,有时候,你必须将其分割为多个步骤,模型才能正确输出
-
如果需要在图像中生成文本,只有将文本内容直接发给它 / 让它自己以文字形式输出后,再进行图像生成,效果才会比较好(前文
生成老旧 CRT 显示器上的《Still Alive》歌词部分已经展示) -
只有使用英文提示词,才会获得最佳质量的输出
-
它经常把中文提示词部分也放进图像中,但英文基本不会
-
对于英文之外的文本,生成准确率不是非常高,但对比其他模型,那还是挺高的……
-
-
它不擅长加滤镜
-
拒绝生成 NSFW 内容,即便被破限,依旧有外部审查系统阻止内容显示
唉,Google。
总结
很酷,非常酷!
但也有一定的局限性,期待正式版以及 Gemini 2.0 Pro 这个旗舰模型原生图像输出的表现!
也欢迎大家在评论区分享自己的例子!
你可以访问 Google AI Studio,并选择
Gemini 2.0 Flash Experimental模型的Images and text输出格式立即进行体验。
开启谷歌云盘后,可以选择保存对话记录。如需默认保存对话,请前往左下角的设置面板修改保存设置。



























