Google Gemini 2.5 Flash Image，Nano Banana 横空出世：和 Photoshop 说再见

如何使用 Google Nano Banana？

Photo by Mike Dorner on Unsplash

Photo by Mike Dorner on Unsplash

谷歌悄无声息地发布了 Gemini 2.5 Flash Image，但这却是目前最强大、最可控的模型之一。它没有在架构论文上大做文章，也没有向你炫耀扩散数学公式。它只是把一件事做到了极致：你输入想要的内容，它就能生成不像迷幻艺术的正常图像。

这可能会在几天内让 Adobe Photoshop 变得过时。

大多数 AI 图像模型要么过于抽象，要么太过愚钝。Gemini 2.5 恰到好处地把握了平衡，当你要求生成"一位穿着红白几何折纸裙站在冰川旁的女性"时，它真的能给出符合预期的结果，而不是猜对 7 个词中的 3 个然后随便涂抹。

你可以在不同提示词中重复使用同一个角色。如果你要求把某人变成老师、雕塑家、护士和面包师，Gemini 能记住人脸特征。虽然不完美，但比之前的版本稳定得多。

说"去掉头盔"或"把她的衬衫改成法兰绒"或"把这只鸟改成带翡翠色调的红色"。这些编辑通常都能准确实现。背景替换、服装更换、姿势调整，它都能处理，而不需要像从头开始那样重新生成整个图像。

可以将最多 3 张图片融合成一个场景。这不仅仅是拼接，它会融合光照、纹理和物体比例。你可以放入两张随机照片并说"把游泳者放在莲花里"，它会尝试生成可信的效果，而不只是简单地剪切粘贴像素。

你可以创建 8 或 12 张图片序列来讲述故事。黑色电影侦探、超级英雄传奇、1960 年代工作室剧情，随你选择。图片中没有文字，纯粹是视觉叙事。这不是噱头，图片确实遵循叙事弧线并保持视觉身份。

室内设计、时尚、80 年代未来主义、麦片盒卡通——你可以融入其他年代或领域的美学，Gemini 会努力保留那种感觉。它不只是简单地套用滤镜，几何形状、纹理、材质也会相应改变。

这不像 stable diffusion 那样一个错误的词就会毁掉整个提示。你可以迭代优化：

谷歌还没有发布论文、权重或内部工作原理的详细信息。但它是多模态的，你可以上传图片并给出文字指令来说明要改变什么。它支持上下文承接。延迟很低，与 DALL·E 3 相比，大多数编辑操作响应更快。

他们在 LMArena 上用代号"nano-banana"进行了测试。名字虽然有点搞笑，但结果很严肃。在保真度和速度方面处于较高水平，尽管不是在每个基准测试中都是最佳的。谷歌在这里似乎更关注可控性和安全性，而不是追求极致的真实感。

Gemini 不会拼写。微小的面部细节经常变得模糊或奇怪。

角色漂移仍然会发生，尽管比 Imagen 或早期的 Gemini 版本要少。

有时它会过度平滑细节，特别是在粗糙或复古风格中。看起来像经过了磨皮处理。

所有图像都带有 SynthID 印记，这是一种嵌入像素中的隐形水印。所以是的，谷歌在追踪。它还会过滤有害提示并运行内容安全测试，特别是涉及儿童和真实感的内容。你无法完全破解它进入混乱模式。

你可以在 gemini.google.com 试用 Gemini 2.5 Flash Image 模型

Gemini 2.5 Flash Image 并不是要成为 MidJourney 或追赶开源模型。它瞄准的是那些需要精确控制、又承担不起每次模型忘记夹克颜色就要重画 12 帧的日常创作者。