Google Gemini 2.5 Flash Image,Nano Banana 横空出世:和 Photoshop 说再见
如何使用 Google Nano Banana?
谷歌悄无声息地发布了 Gemini 2.5 Flash Image,但这却是目前最强大、最可控的模型之一。它没有在架构论文上大做文章,也没有向你炫耀扩散数学公式。它只是把一件事做到了极致:你输入想要的内容,它就能生成不像迷幻艺术的正常图像。
这可能会在几天内让 Adobe Photoshop 变得过时。
大多数 AI 图像模型要么过于抽象,要么太过愚钝。Gemini 2.5 恰到好处地把握了平衡,当你要求生成"一位穿着红白几何折纸裙站在冰川旁的女性"时,它真的能给出符合预期的结果,而不是猜对 7 个词中的 3 个然后随便涂抹。
真正有效的核心使用场景
-
角色一致性:你可以在不同提示词中重复使用同一个角色。如果你要求把某人变成老师、雕塑家、护士和面包师,Gemini 能记住人脸特征。虽然不完美,但比之前的版本稳定得多。
-
提示词编辑:说"去掉头盔"或"把她的衬衫改成法兰绒"或"把这只鸟改成带翡翠色调的红色"。这些编辑通常都能准确实现。背景替换、服装更换、姿势调整,它都能处理,而不需要像从头开始那样重新生成整个图像。
-
多图融合:可以将最多 3 张图片融合成一个场景。这不仅仅是拼接,它会融合光照、纹理和物体比例。你可以放入两张随机照片并说"把游泳者放在莲花里",它会尝试生成可信的效果,而不只是简单地剪切粘贴像素。
-
叙事生成:你可以创建 8 或 12 张图片序列来讲述故事。黑色电影侦探、超级英雄传奇、1960 年代工作室剧情,随你选择。图片中没有文字,纯粹是视觉叙事。这不是噱头,图片确实遵循叙事弧线并保持视觉身份。
-
风格迁移 + 设计重组:室内设计、时尚、80 年代未来主义、麦片盒卡通——你可以融入其他年代或领域的美学,Gemini 会努力保留那种感觉。它不只是简单地套用滤镜,几何形状、纹理、材质也会相应改变。
-
精细编辑:这不像 stable diffusion 那样一个错误的词就会毁掉整个提示。你可以迭代优化:
- "现在让它下雪。"
- "添加一个加油站标志。"
- "去掉窗帘。"
- "修正光照。"这种对话式的来回交互更像是 Photoshop 助手而不是生成器。
技术内幕
谷歌还没有发布论文、权重或内部工作原理的详细信息。但它是多模态的,你可以上传图片并给出文字指令来说明要改变什么。它支持上下文承接。延迟很低,与 DALL·E 3 相比,大多数编辑操作响应更快。
性能评测
他们在 LMArena 上用代号"nano-banana"进行了测试。名字虽然有点搞笑,但结果很严肃。在保真度和速度方面处于较高水平,尽管不是在每个基准测试中都是最佳的。谷歌在这里似乎更关注可控性和安全性,而不是追求极致的真实感。
局限性
- 小尺寸人脸和文字仍然会出错。Gemini 不会拼写。微小的面部细节经常变得模糊或奇怪。
- 角色漂移仍然会发生,尽管比 Imagen 或早期的 Gemini 版本要少。
- 过度平滑:有时它会过度平滑细节,特别是在粗糙或复古风格中。看起来像经过了磨皮处理。
安全层
所有图像都带有 SynthID 印记,这是一种嵌入像素中的隐形水印。所以是的,谷歌在追踪。它还会过滤有害提示并运行内容安全测试,特别是涉及儿童和真实感的内容。你无法完全破解它进入混乱模式。
试用 Google Gemini
你可以在 gemini.google.com 试用 Gemini 2.5 Flash Image 模型
最后的想法
Gemini 2.5 Flash Image 并不是要成为 MidJourney 或追赶开源模型。它瞄准的是那些需要精确控制、又承担不起每次模型忘记夹克颜色就要重画 12 帧的日常创作者。