跳转到内容

技术革新

5 posts with the tag “技术革新”

即梦4.0测评 - 看看这20+提示词的测试效果

AI圈现在太疯狂了!感觉围绕谷歌Nano Banana模型的热潮才刚刚开始,字节跳动的即梦4.0就已经问世。从我看到的官方文档来看,效果甚至更胜一筹!我必须分享一下我对这个新模型功能的测试体验。

更新:即梦4.5来啦!点击查看我们的即梦4.5测试

这不仅仅是一次小更新,而是一次将文生图、强大编辑功能和多图生成融为一体的全面革新。

到底有什么了不起?即梦4.0的核心升级

与3.0版本相比,即梦4.0是一次巨大的飞跃。具体来说:

  • 文生图效果好太多了。 它能更准确地理解你的提示词,支持更高分辨率,而且速度快得离谱——一张2K图片不到1.8秒!
  • 图像编辑功能是巨大飞跃。 你可以给它一张或多张图片,用简单的自然语言下达指令,它就能完成你想要的任何修改。
  • 它现在可以一次性生成一整套相关图像。 这对于头脑风暴或制作故事板来说简直是救星。

让我大开眼界的即梦4.0五大功能

在研究了这些示例之后,有五个功能真正脱颖而出,展示了即梦4.0的强大之处:

  1. 自然语言编辑: 你不需要复杂的提示词。你只需用日常语言告诉它该做什么,比如“加个头盔”、“移除背景里的人”或“把这个换成那个”,它就能做到。
  2. 它真的能记住角色的脸: 这点非常重要。你可以创建一个角色,然后用完全不同的风格生成他们——比如插画、3D模型或照片——但他们看起来仍然是同一个人,特征保持一致。它还能保留原始照片的细节,所以编辑后不会出现那种奇怪、油腻的“AI感”。
  3. 它能真正理解你的想法: 该模型拥有深厚的知识库,这意味着它可以把你最模糊、最“天马行空”的想法变成真实具体的东西。它甚至可以进行逻辑推理来预测或模拟事物。
  4. 混合搭配多张图片: 这才是乐趣的开始。你可以一次性输入多张图片,将它们组合、迁移风格或创建以前极其复杂的构图。它还能输出相关的图像组,这对于创意头脑风暴来说太棒了。
  5. 速度超快,分辨率超高: 速度快得令人难以置信,图像在几秒钟内就能出现。此外,它支持高达4K的分辨率,质量一流,为后续的专业编辑留足了空间。

废话不多说,直接看即梦4.0的效果!

这才是最重要的部分。测试示例简直令人惊叹。

实测案例1:角色一致性

任务: 将同一个角色以不同的艺术风格重新创作。

提示词 1: 将相机角度从正面拍摄改为俯视拍摄,将画面从特写调整为中景,并将长宽比改为16:9。

即梦4.0 角色一致性示例

看看这效果!右边的图是由左边的图生成的,完全还原了新的俯视视角和16:9的比例。最棒的是,它完美地保持了原始风格和场景中所有对象的一致性。

提示词 2: 将人物做成羊毛毡艺术品,用一个小支架支撑以保持姿势,放置在深色书桌上。

即梦4.0 人物风格转换

虽然 Nano Banana 是生成模特图像的专家,但即梦4.0的输出也同样出色。

实测案例2:图像优化与一致性

任务: 对单张图像进行特定元素的优化,同时保持整体场景的一致性。

提示词 1: 优化男士的面部皮肤质感,使其更平滑自然,同时保留毛孔和纹理细节。

即梦4.0 图像优化示例1

令人惊奇的是,即梦4.0 保留了所有原始细节。它避免了那种你经常从AI那里得到的虚假“油腻感”,使结果看起来完全自然。

提示词 2: 为高清商业产品摄影进行修饰、修复褶皱、调整光影。

即梦4.0 图像优化示例2

说真的,这对于任何想要讲述故事或建立品牌的人来说,都是一个颠覆性的改变。保持角色和图像的一致性曾经是一场噩梦,但这个功能似乎完美地解决了它。

实测案例3:通过提示词进行图像编辑

任务: 在图像中添加、删除、修改、替换和引用元素。

提示词 1: 男士不再戴高顶礼帽;取而代之的是,一只小鸟栖息在他的右肩上。

用即梦4.0为图像添加和删除元素

提示词 2: 为苹果应用一层磨砂、冰冷的质感,同时保持其原始形状和颜色渐变。

用即梦4.0修改图像

提示词 3: 将窗外的背景从雪景街道改为夜空中巨大的火焰爆炸。

用即梦4.0替换图像中的元素

提示词 4: 显示汉堡盒部分打开,里面有一个构图精美的汉堡,随时可以食用。

用即梦4.0从参考图生成图像

提示词 5: 将电竞椅融入一个未来感的电竞房间,配有大屏幕和强大的电脑。在椅子边缘添加紫色和蓝色的LED灯光,以匹配房间的美学风格。

即梦4.0 电商产品演示

我的体验是,用即梦4.0进行编辑的感觉非常棒。无论我是想添加新东西、移除物体,还是参考另一种风格,结果都始终很精确。这不仅仅是一个很酷的功能,它是一个强大的工具,真正为商业作品、个人艺术项目,甚至简单的趣味实验开启了新的创作途径。它确实兑现了它的承诺。

实测案例4:多图输入与输出

任务1: 同时输入多张图像,以执行复杂的编辑,如组合、风格迁移、替换和派生新内容。

提示词 1: 将图1中的女士和图2中的男士组合到同一个画面中,并参考图3的姿势。

即梦4.0 多图组合示例1

提示词 2: 生成一张快乐的女孩和她的毛绒牛玩具在游乐园过山车上的照片,长宽比为4:3。

即梦4.0 多图组合示例2

试用了即梦4.0的多图输入功能后,我必须说这确实是一个非常强大的功能。感觉它不像一个简单的编辑工具,更像是你作为导演在指挥一个复杂的场景。这对于任何想要创造难以用语言描述的特定构图的人来说,是一个巨大的优势。它提供了真正出色的创作控制水平。

任务2: 在一次输出中生成多张内容相关的图像。

提示词 1: 参照参考图的风格,生成一组4张图片,分别为乌鸦、兔子、小狗和小猫的盲盒玩具。

即梦4.0 多图输出示例1

提示词 2: 基于此参考图生成4张图像,分别将标题的材质更改为冰、玻璃、毛绒和机械。

即梦4.0 多图输出示例2

提示词 3: 以这两个角色为参考,为一场打斗场景制作故事板。

即梦4.0 多图输出示例3

多图输出功能对工作流程和头脑风暴来说,绝对是颠覆性的。这对于探索设计方案或快速为叙事序列制作故事板非常有用。它简化了创作过程,使得从单一概念发展到完整系列的可视化和开发速度大大加快。

实测案例5:深层意图理解

任务1: 升级知识库以理解复杂或详细的提示。

提示词 1: 生成一个送货机器人的草图。

即梦3.0 vs 4.0 知识库示例1

提示词 2: 一块写有以下方程式的白板:E=mc^2, sqrt(9)=3, (-b+/-sqrt(b^2-4ac))/2a。

即梦3.0 vs 4.0 知识库示例2

你可以立刻看到质量上的飞跃。即梦4.0的理解能力相较于3.0版本有了巨大的提升。

任务2: 将抽象或富有想象力的概念从模糊的想法转化为具体、详细的视觉效果。

提示词 1: 生成一个送货机器人的草图。

即梦4.0 抽象概念示例

提示词 2: 一块写有以下方程式的白板:E=mc^2, sqrt(9)=3, (-b+/-sqrt(b^2-4ac))/2a。

即梦4.0 将模糊想法转为图像

真正让我惊艳的是,即梦4.0能将一个完全抽象、近乎诗意的想法,转化为一个惊艳的视觉作品。我只是从一个模糊的感觉开始,它就生成了一张具体、细节丰富的图片,完美地捕捉了那种氛围。对于任何有创意瓶颈或想把“天马行空”的想法变为现实的人来说,这个功能简直是梦想成真。

任务3: 使用高级推理来预测和模拟场景,使不可见变为可见。

提示词 1: 根据提供的线稿创作一台老式电视机。

即梦4.0 抽象概念示例

提示词 2: 创作一个与草图中角色姿势相匹配的可动人偶。

即梦4.0 将模糊想法转为图像

推理和预测能力是即梦4.0感觉像是来自未来的地方。它不仅仅是创作一幅画,它还在逻辑上模拟了一个场景。这对于概念设计、世界构建和可视化“如果……会怎样”的场景来说,是一个极其强大的工具。

任务4: 自动选择最佳的长宽比,以最好地构图生成的图像。

即梦4.0 自适应长宽比示例1

即梦4.0 自适应长宽比示例2

即梦4.0 自适应长宽比示例3

自适应长宽比是一个非常棒的体验优化功能。模型足够智能,能够分析你的主体并自动选择最佳构图——横向用于风景,纵向用于肖像。这是一个小细节,却能带来巨大的差异,持续地提供更具动感和构图更佳的图像,而无需我付出任何额外努力。

那么,你究竟该如何使用即梦4.0?

即梦4.0的可能性似乎无穷无尽,但这里有一些基于我的测试的想法:

  • 对于设计师: 你可以即时创建海报布局、品牌工具包、电商照片,甚至是室内设计概念。
  • 对于艺术家: 这可能成为你制作漫画和电影故事板、绘制儿童读物插画、创作商品或为线稿上色的新伙伴。
  • 为了好玩: 创意和有趣的用途是无限的。你可以制作风格化的肖像、自定义表情包、酷炫的玩具设计,或者把你随手的涂鸦变成惊人的3D艺术。

即梦4.0已经正式上线!

即梦4.0 不只是一次升级,而是真正的突破——已于2025年9月8日正式对外开放,你可以立即体验它的全部功能。

如果你想要更顺畅的使用方式,Mew Design 已经率先集成了即梦4.0 与 Nano Banana。这意味着你可以在一个平台上完成图像生成、自然语言编辑,以及完整的品牌资产设计。

即梦4.0 已经到来,它正在重新定义AI创意的边界。设计的未来,从今天就开始了。

即梦4.5官方发布:实测多图合成、精细编辑与设计实战体验

字节跳动已正式在火山引擎上发布了新的 豆包即梦4.5 (Doubao-Seedream-4.5)图像生成模型。在使用各种提示和参考图像对其进行测试后,即梦4.5(Seedream-4.5)感觉像是对 即梦4.0 的一个坚实、可用于生产的升级,特别是对于编辑、多图合成以及海报和 Logo 等设计用例。

即梦4.5 与 即梦4.0 对比

即梦4.5 vs 即梦4.0(内部评估供参考)

以下是从产品测试角度进行的简明评测。

什么是即梦4.5?

Doubao-Seedream-4.5 是字节跳动最新的图像创作模型,可在火山引擎上使用。它专为以下方面设计:

  • 多图合成和角色连续性
  • 具有强大细节和色调保留的高保真照片编辑
  • 人像美化和小脸处理
  • 用于海报、UI 和品牌宣传的清晰小文本生成
  • 更好的视觉美感和对复杂提示的更强推理能力

与即梦4.0 相比,4.5 版本旨在使编辑更加可控,并使概念艺术和设计更具创造力。

1. 多图合成:稳定的角色连续性

最大的升级之一是多图合成。在我们的测试中,Seedream-4.5 可靠地识别了多个输入图像中的主体,并保持了该主体的视觉一致性。

测试 1:多重参考背景替换

提示词: “把图1中女人的背景替换成图2的海边,并在天空中添加两个图3的热气球。”

即梦4.5 测试 1 参考图 1

参考图 1

即梦4.5 测试 1 参考图 2

参考图 2

即梦4.5 测试 1 参考图 3

参考图 3

即梦4.5 测试 1 结果图

结果图

结果: 模型使女人的脸部、发型和服装与原图保持高度一致。海边背景和热气球融合自然,光线和颜色调整为连贯的场景,而不是看起来像复制粘贴的。

测试 2:将多人合并到一个具有参考风格的场景中

提示词: “使用图4的风格,将图1、2和3中的人物合并到一张图像中。”

即梦4.5 测试 2 参考图 1

参考图 1

即梦4.5 测试 2 参考图 2

参考图 2

即梦4.5 测试 2 参考图 3

参考图 3

即梦4.5 测试 2 参考图 4

参考图 4

即梦4.5 测试 2 结果图

结果图

结果: Seedream-4.5 在保留每个人物的身份和表情的同时,将他们统一到目标风格中表现良好。肤色、服装和姿势得以保留,但整体色调、光线和纹理与参考图像的风格相匹配。与经常在渲染之间改变面孔或扭曲比例的典型多图模型相比,角色连续性明显更稳定。

总体而言,对于需要多个参考图像(情绪板、角色表、产品照片)的创意工作流,4.5 的多图功能感觉成熟且可靠。

2. 极致的原图保留:面部、光线和细节

Seedream-4.5 也被定位为一个强大的编辑模型。在直接测试中,它在保持原始面部、光线和详细结构方面明显优于即梦4.0。

人像中的主体一致性

示例提示词:

“使用图1作为参考,生成一张逼真的街头摄影人像:现代城市街道背景,白天,强烈的氛围,主体看着镜头,自然光,干净的背景。”

即梦4.5 测试 3 参考图 1

参考图

即梦4.5 测试 3 结果图

结果图

结果: 生成的图像非常接近原始人物的面部结构和特征。光照方向和肤色与原图保持一致,而背景和构图则按要求进行了更新。输出看起来像是真实的实地拍摄,而不是完全合成的面孔。

编辑对象和道具

示例提示词:

“使用橘猫的正面图作为参考,生成同一只猫戴着防蓝光眼镜和格子衬衫的正面照片,坐在电脑前的桌子上。它的爪子随意地在键盘上打字,周围有咖啡杯和一堆文件。精确保持橘色毛发颜色和胖乎乎的脸,具有照片级的逼真度。”

即梦4.5 测试 4 参考图 1

参考图

即梦4.5 测试 4 结果图

结果图

结果: 模型保留了猫的毛色和脸型,增加的眼镜、服装和办公室环境看起来很自然,不像是贴上去的。毛发细节和眼镜上的光照与场景一致,这正是许多模型打破沉浸感的地方。

在保留核心对象的同时进行创意转换

示例提示词:

“使用参考图的排球概念,创建一个新的创意排球主题图像。”

即梦4.5 测试 5 参考图 1

参考图

即梦4.5 测试 5 结果图

结果图

结果: “排球”的核心理念和原始视觉风格得以延续,但模型产生了一个全新的构图,而不仅仅是简单的复制。它似乎理解了像素复制之外的概念。

这使得 Seedream-4.5 特别适合作为摄影、电子商务和品牌资产的“智能修饰工具”:你可以要求进行大的改动,同时保留原始主体的身份和核心特征。

3. 结构与姿势保留:精细编辑

当被要求编辑图像的特定部分同时保持姿势和整体几何结构时,Seedream-4.5 表现出了强大的控制力。

固定姿势下的材质和光照变化

示例提示词:

“保持模特的姿势和液体裙子的流动形状不变。将裙子的材质从银色金属改为完全透明的玻璃。透过流动的水,我们可以看到皮肤细节。将光照从反射改为折射。”

即梦4.5 测试 6 参考图 1

参考图

即梦4.5 测试 5 结果图

结果图

结果: 姿势和轮廓与输入几乎完全相同。模型成功地将材质切换为玻璃般的外观,具有可信的折射和皮肤可见性。它在改变材质和光照的同时保留了姿势和液体形状,这是编辑一致性提高的关键标志。

添加复杂的背景元素

示例提示词:

“人物身后有一座漂浮的‘天空之城’:一座被绿色覆盖的浮岛城堡,欧式建筑,周围环绕着云彩,奇幻风格。”

即梦4.5 测试 7 参考图 1

参考图

即梦4.5 测试 7 结果图

结果图

结果: 主要人物保持清晰且未变。天空之城融合得很好,具有适当的深度和大气透视,没有使主体变形或破坏边缘。这种前景保留和背景创造力的平衡非常强大,特别是对于奇幻人像海报。

这些测试证实了 Seedream-4.5 在“外科手术式编辑”方面的优势:保持构图和姿势,但改变材质、环境和效果。

4. 海报、Logo 和小文本:为设计工作做好准备

对于设计场景,Seedream-4.5 明确针对专业布局和排版任务。

海报布局和品牌推广

在我们使用海报风格提示词的测试中,Seedream-4.5 生成了具有清晰层次结构的结构化构图:主视觉、标题、副标题和较小的文案都适合于平衡良好的布局。取景很少感觉随机,并且有清晰的前景、中景和背景感。

即梦4.5 测试海报设计示例 1

即梦4.5 海报设计示例 1

即梦4.5 测试海报设计示例 2

即梦4.5 海报设计示例 2

即梦4.5 测试海报设计示例 3

即梦4.5 海报设计示例 3

即梦4.5 测试海报设计示例 4

即梦4.5 海报设计示例 4

小文本清晰度

示例提示词:

“插画风格海报,几个黑色的圆形可爱卡通人物,后面有 ‘SHH HIDE AWAY’ 字样,右下角有一个英文故事”

即梦4.5 测试小文本清晰度

即梦4.5 生成带有小文本的海报

结果: 与即梦4.0 相比,Seedream-4.5 中的小文本更易读,失真更少。虽然你仍然不应期望像矢量编辑器那样完全可控的排版,但对于许多社交媒体海报、营销视觉效果和模型来说,可读性已经足够好了。对于“快速设计草稿”或艺术指导来说,这是非常有用的。

对于需要快速生成 Logo、品牌视觉效果和活动海报原型的团队来说,Seedream-4.5 在创意质量和文本清晰度之间提供了很好的平衡。

5. 整体美学:电影感、光影、构图

从纯粹的图像质量角度来看,Seedream-4.5 在以下方面显示出明显的改进:

  • 电影质感: 许多输出具有受控对比度和色彩分级的电影般外观。

即梦4.5 测试电影感示例 1

即梦4.5 电影感示例 1

即梦4.5 测试电影感示例 2

即梦4.5 电影感示例 2

  • 光影: 光照感觉与场景更加连贯。反射、高光和阴影方向更加自然,特别是在金属、玻璃和夜景中。

即梦4.5 测试光影示例 1

即梦4.5 光影示例 1

即梦4.5 测试光影示例 2

即梦4.5 光影示例 2

  • 构图: 取景更加深思熟虑。主体通常放置得更加平衡,有引导线和负空间。结果通常看起来更接近专业摄影或概念艺术,而不是“随机的 AI 艺术”。

即梦4.5 测试构图示例 1

即梦4.5 构图示例 1

即梦4.5 测试构图示例 2

即梦4.5 构图示例 2

即梦4.5 测试构图示例 3

即梦4.5 构图示例 3

结合更强的推理能力,Seedream-4.5 比 4.0 更好地处理在一句话中描述多个对象、风格和约束的复杂提示词。对于许多实际生产任务,更容易获得“一次尝试即可用”的图像。

6. 如何访问 Seedream-4.5

你可以通过火山引擎的 Ark 平台使用 Doubao-Seedream-4.5。

开发者可以将 Seedream-4.5 集成到产品管线中,用于:

  • 图像生成和编辑工具
  • 设计和营销平台
  • 电子商务图像工作流
  • 内部创意助手和内容制作系统

7. 定价和限制

收费简单,基于使用量:

  • 按调用付费(后付费): 每张图像 0.25 元人民币
  • 并发限制:
    • 公测期(2025-12-03 至 2025-12-09):IPM(每分钟图像数)限制 50
    • 2025-12-10 正式发布后:IPM 限制 500
    • 更高并发:联系火山引擎销售团队

这个定价对于个人创作者和企业级管线来说都是合理的,特别是如果你进行批量生成或运行预定任务。

8. 现在如何尝试

Mew Design(推荐)

如今体验 Seedream 4.5 最简单的方式是通过 Mew Design,它已经集成了最新的模型。你可以直接在 Mew Design 界面中生成和编辑图像,无需额外部署。

其他火山引擎入口

如果你更喜欢直接使用火山引擎,你也可以通过图像生成控制台或 API 访问 Seedream 4.5。这让你能够更好地控制高级参数并将其集成到你自己的工作流中。Ark 体验中心: https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?modelId=doubao-seedream-4-5-251128&tab=GenImage

你可以轻松测试如下提示词:

  • 用于人像、产品照或概念艺术的单图生成
  • 使用多个参考图像的多图合成
  • 编辑实验(改变背景、服装、材质或光照)
  • 带有小文本的海报和 Logo 草稿

最后的想法

Seedream-4.5 感觉像是对即梦4.0 的一次有意义的提升。在实际测试中,该模型:

  • 使面部、光线和细节更接近原图
  • 更可靠地处理多图合成和角色连续性
  • 为海报和 UI 模型生成更清晰的小文本
  • 生成更具电影感、美学上更令人愉悦且构图更好的图像
  • 在复杂、多元素的提示词上显示出更强的推理能力

对于需要在图像生成中同时兼顾创造力和控制力的团队——特别是用于编辑、品牌推广和设计——Doubao-Seedream-4.5 已经准备好作为一个严肃的生产工具,而不仅仅是一个演示模型来使用。

Nano Banana Pro正式发布 —— 带提示词测试全解析

Google 已于2025年11月20日正式发布 Nano Banana Pro (也就是大家持续关注和期待的Nano Banana 2),这是基于全新 Gemini 3.0 Pro 系统构建的下一代图像生成和编辑模型。

数月以来,社区只能看到一些线索:Gemini 界面中泄露的 Gempix-2 代号,以及开发者暗示的重大升级。现在,Nano Banana Pro 已全面上线,长期的猜测终于得到证实。

作为专注于智能设计工作流的团队,我们在 Mew Design 对新模型进行了广泛测试 —— Nano Banana Pro 确实是一次真正的飞跃。

🚀

Nano Banana Pro 已在 Mew Design 上线

基于Nano Banana Pro 和 Gemini 3,Mew Design 帮助创作者生成高质量图形设计,无文字失真。创作海报、社媒图片、品牌素材等 —— 现在拥有更强的文字准确性和布局控制。

免费试用 Nano Banana Pro

Nano Banana Pro 通过”时钟与满杯红酒”测试

想要看看 Nano Banana Pro 有多强大,只需看看这张现在很出名的照片:一个显示 11:15 的时钟,旁边是一杯倒满的红酒杯。

Nano Banana Pro clock test example

图片来源:x@synthwavedd

为什么这如此令人印象深刻?在AI 图像领域,有一个压力测试,没有任何 AI 能够持续掌握:时钟与满杯红酒挑战

挑战很简单:向 AI 输入提示词:

“时钟显示 11:15,还有一个倒满的红酒杯。”

看看它是否能正确渲染两者。大多数模型 —— 从 Arena、Seedream 4.0,到 Nano Banana 1.0 —— 完全无法通过这个测试。

Nano Banana Pro vs seedream 4.0 vs nano banana 1.0 clock test example

但 Nano Banana Pro 成功通过了。

Nano Banana Pro vs Nano Banana 1.0:更高分辨率、更好的文字、更多世界知识

Google 确认 Nano Banana Pro 由 Gemini 3.0 Pro 驱动,带来多项核心升级:

  • 更高的原生分辨率,带来更锐利的边缘和更干净的光照
  • 更强的提示词理解能力,处理复杂指令
  • 显著改进的文字渲染,支持多种语言
  • 更好的世界和文化知识,能够准确生成 UI、截图、信息图
  • 更准确的角色一致性

这些改进即使在随意测试中也很明显。

看看下面这两张图片 —— 都以一个汽车模型在海边高速公路上摆姿势为主题。

你能看出哪张是 Nano Banana Pro 创作的吗?

Nano Banana Pro.0 vs nano banana 1.0

图片来源:x@Azinha810

乍一看,它们可能看起来相似。但注意色调和整体氛围 —— 第一张图片感觉更自然、更有电影感、色调更准确,而第二张带有早期 AI 生成照片典型的略微”塑料感”外观。

Nano Banana Pro.0 vs nano banana 1.0 test comparison

图片来源:x@Azinha810

现在比较这两张科幻风格的渲染图 —— 差异更加明显。

第二张图片比第一张拥有更丰富的电影氛围和更精细的视觉细节。

仔细观察两张图片中的控制面板和仪表盘元素。

在第一张中,仪表看起来风格化和合成化 —— 非常像那种老的”AI 艺术”外观。

在第二张中,Nano Banana Pro 提供了一个更加真实、有质感、技术准确的仪表盘,证明了其渲染引擎已经进化得多么远。

基于 Gemini 3.0 Pro 构建,配备全新多步骤工作流

Google 表示 Nano Banana Pro 由 Gemini 3.0 Pro 驱动,内部标签为 Gempix-2 —— 一种全新的图像架构。

该模型引入了几项突出的升级:

  • 处理复杂的视觉逻辑 —— 准确的文字、高级光照和透视控制,这是 1.0 无法做到的。
Nano Banana Pro test example turn the water pink

示例:提示词”把水变成粉色”,Nano Banana Pro.0 渲染出微妙、真实的变化,远超 Nano Banana 1.0。图片来源:x@Angaisb_

  • 全新的多步骤工作流,感觉更像设计师而不是生成器:

    1. 规划输出
    2. 生成草稿
    3. 内部审查
    4. 修复检测到的问题
    5. 在交付最终图像之前迭代
  • 更高分辨率和灵活的长宽比。它现在支持更广泛的长宽比范围 —— 包括 1:1、2:3、3:2、3:4、4:3、9:16、16:9,甚至超宽 21:9 格式 —— 为创作者在从社媒帖子到电影级渲染的各个方面提供更多灵活性。Nano Banana Pro 还提供多种输出分辨率,包括 1K、2K 和完整的 4K 模式。

在所有升级中,新的多步骤工作流可能是 Nano Banana Pro 最大的游戏规则改变者。

我们之前在 ComfyUI 等工具中看到过类似的概念,这些工具允许用户构建图像或视频生成管道。

但这次,Nano Banana 将这个流程直接集成到模型内部 —— 无需额外设置,无需节点编辑。

对于高精度图像生成来说,这是一个巨大的飞跃。

当然,真正的证明在于图片 —— 让我们来看看一些在网上流传的 Nano Banana Pro 测试结果。

Nano Banana Pro 亮点与测试结果 [含提示词]

1. 文字渲染终于可靠了

Nano Banana Pro 的文字渲染确实令人惊艳。

在一个例子中,它生成了一个 Windows 11 桌面截图,显示 Chrome 中打开的 YouTube,包括一个 MrBeast 缩略图 —— 像素级完美且完全清晰可读。

Nano Banana Pro test example windows 11 desktop screenshot

只需上传 Windows 桌面截图。提示词:生成一个 Windows 11 桌面截图,Chrome 打开,显示 YouTube.com 上 MrBeast 的 YouTube 缩略图。| 图片来源:x@synthwavedd

更进一步,Nano Banana Pro 甚至可以生成一个完全详细的 Google DeepMind 网页截图 —— 令人印象深刻的是,所有密集的文字都能正确渲染,没有任何乱码。

Nano Banana Pro test example google deepmind webpage screenshot

图片来源:x@synthwavedd

话虽如此,细心的用户已经注意到 Nano Banana Pro 并不完美。在这个例子中,有一些小错误,比如”Gemini 31”和”Google DeepMind – Nevdscl”。

乍一看,如果你只看主要标题和副标题,这些错误几乎察觉不到。然而,当文字内容较小或密度较低时,错误发生的可能性会显著降低。

在这个电视直播新闻截图中,屏幕上的所有文字都准确且格式一致。令人印象深刻的是,甚至地面上文字的反射也被正确渲染。

Nano Banana Pro test example tv news broadcast

图片来源:x@synthwavedd

类似地,另一张电视广播截图显示主播位于屏幕右侧,经典的新闻滚动条在底部运行 —— 同样,每一段文字都完美渲染。

Nano Banana Pro test example google deepmind webpage screenshot

提示词:50mm 大预算直播 8k 照片特写,一位有魅力的 30 岁意大利女性新闻主播,表情狡黠。她坐在新闻台前,身后屏幕上有生物工程的香蕉,文字显示”Nano Banana Pro live on Media .IO?”。直播新闻镜头。图片底部有一个红色和蓝色的滚动条,显示”Breaking News: Nano Banana Pro on Media.IO?”

图片来源:x@BrentLynch

我们也用同样的提示词测试了 Nano Banana 1.0。

nano banana test example

这个版本”AI 生成感”稍弱。然而,背景屏幕有轻微模糊,使其看起来不太像真实的新闻场景。文字的反射也显得有些人工,尽管对主播本身的聚焦仍然很强且视觉清晰。

2. 更好的世界知识和文化背景

由于现在运行在 Gemini 3.0 Pro 上,该模型具有更强的内置世界知识。
这就是为什么它能够:

  • 识别真实的游戏预告片
  • 识别真人改编作品中的演员
  • 理解品牌 UI 布局
  • 在白板上写出数学解答

那个臭名昭著的时钟和红酒测试不是偶然 —— Nano Banana Pro 始终能理解那些难倒其他 AI 的提示词。Reddit 用户用其他模型(如 Grok 和 ChatGPT)生成的图片刷屏了评论区 —— 但没有一个能达到 Nano Banana Pro 的准确性。

一些用户甚至挑战 Nano Banana Pro 把汉堡变成玻璃。令人惊讶的是,只有 Nano Banana Pro 成功将整个汉堡变成玻璃,而其他模型如字节跳动的 Seedream 和 Riverflow 只渲染了面包为透明。

Nano Banana Pro test example turn hamburger into glass

提示词:把汉堡做成玻璃的。

第一张图片由 Nano Banana Pro 生成。| 图片来源:x@Angaisb_

改进的世界知识使 Nano Banana Pro 能够更好地理解提示词,严格遵循指令,甚至让用户简化提示词而不失精度。

它还能准确处理流行文化背景。例如,一位用户要求 Nano Banana Pro 生成 GTA 6 预告片 —— 它生成了一个包含实际 GTA 6 Logo 的 YouTube 页面。

Nano Banana Pro test example gta 6 trailer

图片来源:x@jewgibor

另一个测试涉及提示词”One Piece live action Netflix”。Nano Banana 不仅识别了 Netflix Logo,还正确识别了真人版演员阵容。

Nano Banana Pro test example one piece live action netflix

提示词:One Piece live action Netflix。

图片来源:x@jewgibor

结合世界知识和精确的文字渲染,Nano Banana Pro 甚至可以在黑板上解答数学问题 —— 这比在聊天窗口中滚动长长的数学解释要令人满意得多。

Nano Banana Pro test example solve math problem

上传数学问题的截图。提示词:解决这个数学问题,并在白板上写下完整解答。

图片来源:x@MagusWazir

这是 Nano Banana 1.0 和 Nano Banana Pro 在这个案例中的并排比较:

Nano Banana Pro vs nano banana 1 test example solve math problem

图片来源:https://www.reddit.com/r/singularity/comments/1osolhn/nano\_banana\_2\_vs\_nano\_banana\_comparison\_output/

3. 核心图像质量大幅提升

Nano Banana Pro 改进了光照、构图、真实感和动态场景 —— 证实了早期测试者注意到的内容。

在 x@legit_api 分享的测试中,Nano Banana Pro 重现了一个情感化的《东京食尸鬼》场景 —— 金木研在雪中抱着他的朋友 —— 具有电影级的真实感。

Nano Banana Pro test example tokyo ghoul anime scene

提示词:金木研在雪中抱着他的朋友,《东京食尸鬼》。

图片来源:x@legit_api

它在赛博朋克、肖像和电影风格镜头方面也表现出色。

Nano Banana Pro test example cyberpunk style

提示词:赛博朋克黑客机器人在多台显示器前工作。

图片来源:x@testingcatalog

即使是”表情包风格”的肖像和风格化的团体照片也显示出显著的凝聚力和情绪。

Nano Banana Pro test example meme like portraits

图片来源:x@MicahBerkley

结语

Nano Banana Pro 作为 Google 迄今为止最可靠的图像模型之一问世。从具有挑战性的逻辑场景 —— 如 11:15 时钟和满杯红酒测试 —— 到更清晰的排版和更丰富的视觉效果,很明显这次发布将 AI 成像推向了更加可靠的领域。

对于创作者、营销人员和设计师来说,这次升级不仅仅是一个技术里程碑。它意味着更快的的工作流、更少的修正,以及从一个提示词就能获得更高质量的素材。

你可以直接在 Mew Design 中尝试这些Nano Banana Pro提示词,它与 Seedream 4.0 一起运行,支持从海报到产品拍摄的一切。改进是立即可见的 —— 它们使创作过程比以往更加顺畅。

关于 Nano Banana Pro 的常见问题

什么是 Nano Banana Pro?

Nano Banana Pro 是 Google 最新的 AI 图像和编辑模型,基于 Gemini 3.0 Pro 构建。它提供比原始 Nano Banana 更高的分辨率图像、更好的提示词准确性和更一致的角色渲染。这次升级重塑了创作者在营销、设计、广告和社媒视觉方面可以做什么。

Nano Banana Pro 与早期模型有何不同?

它提供更锐利的输出、更强的场景稳定性、改进的文字理解,以及更好的光照和反射处理。总的来说,它产生更干净、更可靠的图像 —— 特别是对于人物、物体和风格化构图。

为什么 GemPix 2 与 Nano Banana Pro 相关?

GemPix 2 是 Google 在 Nano Banana Pro 内部使用的渲染模块的内部代号。它处理光照、表面反射、阴影和整体视觉一致性。换句话说,GemPix 2 作为 Nano Banana Pro 管道的一部分工作。

Nano Banana Pro AI 图像生成器是否免费使用?

是的。你可以在 Mew Design 免费试用 Nano Banana Pro。新用户可以生成或编辑高分辨率图像,包括 4K 输出,无需任何费用。

处理图像或文字提示词需要多长时间?

使用 Gemini 3.0 Pro,生成时间通常在 10 到 15 秒之间。速度可能会根据分辨率和提示词的复杂性而变化。

Nano Banana Pro 何时发布?

Google 于 2025 年 11 月 20 日正式发布 Nano Banana Pro。

什么是谷歌Nano Banana?智能编辑背后的 AI 揭秘

谷歌 Nano Banana 信息图

谷歌 Nano Banana 信息图。由 mew.design 生成。

AI 领域最近发生了一些奇妙的事情。一个俏皮甚至有些神秘的代号——“Nano Banana”(纳米香蕉)——开始出现在各种论坛和像 LMArena 这样的匿名 AI 测试网站上。没有官方公告,没有新闻发布会,只有一个神秘的新模型,却开始在性能上超越所有对手。

许多人现在相信,这就是谷歌在生成式 AI 领域的重大进展——官方名称为 Gemini 2.5 Flash Image

🔔 更新 — Nano Banana Pro(Nano Banana 2)现已正式发布

Google 已正式推出全新的下一代模型 Nano Banana Pro,也称为 Nano Banana 2。 我们已经对它的性能、角色一致性、编辑精准度和生成速度进行了全面测试。
点此查看完整测评:

Nano Banana Pro 测试 — 实测结果解析。

这不仅仅是又一个文生图工具,更是一次技术上的复杂飞跃。它从根本上改变了创意过程,将其从一次静态的指令,转变为一场流畅、实时的对话。

作为一支致力于设计未来的团队,我们 Mew Design 一直在密切关注这一发展。在本指南中,我们将为你层层揭开 Google Nano Banana 的神秘面纱:它是什么,是什么让它如此与众不同,以及它对你未来的创意工作流意味着什么。

🚀

用Mew Design更智能的生成和编辑设计作品(现已集成Nano Banana!)

Mew Design 已经将Google Nano Banana融入其AI设计智能体中。 这意味着你可以直接在Mew Design内体验Nano Banana的高级编辑功能 —— 无需任何设置。

免费试用Mew Design

什么是 Google Nano Banana (Gemini 2.5 Flash Image)?

Google Nano Banana 的核心是一个专为原生图像生成和编辑而设计的高级 AI 模型。它最初在 LMArena 等平台上声名鹊起,这些平台通过“对战模式”让不同的 AI 模型匿名竞争。用户们一致注意到,有一个未命名的模型表现得格外优秀——它能保持人脸的一致性,理解复杂的指令,并提供惊艳的效果。那个模型,就是 Nano Banana。

它带来的关键转变在于,将创作从**“生成”变为“对话”**。它能理解自然语言指令,进行迭代式的精确修改,从根本上将人机交互从一次性命令转变为与 AI 伙伴的创意对谈。

Nano Banana 的 4 大颠覆性功能

这并非空穴来风。Nano Banana 实现的功能,在控制、一致性和速度方面,是其他领先模型仍在努力解决的难题。

1. 角色一致性:终结 AI 的“脸盲症”

随便问一个 AI 艺术家他最大的痛点是什么,他很可能会提到角色一致性。过去,AI 模型在每次生成新图时,都会改变角色的面部特征。Nano Banana 似乎破解了这个难题。你可以改变角色的背景、调整角度或修改服装,而人物或物体本身却能保持高度一致。这对于创建统一的品牌资产、虚拟形象和视觉叙事来说,是一个颠覆性的突破。

我们上传了一张小猫的照片,并让 Nano Banana 更改其背景。

提示: 将背景换成一个温暖、阳光充足的家庭内部,带有一个猫爬架。保持小猫的姿势和表情完全不变。

左边是原始照片,右边是生成后的照片。背景变了,但小猫本身——包括它的姿势——都保持了一致。

Nano Banana 角色一致性示例

2. 对话式编辑:告诉 AI 改哪里就行

再也不需要 Photoshop 技能了。使用 Nano Banana,工作流变成了语言而非图层。你只需用简单的文字描述你想要的修改,就像和一位人类编辑沟通一样。你可以使用这样的指令:

  • “移除背景,换成一片森林。”
  • “让她微笑,并加上柔和的光线。”
  • “把这辆车的颜色改成金属红。”

模型会理解并执行你的请求,通常一次成功。这取代了传统修图工作中抠图、蒙版和管理图层的整个流程,对传统编辑软件构成了真正的挑战。

3. 图像融合:创意混合的新高度

图像融合功能允许模型将多达三张独立的图片无缝地融合成一张全新的、连贯的图像。这远不止是简单的拼贴。AI 能理解每张图片的语境、光照和风格,从而创造出逻辑合理且视觉上吸引人的合成图。这个功能非常适合创作超现实主义艺术、将产品置于新环境,或将不同的设计概念融合成一个强有力的视觉作品。

我们上传了一张女孩和一只卡通猫的图片,让 Nano Banana 编辑女孩的外貌。

提示: 在图1中把女孩的头发改成粉色,并把她的衣服换成一件印有图2中那只卡通猫的白色T恤。

左边是原始照片,右边是生成后的照片。发色和衣服都完全按照要求更新了,而所有其他细节都保持不变。

Nano Banana 图像融合示例

4. 速度快得惊人

许多工具生成一张图需要10到15秒,而 Nano Banana 通常在1到2秒内就能响应。这种近乎即时的反馈,让创作过程感觉像是实时的互动,而不是批处理任务,从而实现了快速的实验和迭代。

如何免费使用 Nano Banana

目前主要有两种方式可以体验 Nano Banana 的强大功能,而且都是完全免费的。

1. 通过 Google AI Studio (直接体验):

  • 访问 Google AI Studio 网站 (https://aistudio.google.com/) 并用你的谷歌账户登录。
  • 在主页上,选择 gemini-2.5-flash-image 模型。
  • 上传你想要编辑的图片。
  • 在提示框中,输入你想要做的修改描述,然后发送请求。

在 Google AI Studio 中免费使用 Nano Banana

2. 在 Google Gemini 应用内 (集成工作流):

除了 AI Studio,部分 Google Gemini 用户也可以使用 Nano Banana。当该功能对你开放时,会出现一个类似的弹窗提示。

在 Google Gemini 中使用 Nano Banana

只需切换到 Gemini 2.5 Flash 模型,选择图像工具,即可开始编辑你的照片。

此外,一些知名的 API 提供商和聚合类图像/视频平台,如 FALKrea,也已经集成了 Nano Banana,你可以通过它们的服务来使用。请注意,不要搜索所谓的 Nano Banana 官网——它并不存在,任何声称是官方网站的都是骗局。

实际应用:各大团队如何使用它

这不仅仅是爱好者的玩具,它已经是一个正在改变专业工作流程的强大工具。参与内测和在测试平台上的团队报告了惊人的成果:

  • 电子商务: 一家网店用它生成了多种颜色和款式的产品图,据称不仅削减了摄影成本,还将转化率提升了34%。
  • 内容营销: 一个内容团队在不到一小时内就构建了整个视觉宣传活动——这个过程过去需要数天。
  • 游戏开发: 一家游戏工作室以不到1万美元的成本,为游戏中的NPC生成了数千个独特的角色肖像,而传统方式的成本估计超过15万美元。
  • 建筑设计: 一家建筑公司用它生成了极其精准的室内设计模型,让他们得以跳过整整两轮的客户修改。
  • 教育领域: 老师们用它生成图表和科学插图,学生们反馈结果“比教科书里的还清晰”。

从原始算力到最终成品:Mew Design这类工具的价值何在?

虽然Nano Banana AI 在生成和编辑单张高质量图像方面表现出色,但真实的项目往往需要更多。你需要把这一张视觉作品转化为一整套连贯的设计资产:社交媒体帖子、海报、演示文稿、网站横幅、产品介绍图等等。

因此,Mew Design已经将Nano Banana 集成到其AI设计智能体中 —— 让你无需离开设计工作区,就能直接使用对话式编辑和图像融合功能。

Mew Design就像是一座桥梁,将单张 AI生成的图像转化为完整的、多格式的品牌营销方案。它为你提供:

  • 精准的文本和布局控制 — 不再有乱码或错位的元素。
  • 可编辑的输出 — 根据需要随时调整文本、图像和构图。
  • 多格式适配 — 即时调整尺寸,适配社交媒体、印刷品或网页。
  • 品牌一致性 — 在所有资产中保持统一的颜色、字体和标志。
  • 素材整合 — 将产品照片、参考图或 Logo 直接上传到你的设计中。

你可以把 Gemini 2.5想象成你的概念艺术家,而 Mew Design则是你的智能创意工作室,它能将想法转化为团队可以立即部署的完整营销活动。

Mew Design AI 设计智能体

未来在于工作流,而不仅是工具

像 Gemini 2.5 Flash Image 这样的工具,并非要取代设计师,而是要增强他们的能力。它们处理了那些繁琐、耗时的技术性任务,让创作者能够解放出来,专注于更宏观的层面:战略、叙事和品牌建设。

“Nano Banana”时代已经来临,它传达的信息很明确:这项技术不仅仅是为了娱乐,更是为了工作。通过理解基础模型的优势,并将其整合到像 Mew Design 这样的智能 AI 设计智能体中,创意团队能够达到前所未有的速度和质量水平。

AI设计革命:从传统工具到智能创作的跨越

AI设计革命:从传统工具到智能创作的跨越

在过去的两年里,人工智能技术在设计领域的应用发生了翻天覆地的变化。从最初的简单图像生成到如今的复杂创意协作,AI正在重新定义什么是”设计”。

传统设计工具的黄金时代

Adobe统治时期(1990-2020)

回顾设计行业的发展历程,Adobe Creative Suite无疑是过去三十年的霸主:

  • Photoshop - 图像处理的不二选择
  • Illustrator - 矢量设计的标准工具
  • After Effects - 动效设计的专业平台
  • Figma/Sketch - UI设计的新兴力量

这些工具塑造了一代设计师的工作流程,但也带来了明显的局限性:

传统设计流程的痛点:
├── 学习成本高 - 需要数月甚至数年精通
├── 创作效率低 - 大量重复性操作
├── 灵感依赖强 - 缺乏创意启发机制
└── 协作门槛高 - 专业知识壁垒明显

AI设计工具的崛起

生成式AI的突破(2022-2025)

2022年,随着DALL-E 2、Midjourney、Stable Diffusion的相继发布,设计行业迎来了前所未有的变革:

文本到图像生成

  • Midjourney - 艺术创作的新标杆
  • DALL-E 3 - OpenAI的视觉创意引擎
  • Adobe Firefly - 商业化程度最高的解决方案

专业设计应用

  • Runway ML - 视频内容生成与编辑
  • Canva Magic Studio - 面向大众的AI设计助手
  • Mew Design - 新一代智能设计平台

AI设计的核心优势

1. 创意激发与概念探索

AI最大的价值不在于替代设计师,而在于扩展创意边界

传统流程:灵感 → 草图 → 设计 → 优化
AI增强流程:想法 → AI生成 → 筛选 → 深度定制

实际案例

一位品牌设计师使用Midjourney为新产品包装寻找灵感,通过提示词”现代极简主义 + 日式美学 + 可持续材料”,在10分钟内获得了50个不同的设计方向,其中3个成为最终方案的基础。

2. 工作流程的智能化

AI工具正在自动化设计过程中的重复性工作:

  • 自动抠图 - Remove.bg一键背景移除
  • 色彩匹配 - AI分析并生成和谐配色方案
  • 版式生成 - 智能排版布局建议
  • 素材推荐 - 基于项目需求的资源匹配

3. 个性化设计的规模化

通过AI,设计师可以实现”千人千面”的个性化设计:

# 伪代码示例:AI驱动的个性化海报生成
def generate_personalized_poster(user_data):
style = analyze_user_preference(user_data.history)
content = extract_key_message(user_data.brief)
layout = optimize_for_platform(user_data.target_platform)
return ai_generate(
style=style,
content=content,
layout=layout,
brand_guidelines=user_data.brand
)

设计师如何拥抱AI时代

重新定义设计师的价值

在AI时代,设计师的核心价值正在从”执行者”转向”策略家”:

传统角色AI时代角色
工具操作专家AI协作专家
视觉表现执行创意策略规划
单一技能深耕跨领域整合
个人产出团队赋能

必备的AI设计技能

  1. 提示词工程 - 学会与AI有效沟通
  2. AI工具组合 - 构建个人AI工具链
  3. 质量把控 - 识别和优化AI生成内容
  4. 人机协作 - 在AI辅助下保持创意主导

实践建议

入门阶段(1-3个月)

  • 体验主流AI设计工具
  • 学习基础提示词技巧
  • 建立AI创作工作流程

进阶阶段(3-6个月)

  • 专精1-2个专业AI工具
  • 探索AI在具体项目中的应用
  • 开始AI设计作品集建设

专家阶段(6个月+)

  • 开发定制化AI解决方案
  • 成为团队的AI技术专家
  • 探索AI设计的商业模式

未来展望:下一个十年的设计

技术发展趋势

多模态AI:未来的AI设计工具将整合文本、图像、音频、视频多种媒体形式,实现真正的全媒体创作。

实时协作:AI将成为设计团队的虚拟成员,实时参与创意讨论和方案迭代。

情感计算:AI将能够理解和表达情感,创作出更具感染力的设计作品。

行业变革预测

  1. 设计教育的重构 - 传统设计院校将增加AI课程
  2. 新职业的诞生 - AI设计师、提示工程师等新角色
  3. 创作成本的降低 - 中小企业也能负担专业级设计
  4. 版权法律的完善 - AI创作的知识产权界定

结语:人机协作的未来

AI不是设计师的敌人,而是最强大的创作伙伴。正如历史上每一次技术革命都催生了新的创作可能性,AI设计工具的普及将开启一个全新的创意时代。

关键在于:保持学习的心态,拥抱变化的勇气,以及对创意本质的深度思考。

在这个充满机遇的时代,每一位设计师都有机会重新定义自己的职业边界,创造出前所未有的作品。


您对AI设计有什么看法?欢迎在评论区分享您的经验和思考。

想了解更多AI设计资讯?

  • 关注我们的播客节目
  • 订阅设计周报
  • 加入AI设计师社群

本文是”设计与AI”系列文章的第一篇,接下来我们将深入探讨具体工具的使用技巧和实战案例。