芥末
发布于 2025-08-28 / 1 阅读
0
0

Nano Banana 图像编辑工作流:参考图合并、红框选择与姿势迁移

Nano Banana 通常指 Google Gemini 系列里的图像生成与图像编辑能力,常见入口包括 Gemini、AI Studio、Whisk、Opal、OpenRouter 等。它和普通文生图模型最大的区别,不只是“能生成图片”,而是更擅长根据输入图片做编辑:保留人物身份、服装特征、物体结构和整体光影,再按照提示词改场景、换道具、调姿势或生成设计稿。

图像编辑最容易翻车的地方有三类:

难点常见问题Nano Banana 适合的处理方式
多参考图融合上传很多人物、物体后,模型分不清谁是谁把素材合并到一张参考板,用文字标签引用
局部修改只想改一个包、一个人,结果整张图都变了用红框或红色蒙版限定编辑区域
一致性保持换姿势、换风格后,脸和服装不像原角色用角色参考图 + 姿势草图 + 明确保留要求
文字生成海报文字容易错字、漏字、变形使用短文案、大字号,必要时后期排版
尺寸控制16:9、1:1、4:3 不一定严格遵守先生成构图,再外部裁切或扩图

核心思路可以概括成一句话:不要只把需求写进提示词,要把“模型该看哪里、该引用谁、该改哪块区域”也明确告诉它。

flowchart LR
    A[准备输入图] --> B{任务类型}
    B -->|多元素合成| C[做参考板并打标签]
    B -->|局部修改| D[画红框或红色蒙版]
    B -->|姿势迁移| E[提供角色图和动作草图]
    B -->|海报/信息图| F[提供版式和短文本]
    C --> G[写清标签引用关系]
    D --> G
    E --> G
    F --> G
    G --> H[生成多版候选]
    H --> I[挑选结果并局部修正]

1. 多元素合成:把很多素材压进一张参考板

很多平台一次上传图片数量有限。如果每个人物、宠物、道具、背景都单独上传,很快就会碰到上限,而且模型还可能把不同图片里的主体混在一起。

更稳的办法是把所有素材排到一张大图里,像做情绪板一样,每个元素旁边加一个简短标签,例如:

  • mona
  • pearl
  • david
  • van-gogh
  • leonardo
  • banana-artwork

参考板可以用 PPT、Keynote、Figma、Canva 或任意图片编辑器制作,重点不是美观,而是让模型能清楚看到“标签”和“素材”的对应关系。

参考板的结构可以像这样:每个主体独立摆放,旁边用高对比文字标注名字。

图片

这种做法的关键是把标签写得短、唯一、无歧义。不要让两个元素都叫 girlcharacter,否则提示词里再次引用时,模型很可能理解错对象。

提示词可以这样写:

Use the provided reference sheet.

Create a scene inside an art museum. The wall is red and filled with classical portrait paintings. 
In the center, place a marble pedestal. On the pedestal, display a banana taped to the surface as an artwork.

Place the characters labeled mona, pearl, david, van-gogh, and leonardo around the banana artwork.
Keep each character's face, clothing identity, and visual style recognizable.
Make the lighting and color temperature consistent across the whole scene.
Do not render the text labels from the reference sheet.

合成后的画面会把多个参考对象放进同一空间里,而不是简单拼贴。

图片

多元素合成最需要控制的是光影和比例。如果只写“把这些人放在一起”,模型可能会生成出大小不协调、视角不统一的结果。提示词里加上 consistent lightingsame camera perspectiverealistic scale relationship 这类约束,通常会更稳。

不打标签也能用,但适合元素少的场景

当参考素材数量少、对象特征明显时,也可以直接用自然语言描述。比如模特、粉色汽车、手包、外星人钥匙扣、鹦鹉和狗这些元素差异很大,模型不太容易混淆。

A model is posing and leaning against a pink BMW.
She is wearing the items from the reference image.
The green alien is a keychain attached to the pink handbag.
The model has a pink parrot on her shoulder.
A pug is sitting next to her, wearing a pink collar and gold headphones.
The scene is against a light grey studio background.

图片

元素越多,标签越有价值。自然语言适合三五个对象,参考板打标适合十几个对象或多个相似人物。

2. 红框选择:告诉模型“只处理这里”

局部编辑时,最常见的问题是模型不知道你要改哪一块。比如想把合照里的某个人单独提取出来,单靠“把左边第二个人分离出来”有时不够稳定,因为模型可能数错人,或者理解错位置。

更直接的方法是在图片上画一个红色矩形框,把目标圈出来,然后在提示词里说明“只处理红框内对象”。

Separate the person inside the red box and turn them into a high-resolution single-person portrait.
Remove the red box in the final image.
Keep the person's face, clothing, hairstyle, and pose consistent.
Use a clean studio background.

红框输入图用于告诉模型目标对象的位置。

图片

输出时,模型会尝试把红框内的人物独立出来,并补全背景与细节。

图片

红框适合做四类任务:

任务提示词重点
提取人物separate the person inside the red box
放大局部make the selected object a high-resolution close-up
替换物体replace only the object inside the red box
局部重绘edit only the area inside the red box, keep everything else unchanged

红框要画得足够明显,建议使用纯红色、较粗线条,并且不要贴着主体边缘画。框太紧时,模型可能把头发、手指、阴影等边缘信息裁掉;框太大时,又可能把附近物体一并带进去。

3. 红色蒙版:用涂抹区域做“无中生有”

红框适合选择已有对象,红色蒙版更适合替换或新增对象。做法很简单:在图片上把要修改的区域涂成一块红色,然后告诉模型把红色区域替换成什么。

Replace the red painted area with a small luxury-style black leather handbag.
Remove all red paint from the final image.
Match the handbag's perspective, lighting, size, and shadow with the original photo.
Keep the rest of the image unchanged.

红色蒙版相当于告诉模型:这块区域可以重绘,其他地方尽量不要动。

图片

生成结果的重点不只是“出现一个包”,还要让包的大小、受光方向和接触阴影融入原画面。

图片

红色蒙版的使用经验:

操作建议
涂抹颜色使用纯红色或高饱和红色,避免半透明
区域大小比目标物体稍大一点,留出阴影和边缘空间
提示词同时写清物体、材质、角度、尺寸和光影
复杂背景额外要求 keep the background outside the mask unchanged
精细边缘第一次生成后,继续用小蒙版局部修边

红色蒙版不等于专业修图软件里的精确遮罩。它更像一种“视觉提示”,模型会根据涂抹位置推断该区域需要重绘什么。

4. 视角推理:从一张图生成俯视图或反向视角

Nano Banana 继承了 Gemini 的多模态理解能力,所以它不只能改画风,也能根据画面里的空间关系做一定程度的推理。例如输入一张照片,让它转换成俯视示意图,并标出摄影师的位置。

Convert the photo into a top-down view.
Mark the photographer's position.
Keep the spatial relationship between the main objects as accurate as possible.
Use simple labels and clean diagram style.

还可以在照片中画一根红色箭头,要求模型生成“从箭头方向看到的画面”。

Generate what the red arrow would see from its viewpoint.
Keep the same location, objects, lighting, and spatial layout.
Do not include the red arrow in the final image.

输入图通过箭头给出观察方向。

图片

输出图会尝试补全另一个视角下的空间。

图片

这种能力适合做分镜、场景预演、短视频空镜参考图,但不能当作严格的三维重建。模型生成的是“合理视角”,不是从原始照片精确计算出的几何投影。如果要做建筑、测绘、工业设计,仍然需要 CAD、三维扫描或摄影测量工具。

5. AR 标注:把现实照片改成位置导览界面

把街景、建筑、展馆、商场入口等照片交给模型,再要求它高亮兴趣点并添加信息气泡,可以快速做出 AR(增强现实)导览概念图。

提示词模板:

You are a location-based AR experience generator.

Highlight the points of interest in the image.
Add clean information callouts for each point.
Use a modern AR interface style.
Keep the original photo visible and avoid covering important architectural details.
If a fact is uncertain, use a generic label instead of inventing a specific name.

生成结果可以用来表达“如果手机镜头对准这个场景,界面上会出现哪些标注”。

图片

AR 标注最容易出错的是事实信息。模型可能会把建筑名称、年份、路线说明编得很像真的,所以正式使用前必须人工核对。比较稳妥的方式是把需要展示的信息直接写进提示词,而不是让模型自己猜。

Use only the following labels:
1. Main Entrance
2. Ticket Office
3. Exhibition Hall A
4. Cafe
5. Restroom

Do not add any other place names.

6. 火柴人姿势迁移:用草图控制角色动作

如果想让两个角色做大幅度动作,单靠文字描述很难精确控制姿势。更稳的做法是提供三类输入:

  1. 角色 A 的参考图
  2. 角色 B 的参考图
  3. 火柴人动作草图

然后让模型把角色套到火柴人动作上,并删除草图本身。

Use Character 1 and Character 2 from the reference images.
Generate a complete action scene based on the pose sketch.

Make the two characters fight using the poses from the sketch.
Add a suitable background, motion lines, impact effects, and scene interaction.
Remove the stick figures and red guide lines from the final image.
Keep both characters recognizable.
Use a wide cinematic composition.

姿势草图不需要画得精细,只要关节方向、身体重心和互动关系清楚即可。

图片

生成结果会把角色、动作和背景统一到一张完整画面里。

图片

火柴人姿势迁移适合漫画分镜、游戏动作概念、角色动态设定。需要注意的是,动作越夸张,角色身份越容易漂移。可以在提示词里反复强调:

Preserve the original facial features, hairstyle, clothing details, and color palette of each character.

如果某个角色总是变脸,可以把角色头像单独裁出来,作为额外参考输入。

7. 插画转真人:让角色变成摄影棚或漫展照片

插画转真人不是简单写一句“make it realistic”。想减少 AI 假感,需要同时指定摄影环境、镜头语言、服装材质和人物身份保留方式。

Generate a realistic photo of a cosplayer portraying this illustration.
Set the background at Comiket.
Keep the hairstyle, costume silhouette, color palette, and main accessories from the illustration.
Use natural skin texture, realistic fabric, and event hall lighting.
Shot on a 50mm lens, candid convention photography style.
Avoid plastic skin and over-smoothed face.

插画输入提供角色设定。

图片

输出更接近漫展现场的角色扮演照片,而不是纯粹的二次元重绘。

图片

这类任务要避免两个极端:提示词太少,模型会随意改角色;提示词太满,模型又可能把画面做得过度僵硬。比较稳的写法是固定核心识别点,例如发型、服装轮廓、主色、配饰,把脸型和摄影风格交给模型发挥。

8. 原创角色设定:一次生成三视图、表情和动作表

做原创角色时,可以把 Nano Banana 当成角色设定草稿工具。它适合快速生成 Character Design(角色设计)、Turnaround Sheet(三视图)、Expression Sheet(表情表)、Pose Sheet(动作表)和 Costume Design(服装设定)。

提示词可以一次写清交付物:

Create a complete character design sheet for an original character.

Include:
- Full-body main design
- Height and body proportion guide
- Front view, side view, and back view
- Expression sheet with at least 8 facial expressions
- Pose sheet with common standing, running, sitting, and fighting poses
- Costume design details
- Color palette and material notes

Use a clean concept art layout.
Keep the character consistent across all panels.
Add readable English labels.

角色设定表需要强调“一致性”,否则不同格子里的脸、发型和服装会出现偏差。

图片

如果要继续深入,可以把生成出的主设计裁出来,作为下一轮输入,再分别生成表情表、服装拆解图和动作表。不要指望一次生成就得到可直接交付的完整设定;更可靠的流程是分阶段收敛。

flowchart TD
    A[生成角色主视觉] --> B[挑选最稳定版本]
    B --> C[裁出正面全身图]
    C --> D[生成三视图]
    C --> E[生成表情表]
    C --> F[生成动作表]
    C --> G[生成服装拆解]
    D --> H[人工统一细节]
    E --> H
    F --> H
    G --> H

9. 海报改稿:替换产品、人物、配色和文案

Nano Banana 可以做海报改稿,例如把原海报里的产品换成另一类产品,把人物替换成女性角色,把整体配色改成粉色,并同步替换广告语。

这类任务要把“替换什么”和“保留什么”分开写:

Edit the poster based on the reference image.

Replace:
- Replace the original product with a smartphone.
- Replace the main person with a young woman.
- Change the overall color theme to soft pink.
- Replace the main headline with: "Shot on iPhone"
- Replace the smaller slogan with: "Big moments. Beautifully captured."

Preserve:
- The overall poster composition
- The hierarchy of headline, product, and person
- The clean advertising style
- High contrast and readable typography

原始海报提供版式、人物位置和视觉层级。

图片

模型可以在同一版式上生成新的产品、人物和配色。

图片

海报文字是高风险点。模型可能把字母写错、把标点变形,或者生成近似但不完全相同的文案。正式物料不要直接使用生成图里的文字,建议把图像部分生成好,再用 Photoshop、Figma 或 Illustrator 重新排版文字。

更稳的海报流程是:

步骤做法
生成视觉底图让模型去掉文字或只保留大块占位
确定构图选择人物、产品、背景最稳定的一版
后期排字用设计软件输入准确文案
局部修图对手部、产品边缘、Logo 区域单独处理

涉及真实品牌、商标和真人肖像时,只适合在授权范围内使用。商业场景要准备可用素材和合规授权,不要把模型生成结果当作自动免版权素材。

10. 概念解释图:把技术说明转成信息图

Nano Banana 也能根据一段说明生成概念解释图,比如解释 GPT-5、AI Coding 与人工编码的区别、某个产品工作流等。它更适合做“视觉草图”,不适合直接生成严谨技术文档。

提示词模板:

Read the input explanation carefully.
Extract the main topic and key ideas.
Create a 16:9 educational infographic.

Requirements:
- Use English labels by default
- Add cute cartoon characters and visual metaphors
- Use a clean information hierarchy
- Keep text short and readable
- Use diagrams, arrows, and section cards
- Do not invent technical claims beyond the input

概念图可以快速把抽象主题变成可视化结构。

图片

对比类主题也适合做成左右分栏或流程对照。

图片

信息图的主要价值在于构图和视觉表达,不在于文字准确率。生成后要检查三件事:

  1. 技术概念有没有被误解
  2. 英文标签有没有拼写错误
  3. 箭头关系有没有把因果、对比、流程混在一起

如果需要严谨表达,可以先让语言模型输出结构化大纲,再把大纲交给 Nano Banana 生成图。

Use the following outline exactly.
Do not add extra concepts.

Title: AI Coding vs Human Coding

Left side:
- AI Coding
- Fast prototype
- Pattern-based generation
- Needs review and tests

Right side:
- Human Coding
- System design
- Business judgment
- Long-term maintainability

11. 平台入口与适合用法

不同入口的定位不一样,可以按任务选择。

入口适合任务说明
Gemini日常图片编辑、多轮对话上手快,适合试提示词
AI Studio调试模型、保存提示词适合反复试模型参数和提示词
Whisk图片风格探索更偏创意生成和视觉实验
Opal画布式工作流适合把多个步骤串起来
OpenRouter统一调用不同模型适合对比模型表现
Flowith 等批量工具多版本生成适合一次跑多张候选图

如果平台限制一次只能上传 10 张图,参考板合并法可以绕开一部分限制:把多个元素放进一张图里,再用标签引用它们。这样不是突破模型能力上限,而是把输入组织得更清楚。

12. 常见翻车点和修正方法

问题原因修正方式
指定 16:9 却生成方图模型对比例指令执行不稳定wide landscape composition,生成后裁切
局部修改影响全图模型没有明确编辑范围使用红框或红色蒙版,并写 keep everything else unchanged
多人物混脸参考对象太多且标签不清做参考板,使用唯一标签
海报文字错误图像模型不擅长精确排字只生成无字底图,后期排版
AR 标注乱编事实模型会根据常识补全信息把所有标签显式写进提示词
姿势对了但角色不像动作约束压过身份约束单独提供头像参考,强调保留发型、脸、服装
物体比例不对缺少尺寸参照在红框附近保留手、桌子、人等参照物
生成结果不稳定图像编辑带随机性同一提示词生成多版,再挑选继续修

一个实用的调试顺序:

flowchart TD
    A[第一次生成] --> B{主要问题是什么}
    B -->|对象混淆| C[给参考图打标签]
    B -->|改错区域| D[加红框或蒙版]
    B -->|风格不统一| E[补充光影、镜头、材质说明]
    B -->|文字错误| F[删除文字生成要求,改后期排版]
    B -->|比例不对| G[生成后裁切或扩图]
    C --> H[再次生成]
    D --> H
    E --> H
    F --> H
    G --> H

Nano Banana 的优势在于图像理解和局部编辑,尤其适合“给它看一张图,然后让它按视觉指令修改”。想要稳定结果,关键不是把提示词写得越来越长,而是让输入材料更清楚:多元素用参考板,局部编辑用红框或蒙版,动作控制用草图,文字物料交给后期排版。


评论