Vidu Q2 图像生成与编辑能力解析：参考生图、文生图和图生视频工作流

AI 生图真正难的地方，往往不是“生成一张看起来不错的图”，而是“按要求稳定生成”。

创作流程里经常会遇到几类问题：

多张参考图放在一起，人物、物体、构图容易被模型改掉；
想把某个角色放进另一个场景，角色脸、服装、姿态不够稳定；
生成了竖图，后续又需要横版封面、海报、短视频封面等不同比例；
想改夜景、换衣服颜色、替换道具，还要重新进 Adobe Photoshop（常被简称为 PS）做蒙版、图层和调色；
图生视频时，前面生成的人物或物体不能方便地复用。

Vidu Q2 的定位可以理解为一套面向 AIGC 内容生产的图像与视频工作台。它把几件事放在一起：参考生图、文生图、图像编辑、主体保存、参考生视频。对创作者来说，关键价值不是单次生成，而是把“生成—修改—复用—视频化”串成一条流程。

flowchart LR
    A[文本提示词] --> B[Vidu Q2]
    C[人物参考图] --> B
    D[物体参考图] --> B
    E[场景参考图] --> B

    B --> F[参考生图]
    B --> G[文生图]
    B --> H[图像编辑]

    F --> I[保存主体]
    G --> I
    H --> I

    I --> J[主体库]
    J --> K[参考生视频]

这套流程里最核心的能力，是多参考一致性。模型不只是“看懂图片里有什么”，还要尽量保留人物身份、物体外观、空间位置、画面比例、光线和整体风格。

Vidu Q2 主要解决什么问题

Vidu Q2 的图像能力可以拆成四块。

能力	输入	输出	适合解决的问题
参考生图	多张参考图 + 提示词	融合后的新图	人物替换、商品合成、多主体组合、场景复刻
文生图	文本提示词	从零生成图像	插画、漫画、概念图、海报视觉草稿
图像编辑	原图 + 修改指令	修改后的图	改比例、改时间、换颜色、调整局部细节
参考生视频	主体图 + 动作提示词	视频片段	角色动起来、商品展示、短视频素材

单看功能名，这些能力并不罕见。真正影响可用性的，是模型能不能在连续操作里保持一致：同一个角色不要越改越不像，商品不要变形，场景不要因为局部修改而大面积重绘。

参考生图：多主体一致性是关键

参考生图不是普通的“图生图”。普通图生图经常只保留大概风格，生成结果会在人物、背景、比例上发生明显漂移。参考生图的目标更细：指定哪些内容要替换，哪些内容必须保持不变。

一个典型任务是：保留原始场景，只把图 1 里的人物替换成图 2 和图 3 的角色。

这类任务需要模型同时完成三件事：

识别图 1 里的场景结构、镜头角度和背景元素；
提取图 2、图 3 里人物的身份特征、服装风格和视觉设定；
把新人物放回图 1 对应位置，同时尽量不改动其他区域。

可以用这样的提示词表达约束：

将图 1 中的人物替换成图 2 和图 3。
保持图 1 的背景、构图、画面比例、光线和镜头角度不变。
替换后的人物需要保留图 2 和图 3 的外观特征、服装风格和整体气质。

Vidu Q2 的生成结果中，主要变化集中在两位人物上，背景结构和画面比例没有明显漂移。

这个结果说明参考生图并不是简单把人物“贴”进去。人物需要适配原场景的透视、尺寸、光照和边缘过渡，否则会出现抠图感。对内容生产来说，稳定保留背景尤其重要，因为很多商业图、海报图、分镜图都要求场景资产可复用。

同类任务里，如果模型没有很好锁定图 1 的场景约束，结果可能会出现背景、结构或画幅比例变化。

这种差异会直接影响后续流程。背景和比例一旦变化，后续还要重新裁切、补图、修边，甚至要重新生成整组素材。

参考生图的工作逻辑可以这样理解：

flowchart TD
    A[参考图 1: 目标场景] --> D[提取场景结构]
    B[参考图 2: 主体 A] --> E[提取主体特征]
    C[参考图 3: 主体 B] --> F[提取主体特征]

    D --> G[构图约束]
    E --> H[身份与外观约束]
    F --> H

    G --> I[融合生成]
    H --> I
    J[文本提示词] --> I

    I --> K[输出结果]

这里的“约束”很重要。提示词越明确，模型越容易知道哪些部分可以改，哪些部分不能改。

多物体融合：位置、光线和比例同样重要

多主体任务不只发生在人物替换上。商品图、家居图、广告图经常需要把多个物体放进同一个空间，比如把落地灯、挂画和毛绒玩具放进一个房间。

这类任务比单主体替换更难，因为模型要处理空间关系：

落地灯应该靠近地面，不能漂浮；
挂画应该贴合墙面透视；
毛绒玩具要有合适的接触阴影；
新增物体要匹配房间原有光线和色调。

生成结果如果能同时保留物体外观，并把它们放到合理位置，才算真正可用。

多主体融合的提示词可以写得更像“施工说明”，不要只写“把这些物体放进房间”。

将参考图中的落地灯、挂画和毛绒玩具放入房间场景。
落地灯放在沙发右侧靠墙位置，保持原始灯具外观。
挂画放在沙发上方墙面，符合墙面透视。
毛绒玩具放在沙发上，保留原始形状和材质。
整体光线、阴影、色调需要与房间一致。
不要改变房间原有布局和画面比例。

多参考任务里，提示词可以按“主体—位置—保持内容—融合要求”组织。

提示词部分	作用	示例
主体	告诉模型要使用哪些参考物	落地灯、挂画、毛绒玩具
位置	降低随机摆放概率	落地灯放在沙发右侧
保持内容	锁定主体一致性	保持原始外观、材质和颜色
融合要求	让结果更像真实画面	匹配光线、阴影、透视和色调
禁止修改	限制模型重绘范围	不改变房间布局和画面比例

多主体越多，越不能依赖一句笼统描述。比较稳妥的写法，是给每个主体单独说明位置和保留要求。

文生图：提示词要覆盖风格、主体、材质和光线

文生图适合从零开始生成视觉方案。它不依赖参考图，但对提示词结构更敏感。

一个简单提示词可以生成漫画风格画面：

浦泽直树漫画风格，四宫格漫画。

更适合生产使用的提示词，会同时描述主体、风格、材质、光线、色彩和背景。例如生成一张带内发光质感的小猫插画：

极简内发光插画，磨砂玻璃材质，
一只猫的侧脸仰望，闭眼，安静温柔，
身体像透明雕塑一样从内部透出光晕，
淡蓝色与橙红色渐变交织，
内部暖光柔和流动，
画面空灵，深蓝或黑色背景。

这条提示词的结构比较完整，可以拆成几层：

维度	示例内容	控制目标
风格	极简内发光插画	决定整体视觉语言
材质	磨砂玻璃、透明雕塑	决定表面质感
主体	一只猫的侧脸仰望	决定画面核心内容
情绪	闭眼、安静温柔	决定姿态和氛围
光线	内部暖光、柔和流动	决定明暗关系
色彩	淡蓝色与橙红色渐变	决定配色
背景	深蓝或黑色背景	衬托主体轮廓

文生图的提示词不一定越长越好，但要覆盖关键视觉变量。缺少风格，结果容易泛化；缺少主体动作，姿态会随机；缺少光线和背景，画面可能没有稳定氛围。

图像编辑：用自然语言完成比例扩展和局部修改

图像编辑是 Vidu Q2 比较适合生产流程的部分。很多 AI 生图工具能生成好看的图，但生成后经常遇到比例不匹配的问题。

例如一张 9:16 的竖图，可能要同时用于：

竖屏短视频封面；
横版广告位；
网站头图；
社交媒体配图；
文章封面；
商品详情页素材。

传统做法通常要进入 PS，手动扩图、修补背景、调整构图。Vidu Q2 的编辑界面提供了比例选项，可以在不重新写提示词的情况下做画幅转换。

当竖图扩展成 16:9 横图时，关键不是简单裁切，而是补全画面两侧缺失区域，同时保持原来的场景和风格。

这种能力更接近“语义扩图”：模型需要理解原图场景，再生成合理的新区域。相比手动修图，它适合快速产出多种比例版本；相比普通裁切，它能减少主体被截断的问题。

图像编辑还可以处理局部语义修改，比如把白天改成夜景、改变人物衣服颜色。

把图 1 变成夜景，保持画面整体的场景和风格不变。

另一个常见修改是换颜色：

把图 1 中女子衣服的颜色变成蓝色，
保持画面整体的场景、人物外观和风格不变。

这类任务要注意提示词里的“保持不变”。如果只写“改成夜景”或“衣服变蓝”，模型可能顺手重绘人物、背景、发型甚至构图。更稳的写法是把可变项和不可变项都写清楚。

编辑目标	推荐写法	容易踩坑的写法
改画幅	扩展为 16:9，保持主体位置、场景和风格不变	变成横图
改时间	改成夜景，保持建筑、人物和构图不变	夜晚
改颜色	只把外套改成蓝色，其他颜色不变	改成蓝色
改道具	将手里的花替换成咖啡杯，保持姿势不变	拿咖啡
改背景	背景换成海边，人物外观、姿势、光线方向不变	换背景

和 PS 的关系：不是替代所有修图，而是替代一部分重复操作

自然语言图像编辑很适合做“语义明确”的修改，例如扩图、换颜色、改天气、替换背景、调整风格。但它不等于完全替代 PS。

更准确的关系是：AI 图像编辑适合快速生成候选版本，PS 适合做像素级精修。

任务	Vidu Q2 更适合	PS 更适合
多比例出图	快速生成横版、竖版、方图	手动控制每个边缘细节
改色	用一句话批量尝试颜色方案	精准控制选区、曲线和色相
背景替换	快速探索不同场景	精修边缘、反光、复杂遮挡
商品精修	生成创意场景图	保证产品轮廓、材质、商标绝对准确
人像处理	尝试服装、光线、风格变化	修皮肤、发丝、五官细节
批量创意	低成本生成多个方向	对最终稿做印刷级处理

如果目标是广告最终交付、商品主图、包装物料，AI 生成结果仍然需要人工检查。尤其是商标、文字、手部、复杂纹理、几何结构，模型偶尔会生成看似合理但细节错误的内容。

一站式多参考工作流：从图像到视频

Vidu Q2 的另一个特点，是把图像生成和视频生成放在同一条链路里。生成好的角色可以保存为主体，再在视频功能里调用。

工作流可以简化成：

sequenceDiagram
    participant U as 用户
    participant I as 图像生成
    participant S as 主体库
    participant V as 视频生成

    U->>I: 文生图或参考生图生成角色
    I-->>U: 返回角色图
    U->>S: 保存为主体
    S-->>U: 主体进入素材库
    U->>V: 选择主体并输入动作提示词
    V-->>U: 输出视频片段

例如生成一个古风漫画女子后，可以把角色保存为主体，再写一条动作提示词：

@古风漫画女子 随风自然转动身体。

这里的 @古风漫画女子 可以理解为对主体库中某个角色的引用。这样做的好处是，视频生成时不需要重新描述角色长相、服装和风格，减少了角色漂移的概率。

在连续内容生产里，主体库很重要。一个角色可能要出现在海报、四宫格漫画、短视频封面、动态视频里。如果每次都从零生成，同一角色很容易变成“相似但不是同一个人”。主体复用能让多张图、多段视频之间更接近统一视觉设定。

适合使用 Vidu Q2 的场景

Vidu Q2 更适合“创意生成 + 快速变体 + 多主体一致性”的流程。

场景	为什么适合
角色设定	可以用参考图保持人物外观，在不同场景里复用
商品场景图	能把商品放进室内、街景、海报等环境
社交媒体配图	同一视觉快速扩展成不同画幅
短视频素材	主体保存后可以继续做参考生视频
漫画分镜草稿	文生图能快速搭建画面方向
广告创意探索	多版本低成本试错，便于筛选方向

不太适合完全依赖 AI 输出的场景也要提前明确。

场景	风险
高精度商品主图	商品结构、材质、商标可能被细微改动
法务要求严格的商业物料	参考图授权、人物肖像权、商标使用需要额外确认
大量文字海报	AI 生成文字仍可能出现错字、变形和排版问题
像素级修图	局部边缘、发丝、反光、印刷细节仍需要专业工具
强一致长序列故事	多帧之间仍要做人工筛选和校正

提示词写法：把“改什么”和“别改什么”分开

Vidu Q2 这类工具能不能稳定输出，提示词影响很大。尤其是参考生图和图像编辑任务，不要只描述目标效果，还要描述保留条件。

一个比较通用的模板是：

任务：将 / 生成 / 修改 ______。

参考关系：
- 图 1 是 ______，需要保留 ______。
- 图 2 是 ______，需要提取 ______。
- 图 3 是 ______，需要提取 ______。

画面要求：
- 主体位置：______。
- 构图比例：______。
- 光线色调：______。
- 风格：______。

保持不变：
- 不改变 ______。
- 不改变 ______。
- 不改变 ______。

禁止事项：
- 不要新增无关人物或物体。
- 不要改变主体身份特征。
- 不要改变画面比例。

人物替换可以这样写：

将图 1 中左侧人物替换为图 2 的人物，
将图 1 中右侧人物替换为图 3 的人物。

保持图 1 的背景、构图、画面比例、镜头角度和光照不变。
新人物需要保留参考图中的脸部特征、发型、服装和整体风格。
人物姿态需要自然匹配原场景，不要新增其他人物。

商品融合可以这样写：

将图 2 的落地灯放入图 1 房间的沙发右侧，
将图 3 的挂画放在沙发上方墙面，
将图 4 的毛绒玩具放在沙发左侧。

保持每个物体的原始外观、颜色、材质和比例。
物体需要符合房间透视关系，并产生合理阴影。
保持图 1 的整体布局、光线、色调和画面比例不变。

图像编辑可以这样写：

只将人物外套颜色改为蓝色。
保持人物脸部、发型、姿势、背景、构图、光线和画面风格不变。
不要改变其他衣物颜色，不要新增文字或装饰。

提示词写得越像明确的制作需求，模型越不容易自由发挥。

接入 API 时要关注的工程问题

如果通过 API（应用程序编程接口）把这类能力接入业务系统，重点不只是“能不能生成”，还要考虑可追踪、可复现和可审核。

建议在业务侧记录这些信息：

字段	用途
模型版本	便于定位不同版本输出差异
输入图片 ID	追踪参考图来源和授权状态
提示词	复查生成逻辑，便于迭代
输出图片 ID	关联审核、编辑和发布流程
任务类型	区分文生图、参考生图、图像编辑、视频生成
审核状态	标记是否通过人工检查
使用场景	区分草稿、内部素材、商业发布

可以把生成任务抽象成这样的业务结构：

{
  "task_type": "reference_image_generation",
  "model": "vidu-q2",
  "references": [
    {
      "id": "scene_001",
      "role": "target_scene"
    },
    {
      "id": "person_001",
      "role": "subject"
    },
    {
      "id": "person_002",
      "role": "subject"
    }
  ],
  "prompt": "将图 1 中的人物替换成图 2 和图 3，保持背景、构图、比例和光线不变。",
  "output_usage": "poster_draft",
  "review_required": true
}

这不是某个具体接口的调用格式，而是业务系统里值得保留的任务信息。AIGC 工作流一旦进入团队协作，任务记录比单次生成更重要。否则后续很难回答：这张图用了哪些参考素材、提示词是什么、有没有审核、能不能商用发布。

使用时容易踩的坑

1. 多主体任务没有编号

如果上传了多张参考图，却只写“把这些放进去”，模型很难准确理解每张图的作用。更稳的方式是明确图 1、图 2、图 3 分别是什么。

2. 只写目标，不写保持条件

“换成夜景”会给模型很大自由度。它可能顺手改建筑、人物、构图。更好的写法是：“改成夜景，保持人物、建筑、构图、风格不变”。

3. 多次编辑导致细节漂移

连续编辑时，每一步都可能带来轻微变化。重要素材可以保留中间版本，发现漂移就回到较早版本重新编辑。

4. 把 AI 结果直接当最终商用稿

AI 输出适合做创意稿和候选稿，但发布前仍要检查人物肖像、商标、文字、商品结构和版权授权。涉及广告投放、包装印刷、品牌主视觉时，人工审核不能省。

5. 忽视画幅变化后的视觉重心

从 9:16 扩展到 16:9 后，主体可能仍然在画面中央，也可能需要重新调整留白和标题区域。如果用于封面或广告，扩图后还要检查信息层级是否合理。

小结

Vidu Q2 的价值集中在三件事上：多参考一致性、自然语言图像编辑、图像到视频的主体复用。参考生图适合解决人物和物体在不同场景中的稳定复用问题；文生图适合快速生成视觉方向；图像编辑适合把一张图改成多种比例和多个版本；主体库则把静态图和视频生成连接起来。

它更像是 AIGC 内容生产里的“前期生成与快速修改工具”，能减少反复抠图、扩图、换色、重生成的时间。但涉及最终交付时，PS 这类专业工具和人工审核仍然有必要。合理的工作方式，是让 AI 快速产出候选方案，再用人工流程做筛选、校正和发布把关。

菜单