芥末
发布于 2025-12-01 / 0 阅读
0
0

Vidu Q2 图像生成与编辑能力解析:参考生图、文生图和图生视频工作流

AI 生图真正难的地方,往往不是“生成一张看起来不错的图”,而是“按要求稳定生成”。

创作流程里经常会遇到几类问题:

  • 多张参考图放在一起,人物、物体、构图容易被模型改掉;
  • 想把某个角色放进另一个场景,角色脸、服装、姿态不够稳定;
  • 生成了竖图,后续又需要横版封面、海报、短视频封面等不同比例;
  • 想改夜景、换衣服颜色、替换道具,还要重新进 Adobe Photoshop(常被简称为 PS)做蒙版、图层和调色;
  • 图生视频时,前面生成的人物或物体不能方便地复用。

Vidu Q2 的定位可以理解为一套面向 AIGC 内容生产的图像与视频工作台。它把几件事放在一起:参考生图、文生图、图像编辑、主体保存、参考生视频。对创作者来说,关键价值不是单次生成,而是把“生成—修改—复用—视频化”串成一条流程。

flowchart LR
    A[文本提示词] --> B[Vidu Q2]
    C[人物参考图] --> B
    D[物体参考图] --> B
    E[场景参考图] --> B

    B --> F[参考生图]
    B --> G[文生图]
    B --> H[图像编辑]

    F --> I[保存主体]
    G --> I
    H --> I

    I --> J[主体库]
    J --> K[参考生视频]

这套流程里最核心的能力,是多参考一致性。模型不只是“看懂图片里有什么”,还要尽量保留人物身份、物体外观、空间位置、画面比例、光线和整体风格。


Vidu Q2 主要解决什么问题

Vidu Q2 的图像能力可以拆成四块。

能力输入输出适合解决的问题
参考生图多张参考图 + 提示词融合后的新图人物替换、商品合成、多主体组合、场景复刻
文生图文本提示词从零生成图像插画、漫画、概念图、海报视觉草稿
图像编辑原图 + 修改指令修改后的图改比例、改时间、换颜色、调整局部细节
参考生视频主体图 + 动作提示词视频片段角色动起来、商品展示、短视频素材

单看功能名,这些能力并不罕见。真正影响可用性的,是模型能不能在连续操作里保持一致:同一个角色不要越改越不像,商品不要变形,场景不要因为局部修改而大面积重绘。


参考生图:多主体一致性是关键

参考生图不是普通的“图生图”。普通图生图经常只保留大概风格,生成结果会在人物、背景、比例上发生明显漂移。参考生图的目标更细:指定哪些内容要替换,哪些内容必须保持不变。

一个典型任务是:保留原始场景,只把图 1 里的人物替换成图 2 和图 3 的角色。

多参考人物替换任务的输入素材

这类任务需要模型同时完成三件事:

  1. 识别图 1 里的场景结构、镜头角度和背景元素;
  2. 提取图 2、图 3 里人物的身份特征、服装风格和视觉设定;
  3. 把新人物放回图 1 对应位置,同时尽量不改动其他区域。

可以用这样的提示词表达约束:

将图 1 中的人物替换成图 2 和图 3。
保持图 1 的背景、构图、画面比例、光线和镜头角度不变。
替换后的人物需要保留图 2 和图 3 的外观特征、服装风格和整体气质。

Vidu Q2 的生成结果中,主要变化集中在两位人物上,背景结构和画面比例没有明显漂移。

Vidu Q2 的人物替换结果

这个结果说明参考生图并不是简单把人物“贴”进去。人物需要适配原场景的透视、尺寸、光照和边缘过渡,否则会出现抠图感。对内容生产来说,稳定保留背景尤其重要,因为很多商业图、海报图、分镜图都要求场景资产可复用。

同类任务里,如果模型没有很好锁定图 1 的场景约束,结果可能会出现背景、结构或画幅比例变化。

同类模型在人物替换任务中的对比结果

这种差异会直接影响后续流程。背景和比例一旦变化,后续还要重新裁切、补图、修边,甚至要重新生成整组素材。

参考生图的工作逻辑可以这样理解:

flowchart TD
    A[参考图 1: 目标场景] --> D[提取场景结构]
    B[参考图 2: 主体 A] --> E[提取主体特征]
    C[参考图 3: 主体 B] --> F[提取主体特征]

    D --> G[构图约束]
    E --> H[身份与外观约束]
    F --> H

    G --> I[融合生成]
    H --> I
    J[文本提示词] --> I

    I --> K[输出结果]

这里的“约束”很重要。提示词越明确,模型越容易知道哪些部分可以改,哪些部分不能改。


多物体融合:位置、光线和比例同样重要

多主体任务不只发生在人物替换上。商品图、家居图、广告图经常需要把多个物体放进同一个空间,比如把落地灯、挂画和毛绒玩具放进一个房间。

多物体融合任务的参考素材和位置要求

这类任务比单主体替换更难,因为模型要处理空间关系:

  • 落地灯应该靠近地面,不能漂浮;
  • 挂画应该贴合墙面透视;
  • 毛绒玩具要有合适的接触阴影;
  • 新增物体要匹配房间原有光线和色调。

生成结果如果能同时保留物体外观,并把它们放到合理位置,才算真正可用。

Vidu Q2 的多物体融合结果

多主体融合的提示词可以写得更像“施工说明”,不要只写“把这些物体放进房间”。

将参考图中的落地灯、挂画和毛绒玩具放入房间场景。
落地灯放在沙发右侧靠墙位置,保持原始灯具外观。
挂画放在沙发上方墙面,符合墙面透视。
毛绒玩具放在沙发上,保留原始形状和材质。
整体光线、阴影、色调需要与房间一致。
不要改变房间原有布局和画面比例。

多参考任务里,提示词可以按“主体—位置—保持内容—融合要求”组织。

提示词部分作用示例
主体告诉模型要使用哪些参考物落地灯、挂画、毛绒玩具
位置降低随机摆放概率落地灯放在沙发右侧
保持内容锁定主体一致性保持原始外观、材质和颜色
融合要求让结果更像真实画面匹配光线、阴影、透视和色调
禁止修改限制模型重绘范围不改变房间布局和画面比例

多主体越多,越不能依赖一句笼统描述。比较稳妥的写法,是给每个主体单独说明位置和保留要求。


文生图:提示词要覆盖风格、主体、材质和光线

文生图适合从零开始生成视觉方案。它不依赖参考图,但对提示词结构更敏感。

一个简单提示词可以生成漫画风格画面:

浦泽直树漫画风格,四宫格漫画。

更适合生产使用的提示词,会同时描述主体、风格、材质、光线、色彩和背景。例如生成一张带内发光质感的小猫插画:

极简内发光插画,磨砂玻璃材质,
一只猫的侧脸仰望,闭眼,安静温柔,
身体像透明雕塑一样从内部透出光晕,
淡蓝色与橙红色渐变交织,
内部暖光柔和流动,
画面空灵,深蓝或黑色背景。

文生图生成的内发光猫咪插画

这条提示词的结构比较完整,可以拆成几层:

维度示例内容控制目标
风格极简内发光插画决定整体视觉语言
材质磨砂玻璃、透明雕塑决定表面质感
主体一只猫的侧脸仰望决定画面核心内容
情绪闭眼、安静温柔决定姿态和氛围
光线内部暖光、柔和流动决定明暗关系
色彩淡蓝色与橙红色渐变决定配色
背景深蓝或黑色背景衬托主体轮廓

文生图的提示词不一定越长越好,但要覆盖关键视觉变量。缺少风格,结果容易泛化;缺少主体动作,姿态会随机;缺少光线和背景,画面可能没有稳定氛围。


图像编辑:用自然语言完成比例扩展和局部修改

图像编辑是 Vidu Q2 比较适合生产流程的部分。很多 AI 生图工具能生成好看的图,但生成后经常遇到比例不匹配的问题。

例如一张 9:16 的竖图,可能要同时用于:

  • 竖屏短视频封面;
  • 横版广告位;
  • 网站头图;
  • 社交媒体配图;
  • 文章封面;
  • 商品详情页素材。

传统做法通常要进入 PS,手动扩图、修补背景、调整构图。Vidu Q2 的编辑界面提供了比例选项,可以在不重新写提示词的情况下做画幅转换。

Vidu Q2 图像编辑界面的比例选项

当竖图扩展成 16:9 横图时,关键不是简单裁切,而是补全画面两侧缺失区域,同时保持原来的场景和风格。

9:16 图像扩展为 16:9 后的结果

这种能力更接近“语义扩图”:模型需要理解原图场景,再生成合理的新区域。相比手动修图,它适合快速产出多种比例版本;相比普通裁切,它能减少主体被截断的问题。

图像编辑还可以处理局部语义修改,比如把白天改成夜景、改变人物衣服颜色。

把图 1 变成夜景,保持画面整体的场景和风格不变。

将白天场景改为夜景后的结果

另一个常见修改是换颜色:

把图 1 中女子衣服的颜色变成蓝色,
保持画面整体的场景、人物外观和风格不变。

这类任务要注意提示词里的“保持不变”。如果只写“改成夜景”或“衣服变蓝”,模型可能顺手重绘人物、背景、发型甚至构图。更稳的写法是把可变项和不可变项都写清楚。

编辑目标推荐写法容易踩坑的写法
改画幅扩展为 16:9,保持主体位置、场景和风格不变变成横图
改时间改成夜景,保持建筑、人物和构图不变夜晚
改颜色只把外套改成蓝色,其他颜色不变改成蓝色
改道具将手里的花替换成咖啡杯,保持姿势不变拿咖啡
改背景背景换成海边,人物外观、姿势、光线方向不变换背景

和 PS 的关系:不是替代所有修图,而是替代一部分重复操作

自然语言图像编辑很适合做“语义明确”的修改,例如扩图、换颜色、改天气、替换背景、调整风格。但它不等于完全替代 PS。

更准确的关系是:AI 图像编辑适合快速生成候选版本,PS 适合做像素级精修。

任务Vidu Q2 更适合PS 更适合
多比例出图快速生成横版、竖版、方图手动控制每个边缘细节
改色用一句话批量尝试颜色方案精准控制选区、曲线和色相
背景替换快速探索不同场景精修边缘、反光、复杂遮挡
商品精修生成创意场景图保证产品轮廓、材质、商标绝对准确
人像处理尝试服装、光线、风格变化修皮肤、发丝、五官细节
批量创意低成本生成多个方向对最终稿做印刷级处理

如果目标是广告最终交付、商品主图、包装物料,AI 生成结果仍然需要人工检查。尤其是商标、文字、手部、复杂纹理、几何结构,模型偶尔会生成看似合理但细节错误的内容。


一站式多参考工作流:从图像到视频

Vidu Q2 的另一个特点,是把图像生成和视频生成放在同一条链路里。生成好的角色可以保存为主体,再在视频功能里调用。

工作流可以简化成:

sequenceDiagram
    participant U as 用户
    participant I as 图像生成
    participant S as 主体库
    participant V as 视频生成

    U->>I: 文生图或参考生图生成角色
    I-->>U: 返回角色图
    U->>S: 保存为主体
    S-->>U: 主体进入素材库
    U->>V: 选择主体并输入动作提示词
    V-->>U: 输出视频片段

例如生成一个古风漫画女子后,可以把角色保存为主体,再写一条动作提示词:

@古风漫画女子 随风自然转动身体。

这里的 @古风漫画女子 可以理解为对主体库中某个角色的引用。这样做的好处是,视频生成时不需要重新描述角色长相、服装和风格,减少了角色漂移的概率。

在连续内容生产里,主体库很重要。一个角色可能要出现在海报、四宫格漫画、短视频封面、动态视频里。如果每次都从零生成,同一角色很容易变成“相似但不是同一个人”。主体复用能让多张图、多段视频之间更接近统一视觉设定。


适合使用 Vidu Q2 的场景

Vidu Q2 更适合“创意生成 + 快速变体 + 多主体一致性”的流程。

场景为什么适合
角色设定可以用参考图保持人物外观,在不同场景里复用
商品场景图能把商品放进室内、街景、海报等环境
社交媒体配图同一视觉快速扩展成不同画幅
短视频素材主体保存后可以继续做参考生视频
漫画分镜草稿文生图能快速搭建画面方向
广告创意探索多版本低成本试错,便于筛选方向

不太适合完全依赖 AI 输出的场景也要提前明确。

场景风险
高精度商品主图商品结构、材质、商标可能被细微改动
法务要求严格的商业物料参考图授权、人物肖像权、商标使用需要额外确认
大量文字海报AI 生成文字仍可能出现错字、变形和排版问题
像素级修图局部边缘、发丝、反光、印刷细节仍需要专业工具
强一致长序列故事多帧之间仍要做人工筛选和校正

提示词写法:把“改什么”和“别改什么”分开

Vidu Q2 这类工具能不能稳定输出,提示词影响很大。尤其是参考生图和图像编辑任务,不要只描述目标效果,还要描述保留条件。

一个比较通用的模板是:

任务:将 / 生成 / 修改 ______。

参考关系:
- 图 1 是 ______,需要保留 ______。
- 图 2 是 ______,需要提取 ______。
- 图 3 是 ______,需要提取 ______。

画面要求:
- 主体位置:______。
- 构图比例:______。
- 光线色调:______。
- 风格:______。

保持不变:
- 不改变 ______。
- 不改变 ______。
- 不改变 ______。

禁止事项:
- 不要新增无关人物或物体。
- 不要改变主体身份特征。
- 不要改变画面比例。

人物替换可以这样写:

将图 1 中左侧人物替换为图 2 的人物,
将图 1 中右侧人物替换为图 3 的人物。

保持图 1 的背景、构图、画面比例、镜头角度和光照不变。
新人物需要保留参考图中的脸部特征、发型、服装和整体风格。
人物姿态需要自然匹配原场景,不要新增其他人物。

商品融合可以这样写:

将图 2 的落地灯放入图 1 房间的沙发右侧,
将图 3 的挂画放在沙发上方墙面,
将图 4 的毛绒玩具放在沙发左侧。

保持每个物体的原始外观、颜色、材质和比例。
物体需要符合房间透视关系,并产生合理阴影。
保持图 1 的整体布局、光线、色调和画面比例不变。

图像编辑可以这样写:

只将人物外套颜色改为蓝色。
保持人物脸部、发型、姿势、背景、构图、光线和画面风格不变。
不要改变其他衣物颜色,不要新增文字或装饰。

提示词写得越像明确的制作需求,模型越不容易自由发挥。


接入 API 时要关注的工程问题

如果通过 API(应用程序编程接口)把这类能力接入业务系统,重点不只是“能不能生成”,还要考虑可追踪、可复现和可审核。

建议在业务侧记录这些信息:

字段用途
模型版本便于定位不同版本输出差异
输入图片 ID追踪参考图来源和授权状态
提示词复查生成逻辑,便于迭代
输出图片 ID关联审核、编辑和发布流程
任务类型区分文生图、参考生图、图像编辑、视频生成
审核状态标记是否通过人工检查
使用场景区分草稿、内部素材、商业发布

可以把生成任务抽象成这样的业务结构:

{
  "task_type": "reference_image_generation",
  "model": "vidu-q2",
  "references": [
    {
      "id": "scene_001",
      "role": "target_scene"
    },
    {
      "id": "person_001",
      "role": "subject"
    },
    {
      "id": "person_002",
      "role": "subject"
    }
  ],
  "prompt": "将图 1 中的人物替换成图 2 和图 3,保持背景、构图、比例和光线不变。",
  "output_usage": "poster_draft",
  "review_required": true
}

这不是某个具体接口的调用格式,而是业务系统里值得保留的任务信息。AIGC 工作流一旦进入团队协作,任务记录比单次生成更重要。否则后续很难回答:这张图用了哪些参考素材、提示词是什么、有没有审核、能不能商用发布。


使用时容易踩的坑

1. 多主体任务没有编号

如果上传了多张参考图,却只写“把这些放进去”,模型很难准确理解每张图的作用。更稳的方式是明确图 1、图 2、图 3 分别是什么。

2. 只写目标,不写保持条件

“换成夜景”会给模型很大自由度。它可能顺手改建筑、人物、构图。更好的写法是:“改成夜景,保持人物、建筑、构图、风格不变”。

3. 多次编辑导致细节漂移

连续编辑时,每一步都可能带来轻微变化。重要素材可以保留中间版本,发现漂移就回到较早版本重新编辑。

4. 把 AI 结果直接当最终商用稿

AI 输出适合做创意稿和候选稿,但发布前仍要检查人物肖像、商标、文字、商品结构和版权授权。涉及广告投放、包装印刷、品牌主视觉时,人工审核不能省。

5. 忽视画幅变化后的视觉重心

从 9:16 扩展到 16:9 后,主体可能仍然在画面中央,也可能需要重新调整留白和标题区域。如果用于封面或广告,扩图后还要检查信息层级是否合理。


小结

Vidu Q2 的价值集中在三件事上:多参考一致性、自然语言图像编辑、图像到视频的主体复用。参考生图适合解决人物和物体在不同场景中的稳定复用问题;文生图适合快速生成视觉方向;图像编辑适合把一张图改成多种比例和多个版本;主体库则把静态图和视频生成连接起来。

它更像是 AIGC 内容生产里的“前期生成与快速修改工具”,能减少反复抠图、扩图、换色、重生成的时间。但涉及最终交付时,PS 这类专业工具和人工审核仍然有必要。合理的工作方式,是让 AI 快速产出候选方案,再用人工流程做筛选、校正和发布把关。


评论