AI 生图真正难的地方,往往不是“生成一张看起来不错的图”,而是“按要求稳定生成”。
创作流程里经常会遇到几类问题:
- 多张参考图放在一起,人物、物体、构图容易被模型改掉;
- 想把某个角色放进另一个场景,角色脸、服装、姿态不够稳定;
- 生成了竖图,后续又需要横版封面、海报、短视频封面等不同比例;
- 想改夜景、换衣服颜色、替换道具,还要重新进 Adobe Photoshop(常被简称为 PS)做蒙版、图层和调色;
- 图生视频时,前面生成的人物或物体不能方便地复用。
Vidu Q2 的定位可以理解为一套面向 AIGC 内容生产的图像与视频工作台。它把几件事放在一起:参考生图、文生图、图像编辑、主体保存、参考生视频。对创作者来说,关键价值不是单次生成,而是把“生成—修改—复用—视频化”串成一条流程。
flowchart LR
A[文本提示词] --> B[Vidu Q2]
C[人物参考图] --> B
D[物体参考图] --> B
E[场景参考图] --> B
B --> F[参考生图]
B --> G[文生图]
B --> H[图像编辑]
F --> I[保存主体]
G --> I
H --> I
I --> J[主体库]
J --> K[参考生视频]
这套流程里最核心的能力,是多参考一致性。模型不只是“看懂图片里有什么”,还要尽量保留人物身份、物体外观、空间位置、画面比例、光线和整体风格。
Vidu Q2 主要解决什么问题
Vidu Q2 的图像能力可以拆成四块。
| 能力 | 输入 | 输出 | 适合解决的问题 |
|---|---|---|---|
| 参考生图 | 多张参考图 + 提示词 | 融合后的新图 | 人物替换、商品合成、多主体组合、场景复刻 |
| 文生图 | 文本提示词 | 从零生成图像 | 插画、漫画、概念图、海报视觉草稿 |
| 图像编辑 | 原图 + 修改指令 | 修改后的图 | 改比例、改时间、换颜色、调整局部细节 |
| 参考生视频 | 主体图 + 动作提示词 | 视频片段 | 角色动起来、商品展示、短视频素材 |
单看功能名,这些能力并不罕见。真正影响可用性的,是模型能不能在连续操作里保持一致:同一个角色不要越改越不像,商品不要变形,场景不要因为局部修改而大面积重绘。
参考生图:多主体一致性是关键
参考生图不是普通的“图生图”。普通图生图经常只保留大概风格,生成结果会在人物、背景、比例上发生明显漂移。参考生图的目标更细:指定哪些内容要替换,哪些内容必须保持不变。
一个典型任务是:保留原始场景,只把图 1 里的人物替换成图 2 和图 3 的角色。
这类任务需要模型同时完成三件事:
- 识别图 1 里的场景结构、镜头角度和背景元素;
- 提取图 2、图 3 里人物的身份特征、服装风格和视觉设定;
- 把新人物放回图 1 对应位置,同时尽量不改动其他区域。
可以用这样的提示词表达约束:
将图 1 中的人物替换成图 2 和图 3。
保持图 1 的背景、构图、画面比例、光线和镜头角度不变。
替换后的人物需要保留图 2 和图 3 的外观特征、服装风格和整体气质。
Vidu Q2 的生成结果中,主要变化集中在两位人物上,背景结构和画面比例没有明显漂移。
这个结果说明参考生图并不是简单把人物“贴”进去。人物需要适配原场景的透视、尺寸、光照和边缘过渡,否则会出现抠图感。对内容生产来说,稳定保留背景尤其重要,因为很多商业图、海报图、分镜图都要求场景资产可复用。
同类任务里,如果模型没有很好锁定图 1 的场景约束,结果可能会出现背景、结构或画幅比例变化。
这种差异会直接影响后续流程。背景和比例一旦变化,后续还要重新裁切、补图、修边,甚至要重新生成整组素材。
参考生图的工作逻辑可以这样理解:
flowchart TD
A[参考图 1: 目标场景] --> D[提取场景结构]
B[参考图 2: 主体 A] --> E[提取主体特征]
C[参考图 3: 主体 B] --> F[提取主体特征]
D --> G[构图约束]
E --> H[身份与外观约束]
F --> H
G --> I[融合生成]
H --> I
J[文本提示词] --> I
I --> K[输出结果]
这里的“约束”很重要。提示词越明确,模型越容易知道哪些部分可以改,哪些部分不能改。
多物体融合:位置、光线和比例同样重要
多主体任务不只发生在人物替换上。商品图、家居图、广告图经常需要把多个物体放进同一个空间,比如把落地灯、挂画和毛绒玩具放进一个房间。
这类任务比单主体替换更难,因为模型要处理空间关系:
- 落地灯应该靠近地面,不能漂浮;
- 挂画应该贴合墙面透视;
- 毛绒玩具要有合适的接触阴影;
- 新增物体要匹配房间原有光线和色调。
生成结果如果能同时保留物体外观,并把它们放到合理位置,才算真正可用。
多主体融合的提示词可以写得更像“施工说明”,不要只写“把这些物体放进房间”。
将参考图中的落地灯、挂画和毛绒玩具放入房间场景。
落地灯放在沙发右侧靠墙位置,保持原始灯具外观。
挂画放在沙发上方墙面,符合墙面透视。
毛绒玩具放在沙发上,保留原始形状和材质。
整体光线、阴影、色调需要与房间一致。
不要改变房间原有布局和画面比例。
多参考任务里,提示词可以按“主体—位置—保持内容—融合要求”组织。
| 提示词部分 | 作用 | 示例 |
|---|---|---|
| 主体 | 告诉模型要使用哪些参考物 | 落地灯、挂画、毛绒玩具 |
| 位置 | 降低随机摆放概率 | 落地灯放在沙发右侧 |
| 保持内容 | 锁定主体一致性 | 保持原始外观、材质和颜色 |
| 融合要求 | 让结果更像真实画面 | 匹配光线、阴影、透视和色调 |
| 禁止修改 | 限制模型重绘范围 | 不改变房间布局和画面比例 |
多主体越多,越不能依赖一句笼统描述。比较稳妥的写法,是给每个主体单独说明位置和保留要求。
文生图:提示词要覆盖风格、主体、材质和光线
文生图适合从零开始生成视觉方案。它不依赖参考图,但对提示词结构更敏感。
一个简单提示词可以生成漫画风格画面:
浦泽直树漫画风格,四宫格漫画。
更适合生产使用的提示词,会同时描述主体、风格、材质、光线、色彩和背景。例如生成一张带内发光质感的小猫插画:
极简内发光插画,磨砂玻璃材质,
一只猫的侧脸仰望,闭眼,安静温柔,
身体像透明雕塑一样从内部透出光晕,
淡蓝色与橙红色渐变交织,
内部暖光柔和流动,
画面空灵,深蓝或黑色背景。
这条提示词的结构比较完整,可以拆成几层:
| 维度 | 示例内容 | 控制目标 |
|---|---|---|
| 风格 | 极简内发光插画 | 决定整体视觉语言 |
| 材质 | 磨砂玻璃、透明雕塑 | 决定表面质感 |
| 主体 | 一只猫的侧脸仰望 | 决定画面核心内容 |
| 情绪 | 闭眼、安静温柔 | 决定姿态和氛围 |
| 光线 | 内部暖光、柔和流动 | 决定明暗关系 |
| 色彩 | 淡蓝色与橙红色渐变 | 决定配色 |
| 背景 | 深蓝或黑色背景 | 衬托主体轮廓 |
文生图的提示词不一定越长越好,但要覆盖关键视觉变量。缺少风格,结果容易泛化;缺少主体动作,姿态会随机;缺少光线和背景,画面可能没有稳定氛围。
图像编辑:用自然语言完成比例扩展和局部修改
图像编辑是 Vidu Q2 比较适合生产流程的部分。很多 AI 生图工具能生成好看的图,但生成后经常遇到比例不匹配的问题。
例如一张 9:16 的竖图,可能要同时用于:
- 竖屏短视频封面;
- 横版广告位;
- 网站头图;
- 社交媒体配图;
- 文章封面;
- 商品详情页素材。
传统做法通常要进入 PS,手动扩图、修补背景、调整构图。Vidu Q2 的编辑界面提供了比例选项,可以在不重新写提示词的情况下做画幅转换。
当竖图扩展成 16:9 横图时,关键不是简单裁切,而是补全画面两侧缺失区域,同时保持原来的场景和风格。
这种能力更接近“语义扩图”:模型需要理解原图场景,再生成合理的新区域。相比手动修图,它适合快速产出多种比例版本;相比普通裁切,它能减少主体被截断的问题。
图像编辑还可以处理局部语义修改,比如把白天改成夜景、改变人物衣服颜色。
把图 1 变成夜景,保持画面整体的场景和风格不变。
另一个常见修改是换颜色:
把图 1 中女子衣服的颜色变成蓝色,
保持画面整体的场景、人物外观和风格不变。
这类任务要注意提示词里的“保持不变”。如果只写“改成夜景”或“衣服变蓝”,模型可能顺手重绘人物、背景、发型甚至构图。更稳的写法是把可变项和不可变项都写清楚。
| 编辑目标 | 推荐写法 | 容易踩坑的写法 |
|---|---|---|
| 改画幅 | 扩展为 16:9,保持主体位置、场景和风格不变 | 变成横图 |
| 改时间 | 改成夜景,保持建筑、人物和构图不变 | 夜晚 |
| 改颜色 | 只把外套改成蓝色,其他颜色不变 | 改成蓝色 |
| 改道具 | 将手里的花替换成咖啡杯,保持姿势不变 | 拿咖啡 |
| 改背景 | 背景换成海边,人物外观、姿势、光线方向不变 | 换背景 |
和 PS 的关系:不是替代所有修图,而是替代一部分重复操作
自然语言图像编辑很适合做“语义明确”的修改,例如扩图、换颜色、改天气、替换背景、调整风格。但它不等于完全替代 PS。
更准确的关系是:AI 图像编辑适合快速生成候选版本,PS 适合做像素级精修。
| 任务 | Vidu Q2 更适合 | PS 更适合 |
|---|---|---|
| 多比例出图 | 快速生成横版、竖版、方图 | 手动控制每个边缘细节 |
| 改色 | 用一句话批量尝试颜色方案 | 精准控制选区、曲线和色相 |
| 背景替换 | 快速探索不同场景 | 精修边缘、反光、复杂遮挡 |
| 商品精修 | 生成创意场景图 | 保证产品轮廓、材质、商标绝对准确 |
| 人像处理 | 尝试服装、光线、风格变化 | 修皮肤、发丝、五官细节 |
| 批量创意 | 低成本生成多个方向 | 对最终稿做印刷级处理 |
如果目标是广告最终交付、商品主图、包装物料,AI 生成结果仍然需要人工检查。尤其是商标、文字、手部、复杂纹理、几何结构,模型偶尔会生成看似合理但细节错误的内容。
一站式多参考工作流:从图像到视频
Vidu Q2 的另一个特点,是把图像生成和视频生成放在同一条链路里。生成好的角色可以保存为主体,再在视频功能里调用。
工作流可以简化成:
sequenceDiagram
participant U as 用户
participant I as 图像生成
participant S as 主体库
participant V as 视频生成
U->>I: 文生图或参考生图生成角色
I-->>U: 返回角色图
U->>S: 保存为主体
S-->>U: 主体进入素材库
U->>V: 选择主体并输入动作提示词
V-->>U: 输出视频片段
例如生成一个古风漫画女子后,可以把角色保存为主体,再写一条动作提示词:
@古风漫画女子 随风自然转动身体。
这里的 @古风漫画女子 可以理解为对主体库中某个角色的引用。这样做的好处是,视频生成时不需要重新描述角色长相、服装和风格,减少了角色漂移的概率。
在连续内容生产里,主体库很重要。一个角色可能要出现在海报、四宫格漫画、短视频封面、动态视频里。如果每次都从零生成,同一角色很容易变成“相似但不是同一个人”。主体复用能让多张图、多段视频之间更接近统一视觉设定。
适合使用 Vidu Q2 的场景
Vidu Q2 更适合“创意生成 + 快速变体 + 多主体一致性”的流程。
| 场景 | 为什么适合 |
|---|---|
| 角色设定 | 可以用参考图保持人物外观,在不同场景里复用 |
| 商品场景图 | 能把商品放进室内、街景、海报等环境 |
| 社交媒体配图 | 同一视觉快速扩展成不同画幅 |
| 短视频素材 | 主体保存后可以继续做参考生视频 |
| 漫画分镜草稿 | 文生图能快速搭建画面方向 |
| 广告创意探索 | 多版本低成本试错,便于筛选方向 |
不太适合完全依赖 AI 输出的场景也要提前明确。
| 场景 | 风险 |
|---|---|
| 高精度商品主图 | 商品结构、材质、商标可能被细微改动 |
| 法务要求严格的商业物料 | 参考图授权、人物肖像权、商标使用需要额外确认 |
| 大量文字海报 | AI 生成文字仍可能出现错字、变形和排版问题 |
| 像素级修图 | 局部边缘、发丝、反光、印刷细节仍需要专业工具 |
| 强一致长序列故事 | 多帧之间仍要做人工筛选和校正 |
提示词写法:把“改什么”和“别改什么”分开
Vidu Q2 这类工具能不能稳定输出,提示词影响很大。尤其是参考生图和图像编辑任务,不要只描述目标效果,还要描述保留条件。
一个比较通用的模板是:
任务:将 / 生成 / 修改 ______。
参考关系:
- 图 1 是 ______,需要保留 ______。
- 图 2 是 ______,需要提取 ______。
- 图 3 是 ______,需要提取 ______。
画面要求:
- 主体位置:______。
- 构图比例:______。
- 光线色调:______。
- 风格:______。
保持不变:
- 不改变 ______。
- 不改变 ______。
- 不改变 ______。
禁止事项:
- 不要新增无关人物或物体。
- 不要改变主体身份特征。
- 不要改变画面比例。
人物替换可以这样写:
将图 1 中左侧人物替换为图 2 的人物,
将图 1 中右侧人物替换为图 3 的人物。
保持图 1 的背景、构图、画面比例、镜头角度和光照不变。
新人物需要保留参考图中的脸部特征、发型、服装和整体风格。
人物姿态需要自然匹配原场景,不要新增其他人物。
商品融合可以这样写:
将图 2 的落地灯放入图 1 房间的沙发右侧,
将图 3 的挂画放在沙发上方墙面,
将图 4 的毛绒玩具放在沙发左侧。
保持每个物体的原始外观、颜色、材质和比例。
物体需要符合房间透视关系,并产生合理阴影。
保持图 1 的整体布局、光线、色调和画面比例不变。
图像编辑可以这样写:
只将人物外套颜色改为蓝色。
保持人物脸部、发型、姿势、背景、构图、光线和画面风格不变。
不要改变其他衣物颜色,不要新增文字或装饰。
提示词写得越像明确的制作需求,模型越不容易自由发挥。
接入 API 时要关注的工程问题
如果通过 API(应用程序编程接口)把这类能力接入业务系统,重点不只是“能不能生成”,还要考虑可追踪、可复现和可审核。
建议在业务侧记录这些信息:
| 字段 | 用途 |
|---|---|
| 模型版本 | 便于定位不同版本输出差异 |
| 输入图片 ID | 追踪参考图来源和授权状态 |
| 提示词 | 复查生成逻辑,便于迭代 |
| 输出图片 ID | 关联审核、编辑和发布流程 |
| 任务类型 | 区分文生图、参考生图、图像编辑、视频生成 |
| 审核状态 | 标记是否通过人工检查 |
| 使用场景 | 区分草稿、内部素材、商业发布 |
可以把生成任务抽象成这样的业务结构:
{
"task_type": "reference_image_generation",
"model": "vidu-q2",
"references": [
{
"id": "scene_001",
"role": "target_scene"
},
{
"id": "person_001",
"role": "subject"
},
{
"id": "person_002",
"role": "subject"
}
],
"prompt": "将图 1 中的人物替换成图 2 和图 3,保持背景、构图、比例和光线不变。",
"output_usage": "poster_draft",
"review_required": true
}
这不是某个具体接口的调用格式,而是业务系统里值得保留的任务信息。AIGC 工作流一旦进入团队协作,任务记录比单次生成更重要。否则后续很难回答:这张图用了哪些参考素材、提示词是什么、有没有审核、能不能商用发布。
使用时容易踩的坑
1. 多主体任务没有编号
如果上传了多张参考图,却只写“把这些放进去”,模型很难准确理解每张图的作用。更稳的方式是明确图 1、图 2、图 3 分别是什么。
2. 只写目标,不写保持条件
“换成夜景”会给模型很大自由度。它可能顺手改建筑、人物、构图。更好的写法是:“改成夜景,保持人物、建筑、构图、风格不变”。
3. 多次编辑导致细节漂移
连续编辑时,每一步都可能带来轻微变化。重要素材可以保留中间版本,发现漂移就回到较早版本重新编辑。
4. 把 AI 结果直接当最终商用稿
AI 输出适合做创意稿和候选稿,但发布前仍要检查人物肖像、商标、文字、商品结构和版权授权。涉及广告投放、包装印刷、品牌主视觉时,人工审核不能省。
5. 忽视画幅变化后的视觉重心
从 9:16 扩展到 16:9 后,主体可能仍然在画面中央,也可能需要重新调整留白和标题区域。如果用于封面或广告,扩图后还要检查信息层级是否合理。
小结
Vidu Q2 的价值集中在三件事上:多参考一致性、自然语言图像编辑、图像到视频的主体复用。参考生图适合解决人物和物体在不同场景中的稳定复用问题;文生图适合快速生成视觉方向;图像编辑适合把一张图改成多种比例和多个版本;主体库则把静态图和视频生成连接起来。
它更像是 AIGC 内容生产里的“前期生成与快速修改工具”,能减少反复抠图、扩图、换色、重生成的时间。但涉及最终交付时,PS 这类专业工具和人工审核仍然有必要。合理的工作方式,是让 AI 快速产出候选方案,再用人工流程做筛选、校正和发布把关。








