AI 漫剧从零到一：角色设定、场景构建与分镜编排

上周有位学员在社群提问：“我花了两天用 Midjourney 生成了 50 张图，角色脸全不一样，场景也像拼贴画，根本连不成故事。”这其实戳中了 90% 新手做 AI 漫剧的核心痛点——你只是会生成单张图片，但没有学会用 AI 做“叙事设计”。

今天这篇教程，我会从角色一致性、场景系统化搭建、到分镜的逻辑编排，带你走完一条完整的 AI 漫剧生产管线。工具上我会用到 Midjourney V6.1（2024年8月更新版本）、ComfyUI（基于 SDXL 的工作流）以及 CapCut 的图文成片功能。全程没有废话，直接上参数和步骤。

—

一、角色设定：让 AI 记住“同一张脸”

1.1 问题本质：为什么角色总变脸？

AI 图像模型没有“记忆”。每次生成时，它只根据当前 prompt 重新渲染。要做到角色一致，核心是固定角色的“视觉锚点”——包括发型、肤色、服饰特征、面部比例。这不是靠运气，而是靠参数控制。

1.2 实操：用 Midjourney V6.1 建立角色库

步骤 1：生成初始角色图

打开 Discord，在 Midjourney 频道输入：

/imagine prompt: a young woman with short platinum blonde hair, blue eyes, fair skin, wearing a black leather jacket and white t-shirt, portrait close-up, soft studio lighting, shot on Canon EOS R5, 85mm lens, f/1.8 --ar 3:4 --v 6.1 --s 250

关键参数说明：

`–v 6.1`：必须指定版本，V6.1 的角色一致性比 V6 提升约 40%

`–s 250`：stylize 值，250 是平衡点，太低会死板，太高会偏离

`–ar 3:4`：漫画常用的竖版比例

拿到四张图后，选你最满意的一张。假设是图 U2，点击 U2 放大，然后右键复制图片链接。

步骤 2：创建角色种子（Seed）

用这张图片生成种子值：

/imagine prompt: [刚才的图片链接] --seed 12345 --v 6.1

Midjourney 会基于这张图生成新变体，但 seed 值会被锁定。以后所有该角色的生成，都加上 `–seed 12345`。注意：seed 只在相同 prompt 结构下有效，如果你大幅改 prompt（比如从“白天”改“夜晚”），seed 会失效。

更好的方案：使用 Character Reference（–cref）

这是 V6.1 的新功能。先上传角色图到 Discord，复制链接。然后：

/imagine prompt: [角色链接] a young woman in a futuristic city, wearing a silver jacket, cinematic lighting --cref [角色链接] --cw 100 --v 6.1

`–cref`：角色参考，模型会提取面部特征、发型、肤色

`–cw 100`：参考强度，100 是最高，适合需要完全一致；如果角色需要换发型或换装，降到 50

步骤 3：建立角色多角度素材库

用同一角色 seed 或 cref，生成正面、侧面、背面、半身、全身各一张。保存到文件夹，命名如 `角色名_正面_全身.png`。这个库会在后续分镜中反复调用。

—

二、场景构建：从“一张图”到“一个世界”

2.1 场景的模块化思维

别试图让 AI 一次生成“完美场景”。正确做法是分层构建：先定调（氛围/光线/色调），再填内容（建筑/植被/道具），最后加细节（纹理/阴影/特效）。

2.2 实操：用 ComfyUI 搭建可复用的场景系统

ComfyUI 的优势在于工作流可保存、可复用。我会用 SDXL 模型（推荐 Juggernaut XL 或 Realistic Vision）。

步骤 1：安装必要节点

确保已安装：

ControlNet（版本号 1.1.4+）

IP-Adapter（用于图像提示）

KSampler（默认即可）

步骤 2：构建基础场景工作流

节点连接逻辑：
1. Load Checkpoint → 选 `juggernautXL_version6Runs.safetensors`
2. CLIP Text Encode (Positive) → 输入主 prompt，例如：
> `abandoned cyberpunk street, rain-slicked asphalt, neon signs in blue and pink, glowing puddles, gritty atmosphere, cinematic lighting, volumetric fog, 8k`
3. CLIP Text Encode (Negative) → 输入负面 prompt：
> `blurry, low quality, text, watermark, deformed, extra limbs, distorted face`
4. Empty Latent Image → 设置宽高：`1024×768`（横向构图适合场景）
5. KSampler → 参数：
– Steps: 30
– CFG: 7
– Sampler: `DPM++ 2M Karras`
– Seed: 固定一个值（如 8888），便于复现
6. VAE Decode → 输出图像

步骤 3：用 IP-Adapter 统一场景风格

如果你有一个参考场景图（比如电影《银翼杀手2049》的截图），用 IP-Adapter 让 AI 学习它的色调和构图：

1. 加载参考图到 Load Image 节点
2. 连接 IP-Adapter 节点（模型选 `ip-adapter_sd15.safetensors`，权重 0.7）
3. 把 IP-Adapter 的输出连接到 KSampler 的额外输入

这样每张场景图都会继承参考图的色彩倾向和光线结构，但内容由你的 prompt 决定。

步骤 4：保存为场景模板

在 ComfyUI 中，点击右上角 `Save`，命名如 `场景生成_赛博朋克.json`。以后只需改 prompt 和 seed，就能快速生成同一风格的不同场景。

2.3 场景与角色的合成

用 ComfyUI 的 Inpainting 工作流 把角色放进场景：
1. 生成场景图
2. 用 Load Image 加载场景，用 Mask Editor 涂抹角色站立区域
3. 输入 prompt：`[角色链接] a young woman standing, full body, matching the scene’s lighting`
4. 模型会只重绘遮罩区域，并自动匹配场景的光影和透视

—

三、分镜编排：把静态图变成叙事流

3.1 分镜的逻辑：起承转合与镜头语言

漫剧不是幻灯片。你需要设计：

开场镜头：全景交代环境（如“城市全景，霓虹灯闪烁”）

中景：角色行动（如“主角从巷口走出，表情警觉”）

特写：情感爆发点（如“主角瞳孔放大，看到异常”）

转场：用相似构图或颜色过渡（如“从红色霓虹转到红色血迹”）

3.2 实操：用 CapCut 的图文成片功能快速出分镜

步骤 1：准备分镜描述表

在 Excel 或 Notion 里列一个表格：

| 分镜编号 | 镜头类型 | 动作描述 | 角色状态 | 场景 | 情绪 |
|———|———|———|———|—–|——|
| 1 | 全景 | 城市夜景，霓虹灯闪烁 | 无 | 赛博朋克街道 | 压抑 |
| 2 | 中景 | 主角从巷口走出，看手机 | 疲惫 | 同场景 | 焦虑 |
| 3 | 特写 | 手机屏幕显示警告信息 | 震惊 | 同场景 | 紧张 |

步骤 2：批量生成图像

用 Midjourney 的批量生成功能。在 Discord 输入：

/imagine prompt: [角色链接] cinematic wide shot of a cyberpunk city at night, neon signs, rain, --ar 16:9 --cref [角色链接] --cw 50 --v 6.1

每行 prompt 对应一个分镜。注意：

保持 `–cref` 和 `–cw` 一致

改变 `–ar` 来匹配镜头类型（16:9 电影感，3:4 漫画感）

用 `–seed` 固定场景，否则每张图的背景会不同

步骤 3：导入 CapCut 编排

1. 打开 CapCut，选择“图文成片”
2. 按分镜顺序上传图片，每张图配 1-2 句旁白或对话
3. 调整每张图的时长（建议 3-5 秒，特写可稍长）
4. 添加转场效果：推荐“模糊”“溶解”或“缩放”，不要用花哨的 3D 转场
5. 添加背景音乐和音效（如雨声、脚步声）

步骤 4：微调镜头连贯性

如果发现两张图之间角色表情或位置跳跃，用 CapCut 的“关键帧”功能：

在角色脸上打一个关键帧，用蒙版和缩放让视线连贯

或者回到 Midjourney 用 `–cref` 微调生成过渡帧

—

总结与进阶建议

AI 漫剧的本质不是“生成图片”，而是用 AI 替代传��漫画中的线稿、上色、背景绘制等机械劳动，但叙事、分镜、角色表演仍然需要导演思维。当你掌握了角色 seed 锁定、场景模块化构建、分镜逻辑化编排，你就能在 2 小时内完成过去需要 2 周手绘的 20 页漫剧。

进阶方向：
1. 动态漫剧：用 Runway Gen-2 或 Pika 把关键帧变成 2-3 秒的微动画
2. 多角色对话：建立每个角色的独立 cref 和 seed，用 ComfyUI 的 Batch 模式批量生成对话场景
3. 风格统一：训练自己的 LoRA 模型（用 Kohya_ss），让整部漫剧保持统一的画风

—

常见问题 FAQ

Q1：为什么我用 –cref 生成的角色，换场景后脸还是变了？
A：检查两点：1) 确保每次 prompt 都用同一张 cref 图；2) 场景光线变化剧烈时（如从白天到黑夜），`–cw` 值建议从 100 降到 80，给模型更多空间去匹配光线。如果还不行，用 ComfyUI 的 Inpainting 单独重绘角色区域。

Q2：ComfyUI 工作流跑一张图要 2 分钟，太慢了怎么办？
A：升级到 SDXL Turbo 或 LCM-LoRA 模型，步数降到 4-8，速度提升 5 倍。或者租用云端 GPU（如 RunPod、AutoDL），选 RTX 4090 实例。

Q3：CapCut 的图文成片生成视频后，角色嘴型对不上旁白？
A：目前 CapCut 的 AI 配音不支持口型同步。建议用 HeyGen 或 D-ID 生成角色说话动画，再把视频片段导入 CapCut 合成。

Q4：我的场景图总是有重复的建筑物或奇怪的光影？
A：在负面 prompt 里加 `repeating patterns, duplicate, unrealistic lighting, lens flare`。另外，降低 `–s` 值到 200 以下，减少 AI 的“创意发挥”。

Q5：一部 20 页的漫剧，大概需要生成多少张图？
A：按每页 4-6 格分镜算，约 100-120 张。其中 30% 会因角色不一致或构图问题废弃，所以实际需要生成 150 张左右。建议用 Midjourney 的 Relax 模式（无限生成）或 ComfyUI 的批量队列来节省时间。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

AI 漫剧从零到一：角色设定、场景构建与分镜编排

AI 漫剧从零到一：角色设定、场景构建与分镜编排

一、角色设定：让 AI 记住“同一张脸”

1.1 问题本质：为什么角色总变脸？

1.2 实操：用 Midjourney V6.1 建立角色库

二、场景构建：从“一张图”到“一个世界”

2.1 场景的模块化思维

2.2 实操：用 ComfyUI 搭建可复用的场景系统

2.3 场景与角色的合成

三、分镜编排：把静态图变成叙事流

3.1 分镜的逻辑：起承转合与镜头语言

3.2 实操：用 CapCut 的图文成片功能快速出分镜

总结与进阶建议

常见问题 FAQ

评论(0)

提示：请文明发言取消回复

近期文章

AI 漫剧从零到一：角色设定、场景构建与分镜编排

AI 漫剧从零到一：角色设定、场景构建与分镜编排

一、角色设定：让 AI 记住“同一张脸”

1.1 问题本质：为什么角色总变脸？

1.2 实操：用 Midjourney V6.1 建立角色库

二、场景构建：从“一张图”到“一个世界”

2.1 场景的模块化思维

2.2 实操：用 ComfyUI 搭建可复用的场景系统

2.3 场景与角色的合成

三、分镜编排：把静态图变成叙事流

3.1 分镜的逻辑：起承转合与镜头语言

3.2 实操：用 CapCut 的图文成片功能快速出分镜

总结与进阶建议

常见问题 FAQ

评论(0)

提示：请文明发言 取消回复

相关文章

UE5 光照与特效的完美融合：让游戏画面更具电影感

艺术感拉满的咖啡厅，每处都像 “行走的美学课堂”

使用工具克隆声音 制作爆款短视频《我的读白》

白平衡：解析其还原真实色彩的核心作用

近期文章

提示：请文明发言取消回复

使用工具克隆声音制作爆款短视频《我的读白》