AI 漫剧从零到一:角色设定、场景构建与分镜编排
上周有位学员在社群提问:“我花了两天用 Midjourney 生成了 50 张图,角色脸全不一样,场景也像拼贴画,根本连不成故事。”这其实戳中了 90% 新手做 AI 漫剧的核心痛点——你只是会生成单张图片,但没有学会用 AI 做“叙事设计”。
今天这篇教程,我会从角色一致性、场景系统化搭建、到分镜的逻辑编排,带你走完一条完整的 AI 漫剧生产管线。工具上我会用到 Midjourney V6.1(2024年8月更新版本)、ComfyUI(基于 SDXL 的工作流)以及 CapCut 的图文成片功能。全程没有废话,直接上参数和步骤。
—
一、角色设定:让 AI 记住“同一张脸”
1.1 问题本质:为什么角色总变脸?
AI 图像模型没有“记忆”。每次生成时,它只根据当前 prompt 重新渲染。要做到角色一致,核心是固定角色的“视觉锚点”——包括发型、肤色、服饰特征、面部比例。这不是靠运气,而是靠参数控制。
1.2 实操:用 Midjourney V6.1 建立角色库
步骤 1:生成初始角色图
打开 Discord,在 Midjourney 频道输入:
/imagine prompt: a young woman with short platinum blonde hair, blue eyes, fair skin, wearing a black leather jacket and white t-shirt, portrait close-up, soft studio lighting, shot on Canon EOS R5, 85mm lens, f/1.8 --ar 3:4 --v 6.1 --s 250
关键参数说明:
- `–v 6.1`:必须指定版本,V6.1 的角色一致性比 V6 提升约 40%
拿到四张图后,选你最满意的一张。假设是图 U2,点击 U2 放大,然后右键复制图片链接。
步骤 2:创建角色种子(Seed)
用这张图片生成种子值:
/imagine prompt: [刚才的图片链接] --seed 12345 --v 6.1
Midjourney 会基于这张图生成新变体,但 seed 值会被锁定。以后所有该角色的生成,都加上 `–seed 12345`。注意:seed 只在相同 prompt 结构下有效,如果你大幅改 prompt(比如从“白天”改“夜晚”),seed 会失效。
更好的方案:使用 Character Reference(–cref)
这是 V6.1 的新功能。先上传角色图到 Discord,复制链接。然后:
/imagine prompt: [角色链接] a young woman in a futuristic city, wearing a silver jacket, cinematic lighting --cref [角色链接] --cw 100 --v 6.1
步骤 3:建立角色多角度素材库
用同一角色 seed 或 cref,生成正面、侧面、背面、半身、全身各一张。保存到文件夹,命名如 `角色名_正面_全身.png`。这个库会在后续分镜中反复调用。
—
二、场景构建:从“一张图”到“一个世界”
2.1 场景的模块化思维
别试图让 AI 一次生成“完美场景”。正确做法是分层构建:先定调(氛围/光线/色调),再填内容(建筑/植被/道具),最后加细节(纹理/阴影/特效)。
2.2 实操:用 ComfyUI 搭建可复用的场景系统
ComfyUI 的优势在于工作流可保存、可复用。我会用 SDXL 模型(推荐 Juggernaut XL 或 Realistic Vision)。
步骤 1:安装必要节点
确保已安装:
步骤 2:构建基础场景工作流
节点连接逻辑:
1. Load Checkpoint → 选 `juggernautXL_version6Runs.safetensors`
2. CLIP Text Encode (Positive) → 输入主 prompt,例如:
> `abandoned cyberpunk street, rain-slicked asphalt, neon signs in blue and pink, glowing puddles, gritty atmosphere, cinematic lighting, volumetric fog, 8k`
3. CLIP Text Encode (Negative) → 输入负面 prompt:
> `blurry, low quality, text, watermark, deformed, extra limbs, distorted face`
4. Empty Latent Image → 设置宽高:`1024×768`(横向构图适合场景)
5. KSampler → 参数:
– Steps: 30
– CFG: 7
– Sampler: `DPM++ 2M Karras`
– Seed: 固定一个值(如 8888),便于复现
6. VAE Decode → 输出图像
步骤 3:用 IP-Adapter 统一场景风格
如果你有一个参考场景图(比如电影《银翼杀手2049》的截图),用 IP-Adapter 让 AI 学习它的色调和构图:
1. 加载参考图到 Load Image 节点
2. 连接 IP-Adapter 节点(模型选 `ip-adapter_sd15.safetensors`,权重 0.7)
3. 把 IP-Adapter 的输出连接到 KSampler 的额外输入
这样每张场景图都会继承参考图的色彩倾向和光线结构,但内容由你的 prompt 决定。
步骤 4:保存为场景模板
在 ComfyUI 中,点击右上角 `Save`,命名如 `场景生成_赛博朋克.json`。以后只需改 prompt 和 seed,就能快速生成同一风格的不同场景。
2.3 场景与角色的合成
用 ComfyUI 的 Inpainting 工作流 把角色放进场景:
1. 生成场景图
2. 用 Load Image 加载场景,用 Mask Editor 涂抹角色站立区域
3. 输入 prompt:`[角色链接] a young woman standing, full body, matching the scene’s lighting`
4. 模型会只重绘遮罩区域,并自动匹配场景的光影和透视
—
三、分镜编排:把静态图变成叙事流
3.1 分镜的逻辑:起承转合与镜头语言
漫剧不是幻灯片。你需要设计:
3.2 实操:用 CapCut 的图文成片功能快速出分镜
步骤 1:准备分镜描述表
在 Excel 或 Notion 里列一个表格:
| 分镜编号 | 镜头类型 | 动作描述 | 角色状态 | 场景 | 情绪 |
|———|———|———|———|—–|——|
| 1 | 全景 | 城市夜景,霓虹灯闪烁 | 无 | 赛博朋克街道 | 压抑 |
| 2 | 中景 | 主角从巷口走出,看手机 | 疲惫 | 同场景 | 焦虑 |
| 3 | 特写 | 手机屏幕显示警告信息 | 震惊 | 同场景 | 紧张 |
步骤 2:批量生成图像
用 Midjourney 的批量生成功能。在 Discord 输入:
/imagine prompt: [角色链接] cinematic wide shot of a cyberpunk city at night, neon signs, rain, --ar 16:9 --cref [角色链接] --cw 50 --v 6.1
每行 prompt 对应一个分镜。注意:
步骤 3:导入 CapCut 编排
1. 打开 CapCut,选择“图文成片”
2. 按分镜顺序上传图片,每张图配 1-2 句旁白或对话
3. 调整每张图的时长(建议 3-5 秒,特写可稍长)
4. 添加转场效果:推荐“模糊”“溶解”或“缩放”,不要用花哨的 3D 转场
5. 添加背景音乐和音效(如雨声、脚步声)
步骤 4:微调镜头连贯性
如果发现两张图之间角色表情或位置跳跃,用 CapCut 的“关键帧”功能:
—
总结与进阶建议
AI 漫剧的本质不是“生成图片”,而是用 AI 替代传���漫画中的线稿、上色、背景绘制等机械劳动,但叙事、分镜、角色表演仍然需要导演思维。当你掌握了角色 seed 锁定、场景模块化构建、分镜逻辑化编排,你就能在 2 小时内完成过去需要 2 周手绘的 20 页漫剧。
进阶方向:
1. 动态漫剧:用 Runway Gen-2 或 Pika 把关键帧变成 2-3 秒的微动画
2. 多角色对话:建立每个角色的独立 cref 和 seed,用 ComfyUI 的 Batch 模式批量生成对话场景
3. 风格统一:训练自己的 LoRA 模型(用 Kohya_ss),让整部漫剧保持统一的画风
—
常见问题 FAQ
Q1:为什么我用 –cref 生成的角色,换场景后脸还是变了?
A:检查两点:1) 确保每次 prompt 都用同一张 cref 图;2) 场景光线变化剧烈时(如从白天到黑夜),`–cw` 值建议从 100 降到 80,给模型更多空间去匹配光线。如果还不行,用 ComfyUI 的 Inpainting 单独重绘角色区域。
Q2:ComfyUI 工作流跑一张图要 2 分钟,太慢了怎么办?
A:升级到 SDXL Turbo 或 LCM-LoRA 模型,步数降到 4-8,速度提升 5 倍。或者租用云端 GPU(如 RunPod、AutoDL),选 RTX 4090 实例。
Q3:CapCut 的图文成片生成视频后,角色嘴型对不上旁白?
A:目前 CapCut 的 AI 配音不支持口型同步。建议用 HeyGen 或 D-ID 生成角色说话动画,再把视频片段导入 CapCut 合成。
Q4:我的场景图总是有重复的建筑物或奇怪的光影?
A:在负面 prompt 里加 `repeating patterns, duplicate, unrealistic lighting, lens flare`。另外,降低 `–s` 值到 200 以下,减少 AI 的“创意发挥”。
Q5:一部 20 页的漫剧,大概需要生成多少张图?
A:按每页 4-6 格分镜算,约 100-120 张。其中 30% 会因角色不一致或构图问题废弃,所以实际需要生成 150 张左右。建议用 Midjourney 的 Relax 模式(无限生成)或 ComfyUI 的批量队列来节省时间。

评论(0)