AI 漫剧从零到一:角色设定、场景构建与分镜编排

上周有位学员在社群提问:“我花了两天用 Midjourney 生成了 50 张图,角色脸全不一样,场景也像拼贴画,根本连不成故事。”这其实戳中了 90% 新手做 AI 漫剧的核心痛点——你只是会生成单张图片,但没有学会用 AI 做“叙事设计”

今天这篇教程,我会从角色一致性、场景系统化搭建、到分镜的逻辑编排,带你走完一条完整的 AI 漫剧生产管线。工具上我会用到 Midjourney V6.1(2024年8月更新版本)、ComfyUI(基于 SDXL 的工作流)以及 CapCut 的图文成片功能。全程没有废话,直接上参数和步骤。

一、角色设定:让 AI 记住“同一张脸”

1.1 问题本质:为什么角色总变脸?

AI 图像模型没有“记忆”。每次生成时,它只根据当前 prompt 重新渲染。要做到角色一致,核心是固定角色的“视觉锚点”——包括发型、肤色、服饰特征、面部比例。这不是靠运气,而是靠参数控制。

1.2 实操:用 Midjourney V6.1 建立角色库

步骤 1:生成初始角色图

打开 Discord,在 Midjourney 频道输入:

/imagine prompt: a young woman with short platinum blonde hair, blue eyes, fair skin, wearing a black leather jacket and white t-shirt, portrait close-up, soft studio lighting, shot on Canon EOS R5, 85mm lens, f/1.8 --ar 3:4 --v 6.1 --s 250

关键参数说明:

  • `–v 6.1`:必须指定版本,V6.1 的角色一致性比 V6 提升约 40%
  • `–s 250`:stylize 值,250 是平衡点,太低会死板,太高会偏离
  • `–ar 3:4`:漫画常用的竖版比例
  • 拿到四张图后,选你最满意的一张。假设是图 U2,点击 U2 放大,然后右键复制图片链接。

    步骤 2:创建角色种子(Seed)

    用这张图片生成种子值:

    /imagine prompt: [刚才的图片链接] --seed 12345 --v 6.1
    

    Midjourney 会基于这张图生成新变体,但 seed 值会被锁定。以后所有该角色的生成,都加上 `–seed 12345`。注意:seed 只在相同 prompt 结构下有效,如果你大幅改 prompt(比如从“白天”改“夜晚”),seed 会失效。

    更好的方案:使用 Character Reference(–cref)

    这是 V6.1 的新功能。先上传角色图到 Discord,复制链接。然后:

    /imagine prompt: [角色链接] a young woman in a futuristic city, wearing a silver jacket, cinematic lighting --cref [角色链接] --cw 100 --v 6.1
    
  • `–cref`:角色参考,模型会提取面部特征、发型、肤色
  • `–cw 100`:参考强度,100 是最高,适合需要完全一致;如果角色需要换发型或换装,降到 50
  • 步骤 3:建立角色多角度素材库

    用同一角色 seed 或 cref,生成正面、侧面、背面、半身、全身各一张。保存到文件夹,命名如 `角色名_正面_全身.png`。这个库会在后续分镜中反复调用。

    二、场景构建:从“一张图”到“一个世界”

    2.1 场景的模块化思维

    别试图让 AI 一次生成“完美场景”。正确做法是分层构建:先定调(氛围/光线/色调),再填内容(建筑/植被/道具),最后加细节(纹理/阴影/特效)。

    2.2 实操:用 ComfyUI 搭建可复用的场景系统

    ComfyUI 的优势在于工作流可保存、可复用。我会用 SDXL 模型(推荐 Juggernaut XLRealistic Vision)。

    步骤 1:安装必要节点

    确保已安装:

  • ControlNet(版本号 1.1.4+)
  • IP-Adapter(用于图像提示)
  • KSampler(默认即可)
  • 步骤 2:构建基础场景工作流

    节点连接逻辑:
    1. Load Checkpoint → 选 `juggernautXL_version6Runs.safetensors`
    2. CLIP Text Encode (Positive) → 输入主 prompt,例如:
    > `abandoned cyberpunk street, rain-slicked asphalt, neon signs in blue and pink, glowing puddles, gritty atmosphere, cinematic lighting, volumetric fog, 8k`
    3. CLIP Text Encode (Negative) → 输入负面 prompt:
    > `blurry, low quality, text, watermark, deformed, extra limbs, distorted face`
    4. Empty Latent Image → 设置宽高:`1024×768`(横向构图适合场景)
    5. KSampler → 参数:
    – Steps: 30
    – CFG: 7
    – Sampler: `DPM++ 2M Karras`
    – Seed: 固定一个值(如 8888),便于复现
    6. VAE Decode → 输出图像

    步骤 3:用 IP-Adapter 统一场景风格

    如果你有一个参考场景图(比如电影《银翼杀手2049》的截图),用 IP-Adapter 让 AI 学习它的色调和构图:

    1. 加载参考图到 Load Image 节点
    2. 连接 IP-Adapter 节点(模型选 `ip-adapter_sd15.safetensors`,权重 0.7)
    3. 把 IP-Adapter 的输出连接到 KSampler 的额外输入

    这样每张场景图都会继承参考图的色彩倾向和光线结构,但内容由你的 prompt 决定。

    步骤 4:保存为场景模板

    在 ComfyUI 中,点击右上角 `Save`,命名如 `场景生成_赛博朋克.json`。以后只需改 prompt 和 seed,就能快速生成同一风格的不同场景。

    2.3 场景与角色的合成

    ComfyUI 的 Inpainting 工作流 把角色放进场景:
    1. 生成场景图
    2. 用 Load Image 加载场景,用 Mask Editor 涂抹角色站立区域
    3. 输入 prompt:`[角色链接] a young woman standing, full body, matching the scene’s lighting`
    4. 模型会只重绘遮罩区域,并自动匹配场景的光影和透视

    三、分镜编排:把静态图变成叙事流

    3.1 分镜的逻辑:起承转合与镜头语言

    漫剧不是幻灯片。你需要设计:

  • 开场镜头:全景交代环境(如“城市全景,霓虹灯闪烁”)
  • 中景:角色行动(如“主角从巷口走出,表情警觉”)
  • 特写:情感爆发点(如“主角瞳孔放大,看到异常”)
  • 转场:用相似构图或颜色过渡(如“从红色霓虹转到红色血迹”)
  • 3.2 实操:用 CapCut 的图文成片功能快速出分镜

    步骤 1:准备分镜描述表

    在 Excel 或 Notion 里列一个表格:

    | 分镜编号 | 镜头类型 | 动作描述 | 角色状态 | 场景 | 情绪 |
    |———|———|———|———|—–|——|
    | 1 | 全景 | 城市夜景,霓虹灯闪烁 | 无 | 赛博朋克街道 | 压抑 |
    | 2 | 中景 | 主角从巷口走出,看手机 | 疲惫 | 同场景 | 焦虑 |
    | 3 | 特写 | 手机屏幕显示警告信息 | 震惊 | 同场景 | 紧张 |

    步骤 2:批量生成图像

    用 Midjourney 的批量生成功能。在 Discord 输入:

    /imagine prompt: [角色链接] cinematic wide shot of a cyberpunk city at night, neon signs, rain, --ar 16:9 --cref [角色链接] --cw 50 --v 6.1
    

    每行 prompt 对应一个分镜。注意:

  • 保持 `–cref` 和 `–cw` 一致
  • 改变 `–ar` 来匹配镜头类型(16:9 电影感,3:4 漫画感)
  • 用 `–seed` 固定场景,否则每张图的背景会不同
  • 步骤 3:导入 CapCut 编排

    1. 打开 CapCut,选择“图文成片”
    2. 按分镜顺序上传图片,每张图配 1-2 句旁白或对话
    3. 调整每张图的时长(建议 3-5 秒,特写可稍长)
    4. 添加转场效果:推荐“模糊”“溶解”或“缩放”,不要用花哨的 3D 转场
    5. 添加背景音乐和音效(如雨声、脚步声)

    步骤 4:微调镜头连贯性

    如果发现两张图之间角色表情或位置跳跃,用 CapCut 的“关键帧”功能:

  • 在角色脸上打一个关键帧,用蒙版和缩放让视线连贯
  • 或者回到 Midjourney 用 `–cref` 微调生成过渡帧
  • 总结与进阶建议

    AI 漫剧的本质不是“生成图片”,而是用 AI 替代传���漫画中的线稿、上色、背景绘制等机械劳动,但叙事、分镜、角色表演仍然需要导演思维。当你掌握了角色 seed 锁定、场景模块化构建、分镜逻辑化编排,你就能在 2 小时内完成过去需要 2 周手绘的 20 页漫剧。

    进阶方向
    1. 动态漫剧:用 Runway Gen-2 或 Pika 把关键帧变成 2-3 秒的微动画
    2. 多角色对话:建立每个角色的独立 cref 和 seed,用 ComfyUI 的 Batch 模式批量生成对话场景
    3. 风格统一:训练自己的 LoRA 模型(用 Kohya_ss),让整部漫剧保持统一的画风

    常见问题 FAQ

    Q1:为什么我用 –cref 生成的角色,换场景后脸还是变了?
    A:检查两点:1) 确保每次 prompt 都用同一张 cref 图;2) 场景光线变化剧烈时(如从白天到黑夜),`–cw` 值建议从 100 降到 80,给模型更多空间去匹配光线。如果还不行,用 ComfyUI 的 Inpainting 单独重绘角色区域。

    Q2:ComfyUI 工作流跑一张图要 2 分钟,太慢了怎么办?
    A:升级到 SDXL Turbo 或 LCM-LoRA 模型,步数降到 4-8,速度提升 5 倍。或者租用云端 GPU(如 RunPod、AutoDL),选 RTX 4090 实例。

    Q3:CapCut 的图文成片生成视频后,角色嘴型对不上旁白?
    A:目前 CapCut 的 AI 配音不支持口型同步。建议用 HeyGen 或 D-ID 生成角色说话动画,再把视频片段导入 CapCut 合成。

    Q4:我的场景图总是有重复的建筑物或奇怪的光影?
    A:在负面 prompt 里加 `repeating patterns, duplicate, unrealistic lighting, lens flare`。另外,降低 `–s` 值到 200 以下,减少 AI 的“创意发挥”。

    Q5:一部 20 页的漫剧,大概需要生成多少张图?
    A:按每页 4-6 格分镜算,约 100-120 张。其中 30% 会因角色不一致或构图问题废弃,所以实际需要生成 150 张左右。建议用 Midjourney 的 Relax 模式(无限生成)或 ComfyUI 的批量队列来节省时间。

    声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。