AI 短剧制作:从脚本生成到画面渲染的全链路
上个月,一位做短视频运营的学员找到我,说他接了个短剧项目,甲方要求一周内出3集,每集2分钟。按传统流程,光写剧本就得3天,更别提分镜、配音、后期了。他问我:“有没有办法用AI把整个流程跑通?”我给了他一套方案,结果他3天就交了初稿,甲方还夸画面质感不错。今天,我就把这套全链路流程拆开来讲——从脚本生成到画面渲染,每一步用什么工具、设置什么参数,都会讲清楚。
一、脚本生成:用AI搭建故事框架
短剧的核心是节奏快、冲突强。传统编剧会先写大纲,但用AI,我们可以直接生成符合短视频平台调性的剧本。我推荐的工具组合是 ChatGPT 4.0(生成剧情) + Claude 3 Opus(优化对话),配合 Notion AI 做结构化整理。
操作步骤:生成一个“逆袭”题材短剧脚本
1. 定义核心要素
在ChatGPT中输入以下提示词(Prompt):
你是一个短剧编剧,擅长“逆袭”题材。请生成一个3集短剧的剧情大纲,每集时长2分钟。要求:
- 主角:25岁职场女性,被同事排挤
- 冲突:第1集被陷害,第2集发现真相,第3集反杀
- 节奏:每集至少3个反转
- 风格:台词简洁,每句不超过15字
2. 生成具体对话
将ChatGPT输出的大纲粘贴到Claude 3 Opus中,要求:
根据以下大纲,生成第1集的分镜头脚本。每个镜头包括:
- 镜头编号
- 画面描述(含场景、人物动作、表情)
- 台词(按“人物:台词”格式)
- 音效提示
Claude 3 Opus的优势在于对话逻辑更自然,能避免AI常见的“废话连篇”问题。
3. 结构化输出
将Claude生成的脚本复制到Notion AI中,用“/AI”命令选择“表格”模式,自动生成分镜表。你只需调整镜头时长(建议每镜头3-5秒,短剧要快)。
参数说明
- ChatGPT 4.0:温度(Temperature)设为0.7,保证创意但不跑偏;Top P设为0.9,增加多样性。
—
二、画面生成:从文字到视觉的精准转化
脚本有了,接下来是画面。传统做法需要找演员、搭场景,但用AI图像生成工具,我们可以直接“画”出来。这里我用 Midjourney V6.1 + DALL·E 3 组合:Midjourney负责角色和场景的精细刻画,DALL·E 3擅长处理文字和复杂构图。
实操案例:生成短剧第1集关键帧
案例需求:主角被同事陷害后,在办公室崩溃的场景。要求:冷色调、俯拍角度、桌上散落文件。
步骤1:用Midjourney生成角色定妆照
在Discord中输入:
/imagine prompt: A young Asian woman in her 20s, wearing a white blouse and black skirt, sitting at a messy office desk, head buried in hands, crying, cinematic lighting, blue color palette, low angle shot --ar 9:16 --v 6.1 --style raw
参数解析:
生成后,选择最符合情绪的一张,用 `–seed 12345` 固定种子,方便后续统一角色。
步骤2:用DALL·E 3生成场景背景
打开ChatGPT 4.0(集成DALL·E 3),输入:
生成一个现代办公室场景,俯拍视角,桌面凌乱,有咖啡杯、散落的A4纸���窗外是阴天,整体色调偏蓝,分辨率要求1920x1080。
DALL·E 3的优势在于能精准理解“俯拍”“凌乱”“阴天”这些具体描述,且背景细节丰富。生成后,用Photoshop(或免费工具GIMP)将角色抠图,合成到背景中。
步骤3:动态化处理(可选)
如果需要动态效果,用 Runway Gen-3 Alpha 将静态图转为2秒视频片段。上传图片后,输入动作描述:
woman slowly lifts her head, tears streaming down her face, camera slowly zooms in
Runway Gen-3的“Motion Brush”功能可以指定画面局部运动(比如让纸张飘动),参数设置:Motion Strength 0.4(避免动作过大显得不自然),Frame Rate 24fps。
—
三、配音与音效:AI让声音“演”起来
画面有了,但短剧不能是哑剧。配音我用 ElevenLabs 的“Speech Synthesis”功能,音效则用 Audiocraft(Meta开源工具)生成。
操作步骤:配音与音效同步
1. 角色配音
在ElevenLabs中,选择“Voice Library”里的“Narrator”或“Professional”声音。关键参数:
– Stability:70%(保证发音稳定)
– Clarity + Similarity:80%(保留原声情感)
– Style Exaggeration:50%(短剧需要情绪外放,适当调高)
将脚本台词分段输入,每段不超过30字(短剧台词要短),生成后导出WAV格式。
2. 环境音效
打开Audiocraft的Web界面(本地部署需Python环境),输入描述:
Generate a 10-second office ambient sound: keyboard typing, paper rustling, air conditioner hum, low volume
参数设置:
– Duration:10秒
– Model:musicgen-medium(平衡质量和速度)
– Temperature:0.3(避免随机噪音)
生成的音效文件用 Audacity(免费音频软件)修剪,与配音对齐。
3. 混合输出
将配音、音效导入视频编辑软件(我用 DaVinci Resolve 18.6 免费版),配音轨音量设为-6dB,音效轨设为-18dB,避免盖过台词。导出时选择H.264编码,比特率10Mbps,分辨率1080p。
—
四、渲染输出:一集短剧的完整交付
最后一步是渲染。短剧通常需要添加字幕和片头片尾。我用 CapCut(剪映国际版)的AI功能自动生成字幕,再用 Premiere Pro 2024 做最终合成。
参数设置建议
—
总结与进阶建议
全链路跑下来,你会发现AI不是替代创作者,而是把重复劳动(写大纲、画背景、配音)自动化了。你只需要把控核心创意和情绪节奏。我的建议是:
1. 建立角色库:用Midjourney生成角色后,固定种子和风格,后续剧集直接复用,避免角色“变脸”。
2. 打磨提示词:每次生成后,记录哪些描述词有效(比如“cinematic lighting”比“good lighting”强得多),形成自己的词库。
3. 多工具联动:不要依赖单一工具。ChatGPT写剧本、Midjourney画图、ElevenLabs配音,各取所长。
4. 关注AI更新:Midjourney V7(预计2025年)可能会支持更长的视频生成,Runway Gen-4也在路上,及时测试新功能。
如果你现在开始,建议先做一个30秒���demo,跑通整个流程。遇到问题,可以对照下面的FAQ。
—
常见问题 FAQ
Q1:AI生成的脚本逻辑硬伤太多怎么办?
A:用ChatGPT生成后,再让Claude 3 Opus做“逻辑检查”。输入提示词:“请找出以下剧本中的逻辑漏洞,并按严重程度排序”。Claude在因果推理上更强,能发现时间线冲突、角色动机不合理等问题。
Q2:Midjourney生成的角色在不同镜头里长相不一致?
A:使用 `–seed` 参数固定种子,并在每次提示词中保持角色描述一致(比如“a 25-year-old Asian woman with short hair, round face, wearing a white blouse”)。如果仍不一致,用 InsightFace 做换脸,或者用 Stable Diffusion 的ReActor插件统一面部。
Q3:ElevenLabs配音听起来像AI读稿?
A:调整“Style Exaggeration”到60%以上,并在台词中加入括号提示情绪,比如“[angry] 你怎么能这样![sad] 我明明那么努力”。ElevenLabs会识别情绪标签,让声音更有起伏。
Q4:Runway Gen-3生成的视频动作太僵硬?
A:降低“Motion Strength”到0.3-0.4,并增加“Transition”参数(设为0.2),让动作更平滑。如果人物移动,先用Midjourney生成多帧图片,再用Runway的“Frame Interpolation”功能补帧。
Q5:渲染出来的视频文件太大,怎么压缩?
A:用 HandBrake(免费)重新编码。设置:视频编码H.265,RF值22(18-28范围,数值越大画质越低,文件越小),音频编码AAC,比特率128kbps。通常能压缩到原文件的1/3,画质损失肉眼不可见。

评论(0)