AI视频生成工具,现在发展到什么程度了?
2024年还是Stable Video Diffusion(SVD)的天下,生成出来的视频最多4秒,而且画面抖得厉害。但到了2026年,Runway Gen-3、可灵、即梦这些工具,已经能生成最长60秒的高质量视频了,而且画面稳定性大幅提升。
这个进步对AI漫剧制作来说,意义重大。因为之前AI漫剧基本是”静态图+缓慢推拉摇移”做出来的伪视频,现在可以真正用AI生成有动态、有表演的视频片段了。
Runway Gen-3:目前画质最好的AI视频工具
Gen-3跟之前的版本有什么不同?
- 画质提升:分辨率最高支持1280×768,画质接近专业拍摄
- 运动幅度更大:之前版本生成的视频,人物基本是”微微晃动”,现在可以有明显的动作(比如走路、转身、挥手)
- 参考图控制更强:可以先生成一张满意的静态图,再用Gen-3让它”动起来”,这样画面的一致性更好
- 镜头控制:可以指定镜头运动方式(推、拉、摇、移、环绕)
Runway Gen-3在AI漫剧里的实际用法
用法一:把静态分镜图变成动态镜头
- 先用Midjourney/ComfyUI生成一张满意的分镜图
- 把这张图上传到Runway的”Image to Video”功能
- 在提示词里描述你想要的运动:
- “slowly zoom in”(缓慢推进)
- “camera pans left”(镜头左摇)
- “character blinks and smiles”(人物眨眼微笑)
- 设置视频时长(一般选4-10秒)
- 生成,下载
用法二:直接文生视频(适合场景镜头)
有些镜头不需要特定人物,比如”城市街道的俯瞰镜头””海浪拍岸”,这种可以直接用文生视频,不用先画图。
用法三:人物对话镜头的制作
这是最有挑战性的。目前AI视频生成在处理”口型同步”方面还不够完美,所以有两种策略:
- 策略A:生成人物微微动作的镜头(眨眼、呼吸起伏),对白靠后期配音,不用口型同步(观众其实能接受,动画一直都是这么做的)
- 策略B:用专门的口型同步工具(比如Wav2Lip、SadTalker)后期处理
可灵(Kling AI):国产工具的代表
可灵是快手出的AI视频生成工具,2025年底开始爆火,目前在国内AI漫剧圈用得很多。
可灵的优点:
- 中文提示词支持好(不用写英文提示词了)
- 对亚洲人脸的生成效果比Runway好(Runway偏欧美审美)
- 有”角色参考”功能,可以上传一张人物图,让AI照着生成视频
- 价格比Runway便宜(国内工具的优势)
可灵的缺点:
- 画质上限还是略低于Runway Gen-3
- 运动幅度有时候不够自然(会有点”飘”)
- 生成速度比Runway慢一些
可灵在AI漫剧里的典型用法:
- 用”角色参考”功能,上传主角的一张参考图
- 输入动作描述(比如”女孩转过身,眼眶含泪”)
- 生成5-10秒的视频片段
- 导入剪映,跟其他镜头拼接
即梦(Jimeng):另一个国产选择
即梦是字节跳动出的AI视频工具,跟可灵定位类似,但有一些自己的特色。
即梦的特色功能:
- 模板库:内置了很多短视频模板,选一个模板,上传图片,就能生成对应风格的视频
- 对口型功能:上传人物图片和音频,能让人物”开口说话”,口型会自动对齐
- 多镜头生成:一次可以生成多个不同角度的镜头,方便挑选
不过即梦的画质,目前还是比Runway和可灵略逊一筹,更适合做快速Demo或者要求不太高的项目。
三种工具的对比和选择建议
| 维度 | Runway Gen-3 | 可灵AI | 即梦 |
|---|---|---|---|
| 画质 | ★★★★★ | ★★★★ | ★★★ |
| 人物一致性 | ★★★★ | ★★★★★ | ★★★ |
| 中文支持 | ★★ | ★★★★★ | ★★★★★ |
| 价格 | 较贵 | 中等 | 较便宜 |
| 口型同步 | 不支持 | 不支持 | 支持 |
| 推荐场景 | 高质量场景镜头 | 人物镜头、对话 | 快速出片、对口型 |
我的建议:
如果预算允许,Runway + 可灵组合使用。用Runway生成高质量场景镜头,用可灵生成人物镜头。这样既能保证画质,又能保证人物一致性。
AI视频生成的当前局限(别被营销视频骗了)
虽然进步很大,但现在的AI视频生成工具还是有局限的:
- 复杂动作做不好:比如打斗、跳舞、体育运动的镜头,生成出来经常是”四不像”
- 多人物交互困难:两个人物对话的镜头,如果要求动作比较大,很容易穿模或者动作失真
- 时长限制:最长一般60秒,超过就要拼接,拼接处的画面跳跃是个问题
- 成本:生成一段10秒的高质量视频,Runway大概要消耗100-200 credits,折合人民币几块钱。一部20集的AI漫剧,光视频生成可能就要花几千块
所以现在做AI漫剧,不会所有镜头都用AI视频生成。一般是:
- 静态镜头(人物对话、特写)→ 用静态图+缓慢运镜
- 场景镜头(俯瞰城市、海浪)→ 用AI视频生成
- 复杂动作镜头 → 要么用传统动画技术,要么巧妙规避
招聘需求中对AI视频生成技能的要求
翻了一下最近的招聘信息,发现AI视频生成工具的使用,已经出现在不少岗位的技能要求里了:
- “熟悉Runway/可灵等AI视频生成工具”(AI漫剧制作岗)
- “能把静态AI图转成动态镜头”(分镜师岗)
- “了解AI视频的局限,能合理规划制作方案”(AI漫剧导演岗)
相关课程: 火星人教育AI漫剧导演培训课程中,AI视频生成是独立模块,Runway、可灵、即梦三个工具都会讲到,并有实操训练。
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

评论(0)