AI短剧配音合成教程
本教程你将学到
- 如何选择预设音色和使用语音克隆
- 如何使用 9 种基础情绪标签
- 批量配音和增量生成是怎么工作的
- 两条口型同步模型路径有什么区别
- 如何生成音效并按时间轴分段配置
- BGM 生成和人声模式如何选择
- 如何在混音面板里平衡对白、配乐和音效
一、AI配音概述
灵绘AI使用 TTS 技术把剧本对白转成语音,再通过口型同步处理让人物看起来能自然地“说话”。
配音流程
二、音色选择指南
2.1 预设音色类型
| 音色分类 | 特点 | 适合人物 |
|---|---|---|
| 甜美女声 | 温柔、可爱 | 年轻女主、少女 |
| 成熟女声 | 知性、稳重 | 职场女性、女配 |
| 阳光男声 | 活力、开朗 | 年轻男主、校园人物 |
| 磁性男声 | 低沉、有魅力 | 霸总、成熟男性 |
| 童声 | 稚嫩、天真 | 儿童人物 |
每个音色都支持试听,也可以按性别筛选,平台里还有更多预设音色可继续探索。
2.2 选择建议
- 匹配人物性格 - 温柔人物更适合柔和音色,强势人物需要更有力的存在感。
- 保持区分度 - 不同人物之间最好有明显的声音差异。
- 用同一句对白试听 - 用同一段台词比较多个音色,判断会更准确。
2.3 语音克隆
录音方式
- 系统提供 5 种示例朗读文本,并随机展示其中一条。
- 推荐录音时长为 10 到 30 秒。
- 录制时会显示实时波形预览。
- 典型流程是:开始 → 暂停 → 继续 → 停止 → 试听 → 重录或使用。
- 录音短于 10 秒时无法提交。
上传方式
也支持直接上传不少于 5 秒的音频文件,在支持格式内完成音色克隆。
克隆音色管理
已克隆音色支持查看、重命名、删除和批量删除。
✅ 语音克隆当前为 0 积分功能,可以反复使用和调整。
2.4 全局配音设置
在分镜规划页顶部,可以一次性给所有人物分配音色,避免逐镜头重复设置。
三、情绪标签
情绪标签会直接影响说话语气和语调,目前基础情绪共有 9 种。
上扬语调,活泼
低沉语调,缓慢
加重语气,快速
颤抖语调,紧张
上扬语调,短促
平稳语调,中性
嫌弃语调,拒绝感
轻声细语,私密感
提高音量,强调激动
在剧本编辑里还可选择 30+ 扩展情绪。情绪应该随着剧情推进变化,而不是全程平着走。
四、批量配音与增量生成
- 支持一键为所有分镜对白批量生成配音
- 增量模式只处理未完成分镜,已完成内容会被跳过
- 配音进度会显示为已完成 N / 总计 M
- 每段对白都可以独立试听、独立下载
- 也可以为单个分镜上传自己录制的配音音频
五、口型同步
5.1 工作原理
- 分析语音音素和时间点
- 生成对应嘴型动画
- 把动画应用到人物图像上
- 保持人物其余部分稳定
5.2 效果优化
✅ 正面人物通常能得到最自然的口型同步结果。
⚠️ 侧面人物可能需要换成更正面的对话分镜来提高效果。
5.3 模型选择
| 模型 | 特点 | 推荐场景 |
|---|---|---|
| 通义 | 效果自然流畅 | 对白密集场景 |
| 可灵 | 效果稳定可靠 | 动作场景 |
5.4 自动跳过
如果所选视频生成模型已经内嵌音频,例如 Vidu,系统会自动跳过口型同步步骤。
5.5 口型同步进度
状态会显示为:处理中(蓝色)/ 已完成(绿色)/ 待处理(灰色)。
六、音效生成
6.1 概述
音效通过自然语言描述和 AI 音频生成能力来完成。
6.2 基础模式
输入音效提示词,如“暴风雨中的雷声”或“咖啡店环境音”,即可直接生成。
6.3 时间轴分段模式
你可以在一个分镜内配置多个音效时间段。
- 每一段都要设置起始时间、结束时间和音效描述
- 校验规则是结束时间必须大于起始时间,描述不能为空,且长度不超过 1500 字
0-3秒:脚步声由远及近
3-5秒:门打开的吱呀声
5-8秒:雷声轰鸣
6.4 AI 推荐提示词
系统会根据场景描述、对白、情绪和镜头类型,自动推荐音效提示词。
6.5 上传自定义音效
支持上传常见音频格式的自定义音效文件。
七、BGM(背景音乐)生成
7.1 概述
背景音乐通过豆包音乐 API 生成。
7.2 配乐提示词
- 可手动编辑提示词,例如“轻快的钢琴曲”或“紧张的电子音乐”
- 也可使用基于当前场景氛围生成的 AI 推荐提示词
7.3 人声模式选择
| 模式 | 说明 |
|---|---|
| 无人声 | 纯音乐,推荐大多数场景使用 |
| 轻人声·哼唱 | 带轻微人声纹理的配乐 |
| 主唱 | 完整演唱版本,需要填写歌词,否则会降级为轻人声模式 |
7.4 上传自定义配乐
支持上传 MP3 等格式的自定义配乐文件。
7.5 积分消耗
BGM 生成前会弹出积分确认弹窗,显示时长和预计积分消耗。
八、音频混合面板
8.1 三轨独立音量控制
- 对白音量(0-100)
- 配乐音量(0-100)
- 音效音量(0-100)
8.2 预设混音方案
支持一键应用如“人声优先”这类预设方案,例如对白 100 / 配乐 40 / 音效 60。
8.3 最佳实践
✅ 通常建议对白最大、配乐其次、音效最低,确保观众始终听得清台词。
FAQ
Q: 可以添加背景音乐吗?
可以。灵绘AI在配音阶段内置了 BGM 生成功能,支持 3 种人声模式,也支持上传自定义配乐。
Q: 配音和画面不同步怎么办?
先检查分镜时长是否足够。对白越长,通常越需要给更长的镜头时间。
Q: 口型看起来不自然怎么办?
优先使用正面人物图,避免连续过长对白,必要时切换口型模型,并对问题分镜重新生成。
Q: 语音克隆和预设音色哪个好?
预设音色更稳定且不需要采样;克隆音色更个性化,但更依赖录音质量。建议先听预设,不满意再克隆。
Q: 音效和 BGM 可以同时使用吗?
可以,通过音频混合面板分别调节音量,避免互相抢占空间。
Q: 如何让配音更有感情?
给每句对白设置合适的情绪标签,并让情绪随剧情变化。配合语音克隆通常会更有人物感。