AI短剧配音合成教程

本教程你将学到

如何选择预设音色和使用语音克隆
如何使用 9 种基础情绪标签
批量配音和增量生成是怎么工作的
两条口型同步模型路径有什么区别
如何生成音效并按时间轴分段配置
BGM 生成和人声模式如何选择
如何在混音面板里平衡对白、配乐和音效

一、AI配音概述

灵绘AI使用 TTS 技术把剧本对白转成语音，再通过口型同步处理让角色看起来能自然地“说话”。

配音流程

对白文本→

选择音色→

设置情绪→

生成语音→

口型同步→

音效生成→

BGM生成→

音频混合

二、音色选择指南

2.1 预设音色类型

音色分类	特点	适合角色
甜美女声	温柔、可爱	年轻女主、少女
成熟女声	知性、稳重	职场女性、女配
阳光男声	活力、开朗	年轻男主、校园角色
磁性男声	低沉、有魅力	霸总、成熟男性
童声	稚嫩、天真	儿童角色

每个音色都支持试听，也可以按性别筛选，平台里还有更多预设音色可继续探索。

2.2 选择建议

匹配角色性格 - 温柔角色更适合柔和音色，强势角色需要更有力的存在感。
保持区分度 - 不同角色之间最好有明显的声音差异。
用同一句对白试听 - 用同一段台词比较多个音色，判断会更准确。

2.3 语音克隆

录音方式

系统提供 5 种示例朗读文本，并随机展示其中一条。
推荐录音时长为 10 到 30 秒。
录制时会显示实时波形预览。
典型流程是：开始 → 暂停 → 继续 → 停止 → 试听 → 重录或使用。
录音短于 10 秒时无法提交。

上传方式

也支持直接上传不少于 5 秒的音频文件，在支持格式内完成音色克隆。

克隆音色管理

已克隆音色支持查看、重命名、删除和批量删除。

✅ 语音克隆当前为 0 积分功能，可以反复使用和调整。

2.4 全局配音设置

在分镜规划页顶部，可以一次性给所有角色分配音色，避免逐镜头重复设置。

三、情绪标签

情绪标签会直接影响说话语气和语调，目前基础情绪共有 9 种。

😊开心

上扬语调，活泼

😢悲伤

低沉语调，缓慢

😠愤怒

加重语气，快速

😨恐惧

颤抖语调，紧张

😲惊讶

上扬语调，短促

😐平静

平稳语调，中性

😤厌恶

嫌弃语调，拒绝感

🤫低语

轻声细语，私密感

📢大喊

提高音量，强调激动

在剧本编辑里还可选择 30+ 扩展情绪。情绪应该随着剧情推进变化，而不是全程平着走。

四、批量配音与增量生成

支持一键为所有分镜对白批量生成配音
增量模式只处理未完成分镜，已完成内容会被跳过
配音进度会显示为已完成 N / 总计 M
每段对白都可以独立试听、独立下载
也可以为单个分镜上传自己录制的配音音频

五、口型同步

5.1 工作原理

分析语音音素和时间点
生成对应嘴型动画
把动画应用到角色图像上
保持角色其余部分稳定

5.2 效果优化

✅ 正面角色通常能得到最自然的口型同步结果。

⚠️ 侧面角色可能需要换成更正面的对话分镜来提高效果。

5.3 模型选择

模型	特点	推荐场景
通义	效果自然流畅	对白密集场景
可灵	效果稳定可靠	动作场景

5.4 自动跳过

如果所选视频生成模型已经内嵌音频，例如 Vidu，系统会自动跳过口型同步步骤。

5.5 口型同步进度

状态会显示为：处理中（蓝色）/ 已完成（绿色）/ 待处理（灰色）。

六、音效生成

6.1 概述

音效通过自然语言描述和 AI 音频生成能力来完成。

6.2 基础模式

输入音效提示词，如“暴风雨中的雷声”或“咖啡店环境音”，即可直接生成。

6.3 时间轴分段模式

你可以在一个分镜内配置多个音效时间段。

每一段都要设置起始时间、结束时间和音效描述
校验规则是结束时间必须大于起始时间，描述不能为空，且长度不超过 1500 字

0-3秒：脚步声由远及近

3-5秒：门打开的吱呀声

5-8秒：雷声轰鸣

6.4 AI 推荐提示词

系统会根据场景描述、对白、情绪和镜头类型，自动推荐音效提示词。

6.5 上传自定义音效

支持上传常见音频格式的自定义音效文件。

七、BGM（背景音乐）生成

7.1 概述

背景音乐通过豆包音乐 API 生成。

7.2 配乐提示词

可手动编辑提示词，例如“轻快的钢琴曲”或“紧张的电子音乐”
也可使用基于当前场景氛围生成的 AI 推荐提示词

7.3 人声模式选择

模式	说明
无人声	纯音乐，推荐大多数场景使用
轻人声·哼唱	带轻微人声纹理的配乐
主唱	完整演唱版本，需要填写歌词，否则会降级为轻人声模式

7.4 上传自定义配乐

支持上传 MP3 等格式的自定义配乐文件。

7.5 积分消耗

BGM 生成前会弹出积分确认弹窗，显示时长和预计积分消耗。

八、音频混合面板

8.1 三轨独立音量控制

对白音量（0-100）
配乐音量（0-100）
音效音量（0-100）

8.2 预设混音方案

支持一键应用如“人声优先”这类预设方案，例如对白 100 / 配乐 40 / 音效 60。

8.3 最佳实践

✅ 通常建议对白最大、配乐其次、音效最低，确保观众始终听得清台词。

FAQ

Q: 可以添加背景音乐吗？

可以。灵绘AI在配音阶段内置了 BGM 生成功能，支持 3 种人声模式，也支持上传自定义配乐。

Q: 配音和画面不同步怎么办？

先检查分镜时长是否足够。对白越长，通常越需要给更长的镜头时间。

Q: 口型看起来不自然怎么办？

优先使用正面角色图，避免连续过长对白，必要时切换口型模型，并对问题分镜重新生成。

Q: 语音克隆和预设音色哪个好？

预设音色更稳定且不需要采样；克隆音色更个性化，但更依赖录音质量。建议先听预设，不满意再克隆。

Q: 音效和 BGM 可以同时使用吗？

可以，通过音频混合面板分别调节音量，避免互相抢占空间。

Q: 如何让配音更有感情？

给每句对白设置合适的情绪标签，并让情绪随剧情变化。配合语音克隆通常会更有角色感。

下一步

学习视频串联与导出 →