AI短剧配音合成教程

本教程你将学到

  • 如何选择预设音色和使用语音克隆
  • 如何使用 9 种基础情绪标签
  • 批量配音和增量生成是怎么工作的
  • 两条口型同步模型路径有什么区别
  • 如何生成音效并按时间轴分段配置
  • BGM 生成和人声模式如何选择
  • 如何在混音面板里平衡对白、配乐和音效

一、AI配音概述

灵绘AI使用 TTS 技术把剧本对白转成语音,再通过口型同步处理让人物看起来能自然地“说话”。

配音流程

对白文本
选择音色
设置情绪
生成语音
口型同步
音效生成
BGM生成
音频混合

二、音色选择指南

2.1 预设音色类型

音色分类特点适合人物
甜美女声温柔、可爱年轻女主、少女
成熟女声知性、稳重职场女性、女配
阳光男声活力、开朗年轻男主、校园人物
磁性男声低沉、有魅力霸总、成熟男性
童声稚嫩、天真儿童人物

每个音色都支持试听,也可以按性别筛选,平台里还有更多预设音色可继续探索。

2.2 选择建议

  • 匹配人物性格 - 温柔人物更适合柔和音色,强势人物需要更有力的存在感。
  • 保持区分度 - 不同人物之间最好有明显的声音差异。
  • 用同一句对白试听 - 用同一段台词比较多个音色,判断会更准确。

2.3 语音克隆

录音方式

  • 系统提供 5 种示例朗读文本,并随机展示其中一条。
  • 推荐录音时长为 10 到 30 秒。
  • 录制时会显示实时波形预览。
  • 典型流程是:开始 → 暂停 → 继续 → 停止 → 试听 → 重录或使用。
  • 录音短于 10 秒时无法提交。

上传方式

也支持直接上传不少于 5 秒的音频文件,在支持格式内完成音色克隆。

克隆音色管理

已克隆音色支持查看、重命名、删除和批量删除。

语音克隆当前为 0 积分功能,可以反复使用和调整。

2.4 全局配音设置

在分镜规划页顶部,可以一次性给所有人物分配音色,避免逐镜头重复设置。

三、情绪标签

情绪标签会直接影响说话语气和语调,目前基础情绪共有 9 种。

😊开心

上扬语调,活泼

😢悲伤

低沉语调,缓慢

😠愤怒

加重语气,快速

😨恐惧

颤抖语调,紧张

😲惊讶

上扬语调,短促

😐平静

平稳语调,中性

😤厌恶

嫌弃语调,拒绝感

🤫低语

轻声细语,私密感

📢大喊

提高音量,强调激动

在剧本编辑里还可选择 30+ 扩展情绪。情绪应该随着剧情推进变化,而不是全程平着走。

四、批量配音与增量生成

  • 支持一键为所有分镜对白批量生成配音
  • 增量模式只处理未完成分镜,已完成内容会被跳过
  • 配音进度会显示为已完成 N / 总计 M
  • 每段对白都可以独立试听、独立下载
  • 也可以为单个分镜上传自己录制的配音音频

五、口型同步

5.1 工作原理

  1. 分析语音音素和时间点
  2. 生成对应嘴型动画
  3. 把动画应用到人物图像上
  4. 保持人物其余部分稳定

5.2 效果优化

正面人物通常能得到最自然的口型同步结果。

⚠️ 侧面人物可能需要换成更正面的对话分镜来提高效果。

5.3 模型选择

模型特点推荐场景
通义效果自然流畅对白密集场景
可灵效果稳定可靠动作场景

5.4 自动跳过

如果所选视频生成模型已经内嵌音频,例如 Vidu,系统会自动跳过口型同步步骤。

5.5 口型同步进度

状态会显示为:处理中(蓝色)/ 已完成(绿色)/ 待处理(灰色)。

六、音效生成

6.1 概述

音效通过自然语言描述和 AI 音频生成能力来完成。

6.2 基础模式

输入音效提示词,如“暴风雨中的雷声”或“咖啡店环境音”,即可直接生成。

6.3 时间轴分段模式

你可以在一个分镜内配置多个音效时间段。

  • 每一段都要设置起始时间、结束时间和音效描述
  • 校验规则是结束时间必须大于起始时间,描述不能为空,且长度不超过 1500 字

0-3秒:脚步声由远及近

3-5秒:门打开的吱呀声

5-8秒:雷声轰鸣

6.4 AI 推荐提示词

系统会根据场景描述、对白、情绪和镜头类型,自动推荐音效提示词。

6.5 上传自定义音效

支持上传常见音频格式的自定义音效文件。

七、BGM(背景音乐)生成

7.1 概述

背景音乐通过豆包音乐 API 生成。

7.2 配乐提示词

  • 可手动编辑提示词,例如“轻快的钢琴曲”或“紧张的电子音乐”
  • 也可使用基于当前场景氛围生成的 AI 推荐提示词

7.3 人声模式选择

模式说明
无人声纯音乐,推荐大多数场景使用
轻人声·哼唱带轻微人声纹理的配乐
主唱完整演唱版本,需要填写歌词,否则会降级为轻人声模式

7.4 上传自定义配乐

支持上传 MP3 等格式的自定义配乐文件。

7.5 积分消耗

BGM 生成前会弹出积分确认弹窗,显示时长和预计积分消耗。

八、音频混合面板

8.1 三轨独立音量控制

  • 对白音量(0-100)
  • 配乐音量(0-100)
  • 音效音量(0-100)

8.2 预设混音方案

支持一键应用如“人声优先”这类预设方案,例如对白 100 / 配乐 40 / 音效 60。

8.3 最佳实践

通常建议对白最大、配乐其次、音效最低,确保观众始终听得清台词。

FAQ

Q: 可以添加背景音乐吗?

可以。灵绘AI在配音阶段内置了 BGM 生成功能,支持 3 种人声模式,也支持上传自定义配乐。

Q: 配音和画面不同步怎么办?

先检查分镜时长是否足够。对白越长,通常越需要给更长的镜头时间。

Q: 口型看起来不自然怎么办?

优先使用正面人物图,避免连续过长对白,必要时切换口型模型,并对问题分镜重新生成。

Q: 语音克隆和预设音色哪个好?

预设音色更稳定且不需要采样;克隆音色更个性化,但更依赖录音质量。建议先听预设,不满意再克隆。

Q: 音效和 BGM 可以同时使用吗?

可以,通过音频混合面板分别调节音量,避免互相抢占空间。

Q: 如何让配音更有感情?

给每句对白设置合适的情绪标签,并让情绪随剧情变化。配合语音克隆通常会更有人物感。

下一步

学习视频串联与导出 →