AI视频口型同步怎么做?Seedance 2.0 对白提示词与排错教程
AI 视频人物开口后嘴型对不上、表情僵硬或多人串台怎么办?本文用灵绘 AI 当前创作入口,给出适合 Seedance 2.0 的对白提示词公式、单人和双人模板、5 步生成流程及逐项排错清单。

直接答案:AI 视频口型同步的关键,不是只写一句台词,而是同时约束“谁在说、什么时候说、怎么说、其他人做什么”。在灵绘 AI 中,先把对白拆成短句,为每句标注说话人、情绪、停顿和镜头景别,再用近景小样验证口型;通过后再扩展到多人和多镜头。
这篇教程解决三类高频问题:嘴型跟不上声音、人物说话时脸部变形,以及双人对话串台。文中流程以灵绘 AI 当前首页可见的“+ 剧本—风格—画幅—生成”为入口,具体模型能力以页面实际可选项为准。
什么是 AI 视频口型同步
AI 视频口型同步,是让角色嘴部开合、发音节奏、面部表情和音频对白在时间上保持一致。它不等于简单“让照片动起来”:一条可用的对白镜头还要做到说话人明确、非说话人闭嘴、台词长度匹配镜头时长,以及情绪与语速一致。
字节跳动 Seed 官方介绍显示,Seedance 2.0 采用统一的多模态音视频联合生成架构,可接收文本、图像、音频和视频输入,并强调音画联合生成。这里据此把它作为适合对白镜头的模型方向;具体模型、时长和素材限制,请以灵绘 AI 生成页面当天显示为准。查看 Seedance 2.0 官方说明。
先用这套 5 步流程
第 1 步:把长台词拆成可控短句
先按自然停顿拆句。编辑建议是:一条镜头只承载一个清楚的信息点;如果一句话需要连续换气或包含多个转折,就拆成两个镜头。这样更容易判断究竟是台词过长,还是口型生成失败。
第 2 步:锁定说话人和非说话人
提示词必须同时写清楚两件事:“A 正在说话”和“B 保持闭嘴、只用眼神或点头回应”。多人镜头只写前半句,常会出现抢词、串台或两个人同时动嘴。
第 3 步:补齐声音与表演约束
把台词原文、语气、语速、停顿和表情写进同一段提示词。推荐公式如下:
主体与景别 + 明确说话人 + 台词原文 + 语速与停顿 + 情绪表演 + 非说话人约束 + 镜头稳定要求
第 4 步:在灵绘 AI 生成短样片
进入灵绘 AI 首页,点击“+ 剧本”,加入当前对白片段。
选择与成片一致的视觉风格。
根据发布平台选择画幅;首页当前默认可见“9:16”,竖屏短剧可直接沿用。
在生成前检查台词、说话人和镜头描述是否放在同一镜头段落。
点击“生成”,先做单镜头小样;模型和生成选项以当前页面实际可选项为准。
第一次生成不要急着做整集。先用一个近景、一个人物、一句短台词验证口型。你也可以先阅读AI 视频提示词通用公式与示例,再把对白约束加入现有镜头描述。
第 5 步:逐项验收,而不是凭感觉重抽
声音开始前,嘴部是否提前动作?
爆破音、闭口音附近,嘴部是否有明显开合变化?
停顿时,嘴部是否自然停止而不是持续抖动?
非说话人是否保持闭嘴?
说话过程中,五官和角色身份是否稳定?
3 组可直接复制的对白提示词
模板 1:单人口播近景
竖屏 9:16,成年女性角色半身近景,固定机位,面部清晰稳定。她直视镜头,用自然、平静、略带鼓励的语气说:“别急,我们先把这一条镜头做好。”语速中等,“别急”之后停顿 0.4 秒。说话时嘴型随每个音节自然开合,眼神稳定,只有轻微点头和自然眨眼;不要夸张张嘴,不要快速转头,不要切镜。模板 2:双人正反打
室内暖光,双人对话,先给角色 A 近景。A 看向角色 B,说:“这次你确定准备好了吗?”语气谨慎,句尾轻微上扬。A 说话时嘴型与对白同步;角色 B 保持闭嘴,只用眼神回应。A 说完并闭嘴后,切到角色 B 近景。B 说:“准备好了,开始吧。”语气坚定,B 说话时角色 A 不动嘴。两人的服装、发型和面部特征保持一致。模板 3:情绪对白
角色近景,镜头缓慢推进但保持面部稳定。角色压低声音说:“我不是害怕,我只是不想再失去任何人。”前半句克制,“害怕”后停顿 0.5 秒,后半句带轻微哽咽但吐字清楚。嘴型跟随台词节奏,表情从强忍转为悲伤,禁止夸张哭喊、快速摇头和脸部变形。口型失败时,按症状排错
症状 | 常见原因 | 优先修改 | 通过标准 |
|---|---|---|---|
嘴型明显落后声音 | 台词过长、语速描述冲突 | 拆短句,删除多余动作,固定中等语速 | 开口、停顿和收口与声音基本同时发生 |
嘴部持续抖动 | 停顿不明确,面部动作过多 | 标注停顿,减少转头、走动和大幅运镜 | 无对白时自然闭嘴 |
双人同时动嘴 | 未约束非说话人 | 逐句写明谁说话、谁闭嘴 | 每一时刻只有目标角色开口 |
说话时脸部变形 | 景别太远、动作与表情负荷过高 | 先改为半身或近景,降低动作幅度 | 五官、发型和脸型在全句中稳定 |
情绪对但吐字不清 | 情绪词过强,哭喊覆盖发音 | 改成“克制、轻微”,明确吐字清楚 | 情绪可见且对白可辨认 |
单人、双人和多镜头怎么选
单人口播:成功率最高,适合教程、旁白和角色独白。先用固定机位近景。
双人对话:优先拆成正反打,不要一开始就让两人在同一画面连续抢话。
多人场景:把对白镜头和反应镜头分开生成,再在后期组合。多人同框时尤其要写非说话人约束。
动作戏对白:先保证对白和口型,再增加走动、转身或运镜。动作提示词可参考AI 短剧人物动作提示词教程。
生成后检查清单
台词文字、配音内容与字幕三者一致。
每句台词都有唯一、明确的说话人。
停顿处闭嘴自然,没有持续抽动。
面部无遮挡,嘴部在主要发音段清晰可见。
角色身份、服装、发型和光线在相邻镜头一致。
成片前再按AI 短剧发布前检查清单复核字幕、口型、镜头和封面。
常见问题
AI 视频口型同步,台词越短越好吗?
不是越短越好,而是要能在一个镜头里自然说完。编辑上建议先用一句话做小样;出现换气困难、持续张嘴或句尾吞音时,再按语义和停顿拆句。
为什么双人对话容易串台?
因为提示词只规定了“谁说话”,却没有规定“谁不能说话”。每句都要明确非说话人保持闭嘴,并用眼神、点头或表情承担反应。
口型不同步时应该先换模型吗?
先不要。优先缩短台词、固定镜头、减少动作并明确停顿。如果单人近景短句仍持续失败,再检查当前模型是否支持音画联合生成或音频参考,并根据页面可用选项调整。
可以先生成画面,再后期配音吗?
可以,但它属于后期对口型工作流。若使用支持音画联合生成的模型,建议先测试原生对白生成;如果必须使用既有录音,则要让画面时长、停顿和语速与音频一致。
怎样判断这条口型已经可以用了?
至少满足四点:开口与声音几乎同时开始、停顿时自然闭嘴、非说话人不动嘴、整句期间脸部身份稳定。不要只盯某一个音节,要看完整语句的节奏是否可信。
结论
做好 AI 视频口型同步,最有效的顺序是:先单人短句,再双人正反打,最后才叠加运镜和复杂动作。把说话人、台词、语速、停顿、情绪和非说话人约束写在同一个镜头段落里,比反复“抽卡”更容易定位问题,也更适合批量制作 AI 短剧对白镜头。