2026/7/4

AI视频口型同步怎么做？Seedance 2.0 对白提示词与排错教程

AI 视频人物开口后嘴型对不上、表情僵硬或多人串台怎么办？本文用灵绘 AI 当前创作入口，给出适合 Seedance 2.0 的对白提示词公式、单人和双人模板、5 步生成流程及逐项排错清单。

直接答案：AI 视频口型同步的关键，不是只写一句台词，而是同时约束“谁在说、什么时候说、怎么说、其他人做什么”。在灵绘 AI 中，先把对白拆成短句，为每句标注说话人、情绪、停顿和镜头景别，再用近景小样验证口型；通过后再扩展到多人和多镜头。

这篇教程解决三类高频问题：嘴型跟不上声音、人物说话时脸部变形，以及双人对话串台。文中流程以灵绘 AI 当前首页可见的“+ 剧本—风格—画幅—生成”为入口，具体模型能力以页面实际可选项为准。

什么是 AI 视频口型同步

AI 视频口型同步，是让角色嘴部开合、发音节奏、面部表情和音频对白在时间上保持一致。它不等于简单“让照片动起来”：一条可用的对白镜头还要做到说话人明确、非说话人闭嘴、台词长度匹配镜头时长，以及情绪与语速一致。

字节跳动 Seed 官方介绍显示，Seedance 2.0 采用统一的多模态音视频联合生成架构，可接收文本、图像、音频和视频输入，并强调音画联合生成。这里据此把它作为适合对白镜头的模型方向；具体模型、时长和素材限制，请以灵绘 AI 生成页面当天显示为准。查看 Seedance 2.0 官方说明。

先用这套 5 步流程

第 1 步：把长台词拆成可控短句

先按自然停顿拆句。编辑建议是：一条镜头只承载一个清楚的信息点；如果一句话需要连续换气或包含多个转折，就拆成两个镜头。这样更容易判断究竟是台词过长，还是口型生成失败。

第 2 步：锁定说话人和非说话人

提示词必须同时写清楚两件事：“A 正在说话”和“B 保持闭嘴、只用眼神或点头回应”。多人镜头只写前半句，常会出现抢词、串台或两个人同时动嘴。

第 3 步：补齐声音与表演约束

把台词原文、语气、语速、停顿和表情写进同一段提示词。推荐公式如下：

主体与景别 + 明确说话人 + 台词原文 + 语速与停顿 + 情绪表演 + 非说话人约束 + 镜头稳定要求

第 4 步：在灵绘 AI 生成短样片

进入灵绘 AI 首页，点击“+ 剧本”，加入当前对白片段。
选择与成片一致的视觉风格。
根据发布平台选择画幅；首页当前默认可见“9:16”，竖屏短剧可直接沿用。
在生成前检查台词、说话人和镜头描述是否放在同一镜头段落。
点击“生成”，先做单镜头小样；模型和生成选项以当前页面实际可选项为准。

第一次生成不要急着做整集。先用一个近景、一个人物、一句短台词验证口型。你也可以先阅读AI 视频提示词通用公式与示例，再把对白约束加入现有镜头描述。

第 5 步：逐项验收，而不是凭感觉重抽

声音开始前，嘴部是否提前动作？
爆破音、闭口音附近，嘴部是否有明显开合变化？
停顿时，嘴部是否自然停止而不是持续抖动？
非说话人是否保持闭嘴？
说话过程中，五官和角色身份是否稳定？

3 组可直接复制的对白提示词

模板 1：单人口播近景

竖屏 9:16，成年女性角色半身近景，固定机位，面部清晰稳定。她直视镜头，用自然、平静、略带鼓励的语气说：“别急，我们先把这一条镜头做好。”语速中等，“别急”之后停顿 0.4 秒。说话时嘴型随每个音节自然开合，眼神稳定，只有轻微点头和自然眨眼；不要夸张张嘴，不要快速转头，不要切镜。

模板 2：双人正反打

室内暖光，双人对话，先给角色 A 近景。A 看向角色 B，说：“这次你确定准备好了吗？”语气谨慎，句尾轻微上扬。A 说话时嘴型与对白同步；角色 B 保持闭嘴，只用眼神回应。A 说完并闭嘴后，切到角色 B 近景。B 说：“准备好了，开始吧。”语气坚定，B 说话时角色 A 不动嘴。两人的服装、发型和面部特征保持一致。

模板 3：情绪对白

角色近景，镜头缓慢推进但保持面部稳定。角色压低声音说：“我不是害怕，我只是不想再失去任何人。”前半句克制，“害怕”后停顿 0.5 秒，后半句带轻微哽咽但吐字清楚。嘴型跟随台词节奏，表情从强忍转为悲伤，禁止夸张哭喊、快速摇头和脸部变形。

口型失败时，按症状排错

症状	常见原因	优先修改	通过标准
嘴型明显落后声音	台词过长、语速描述冲突	拆短句，删除多余动作，固定中等语速	开口、停顿和收口与声音基本同时发生
嘴部持续抖动	停顿不明确，面部动作过多	标注停顿，减少转头、走动和大幅运镜	无对白时自然闭嘴
双人同时动嘴	未约束非说话人	逐句写明谁说话、谁闭嘴	每一时刻只有目标角色开口
说话时脸部变形	景别太远、动作与表情负荷过高	先改为半身或近景，降低动作幅度	五官、发型和脸型在全句中稳定
情绪对但吐字不清	情绪词过强，哭喊覆盖发音	改成“克制、轻微”，明确吐字清楚	情绪可见且对白可辨认

单人、双人和多镜头怎么选

单人口播：成功率最高，适合教程、旁白和角色独白。先用固定机位近景。
双人对话：优先拆成正反打，不要一开始就让两人在同一画面连续抢话。
多人场景：把对白镜头和反应镜头分开生成，再在后期组合。多人同框时尤其要写非说话人约束。
动作戏对白：先保证对白和口型，再增加走动、转身或运镜。动作提示词可参考AI 短剧人物动作提示词教程。

生成后检查清单

台词文字、配音内容与字幕三者一致。
每句台词都有唯一、明确的说话人。
停顿处闭嘴自然，没有持续抽动。
面部无遮挡，嘴部在主要发音段清晰可见。
角色身份、服装、发型和光线在相邻镜头一致。
成片前再按AI 短剧发布前检查清单复核字幕、口型、镜头和封面。

常见问题

AI 视频口型同步，台词越短越好吗？

不是越短越好，而是要能在一个镜头里自然说完。编辑上建议先用一句话做小样；出现换气困难、持续张嘴或句尾吞音时，再按语义和停顿拆句。

为什么双人对话容易串台？

因为提示词只规定了“谁说话”，却没有规定“谁不能说话”。每句都要明确非说话人保持闭嘴，并用眼神、点头或表情承担反应。

口型不同步时应该先换模型吗？

先不要。优先缩短台词、固定镜头、减少动作并明确停顿。如果单人近景短句仍持续失败，再检查当前模型是否支持音画联合生成或音频参考，并根据页面可用选项调整。

可以先生成画面，再后期配音吗？

可以，但它属于后期对口型工作流。若使用支持音画联合生成的模型，建议先测试原生对白生成；如果必须使用既有录音，则要让画面时长、停顿和语速与音频一致。

怎样判断这条口型已经可以用了？

至少满足四点：开口与声音几乎同时开始、停顿时自然闭嘴、非说话人不动嘴、整句期间脸部身份稳定。不要只盯某一个音节，要看完整语句的节奏是否可信。

结论

做好 AI 视频口型同步，最有效的顺序是：先单人短句，再双人正反打，最后才叠加运镜和复杂动作。把说话人、台词、语速、停顿、情绪和非说话人约束写在同一个镜头段落里，比反复“抽卡”更容易定位问题，也更适合批量制作 AI 短剧对白镜头。