AI短剧人物设计完全指南
本教程你将学到
- 为什么人物一致性会成为AI短剧的核心难点
- 6角度参考图分别负责固定什么信息
- 如何选择模型并写出更稳定的人设描述
- 什么时候该上传自定义图片、使用图生图或配置语音克隆
人物设计不是“先随便出一张图再说”,而是先把人物的视觉锚点和声音锚点固定下来。前期约束越清晰,后面做分镜和视频时返工越少。
典型问题
同一段描述生成出来的人脸轮廓不断变化
发型和服装在不同镜头里悄悄被替换
情绪镜头虽然表情对了,但已经不像同一个人
一、什么是人物一致性
人物一致性指的是同一个人物在不同镜头、不同情绪和不同姿态下,依然保持稳定的面部特征、发型、服装和整体气质。这是AI短剧最关键的基础能力之一。
二、为什么人物容易漂
三、6角度参考图系统
每个参考图的作用
| 角度 | 作用 | 适用场景 |
|---|---|---|
| 正面全身 | 固定整体体型、服装比例和轮廓 | 远景、动作场景 |
| 正面半身 | 固定五官和上半身细节 | 对话、正面镜头 |
| 侧面 | 固定侧脸轮廓、鼻线和发型层次 | 侧面镜头 |
| 开心 | 固定正向情绪时的表情风格 | 欢乐、高能片段 |
| 愤怒 | 固定冲突状态下的表情和张力 | 争执、高潮场景 |
| 悲伤 | 固定低落情绪时的神态和眼神 | 情感低谷镜头 |
四、参考图生成流程
如果只有某个角度不满意,不需要整组重来。优先单张重生成,或者上传自定义图替换对应角度。
五、模型选择
| 模型 | 特点 | 适合场景 |
|---|---|---|
| 通义万象 | 稳定、通用、容错高 | 多数风格的默认选择 |
| 豆包 | 细节丰富、写实感更强 | 写实、国漫、质感型人物 |
| 可灵 | 风格变化更明显、创意感强 | 风格化和视觉冲击更强的项目 |
当前参考图生成统一按每次 2 积分计费。
⚠️ 重要提示:同一个人物建议全程使用同一个模型。跨模型混用会直接提高风格漂移和细节不一致的概率。
六、人物描述技巧
描述模板
✅ 好的描述
25岁左右的年轻女性,黑色长直发及腰,柳叶眉,杏眼,穿白色职业套装,气质干练。
❌ 差的描述
漂亮女生
发型建议
- 长直发
- 波浪卷发
- 高马尾
- 齐耳短发
- 背头
面部建议
- 柳叶眉
- 一字眉
- 杏眼
- 丹凤眼
- 酒窝
- 泪痣
服装建议
- 职业装
- 休闲装
- 运动服
- 汉服
- 盔甲
- 宫装
七、AI优化描述
✅ 建议先自己写基础描述,再用 AI 补全细节,这样结果通常比完全放手给模型更稳定。
八、最佳实践
- 让主要人物之间有明显区分,不要都写成“年轻女性长发”这类模糊人设。
- 服装尽量固定,短剧里不要频繁换装。
- 为人物设置 1 到 2 个强辨识特征,比如发带、眼镜或项链。
- 参考图出现瑕疵时立刻重生,不要把问题带进后续流程。
九、常见大坑
描述太短
问题:只写“帅气男生”或“漂亮女生”,模型每次都会补出不同的人。
解决:至少给出5个以上的明确外貌和服装特征。
使用模糊词
问题:“时尚的”“好看的”这类词没有稳定画面锚点。
解决:改成可视化描述,比如“双眼皮、大眼睛、黑色皮衣”。
不同模型混用
问题:某些角度用通义万象,某些角度改用可灵,最后风格不统一。
解决:同一人物从头到尾只用一个模型。
不同人物穿得太像
问题:AI 很难仅靠名字分辨人物。
解决:让颜色、材质和轮廓形成明显区分。
参考图有问题也将就
问题:多手、多饰品或脸部变形会在后续镜头里被持续放大。
解决:发现瑕疵就重生或替换,不要侥幸继续用。
十、自定义图片上传
适用场景
- 已经有现成设定图
- 对AI自动生成结果不满意
- 需要特定真人或指定形象
上传要求
| 要求 | 说明 |
|---|---|
| 格式 | JPG / PNG |
| 尺寸 | 建议 1024x1024 以上 |
| 背景 | 纯色或简单背景更稳定 |
| 数量 | 可替换 1 到 6 张任意角度图 |
注意事项
- 上传图风格要与项目画风匹配
- 不同角度的人物必须是同一个人物
- 确认素材具备商用授权
十一、图生图(I2I)模式
上传一张参考图,让 AI 在保留核心风格或构图线索的前提下生成新的人物图。
适合什么时候用
- 已有概念图或草图想重绘
- 想保留某种固定画风
- 从其他工具导入人物图后需要统一风格
✅ 参考图风格最好和项目画风一致,否则会出现明显的风格冲突。
十二、人物音色配置
常用预设音色
| 音色分类 | 特点 | 适合人物 |
|---|---|---|
| 甜美女声 | 清脆、明亮 | 少女、校园人物 |
| 成熟女声 | 沉稳、知性 | 职场女性、成熟人物 |
| 阳光男声 | 清亮、活泼 | 少年、青年人物 |
| 磁性男声 | 低沉、有厚度 | 霸总、成熟男性 |
| 童声 | 稚嫩、轻快 | 儿童人物 |
语音克隆
- 系统提供示例朗读文本,录音建议控制在 10 到 30 秒。
- 录音完成后可先试听,再决定是否使用。
- 也支持上传 5 秒以上音频文件做克隆。
✅ 语音克隆当前为 0 积分功能,可反复调整直到满意。
克隆音色支持重命名、删除和批量删除。
十三、批量生成与进度
- 支持并行生成多个人物的参考图
- 进度面板会显示每个人物当前状态
- 部分失败时可以单独重试,不需要整批重来
FAQ
Q: 人物在不同分镜里还是不一致怎么办?
先确认 6 角度图都已锁定,再增加更强的外貌锚点,并尽量降低镜头之间的形变幅度。
Q: 可以直接使用真人照片吗?
可以,但要确认肖像权授权,同时要注意真人照片和项目画风是否兼容,通常更适合写实风格。
Q: 人物数量有限制吗?
技术上没有硬限制,但短剧里建议优先控制在 2 到 4 个核心人物,人物越多,一致性成本越高。
Q: 怎么提升语音克隆质量?
尽量在安静环境中录音,语气自然,时长接近 30 秒,通常会得到更稳定的音色结果。