AI短剧角色设计完全指南

本教程你将学到

为什么角色一致性会成为AI短剧的核心难点
6角度参考图分别负责固定什么信息
如何选择模型并写出更稳定的人设描述
什么时候该上传自定义图片、使用图生图或配置语音克隆

角色设计不是“先随便出一张图再说”，而是先把角色的视觉锚点和声音锚点固定下来。前期约束越清晰，后面做分镜和视频时返工越少。

典型问题

同一段描述生成出来的人脸轮廓不断变化

发型和服装在不同镜头里悄悄被替换

情绪镜头虽然表情对了，但已经不像同一个人

一、什么是角色一致性

角色一致性指的是同一个角色在不同镜头、不同情绪和不同姿态下，依然保持稳定的面部特征、发型、服装和整体气质。这是AI短剧最关键的基础能力之一。

二、为什么角色容易漂

三、6角度参考图系统

每个参考图的作用

角度	作用	适用场景
正面全身	固定整体体型、服装比例和轮廓	远景、动作场景
正面半身	固定五官和上半身细节	对话、正面镜头
侧面	固定侧脸轮廓、鼻线和发型层次	侧面镜头
开心	固定正向情绪时的表情风格	欢乐、高能片段
愤怒	固定冲突状态下的表情和张力	争执、高潮场景
悲伤	固定低落情绪时的神态和眼神	情感低谷镜头

四、参考图生成流程

输入角色描述→

AI生成6张参考图→

逐张审核→

锁定角色

如果只有某个角度不满意，不需要整组重来。优先单张重生成，或者上传自定义图替换对应角度。

五、模型选择

模型	特点	适合场景
通义万象	稳定、通用、容错高	多数风格的默认选择
豆包	细节丰富、写实感更强	写实、国漫、质感型角色
可灵	风格变化更明显、创意感强	风格化和视觉冲击更强的项目

当前参考图生成统一按每次 2 积分计费。

⚠️ 重要提示：同一个角色建议全程使用同一个模型。跨模型混用会直接提高风格漂移和细节不一致的概率。

六、角色描述技巧

描述模板

[年龄段] + [性别] + [发型] + [发色] + [面部特征] + [服装] + [气质]

✅ 好的描述

25岁左右的年轻女性，黑色长直发及腰，柳叶眉，杏眼，穿白色职业套装，气质干练。

❌ 差的描述

漂亮女生

发型建议

长直发
波浪卷发
高马尾
齐耳短发
背头

面部建议

柳叶眉
一字眉
杏眼
丹凤眼
酒窝
泪痣

服装建议

职业装
休闲装
运动服
汉服
盔甲
宫装

七、AI优化描述

分析已有描述→

识别缺失特征→

补全年龄、发型、面部、服装和气质

✅ 建议先自己写基础描述，再用 AI 补全细节，这样结果通常比完全放手给模型更稳定。

八、最佳实践

让主要角色之间有明显区分，不要都写成“年轻女性长发”这类模糊人设。
服装尽量固定，短剧里不要频繁换装。
为角色设置 1 到 2 个强辨识特征，比如发带、眼镜或项链。
参考图出现瑕疵时立刻重生，不要把问题带进后续流程。

九、常见大坑

描述太短

问题：只写“帅气男生”或“漂亮女生”，模型每次都会补出不同的人。

解决：至少给出5个以上的明确外貌和服装特征。

使用模糊词

问题：“时尚的”“好看的”这类词没有稳定画面锚点。

解决：改成可视化描述，比如“双眼皮、大眼睛、黑色皮衣”。

不同模型混用

问题：某些角度用通义万象，某些角度改用可灵，最后风格不统一。

解决：同一角色从头到尾只用一个模型。

不同角色穿得太像

问题：AI 很难仅靠名字分辨角色。

解决：让颜色、材质和轮廓形成明显区分。

参考图有问题也将就

问题：多手、多饰品或脸部变形会在后续镜头里被持续放大。

解决：发现瑕疵就重生或替换，不要侥幸继续用。

十、自定义图片上传

适用场景

已经有现成设定图
对AI自动生成结果不满意
需要特定真人或指定形象

上传要求

要求	说明
格式	JPG / PNG
尺寸	建议 1024x1024 以上
背景	纯色或简单背景更稳定
数量	可替换 1 到 6 张任意角度图

注意事项

上传图风格要与项目画风匹配
不同角度的角色必须是同一个角色
确认素材具备商用授权

十一、图生图（I2I）模式

上传一张参考图，让 AI 在保留核心风格或构图线索的前提下生成新的角色图。

适合什么时候用

已有概念图或草图想重绘
想保留某种固定画风
从其他工具导入角色图后需要统一风格

✅ 参考图风格最好和项目画风一致，否则会出现明显的风格冲突。

十二、角色音色配置

常用预设音色

音色分类	特点	适合角色
甜美女声	清脆、明亮	少女、校园角色
成熟女声	沉稳、知性	职场女性、成熟角色
阳光男声	清亮、活泼	少年、青年角色
磁性男声	低沉、有厚度	霸总、成熟男性
童声	稚嫩、轻快	儿童角色

语音克隆

系统提供示例朗读文本，录音建议控制在 10 到 30 秒。
录音完成后可先试听，再决定是否使用。
也支持上传 5 秒以上音频文件做克隆。

✅ 语音克隆当前为 0 积分功能，可反复调整直到满意。

克隆音色支持重命名、删除和批量删除。

十三、批量生成与进度

支持并行生成多个角色的参考图
进度面板会显示每个角色当前状态
部分失败时可以单独重试，不需要整批重来

FAQ

Q: 角色在不同分镜里还是不一致怎么办？

先确认 6 角度图都已锁定，再增加更强的外貌锚点，并尽量降低镜头之间的形变幅度。

Q: 可以直接使用真人照片吗？

可以，但要确认肖像权授权，同时要注意真人照片和项目画风是否兼容，通常更适合写实风格。

Q: 角色数量有限制吗？

技术上没有硬限制，但短剧里建议优先控制在 2 到 4 个核心角色，角色越多，一致性成本越高。

Q: 怎么提升语音克隆质量？

尽量在安静环境中录音，语气自然，时长接近 30 秒，通常会得到更稳定的音色结果。

下一步

学习分镜规划技巧 →