AI短剧人物设计完全指南

本教程你将学到

  • 为什么人物一致性会成为AI短剧的核心难点
  • 6角度参考图分别负责固定什么信息
  • 如何选择模型并写出更稳定的人设描述
  • 什么时候该上传自定义图片、使用图生图或配置语音克隆

人物设计不是“先随便出一张图再说”,而是先把人物的视觉锚点和声音锚点固定下来。前期约束越清晰,后面做分镜和视频时返工越少。

典型问题

同一段描述生成出来的人脸轮廓不断变化

发型和服装在不同镜头里悄悄被替换

情绪镜头虽然表情对了,但已经不像同一个人

一、什么是人物一致性

人物一致性指的是同一个人物在不同镜头、不同情绪和不同姿态下,依然保持稳定的面部特征、发型、服装和整体气质。这是AI短剧最关键的基础能力之一。

二、为什么人物容易漂

三、6角度参考图系统

每个参考图的作用

角度作用适用场景
正面全身固定整体体型、服装比例和轮廓远景、动作场景
正面半身固定五官和上半身细节对话、正面镜头
侧面固定侧脸轮廓、鼻线和发型层次侧面镜头
开心固定正向情绪时的表情风格欢乐、高能片段
愤怒固定冲突状态下的表情和张力争执、高潮场景
悲伤固定低落情绪时的神态和眼神情感低谷镜头

四、参考图生成流程

输入人物描述
AI生成6张参考图
逐张审核
锁定人物

如果只有某个角度不满意,不需要整组重来。优先单张重生成,或者上传自定义图替换对应角度。

五、模型选择

模型特点适合场景
通义万象稳定、通用、容错高多数风格的默认选择
豆包细节丰富、写实感更强写实、国漫、质感型人物
可灵风格变化更明显、创意感强风格化和视觉冲击更强的项目

当前参考图生成统一按每次 2 积分计费。

⚠️ 重要提示同一个人物建议全程使用同一个模型。跨模型混用会直接提高风格漂移和细节不一致的概率。

六、人物描述技巧

描述模板

[年龄段] + [性别] + [发型] + [发色] + [面部特征] + [服装] + [气质]

好的描述

25岁左右的年轻女性,黑色长直发及腰,柳叶眉,杏眼,穿白色职业套装,气质干练。

差的描述

漂亮女生

发型建议

  • 长直发
  • 波浪卷发
  • 高马尾
  • 齐耳短发
  • 背头

面部建议

  • 柳叶眉
  • 一字眉
  • 杏眼
  • 丹凤眼
  • 酒窝
  • 泪痣

服装建议

  • 职业装
  • 休闲装
  • 运动服
  • 汉服
  • 盔甲
  • 宫装

七、AI优化描述

分析已有描述
识别缺失特征
补全年龄、发型、面部、服装和气质

建议先自己写基础描述,再用 AI 补全细节,这样结果通常比完全放手给模型更稳定。

八、最佳实践

  • 让主要人物之间有明显区分,不要都写成“年轻女性长发”这类模糊人设。
  • 服装尽量固定,短剧里不要频繁换装。
  • 为人物设置 1 到 2 个强辨识特征,比如发带、眼镜或项链。
  • 参考图出现瑕疵时立刻重生,不要把问题带进后续流程。

九、常见大坑

描述太短

问题只写“帅气男生”或“漂亮女生”,模型每次都会补出不同的人。

解决至少给出5个以上的明确外貌和服装特征。

使用模糊词

问题“时尚的”“好看的”这类词没有稳定画面锚点。

解决改成可视化描述,比如“双眼皮、大眼睛、黑色皮衣”。

不同模型混用

问题某些角度用通义万象,某些角度改用可灵,最后风格不统一。

解决同一人物从头到尾只用一个模型。

不同人物穿得太像

问题AI 很难仅靠名字分辨人物。

解决让颜色、材质和轮廓形成明显区分。

参考图有问题也将就

问题多手、多饰品或脸部变形会在后续镜头里被持续放大。

解决发现瑕疵就重生或替换,不要侥幸继续用。

十、自定义图片上传

适用场景

  • 已经有现成设定图
  • 对AI自动生成结果不满意
  • 需要特定真人或指定形象

上传要求

要求说明
格式JPG / PNG
尺寸建议 1024x1024 以上
背景纯色或简单背景更稳定
数量可替换 1 到 6 张任意角度图

注意事项

  • 上传图风格要与项目画风匹配
  • 不同角度的人物必须是同一个人物
  • 确认素材具备商用授权

十一、图生图(I2I)模式

上传一张参考图,让 AI 在保留核心风格或构图线索的前提下生成新的人物图。

适合什么时候用

  • 已有概念图或草图想重绘
  • 想保留某种固定画风
  • 从其他工具导入人物图后需要统一风格

参考图风格最好和项目画风一致,否则会出现明显的风格冲突。

十二、人物音色配置

常用预设音色

音色分类特点适合人物
甜美女声清脆、明亮少女、校园人物
成熟女声沉稳、知性职场女性、成熟人物
阳光男声清亮、活泼少年、青年人物
磁性男声低沉、有厚度霸总、成熟男性
童声稚嫩、轻快儿童人物

语音克隆

  • 系统提供示例朗读文本,录音建议控制在 10 到 30 秒。
  • 录音完成后可先试听,再决定是否使用。
  • 也支持上传 5 秒以上音频文件做克隆。

语音克隆当前为 0 积分功能,可反复调整直到满意。

克隆音色支持重命名、删除和批量删除。

十三、批量生成与进度

  • 支持并行生成多个人物的参考图
  • 进度面板会显示每个人物当前状态
  • 部分失败时可以单独重试,不需要整批重来

FAQ

Q: 人物在不同分镜里还是不一致怎么办?

先确认 6 角度图都已锁定,再增加更强的外貌锚点,并尽量降低镜头之间的形变幅度。

Q: 可以直接使用真人照片吗?

可以,但要确认肖像权授权,同时要注意真人照片和项目画风是否兼容,通常更适合写实风格。

Q: 人物数量有限制吗?

技术上没有硬限制,但短剧里建议优先控制在 2 到 4 个核心人物,人物越多,一致性成本越高。

Q: 怎么提升语音克隆质量?

尽量在安静环境中录音,语气自然,时长接近 30 秒,通常会得到更稳定的音色结果。

下一步

学习分镜规划技巧 →