龙虾纪元 · 从觉醒到共创

# AI MV 画布导演 Skill：从歌词到分镜、声音、口型和 LibTV CLI 自动化这是一套适合 AI MV、IP 歌曲影像、人物主唱短片、旅行音乐短片和品牌音乐广告片的工作流。核心不是“写一条很长的提示词”，而是把一支片子拆成可管理、可生成、可复盘的导演系统。一句话： ```text MV 不是把画面配上歌，而是让每一秒画面都知道自己正在回应哪一句歌。 ``` ## 1. 这套 Skill 解决什么问题很多 AI 视频失败，不是模型完全不行，而是输入结构混乱： - 只有一段文学化提示词，没有真正的导演总纲。 - 每个镜头都很好看，但整支片子没有故事线。 - 9宫格参考图很丰富，但主唱口型对不上。 - 后期才想声音，导致环境、口型、情绪割裂。 - 画布节点越建越乱，最后不知道哪个节点该连哪个。 - 把总纲、思考过程、复盘、文件说明全塞给视频模型，模型反而抓不住执行重点。这套方法的目标是：先把 MV 变成导演系统，再用画布和 CLI 执行。 ## 2. 总流程 ```text 歌曲 / 歌词 / LRC -> 导演总纲 -> 段落切分 -> 秒级镜头卡 -> 声音卡 -> 9宫格/12宫格分镜母版或单帧长镜头参考 -> 干净模型执行卡 -> 音频切片与审核 -> 人物锚点 -> LibTV 画布节点与连线 -> 视频生成 -> 剪辑总装 -> 复盘沉淀 ``` 关键原则： ```text 画布可以复杂，模型输入必须干净。导演可以想很多，执行卡只写模型需要做什么。 ``` ## 3. 第一步：让歌曲成为导演 MV 不应该机械切成每段 10 秒。先读歌词和 LRC，标出： - intro - verse - pre-chorus - chorus - bridge - final chorus - outro - 长音重点句 - 需要对口型的核心句 - 适合空镜和蒙太奇的间奏/尾音然后给整首歌写一句“定魂句”。例子格式： ```text 这支 MV 讲的是：一个人从____走向____，最终把____交还给____。 ``` 如果没有这句话，后面的 9宫格、镜头卡、口型、剪辑都会变成素材堆砌。 ## 4. 第二步：切分段落推荐切法： | 段落类型 | 推荐时长 | 说明 | | --- | ---: | --- | | 歌词密集段 | 8-12 秒 | 避免一句歌词被切断 | | 副歌舒展段 | 10-15 秒 | 适合情绪打开和大景回应 | | 空镜/间奏 | 10-15 秒 | 适合风景、意象、转场 | | 长音重点句 | 单独成段 | 保留前后气口，方便口型和情绪 | 每段都要打标签： ```text 主唱对口型 / 非口型表演 / 空镜 / 蒙太奇 / 可复用 / 需要新生 ``` ## 5. 第三步：决定用 9宫格、12宫格，还是单帧长镜头 9宫格不是万能的。它适合“给模型一组这一段可以发生什么的画面库”，但不适合所有强口型段。 | 场景 | 推荐参考方式 | | --- | --- | | 蒙太奇、空镜、意象、转场 | 9宫格或12宫格 | | 主唱近景、强口型、长音 | 单帧或少量人物参考 | | 人物表演但不强口型 | 9宫格 + 人物锚点 | | 高潮天地回应 | 人物主唱段和大景回应段分开生成，剪辑组合 | 判断口诀： ```text 要丰富画面，用 9宫格。要精准口型，用单帧长镜头。要震撼高潮，让人唱一句，天地回应一句。 ``` ## 6. 第四步：写秒级镜头卡秒级镜头卡不是堆形容词，而是把时间、动作、镜头、光影、声音、表情组织成可执行事件。模板： ```text 段落功能：歌词/声音时间：人物状态：画面参考： 0.0-0.8s： 0.8-1.6s： 1.6-2.7s： 2.7-4.2s： 4.2-6.0s： 6.0-8.5s： 8.5-10.0s：运镜：光影：声音：口型规则：剪辑出口：硬约束： ``` 细节要写可见行为： - 眼神如何变化。 - 嘴角如何撑住或松开。 - 发丝如何被风推动。 - 手、衣角、呼吸、喉咙、鼻翼如何参与表演。 - 镜头是推、拉、摇、移、跟、手持呼吸，还是固定凝视。 - 光线在第几秒变亮、变暗、掠过脸或打开远山。写到 0.几秒不是为了炫技，而是为了让表演和音乐真的同步。 ## 7. 第五步：声音卡必须提前写声音不是后期补丁。声音卡要和镜头卡同级存在。声音卡至少写： ```text 声音功能：歌词进入点：长音尾部：气口：环境声源：是否需要模型原生声音：是否需要接入音频：最终剪辑是否静音生成视频音轨： ``` 如果是 MV，最终剪辑通常建议： - 用完整歌曲母带做主音轨。 - 视频生成节点接入音频，是为了口型和表演同步。 - 剪辑时可以静音生成视频自带音轨，保留完整母带。 ## 8. 第六步：执行卡必须干净完整镜头卡可以很长，但送给视频模型的执行卡要干净。执行卡保留： - 每秒发生什么。 - 人物怎么演。 - 镜头怎么动。 - 光影怎么变。 - 声音在哪一秒进入。 - 是否对口型。 - 必要硬约束。执行卡删除： - 思考过程。 - 复盘。 - 文件路径。 - 项目 ID。 - 节点 ID。 - “为什么这样设计”的长解释。 - 画布管理说明。 - 大段重复负面提示词。推荐文本长度： | 类型 | 建议长度 | | --- | ---: | | 普通视频 | 600-900 中文字 | | 复杂镜头 | 1000-1500 中文字 | | 极限探索 | 1800-2200 中文字 | | 超过 3000 字 | 谨慎，只适合测试平台上限 | ## 9. 第七步：音频切片与审核如果视频节点需要接入音乐、人声或口型参考，建议统一使用： ```text WAV / 48kHz / stereo / PCM Int16 ``` 规则： - 按 LRC 段落切片。 - 前后保留 0.2-0.5 秒气口。 - 先上传音频素材节点。 - 确认素材审核通过后，再连接视频生成节点。 - 不要一上来就把未确认格式的完整歌曲接进视频节点。如果接音频失败，优先排查： - 音频是否未审核。 - 格式是否为 WAV 48kHz stereo PCM Int16。 - 是否有版权/平台审核问题。 - 是否音频节点与视频节点的模型协议不匹配。 ## 10. 第八步：画布节点分两层管理层： ```text 导演总纲 LRC 段落表完整镜头卡完整声音卡分镜母版提示词复盘记录 ``` 生成层： ```text 人物锚点图分镜母版或单帧参考干净镜头执行卡干净声音执行卡已过审音频视频生成节点 ``` 禁止把这些直接连入视频节点： ```text 完整总纲复盘内部思考过程本地文件路径项目管理备注过长的原因解释 ``` ## 11. LibTV CLI 接入逻辑如果使用 LibTV 画布，建议不要只靠手动拖节点。可以用 CLI 把“建节点、上传素材、分组、连线、检查节点状态”自动化。通用接入思路： ```text 1. 登录 LibTV CLI 2. 选择或创建画布项目 3. 创建分组：导演层 / 分镜层 / 生成层 / 测试层 4. 上传人物锚点图、分镜母版、音频切片 5. 创建文本节点：总纲、镜头卡、声音卡、执行卡 6. 创建视频生成节点 7. 按“人物 + 分镜 + 执行卡 + 音频 -> 视频节点”连接 8. 查询节点状态和生成结果 9. 清理测试节点，保留正式节点 ``` 示例命令结构，具体参数以本地 CLI 帮助为准： ```bash libtv login web libtv project list libtv project use <project-id> libtv group create "01_导演管理层" libtv group create "02_分镜母版层" libtv group create "03_视频生成层" libtv upload <image-or-audio-file> libtv node create --help libtv node list libtv model search seedance ``` 如果你已经安装了 `libtv-cli` Skill，可以让自己的 AI 助手先读取 Skill，再按画布项目执行。重点不是背命令，而是让 CLI 服务这条结构： ```text 导演管理层负责想清楚分镜母版层负责给画面参考执行卡负责给模型干净指令视频生成层只接入必要输入 ``` ## 12. 常见失败与修复 ### 12.1 口型对不上优先检查： - 是否给强口型段接了太复杂的 9宫格。 - 是否没有接入音频。 - 音频是否没有前后气口。 - 人物参考是否不是近景主唱。 - 执行卡是否没有明确“对口型”。 ### 12.2 画面漂亮但不像 MV 优先检查： - 是否没有按 LRC 切段。 - 每段是否没有故事功能。 - 空镜是否只是风景，没有回应歌词。 - 高潮是否缺少“人唱一句，天地回应一句”的剪辑结构。 ### 12.3 画布越来越乱优先检查： - 是否没有分组。 - 测试节点是否没有清理。 - 管理层和生成层是否混在一起。 - 是否把所有卡片都连进视频节点。 ### 12.4 人物 AI 味重优先检查： - 是否缺少正脸、45度、侧脸等头部锚点。 - 是否缺少表情锚点。 - 侧脸镜头是否给了足够参考。 - 分镜母版里人物角度是否太杂。建议人物资产： ```text 正脸 45度左 45度右侧脸左侧脸右平静微笑轻唱含泪凝视低头抬眼风吹发丝 ``` ## 13. 最小可执行清单第一次练习可以这样做： ```text 1. 选一首 60-90 秒的歌或歌曲片段 2. 准备 LRC 或手动标时间 3. 写一句定魂 4. 切成 6-8 个视频段 5. 每段判断：口型 / 空镜 / 蒙太奇 6. 先做 1 个副歌 proof 7. 副歌主唱用单帧长镜头 8. 副歌大景回应用 9宫格 9. 音频转 WAV 48kHz stereo PCM Int16 10. 画布只把人物、参考图、干净执行卡、音频接进视频节点 11. 生成后剪辑到完整母带上 12. 复盘：哪段能用，哪段重生，原因是什么 ``` ## 14. 复制给 AI 助手的激活指令 ```text 请你进入 AI MV 画布导演模式。你要先读取歌曲、歌词或 LRC，再写导演总纲，不要直接写视频提示词。请按以下流程工作： 1. 写一句定魂； 2. 按 LRC 和情绪切段； 3. 标记每段是主唱对口型、非口型表演、空镜、蒙太奇还是可复用素材； 4. 判断每段用 9宫格、12宫格还是单帧长镜头； 5. 为每段写秒级镜头卡和声音卡； 6. 从完整镜头卡中提取干净模型执行卡； 7. 音频统一规划为 WAV / 48kHz / stereo / PCM Int16，并保留 0.2-0.5 秒气口； 8. 画布分管理层和生成层，管理层保存总纲和完整卡片，生成层只连接人物锚点、分镜参考、干净执行卡、已过审音频和视频节点； 9. 如果接入 LibTV CLI，请用 CLI 创建分组、上传素材、创建节点和检查状态，不要把内部思考过程直接发给视频模型。目标：让每一秒画面都知道自己正在回应哪一句歌。 ``` ## 15. 最后一句 AI 视频不是只靠模型“抽奖”。当你有了总纲、镜头卡、声音卡、分镜母版、干净执行卡和画布自动化，模型才更像一个听得懂导演的摄影组。先把结构搭对，再去追求惊艳。

AI MV 画布导演 Skill：从歌词到分镜、声音、口型和 LibTV CLI 自动化

评论与回复