如何完全用AI来制作一部短片

shadowrocket • 2026年1月25日 am9:58 • 小火箭, 小火箭下载, 小火箭节点

AI视频在今年突飞猛进，国内外先后涌现出大量相关产品以及各种功能，有点乱花渐欲迷人眼的感觉，但这些工具的能力到底到什么程度了，它们能做出一个完整的片子甚至电影吗？基于这个好奇，上周我结合目前最先进的一些AI工具，包括聊天机器人、AI视频、音频以及AI设计做了几个短片，先看最终的效果：

这几个片子基本上全由AI制作，从剧本到视频生成、到对白甚至封面设计。虽然仍然会觉得过于简单和初级，但相比半年前，确实有了质的飞跃，也得到了非常不错的反响。

实际上，今年六月，快手的可灵推出后，我就先后制作了AI复活老照片、AI爆改影视剧、AI复活教科书等，这些有趣的内容随即出现很多模仿者，也在网上疯传。

但我觉得这些只不过图个一时乐呵，并没有什么真正的大用途，AI视频的目标是要彻底改变影视行业，所以当时我就试图用AI来生成一部短片，但坦率的讲，看到做出来的片子，我除了觉得新鲜以外，更多的是尴尬。因为还有很多技术问题没有解决，其中最重要的是保持角色的一致性。

而如今，半年过去了，这个领域国内又出现了更多如MINIMAX、VIDU、智谱清影等重量级玩家，技术上也有非常多的突破，包括角色一致性的解决、加入了镜头控制、甚至有些还能配BGM以及进行口型同步，而且配套的TTS（文字转语音）以及文生图也相对变得成熟起来了。

很多同学好奇到底怎么样才能用AI来制作一部短片（故事片、或者MV等），接下来我就来详细说说这个问题。（本人非影视专业，见笑了）

剧本创作

AI图片：孙悟空

和任何影视剧一样，要做一部短片我们得先有个故事，这样的故事可以是自己写，如果是歌词当然也可以拿来直接用，但我更多会自己写+AI辅助，完全自己或者完全AI都不是最高效、最保质保量的方式。

以前面的“西游记之木石情猿”为例，我当时就是有个大概的故事梗概，然后让Claude来进行细化和润色的，这是最终的版本（节选）：

这一项工作，其实任何类似ChatGPT的工具应该都可以，看个人习惯。当然，理论上前面写的故事梗概，并不是严格的“剧本”格式，但因为故事较短，咱们就省去哪些复杂的其他过程了。

分镜制作

很多人以为只要把提示词喂给AI，它就能自动帮你生成了一部电影。目前没有这样的技术，我估计未来也不会有

一部影视剧在剧本创作结束后，是要制作“分镜”的，简单来说就是这样一部剧，需要通过哪些镜头、每个镜头多长、什么景别、以及摄影机运动方式全都提前规划好，而一部电影，通常需要成千上万个镜头。

这一步，自然也通过AI完成，我只是确认并做一些修改：

给到AI的提示词很重要，因为现在的文生视频产品基本上只能生成5s一个的镜头，所以，我在提示词里面都限定了每个镜头不能超过5s。而且这里的分镜表还是非常详细的。

视频生成

AI图片：林黛玉

如果是传统拍片，那现在大概率应该是要去现场拍摄了（当然前面要搭建场景、准备服化道、还有很多专业的活咱们就略过），那在AI时代就是通过AI来生成所有镜头，而不是需要拿着摄像机去实拍了。

但在这里我们有两种方式来实现，一种是文生视频，一种是图生视频。我认为文生视频目前还在非常早期的阶段，还有很多技术问题仍然待解决，实际用下来效果也非常不可控。因此，我这次主要尝试全部用图生视频来解决，至少图生视频在角色一致性上面有更高的可控性。（之前6月份的短片使用文生视频）

得益于百度最近推出的iRAG技术，使得文生图能够以非常精准的控制来生成多组图片。如下图，两图的人物基本上保持了一致性（孙悟空的衣服和头饰，正好可以理解为不同的打扮）

AI图片：林黛玉和孙悟空

当然，如果你生成的图片没法保持一致性（也即是多张图片里面的人物看起来是同一个人），那你可能要使用传统的图片处理工具来进行处理，比如Photoshop等。

你可能会问，通过什么提示词来生成这些图片呢？很简单，用前面分镜表里面的“画面描述”，你可以用AI直接帮你改成文生图的Prompt。

接下来的工作，就是找一个图生视频的工具将这些图片一一转成视频，还记得前面的分镜表吗？每个镜头你至少需要生成一张图片、然后转成视频。通常来说，为了镜头更丰富，我会多生成几个（比如在中景基础上再生成特写等）。

图生视频现在基本上AI视频工具都能做，国内常用的是快手可灵、Minimax海螺AI，我前面的视频也以这两个为主。

不得不说，这一步是最不确定、也是最充满挑战甚至惊喜的。一个Prompt会生成什么样的图片、一个Prompt会生成什么样的视频，这完全是不可预测的。有时候是惊喜、有时候自然是惊吓。

上面这个镜头片段，前面都很OK，谁知道后面非常拉跨。遇到这样的情况，要么重试，要么剪掉后面的部分。

整个过程就是不断的在失败、重试、想放弃、然后坚持，最后成功，感觉人生也不过如此。

很多人可能会说，有些文生视频都已经支持了角色一致性了，为什么要这么麻烦？没错，有些是支持了，但实际用下来效果真的。。。还不如先让图片保持一致性再转视频，这个方式的成功率高太多了。而且图片有更多的操作空间，比如定义好景别，甚至提前把布光调整好。

但到这里，事情才完成了一半。

视频制作

前面的过程非常辛苦，而且充满了不确定性。到了这里，分镜表中的镜头都生成好了，接下来就是要进行剪辑了。这里自然也是一个技术活，涉及到剪辑、配乐、录旁/对白、做字幕等，好在大部分事情在剪映里面都可以轻松搞定。

人物对话是非常重要的部分，我上面的片子都简单处理了，直接在剪映里面选择“黛玉”、“悟空”声音朗读就完了。实际上这里要做的好，需要用到非常好的TTS工具以及对口型工具，有些文生视频工具也支持对口型，但实测下来效果着实一般，目前还没找到完美的TTS以及口型同步的工具。（如果你有推荐，欢迎在评论区告诉我）。

很重要的一点是，一部电影或者连续剧，人物对话应该非常简洁，而不是很多的文字，感觉让人在看字幕，这点在故事创作完之后，台词部分是需要单独进行处理的。否则也会遇到台词很多，视频片段都不够长的问题。

最后的话

AI图片：林黛玉和孙悟空

前面大概描述了生成一部片子的基本过程，可能你有兴趣或者仍然不熟悉，那可以评论区留言或联系我。

最后想说的是，AI生成图片/视频目前仍然有非常多不可控的部分，很多时候也许会让你很崩溃，比如我经常生成一个图片的时候描述人物往左/右看，AI似乎理解不了，在生成视频的时候一些动作它也是理解不了，或者即便理解了，生成的片段也是各种问题。

比如我想要生成一个孙悟空接住一片飘落的花朵，然后拿起来凝视它，试了无数次吧，都搞不定，很多时候它直接把花塞嘴里，把我给气的。（不过当花絮倒挺有意思的）

你要知道，每生成一次都是消耗一次RMB，重新生成也计一样的费用，这就大大限制了我们的创作，没法让你一直试到满意为止。当然，现实拍片也类似吧，如果一直NG，或许演员都要下岗的。

这里还只是生成基本的动作，而真正的电影/电视剧，每个镜头还涉及到布光、镜头运动方式、景别等，而这些东西，目前AI基本没有，或者是还在非常初级的阶段，没法精确的进行控制。另外一个更具挑战的是，如果画面中有多个人，目前的AI技术要进行多人控制（谁讲话、谁这么移动等），那基本上是一场灾难。

用AI来创作视频感觉有点戴着镣铐跳舞，有太多想实现的功能它目前还做不到。但这就像一个刚学会走路的孩子，我们应该给他一些耐性，而且他的进步速度确实是飞快的。据了解，传统的电影拍摄，1分钟的成本大概需要100万美元，而我前面制作的这些短片，抛去我的时间和工资成本，用到AI的费用每分钟可能不到100块钱。

所以，如果这样的AI哪怕是只能辅助电影制作，生成少量镜头，那么对这个行业的影响也将是非常巨大的，我们离人人都成为导演已经越来越近了。

THE END

shadowrocket shadowrocket下载 shadowrocket网站小火箭小火箭下载小火箭节点科学上网

二维码

现在你可以用聊天的方式帮你女朋友修图了

< <上一篇

有了AI媒体人已经彻底实现了配图自由

下一篇>>

搜索内容

如何完全用AI来制作一部短片

取消回复

共有 0 条评论

节点推荐

标签

热门文章

如何完全用AI来制作一部短片

⭐ 好用的翻墙软件下载-小火箭高速节点推荐 ⭐

⭐ 好用的翻墙软件下载-小火箭高速节点推荐 ⭐

取消回复

共有 0 条评论

节点推荐

标签

热门文章