如何完全用AI来制作一部短片

AI视频在今年突飞猛进,国内外先后涌现出大量相关产品以及各种功能,有点乱花渐欲迷人眼的感觉,但这些工具的能力到底到什么程度了,它们能做出一个完整的片子甚至电影吗?基于这个好奇,上周我结合目前最先进的一些AI工具,包括聊天机器人、AI视频、音频以及AI设计做了几个短片, 先看最终的效果:
这几个片子基本上全由AI制作,从剧本到视频生成、到对白甚至封面设计。虽然仍然会觉得过于简单和初级,但相比半年前,确实有了质的飞跃,也得到了非常不错的反响。
实际上,今年六月,快手的可灵推出后,我就先后制作了AI复活老照片、AI爆改影视剧、AI复活教科书等,这些有趣的内容随即出现很多模仿者,也在网上疯传。
但我觉得这些只不过图个一时乐呵,并没有什么真正的大用途,AI视频的目标是要彻底改变影视行业,所以当时我就试图用AI来生成一部短片, 但坦率的讲,看到做出来的片子,我除了 觉得新鲜以外,更多的是尴尬 。因为还有很多技术问题没有解决,其中最重要的是保持角色的一致性。
而如今,半年过去了,这个领域国内又出现了更多如MINIMAX、VIDU、智谱清影等重量级玩家,技术上也有非常多的突破,包括角色一致性的解决、加入了镜头控制、甚至有些还能配BGM以及进行口型同步,而且配套的TTS(文字转语音)以及文生图也相对变得成熟起来了。
很多同学好奇到底怎么样才能用AI来制作一部短片(故事片、或者MV等),接下来我就来详细说说这个问题。 (本人非影视专业,见笑了)
剧本创作

AI图片:孙悟空
和任何影视剧一样,要做一部短片我们得先有个故事,这样的故事可以是自己写,如果是歌词当然也可以拿来直接用,但我更多会自己写+AI辅助,完全自己或者完全AI都不是最高效、最保质保量的方式。
以前面的“西游记之木石情猿”为例,我当时就是有个大概的故事梗概,然后让Claude来进行细化和润色的,这是最终的版本(节选):

这一项工作,其实任何类似ChatGPT的工具应该都可以,看个人习惯。当然,理论上前面写的故事梗概,并不是严格的“剧本”格式,但因为故事较短,咱们就省去哪些复杂的其他过程了。
分镜制作
很多人以为只要把提示词喂给AI,它就能自动帮你生成了一部电影。目前没有这样的技术,我估计未来也不会有
一部影视剧在剧本创作结束后,是要制作“分镜”的,简单来说就是这样一部剧,需要通过哪些镜头、每个镜头多长、什么景别 、以及摄影机运动方式全都提前规划好,而一部电影,通常需要成千上万个镜头。
这一步,自然也通过AI完成,我只是确认并做一些修改:

给到AI的提示词很重要,因为现在的文生视频产品基本上只能生成5s一个的镜头,所以,我在提示词里面都限定了每个镜头不能超过5s。而且这里的分镜表还是非常详细的。
视频生成

AI图片 :林黛玉
如果是 传统 拍片,那 现在大概率应该是要 去现场拍摄了( 当然前面要 搭建场景、准备服化道 、 还有很多专业的活咱们就略过) , 那在AI时代就是通过AI来生成 所有 镜头 ,而不是 需要拿着摄像机去实拍了。
但在这里我们有两种方式来实现,一种是文生视频,一种是图生视频。我认为文生视频目前还在非常早期的阶段,还有很多技术问题仍然待解决,实际用下来效果也非常不可控。因此,我这次主要尝试全部用图生视频来解决,至少图生视频在角色一致性上面有更高的可控性。(之前6月份的短片使用文生视频)
得益于百度最近推出的iRAG技术,使得文生图能够以非常精准的控制来生成多组图片。如下图,两图的人物基本上保持了一致性(孙悟空的衣服和头饰,正好可以理解为不同的打扮)

AI图片 :林黛玉和孙悟空

当然,如果你生成的图片没法保持一致性(也即是多张图片里面的人物看起来是同一个人),那你可能要使用传统的图片处理工具来进行处理,比如Photoshop等。
你可能会问,通过什么提示词来生成这些图片呢?很简单,用前面分镜表里面的“画面描述”,你可以用AI直接帮你改成文生图的Prompt。
接下来的工作,就是找一个图生视频的工具将这些图片一一转成视频,还记得前面的分镜表吗?每个镜头你至少需要生成一张图片、然后转成视频。通常来说,为了镜头更丰富,我会多生成几个(比如在中景基础上再生成特写等)。
图生视频现在基本上AI视频工具都能做,国内常用的是快手可灵、Minimax海螺AI,我前面的视频也以这两个为主。
不得不说,这一步是最不确定、也是最充满挑战甚至惊喜的。一个Prompt会生成什么样的图片、一个Prompt会生成什么样的视频,这完全是不可预测的。有时候是惊喜、有时候自然是惊吓。
上面这个镜头片段,前面都很OK,谁知道后面非常拉跨。遇到这样的情况,要么重试,要么剪掉后面的部分。
整个过程就是不断的在失败、重试、想放弃、然后坚持,最后成功,感觉人生也不过如此。
很多人可能会说,有些文生视频都已经支持了角色一致性了,为什么要这么麻烦?没错,有些是支持了,但实际用下来效果真的。。。还不如先让图片保持一致性再转视频,这个方式的成功率高太多了。而且图片有更多的操作空间,比如定义好景别,甚至提前把布光调整好。
但到这里,事情才完成了一半。
视频制作
前面的过程非常辛苦,而且充满了不确定性。到了这里,分镜表中的镜头都生成好了,接下来就是要进行剪辑了。这里自然也是一个技术活,涉及到剪辑、配乐、录旁/对白、做字幕等,好在大部分事情在剪映里面都可以轻松搞定。

人物对话是非常重要的部分,我上面的片子都简单处理了,直接在剪映里面选择“黛玉”、“悟空”声音朗读就完了。实际上这里要做的好,需要用到非常好的TTS工具以及对口型工具,有些文生视频工具也支持对口型,但实测下来效果着实一般,目前还没找到完美的TTS以及口型同步的工具。(如果你有推荐,欢迎在评论区告诉我)。
很重要的一点是,一部电影或者连续剧,人物对话应该非常简洁,而不是很多的文字,感觉让人在看字幕,这点在故事创作完之后,台词部分是需要单独进行处理的。否则也会遇到台词很多,视频片段都不够长的问题。
最后的话

AI图片 :林黛玉和孙悟空
前面大概描述了生成一部片子的基本过程,可能你有兴趣或者仍然不熟悉,那可以评论区留言或联系我。
最后想说的是,AI生成图片/视频目前仍然有非常多不可控的部分,很多时候也许会让你很崩溃,比如我经常生成一个图片的时候描述人物往左/右看,AI似乎理解不了,在生成视频的时候一些动作它也是理解不了,或者即便理解了,生成的片段也是各种问题。
比如我想要生成一个孙悟空接住一片飘落的花朵,然后拿起来凝视它,试了无数次吧,都搞不定,很多时候它直接把花塞嘴里,把我给气的。(不过当花絮倒挺有意思的)
你要知道,每生成一次都是消耗一次RMB,重新生成也计一样的费用,这就大大限制了我们的创作,没法让你一直试到满意为止。当然,现实拍片也类似吧,如果一直NG,或许演员都要下岗的。
这里还只是生成基本的动作,而真正的电影/电视剧,每个镜头还涉及到布光、镜头运动方式、景别等,而这些东西,目前AI基本没有,或者是还在非常初级的阶段,没法精确的进行控制。另外一个更具挑战的是,如果画面中有多个人,目前的AI技术要进行多人控制(谁讲话、谁这么移动等),那基本上是一场灾难。
用AI来创作视频感觉有点戴着镣铐跳舞,有太多想实现的功能它目前还做不到。但这就像一个刚学会走路的孩子,我们应该给他一些耐性,而且他的进步速度确实是飞快的。据了解,传统的电影拍摄,1分钟的成本大概需要100万美元,而我前面制作的这些短片,抛去我的时间和工资成本,用到AI的费用每分钟可能不到100块钱。
所以,如果这样的AI哪怕是只能辅助电影制作,生成少量镜头,那么对这个行业的影响也将是非常巨大的, 我们离人人 都成为导演 已经越来越近了。


共有 0 条评论