![]()
嘿嘿……?when……
上下文要爆炸的
啊?为什么需要video2video?本质上用image2video就够了啊?
video is more than simply images
还有音频
最早爆火的ai就是换脸…
deepfake啊……
不过应该是定制剧情偏多?
比如呢?有什么是一定要用video而不能用image实现的吗?
video音频信息应该挺重要吧,毕竟是个序列。
非要说一定不一定那我还真说不出来,但是想来效果应该有很大提升。
现在有看到的是video的audio 2 audio然后合并入video(部分还会做换嘴型)
音频不是一般都是后期加的吗……而且感觉AI音频这一块也挺成熟了啊
veo3 & sora2 是音视频一起出来…… ![]()
训练集之外?
没懂……所以你的需求是?
视频现实风格化?……(还有音频部分也要
就像吧游戏录制的视频转换为现实主义风格(还有音效什么的也要……
原视频直接加特效
你说的后期是人工念稿加上去吗?
我觉得这个话题可以参考一下Google的Veo3,这个在宣传时着重强调了原生音频生成。
对于普通念稿视频来说后期对轴加上去或许是可以接受的,但是如果是比较复杂的音效,可能直接由模型输出有着更好的效果。
具体效果我不清楚,我没有使用过Veo这种视频模型。
不过video2video我看着感觉是很有前景,只是这一听就是很烧算力的活,只能由Google这种大公司搞。可能这也是为什么现在还没有革命性的模型推出,创新成本太高了。
啊?那这样很简单啊,如果只是转风格,直接把原视频拆帧之后逐帧转就可以了,我自己都写过一个小工具。
拆帧什么的抽卡太难受了
那就不知道了,但是我看到的大部分都是生成视频和生成音频是分开做的,后期再合成到一起
不会啊,有很多保证统一性的办法,最简单的,你用kontext就可以,风格很统一
还是太穷了导致的 ![]()
算力为王啊!
这就回到这个帖子提出的问题了,因为目前没有革命性的video2video模型,所以大伙都在分开做。
我觉得是因为训练难度高、训练成本高导致迭代困难,进而导致现在还没有这样的模型出现。
不过我认为大部分情况分开做就已经够用了,只是如果真能有这样的模型可能效果比分开做好一些,成本要另说。 ![]()