话说……为何没有革命性的video2video模型

:distorted_face:
嘿嘿……?when……


上下文要爆炸的 :hot_face:

2 个赞

啊?为什么需要video2video?本质上用image2video就够了啊?

2 个赞

video is more than simply images

还有音频

2 个赞

最早爆火的ai就是换脸…

2 个赞

deepfake啊……
不过应该是定制剧情偏多?

比如呢?有什么是一定要用video而不能用image实现的吗?

1 个赞

video音频信息应该挺重要吧,毕竟是个序列。
非要说一定不一定那我还真说不出来,但是想来效果应该有很大提升。

1 个赞

现在有看到的是video的audio 2 audio然后合并入video(部分还会做换嘴型)

音频不是一般都是后期加的吗……而且感觉AI音频这一块也挺成熟了啊

1 个赞

veo3 & sora2 是音视频一起出来…… :distorted_face:

1 个赞

训练集之外?

没懂……所以你的需求是?

1 个赞

视频现实风格化?……(还有音频部分也要
就像吧游戏录制的视频转换为现实主义风格(还有音效什么的也要……

原视频直接加特效

你说的后期是人工念稿加上去吗?
我觉得这个话题可以参考一下Google的Veo3,这个在宣传时着重强调了原生音频生成。
对于普通念稿视频来说后期对轴加上去或许是可以接受的,但是如果是比较复杂的音效,可能直接由模型输出有着更好的效果。
具体效果我不清楚,我没有使用过Veo这种视频模型。
不过video2video我看着感觉是很有前景,只是这一听就是很烧算力的活,只能由Google这种大公司搞。可能这也是为什么现在还没有革命性的模型推出,创新成本太高了。

1 个赞

啊?那这样很简单啊,如果只是转风格,直接把原视频拆帧之后逐帧转就可以了,我自己都写过一个小工具。

1 个赞

拆帧什么的抽卡太难受了

那就不知道了,但是我看到的大部分都是生成视频和生成音频是分开做的,后期再合成到一起

2 个赞

不会啊,有很多保证统一性的办法,最简单的,你用kontext就可以,风格很统一

2 个赞

还是太穷了导致的 :distorted_face:

算力为王啊!

这就回到这个帖子提出的问题了,因为目前没有革命性的video2video模型,所以大伙都在分开做。
我觉得是因为训练难度高、训练成本高导致迭代困难,进而导致现在还没有这样的模型出现。
不过我认为大部分情况分开做就已经够用了,只是如果真能有这样的模型可能效果比分开做好一些,成本要另说。 :tieba_016: