话说……为何没有革命性的video2video模型

stevessr · 2025 年11 月 30 日 10:10

嘿嘿……？when……

上下文要爆炸的

dotaevo · 2025 年11 月 30 日 10:11

啊？为什么需要video2video？本质上用image2video就够了啊？

stevessr · 2025 年11 月 30 日 10:12

video is more than simply images

还有音频

lulujiang · 2025 年11 月 30 日 10:12

最早爆火的ai就是换脸…

stevessr · 2025 年11 月 30 日 10:13

deepfake啊……
不过应该是定制剧情偏多？

dotaevo · 2025 年11 月 30 日 10:25

比如呢？有什么是一定要用video而不能用image实现的吗？

wanwanyi · 2025 年11 月 30 日 10:28

video音频信息应该挺重要吧，毕竟是个序列。
非要说一定不一定那我还真说不出来，但是想来效果应该有很大提升。

celeus · 2025 年11 月 30 日 10:28

现在有看到的是video的audio 2 audio然后合并入video（部分还会做换嘴型）

dotaevo · 2025 年11 月 30 日 10:29

音频不是一般都是后期加的吗……而且感觉AI音频这一块也挺成熟了啊

stevessr · 2025 年11 月 30 日 10:32

veo3 & sora2 是音视频一起出来……

stevessr · 2025 年11 月 30 日 10:33

训练集之外？

dotaevo · 2025 年11 月 30 日 10:33

没懂……所以你的需求是？

stevessr · 2025 年11 月 30 日 10:34

视频现实风格化？……（还有音频部分也要
就像吧游戏录制的视频转换为现实主义风格（还有音效什么的也要……

~~原视频直接加特效~~

wanwanyi · 2025 年11 月 30 日 10:37

你说的后期是人工念稿加上去吗？
我觉得这个话题可以参考一下Google的Veo3，这个在宣传时着重强调了原生音频生成。
对于普通念稿视频来说后期对轴加上去或许是可以接受的，但是如果是比较复杂的音效，可能直接由模型输出有着更好的效果。
具体效果我不清楚，我没有使用过Veo这种视频模型。
不过video2video我看着感觉是很有前景，只是这一听就是很烧算力的活，只能由Google这种大公司搞。可能这也是为什么现在还没有革命性的模型推出，创新成本太高了。

dotaevo · 2025 年11 月 30 日 10:38

啊？那这样很简单啊，如果只是转风格，直接把原视频拆帧之后逐帧转就可以了，我自己都写过一个小工具。

stevessr · 2025 年11 月 30 日 10:38

拆帧什么的抽卡太难受了

dotaevo · 2025 年11 月 30 日 10:39

那就不知道了，但是我看到的大部分都是生成视频和生成音频是分开做的，后期再合成到一起

dotaevo · 2025 年11 月 30 日 10:39

不会啊，有很多保证统一性的办法，最简单的，你用kontext就可以，风格很统一

stevessr · 2025 年11 月 30 日 10:43

还是太穷了导致的

算力为王啊!

wanwanyi · 2025 年11 月 30 日 10:46

这就回到这个帖子提出的问题了，因为目前没有革命性的video2video模型，所以大伙都在分开做。
我觉得是因为训练难度高、训练成本高导致迭代困难，进而导致现在还没有这样的模型出现。
不过我认为大部分情况分开做就已经够用了，只是如果真能有这样的模型可能效果比分开做好一些，成本要另说。

话题		回复	浏览量
现在抖音很火的AI二创视频是如何做出来的？用的什么AI？搞七捻三纯水	18	705	2026 年2 月 3 日
250612 三花AI日报：Higgsfield AI 整合 Flux.1 Kontext；Meta AI 发布 V-JEPA 2 世界模型；字节 Seedance 1.0 视频模型发布； Midjourney V1 视频模型即将发布前沿快讯人工智能	28	652	2025 年7 月 12 日
有没有什么好的图生视频的模型开发调优人工智能 , 快问快答	7	276	2025 年5 月 18 日
视觉大模型接入视频监控，通过简单的提示词配置来识别视频中行为的方案？搞七捻三快问快答	14	284	2025 年4 月 24 日
现在玩视频创作用什么模型好？搞七捻三人工智能 , 快问快答	9	186	2026 年3 月 28 日

话说……为何没有革命性的video2video模型

相关话题