
FlowAct-R1:字节跳动实时交互式人形视频生成框架
训练时模拟推理的"不完美",推理时用记忆维护"一致性"层面挑战FlowAct-R1 的解法训练-推理一致性训练用真实帧,推理用生成帧Self-Forcing++:训练时混入伪生成帧长期时序一致性越生成越"走样"记忆细化:定期"校准"短期记忆行为自然度动作机械、状态切换生硬MLLM规划:用大模型理解语义,规划行为核心贡献技术创新实际意义实时流式生成流式缓冲区 + 分块去噪首帧1.5秒,无限时长长期一致性Self-Forcing++ + 记忆细化长时间生成不崩塌自然行为MLLM动作规划。
































