「LongLive 2.0」NVLabs 开源长视频生成基础设施：NVFP4、并行训练和 45.7 FPS 推理

LongLive 2.0 是 NVLabs 开源的长视频生成基础设施，定位不是普通的一键视频生成网页工具，而是面向训练和推理的研究代码与模型管线。它围绕 NVFP4、序列并行、多镜头视频和异步解码，试图把长视频生成从“能生成”继续推向“更长、更快、更可扩展”。

从实时交互长视频到 2.0 基础设施

LongLive 1.0 关注 Real-time Interactive Long Video Generation，支持根据连续用户提示实时生成对应视频。LongLive 2.0 则把重点放到 infra：在 AR training、DMD distillation 和 inference 中引入 NVFP4 与并行机制，并支持 multi-shot 视频。

训练和推理两边都做并行

README 中列出的训练侧能力包括 balanced sequence parallel、multi-shot / single-shot AR training，以及 BF16 或 NVFP4 的训练和少步蒸馏。推理侧则支持 NVFP4 W4A4、NVFP4 KV Cache、multi-shot attention sink、sequence parallel inference 和 async decoding。

45.7 FPS 的 NVFP4 2-step 模型

官方模型表里给出了几个版本：LongLive-1.3B、LongLive-2.0-5B、LongLive-2.0-5B-NVFP4-4Step，以及 LongLive-2.0-5B-NVFP4-2Step。其中 NVFP4-2Step 版本标注为 45.7 FPS，并支持 multi-shot。仓库也提供 BF16 和 NVFP4 的 quick start 示例，模型权重放在 Hugging Face。