
LongLive 2.0 是 NVLabs 开源的长视频生成基础设施,定位不是普通的一键视频生成网页工具,而是面向训练和推理的研究代码与模型管线。它围绕 NVFP4、序列并行、多镜头视频和异步解码,试图把长视频生成从“能生成”继续推向“更长、更快、更可扩展”。
从实时交互长视频到 2.0 基础设施
LongLive 1.0 关注 Real-time Interactive Long Video Generation,支持根据连续用户提示实时生成对应视频。LongLive 2.0 则把重点放到 infra:在 AR training、DMD distillation 和 inference 中引入 NVFP4 与并行机制,并支持 multi-shot 视频。
训练和推理两边都做并行
README 中列出的训练侧能力包括 balanced sequence parallel、multi-shot / single-shot AR training,以及 BF16 或 NVFP4 的训练和少步蒸馏。推理侧则支持 NVFP4 W4A4、NVFP4 KV Cache、multi-shot attention sink、sequence parallel inference 和 async decoding。
45.7 FPS 的 NVFP4 2-step 模型
官方模型表里给出了几个版本:LongLive-1.3B、LongLive-2.0-5B、LongLive-2.0-5B-NVFP4-4Step,以及 LongLive-2.0-5B-NVFP4-2Step。其中 NVFP4-2Step 版本标注为 45.7 FPS,并支持 multi-shot。仓库也提供 BF16 和 NVFP4 的 quick start 示例,模型权重放在 Hugging Face。
适合研究者和视频生成工程团队
如果你关注长视频生成、视频 diffusion 推理加速、KV cache、并行训练或量化推理,LongLive 更像一个可以拆开研究的基础设施样本。它提供论文、代码、模型、demo page 和文档,比单纯展示 demo 更适合复现实验、改 pipeline 或接入自己的视频生成研究。
传送门
https://github.com/NVlabs/LongLive
原创文章,如若转载,请注明出处:https://wefound.cc/p/3457.html