「LongLive 2.0」NVLabs 开源长视频生成基础设施:NVFP4、并行训练和 45.7 FPS 推理

LongLive 2.0 官方 teaser 图

LongLive 2.0 是 NVLabs 开源的长视频生成基础设施,定位不是普通的一键视频生成网页工具,而是面向训练和推理的研究代码与模型管线。它围绕 NVFP4、序列并行、多镜头视频和异步解码,试图把长视频生成从“能生成”继续推向“更长、更快、更可扩展”。

从实时交互长视频到 2.0 基础设施

LongLive 1.0 关注 Real-time Interactive Long Video Generation,支持根据连续用户提示实时生成对应视频。LongLive 2.0 则把重点放到 infra:在 AR training、DMD distillation 和 inference 中引入 NVFP4 与并行机制,并支持 multi-shot 视频。

训练和推理两边都做并行

README 中列出的训练侧能力包括 balanced sequence parallel、multi-shot / single-shot AR training,以及 BF16 或 NVFP4 的训练和少步蒸馏。推理侧则支持 NVFP4 W4A4、NVFP4 KV Cache、multi-shot attention sink、sequence parallel inference 和 async decoding。

45.7 FPS 的 NVFP4 2-step 模型

官方模型表里给出了几个版本:LongLive-1.3B、LongLive-2.0-5B、LongLive-2.0-5B-NVFP4-4Step,以及 LongLive-2.0-5B-NVFP4-2Step。其中 NVFP4-2Step 版本标注为 45.7 FPS,并支持 multi-shot。仓库也提供 BF16 和 NVFP4 的 quick start 示例,模型权重放在 Hugging Face。

适合研究者和视频生成工程团队

如果你关注长视频生成、视频 diffusion 推理加速、KV cache、并行训练或量化推理,LongLive 更像一个可以拆开研究的基础设施样本。它提供论文、代码、模型、demo page 和文档,比单纯展示 demo 更适合复现实验、改 pipeline 或接入自己的视频生成研究。

传送门

https://github.com/NVlabs/LongLive

原创文章,如若转载,请注明出处:https://wefound.cc/p/3457.html

(0)
「Presenton」开源 AI 演示文稿生成器:自托管、BYOK、API 和可编辑 PPTX 导出
上一篇 2026年 5月 24日 上午12:56
「magic-trace」Jane Street 的高分辨率 tracing 工具:用 Intel PT 看清程序崩溃前 10ms
下一篇 2026年 5月 24日 上午1:05

相关推荐