LongCat-Video：美团开源 13.6B 视频生成模型，长视频才是真正的战场

Smars
开源 , 视频生成 , AI 模型
31 May, 2026

长视频生成为什么难

你可能已经体验过不少视频生成工具——Kling、Runway、Pika、Wan2.1……5 秒的片段看起来都不错。但当你尝试生成 30 秒甚至分钟级视频时，问题就来了。

色彩在几秒后开始偏移，原本蓝天的画面逐渐泛绿。人物的面部细节一帧帧消融。物体运动到中途突然跳变，物理规律被打破。更常见的，后几秒的画质断崖式下降，仿佛换了一个模型在生成。

这不是某个模型的 bug，而是当前视频生成范式的结构性问题。

主流方案是「拼接式长视频」：先生成第一段 5 秒，再把最后几帧作为条件输入生成下一段，如此反复。问题是每一段都是独立推理的，模型没有在训练阶段学会「接续」这件事，所以拼接时会出现信息断层。就像让十个人各写一段小说，互相不看对方写的内容，最后拼在一起——段落之间自然断裂。

LongCat-Video 的核心思路是：把 Video-Continuation 作为原生预训练任务，让模型从训练阶段就学会如何延续视频，而不是推理时临时拼凑。

项目简介

LongCat-Video 是美团 LongCat 团队开源的基础视频生成模型，13.6B 参数，基于 Diffusion Transformer (DiT) 架构，MIT 许可证。

它用一个模型统一了三个任务：Text-to-Video、Image-to-Video、Video-Continuation。其中 Video-Continuation 是原生预训练任务，不是推理时的 hack。

模型权重已全部开源，包括基础模型和两个 Avatar 版本（音频驱动数字人生成）。

核心技术分析

统一架构：一个模型，三种任务

LongCat-Video 最值得关注的设计选择是任务统一。

很多团队的做法是分开训练不同模型——T2V 一个、I2V 一个、续写一个。推理时根据任务类型加载不同权重。这种方式工程简单，但每个模型的训练数据只能覆盖单一任务分布，模型能力有上限。

LongCat-Video 把三种任务统一到同一个 DiT 框架中。输入端通过条件区分任务类型：纯文本走 T2V，文本+首帧图像走 I2V，文本+前段视频走 Video-Continuation。模型共享全部参数，不同任务的训练信号互相增强。

这种做法的好处是模型见过更多样的数据分布。T2V 的训练让模型理解「从文本描述到视觉画面的映射」，I2V 让模型学会「保持首帧一致性」，Video-Continuation 让模型学会「延续已有视频的时序和风格」。三者共享参数，知识可以迁移。

代价是训练更复杂——需要平衡不同任务的 loss 权重，避免某个任务主导梯度。但从评估结果看，LongCat-Video 在每个单独任务上的表现都没有因为多任务训练而明显妥协。

粗到细生成策略

长视频生成的一个直接挑战是计算量。720p、30fps 的 1 分钟视频包含 1800 帧。如果逐帧去噪，计算代价极高。

LongCat-Video 采用的是「时空双轴粗到细」策略：

时间轴：先以低帧率生成视频骨架（比如每秒只生成关键帧），再在关键帧之间插值填充中间帧
空间轴：先生成低分辨率版本，再超分到 720p

这种策略的核心思想是：视频的信息密度不均匀。关键帧承载了运动和语义的核心信息，中间帧主要是平滑过渡。低分辨率版本承载了画面结构和布局，细节可以在后续补充。先保证大结构正确，再逐级添加细节，比一次性全分辨率生成更高效。

配合 Block Sparse Attention，模型在高分辨率推理时跳过不重要的注意力块，进一步减少计算量。实测 720p、30fps 视频在分钟级别生成。

多奖励 RLHF：GRPO

仅靠预训练和 SFT 的视频生成模型，输出质量往往不稳定——文字理解偏了、运动不自然、画质粗糙。

LongCat-Video 使用 Multi-reward GRPO（Group Relative Policy Optimization）进行强化学习对齐。核心思路是同时优化多个奖励信号：文本对齐度、视觉质量、运动质量等。GRPO 相比传统 PPO 的优势在于不需要单独训练 value network，减少了训练不稳定性。

从评估数据看，RLHF 带来的提升是实质性的。LongCat-Video 在内部和公开基准上达到与闭源方案可比的水平，13.6B 密集模型的总体质量与 28B MoE 模型（Wan 2.2-A14B）接近。

Video-Continuation：原生预训练的长视频能力

这是 LongCat-Video 与其他开源视频模型最大的差异化。

拼接式长视频的问题是每一段独立推理，缺少全局时序一致性。LongCat-Video 把 Video-Continuation 作为预训练任务，模型在训练阶段就学习「给定前段视频，生成后续内容」。这意味着：

模型天然理解前后段的时序关联，不需要推理时的临时修补
色彩一致性、风格一致性由训练保证，不是靠后处理
长视频生成时不会出现画质衰减——后续段落的生成质量和第一段一致

支持生成长达分钟级别的视频，无色彩漂移、无质量退化。

LongCat-Video-Avatar：音频驱动数字人

除了基础视频生成模型，项目还开源了两个 Avatar 版本，专门做音频驱动的数字人视频生成。

Avatar 1.0 使用 Wav2Vec2 音频编码器，支持单人和多人音频输入，可做 Audio-Text-to-Video、Audio-Image-to-Video 和带续写的长视频生成。

Avatar 1.5 是最新升级版，主要改进：

音频编码器从 Wav2Vec2 换成 Whisper-large-v3，口型同步精度显著提升
通过 step distillation 将推理步骤压缩到 8 步，速度更快
支持 INT8 量化，降低显存占用
泛化能力更强，支持动漫、动物、复杂真实场景等风格化领域
支持单流和多流音频输入

评估结果

Text-to-Video

指标	Veo3	PixVerse-V5	Wan 2.2-T2V-A14B	LongCat-Video
可用性	闭源	闭源	开源	开源
架构	-	-	MoE	Dense
总参数	-	-	28B	13.6B
激活参数	-	-	14B	13.6B
文本对齐	3.99	3.81	3.70	3.76
视觉质量	3.23	3.13	3.26	3.25
运动质量	3.86	3.81	3.78	3.74
总体质量	3.48	3.36	3.35	3.38

13.6B 参数的 Dense 模型，总体质量 3.38，接近 28B MoE 模型的 3.35，超过同参数量级的预期。视觉质量 3.25 甚至略高于 Wan 2.2。

Image-to-Video

指标	Seedance 1.0	Hailuo-02	Wan 2.2-I2V-A14B	LongCat-Video
图像对齐	4.12	4.18	4.18	4.04
文本对齐	3.70	3.85	3.33	3.49
视觉质量	3.22	3.18	3.23	3.27
运动质量	3.77	3.80	3.79	3.59
总体质量	3.35	3.27	3.26	3.17

I2V 方向上 LongCat-Video 的优势在视觉质量（3.27，最高），但运动质量和图像对齐与头部方案有差距。这是多任务统一模型的 trade-off——资源分配给了 T2V 和续写能力，I2V 的运动细节略有妥协。

快速上手

安装

git clone --single-branch --branch main https://github.com/meituan-longcat/LongCat-Video
cd LongCat-Video

conda create -n longcat-video python=3.10
conda activate longcat-video

pip install torch==2.6.0+cu124 torchvision==0.21.0+cu124 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu124
pip install ninja psutil packaging flash_attn==2.7.4.post1
pip install -r requirements.txt

如果要跑 Avatar，额外安装：

conda install -c conda-forge librosa ffmpeg
pip install -r requirements_avatar.txt

下载模型权重

pip install "huggingface_hub[cli]"
huggingface-cli download meituan-longcat/LongCat-Video --local-dir ./weights/LongCat-Video

文生视频

单卡推理：

torchrun run_demo_text_to_video.py --checkpoint_dir=./weights/LongCat-Video --enable_compile

多卡推理：

torchrun --nproc_per_node=2 run_demo_text_to_video.py --context_parallel_size=2 --checkpoint_dir=./weights/LongCat-Video --enable_compile

长视频生成

torchrun run_demo_long_video.py --checkpoint_dir=./weights/LongCat-Video --enable_compile

交互式视频生成

torchrun run_demo_interactive_video.py --checkpoint_dir=./weights/LongCat-Video --enable_compile

Avatar 1.5 音频驱动

torchrun --nproc_per_node=2 run_demo_avatar_single_audio_to_video.py \
  --context_parallel_size=2 \
  --checkpoint_dir=./weights/LongCat-Video-Avatar-1.5 \
  --stage_1=ai2v \
  --input_json=assets/avatar/single_example_1.json \
  --use_distill --model_type avatar-v1.5 --use_int8

Avatar 1.5 使用 step distillation，必须加 --use_distill 参数。INT8 量化可选，能降低显存占用。

Web UI

streamlit run ./run_streamlit.py --server.fileWatcherType none --server.headless=false

适用场景

长视频内容生产：广告片、产品演示、短片——需要超过 10 秒且时序一致的视频，LongCat-Video 的原生续写能力是核心优势
数字人视频：Avatar 系列支持音频驱动，适合虚拟主播、教学视频、客服对话等场景
视频续写与扩展：已有视频素材需要延伸时长，LongCat-Video 可以无缝续写
交互式视频生成：支持实时交互的视频生成流程，适合创意探索和原型验证

局限与注意事项

I2V 运动质量有差距：从评估数据看，I2V 的运动质量（3.59）明显低于头部竞品（Hailuo-02 的 3.80）。如果你主要做图生视频且对运动自然度要求极高，需要实测对比
显存需求高：13.6B 参数模型，推理需要多卡或大显存 GPU。INT8 量化只在 Avatar 1.5 上支持，基础模型暂不支持
Avatar 1.5 的 Audio CFG 调参：口型同步效果对 Audio CFG 参数敏感，建议范围 3-5，需要根据具体音频调试
Avatar 重复动作问题：可通过调整 --ref_img_index（0-24 更一致，30 减少重复）和 --mask_frame_range（增大可减少重复，但过大会引入伪影）来缓解
训练代码未开源：目前只有推理代码和权重，训练流程未公开，无法自己 fine-tune
社区尚处早期：项目 2025 年 10 月开源，社区贡献和生态还在建设阶段

与竞品对比

维度	LongCat-Video	Wan 2.2	CogVideoX
参数量	13.6B Dense	28B MoE (14B 激活)	5B
长视频原生支持	是	否	否
统一 T2V/I2V/续写	是	否	否
Avatar 数字人	有（1.0 + 1.5）	无	无
许可证	MIT	Apache 2.0	Apache 2.0
T2V 总体质量	3.38	3.35	-

LongCat-Video 的差异化不在于单点指标碾压，而在于长视频和任务统一。如果你需要的是 5 秒高质量片段，Wan 2.2 可能更直接。如果你的场景需要分钟级视频、续写能力或音频驱动数字人，LongCat-Video 是目前开源方案中最务实的选择。

结论

视频生成模型的下一个战场不在 5 秒片段的质量竞争上——那个问题已经基本解决。真正的难题是长视频：如何让 AI 生成分钟级的、时序一致的、无画质退化的视频。

LongCat-Video 用原生 Video-Continuation 预训练给出了一个回答。它不是最擅长任何一个单点任务的模型，但它是目前开源方案中唯一一个把长视频作为一等公民的视频生成框架。

如果你的视频生成需求超过 5 秒，值得一试。

仓库：https://github.com/meituan-longcat/LongCat-Video