news 2026/6/10 13:41:57

美团LongCat-Video:136亿参数,分钟级长视频生成新引擎

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
美团LongCat-Video:136亿参数,分钟级长视频生成新引擎

美团LongCat-Video:136亿参数,分钟级长视频生成新引擎

【免费下载链接】LongCat-Video项目地址: https://ai.gitcode.com/hf_mirrors/meituan-longcat/LongCat-Video

导语:美团正式发布具有136亿参数的视频生成基础模型LongCat-Video,实现了分钟级长视频的高效生成,标志着国内企业在多模态内容创作领域的重要突破。

行业现状:近年来,随着AIGC技术的快速发展,文本到视频(Text-to-Video)生成已成为人工智能领域的热点方向。从早期的几秒短视频到如今的长视频生成,技术不断突破,但如何在保证视频质量的同时实现高效的长视频创作,仍是行业面临的主要挑战。当前主流视频生成模型普遍存在生成时长有限、内容连贯性不足、推理速度慢等问题,难以满足实际应用场景需求。

产品/模型亮点:LongCat-Video作为美团推出的重量级视频生成模型,具有四大核心优势:

首先,它采用统一架构支持多任务,能够原生处理文本到视频(Text-to-Video)、图像到视频(Image-to-Video)和视频续播(Video-Continuation)三大任务,无需针对不同任务进行模型调整,实现了多场景的灵活应用。

其次,该模型在长视频生成方面表现突出。通过原生的视频续播任务预训练,LongCat-Video能够生成分钟级长度的视频内容,同时有效避免了传统模型在长视频生成中常见的色彩漂移和质量下降问题,保证了视频内容的连贯性和一致性。

第三,模型实现了高效推理。采用时空轴上的由粗到精(coarse-to-fine)生成策略,结合块稀疏注意力(Block Sparse Attention)技术,LongCat-Video能够在分钟级时间内完成720p、30fps高清视频的生成,大幅提升了视频创作效率。

最后,通过多奖励强化学习(multi-reward RLHF)优化,特别是Group Relative Policy Optimization (GRPO)算法的应用,LongCat-Video在多项评估指标上表现优异。内部及公开基准测试显示,其性能已接近领先的开源视频生成模型和最新商业解决方案。

行业影响:LongCat-Video的发布将对内容创作、广告营销、教育培训等多个领域产生深远影响。对于企业用户而言,该模型提供了高效、高质量的视频内容生成工具,能够显著降低视频制作成本,提升创作效率。对于开发者社区,美团选择开源该模型,将促进视频生成技术的进一步发展和应用落地。此外,136亿参数的模型规模和高效推理能力,展示了国内企业在大模型优化方面的技术实力,可能推动行业向更高质量、更长时长的视频生成方向发展。

结论/前瞻:LongCat-Video的推出代表了美团在多模态生成领域的重要布局,也为行业树立了新的技术标杆。随着模型的开源和进一步优化,我们有理由相信,视频生成技术将在内容创作、电商展示、虚拟人等场景得到更广泛的应用。未来,如何进一步提升视频生成的真实性、交互性和个性化,以及解决潜在的版权和内容安全问题,将是行业需要共同面对的挑战。美团在该领域的持续投入,有望推动AIGC技术在更多实际场景中的落地应用。

【免费下载链接】LongCat-Video项目地址: https://ai.gitcode.com/hf_mirrors/meituan-longcat/LongCat-Video

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 13:09:31

BERT填空准确率低?常识推理优化部署教程提升90%

BERT填空准确率低?常识推理优化部署教程提升90% 1. 为什么你的BERT填空总是“猜不准” 你是不是也遇到过这种情况:输入一句“他一进门就[MASK]地笑了”,模型却返回“开心”“高兴”“灿烂”——可原文明明是“尴尬”?又或者填“…

作者头像 李华
网站建设 2026/5/31 1:29:58

cv_unet_image-matting实战案例:社交媒体头像自动化生成流程

cv_unet_image-matting实战案例:社交媒体头像自动化生成流程 1. 为什么需要这个流程?——从手动修图到一键出图的转变 你有没有遇到过这样的场景:朋友临时要发一条朋友圈,急着换新头像,但手边只有一张带背景的自拍照…

作者头像 李华
网站建设 2026/5/29 12:26:35

STM32CubeMX安装步骤系统学习路径推荐

以下是对您提供的博文内容进行 深度润色与结构化重构后的技术文章 。本次优化严格遵循您的全部要求: ✅ 彻底去除AI痕迹,语言自然、专业、有“人味”——像一位在一线带过几十个STM32项目的嵌入式老兵在和你聊; ✅ 所有模块(引…

作者头像 李华
网站建设 2026/6/9 0:33:00

语音项目提速秘籍:FSMN-VAD让预处理效率翻倍

语音项目提速秘籍:FSMN-VAD让预处理效率翻倍 你有没有经历过这样的场景?—— 花三天时间调通了一个ASR语音识别流程,结果一跑真实数据就卡在第一步:30分钟的会议录音,手动切分出17段有效讲话,光听静音、找…

作者头像 李华
网站建设 2026/6/2 10:21:41

【计算机毕业设计案例】基于SpringBoot的校园电竞赛事系统基于springboot的电竞赛事中心设计系统(程序+文档+讲解+定制)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/5/21 10:41:00

NewBie-image-Exp0.1与Proteus对比:小参数大效果实战评测

NewBie-image-Exp0.1与Proteus对比:小参数大效果实战评测 1. 为什么3.5B参数的NewBie-image-Exp0.1值得你停下来看一眼 很多人一听到“3.5B参数”,第一反应是:这算大模型吗?比不上那些动辄几十B的SOTA模型吧?但如果你…

作者头像 李华