Normal view

There are new articles available, click to refresh the page.

Before yesterdayMain stream

爱范儿
Sora 又被超越！Meta AI 视频模型深夜炸场，自带惊艳 BGM，让视频编辑比 P 图还简单
5 October 2024 at 07:23

Sora 又被超越！Meta AI 视频模型深夜炸场，自带惊艳 BGM，让视频编辑比 P 图还简单

爱范儿

By: 莫崇宇

5 October 2024 at 07:23

扎克伯格最近忙着在全世界「抢风头」。

前不久，开启「二次创业」的他刚向我们展示了十年磨一剑的最强 AR 眼镜 Meta Orion，尽管这只是一款押注未来的原型机器，却抢光了苹果 Vision Pro 的风头。

而在昨晚，Meta 在视频生成模型赛道再次大出风头。

Meta 表示，全新发布的 Meta Movie Gen 是迄今为止最先进的「媒体基础模型（Media Foundation Models）」。

不过，先打个预防针，Meta 官方目前尚未给出明确的开放时间表。

官方宣称正在积极地与娱乐行业的专业人士和创作者进行沟通和合作，预计将在明年某个时候将其整合到 Meta 自己的产品和服务中。

简单总结一下 Meta Movie Gen 的特点：

拥有个性化视频生成、精确视频编辑和音频生成等功能。
支持生成 1080P、16 秒、每秒 16 帧的高清长视频
能够生成最长 45 秒的高质量和高保真音频
输入简单文本，即可实现复杂的精确视频编辑功能
演示效果优秀，但该产品预计明年才会正式向公众开放

告别「哑剧」，功能主打大而全

细分来说，Movie Gen 具有视频生成、个性化视频生成、精确视频编辑和音频生成四大功能。

文生视频功能早已成为视频生成模型的标配，只是，Meta Movie Gen 能够根据用户的需求生成不同长宽比的高清视频，这在业内尚属首创。

Text input summary: A sloth with pink sunglasses lays on a donut float in a pool. The sloth is holding a tropical drink. The world is tropical. The sunlight casts a shadow.

Text input summary: The camera is behind a man. The man is shirtless, wearing a green cloth around his waist. He is barefoot. With a fiery object in each hand, he creates wide circular motions. A calm sea is in the background. The atmosphere is mesmerizing, with the fire dance.

此外，Meta Movie Gen 提供了高级的视频编辑功能，用户只需通过简单的文本输入即可实现复杂的视频编辑任务。

从视频的视觉风格，到视频片段之间的过渡效果，再到更细致的编辑操作，这一点，该模型也给足了自由。

在个性化视频生成方面，Meta Movie Gen 也前迈进了一大步。

用户可以通过上传自己的图片，利用 Meta Movie Gen 生成既个性化但又保持人物特征和动作的视频。

Text input summary: A cowgirl wearing denim pants is on a white horse in an old western town. A leather belt cinches at her waist. The horse is majestic, with its coat gleaming in the sunlight. The Rocky Mountains are in the background.

从孔明灯到透明彩色泡泡，一句话轻松替换视频同一物体。

Text input: Transform the lantern into a bubble that soars into the air.

尽管今年陆续已有不少视频模型相继亮相，但大多只能生成「哑剧」，食之无味弃之可惜，Meta Movie Gen 也没有「重蹈覆辙」。

Text input: A beautiful orchestral piece that evokes a sense of wonder.

用户可以通过提供视频文件或文本内容，让 Meta Movie Gen 根据这些输入生成相对应的音频。（PS：注意滑板落地的配音）

并且，它不仅可以创建单个的声音效果，还可以创建背景音乐，甚至为整个视频制作完整的配乐，从而极大地提升视频的整体质量和观众的观看体验。

看完演示 demo 的 Lex Fridman 言简意赅地表达了赞叹。

许多网友再次「拉踩」OpenAI 的期货 Sora，但更多翘首以待的网友已经开始期待测试体验资格的开放了。

Meta AI 首席科学家 Yann LeCun 也在线为 Meta Movie Gen 站台宣传。

Meta 画的大饼，值得期待

在推出 Meta Movie Gen 之时，Meta AI 研究团队也同期公开了一份长达 92 页的技术论文。

据介绍，Meta 的 AI 研究团队主要使用两个基础模型来实现这些广泛的功能——Movie Gen Video 以及 Movie Gen Audio 模型。

其中，Movie Gen Video 是一个 30B 参数的基础模型，用于文本到视频的生成，能够生成高质量的高清视频，最长可达 16 秒。

模型预训练阶段使用了大量的图像和视频数据，能够理解视觉世界的各种概念，包括物体运动、交互、几何、相机运动和物理规律。
为了提高视频生成的质量，模型还进行了监督微调（SFT），使用了一小部分精心挑选的高质量视频和文本标题。

报告显示，后训练（Post-training）过程则是 Movie Gen Video 模型训练的重要阶段，能够进一步提高视频生成的质量，尤其是针对图像和视频的个性化和编辑功能。

值得一提的是，研究团队也将 Movie Gen Video 模型与主流视频生成模型进行了对比。

由于 Sora 目前尚未开放，研究人员只能使用其公开发布的视频和提示来进行比较。对于其他模型，如 Runway Gen3、LumaLabs 和可灵 1.5，研究人员选择通过 API 接口来自行生成视频。

且由于 Sora 发布的视频有不同的分辨率和时长，研究人员对 Movie Gen Video 的视频进行了裁剪，以确保比较时视频具有相同的分辨率和时长。

结果显示，Movie Gen Video 整体评估效果上显著优于 Runway Gen3 和 LumaLabs，对 OpenAI Sora 有轻微的优势，与可灵 1.5 相当。

未来，Meta 还计划公开发布多个基准测试，包括 Movie Gen Video Bench、Movie Gen Edit Bench 和 Movie Gen Audio Bench，以加速视频生成模型的研究。

而 Movie Gen Audio 模型则是一个 13B 参数的模型，用于视频和文本到音频的生成，能够生成长达 45 秒的高质量和高保真的音频，包括声音效果和音乐，并与视频同步。

该模型采用了基于 Flow Matching 的生成模型和扩散变换器（DiT）模型架构，并添加了额外的条件模块来提供控制。

甚至，Meta 的研究团队还引入了一种音频扩展技术，允许模型生成超出初始 45 秒限制的连贯音频，也就是说，无论视频多长，模型都能够生成匹配的音频。

更多具体信息欢迎查看技术论文

https://ai.meta.com/static-resource/movie-gen-research-paper

昨天，OpenAI Sora 负责人 Tim Brooks 官宣离职，加盟 Google DeepMind，给前景不明的 Sora 项目再次蒙上了一层阴霾。

而据彭博社报道，Meta 副总裁 Connor Hayes 表示，目前 Meta Movie Gen 也没有具体的产品计划。Hayes 透露了延迟推出的重要原因。

Meta Movie Gen 当前使用文本提示词生成一个视频往往需要等待数十分钟，极大影响了用户的体验。

Meta 希望进一步提高视频生成的效率，以及实现尽快在移动端上推出该视频服务，以便能更好地满足消费者的需求。

其实如果从产品形态上看，Meta Movie Gen 的功能设计主打一个大而全，并没有像其他视频模型那样的「瘸一条腿」。
最突出的缺点，顶多就是沾染了与 Sora 一样的「期货」气息。

理想很丰满，现实很骨感。

或许你会说，一如当下的 Sora 被国产大模型赶超，等到 Meta Movie Gen 推出之时，视频生成领域的竞争格局或许又会变换一番光景。

但至少目前来看，Meta 画的大饼足以让人下咽。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

全方位超越 Sora，Meta 最新的 AI 视频模型到底强在哪里？

爱范儿

By: 肖凡博

7 October 2024 at 01:11

这两天，视频生成模型领域因为 Meta Movie Gen 的发布，又炸开了锅。

行业内外感叹最多的地方，无外乎两点，一是生成效果自然逼真，还能同步生成与画面匹配的声音，很像当时 Sora 发布后引起的讨论和轰动；二是 Meta AI 的新模型自定义性很强，无论是视频画面比例，还是视频元素与细节，都能根据用户的需求进行调整。

所以，可能会引领视频生成新变革的 Meta Movie Gen 到底有哪些细节？这些在官网和演示视频里的惊艳效果是怎么炼成的？Meta AI 的视频模型负责人 Andrew Brown 专门为 Meta Movie Gen 的理论技术做了解读：

Movie Gen 在整体质量和一致性方面显著优于 Sora。真实性和美观性考验照片写实性，Movie Gen 全面获胜。
Meta Movie Gen 是一组可以进行文本到视频生成、文本到图像生成、个性化、编辑和视频到音频生成的模型。
扩展数据、计算和模型参数非常重要，将其与流匹配相结合，并转向简单的常用 LLM 架构 (Llama)，从而实现了 SOTA 视频生成质量。
我们（Meta AI）是第一个使用 Llama arch 进行媒体生成的人。
Movie Gen 是一个 30B 参数转换器，可生成不同宽高比和同步音频的 1080p 视频，最大持续时间为 16 秒（16fps）。
我们（Meta）为 T2V 模型提供了多阶段训练方案。T2I + T2V 联合训练，导致收敛速度慢得多且质量更差。
文本到视频的评估很困难。自动化指标非常差，并且与人类评估没有很好的相关性。

视频生成的「超级个体」

Meta Movie Gen 首发当天，APPSO 在第一时间报道解读了这个最新的视频生成模型，总体来说，Movie Gen 具有四种功能：视频生成、个性化视频生成、精准编辑和音频生成。

先看最基础的视频生成 Movie Gen Video，多模态的能力使得新模型可以胜任多种不同的输入方式，用户不仅可以通过简单的文本、少许提示词生成相应的视频，还能直接把需要处理的图片放到模型里，根据文字要求，让静态的图片变成动态的视频。

▲ 提示文本：一个女孩正在海滩上奔跑，手里拿着一只风筝；她穿着牛仔短裤和一件黄色 T 恤；阳光照耀着她。

你甚至还能让 Movie Gen 帮忙重新生成或者优化一段视频。不管选择哪种输入方式，Movie Gen 目前在官网的演示视频，效果都非常好，人物表情自然，画面细节到位，也能比较准确地按照提示词或文本的要求来生成相应结果。

Andrew Brown 介绍到，在视频生成的过程中，扩展数据、计算和模型参数非常重要，将其与流匹配相结合，并转向简单的常用 LLM 架构 (Llama)，从而实现了 SOTA 视频生成质量。

而且，新模型中的 T2V、个性化和编辑模型都来自相同的培训方案。在预训练期间，Meta 首先训练 T2I，然后训练 T2V。使用该模型作为初始化，然后进行 T2V 后期训练，并训练个性化 T2V 和 V2V 编辑的能力。

另外，模型的训练也按照分辨率的高低进行，先是低分辨率（256px）训练，然后是高分辨率训练（768px）。Meta AI 尝试联合训练 T2I + T2V，但这导致收敛速度慢得多且质量比之前的还要差劲。

Movie Gen Video 之所以能够做到逼真的生成结果，本质上还是因为高达 30B 参数转换器模型的卓越能力，这个模型能够以每秒 16 帧的速度生成长达 16 秒的视频，而且最长能够生成 45 秒的高质量和高保真音频。

Meta 官方还在论文中透露：

这些模型可以推理物体运动、主体与物体之间的相互作用和相机运动，并且可以学习各种概念的合理运动。

这句话一共有三层意思，首先是模型本身可以几乎还原出现实世界的物理运动，以及各种「合乎常理」的物理规律，而对于用户而言，看上去「自然且逼真」就是模型技术最成功的地方。

Movie Gen Video 能够准确理解物理世界的运动规律，Meta AI 是下了大功夫的。该团队在数亿个视频和数十亿张图像上，对全新的模型进行了大量的预训练。通过不停的重复、学习、总结、推理和运用，Movie Gen Video 才有了在官网里的优异表现。

接着，模型还能主动模仿学习专业电影的运镜、画面、蒙太奇等。也就是说，通过 Movie Gen Video 生成的视频，还有了类似电影拍摄的专业性和艺术性。

不过 Andrew Brown 提到，文本到视频的评估很困难。因为自动化指标非常差，并且与人类评估没有很好的相关性。也就是说，在视频生成模型研制的早期，生成结果和人们印象中和观察中的真实物理世界差别太大，最后 Meta 还是决定这种真实性的判断，完全依赖人类的评估。

我们花费了大量精力将视频评估分解为多个正交质量和对齐轴。

结果 Movie Gen 在和 1000 个提示评估集上的模型进行比较时，在质量和一致性方面获胜或全面处于同等水平。

最后，模型能在此基础上，推理和创作出接下来的内容，它就像一个专业的导演，指挥着画面里的一举一动；也像一个经验丰富的拟声师，根据视频内容或者文本提示，实时生成和画面一一对应的配乐。

▲ 烟花爆炸瞬间的音效

同步生成音频的能力，依靠得是 Movie Gen Audio。这是一个 13B 参数转换器模型，可以接受视频输入以及可选的文本提示，以实现可控性生成与视频同步的高保真音频。

和 Movie Gen Video 一样， Movie Gen Audio 也进行了「海量」练习，Meta AI 将数百万个小时的音频参考投喂到模型的训练里。经过大量的对比总结，目前模型已经掌握了声音和画面之间的对应关系，甚至还能了解不同的 bgm 会带给观众哪些不同的感受。

因此在遇到有关情绪和环境的提示词时，Movie Gen Audio 总能找到和画面完美契合的音乐。

同时，它可以生成环境声音、乐器背景音乐和拟音声音，在音频质量、视频到音频对齐和文本到音频对齐方面提供最先进的结果。

这使它们成为同类中最先进的模型。

虽然我们不敢就此和官方一样，下一个如此自信的定论，但无论是从官方的视频长度、画面质量，还是背景音乐的贴合程度，Movie Gen Video 相较于以往的视频生成模型，有了非常明显的进步。

而且，和先前的偶像实力派 Sora 相比，Movie Gen 在整体质量和一致性方面都有着比较明显的领先，Andrew Brown 毫不掩饰地说到在这场与 Sora 的比赛中：

Movie Gen 全面获胜。

视频编辑的「全能专家」

在 Movie Gen Video 和 Movie Gen Audio 的协同配合下面，Meta AI 全新的视频生成模型有了全新的能力，不过上述的进步还只是技术基础，同时具备音视频生成能力后，Meta 还继续扩展了全新模型的适用范围，使它能够支持个性化视频的生成。

个性化顾名思义，就是结合用户需求，根据要求生成指定的视频内容。

虽说先前的视频模型也能做到个性化生成结果，但这个结果总是不尽人意，要么是不能更改细节，只能重新来过，要么是在连续更改细节时，画面里的其他元素无法保持一致性，总是会因为新视频的生成而多少受到点影响。

Movie Gen Video 在官网的演示中，很好地展现了他们在这方面的优势。新模型不仅可以按照提示词/参考图像的要求，生成个性化的视频，还能在该视频的基础上，继续优化调整细节，并且保证其他的生成内容不受干扰，也就是「精细化修改」。

与需要专业技能或缺乏精确度的生成工具的传统工具不同，Movie Gen 保留了原始内容，仅针对相关像素。

在创建保留人类身份和动作的个性化视频方面，我们的模型取得了最先进的成果。

这项功能，对于很多自媒体工作室，或有视频编辑需求的人，非常有用，它可以对更改对象进行全局修改，或者细节修改。大到根据文本重新生成整个画面，小到只改变人物的发色、眼镜的样式等。比如可以通过模型来消除背景当中的无关杂物。

或者给原视频换上新的背景，不管是样式还是颜色，都能随时改变，而且还可以把白天秒变成黑夜。

另外 Movie Gen Video 还能针对很多细节做出细微的调整，在保证视频构图、画整体不变的同时，改变人物的衣服颜色、眼镜佩戴样式，主体穿着和宠物毛色等。

比如去除视频里的无关杂物、更换画面背景样式，增加视频细节，改变主体衣着颜色等方面，都是他的强项。

不过这还只是一种畅想，因为 Movie Gen Video 目前只支持 1080P、16 秒、每秒 16 帧的高清长视频，或者最长 45 秒的高质量和高保真音频。这样的画面分辨率以及视频长度，对于一个有创作需求的个体或公司来说，好像都不太够用。

但这种技术的突破，使得 AI 拥有了对视频文件无级调节的编辑能力，个性化定制、精准调节，加上 Movie Gen Audio 打开了视频配音的大门，Movie Gen Video 虽然要等到明年才会和公众正式见面，但以目前官方的演示结果来看，它真有可能为视频、影视和 AI 行业注入新的动力，甚至带来一场新的变革。