Normal view

There are new articles available, click to refresh the page.
Today — 16 October 2025Main stream

刚刚, AI 视频王者大更新!硬刚 Sora,威尔史密斯吃面更香了

By: 张子豪
16 October 2025 at 09:27

OpenAI 前不久刚推出了 Sora 2 视频生成模型,势头相当凶猛,紧随其后,今天 Google 的 Veo 3.1 也迎来了一次重大升级。

具体来看,Google 这次的升级包括两个层面。

一是功能层面的完善。视频编辑功能得到了强化,用户现在可以对片段进行更细致的调整,对最终画面有了更精准的掌控。

更重要的是,Google 首次给「素材转视频(Ingredients to Video)」「帧转视频(Frames to Video)」和「延展(Extend)」这些功能配上了音频,让音频成为创作流程的一部分。

二是模型层面的进步。

今天发布的 Veo 3.1 在提示词理解和视听质量两个关键指标上都有了明显提升,从图像到视频的转化因此更加自然流畅。

相关阅读 🔗AI 视频新王全球爆火,威尔·斯密斯终于可以好好吃面(附大量实测演示)

众所周知,Veo 3 原本就有不少编辑能力在身——通过参考图像指导角色生成、用首尾两帧填充中间内容、基于视频末尾继续延展等操作都可以做。

Veo 3.1 的做法是在这些既有功能上全部加入音频支持,让用户能够打造更加完整的场景。这些功能目前还处于实验阶段,Google 表示会根据用户反馈继续优化迭代。

现在用户可以这样使用这些功能:

1、用多张参考图像定义角色、物体和风格,「素材转视频」功能就会根据这些素材生成最终场景。

2、或者提供起始和结束画面,让「帧转视频」功能在中间生成无缝过渡,这对需要艺术性转场的项目特别有用。

3、如果要生成更长的视频,「延展」功能可以生成超过一分钟的内容,基于前一段继续生成,保持故事的连贯性。

值得一提的是,Veo 3 的文本转视频此前只支持 720p 横屏输出,但随着竖屏视频成为互联网内容的主流格式,Veo 3.1 现在也可同时生成横屏和竖屏的 16:9 视频,更符合当前的内容消费习惯。
创意的打磨往往需要反复迭代。

自 Flow 于今年 5 月推出以来,用户已经在该应用中创作了超过 2.75 亿个视频。吸取用户的反馈之后,Flow 中新增的两个编辑功能就是为此而生——

「插入新元素」让用户可以随时添加内容,Flow 会自动处理阴影和光线,使新增部分自然融入原有画面;

「移除对象」功能(即将上线)则可以删除不需要的元素,Flow 自动重建背景保持一致性。这两个工具的组合能够让视频的编辑过程变得更加灵活。

目前 Veo 3.1 模型已经上线,开发者可以通过 Gemini API 使用,企业用户可在 Vertex AI 中访问,普通用户也可以在 Gemini 应用内体验。新功能也同步在 Gemini API 和 Vertex AI 中开放。

我们体验生成了 3 个 Veo 最实用的应用场景。

前些时间爆火的第一视角穿越、ASMR 切水果,金属、兔子蹦床的夜视监控等视频,都是使用 Veo 3 生成的。

▲由 Veo 3 生成,提示词:50mm camera, close-up angle of a lemon made out of yellow-tinted glass being sliced horizontally on a wooden cutting board. The inside of the fruit is glass as well with a little bit of melting glitter. The entire scene is soft lit from the above.

比如这个生成玻璃柠檬的例子。提示词要求「用黄色玻璃制成的柠檬被水平切开,内部也是玻璃材质,里面有融化的闪粉,顶部柔和照亮」。

Veo 3 的输出是可用的,但 Veo 3.1 对「融化闪粉」的细节刻画更精准。

电商场景下,我们直接让他生成一段产品的广告。要知道,一般的 TVC(电视商业广告)也就是在 15s/30s 的时间左右来传递品牌信息。

▲由 Sora 2 生成,提示词:根据以下商品信息,生成一段电商广告视频,包含实拍感的产品展示、3D旋转细节、使用场景对比,以及配套字幕。智能手表 X2,续航7天,¥1299 智能手表,50米防水,健康监测(心电、睡眠)

Sora 2 贴心地用中文语音解说了商品信息,体现了更好的理解。但 Veo 3.1 这边只是简单地配了音乐,不如 Sora 2 周到,但从画面质量来看,Veo 3.1 的视觉呈现更高级、更有商业感。

▲由 Veo 3.1 生成

我们也试了动漫生成,这次 Veo 3.1 的表现就比较一般了。

▲由 Sora 2 生成,提示词:以吉卜力工作室动画风格,一个男孩和他的狗跑上一座长满青草的风景秀丽的山丘,背景远处可以看到一个村庄,天空中飘着美丽的云朵

显然 Veo 3.1 在这块的训练数据还不够丰富,距离吉卜力工作室那种精致的动画风格还是有不少差距。莫名消失的狗,都是 AI 穿帮的典型特征。

▲由 Veo 3.1 生成

X 网友 @aisearchio 分享的威尔·史密斯吃面测试 Demo 整体质感往上抬了一个档次,动作流畅度、光影细节都明显改善,表情丰富但也没有崩掉。

综合来看,Veo 3.1 在照片级、商业级的内容生成上已经足够可用,细节理解能力也有明显进步。但在特定风格的精准还原上——比如动漫、插画这类需要高度风格约束的领域,还是有相当的优化空间。
尽管如此,从 Veo 3 到 Veo 3.1,从 Sora 到 Sora 2,视频生成模型的迭代速度已经超过了大多数人的想象。

伴随着这类 AI 视频生成工具会从专业工具逐渐演变为大众应用,届时,你的朋友圈、短视频平台、甚至新闻源中,每一条内容都有可能是 AI 生成的。

这也意味未来你看到的每一条内容,都需要多一步确认——这来自真实拍摄,还是 AI 生成。

作者:莫崇宇

文章内视频链接:https://mp.weixin.qq.com/s/qBOkoWaGF5k7oPCR_H5aqA

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Before yesterdayMain stream

曝 OpenAI 将推出「AI 抖音」:禁止上传实拍内容,Sora 2 加持

By: 张子豪
30 September 2025 at 16:03

这两天的 AI 圈,更新速度快得让人喘不过气,哪是要让人放假的样子。

昨天 DeepSeek 更新了 V3.2-Exp 模型,Anthropic 凌晨就紧跟着发布了性能更强的 Claude 4.5。

正当大家都在爆料牌桌上的其他巨头何时出手时,行业领头羊 OpenAI 的「王炸」似乎已经提前被剧透了,那就是 Sora 2。

▲ 视频链接:https://x.com/OpenAI/status/1972416122613014556

最近,OpenAI 不仅在 X 平台连发多条神秘视频,引爆社区对 Sora 2 的猜想。

一则来自《连线》杂志的重磅爆料更是指出:OpenAI 的下一步棋,并非简单升级一个模型,而是要亲自下场,推出一个独立的 AI 视频社交 App,一个酷似抖音,但内容 100% 由 AI 生成的全新平台。

奥特曼曾经发 X 说,未来几周,OpenAI 将推出一些新的计算密集型产品,且最初只会向 Pro 用户开放。而需要大量算力的,不正是视频生成吗?目前 Sora 也仅面向 Plus 和 Pro 用户,传闻已久的 Sora 2 真的要发布了。

▲ https://x.com/sama/status/1969835407421374910

AI 视频也要迎来它的「吉卜力」时刻了。

揭秘「Sora 2 App」:一个怎样的 AI 抖音?

从目前曝光的信息来看,OpenAI 正在测试一款名为 Sora 2 的短视频应用,乍看之下,它就是一个 AI 版抖音。但最颠覆的一点是,在这个平台上,我们看不到任何真实拍摄的内容。

▲ TikTok 应用截图

它的界面和交互,与我们熟悉的短视频 App 几乎一模一样。采用竖屏信息流,和滑动切换的导航方式的视频源,并由推荐算法为我们提供「为你推荐」的内容。

在视频的右侧下方,同样提供了点赞、评论等互动选项,甚至还有一个独特的「Remix」(再创作)功能。

▲ OpenAI 去年 12 月正式推出了 Sora,很快被整合到 ChatGPT 应用中,图为 Sora 网页版截图。OpenAI 指出它存在一些局限性,例如似乎并不完全理解物理学,在制作逼真的动作场景时尤其困难,尤其是在较长的片段中。目前,1080p 超高清分辨率仅支持生成 10s。地址:sora.chatgpt.com

根据文件显示,用户只能使用 OpenAI 的下一代视频模型 Sora 2,生成最长 10 秒的视频片段。并且,App 不提供任何从手机相册或其他应用上传照片或视频的选项。这意味着,这个平台将成为全球首个内容 100% 由 AI 生成的短视频社区。

用数字分身来做社交

如果说纯 AI 生成内容还只是概念上的不同,OpenAI 还要为这个短视频 APP 引入社交的功能。

Sora 2 应用具有身份验证的功能,即允许用户确认自己的「肖像」(likeness)。一旦验证通过,就可以在生成的视频中,使用自己的形象。

更有趣的是,社交的边界被进一步打破。你的朋友也可以在他们的视频里标记你,使用你的「数字分身」。

▲ AI 图片视频生成平台即梦,也提供了数字人生成。

举个例子,我们可以直接使用别人的数字分身,生成一个视频,内容是「你和朋友在从没去过的主题公园,一起坐过山车」。

为了保护用户隐私,数字分生这项功能,也设置了提醒机制。每当你的形象被他人使用时,无论对方是公开发布,还是仅仅保存在草稿中且从未发布,你都会收到通知。

这款应用上周已经在 OpenAI 内部发布,并收到了员工压倒性的积极反馈。据连线杂志的消息,员工们使用得非常频繁,以至于一些管理者开玩笑说,这可能会影响生产力。可能真的跟刷抖音一样会上瘾?

为什么 OpenAI 要亲自下场做社交?

答案或许和 ChatGPT 的成功路径如出一辙。

OpenAI 似乎在押注,Sora 2 这个 AI 版抖音,能让我们与 AI 视频的互动方式发生根本性改变,就像 ChatGPT 让大众第一次真正体验到 AI 文本的潜力一样。

▲ 社交榜和娱乐榜第一名分别是 Meta 的 Thread 和 TikTok

当然,也不是只有 OpenAI 想到了 AI 视频社交这条路,就在上周,Meta 在它们的 AI 应用中,推出了名为「Vibes」的新功能。这是一个 AI 生成短视频的新平台,集创作、分享与社交功能于一体。

用户可通过浏览、创作、或二次创作(Remix)来生成自己的 AI 视频,并将视频快速分享到 Vibes、Instagram、Facebook 等 Meta 社交平台。

▲ Vibes 视频生成界面截图

Google 也早已宣布,计划将自己最新的视频生成模型 Veo 3 整合到 YouTube 中。一个是坐拥最大的社交网络平台,一个是最大的视频分享平台,OpenAI 的 AI 视频社交之路看起来,也并非一片坦途。

从一个聊天机器人,到一个可能的内容社交平台,OpenAI 的野心,在于建造下一代的互联网入口,而这个入口,完全由 AI 驱动。

这种野心并非空谈,就在今天,OpenAI 推出了其商业化布局中最重要的一步棋,在 ChatGPT 内直接购物。

用户现在可以在与 ChatGPT 的对话中,直接购买来自 Etsy 甚至 Shopify 商家的商品。当我们跟 ChatGPT 聊天,问到「适合送给陶瓷爱好者的礼物」时,ChatGPT 不再只是给一个链接,而是直接展示商品并提供一个「购买」按钮,不需要离开聊天窗口,几下点击就能完成支付。

▲ 这项名为「即时结账」(Instant Checkout)的功能,背后是 OpenAI 与 Stripe 联合开发并开源的「代理商业协议」(Agentic Commerce Protocol)。通过这个协议,OpenAI 正在为 AI 时代的电商制定新的规则。

电商、视频、社交、生产力,当这些过去分散在不同 App 中的功能,开始被一个统一的 AI 入口所整合时,OpenAI 的 Open 原来是「我全都要」。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


秒级出片的 AI 视频来了!我用它做出最魔性的 Labubu,不会写提示词的小白也秒上手

By: 张子豪
28 August 2025 at 14:03

今年几乎天天都能看到各路 AI 视频大神刷屏,什么奥特曼对波马斯克,雪王大战东方明珠,切金属切玻璃 ASMR……看得人心痒痒。

但真轮到自己上手,你就会发现,这玩意儿纯属「开盲盒」,而且是成本巨高的那种。排队几小时是家常便饭,积分烧得比纸快,结果出来的视频要么人物畸变、画风诡异,要么干脆就把你的提示词当成耳旁风。

面对「AI 视频刺客」,还真有「卷王」站了出来

去年靠「毒液特效」出圈的 PixVerse,今天悄咪咪地放了个大招——PixVerse V5

他们这次号称搞了一套「准实时生成」的狠活,全面优化了动态、清晰度、一致性和指令理解能力。

▲ PixVerse 国内版首页

PixVerse V5 这次不光是小修小补,他们直接端出了三个硬菜:

1. 快速生成
这一直是 pixVerse 最大亮点, 他们通过极致的技术蒸馏,把视频生成压缩到了「秒级」。5秒钟出一段360p短片,1 分钟搞定 1080p高清视频

2. 更少 AI 味儿
V5 通过扩展美学数据和人类偏好拟合(RLHF),让模型更懂「好看」和「真实」。无论是复杂的人物运动,还是光影的真实感,都大幅提升,生成效果更接近真实拍摄。

3. 指哪打哪
最让人头疼的「AI听不懂人话」问题,他们用「统一特征空间」技术来解决。简单说,就是不管你喂给它的是一句话、一张图,还是一段参考视频,它都能更准确地理解你的意图,实现图、文、视频多模态的复杂创意,让你真正做到精准控制。

话是这么说,是不是吹牛还得拉出来遛遛。我第一时间搞到了内测资格,替大家给它上上强度。

快到离谱,价格感人

快,是 V5 给我的第一印象。

实测下来,一段 8 秒带声音的 360p 视频,从排队到生成完毕,基本都在 30 秒以内,包含排队时间和生成时间;而 1080p 的超高清视频,所需要的时间会长一点,但是基本上也在 2 分钟左右。

▲ 拿可灵生成视频来对比下,排队的时间是 3 个小时

除了快到离谱,V5 也便宜到感人。每天登录就送 60 积分(生成一段 5 秒 360p 无声视频仅需 20 积分),会员选项也很多,让「抽卡」的成本大大降低。

作为对比,可灵是每个月提供 166 积分,生成一段 5s 标准模式的视频也是 20 积分。目前可灵添加音效是限免,PixVerse 需要再加 10 积分。

时间和金钱这两大核心痛点,PixVerse V5 算是给出了一个相当漂亮的解决方案。 那么,最重要的质量如何?

强度实测:从「开盲盒」到「半开卷考试」

我们直接上硬菜,用几个热门案例来测试它的真实水平。

先来个简单的,生成广州塔的航拍镜头。

▲ 提示词:电影般的航拍无人机镜头,聚焦广州塔。使用柯达 35 毫米胶片拍摄,带有胶片颗粒感。动态航拍镜头,摄像机环绕移动。保留参考图像的构图、框架和结构细节。

PixVerse 做的确实很好,而且速度还快。此外,不像 Veo 3 目前还是只能生成 16:9 的视频,PixVerse 则可以根据上传的图片自动适应生成视频的比例。

接下来,上点难度,测试它的人物一致性和场景理解能力。

最近 nano-banana 非常火,我们前几天用它生成了非常多有意思的照片,社交媒体上也很多人用它来实现一个完整的故事,凭借着它强大的人物、环境、照片风格内容等一致性保持。

我们找了几组有意思的照片,看看 PixVerse V5 是否有能力可以生成一个视频。

首先是这两个打台球的女生,他们先是站在前面自拍,然后我想让他们走到后面,拿着台球杆开始玩。

结果有点意外。 场景保持得很好,走路动作和表情也到位。但……它莫名其妙给我多塞了一个路人女孩进来!

看来在理解复杂的双人交互和空间关系上,AI 还是会犯迷糊。不过对比 V4.5(之前会生成一些意义不明的慢镜头),V5 至少更懂「走路」这个意图了。

还有最近非常火的用 nano banana 来做手办图片,有了图片之后,我们又可以生成非常多有意思的视频。

▲ 提示词:将这张照片制作成一个角色模型。其后放置一个印有该角色图像的盒子,以及一台屏幕显示Blender建模过程的电脑。在盒子前方添加一个圆形塑料底座,角色模型站立在上面。使PVC材质看起来透明,并尽可能设置为室内场景。

我们先用 nano banana 制作了一个像是自己 3D 打印出来的 labubu,接着把这张图片丢给 PixVerse。

▲ 提示词:棕色的实体手办开始在桌面上探险,它左边走走,右边看看,最后跳回到了原来它旁边的盒子里面;盒子上的 labubu 不要动,保持静态的;电脑上显示的 3d 手办动画处于预览的状态,自动的旋转播放。

还有最近非常火,以假乱真的 AI 夜视镜头视频,我们也用 PixVerse 检验了一下。不得不说,这个效果很真实,小猫趴在熊背上,小心翼翼地跳来跳去,和熊的接触、跳跃的动作,都像是真的。

如果是处理这种简单的动作还不够上难度,我们直接给他一张滑板的脚步特写,让他完成这些复杂的滑板动作。

PixVerse V5 也能精准地生成脚部动作,并且不出现差错。 我们用 V4.5 试了一下,有时候是会出现鞋子反穿,还有一些很搞笑的是,看起来滑板很烫,不知道怎么下脚的奇怪动作。

可以说,PixVerse 确实在生成质量上有了很多方面的提升。整体感觉是,V5 版本在一致性和写实感上的提升非常明显,看起来更像真实拍摄,而不是带着浓重 AI 味的画面。

One More Thing,还有 Agent 创作助手

除了图生视频,PixVerse V5 还提供了续写、多主体、Agent 智能体等一堆花哨但实用的功能。

我最喜欢的是「续写」。目前大部分 AI 视频一次只能生成几秒,想做长视频就得手动截取最后一帧再生成,非常繁琐。

而续写功能可以相对丝滑地延长视频,支持 30s 内长度的视频,我用它做了个「猫猫做梦当大厨」的短片,效果很萌。

看这小猫最后满足的笑容!

而为了解决「不会写提示词」这个终极难题,V5 还上线了 Agent 智能体。这玩意儿就像个创意模板库,你只需要找到喜欢的模板,填入关键词,它就能自动完成意图理解、脚本生成、视频生成等一系列流程。

目前在 PixVerse 的智能体里面,提供了超过十个的项目。有前段时间很火的兔子蹦床、给角色或物体更换材质、结合多个物体生成一个新物种、甚至还有给宠物穿上蟑螂套装跳芭蕾这样的智能体。

我就把之前我们用的那张 Labubu 的照片上传给它,智能体的流程和模板还是不太一样,模板只是单纯的套用一套提示词,而 PixVerse 的智能体就像我们用 ChatGPT agent 一样,自动化全部的操作,像是省去了我们先去 nano banana 里面生成图片的流程。

虽然它偶尔也会犯傻,比如把我的 Labubu 手办识别成「穿着棕色蟑螂服装的形象」(我对不起 Labubu!)

但这跳得还不错的芭蕾舞,确实展示了 Agent 功能的潜力——大大降低了普通人的创意实现门槛。

目前,PixVerse V5 和 Agent 创作助手已经在国际版 PixVerse(https://app.pixverse.ai/)与国内版拍我 AI(https://pai.video/)的网页端、App 及开放平台 API 全面上线。

AI 视频,终于从「豪赌」变成了「刮刮乐」

综合体验下来,PixVerse V5 的这次更新可以清晰地总结为两个词:更快、更好

它或许还不是最完美的视频模型,处理复杂的多人交互时依然会犯迷糊。但这让我想起了豆包生图,质量可能不如 Midjourney,但它免费、量大、管饱,你可以随便试。

▲ 豆包一次性能生成 20 张图

PixVerse V5 走的也是这条路。它用「准实时」的生成速度和极低的试错成本,彻底改变了创作的心态。

过去,花几小时排队,烧掉大把积分,最后开出一个不满意的「盲盒」,那种感觉是痛苦和沮丧的。现在,几十秒就能看到结果,不满意就立刻重来,这种体验更像是「刮刮乐」——轻松、高频,且总期待着下一张能中奖。

从这个角度看,PixVerse V5 的核心竞争力,或许不是生成了多么惊艳的视频,而是在于提供了一种无负担、高频率的创作体验

当开盲盒的成本变得足够低,当 AI 的不稳定不再让你心疼时间和金钱时,AI视频创作,才算真正从少数大咖的神坛,走到了我们每个人的日常里。

文|李超凡、张子豪

原文链接:https://mp.weixin.qq.com/s/Q0_1JM-2tJa9VyMP0LYUBQ

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌
❌