Normal view

There are new articles available, click to refresh the page.
Yesterday — 16 October 2025Main stream

刚刚, AI 视频王者大更新!硬刚 Sora,威尔史密斯吃面更香了

By: 张子豪
16 October 2025 at 09:27

OpenAI 前不久刚推出了 Sora 2 视频生成模型,势头相当凶猛,紧随其后,今天 Google 的 Veo 3.1 也迎来了一次重大升级。

具体来看,Google 这次的升级包括两个层面。

一是功能层面的完善。视频编辑功能得到了强化,用户现在可以对片段进行更细致的调整,对最终画面有了更精准的掌控。

更重要的是,Google 首次给「素材转视频(Ingredients to Video)」「帧转视频(Frames to Video)」和「延展(Extend)」这些功能配上了音频,让音频成为创作流程的一部分。

二是模型层面的进步。

今天发布的 Veo 3.1 在提示词理解和视听质量两个关键指标上都有了明显提升,从图像到视频的转化因此更加自然流畅。

相关阅读 🔗AI 视频新王全球爆火,威尔·斯密斯终于可以好好吃面(附大量实测演示)

众所周知,Veo 3 原本就有不少编辑能力在身——通过参考图像指导角色生成、用首尾两帧填充中间内容、基于视频末尾继续延展等操作都可以做。

Veo 3.1 的做法是在这些既有功能上全部加入音频支持,让用户能够打造更加完整的场景。这些功能目前还处于实验阶段,Google 表示会根据用户反馈继续优化迭代。

现在用户可以这样使用这些功能:

1、用多张参考图像定义角色、物体和风格,「素材转视频」功能就会根据这些素材生成最终场景。

2、或者提供起始和结束画面,让「帧转视频」功能在中间生成无缝过渡,这对需要艺术性转场的项目特别有用。

3、如果要生成更长的视频,「延展」功能可以生成超过一分钟的内容,基于前一段继续生成,保持故事的连贯性。

值得一提的是,Veo 3 的文本转视频此前只支持 720p 横屏输出,但随着竖屏视频成为互联网内容的主流格式,Veo 3.1 现在也可同时生成横屏和竖屏的 16:9 视频,更符合当前的内容消费习惯。
创意的打磨往往需要反复迭代。

自 Flow 于今年 5 月推出以来,用户已经在该应用中创作了超过 2.75 亿个视频。吸取用户的反馈之后,Flow 中新增的两个编辑功能就是为此而生——

「插入新元素」让用户可以随时添加内容,Flow 会自动处理阴影和光线,使新增部分自然融入原有画面;

「移除对象」功能(即将上线)则可以删除不需要的元素,Flow 自动重建背景保持一致性。这两个工具的组合能够让视频的编辑过程变得更加灵活。

目前 Veo 3.1 模型已经上线,开发者可以通过 Gemini API 使用,企业用户可在 Vertex AI 中访问,普通用户也可以在 Gemini 应用内体验。新功能也同步在 Gemini API 和 Vertex AI 中开放。

我们体验生成了 3 个 Veo 最实用的应用场景。

前些时间爆火的第一视角穿越、ASMR 切水果,金属、兔子蹦床的夜视监控等视频,都是使用 Veo 3 生成的。

▲由 Veo 3 生成,提示词:50mm camera, close-up angle of a lemon made out of yellow-tinted glass being sliced horizontally on a wooden cutting board. The inside of the fruit is glass as well with a little bit of melting glitter. The entire scene is soft lit from the above.

比如这个生成玻璃柠檬的例子。提示词要求「用黄色玻璃制成的柠檬被水平切开,内部也是玻璃材质,里面有融化的闪粉,顶部柔和照亮」。

Veo 3 的输出是可用的,但 Veo 3.1 对「融化闪粉」的细节刻画更精准。

电商场景下,我们直接让他生成一段产品的广告。要知道,一般的 TVC(电视商业广告)也就是在 15s/30s 的时间左右来传递品牌信息。

▲由 Sora 2 生成,提示词:根据以下商品信息,生成一段电商广告视频,包含实拍感的产品展示、3D旋转细节、使用场景对比,以及配套字幕。智能手表 X2,续航7天,¥1299 智能手表,50米防水,健康监测(心电、睡眠)

Sora 2 贴心地用中文语音解说了商品信息,体现了更好的理解。但 Veo 3.1 这边只是简单地配了音乐,不如 Sora 2 周到,但从画面质量来看,Veo 3.1 的视觉呈现更高级、更有商业感。

▲由 Veo 3.1 生成

我们也试了动漫生成,这次 Veo 3.1 的表现就比较一般了。

▲由 Sora 2 生成,提示词:以吉卜力工作室动画风格,一个男孩和他的狗跑上一座长满青草的风景秀丽的山丘,背景远处可以看到一个村庄,天空中飘着美丽的云朵

显然 Veo 3.1 在这块的训练数据还不够丰富,距离吉卜力工作室那种精致的动画风格还是有不少差距。莫名消失的狗,都是 AI 穿帮的典型特征。

▲由 Veo 3.1 生成

X 网友 @aisearchio 分享的威尔·史密斯吃面测试 Demo 整体质感往上抬了一个档次,动作流畅度、光影细节都明显改善,表情丰富但也没有崩掉。

综合来看,Veo 3.1 在照片级、商业级的内容生成上已经足够可用,细节理解能力也有明显进步。但在特定风格的精准还原上——比如动漫、插画这类需要高度风格约束的领域,还是有相当的优化空间。
尽管如此,从 Veo 3 到 Veo 3.1,从 Sora 到 Sora 2,视频生成模型的迭代速度已经超过了大多数人的想象。

伴随着这类 AI 视频生成工具会从专业工具逐渐演变为大众应用,届时,你的朋友圈、短视频平台、甚至新闻源中,每一条内容都有可能是 AI 生成的。

这也意味未来你看到的每一条内容,都需要多一步确认——这来自真实拍摄,还是 AI 生成。

作者:莫崇宇

文章内视频链接:https://mp.weixin.qq.com/s/qBOkoWaGF5k7oPCR_H5aqA

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Before yesterdayMain stream

曝 OpenAI 将推出「AI 抖音」:禁止上传实拍内容,Sora 2 加持

By: 张子豪
30 September 2025 at 16:03

这两天的 AI 圈,更新速度快得让人喘不过气,哪是要让人放假的样子。

昨天 DeepSeek 更新了 V3.2-Exp 模型,Anthropic 凌晨就紧跟着发布了性能更强的 Claude 4.5。

正当大家都在爆料牌桌上的其他巨头何时出手时,行业领头羊 OpenAI 的「王炸」似乎已经提前被剧透了,那就是 Sora 2。

▲ 视频链接:https://x.com/OpenAI/status/1972416122613014556

最近,OpenAI 不仅在 X 平台连发多条神秘视频,引爆社区对 Sora 2 的猜想。

一则来自《连线》杂志的重磅爆料更是指出:OpenAI 的下一步棋,并非简单升级一个模型,而是要亲自下场,推出一个独立的 AI 视频社交 App,一个酷似抖音,但内容 100% 由 AI 生成的全新平台。

奥特曼曾经发 X 说,未来几周,OpenAI 将推出一些新的计算密集型产品,且最初只会向 Pro 用户开放。而需要大量算力的,不正是视频生成吗?目前 Sora 也仅面向 Plus 和 Pro 用户,传闻已久的 Sora 2 真的要发布了。

▲ https://x.com/sama/status/1969835407421374910

AI 视频也要迎来它的「吉卜力」时刻了。

揭秘「Sora 2 App」:一个怎样的 AI 抖音?

从目前曝光的信息来看,OpenAI 正在测试一款名为 Sora 2 的短视频应用,乍看之下,它就是一个 AI 版抖音。但最颠覆的一点是,在这个平台上,我们看不到任何真实拍摄的内容。

▲ TikTok 应用截图

它的界面和交互,与我们熟悉的短视频 App 几乎一模一样。采用竖屏信息流,和滑动切换的导航方式的视频源,并由推荐算法为我们提供「为你推荐」的内容。

在视频的右侧下方,同样提供了点赞、评论等互动选项,甚至还有一个独特的「Remix」(再创作)功能。

▲ OpenAI 去年 12 月正式推出了 Sora,很快被整合到 ChatGPT 应用中,图为 Sora 网页版截图。OpenAI 指出它存在一些局限性,例如似乎并不完全理解物理学,在制作逼真的动作场景时尤其困难,尤其是在较长的片段中。目前,1080p 超高清分辨率仅支持生成 10s。地址:sora.chatgpt.com

根据文件显示,用户只能使用 OpenAI 的下一代视频模型 Sora 2,生成最长 10 秒的视频片段。并且,App 不提供任何从手机相册或其他应用上传照片或视频的选项。这意味着,这个平台将成为全球首个内容 100% 由 AI 生成的短视频社区。

用数字分身来做社交

如果说纯 AI 生成内容还只是概念上的不同,OpenAI 还要为这个短视频 APP 引入社交的功能。

Sora 2 应用具有身份验证的功能,即允许用户确认自己的「肖像」(likeness)。一旦验证通过,就可以在生成的视频中,使用自己的形象。

更有趣的是,社交的边界被进一步打破。你的朋友也可以在他们的视频里标记你,使用你的「数字分身」。

▲ AI 图片视频生成平台即梦,也提供了数字人生成。

举个例子,我们可以直接使用别人的数字分身,生成一个视频,内容是「你和朋友在从没去过的主题公园,一起坐过山车」。

为了保护用户隐私,数字分生这项功能,也设置了提醒机制。每当你的形象被他人使用时,无论对方是公开发布,还是仅仅保存在草稿中且从未发布,你都会收到通知。

这款应用上周已经在 OpenAI 内部发布,并收到了员工压倒性的积极反馈。据连线杂志的消息,员工们使用得非常频繁,以至于一些管理者开玩笑说,这可能会影响生产力。可能真的跟刷抖音一样会上瘾?

为什么 OpenAI 要亲自下场做社交?

答案或许和 ChatGPT 的成功路径如出一辙。

OpenAI 似乎在押注,Sora 2 这个 AI 版抖音,能让我们与 AI 视频的互动方式发生根本性改变,就像 ChatGPT 让大众第一次真正体验到 AI 文本的潜力一样。

▲ 社交榜和娱乐榜第一名分别是 Meta 的 Thread 和 TikTok

当然,也不是只有 OpenAI 想到了 AI 视频社交这条路,就在上周,Meta 在它们的 AI 应用中,推出了名为「Vibes」的新功能。这是一个 AI 生成短视频的新平台,集创作、分享与社交功能于一体。

用户可通过浏览、创作、或二次创作(Remix)来生成自己的 AI 视频,并将视频快速分享到 Vibes、Instagram、Facebook 等 Meta 社交平台。

▲ Vibes 视频生成界面截图

Google 也早已宣布,计划将自己最新的视频生成模型 Veo 3 整合到 YouTube 中。一个是坐拥最大的社交网络平台,一个是最大的视频分享平台,OpenAI 的 AI 视频社交之路看起来,也并非一片坦途。

从一个聊天机器人,到一个可能的内容社交平台,OpenAI 的野心,在于建造下一代的互联网入口,而这个入口,完全由 AI 驱动。

这种野心并非空谈,就在今天,OpenAI 推出了其商业化布局中最重要的一步棋,在 ChatGPT 内直接购物。

用户现在可以在与 ChatGPT 的对话中,直接购买来自 Etsy 甚至 Shopify 商家的商品。当我们跟 ChatGPT 聊天,问到「适合送给陶瓷爱好者的礼物」时,ChatGPT 不再只是给一个链接,而是直接展示商品并提供一个「购买」按钮,不需要离开聊天窗口,几下点击就能完成支付。

▲ 这项名为「即时结账」(Instant Checkout)的功能,背后是 OpenAI 与 Stripe 联合开发并开源的「代理商业协议」(Agentic Commerce Protocol)。通过这个协议,OpenAI 正在为 AI 时代的电商制定新的规则。

电商、视频、社交、生产力,当这些过去分散在不同 App 中的功能,开始被一个统一的 AI 入口所整合时,OpenAI 的 Open 原来是「我全都要」。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌
❌