Normal view

There are new articles available, click to refresh the page.
Before yesterdayMain stream

不止 Sora2!拍我AI V5.5 更新:人人都能用 AI 视频当导演了

By: 樊 尔
2 December 2025 at 14:04

2025 年,AI 视频又把桌子掀了。手切金属、小猫做饭,甚至是那个火遍全网的「奥特曼宇宙」,对 AI 来说不过是几句 Prompt 的功夫。


但也别高兴得太早。

绝大多数 AI 视频工具,依然停留在「素材生成」阶段。它们能给你一段精美的画面,但这些画面是大多是破碎的、静音的、单一景别的。

如果你想搞点严肃创作,比如带分镜的故事片,你得不停地「抽卡」,祈祷 AI 能听懂什么是远景、什么是特写。

结果往往是,它一股脑塞给你一堆逻辑不通的废片。选完还得配音、剪辑、配乐…一串工作流下来,10秒视频能干两个星期。

AI 视频到底什么时候才有带演技的叙事能力能学会「讲故事」?

昨晚,拍我AI(PixVerse) V5.5 的更新给了给我带来了惊喜。时隔半年,这位「卷王」再次扔出重磅炸弹。如果说上一个版本是给你配了一个特效师,那么 V5.5 则是给你配备了一个懂视听语言的导演组。

V5.5 是国内目前唯一能够一键生成「分镜 +音频」,实现完整叙事的 AI 视频大模型。

它最大的突破在于:AI 视频开始具备「导演思维」。它不再只是生成会动的图片,而是开始理解镜头、声音与叙事之间的逻辑关系。

以前需要专业分镜师才能做到的事,现在的你,也能「从从容容游刃有余」。

AI 视频终于拥有了「灵魂」

影片的「故事感」从何而来?很大程度上,源于人物的对白、背景音乐的烘托,以及镜头切换带来的节奏感。

我们就从这两个维度,来狠狠考验一下拍我AI 的成色。

查看完整视频案例效果请跳转 APPSO 推文

自带百万音效师

先从「配音师」这个角色开始,拍我 AI V5.5 支持多角色音画同步,看它水平怎么样。

首先我们来段沙滩广告。

提示词:男人看向镜头,将啤酒举到镜头前,对着镜头倾斜瓶子,做干杯动作。背景音是动感的电子乐,有明显的鼓点,充满流行感。

拍我 AI 做得干净利落。最让我起鸡皮疙瘩的是细节: 它完全听懂了场景,配上了十分适合夏日沙滩的感觉的音乐。

这种对环境音的理解,十分给力。

再来点环境不一样的,让一辆的士驶过城市街头。

拍我 AI 也是手拿把掐,镜头不仅跟随着汽车,还配上了街头嘈杂的汽车声,仿佛真的置身于人头攒动的纽约街头。

提示词:出租车在城市街道里前行,渐渐消失在画面中。

但这还只是开胃菜,我们继续上强度。

我先用拍我AI 内置的 Nano Banana Pro,生成了一张图片,然后再让拍我 AI 生成了一个「欢迎南方小土豆光临东北」的视频。

 

提示词:女人热情地说:「欢迎南方小土豆,来我的家乡!俺东北这里可想你啊!」

短短两句话,口型对上了,东北阿姨热情的劲儿都拿捏了,简直让人想要下了班就立刻买张机票去旅行。

再比如,下面这段帕丁顿熊的片段中,它精准地复刻了那标志性的英伦腔调。那种特有的顿挫节奏与绅士般的「老伦敦」口音,听起来不仅地道,而且非常有辨识度。

而在处理小熊的剧情时,它更是展现出了对剧本的理解力。

当角色意识到自己身处巴黎铁塔,而对方在东京铁塔的乌龙瞬间,拍我AI 生成的语音准确传达出了那一刻的错愕与惊讶。

这种对语气拿捏的细腻程度,让整个片段不再是简单的画面堆砌,而是有了真实的情绪流动。

它不仅仅是简单地识别了两个角色形象,更深刻地理解了角色背后的文化符号与剧情语境,从而为它们匹配了极具灵魂的声音演绎。

不难看出,拍我AI 音频生成功能,让视频工作流里的配乐和配音门槛大幅降低。只要在拍我AI 的视频生成的参数里,将「音频」的选项打开,接着只需要简单的一句话,就能帮你快速批量尝试,简单到一个人就能轻松做好。

拿捏影视级的镜头

景别,是导演手中的刀,用来切割时空,引导情绪。

过去,用 AI 做分镜简直是「噩梦」:你得分别生成远景、近景,然后再自己去剪辑软件里拼。而在拍我AI V5.5 里,这种笨功夫成为了历史。

打开多镜头模式,告诉 AI 你要的画面的景别,并切换多机位,它就能直接生成一段有叙事节奏的成片。

比如那个火遍全网的「三宫格海边写真」,我们就能把它变成一段更加有趣的剧情短片:

提示词:
镜头一:猫回头看着镜头。猫说:「山的那边是什么」。
镜头二:猫再次回头望向大海。镜头拉近猫,猫说:「你不用告诉我」。
镜头三:猫正脸部的特写镜头。猫说:「因为,我只想在你家里捣乱。」

整体成片的效果相当扎实。但真正让我惊叹的,是拍我AI 理解了台词背后的情感潜台词。在猫咪开口前的瞬间,极具灵性地加了一个推镜头的特写调度。这种看似简单的运镜处理,瞬间拉满了画面的叙事张力。

我们再来到东非大草原。我还用 Nano Banana Pro 生成了一个纪录片图片,一键视频生成了一段剧情短片:

如果你觉得还要先学习写分镜太麻烦,没关系,拍我AI V5.5 的「脑补」能力同样惊人。 只给一句话,它也能给你惊喜。

提示词:he woman watching her memory-lost mother at home, and sad. They hugged but her mother seemed not to remember her anymore.

拍我AI V5.5 交出的答卷超出预期。不但给了我三个镜头,还自主构建了一段完整的叙事:从母女互动,到最后温情相拥的落点,剧情逻辑清晰感人。

可以看出,拍我AI V5.5 已经不再止步于单一画面推进,而是开始真正掌握了视听语言的语法。通过精准捕捉提示词中的场景氛围与情感基调,自主编排景别和镜头,为生成的影像注入了能够打动观众的内涵。

这种变化,让最终的成品摆脱了「动态图片」的单调标签,进化为一段真正具有叙事承载力的影像素材。

一键直出广告大片,新的创作神器诞生

刚才那些玩法可能还只是「整活」,为了验证它是否真的具备「生产力」,我们决定再上点难度。

直接甩给拍我AI V5.5一个完整的惊悚电影镜头脚本,看看它接不接得住。

提示词:The video is shot using a fisheye lens, giving a distorted, wide-angle view of an urban street scene at night in front of a store with a sign reading “DELI • GROCERY • ATM” (English). The lighting is dim, with red neon reflecting off wet pavement. The musical sound is slow, ominous industrial bass with distant sirens. The camera focuses on a tall figure wearing a cracked, porcelain doll mask and a heavy trench coat, looming over the lens. Behind him, two figures in black hoodies stand motionless near the store entrance. The masked figure leans uncomfortably close to the fisheye lens, whispering hoarsely: “Midnight tick, the shadows don’t sleep. Price on the head, and the secrets we keep. You saw the sign, but you didn’t read the print. One wrong step, and you vanish in a tint.” The figure slowly raises a gloved hand to cover the camera lens as the screen fades to black.

坦白说,最终呈现的成片质感大大超出了我的心理预期。

拍我AI V5.5 展现出的剪辑非常老练,它懂得如何在不同景别间流畅切换,避免了 AI 视频生成中常见的时空割裂感,让画面流转显得合乎逻辑。

当然,现阶段的 AI 还无法做到百分之百的完美。比如在处理最后那个极具张力的鱼眼镜头人物对白时,面部细节仍显露出些许破绽。但它在动态物理规律的遵循上守住了底线,整体瑕不掩瑜,成片的完成度和可用性依然处于高水准。

更令人惊喜的是声画配合。拍我AI V5.5 生成的人声不仅仅是念出台词,而是精准拿捏到了惊悚题材所需要的紧张氛围与压抑感,从音色质感到语速节奏,都与画面情绪实现了默契。

这种逻辑自洽、鲜有出戏感的表现,直接拓展了它的落地场景。对于电影导演而言,它完全可以作为高效的沟通工具,用来向编剧或摄影指导直观地阐述创意构思。

而对于广告人来说,它还是个创意利器。只需投喂一个完整的 Brief 和示意图,它就能迅速生成一支达到提案级别的汽车商业广告,效率惊人。

提示词:黑暗的极简空间中,一束流动的光带扫过深灰色车身的腰线,展示出”液态金属”般的肌肉质感。紧接着,矩阵式LED大灯猛然亮起,光束直刺镜头,照亮空气中的微尘。音乐声是低沉的电流声逐渐增强,伴随一声类似心脏跳动的重低音。一个沉稳深沉的男声说:”觉醒。” 镜头切至下一场景: 城市夜景的高速跟拍镜头,车辆在充满了蓝紫色霓虹灯光的隧道中飞驰。流动的城市灯光在车窗和流线型车身上拉出长长的光带,强调极速下的动态模糊感。音效是尖锐且充满未来感的电机加速啸叫声,混合着破风声。男声说:”超越速度的边界。” 镜头切至下一场景: 航拍镜头展现广阔的沿海悬崖公路,正值日落时分(Magic Hour),金色的阳光洒满车身,与深邃的大海形成冷暖对比。车辆向着地平线驶去,留下优雅的背影。音乐转为宏大且激昂的电影氛围乐,带有史诗感。男声继续:”不仅是抵达前方,更是征服。” 镜头切至下一场景: 车辆静止在极简的黑色反光地面上,车头正视前方,背景是抽象的红色流光慢慢消散。镜头缓慢拉远,上方浮现银色金属质感字幕”APEX “。男声说:”Apex GT。” 音乐在最后一声强有力的重音后戛然而止。

可以看到,这类成片的质感已经比较稳定。这充满速度与金属质感的车辆,让你几乎很难分辨这出自 AI 之手,还是某家专业广告公司的制作班底。

画面之间的衔接展现出了极高的成熟度,丝毫看不出拼接的痕迹。拍我AI V5.5 并非机械地堆砌素材,而是通过摇移等镜头、特写转向全景等画面语言,生成了一段有起伏、有张力的叙事段落。

配合引擎轰鸣与契合度极高的背景音乐,它成功摆脱了「AI 味」的廉价感,呈现出了可以融入到的工作流级别的影像水准。

别当「工具人」了,去当真正的「导演」

这次拍我AI (PixVerse) V5.5 的体验,让我产生了一个强烈的体感:AI 视频生成,正在经历一次关键的转折点。

过去使用 AI,像是在指挥一个听不懂人话的实习美工。你花着钱,还得在海量废片里大浪淘沙。那种频繁调整、试错、最后还得不到满意结果的挫败感,磨灭的不仅是时间,更是创作的热情。

拍我AI  V5.5 的出现,让我们看到了一丝曙光。

V5.5 底层模型基于自研多模态理解与生成技术,支持音频和视频同步生成,模型融合多镜头理解能力,智能生成匹配的分镜与多镜头,理解了视听逻辑。它不再是一个冷冰冰的素材库,而是一个开始懂剧本、懂叙事的「执行导演」。

虽然它还远未完美,但 拍我AI V5.5 这次确实给 AI 带来了一种「叙事能力的觉醒」,开始抹平普通人与专业导演之间那道巨大的技术鸿沟。

往后,无论是个人整活,还是商业化的广告样片、影视预演(Pre-viz),效率都将迎来质变。

这意味着,我们即将告别 AI 「素材生成」时代,跨入真正的「内容生成」时代。

在这个新时代下做专业创作,你可以不再需要精通 PR 或 AE,也不需要昂贵的摄影器材。你只需要专注于最核心的东西——创意与表达。

把繁琐的执行交给 AI,把思考留给人。

我想,这就是 AI 技术进步最性感的意义。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


大部分人不知道的 AI 抖音,居然是最「反抖音」的产品

By: 张子豪
4 November 2025 at 18:26

前段时间,有媒体爆料说 OpenAI 打算推出一个 AI 抖音,没想到隔天,这个「AI 抖音」Sora 就上线了。

和抖音一样的竖屏滚动、关注与推荐切换,几乎就是一个抖音复刻。唯一不同的是,Sora 里的每个视频,都是 AI 生成的。

当我们默认就把 Sora 叫做 AI 抖音时,有读者在我们的留言区评论,「其实已经有个 App 叫 AI 抖音了。

起初我以为,这是哪个小团队,在蹭抖音热度取的名字。没想到这个 AI 抖音,竟然是抖音官方出品的 App,并且已经推出有一段时间了。

它的下载量只有四千万,甚至不及抖音的一个零头。但也足够说明,相当一部分用户体验过它,只是被我们忽略了。

和 Sora 要做的 AI 抖音短视频产品不同,这个 AI 抖音主打的是「会思考的抖音。

根据下载页面的介绍,「会思考」的含义,是对比传统的关键词检索,AI 抖音会利用大模型的深度理解能力,帮我们找到更满意的搜索结果,和更全面的 AI 总结回答。

听起来已经完全脱离了短视频产品的功能和形态,不像那些极速版、火山版、抖音精选之类的产品,AI 抖音看起来不是用来「刷」的。

▲ 从 App 分类也能看到,极速版这些仍然属于娱乐类别,但是 AI 抖音在「工具」分类下

我下载了这个真正的 AI 抖音,想看看,当它不再让人上瘾时,还能让人留下来吗。

省流版 | 三句话看懂「AI 抖音」能做什么

1、AI 搜索是主要功能,直接生成详细的文字版总结,再给出相关的视频,能深度思考。

2、使用任务助手,能进行深度研究,通过抖音搜索和全网搜索,生成一份可交互的在线报告。

3、整理视频合辑,创建 AI 视频笔记本,AI 抖音会自动归纳总结合辑内视频,提供文字和图解报告。

给抖音搜索加了个 AI 总结

安装包 800 MB,比微信还大。第一眼看到这体积,我就有种不祥的预感,这不是个轻量级工具。

打开首页的那一刻,我才发现,尽管大小差不多,但这确实不是那个熟悉的抖音。首先是整体的布局变得非常简洁,底部那些 Tab 菜单全部取消,以一个输入框和 AI 抖音的 Logo 替代。

内容的展示,也从短视频应用常见的全屏滚动,改成了能展示更多内容的卡片式布局。顶部也不会切换到关注、推荐之类的视频流,而是右滑直接显示提问记录,左滑显示个人中心。

我翻了几页,点击左下角的 AI 图标会弹出一个「找点提问好灵感」的提示,指引我们在输入框里面,搜入搜索的关键词。

双击图标,会自动刷新当前页面,内容的推荐是跟随抖音账号,但是推荐机制也变了一小部分,它更愿意给我们图文,而不是视频。

抱着试一试的心态,我们随便问了 AI 抖音几个问题。

像是最近一些化妆品里检测出苏丹红,我们直接输入「苏丹红」,AI 抖音的做法是先给我们一段文字总结,像在用百度、或者 ChatGPT 之类的产品。

点击「深度解答」,它会像 DeepSeek 的深度思考一样,展示详细的思考过程。此外,它搜索的范围不只是抖音上的视频,而是全网的内容都会搜刮进来,大多数是主流的中文媒体,来源可靠。

这个输入框不仅仅是一个搜索的输入,更像是一个对话框。在当前搜索里,我们可以继续「接着问」,AI 抖音会自动地把我们之前的问题,整合起来,而不需要再次重复。

我们还问了它一些,平时用抖音可能会搜索的话题,像是吃喝玩乐、知识科普等等。

相比较于在搜索结果里,一个一个视频点击播放,靠用户自己去提取视频内的有用信息,AI 抖音则是利用大模型的能力,提升了我们找视频的效率。

此外,如果是抖音,我们想要搜索 A,很大程度会被抖音的推荐机制,引导到 C,然后根本忘记了最先要搜索的东西,开始刷一些不相干的视频。

AI 抖音在一定程度上,也解决了类似的「分心」问题,用经过「思考」的、准确的文字内容,把我们留在当前问题,然后再通过一些视频、图文来辅助理解。

除了在回答的最后,使用深度解答的功能。底部的输入框,也能直接启用深度思考,以及切换到任务助手的模式。

抖音版 Agent,能做深度研究

一个总结性的回答,是目前很多社交媒体软件都有的功能。最常用的应该是微博,AI 智搜会总结各方的回应,并收集对应的素材内容。很多时候,我吃瓜都变成了直接看微博的 AI 回答。

小红书也有类似的功能,尤其是对于攻略、流程、以及各种问答,小红书能自动整理相关笔记,然后生成一份文字回答。

AI 抖音也在尝试这样的引入,但又不止于此。

我体验了深度思考旁边的「任务助手」,发现这就是抖音最好的深度研究工具。

当我输入「十五全运会有哪些特别值得一看的比赛」,它会先生成一份大纲,告诉我们它会如何研究这个任务。我们可以直接对话,进行任务的修改。

点击开始任务之后,AI 抖音的任务助手,就会自动使用抖音搜索和全网搜索两个工具,来一步步完成之间设置的任务。

最后的结果是一份可以交互的报告。报告的所有部分,都可以点击查看更多信息,或者跳转到对应的抖音视频。

我们还尝试了一个更贴近普通用户需求的任务,比如输入「帮我规划一个三天两夜的西安旅游攻略」。

任务助手同样先生成了一份大纲,包含景点、美食、交通和住宿几个方面。我们继续和它对话,让它「增加一个必吃的老字号小吃环节」。

点击开始后,能看到抖音搜索,找到了很多相关的 Vlog 探店,而全网搜索则补充景点的官方开放时间和门票信息。

这份攻略报告同样非常实用,点击「兵马俑」,能看到相关的视频介绍;点击泡馍,又能跳转到高赞的食评视频。

比起我们自己在 App 里一个一个搜、最后被不相关的视频带跑偏,效率提高非常明显。

视频知识库?AI 笔记

除了深度思考的问题、深度研究,AI 抖音的「会思考」还体现在它的视频分类,有「观看历史」、「我的收藏」、和「我的点赞」,还有一个「AI 笔记本」。

和收藏、点赞并列在一起,AI 笔记本也是一个视频合辑,不过这个合辑有了 AI 的帮忙。

▲除了 AI 笔记本,侧滑还有显示能「发布新作品」,其中有各种模板、直播等等。这也是为什么 AI 抖音的应用大小,能和正式版抖音差不多的原因。

我们从历史浏览里面找到一些视频,添加到笔记,AI 会自动分析我们选择的视频,然后生成一份文字报告和图片报告。

或者只添加一个视频,然后让 AI 抖音帮我们总结这个视频,像是一些长达一小时的演讲视频。

▲在右下角可切换文字或者图解

AI 笔记本的作用,其实就是一个能思考的收藏夹,把不同视频里的观点,整合成一个更完整的答案。

目前,AI 抖音还是一个在快速迭代的产品,我们在 10 月中旬体验这款产品的时候,里面还有一个「查看图解版回答」的选项,它能够将 AI 抖音的回答,转成信息更明显、色彩更多元、更便于阅读的卡片式图片。

▲之前对 AI 抖音提问「Apple 最近的新品」,生成的图解版回答

目前这项功能,在最新版本的 AI 抖音已经下线了;连同每个回答最后面的「发抖音」按钮,也一同被迭代了。

之前的「发抖音」功能,是 AI 抖音会将 AI 生成的内容,自动转成抖音长文,视频底部点击查看原文,能跳转到生成回答的链接。

▲底部的快速反馈,只提供了点踩的按钮;长按回答才能选择点赞喜欢。

抖音大概是真的想把这个产品,做成一个工具属性更强,能够真正帮到用户提升搜索体验。就连每个回答的最后的反馈,也只有一个点「踩」,而没有点赞。

在正式版本的抖音 App 里,已经支持 AI 搜索,深度思考等,AI 笔记则还没上线。

▲ 在抖音的搜索界面,右下角有一个语音搜索和 AI 抖音的选项,点击 AI 抖音,能体验到 App 内的部分功能

AI 抖音更像是抖音对未来的演练场。就像微博、小红书、微信都在做的那样;AI,正在悄悄改变我们使用互联网的方式。

前几天刷到一个很有意思的视频,内容是「当人们事事都依靠 ChatGPT 时」,每说一句话都要先问 ChatGPT。

▲ instagram@theharrisalterman,原文链接查看视频

虽然视频是在讽刺 AI 的出现,让大家变得更少思考,更不会说话。但视频也精准地捕捉到了一个现实,或者说共鸣,就是我们开始习惯,让 AI 成为任何信息处理的第一站,无论是搜索、总结还是创作。

对于抖音这个庞大的视频内容帝国来说,它能让大多数人上瘾的本质,是它不需要我们主动去找,要刷什么视频;而是在它的首页推荐里,它给我们什么,我们就刷什么,并且不设置退出机制。

但「找」视频比「刷」视频难多了,AI 抖音正是想帮我们把「找」视频,也变得同样简单和高效。

如果说抖音的算法逻辑是「无限满足」,让你在信息流里躺平就能获得快乐,那 AI 抖音的逻辑,几乎是反着来的:它在「制造门槛」

这就是 AI 抖音最有意思的地方,它在主动稀释自己最核心的资产——用户的沉浸时间。这是一种颇具勇气的「自我背叛」。

当所有 App 都在追求极致的丝滑和上瘾时,抖音内部却孵化了一个鼓励主动探索、甚至有点「反效率」的产品。它的使命并不是取代抖音或对抗算法,而是给算法一些多样性。

当 AI 时代迎来内容爆炸,「信息降噪」更成为一种刚需。

内容消费的下一个版本,不只是让你刷得更多,而是让你看得更明白。这些变化已经悄悄在我们熟悉的应用产品里发生。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌
❌