Reading view

There are new articles available, click to refresh the page.

实测 PixVerse V6 暴力出片:快,才是最贵的

我输入了一段 prompt,按下生成。手还搁在键盘上呢,视频已经出来了。

画面前景是一杯冒着热气的黑咖啡,背景模糊;随后焦点平滑转移,清晰展现出背景中一位翻阅旧书的女孩。

改了两个词,把光线方向调了一下,再按一次。又出来了,质感没掉。提示词写得很随意,就是脑子里的画面用大白话说了一遍,没有刻意堆关键词,模型全听懂了。

▲提示词:前景是一杯正在冒着热气的黑咖啡,占据画面主导位置,背景模糊。随后,镜头焦点自然地转移到背景中,清晰地展现出一位正在翻阅旧书的女孩。

这是 PixVerse V6 给我的第一感受。不是「效果好」三个字能概括的,准确说是「这个效果,居然这个速度就出来了」。

PixVerse 出片快,这件事圈里不算新闻。大多数 AI 视频工具还在用排队考验耐心的时候,PixVerse 已经是同类里生成速度最快的选手。在 Artificial Analysis 的视频生成模型排行榜上,PixVerse V6 更是处在第一梯队。

不过如果 V6 只是「更快了一点、画质更好了一些」,那它只是一次常规迭代,不值得单独拿出来聊。

V6 做的事情,是把「快」从一个技术参数,变成了一种创作层面的结构性优势。指令理解强了,提示词不用反复打磨;画质也更稳了,这些环节省下来的时间叠在一起,比单纯的生成速度提升值钱得多。

换句话说,当出片质量够稳定、速度够快,创作者的瓶颈就不再是工具,而是想法本身 。AI 没有让创作者贬值,它反而让好想法比以前更值钱了。

不只是快,每一帧也经得起放大看

PixVerse V6 的操作本身没有任何门槛,新手也能轻松上手。

打开拍我 AI(网页端地址:https://pai.video),在输入框里用自己的话描述想要的画面,选好分辨率、画面比例和时长,点生成就行。支持 360P 到 1080P 输出,横屏竖屏都能选,单次生成时长可以自己控制。

V6在指令理解上有了肉眼可见的进步,只需简单描述创作意图就足够,无需堆砌专业术语,它明白你要的是什么光线、什么氛围、什么景别,这也导致省下的不仅是时间,还有反复推敲提示词的精力。

也支持上传参考图。想还原某个风格、想锁定角色长相,把图扔进去就行,模型会参照着生成。

▲演示生成过程

V6 最让我意外的进步在于物理仿真。

我试了一段微距镜头。金黄色蜂蜜缓慢滴落,拉出晶莹的丝线,落在松饼上缓缓散开。丝线被重力拉细,接触面的扩散速度也和蜂蜜的黏度匹配。

它有重量,有重力,有因果。

▲提示词:微距镜头。高粘度的金黄色蜂蜜正缓慢地从木质搅拌棒上滴落,拉出长长的、晶莹剔透的丝线,最后重重地落在下方刚出炉的松饼上,蜂蜜在接触面缓缓散开。画面具有极强的真实物理运动逻辑。

以前 AI 视频里的物理世界是「会动的像素」,V6 里的物体在遵守物理定律。这一点的意义超出视觉层面。我们判断一个画面真不真,靠的是一种直觉:这杯水倒出来的方式对不对?这滴蜂蜜落下的轨迹合不合理?V6 在这个层面上交出了一份像样的答卷。

物理仿真解决的是世界真不真实,而人像质感解决的是人的质感对不对。

这是 AI 视频最容易翻车的科目。稍有不慎就是恐怖谷。五官精致但表情僵硬,皮肤光滑但质感像硅胶,眼睛很亮但眼神没焦点。你能认出这是一张脸,但直觉会告诉你,这不是一个人。

V6 在这方面让我重新有了新的审视。一些圈内创作者拿它和 Seedance 放在一起比,结论基本是:两者互有胜负,很难说谁压过谁。

我试了一段中年男性演员的面部特写,他正努力克制哭泣的冲动,浅景深,柔和侧光。出来的结果很难让人移开视线。鼻翼轻微颤动,眼角湿润,这几个动作之间有时间差,有层次,有内在逻辑。

这种微表情的层次感,让人物开始有了一种 AI 演员的即视感。对比之下,以前 AI 人像的情绪更接近「状态切换」,V6 里的情绪有了过程。皮肤质感的取向也值得单说——肌理,毛孔、细纹、光线下的皮肤色差都保留。

打斗戏是 AI 视频的体能测试。

拳头要打在正确位置,被打的人要有合理反应,身体运动惯性要连贯,多角色空间关系不能穿模。任何一个环节崩了,就变成搞笑视频。许多 AI 视频模型的生成结果要么是两个人在做体操,要么挥拳的手臂穿过了对方的脸。

在体验 V6 的过程中,我生成了一段大雨滂沱的泥泞小巷里,两名武术高手正在激烈近身肉搏的场景。一记重拳击中对方下颚,雨水和汗水随冲击飞溅,受击者的面部肌肉因冲击力产生真实的震颤。

画质之外,真正让我兴奋的是 V6 补齐了一套镜头语言能力。

变身特效方面,我生成了一台科技感极强的机械无人机在空中急速飞行,随后快速从金属形态幻化为一条由流动墨水和水墨线条组成的、散发幽蓝光芒的水墨神龙。

▲提示词:中国风动漫风格,无人机在飞行过程中快速从金属形态幻化为一条由流动的墨水、墨点和水墨线条组成的、散发着幽蓝光芒的水墨神龙。

过渡自然,没有常见的像素闪烁和边缘残影。金属的硬度和水墨的流动之间有一个过渡状态,两种质感都没有被粗暴切断,整个变身过程更接近融合,而非替换。

运镜能力同样有惊喜。电影级航拍视角下,一台无人机在废弃的、生锈的工业厂房内部急速穿行。厂房的空间感、金属质感的光线处理、高速运镜时画面的稳定性,三件事同时做到位,没有出现 AI 常见的那种「不知道该看哪」的混乱感。

▲提示词:电影级航拍视角,现实主义风格。一台无人机在废弃的、生锈的工业厂房内部急速飞行。

还有一个方向是子弹时间。黑客帝国式的视角旋转,主体定格,背景动态延续。这类镜头对时间感的控制要求很高,稍有偏差就会变成慢放,V6 处理得比较克制,速度分层是有的,没有用力过猛。

我还试了两个对空间穿越要求更高的场景。第一个是课堂。无人机视角从走廊切入教室,镜头跟着这股气流穿出教室,拉到整个校园上空。试卷和白纸被气流卷起,满天都是,运镜轨迹却没有断。

第二个是蜜蜂从窗缝挤进来,穿过卧室、客厅,找到厨房里的蜂蜜罐再飞出。每个房间光线和景深都不同,换场时蜜蜂飞行惯性有轻微滞后,和真实昆虫的节律对得上。

多镜头切镜可能是对实际工作流贡献最大的能力。一段时尚女装广告短片,三个镜头的衔接流畅,色调温暖统一,没有 AI 的拼凑感。

还有三个我比较喜欢的运镜和场景调度的测试。

比如一架纸飞机在维多利亚式书架间起飞,书本跟着腾空排成隧道,随后场景切进脑内微观世界,神经元在半透明星云状组织里闪着荧光,像缩小版的银河系。

同样是纸飞机在图书馆迷宫里做非线性飞行,俯冲、侧滑、擦边过障碍,镜头紧紧跟随,转弯时有强烈的侧滑感,没有糊掉。

前脚还是琥珀暖色的图书馆,进入脑内世界后立刻切成深蓝和深紫,但因为运镜没有断,切换反而变成了一种视觉冲击,并不突兀。

这些能力单拿出来每一项都是加分项。组合在一起,意味着 V6 开始具备完整的镜头语言能力了。

最后一个让我印象深刻的点,不是画面,是声音。

V6 在开启 Audio 之后,音频适配有了明显增强。我试了一段微缩模型视角的场景:远处火山正在喷发,小人国村民四散奔逃,一只巨大的手拿着透明碗从天而降,将整个村庄罩住,透明碗落下的瞬间带着空气被压缩的细微震动。

特别是 ASMR 类场景。下雨天的窗户、篝火噼啪声、书页翻动。这些画面本身就追求沉浸感,音频质量直接决定你是在看视频还是沉浸在场景里。

一个人暴力出片叫效率,一群人暴力出片叫生产力

如果 V6 只是一个更快更好的 AI 视频模型,故事到这里可以收尾了。但 PixVerse 显然不打算只讲到这里。

据了解,这次同步上线了两个东西:Team Plan 和 Mini Apps。

Team Plan 是给 2 到 15 人的工作室用的。核心机制很简单,团队共享一个积分池。

不再是每人一个账号各算各的,而是整个团队统一消耗,按角色分配权限。老板看全局,创意总监管项目分组,剪辑师专注出片。个人空间的素材和模板一键同步到团队空间,不用在群里来回传文件。

听起来不复杂,但解决的问题很真实。以前工作室用 AI 视频工具,就是每人开各自的账号,出了好素材在群里互传,版本管理靠文件命名加日期。这跟十年前用 U 盘传 PPT 没什么本质区别。

Team Plan 做的事情,就是把 AI 视频从个人工具升级成了团队生产线。一个人连出十条挑最好的叫个人效率,五个人各出十条,五十条里挑一条炸裂的,叫团队生产力。

Mini Apps 走的是另一条路。使用方式简单到不需要解释:上传几张商品图,系统自动帮你剪成一条完整的广告视频。不用懂剪辑,不用知道什么叫镜头语言。

一个淘宝店主、一个小红书博主、一个街边奶茶店老板,都能在几分钟内拿到一条可以直接发的产品视频。

V6 模型是给创作者的武器,Mini Apps 是给所有人的傻瓜相机。当创作门槛被压到零,暴力出片就不只是创作者的方法论了,它变成了人人能用的基础设施。

快,才是最贵的画质

画质够好,速度够快,成本这道关也值得单独说一说。

720p 分辨率常态成本大概为每秒 0.04 美元,放在当前市场里已属低位,对应的却是第一梯队的生成质量,4 月 7 日前购买会员至高打七折,生成时积分消耗再减免 30%,进一步把规模化出片的成本压了下来。

这让我想到摄影从胶卷到数码的变化。

胶卷时代一卷 36 张,按一次快门前得在脑子里构图三分钟,因为每一张都有成本,但快门本身的质量没有区别。数码时代的摄影师怎么拍?因为每一张都清晰、都够用,所以可以连拍 200 张,事后选构图最好的那张。没人会说这「不严肃」,因为最终给观众看的永远是那张最好的。

V6 让 AI 视频创作进入了这种「数码时代」。

而 PixVerse 对「快」的理解,也早已超出了生成速度本身。

从早期的高速生成,到 R1 的实时交互,到 V6 的强指令理解让描述变得更自然,再到 Team Plan 把协作效率拉到团队量级,这条线串起来,体现的是 PixVerse 在多个维度上同时提速:生成速度快、指令理解准确、协作效率提升。

支撑这一切的,是PixVerse扎实的模型迭代能力。

能在排行榜上持续保持第一梯队,靠的是每一代产品都在扎实啃硬骨头,物理仿真、人像质感、镜头语言,每一项都是难而正确的方向。V6 的初衷很纯粹:让创作者把精力放在创意上,其余的交给工具。

当一个工具把高质量的生成变成了触手可及的日常,又把使用门槛压到零、把协作效率拉到团队级别,它就不再只是一个「模型」了。它正在变成内容时代的基础设施。

PixVerse V6 开启了 AI 视频的暴力出片时代,快到不讲道理,好到能直接交片。

这个时代才刚开始。

作者:李超凡、莫崇宇

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

中国 AI 视频赛道最大单笔融资,为什么给了爱诗科技


APPSO 获悉,爱诗科技近日完成 3 亿美元 C 轮融资,创下国内 AI 视频生成赛道单笔融资的最高纪录。

领投方鼎晖香港基金联合鼎晖 VGC、鼎晖百孚重金押注;产业资本中国儒意、三七互娱紧随入场;国内政府引导基金、险资、家族办公室,还有 UOB Venture Management、Lion X 基金。参投名单横跨两个半球,不同领域的资本默契涌向了同一个方向。

3 亿美元融资放在当下 AI 行业似乎没有什么好惊讶的,这还不到 OpenAI 融资的零头。但你得把这个数字放进 AI 视频赛道的坐标系里看:成立于 2018 年的 Runway,花了七年才在上个月完成 3.15 亿美元的 E 轮融资。而爱诗科技从种子轮走到同等量级的 C 轮,只用了不到三年。

A 轮,达晨财智领投,蚂蚁集团跟进;B 轮,阿里巴巴领投逾 6000 万美元,彼时已是国内视频生成赛道最大的一笔钱;C 轮,3 亿美元,纪录再次被自己改写。

每一轮都有新的顶级机构首次入场,每一轮金额都在翻倍。节奏越来越快,筹码越押越重

实际上,这笔融资反映出的信号大于数字本身:AI 视频不再是大模型叙事的配角,资本已经把它当作一条独立的、值得重仓的赛道来押注

爱诗科技创始人王长虎曾在 2024 年表示,视频生成一定是被低估的。爱诗科技用不到三年时间,将这个非共识变成了资本共识。

非共识的起点:2023 年,为什么是视频

「我不会创业,但没关系,创业就是边做边学。」2023 年 4 月,爱诗科技创始人王长虎决定创业时,就是带着这句话出门的。

2023 年 4 月,爱诗科技创始人王长虎带着一个在当时看起来相当「偏科」的判断出来:当所有人都在追大语言模型,他要押注视频生成。

要知道一年之后 OpenAI 的 Sora 才正式亮相,可以想象当时王长虎这个选择有多么反常识。

在微软亚洲研究院待了 8 年、在字节跳动做了 4 年 AI Lab 总监之后,王长虎比大多数人更清楚视频 AI 的技术节奏。「2023 年初很多人都不认同做视频这件事,大家都在看大语言模型,」他后来回忆,「但这就有了非共识:我们觉得视频生成是大事,而我们过去在视频和 AI 方面有经验,能赢在全球。」

这个判断在当时要承受不小的压力。相比语言模型,视频生成的算力消耗更大,生成质量更难控制,产品化路径也更模糊。早期的投资人需要相信的,不是现在能看到什么,而是三年后那张尚未成型的蓝图。

2024 年 3 月,达晨财智率先领投 A1 轮,完成了第一次押注。随后一个月,蚂蚁集团以逾 1 亿元人民币跟投,是彼时国内 AI 视频领域单笔最大机构投资。至此,爱诗科技基本完成了从「技术方向」到「资本方向」的验证。

王长虎在创业之初就明确了愿景:「帮助每个人成为生活的导演」。海外产品 PixVerse 和国内产品拍我 AI,都是在这个方向上的落地——前者于 2024 年 1 月上线,后者于 2025 年 6 月推出,两款产品针对不同市场独立运营。

DiT 架构:那个没人看好的选择

要理解这笔 3 亿美元的 C 轮,需要先看懂爱诗科技的技术路线。

把爱诗科技的技术路线从头捋一遍,会发现 DiT(Diffusion Transformer)架构这个选择,是整个故事的原点,也是很多结果的前提。

2023 年,国内主流视频生成方案普遍采用 U-Net 架构。这也没问题,U-Net 经过了图像生成领域多年实践的充分验证,稳定、成熟,调参经验相对成熟,可以较快地跑出效果。对大多数想先做出来再说的团队,这是理所当然的选择。

可以爱诗科技选了 DiT,成为国内首家将这一架构用于视频生成的创业公司

DiT 是 Diffusion(扩散模型)与 Transformer 的组合架构。Transformer 的核心优势在于注意力机制(Attention Mechanism)——它让模型在处理数据时,能够同时「感知」序列中任意位置的信息,而不是像卷积网络那样只能处理局部区域。

对于视频生成这个任务来说,这种能力的价值是决定性的:视频的本质是时间轴上的连续帧,每一帧的内容与上下帧存在复杂的时空依赖关系。人物的动作要连贯,物体的运动轨迹要符合物理规律,光影变化要在跨帧时保持一致——这些要求,需要模型能够捕捉「跨帧的长程时空关联」,而这正是 Transformer 天然擅长的事。

但这个选择在 2023 年要付出不小代价:DiT 在训练初期对算力和数据量的要求更高,起步阶段几乎必然要经历「效果不如成熟 U-Net」的阵痛期。对一家刚起步的创业公司,这是不小的风险,钱可能在效果变好之前就烧完了。

事实证明,这个判断是对的。2024 年 Sora 发布时,OpenAI 公开的技术路线正是 DiT。在视频生成这个方向上,DiT 架构确实是更接近正确答案的那条路。

当 Sora 发布时,爱诗已经在 DiT 架构上积累了一年多的训练经验、数据处理流程、工程优化方案。这种时间差,在技术迭代速度极快的 AI 领域,十分关键。

模型产品两手抓,被低估的核心逻辑

在 AI 视频领域,大多数公司的做法是先把模型训练好,再去想产品怎么做。这是一条看起来稳妥的路,模型成熟了,产品化的风险就小得多。

但这种路线有个致命问题:等模型「训练好」的时候,你已经错过了最关键的反馈窗口。用户真正需要什么样的生成效果?哪些场景的需求最强烈?模型应该在哪些维度上优先优化?这些问题,只有产品跑起来、用户用起来,才能得到真实答案。

爱诗从一开始就把模型训练和产品迭代放在同一个循环里。

PixVerse 网页版 2024 年 1 月上线时,模型还远未到「完美」状态,但产品已经可以让用户生成视频、给出反馈。每一个版本的模型升级,都直接来自上一个版本用户的真实使用数据,哪些 Prompt 成功率低、哪些特效最受欢迎、哪些场景容易出错,这些信号实时回流到训练流程,指导下一轮模型优化的方向。

更重要的是,这种模型-产品的协同进化,会随着时间推移形成复利效应:用户越多,反馈越密集,模型优化越精准,产品体验越好,又吸引更多用户——这是一个正向飞轮,而不是单向的技术推进。

「这就是创业公司的优势所在,没那么复杂,所以效率高,」爱诗联合创始人谢旭璋说。这句话听起来轻描淡写,但背后是对技术路线、产品节奏、组织能力的高度整合。大厂可以投入更多算力、更大团队,但很难做到这种模型与产品的深度结合,流程太长,部门太多,反馈链条一旦拉长,速度优势就会被稀释。

这种效率优势最终体现在成本结构上。谢旭璋在接受晚点采访时透露,爱诗「平均每月用的训练资源不到千卡,成本大概只有同行的 10%」。

这是一种结构性的成本优势,而不是靠压缩预算换来的短期节省。用谢旭璋的话说,模型架构、算法、工程、产品能力的综合优势

当模型优化方向始终贴着真实需求在走,就能减少在错误的方向上浪费算力;产品反馈能实时指导训练策略,每一次迭代的投入产出比都会更高。

从 2024 年 1 月 PixVerse 网页版正式上线,到 2026 年初 V5.6 发布,爱诗科技连续更新 8 个主要版本,平均每两个月就有一次大的模型升级。

这种迭代密度的背后,正是模型与产品一起训练的方法论在起作用:

  • V2(2024 年 7 月):多段视频生成与局部重绘笔刷上线,用户从单纯「生成一段」开始走向「编辑与创作」;
  • V3(2024 年 10 月):特效模式上线,「抽卡概率」从随机提升至接近确定性,这是 PixVerse 从创作工具迈向大众产品的真正节点;
  • V3.5(2024 年 12 月):生成时间压缩至 10 秒内,极大降低用户等待成本;
  • V4(2025 年初):「准实时生成」能力出现,5-7 秒生成 5 秒视频;
  • V4.5(2025 年 5 月):参数量与训练数据集指数级扩张,全球用户达 6000 万;
  • 拍我AI (2025 年 6 月):PixVerse 国内版「拍我AI」发布,同步上线网页端及移动端应用;
  • V5(2025 年 8 月):Agent 创作助手上线,用户不再需要学习 Prompt 语法,口语化意图自动转化为模型指令,API 生态同步开放;
  • V5.5(2025 年 12 月):「分镜 + 音频」一键生成,国内首次实现画面与声音的同步协同,完整叙事能力成型;
  • V5.6 (2026 年 1 月 26 日 ):模态大模型,支持分镜和音画同步生成。

在权威 AI 评估机构 Artificial Analysis 最新发布的视频生成模型排行榜中, PixVerse V5.6 位列全球第 2 位,持续领跑全球视频生成模型第一梯队。


这种迭代密度在 AI 视频行业里相当罕见,爱诗跟很多同类产品的策略不同:持续往前推,每一版解决真实用户在当下遇到的真实问题,同时在架构层面为下一次跃升保留余量

背后的可行性,恰恰是 DiT 架构的可扩展性所赋予的,每次模型升级,不需要推倒底层重来,而是在既有基础上加宽加深。

3 亿美元,押注不只是 AI 视频

但鼎晖最终决定领投这次 C 轮,押注的不只是 V5 的榜单排名,可能还有 2026 年 1 月刚刚发布的 PixVerse R1。

R1 可以说是爱诗科技迄今最激进的一次产品技术迭代。

过去的视频生成,无论做得多精致,本质上都是「把指令翻译成一段视频文件」,是一次性的、离线的渲染过程。用户输入指令,等待生成,拿走一段固定的视频文件。这像是在冲洗胶卷,你拍完就拍完了,要等冲洗出来才能看,看完也无法再改。

R1 不是这个逻辑,它不再只是「生成一段视频」,是一个能实时响应用户交互指令的「世界模型」:用户可以在视频播放中输入指令,改变光影、替换背景、控制角色走向,系统响应延迟约 2 秒,输出为 1080P 超高清实时视频流。

背后依赖的是爱诗自研的「瞬时响应引擎(IRE)」,它将计算步骤从数十步压缩至 1-4 步,实现从「离线渲染」到「实时交互」的重要升级。

谢旭璋判断,未来视频和游戏的边界一定会越来越模糊。一旦视频变得能交互了,全新的内容、用户和创作机会就会涌现。

谢旭璋在采访中透露,R1 发布后,游戏行业的 B 端客户来得最多,「以后的游戏开发不用再像过去那样熬漫长的大周期了,无论是玩法、画面还是剧情,AI 都能让它变得更轻量、更具想象力。更重要的是,它能帮那些不懂代码但有创意的人,把点子变成真正的游戏。」

R1 的潜在价值,已经超出了「更好的视频生成工具」这个范畴。如果说 PixVerse V5 是在争视频生成工具的头部位置,R1 是在定义是一个完全不同的品类——实时交互式内容体验的操作系统。它的竞争对手,不再是 Runway 或可灵,是 Unity、Unreal Engine,甚至是尚未出现的内容消费形态

回看爱诗科技这笔 C 轮的投资人结构,其实本身就是一个信号。

鼎晖三支基金联合领投,背后是对这家公司进入规模化阶段的系统性判断。产业资本中国儒意(影视内容)和三七互娱(游戏)的入场,指向了 R1 要重构两个行业:互动影视制作和 AI 原生游戏开发。

进入 2026 年,整个 AI 视频赛道也在加速进入下半场。前有 Seedance 2.0 风靡全球,现在爱诗科技成为新的独角兽。

目前,PixVerse 全球注册用户突破 1 亿,MAU 超过 1600 万;国内版拍我 AI 与 PixVerse 形成双轨并行格局;爱诗科技也是 2025 年联合国「人工智能向善全球峰会」上唯一入选的中国 AI 视频应用,并于同年正式加入联合国大学全球人工智能网络。

这笔 3 亿美元融资,可以理解为资本对一个即将到来的时代的投票。AI 视频的下一个战场,不在参数量,不在榜单排名,关键在于谁先把视频从一个「消费品」变成一个「交互界面」

不过,知道技术路线在哪里会拐弯,和相信这条路最终走得通,是两件事。

在 AI 这个行业,「选对了方向」本身并不稀缺。稀缺的是,在方向被主流认可之前那段空白期里,有没有足够具体、足够扎实的东西,支撑你不摇摆

三年里爱诗科技在这条路线没有在中途断裂,很难说是提前预见了终点的全知视角,而是每走一步,下一步的方向都从上一步的技术现实中自然长出来。

视频正在从被观看的内容,变成被触碰的世界。因此,这三亿美元所押注,远不止 AI 视频的未来,而是那个「」万物皆可交互」的时代。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

❌