Reading view

There are new articles available, click to refresh the page.

实测 Sora!比拼可灵、Runway,谁最没有 AI 味

鸽了一年,Sora 千呼万唤始出来,但 OpenAI 是让网友来历劫的。

说好的正式开放使用,蹲点直播且手速够快的幸运儿,才能抢先进入体验。等了一天,反复刷新,一次次面对「请稍后回来查看」的提醒,终于注册成功。

然而,让我和 ChatGPT 从诗词歌赋聊到人生哲学的 20 美元,只够让 Sora 在一个月内生成 40 个 5 秒的 480p 视频。每一次点击生成,都如履薄冰。

好不容易用上了,我们自然要把每一个 Sora 的视频用在刀刃上,拿它和 Runway、可灵比一比。结论是,能用,好玩,但很难硬夸。

Sora、Runway、可灵,失败得各有各的笑点

让 Sora 和 Runway、可灵比赛,自然是有理由的,一个是出道早、海外最有代表性的 AI 视频产品,一个是异军突起、以实力征服全世界网友的国内顶尖选手。

规则非常简单,用相同的英文提示词(为了方便阅读,下面都翻译为中文),生成的时长都是 5 秒。唯一的区别是,Sora 的分辨率都设置成了 480p。没办法,积分得省着用。

先用文生视频,比比画面的写实和质感,看看 AI 视频们生成的猫怎么样。

Sora 虽然只有 480p,但画面看起来是高清的,调色也很漂亮。

▲Sora 生成,提示词:200mm 长焦镜头捕捉阳台上的英短猫,其毛发细节鲜明。前景的大盆栽轻微虚化,背景中树叶随风摇曳。画面具有电影胶片的颗粒感和色彩饱和度,高清画质

Runway 和可灵的表现差不多,可灵的前景、背景生成得最准确。三只猫,三种花色。

▲Runway 生成

▲可灵生成

接下来,让 AI 视频们「写字」,看看能不能写出「APPSO」。

Sora 的手部动作还算自然,但写出来的线条像吃了菌子,有自己的想法。

▲Sora 生成,提示词:俯视角度拍摄手在白色素描纸上书写「APPSO」,黑色笔画,流畅的书写动作,自然的手部移动,柔和打光,特写镜头

Runway 对得最多,但也没完全对,而且,除了最后那一笔,字母轨迹和手部动作没有默契配合,各管各的。

▲Runway 生成

至于可灵,写出一串乱码,但很难得,字母轨迹是跟着手部动作走的。

▲可灵生成

然后再来考考运动的流畅程度,同一场自行车比赛,Sora 的镜头和运动轨迹完全遵循了提示词,影子看起来也很真实。

▲Sora 生成,提示词:山地自行车手快速冲过连续起伏的泥土赛道,从最后一个跳台腾空而起,侧面镜头捕捉他在最高点的瞬间

Runway 的提示词只对了一半,自行车手没在开头出场,最后给了一个高光镜头。

▲Runway 生成

可灵和 Runway 恰好反过来,前半段表现得不错,但收尾出状况了,怎么多出来一个人?

▲可灵生成

该上难度了,拿出相对复杂的、自带镜头切换的提示词。

Sora 的画面色彩饱和,像调了色,但是男性好像是凭空出现的,AI 也没有按照要求,把镜头转向男性。

▲Sora 生成,提示词:阳光明媚的下午,星巴克风格的咖啡馆内,镜头首先对准一位面带微笑的年轻中国女性,随后转向一位说话时轻轻点头的年轻中国男性。他们相对而坐,木桌上放着两杯咖啡。自然光充满空间,营造温暖氛围

Runway 直接就从侧面拍,还原了两个人的神态,但没有体现镜头的运动,男性的手部也出了问题。

▲Runway 生成

可灵和 Runway 差不多,但略胜一筹,因为更像中国人,然而,这两个人同坐一桌,却谁也没看谁。

▲可灵生成

除了文生视频,图生视频也是视频生成的重头戏,而且相比文生视频,图生视频更实用,很多商业化交付的 AI 片子,基本都是图生视频,先在图片阶段尽量做到一致性。

然而,如果只是 20 美元的 Plus 用户,是不能在 Sora 上传包含人物的照片或者视频的。退而求其次,我们上传一张巫师猫的表情包,让猫猫挥舞手中的魔法棒,变出玫瑰花。

不知道为什么,Sora 的图生视频不起作用,猫压根没动,从右下角的 logo 才看出,这是非静止画面。

▲Sora 生成,提示词:猫猫挥动手中的魔法棒,变出了一朵红玫瑰

Runway 让猫猫右爪挥舞魔法棒,左爪变出玫瑰花,也算符合提示词的要求,但这个花不在一个图层啊。

▲Runway 生成

可灵的表现非常完美,效果最自然,做成 gif 就是又一张表情包。

▲可灵生成

试了动物,再试试空镜,我将之前用 AI 生成的一张工业废土风格图片,作为图生视频的材料。

Sora 生成的结果很难评价,视角是够低的,但镜头不是从侧面跟踪,画面切换也突兀。这就叫,我不该在车里,而是在车底。

▲Sora 生成,提示词:装甲车开过,轮胎扬起尘土碎屑,侧面跟踪镜头,低角度视角,慢动作,电影级质感

Runway 生成的最有内味,甚至车窗也跟着动起来了。

▲Runway 生成

可灵直接把镜头拉远了,和提示词基本没什么关系。

▲可灵生成

就那么几道题,三个 AI 没有一个是可以打满分的。当然,以上通通都是个例,不具有普遍的代表性,充其量只能提供一个测评的角度。

单论 Sora 的话,它在文生视频的写实风格上表现得不错,具有电影质感,物体运动对于提示词的遵循也还行,有时甚至比可灵和 Runway 表现得好。

但图生视频容易抓瞎,可能静止不动,可能不听镜头运动,整体性价比不算高。

▲Sora 生成,提示词:90 年代在上海拍摄的 35 毫米胶片短片,电影质感

「丐版」的模型,创新的产品

Sora 表现一般,可能因为,它是个「丐版」——和受 OpenAI 邀请的艺术家们不同,现在我们能用的是 turbo 版本,需要的算力更少,效果也就打了折扣。

模型不够,产品来凑,Sora 有一点让人服气——2 月官宣,12 月才发布,中间冒出很多竞品,但 Sora 仍然具备它们没有的功能。

不像 ChatGPT 一个对话框走天下,Sora 在交互界面和产品功能的设计上别出心裁。

其中,Sora 的故事板功能,类似首尾帧,但更灵活,我们可以在时间轴上添加多张卡片,卡片里可以是提示词,也可以是图片和视频,Sora 在卡片之间生成完整的视频。

于是,我写了两段提示词,1.日剧风格镜头,女高中生靠在天台栏杆旁,侧脸构图,温柔的午后光线打在脸上;2.她转头面向镜头露出微笑,温暖的打光突出表情。

生成的效果,很符合我的想象,发丝的飘动让人该死的心动。

▲ Sora 生成

AI 还做不到让人人都能当导演,但 Sora 让你体验一把设计分镜的感觉。不过,还是那句话,模型就这样,效果的好坏,非常随机,但 Sora 的积分,经不起抽卡。

我本想让 AI 模仿游戏 CG 的效果,主角迅速转身并拔枪,但最终,得到了一个表情呆滞的机器人。

▲Sora 生成

只在故事板放上一张图也可以,这样 Sora 会自动生成提示词,建议你这张图片怎么动。

于是,巫师猫终于可以动起来了。原来,图生视频的短板,是要在这里弥补啊。然而,效果也很难绷,有时候会生成一些多余的东西。

▲Sora 生成

另外,Sora 的 Remix(重绘)功能也很好玩,我们可以用自然语言编辑视频,改变视频中的元素,进行「二创」。

既可以用自己的视频,也可以在 Sora 的社区里借用他人的视频。

▲ 图片来自:Sora 社区@bpyser1

比如,我们可以把跳舞的真·纸片人换成男团,同时,把场景换成练习室。

纸人的动作和服饰都大致保留了,但人物的四肢还是不能细看。

▲Sora 生成

更好玩的来了,我们可以接着用 Blend(混合)功能,将两个视频合并成一个,Sora 会自动处理视频之间的过渡效果。

原来以为,可以出来一个丝滑的 MV 片段,毕竟这两个视频都这么相似了,但 AI 还是给了我惊喜,开头和结尾都很正常,中间的场面一度很混乱,你们到底几个人啊?

▲Sora 生成

总之,不追求出片率的话,Sora 很好玩,产品形态也很有意思,提供了一个全新的工作流,创新是有的,功能也是比较完整的。

但是,仅从目前来看,生成效果的进步空间较大,但给用户的探索次数又不足,20 美元只能浅尝辄止。有时候画面很漂亮,但运动处理得不好,也是白搭,「现实不存在了」还是一个遥远的梦想。

请欣赏,猫猫穿墙而过,原来在 AI 眼里,猫真的是液体。

▲Sora 生成,提示词:电影感十足的黑猫特写镜头,猫咪在故宫红色宫墙前优雅地跃起,画面以慢动作呈现,猫咪全身清晰可见,背景利用浅景深虚化处理,在跳跃最高点时金色的眼睛直视镜头。采用柔和的自然光线,传统的中式建筑墙面细节形成模糊的背景

Sora 的问题,其实也是很多 AI 视频产品的通病,没有真正靠谱的一刀流。模拟真实的世界?实现丝滑的运动?保持人物的一致?可以是可以,但有概率,抽卡和后期必不可少。

现在我们看的是肉眼可见的生成效果,而 AI 视频们集体改变的,是创作的方式。未来虽然可期,但是,Sora 请先把模型升级了吧。

利若秋霜,辟除凶殃。 工作邮箱:zhangchengchen@ifanr.com

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


刚刚,OpenAI 王炸 Sora 正式上线!网站火到崩溃,奥特曼紧急关闭用户注册

就在刚刚,OpenAI Sora 正式登场。

本次发布会延续了「短剧」的快节奏风格,全程 20 分钟左右,由 CEO Sam Altman、Sora 负责人 Bill Peebles 等人主持。

OpenAI 在 X 平台表示,自 2 月份以来,他们一直在构建 Sora Turbo,后者是一个速度明显更快的模型版本,今天也将其作为独立产品向 Plus 和 Pro 用户开放。

有趣的是,由于 Sora 热度太高,大批用户涌入体验网站,导致该网站一度崩溃,停止注册登录。不给力的服务也让 Altman 连连在 X 平台安抚用户:

「由于需求超出预期,我们将不得不间歇性地关闭新用户注册,并且生成内容的速度会在一段时间内减慢。我们正在全力以赴!」

附上体验地址:Sora.com

Sora 界面大揭晓,拥有 6 大神级功能,不用学剪辑了?

类似于 Midjourney 的网页界面,Sora 同样拥有自己单独的用户界面,用户用户不仅能够整理和浏览生成的视频,还能查看其他用户的提示和精选内容。

在 「Library」功能中,用户可以保存自己喜欢或有用的提示词,以便未来使用。并且保存的提示词可以按需查看或修改,对于需要重复创作相似内容的用户,无疑能大大提高效率。

在工作流方面,Sora 的编辑功能是区别于其它竞品的重要亮点。

比如说,在 Remix 功能中,用户可以利用纯自然语言提示词对视频进行编辑,并通过简单的「strength(强度)」选项和滑块来控制生成的变化程度。

Re-cut 功能则能智能识别最佳画面,并支持向任意方向延伸场景。

Sora 的 Storyboard(故事板)功能则类似于视频编辑器,可以将多个提示词串联在一起,生成一个更长的视频,轻松处理复杂的多步骤场景。

搭配 Loop 和 Blend 功能,用户还能创作出无缝循环的视频,并完美融合不同片段,而 Style presets 功能则可以预设和调整生成的风格。

在技术规格上,Sora 支持 5-20 秒的视频生成,并兼容 1:1、9:16 等主流宽高比。相比早期版本,现在的生成速度有了显著提升。

另外,还有几点细节需要注意。

OpenAI 采用了灵活的积分制定价策略,积分数量因分辨率和持续时间而异,如果你早已是 ChatGPT Plus 和 Pro 会员,那就无需额外费用就能使用。

比如生成一个 480p、5s 的视频就需要 25 个积分,如果生成 480p、20s 的视频则需要 150 个积分。

此外,如果你用 Re-cut、Remix、Blend 或者 Loop 这些功能,生成的作品超过了 5 秒钟,那也得额外扣你的积分,多用多花钱,别超时,超时也花钱。

对于订阅用户而言,20 美元的 ChatGPT Plus 计划提供 50 个优先视频额度(1000积分),支持最高 720p 分辨率和 5 秒时长。

而 200 美元的 ChatGPT Pro 计划则提供最多 500 个优先视频(10000 个积分),支持 1080p 分辨率、20 秒时长、5 个并发生成和无水印输出。

OpenAI 还在为不同类型的用户开发不同的定价模式,将于明年初推出。

对了,Sora 暂不支持ChatGPT Team、Enterprise 和 Edu 版本,同时也不向 18 岁以下用户开放。现阶段,用户可以在所有 ChatGPT 可用的地方访问 Sora,但英国、瑞士和欧盟等地区除外。

实测 Sora 暴露最大短板,但这些场景堪比专业级

知名博主 Marques Brownlee 提前一周用上了 Sora,并在 YouTube 上分享了他的使用体验。

他指出这款产品仍存在一些局限性。

在物理模拟方面,模型对物体运动的理解还不够深入,常常出现动作不自然、物体突然消失等问题。特别是在处理带有腿部运动的对象时,经常出现前后腿位置混乱的情况,导致动作看起来不自然。

又或者,某些视频生成结果看起来像是慢动作,而视频的其他部分则以正常速度播放,肉眼很容易察觉这种「别扭」。简言之,Sora 还是没能解决老毛病,缺乏对物理世界规律的理解。

另外,Sora 没能解决文字生成的问题,导致经常出现文字混乱的现象,而剪辑风格、文字滚动条的运动、新闻主播风格的生成则格外逼真。

不过,Sora 也有不少擅长的场景。

比如说,Sora 在风景镜头处理方面表现出色,能生成媲美专业素材的无人机航拍镜头,在卡通和定格动画风格上的表现也差强人意。

性能方面,一个 5 秒的 360p 视频通常能在 20 秒内完成生成。

不过,当涉及 1080p 或复杂提示词时,生成时间可能会延长到几分钟,但随着如今大批用户的涌入,生成速度明显慢了大半拍。

不少网友也在第一时间上手体验了 Sora。比如网友 @bennash 想生成一个视频,渲染了 22 分钟都没能成功,甚至该网站一度停止注册登录。

博主 @nickfloats 给出的评价是,Sora 在将图像转换成视频时,虽然某些特定的视觉特效没有被保留,但整体的转换效果是「清晰和令人满意的」。

Sora 能成为 OpenAI 的下一只「金母鸡」吗?

Sora system card 也列出了一些值得关注的细节。

OpenAI 官方认为,Sora 为能够理解和模拟现实世界的模型提供了基础,将是实现通用人工智能(AGI)的一项重要里程碑。

官方博客中提到,Sora 是一种扩散模型,它通过从一段看起来像静态噪声的基础视频开始,逐步去除噪声并转变为最终的视频。通过同时处理多个帧,模型成功解决了一个难题:即使目标暂时脱离视野,也能确保其在视频中始终保持一致。

与 GPT 模型类似,Sora 采用了 Transformer 架构。

Sora 使用 DALL·E 3 中的标注技术,该技术为视觉训练数据生成高度描述性的标签。因此,模型能够更准确地根据用户的文本指令生成视频内容。

除了能够仅通过文本指令生成视频外,Sora 还能够从现有的静态图像生成视频,准确地将图像内容进行动画化,并注重细节。该模型还可以从现有的视频中扩展或填补缺失的帧。

为了确保安全地部署 Sora,OpenAI 基于 DALL·E 在 ChatGPT 和 API 部署中的安全经验,以及 OpenAI 其他产品(如 ChatGPT)的安全防护措施进行了强化。

  • 未经他人许可使用他人肖像,并禁止描绘真实未成年人;
  • 创建非法内容或侵犯知识产权的内容;
  • 禁止生成有害内容,例如未经同意的亲密影像、用于欺凌、骚扰或诽谤的内容,或旨在传播暴力、仇恨或使他人痛苦的内容;
  • 创建并传播用于欺诈、诈骗或误导他人的内容。

所有 Sora 生成的视频都带有 C2PA 元数据,这些元数据能够标识视频的来源是 Sora,从而提高透明度,并可用于验证其来源。

与此前凭借真实人像出圈的 Flux 不同,Sora 们对上传包含人物的内容设定了特别严格的审核标准,目前仅作为试点功能提供给少量早期测试者,并屏蔽含有裸露的内容。

大半年前,初试啼声的 Sora 赢得互联网一片喝彩。

然而,如果说一年前尚未还能对着一群演示 demo 空喊「现实不存在了」,那么在国内外各类视频模型的轮番洗礼之下,我们早已养刁的胃口很难再被同样的产品打动。

这种态度的转变源于一个简单的事实。

当 AI 要从「勉强可用」进化到「可堪大用」,用户的期待也随之升维,从「能否做到」跃迁至「做得多好」。

好在 Sora 并未在掌声中原地踏步,通过与艺术家的深度合作,他们在工作流程领域做出了显著的改进。Re-cut、Remix、Storyboard 等功能都相当实用。

甲乙方的存在决定了工作流中的沟通永远是刚需,AI 能做的是让这种沟通更有效率,Sora 的价值不在于它能做什么,而在于让创作者得以抽身于技术细节,真正回归创意的本质。

与此同时,上周引发热议的 200 美元 ChatGPT Pro 订阅计划,如今也有了更合理的价格锚点,该计划同样支持无限制访问 Sora,这种产品协同效应预计也将激发出远超预期的应用场景和商业价值。

放眼当下,用户的真金白银从不作假。

可灵 AI 交出千万级月流水的亮眼成绩单,这片蓝海的潜力已呼之欲出,对于仍在「烧钱」阶段的 OpenAI 来说,Sora 预计会成为继 ChatGPT 之后的另一个下金蛋的母鸡。

当 Sora 从「能用」「好用」,再到「妙用」,或许未来某一天,我们会发现,真正不存在的,不是现实,而是人类创造力的尽头。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌