❌

Reading view

There are new articles available, click to refresh the page.

实测 Sora！比拼可灵、Runway，谁最没有 AI 味

13 December 2024 at 12:09

鸽了一年，Sora 千呼万唤始出来，但 OpenAI 是让网友来历劫的。

说好的正式开放使用，蹲点直播且手速够快的幸运儿，才能抢先进入体验。等了一天，反复刷新，一次次面对「请稍后回来查看」的提醒，终于注册成功。

然而，让我和 ChatGPT 从诗词歌赋聊到人生哲学的 20 美元，只够让 Sora 在一个月内生成 40 个 5 秒的 480p 视频。每一次点击生成，都如履薄冰。

好不容易用上了，我们自然要把每一个 Sora 的视频用在刀刃上，拿它和 Runway、可灵比一比。结论是，能用，好玩，但很难硬夸。

Sora、Runway、可灵，失败得各有各的笑点

让 Sora 和 Runway、可灵比赛，自然是有理由的，一个是出道早、海外最有代表性的 AI 视频产品，一个是异军突起、以实力征服全世界网友的国内顶尖选手。

规则非常简单，用相同的英文提示词（为了方便阅读，下面都翻译为中文），生成的时长都是 5 秒。唯一的区别是，Sora 的分辨率都设置成了 480p。没办法，积分得省着用。

先用文生视频，比比画面的写实和质感，看看 AI 视频们生成的猫怎么样。

Sora 虽然只有 480p，但画面看起来是高清的，调色也很漂亮。

▲Sora 生成，提示词：200mm 长焦镜头捕捉阳台上的英短猫，其毛发细节鲜明。前景的大盆栽轻微虚化，背景中树叶随风摇曳。画面具有电影胶片的颗粒感和色彩饱和度，高清画质

Runway 和可灵的表现差不多，可灵的前景、背景生成得最准确。三只猫，三种花色。

▲Runway 生成

▲可灵生成

接下来，让 AI 视频们「写字」，看看能不能写出「APPSO」。

Sora 的手部动作还算自然，但写出来的线条像吃了菌子，有自己的想法。

▲Sora 生成，提示词：俯视角度拍摄手在白色素描纸上书写「APPSO」，黑色笔画，流畅的书写动作，自然的手部移动，柔和打光，特写镜头

Runway 对得最多，但也没完全对，而且，除了最后那一笔，字母轨迹和手部动作没有默契配合，各管各的。

▲Runway 生成

至于可灵，写出一串乱码，但很难得，字母轨迹是跟着手部动作走的。

▲可灵生成

然后再来考考运动的流畅程度，同一场自行车比赛，Sora 的镜头和运动轨迹完全遵循了提示词，影子看起来也很真实。

▲Sora 生成，提示词：山地自行车手快速冲过连续起伏的泥土赛道，从最后一个跳台腾空而起，侧面镜头捕捉他在最高点的瞬间

Runway 的提示词只对了一半，自行车手没在开头出场，最后给了一个高光镜头。

▲Runway 生成

可灵和 Runway 恰好反过来，前半段表现得不错，但收尾出状况了，怎么多出来一个人？

▲可灵生成

该上难度了，拿出相对复杂的、自带镜头切换的提示词。

Sora 的画面色彩饱和，像调了色，但是男性好像是凭空出现的，AI 也没有按照要求，把镜头转向男性。

▲Sora 生成，提示词：阳光明媚的下午，星巴克风格的咖啡馆内，镜头首先对准一位面带微笑的年轻中国女性，随后转向一位说话时轻轻点头的年轻中国男性。他们相对而坐，木桌上放着两杯咖啡。自然光充满空间，营造温暖氛围

Runway 直接就从侧面拍，还原了两个人的神态，但没有体现镜头的运动，男性的手部也出了问题。

▲Runway 生成

可灵和 Runway 差不多，但略胜一筹，因为更像中国人，然而，这两个人同坐一桌，却谁也没看谁。

▲可灵生成

除了文生视频，图生视频也是视频生成的重头戏，而且相比文生视频，图生视频更实用，很多商业化交付的 AI 片子，基本都是图生视频，先在图片阶段尽量做到一致性。

然而，如果只是 20 美元的 Plus 用户，是不能在 Sora 上传包含人物的照片或者视频的。退而求其次，我们上传一张巫师猫的表情包，让猫猫挥舞手中的魔法棒，变出玫瑰花。

不知道为什么，Sora 的图生视频不起作用，猫压根没动，从右下角的 logo 才看出，这是非静止画面。

▲Sora 生成，提示词：猫猫挥动手中的魔法棒，变出了一朵红玫瑰

Runway 让猫猫右爪挥舞魔法棒，左爪变出玫瑰花，也算符合提示词的要求，但这个花不在一个图层啊。

▲Runway 生成

可灵的表现非常完美，效果最自然，做成 gif 就是又一张表情包。

▲可灵生成

试了动物，再试试空镜，我将之前用 AI 生成的一张工业废土风格图片，作为图生视频的材料。

Sora 生成的结果很难评价，视角是够低的，但镜头不是从侧面跟踪，画面切换也突兀。这就叫，我不该在车里，而是在车底。

▲Sora 生成，提示词：装甲车开过，轮胎扬起尘土碎屑，侧面跟踪镜头，低角度视角，慢动作，电影级质感

Runway 生成的最有内味，甚至车窗也跟着动起来了。

▲Runway 生成

可灵直接把镜头拉远了，和提示词基本没什么关系。

▲可灵生成

就那么几道题，三个 AI 没有一个是可以打满分的。当然，以上通通都是个例，不具有普遍的代表性，充其量只能提供一个测评的角度。

单论 Sora 的话，它在文生视频的写实风格上表现得不错，具有电影质感，物体运动对于提示词的遵循也还行，有时甚至比可灵和 Runway 表现得好。

但图生视频容易抓瞎，可能静止不动，可能不听镜头运动，整体性价比不算高。

▲Sora 生成，提示词：90 年代在上海拍摄的 35 毫米胶片短片，电影质感

「丐版」的模型，创新的产品

Sora 表现一般，可能因为，它是个「丐版」——和受 OpenAI 邀请的艺术家们不同，现在我们能用的是 turbo 版本，需要的算力更少，效果也就打了折扣。

模型不够，产品来凑，Sora 有一点让人服气——2 月官宣，12 月才发布，中间冒出很多竞品，但 Sora 仍然具备它们没有的功能。

不像 ChatGPT 一个对话框走天下，Sora 在交互界面和产品功能的设计上别出心裁。

其中，Sora 的故事板功能，类似首尾帧，但更灵活，我们可以在时间轴上添加多张卡片，卡片里可以是提示词，也可以是图片和视频，Sora 在卡片之间生成完整的视频。

于是，我写了两段提示词，1.日剧风格镜头，女高中生靠在天台栏杆旁，侧脸构图，温柔的午后光线打在脸上；2.她转头面向镜头露出微笑，温暖的打光突出表情。

生成的效果，很符合我的想象，发丝的飘动让人该死的心动。

▲ Sora 生成

AI 还做不到让人人都能当导演，但 Sora 让你体验一把设计分镜的感觉。不过，还是那句话，模型就这样，效果的好坏，非常随机，但 Sora 的积分，经不起抽卡。

我本想让 AI 模仿游戏 CG 的效果，主角迅速转身并拔枪，但最终，得到了一个表情呆滞的机器人。

▲Sora 生成

只在故事板放上一张图也可以，这样 Sora 会自动生成提示词，建议你这张图片怎么动。

于是，巫师猫终于可以动起来了。原来，图生视频的短板，是要在这里弥补啊。然而，效果也很难绷，有时候会生成一些多余的东西。

▲Sora 生成

另外，Sora 的 Remix（重绘）功能也很好玩，我们可以用自然语言编辑视频，改变视频中的元素，进行「二创」。

既可以用自己的视频，也可以在 Sora 的社区里借用他人的视频。

▲ 图片来自：Sora 社区@bpyser1

比如，我们可以把跳舞的真·纸片人换成男团，同时，把场景换成练习室。

纸人的动作和服饰都大致保留了，但人物的四肢还是不能细看。

▲Sora 生成

更好玩的来了，我们可以接着用 Blend（混合）功能，将两个视频合并成一个，Sora 会自动处理视频之间的过渡效果。

原来以为，可以出来一个丝滑的 MV 片段，毕竟这两个视频都这么相似了，但 AI 还是给了我惊喜，开头和结尾都很正常，中间的场面一度很混乱，你们到底几个人啊？

▲Sora 生成

总之，不追求出片率的话，Sora 很好玩，产品形态也很有意思，提供了一个全新的工作流，创新是有的，功能也是比较完整的。

但是，仅从目前来看，生成效果的进步空间较大，但给用户的探索次数又不足，20 美元只能浅尝辄止。有时候画面很漂亮，但运动处理得不好，也是白搭，「现实不存在了」还是一个遥远的梦想。

请欣赏，猫猫穿墙而过，原来在 AI 眼里，猫真的是液体。

▲Sora 生成，提示词：电影感十足的黑猫特写镜头，猫咪在故宫红色宫墙前优雅地跃起，画面以慢动作呈现，猫咪全身清晰可见，背景利用浅景深虚化处理，在跳跃最高点时金色的眼睛直视镜头。采用柔和的自然光线，传统的中式建筑墙面细节形成模糊的背景

Sora 的问题，其实也是很多 AI 视频产品的通病，没有真正靠谱的一刀流。模拟真实的世界？实现丝滑的运动？保持人物的一致？可以是可以，但有概率，抽卡和后期必不可少。

现在我们看的是肉眼可见的生成效果，而 AI 视频们集体改变的，是创作的方式。未来虽然可期，但是，Sora 请先把模型升级了吧。

张成晨

利若秋霜，辟除凶殃。工作邮箱：zhangchengchen@ifanr.com

邮箱 8

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

刚刚，OpenAI 王炸 Sora 正式上线！网站火到崩溃，奥特曼紧急关闭用户注册

10 December 2024 at 05:56

就在刚刚，OpenAI Sora 正式登场。

本次发布会延续了「短剧」的快节奏风格，全程 20 分钟左右，由 CEO Sam Altman、Sora 负责人 Bill Peebles 等人主持。

OpenAI 在 X 平台表示，自 2 月份以来，他们一直在构建 Sora Turbo，后者是一个速度明显更快的模型版本，今天也将其作为独立产品向 Plus 和 Pro 用户开放。

有趣的是，由于 Sora 热度太高，大批用户涌入体验网站，导致该网站一度崩溃，停止注册登录。不给力的服务也让 Altman 连连在 X 平台安抚用户：

「由于需求超出预期，我们将不得不间歇性地关闭新用户注册，并且生成内容的速度会在一段时间内减慢。我们正在全力以赴！」

附上体验地址：Sora.com

Sora 界面大揭晓，拥有 6 大神级功能，不用学剪辑了？

类似于 Midjourney 的网页界面，Sora 同样拥有自己单独的用户界面，用户用户不仅能够整理和浏览生成的视频，还能查看其他用户的提示和精选内容。

在「Library」功能中，用户可以保存自己喜欢或有用的提示词，以便未来使用。并且保存的提示词可以按需查看或修改，对于需要重复创作相似内容的用户，无疑能大大提高效率。

在工作流方面，Sora 的编辑功能是区别于其它竞品的重要亮点。

比如说，在 Remix 功能中，用户可以利用纯自然语言提示词对视频进行编辑，并通过简单的「strength（强度）」选项和滑块来控制生成的变化程度。

Re-cut 功能则能智能识别最佳画面，并支持向任意方向延伸场景。

Sora 的 Storyboard（故事板）功能则类似于视频编辑器，可以将多个提示词串联在一起，生成一个更长的视频，轻松处理复杂的多步骤场景。

搭配 Loop 和 Blend 功能，用户还能创作出无缝循环的视频，并完美融合不同片段，而 Style presets 功能则可以预设和调整生成的风格。

在技术规格上，Sora 支持 5-20 秒的视频生成，并兼容 1:1、9:16 等主流宽高比。相比早期版本，现在的生成速度有了显著提升。

另外，还有几点细节需要注意。

OpenAI 采用了灵活的积分制定价策略，积分数量因分辨率和持续时间而异，如果你早已是 ChatGPT Plus 和 Pro 会员，那就无需额外费用就能使用。

比如生成一个 480p、5s 的视频就需要 25 个积分，如果生成 480p、20s 的视频则需要 150 个积分。

此外，如果你用 Re-cut、Remix、Blend 或者 Loop 这些功能，生成的作品超过了 5 秒钟，那也得额外扣你的积分，多用多花钱，别超时，超时也花钱。

对于订阅用户而言，20 美元的 ChatGPT Plus 计划提供 50 个优先视频额度（1000积分），支持最高 720p 分辨率和 5 秒时长。

而 200 美元的 ChatGPT Pro 计划则提供最多 500 个优先视频（10000 个积分），支持 1080p 分辨率、20 秒时长、5 个并发生成和无水印输出。

OpenAI 还在为不同类型的用户开发不同的定价模式，将于明年初推出。

对了，Sora 暂不支持ChatGPT Team、Enterprise 和 Edu 版本，同时也不向 18 岁以下用户开放。现阶段，用户可以在所有 ChatGPT 可用的地方访问 Sora，但英国、瑞士和欧盟等地区除外。

实测 Sora 暴露最大短板，但这些场景堪比专业级

知名博主 Marques Brownlee 提前一周用上了 Sora，并在 YouTube 上分享了他的使用体验。

他指出这款产品仍存在一些局限性。

在物理模拟方面，模型对物体运动的理解还不够深入，常常出现动作不自然、物体突然消失等问题。特别是在处理带有腿部运动的对象时，经常出现前后腿位置混乱的情况，导致动作看起来不自然。

又或者，某些视频生成结果看起来像是慢动作，而视频的其他部分则以正常速度播放，肉眼很容易察觉这种「别扭」。简言之，Sora 还是没能解决老毛病，缺乏对物理世界规律的理解。

另外，Sora 没能解决文字生成的问题，导致经常出现文字混乱的现象，而剪辑风格、文字滚动条的运动、新闻主播风格的生成则格外逼真。

不过，Sora 也有不少擅长的场景。

比如说，Sora 在风景镜头处理方面表现出色，能生成媲美专业素材的无人机航拍镜头，在卡通和定格动画风格上的表现也差强人意。

性能方面，一个 5 秒的 360p 视频通常能在 20 秒内完成生成。

不过，当涉及 1080p 或复杂提示词时，生成时间可能会延长到几分钟，但随着如今大批用户的涌入，生成速度明显慢了大半拍。

不少网友也在第一时间上手体验了 Sora。比如网友 @bennash 想生成一个视频，渲染了 22 分钟都没能成功，甚至该网站一度停止注册登录。

博主 @nickfloats 给出的评价是，Sora 在将图像转换成视频时，虽然某些特定的视觉特效没有被保留，但整体的转换效果是「清晰和令人满意的」。

Sora 能成为 OpenAI 的下一只「金母鸡」吗？

Sora system card 也列出了一些值得关注的细节。

OpenAI 官方认为，Sora 为能够理解和模拟现实世界的模型提供了基础，将是实现通用人工智能（AGI）的一项重要里程碑。

官方博客中提到，Sora 是一种扩散模型，它通过从一段看起来像静态噪声的基础视频开始，逐步去除噪声并转变为最终的视频。通过同时处理多个帧，模型成功解决了一个难题：即使目标暂时脱离视野，也能确保其在视频中始终保持一致。

与 GPT 模型类似，Sora 采用了 Transformer 架构。

Sora 使用 DALL·E 3 中的标注技术，该技术为视觉训练数据生成高度描述性的标签。因此，模型能够更准确地根据用户的文本指令生成视频内容。

除了能够仅通过文本指令生成视频外，Sora 还能够从现有的静态图像生成视频，准确地将图像内容进行动画化，并注重细节。该模型还可以从现有的视频中扩展或填补缺失的帧。

为了确保安全地部署 Sora，OpenAI 基于 DALL·E 在 ChatGPT 和 API 部署中的安全经验，以及 OpenAI 其他产品（如 ChatGPT）的安全防护措施进行了强化。

未经他人许可使用他人肖像，并禁止描绘真实未成年人；
创建非法内容或侵犯知识产权的内容；
禁止生成有害内容，例如未经同意的亲密影像、用于欺凌、骚扰或诽谤的内容，或旨在传播暴力、仇恨或使他人痛苦的内容；
创建并传播用于欺诈、诈骗或误导他人的内容。

所有 Sora 生成的视频都带有 C2PA 元数据，这些元数据能够标识视频的来源是 Sora，从而提高透明度，并可用于验证其来源。

与此前凭借真实人像出圈的 Flux 不同，Sora 们对上传包含人物的内容设定了特别严格的审核标准，目前仅作为试点功能提供给少量早期测试者，并屏蔽含有裸露的内容。

大半年前，初试啼声的 Sora 赢得互联网一片喝彩。

然而，如果说一年前尚未还能对着一群演示 demo 空喊「现实不存在了」，那么在国内外各类视频模型的轮番洗礼之下，我们早已养刁的胃口很难再被同样的产品打动。

这种态度的转变源于一个简单的事实。

当 AI 要从「勉强可用」进化到「可堪大用」，用户的期待也随之升维，从「能否做到」跃迁至「做得多好」。

好在 Sora 并未在掌声中原地踏步，通过与艺术家的深度合作，他们在工作流程领域做出了显著的改进。Re-cut、Remix、Storyboard 等功能都相当实用。

甲乙方的存在决定了工作流中的沟通永远是刚需，AI 能做的是让这种沟通更有效率，Sora 的价值不在于它能做什么，而在于让创作者得以抽身于技术细节，真正回归创意的本质。

与此同时，上周引发热议的 200 美元 ChatGPT Pro 订阅计划，如今也有了更合理的价格锚点，该计划同样支持无限制访问 Sora，这种产品协同效应预计也将激发出远超预期的应用场景和商业价值。

放眼当下，用户的真金白银从不作假。

可灵 AI 交出千万级月流水的亮眼成绩单，这片蓝海的潜力已呼之欲出，对于仍在「烧钱」阶段的 OpenAI 来说，Sora 预计会成为继 ChatGPT 之后的另一个下金蛋的母鸡。

当 Sora 从「能用」「好用」，再到「妙用」，或许未来某一天，我们会发现，真正不存在的，不是现实，而是人类创造力的尽头。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博