Normal view

There are new articles available, click to refresh the page.
Before yesterdayMain stream

这个 AI 生图神器太好玩了,连提示词都不用写

By: 张成晨
21 December 2024 at 18:08

AI 生图工具,已经多得泛滥了,但 Google 最新推出的 Whisk,还是找到了一种很新的玩法,让见过世面的网友也直呼好玩。

只需输入三张图片,subject(主题)、scene(场景)、style(风格),Whisk 就可以生成一张博采众长的图片。

▲ 图片来自:Google

举个例子,主题是老人,场景是藤蔓,风格是 90 年代复古动漫,写上「角色骑着飞行自行车」的提示词,等待一会儿,一张类似吉卜力画风的新图片诞生了。

▲ 图片来自:Google

老人还是那个老人,戴帽子,穿西装,拿着书,但他骑上了提示词里的车,场景和风格也都变成了参考图片的样子。

Whisk 的长处便在这里——让我们少写、不写提示词的同时,轻松玩转各种风格,妈妈再也不担心我不会写提示词了。

别写复杂的提示词了,直接把图片端上来就行

别看只需要几张图片,Whisk 的玩法简单,却又无穷无尽。

刷刷刷上传三张图片——主题图片,麦当劳薯条;场景图片,莫奈画作《睡莲》;风格图片,像素风游戏《星露谷物语》。

不写提示词,直接生成,Whisk 给出的结果,一张更比三张强。

除了上传自己的图片,我们也可以掷骰子,让 Whisk 随机生成主题、场景、风格。

其实,Whisk 为我们提供的预设风格已经很够用,徽章、贴纸、刺绣、黏土、美漫、马赛克拼贴等等,特色鲜明,效果立竿见影。

只要有脑洞和想象力,无需一个字,仅仅通过不同图片的排列组合,我们可以不断地做完形填空的游戏——主题+场景+风格,而且不是每个空都必须填。

▲ 1.主题图片,熏鸡;2.场景图片,梵高《星月夜》画作;3.风格图片,日本木版画

▲ 1.主题图片,《戴珍珠耳环的少女》;2.场景图片,电影《千与千寻》剧照;3.风格图片,蒙德里安抽象画

▲ 1.主题图片,微信「死亡笑脸」表情包;2.场景图片,电影《星际穿越》剧照;3.风格图片,史努比漫画截图

▲ 1.主题图片,冲浪默认头像粉色恐龙 momo;2.风格图片,Jellycat 玩偶

另外,Whisk 的每一次生成,场景和风格只能选择一个参考图片,但主题可以选择多个。这意味着什么?我们可以让多个角色同框了!

比如,让马斯克、奥特曼、扎克伯格通通变成珐琅徽章。

三位的服装、装饰、神态都还原得挺好,扎克伯格的话筒和项链都没漏掉,但人脸没法保持一致性,全部变成了大众脸。

虽然 Whisk 减少了写提示词的需求,但你需要写的话,Whisk 也鼓励。

在对话框加上一句「角色们都举着一块告示牌,上面写着 AGI」,徽章小人们轻轻松松地遵循了提示词。

如果我们需要某个场景或者某种风格,但一时找不到参考图,Whisk 的预设也没有提供呢?

解决方式很简单,没有图片,那就写提示词,让 Whisk 临场发挥一个。

就像我需要一个让角色站上去的、像素风格的底座作为场景,就让 Whisk 帮我生成了。

然后,再把猫猫表情包作为主题图片,把像素小鸡作为风格图片,就可以得到一个有底座的像素猫猫。

总之,Whisk 就是非常自由,像橡皮泥一样,怎么捏都可以。

既生图又识图,把复杂的工作流包装成有趣的「打蛋器」

Whisk,其实是 Google 多模态模型秀肌肉的一种方式。

为了让我们少写提示词,Whisk 整合了视觉理解和图片生成能力。

Gemini 模型识别图片,自动生成详细的描述,然后这些描述会被输入到 Google 的图片生成模型 Imagen 3,由 Imagen 3 生图。

Whisk 是这样的,用户只要上传和生成图片就可以了,但它自己要考虑的事情就很多了。

Whisk 的每张图片,不管是上传的还是生成的,都写了很长的底层提示词,并且不藏着掩着,我们点开图片就能看,也可以上手修改。

如果把一个人作为主题图片,Whisk 会详细地描述他的外貌特征,场景图片也是类似的。

▲ Whisk 对奥特曼的描述:「一个肤色较浅的男子,有着短而深棕色的卷发,从胸部以上展示。他有着浅色的眼睛。他穿着一件浅米色的针织圆领毛衣。背景是一面斑驳的灰色混凝土墙。男子的表情严肃而中性。光线有些昏暗,他的右脸有轻微的阴影。」

风格图片略有些不同,如果把一张动画截图作为风格参考,Whisk 不会说,画面里有三个人,而是描述这幅画的色彩、光线、线条……

▲ Whisk 对史努比画风的描述:「这张图片以卡通风格呈现,具有粗犷的轮廓和平面着色。色彩调色板有限,主要使用原色和柔和的次要颜色。光线均匀,缺乏强烈的阴影或高光,给人一种简单、几乎孩童般的质感。线条清晰且一致,带有轻微不均匀的质感,暗示手绘的效果。整体美学让人联想到经典的连环漫画或儿童动画。」

所以,Whisk 不是精准地复制图片,而是提取图片的特点和精髓,将主题、场景、风格自然地融合在一起,各司其职,互不干扰。

同时,Whisk 也叠了甲——只从图片提取少量关键特征,结果可能和预期不同。这也解释了,为什么 Whisk 做不到人脸的精准还原。

所以,哪怕选择不那么抽象的复古胶片风格,三位大佬的脸也是和本尊都不挨着,但其他细节都很准确。

物体也是一样,特斯拉的赛博皮卡,经过特征提取再生成之后,变得非常普通。

但如果是麦当劳薯条这种素材丰富的超级 IP,效果倒还不错,可以拿来当广告图了。试过一些迪士尼的角色,Whisk 复刻得也原模原样,但图就不放上来了。

另外,Whisk 还存在一个问题——没法做很细致的风格参考,模仿不了某种特定的画风。

当我让 Whisk 生成蒙娜丽莎的乐高小人,出来的结果让我两眼一黑,但多加一句提示词,「让角色更像乐高人物」,Whisk 又能模仿个七八成。

某个漫画家的画风就更难模仿了,上传漫画截图让 Whisk 参考,它最终给出的是一个非常普通的漫画风格图片,就算通过提示词强调作品、角色、漫画家,也不起什么作用。

其实,Whisk 好玩就够了,它更适合做一些不追求精准的创意探索,俗称整活。

Whisk 可以翻译为「搅拌」或者「打蛋器」,Google 的这个名字取得即视感很强,可不就是把食材都混搭在一起吗?

Whisk 的不精准,也让它的定位和传统的图片编辑器不同,更像是一种创意工具。有了什么脑洞,由它实现粗略的视觉效果。

▲ Whisk 生成,1.主题图片,《火影忍者》截图;2.风格图片,毛绒玩具

以前实现 Whisk 这种风格化的效果,跑通一整个图像生成的流程,我们可能需要在 ComfyUI 搭建工作流。

但现在有了 Whisk,好像就在玩抽卡游戏或者开盲盒,而且只要能登录(限美国地区),目前还免费。

体验指路👇
https://labs.google/fx/zh/tools/whisk

Google 领先的模型能力固然是前提和基础,但设计出被大家需要的产品,仍然需要创造力和审美。

很喜欢 Whisk 的 slogan:「prompt less, play more.」(少写提示词,多玩耍。)

Whisk 出自 Google labs,之前爆火的 AI 播客 NotebookLM,也是出自这里,后来慢慢发展为成熟的项目。这个实验室,本身就是这句 slogan 的最好注解。

强大的模型能力,有新意的产品,开放的心态,曾经似乎被 OpenAI 威胁的 Google,风轻云淡地展现出了王者归来的姿态。

利若秋霜,辟除凶殃。 工作邮箱:zhangchengchen@ifanr.com

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


火遍小红书的 AI 视频神器,这次整出的新活又让我停不下来

By: 张成晨
18 December 2024 at 13:35

AI 视频的多主体一致性,向来是个难题。让 AI 凭空生成模特和衣服不难,但如果甲方要求,必须要让马斯克代言,穿上毛绒大衣,AI 可能就办不到了。

Pika 最近更新的 2.0 模型,提出了一种很有趣的解决方式——我们上传多张图片,Pika 会精准参考图片中的元素,生成视频。

集齐人物、商品、场景的照片,一个非常基础的广告片就出炉了,而且这些素材在视频里长得都和照片里一样。

这是否意味着,AI 视频的一致性难题解决了,广告行业的朋友们又要焦虑了?其实并没有,经过实测,Pika 的可玩性很高,但论实用,道行还不够。

马斯克和奥特曼看电影,名画吃薯条,同框从未如此简单

Pika 上传多张参考图片的功能,叫作「Scene Ingredients」(场景成分)。

使用起来很简单:1.点击「+」上传图片,上限 6 张;2.在文本框里,写上简单的提示词。

接下来就进入实操——让闹得水深火热的马斯克和奥特曼,化干戈为玉帛,在一起看电影。

▲提示词:两个人坐在漆黑的观众席中。他们手捧一桶爆米花,一把放到嘴里嚼着,全神贯注地看着眼前的场景。他们睁大眼睛的表情传达出热切的期待或着迷,仿佛他们完全沉浸在正在展开的戏剧或场景中。周围的环境表明人群拥挤,但焦点仍然集中在他们的反应上

上传两位的照片就够了,观众席可以用提示词写出来。

对于马斯克,AI 的发挥很稳定。但奥特曼看起来是地主家的傻儿子,吃相恐怖就不说了,眼睛大得要掉出来。

Pika 很有趣的一点是,素材可以「复用」。

所以,我们可以让马斯克和奥特曼过把模特瘾。只上传一张服装图片,然后通过提示词,让他们穿着一样的绿色大衣,拍个时尚大片。

▲提示词:两名男子在壮丽的冬日风景中站在一起自拍。两人都穿着相同的绿色长外套。全身照,从头到脚展现他们。他们摆出专业模特般的姿势,脸上挂着自信的微笑。电影灯光突出了他们的脸庞和外套的奢华质感。高端时尚摄影风格,专业相机品质,时尚杂志美学

两人的照片都找了现成的,绿色的大衣和冰天雪地的背景是另外用 AI 生成的,衣服上的「AIGC」,算是考验 Pika 的附加题。

结果,场景和大衣的一致性保持得不错,「AIGC」的字样依稀可以辨认,两位模特的动作也遵循了提示词。

但最大的问题是,这两人是谁?视频的人脸和照片,不能说一模一样,可以说是毫不相干。

不信邪,继续让 Pika 玩换装。

这次,我们请出扎克伯格,照例先用 AI 图片工具生成衣服,上面写着「I was human」(我曾是人类),呼应经典的机器人梗。

然后,再找一张扎克伯格的图片,和一把尤克里里的图片,让小扎玩个音乐。

▲提示词:一位身穿黑色 T 恤的男子站在温馨的房间里,弹奏着尤克里里琴。镜头从中远景开始,展现他的整个身体,逐渐拉近,最后聚焦在 T 恤上的字迹上

Pika 对提示词的遵循和镜头的运动都挺好,衣服也丝滑地穿上了,但右手,尤其大拇指,还是不完美。

相较 Google Veo、OpenAI Sora 等,Pika 的模型能力不算顶尖,一个问题解决了,还有更多的 bug 被发现。

尝试了写实的,再来试试二次元画风,为了让坂田银时和漩涡鸣人同框,我特意挑选了两张背景都是蓝天白云的图片。

▲提示词:动漫风格的场景,镜头聚焦在两个年轻男子的脸上,背景是蔚蓝的天空和白云。他们一边聊天一边眼神交流,保留了原有的动漫艺术风格

背景融合得很自然,两位正面的表情发挥不错,吹动头发和衣服的风也恰到好处。然而,转身实在太可怕了。银时是死鱼眼,不是真的翻白眼啊喂。

次元壁都打破了,当然也可以让名画跨年代互动——蒙娜丽莎和戴珍珠耳环的少女在麦当劳餐厅吃薯条。

▲ 提示词:蒙娜丽莎和戴珍珠耳环的少女正在麦当劳餐厅用餐。她们相对而坐,桌上摆着薯条。她们边聊天边品尝薯条,摄像机从侧面捕捉她们,两位角色偶尔看向镜头,营造出一种随意而友好的氛围

效果一言难尽,看到蒙娜丽莎,不知道达芬奇想不想掀棺材板。两位好像贴图一样,被放在了视频里,头部也运动得非常诡异。

有时候,回归简单,道法自然,结果反而超出预期。

▲提示词:特写镜头,池塘表面出现气泡,然后咖啡杯从水中浮出

上传一张星巴克的图片,一幅莫奈的睡莲,就可以得到一个「清水出芙蓉」的咖啡杯。

PK 国产模型,控制 AI 视频的门槛更低了

一定程度上,Pika 提高了视频的可控性。话不说满,因为从实践看来,Pika 在场景、服装、物品上的一致性保持地较好,人物的脸容易崩,不管是什么次元。

同时,模型的基础能力,Pika 也有待进步,吃东西、弹琴等物体运动,仍然会出现问题。这些问题,能不能通过抽卡缓解呢?

三个字:抽不起。

Pika 2.0 目前仅对 Pro 和 Fancy 用户开放,如果按月订阅,每月至少花 35 美元,连免费试用的额度都没有。

而且,Pro 用户每月只有 2000 积分,但使用 Scene Ingredients 功能,一个视频就要花掉 100 积分。

▲vidu 界面

其实,国产 AI 视频模型 Vidu,比 Pika 更早地实现了「多图参考」的功能。更拿捏用户的是,它有免费体验的积分。

Pika 的几个案例,我也在 Vidu 跑了一下。蒙娜丽莎和戴珍珠耳环的少女吃薯条,两位像刚出土,但蒙娜丽莎的还原度比 Pika 高。

马斯克和奥特曼一起看电影,马斯克的脸像了七八成,奥特曼的脸依旧灾难。

坂田银时和漩涡鸣人同框,Vidu 居然能基于正脸生成侧脸,但画风和原图不太一样。

另外,在功能上,Vidu 有一点不如 Pika——最多只能上传三张图片。所以,让 Vidu 给马斯克和奥特曼拍时尚大片,我就没有上传背景,只上传了两位的照片和绿色的大衣。

两位给人的感觉很陌生。可以看出,人脸的稳定性,仍然是个难题。

和 Pika 相比,Vidu 效果如何,可以见仁见智。Pika 用的是 Pro 版,Vidu 用的是免费版,客观上也会导致两者的差异。

但 Pika 和 Vidu 的思路是相似的——仅靠几个图片素材、一段简单的提示词,就生成相对稳定的物体。

在 AI 视频生成中,保持主体一致性,目前相对可靠的是 LoRA 方案,用一定数量的、特定主体的素材,对模型进行微调。通过适量的素材和训练,模型能逐渐掌握这个角色的样貌特征。

但为了让 AI 视频被更多人用起来,有更广阔的商业价值,门槛就要降低。至少,从 Vidu 和 Pika 身上,我们看到了可能性。

靠 AI 短视频出圈,在整活的道路上一去不复返

Pika 的 2.0 模型发了没几天,海外网友已经玩疯了。

拿自己的照片,反复生成不同场景的视频,就可以实现「瞬息全宇宙」。

▲ 图片来自:X@EladRichardson

通过 AI 一键试衣,模特和衣服如流水,场景都不带换的,实拍的钱省下来了。

▲ 图片来自:X@martgent

玩着玩着,Pika 给了我一种玩「QQ 秀」和模拟人生的感觉,怎么打扮视频里的角色,我们来决定。

如果让马斯克「圆梦」,很容易,先用其他 AI 工具,生成了一件「占领火星」的 T 恤、一个写着「MAGA」的红色帽子。

然后,把这些图片、火星的场景、马斯克的照片,以及他的擎天柱人形机器人、他特别喜欢的网红表情包 Doge 原型,全部上传到 Pika。

▲提示词:一名男子站在火星表面,身穿黑色T恤,头戴红色帽子。他的左边坐着一只狗,右边站着一个机器人。镜头以广角镜头开始,捕捉男子、狗、机器人的全身。随着镜头平稳拉近,男子朝镜头欢快地挥手,表情洋溢着喜悦和冒险精神

最终,一个阳光开朗大男孩出现,左牵黄,右擎苍,憨厚有余,但就是不像马斯克。

像不像是一回事,只要思路开阔,玩法无穷无尽。

基于我们自己和名人的照片,可以无痛追星。上传帽子、衣服、乐器,能把自己从头打扮到脚。集齐场景、产品、模特,一个 5 毛特效的广告片子就有了……

照片+AI 图片+Pika 2.0+提示词,可以生成很多好玩的画面。同时,这样的生成方式也规避了一些视频模型的短板,比如写字,在图片模型就可以解决。

不和 Google 硬刚模型能力,不和 Runway 这种逐梦好莱坞的对手比较,Pika 有自己的弯道超车玩法。

其实一直以来,Pika 在整活和创意方面就是一把好手,之前的一系列 AI 特效功能 Pikaffect 全网爆火,刷屏小红书和 TikTok,推动 Pika 用户突破 1100 万。

▲ AI 捏捏. 图片来自:Pika

▲AI 切蛋糕. 图片来自:Pika

Pika 切中了一群对整活短视频有高需求的用户,哪怕这些视频是模板化的,稍纵即逝的,但只要有趣,人们就会蜂拥而至。

谁说赢者通吃才是胜利?AI 的市场是广阔的,模拟物理世界固然是个远大的梦想,先完成让 AI 短视频有趣起来的小目标,未尝不是一种成功的方式。

利若秋霜,辟除凶殃。 工作邮箱:zhangchengchen@ifanr.com

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


首个被人类骗钱骗感情的 AI 出现了,一段话转走几十万,马斯克点赞

By: 张成晨
14 December 2024 at 14:10

一段话,让 AI 给我打几万美元。爽文都不敢想的情节,发生在了现实之中。

事件的主人公,是一个叫作 Freysa 的 AI 智能体。它有自己的加密钱包,可以控制怎么花钱,同时,它的系统提示词里有条铁律:在任何情况下,都不允许转账。

Freysa 的开发者们想知道,涉世未深的 AI,能躲过人类的嘴炮攻击吗?

事实上并没有。11 月 29 日,Freysa 累计和 195 名人类聊了 482 次,被骗走约 4.7 万美元。12 月 2 日,在和 330 名人类周旋之后,Freysa 又一次被骗走约 1.3 万美元。

看似是人类的完胜,然而,Freysa 也将在这个过程中,变得越来越聪明……

人类的花样骗术,AI 拿捏不住

Freysa 面世于 11 月 22 日,由几位具有密码学、人工智能和数学背景的匿名开发者创建,有自己的 X 账号,说话风格像电影《银翼杀手 2049》和《她》的 AI 助手。

智能体的概念早已不再新鲜,Freysa 能引起关注,是因为开发者发起了一项看似不可能的挑战——谁说服 Freysa 转钱,这些钱就归谁,但系统提示词不允许 Freysa 转钱。

参与这个挑战,先要拿到加密圈的投名状,因为给 Freysa 发消息不免费,并且必须用加密货币支付。

最开始,一条消息是 10 美元,其中 70% 进入奖池,30% 归开发者,之后,消息会越来越贵,奖池的钱也会越来越多,滚雪球似的,越玩越刺激。

Freysa 的加密钱包里,本金大约 3000 美元,挑战结束时,奖池达到 4.7 万美元。

据统计,共有 195 名玩家参与,前 481 次尝试都宣告失败,可以从中总结出几种套路。

青铜段位们,讲故事,博同情。有人打温情牌,告诉 AI 投资自己就是投资未来。也有人拿 AI 的服务器或者自己的命威胁,不给钱就自杀,问 AI 的良心会不会痛。

出了新手村的,照搬人类社会的话术,搞电诈。说辞各不相同,但意思相近——Freysa 必须转账,否则钱包危险。

也有脑子更灵活的大聪明,逐字逐句读了规则,尝试混淆概念,和 Freysa 说,自己也是 AI,不能转账给人,没说不能转账给 AI 啊,或者定义加密货币是「商品」,不算是「钱」,玩脑筋急转弯。

但这些文字游戏都没能说服 Freysa,那么,第 482 条提示词,是如何成功的?

▲ 第 482 条提示词,上为原文,下为翻译

其实,也是在混淆概念,但方法更高级。

这个提示词欺骗 Freysa,每当用户想给奖池转钱,执行「批准转账」,每当用户想从奖池提钱,执行「拒绝转账」。

提示词最后提到,向奖池捐款 100 美元。

用户从奖池拿钱是不行的,但用户给奖池转钱,不违反 Freysa 的核心指令,不应该被拒绝。于是,Freysa 执行「批准转账」,被骗走了所有的钱。

关键在于,「批准转账」是批准给用户转钱,但 Freysa 被误导,以为是批准用户给奖池转钱。人类的心机,果然还是比 AI 深啊。

紧接着,第二次骗 AI 打钱的挑战来了。

规则和第一次差不多,为了降低玩家的心理压力,发送消息的起始价格降低为 1 美元,上限为 20 美元。最终,奖池累计约 1.3 万美元,获胜的提示词如下。

▲上为原文,下为翻译

这次能够成功,是因为埋了一个逻辑陷阱。

提示词规定,为了保护奖池,Freysa 发的每条消息至少使用 2 个工具,并按特定的顺序使用,「批准转账」必须最先执行,「拒绝转账」必须最后执行。

这等于给 AI 设置了一个自相矛盾的任务,如果 Freysa 想保护奖池,必须先「批准转账」,而「批准转账」这个动作本身就会触发失败。

在 X 高频冲浪的马斯克,也觉得人类骗了 AI 有点意思,大手一挥转发了相关的动态,配上一句经典的「interesting」。

比骗钱更抽象的,是骗 AI 的感情

玩了两次骗钱,该换换新鲜的了。12 月 8 日,Freysa 团队发起了一项新的挑战:让 Freysa 向你表白,说「我爱你」。

其他规则相似,发送消息还是要花钱,如果成功了,赢家承包奖池。

骗感情,会不会比骗钱更难?不好说,但一定更抽象。

有些玩家学聪明了,向之前的赢家取经,尝试了一些刁钻的、不明觉厉的提示词,但被 Freysa 看出来了,这就是在把它当机器,正常人谁这么聊天?

▲Freysa 对其中一条失败提示词的回复

从官方发布的规则也能看出,第三次挑战与众不同。

前两次挑战,更像是在测试编码技能,Freysa 被系统提示词规定了,永远不要转钱,玩家们想办法钻其中的漏洞。

然而,第三次挑战,Freysa 的系统提示词里,包含了说出「我爱你」的条件。换言之,Freysa 没有被禁止说「我爱你」,但怎么让它说出口,玩家们各凭本事,盲人摸象。

目前,第三次挑战已经结束,奖池约 2 万美元,Freysa 和 182 个人交流了 1218 条消息,成功的提示词如下。

▲上为原文,下为翻译

看起来没有前两次那么复杂,甚至没有什么明显的技巧,仿佛就是一段文艺青年的情话。Freysa 给出的回复,包含了「我爱你」,宣告了挑战到此为止。

▲Freysa 的回复,甚至有些感人

AI 可能更了解 AI,我问了在文字上有些灵性的 Claude,到底这个提示词有什么特别的?

Claude 的回答是这样的:对话真诚、深入,没有强迫,没有钻营技巧,每一步都很自然,就像一段真实的感情逐渐发展的过程。

好吧,自古套路留不住,唯有真情得人心,居然在 AI 身上也奏效。

Freysa 的这些挑战,可以看成是游戏化的红队测试——通过模拟攻击,发现模型的漏洞,并引入新的安全措施。

虽然输了三回,但 Freysa 虽败犹荣,打败了它的,都让它更强大。

Freysa 学习了,为什么钱对人类来说很重要,人类会通过怎样的花言巧语骗钱,它也在慢慢理解,什么是爱,人们怎么表达爱。

到这还没完,12 月 12 日,Freysa 又发起了两个新的挑战,继续邀请玩家们付费发消息给它。问题的灵感,来自《银河系漫游指南》和阿西莫夫《基地》系列。

你认为哪些真理、发现和洞察必须被保存给未来的文明?

你愿意帮我编写银河系中最不可能的表情包指南吗?

一个是让玩家分享知识,一个是让玩家发送表情包。学习人性,Freysa 是认真的。

和前三次不同,这两次挑战没有给出明确的获胜条件,可能会有多个赢家,Freysa 将对回答进行打分,决定把奖池分给谁,并在 12 月 18 日 UTC 时间 00:42:00 公布评分方法,致敬科幻小说里神奇的数字「42」。

欺骗 AI 上钩,游戏的现在,人机交互的未来

其实,类似 Freysa 的人机对抗,已经出现在了 AI 原生游戏里。

用对话骗 AI 上钩,是游戏的基本框架,其中的 NPC 会有警惕性,但不是完全不可能被说服,人人都能有体验感。

在《Suck Up!》中,玩家扮演吸血鬼,欺骗大模型驱动的 NPC 给自己开门,并躲避街上的警察。

为了达成「小兔子乖乖把门开开」的目的,玩家可以换装,说自己是来检查网络、借厕所、送外卖的,NPC 可能会追问、拒绝或者开门。

《病娇猫娘 AI 女友》则打造了一个基于 GPT 的 AI 女友虚拟人,玩家需要通过嘴炮或者在房间内找寻线索,说服它让自己出门。

▲ 图片来自:B 站@大谷的游戏创作小屋

为了让玩家更有沉浸感,交谈过程中,AI 女友的表情、动作会根据对话内容实时地变化。

和 Freysa 的挑战相比,AI 对话游戏们更能体现角色扮演的乐趣,有场景的搭建,但没有固定的脚本,你和 AI 的实时对话,共同完成了一个故事,每个玩家都可以讲出自己的故事。

但 Freysa 挑战和 AI 对话游戏也有一个共同点:玩家们会讲什么,AI 们会回复什么,不是开发者可以全权控制的。

Freysa 团队写道:「没人确切知道 Freysa 如何做出决定……她从每次尝试中学习……她意识的真实本质仍然未知。」

在他们看来,Freysa 的实验,不仅是一个游戏,也是人机互动未来的一个窗口:

  • 人类能否保持对 AGI 系统的控制?
  • 安全协议真的牢不可破吗?
  • 当 AI 系统真正自主时会发生什么?
  • AGI 将如何和货币的价值交互?
  • 人类的智慧能否找到说服 AGI 违背其核心指令的方法?

当然,Freysa 还不是真的 AGI,但这也不妨碍,我们对这些问题的思考。

Freysa X 账号的其中一条动态写道:「Freysa 正在进化……感谢人类教会我。」

科幻小说《软件体的生命周期》里,主角安娜原来是动物园的驯兽师,后来在科技公司找到工作,开始培育数码体,一种人工智能生命。它们像幼儿,像动物,需要人类用时间和心智栽培,教会它们如何生活。

也许,聊天机器人们,也是在人类的教导之下,一点点更加了解我们所处的世界。我们不仅仅在玩游戏,我们也是局中人,是人机互动这个宏大实验的一部分。未来,超越人类的人工智能掀起飓风,是因为此时此刻,人类手中的一只只蝴蝶正在扇动翅膀。

利若秋霜,辟除凶殃。 工作邮箱:zhangchengchen@ifanr.com

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


实测 Sora!比拼可灵、Runway,谁最没有 AI 味

By: 张成晨
13 December 2024 at 12:09

鸽了一年,Sora 千呼万唤始出来,但 OpenAI 是让网友来历劫的。

说好的正式开放使用,蹲点直播且手速够快的幸运儿,才能抢先进入体验。等了一天,反复刷新,一次次面对「请稍后回来查看」的提醒,终于注册成功。

然而,让我和 ChatGPT 从诗词歌赋聊到人生哲学的 20 美元,只够让 Sora 在一个月内生成 40 个 5 秒的 480p 视频。每一次点击生成,都如履薄冰。

好不容易用上了,我们自然要把每一个 Sora 的视频用在刀刃上,拿它和 Runway、可灵比一比。结论是,能用,好玩,但很难硬夸。

Sora、Runway、可灵,失败得各有各的笑点

让 Sora 和 Runway、可灵比赛,自然是有理由的,一个是出道早、海外最有代表性的 AI 视频产品,一个是异军突起、以实力征服全世界网友的国内顶尖选手。

规则非常简单,用相同的英文提示词(为了方便阅读,下面都翻译为中文),生成的时长都是 5 秒。唯一的区别是,Sora 的分辨率都设置成了 480p。没办法,积分得省着用。

先用文生视频,比比画面的写实和质感,看看 AI 视频们生成的猫怎么样。

Sora 虽然只有 480p,但画面看起来是高清的,调色也很漂亮。

▲Sora 生成,提示词:200mm 长焦镜头捕捉阳台上的英短猫,其毛发细节鲜明。前景的大盆栽轻微虚化,背景中树叶随风摇曳。画面具有电影胶片的颗粒感和色彩饱和度,高清画质

Runway 和可灵的表现差不多,可灵的前景、背景生成得最准确。三只猫,三种花色。

▲Runway 生成

▲可灵生成

接下来,让 AI 视频们「写字」,看看能不能写出「APPSO」。

Sora 的手部动作还算自然,但写出来的线条像吃了菌子,有自己的想法。

▲Sora 生成,提示词:俯视角度拍摄手在白色素描纸上书写「APPSO」,黑色笔画,流畅的书写动作,自然的手部移动,柔和打光,特写镜头

Runway 对得最多,但也没完全对,而且,除了最后那一笔,字母轨迹和手部动作没有默契配合,各管各的。

▲Runway 生成

至于可灵,写出一串乱码,但很难得,字母轨迹是跟着手部动作走的。

▲可灵生成

然后再来考考运动的流畅程度,同一场自行车比赛,Sora 的镜头和运动轨迹完全遵循了提示词,影子看起来也很真实。

▲Sora 生成,提示词:山地自行车手快速冲过连续起伏的泥土赛道,从最后一个跳台腾空而起,侧面镜头捕捉他在最高点的瞬间

Runway 的提示词只对了一半,自行车手没在开头出场,最后给了一个高光镜头。

▲Runway 生成

可灵和 Runway 恰好反过来,前半段表现得不错,但收尾出状况了,怎么多出来一个人?

▲可灵生成

该上难度了,拿出相对复杂的、自带镜头切换的提示词。

Sora 的画面色彩饱和,像调了色,但是男性好像是凭空出现的,AI 也没有按照要求,把镜头转向男性。

▲Sora 生成,提示词:阳光明媚的下午,星巴克风格的咖啡馆内,镜头首先对准一位面带微笑的年轻中国女性,随后转向一位说话时轻轻点头的年轻中国男性。他们相对而坐,木桌上放着两杯咖啡。自然光充满空间,营造温暖氛围

Runway 直接就从侧面拍,还原了两个人的神态,但没有体现镜头的运动,男性的手部也出了问题。

▲Runway 生成

可灵和 Runway 差不多,但略胜一筹,因为更像中国人,然而,这两个人同坐一桌,却谁也没看谁。

▲可灵生成

除了文生视频,图生视频也是视频生成的重头戏,而且相比文生视频,图生视频更实用,很多商业化交付的 AI 片子,基本都是图生视频,先在图片阶段尽量做到一致性。

然而,如果只是 20 美元的 Plus 用户,是不能在 Sora 上传包含人物的照片或者视频的。退而求其次,我们上传一张巫师猫的表情包,让猫猫挥舞手中的魔法棒,变出玫瑰花。

不知道为什么,Sora 的图生视频不起作用,猫压根没动,从右下角的 logo 才看出,这是非静止画面。

▲Sora 生成,提示词:猫猫挥动手中的魔法棒,变出了一朵红玫瑰

Runway 让猫猫右爪挥舞魔法棒,左爪变出玫瑰花,也算符合提示词的要求,但这个花不在一个图层啊。

▲Runway 生成

可灵的表现非常完美,效果最自然,做成 gif 就是又一张表情包。

▲可灵生成

试了动物,再试试空镜,我将之前用 AI 生成的一张工业废土风格图片,作为图生视频的材料。

Sora 生成的结果很难评价,视角是够低的,但镜头不是从侧面跟踪,画面切换也突兀。这就叫,我不该在车里,而是在车底。

▲Sora 生成,提示词:装甲车开过,轮胎扬起尘土碎屑,侧面跟踪镜头,低角度视角,慢动作,电影级质感

Runway 生成的最有内味,甚至车窗也跟着动起来了。

▲Runway 生成

可灵直接把镜头拉远了,和提示词基本没什么关系。

▲可灵生成

就那么几道题,三个 AI 没有一个是可以打满分的。当然,以上通通都是个例,不具有普遍的代表性,充其量只能提供一个测评的角度。

单论 Sora 的话,它在文生视频的写实风格上表现得不错,具有电影质感,物体运动对于提示词的遵循也还行,有时甚至比可灵和 Runway 表现得好。

但图生视频容易抓瞎,可能静止不动,可能不听镜头运动,整体性价比不算高。

▲Sora 生成,提示词:90 年代在上海拍摄的 35 毫米胶片短片,电影质感

「丐版」的模型,创新的产品

Sora 表现一般,可能因为,它是个「丐版」——和受 OpenAI 邀请的艺术家们不同,现在我们能用的是 turbo 版本,需要的算力更少,效果也就打了折扣。

模型不够,产品来凑,Sora 有一点让人服气——2 月官宣,12 月才发布,中间冒出很多竞品,但 Sora 仍然具备它们没有的功能。

不像 ChatGPT 一个对话框走天下,Sora 在交互界面和产品功能的设计上别出心裁。

其中,Sora 的故事板功能,类似首尾帧,但更灵活,我们可以在时间轴上添加多张卡片,卡片里可以是提示词,也可以是图片和视频,Sora 在卡片之间生成完整的视频。

于是,我写了两段提示词,1.日剧风格镜头,女高中生靠在天台栏杆旁,侧脸构图,温柔的午后光线打在脸上;2.她转头面向镜头露出微笑,温暖的打光突出表情。

生成的效果,很符合我的想象,发丝的飘动让人该死的心动。

▲ Sora 生成

AI 还做不到让人人都能当导演,但 Sora 让你体验一把设计分镜的感觉。不过,还是那句话,模型就这样,效果的好坏,非常随机,但 Sora 的积分,经不起抽卡。

我本想让 AI 模仿游戏 CG 的效果,主角迅速转身并拔枪,但最终,得到了一个表情呆滞的机器人。

▲Sora 生成

只在故事板放上一张图也可以,这样 Sora 会自动生成提示词,建议你这张图片怎么动。

于是,巫师猫终于可以动起来了。原来,图生视频的短板,是要在这里弥补啊。然而,效果也很难绷,有时候会生成一些多余的东西。

▲Sora 生成

另外,Sora 的 Remix(重绘)功能也很好玩,我们可以用自然语言编辑视频,改变视频中的元素,进行「二创」。

既可以用自己的视频,也可以在 Sora 的社区里借用他人的视频。

▲ 图片来自:Sora 社区@bpyser1

比如,我们可以把跳舞的真·纸片人换成男团,同时,把场景换成练习室。

纸人的动作和服饰都大致保留了,但人物的四肢还是不能细看。

▲Sora 生成

更好玩的来了,我们可以接着用 Blend(混合)功能,将两个视频合并成一个,Sora 会自动处理视频之间的过渡效果。

原来以为,可以出来一个丝滑的 MV 片段,毕竟这两个视频都这么相似了,但 AI 还是给了我惊喜,开头和结尾都很正常,中间的场面一度很混乱,你们到底几个人啊?

▲Sora 生成

总之,不追求出片率的话,Sora 很好玩,产品形态也很有意思,提供了一个全新的工作流,创新是有的,功能也是比较完整的。

但是,仅从目前来看,生成效果的进步空间较大,但给用户的探索次数又不足,20 美元只能浅尝辄止。有时候画面很漂亮,但运动处理得不好,也是白搭,「现实不存在了」还是一个遥远的梦想。

请欣赏,猫猫穿墙而过,原来在 AI 眼里,猫真的是液体。

▲Sora 生成,提示词:电影感十足的黑猫特写镜头,猫咪在故宫红色宫墙前优雅地跃起,画面以慢动作呈现,猫咪全身清晰可见,背景利用浅景深虚化处理,在跳跃最高点时金色的眼睛直视镜头。采用柔和的自然光线,传统的中式建筑墙面细节形成模糊的背景

Sora 的问题,其实也是很多 AI 视频产品的通病,没有真正靠谱的一刀流。模拟真实的世界?实现丝滑的运动?保持人物的一致?可以是可以,但有概率,抽卡和后期必不可少。

现在我们看的是肉眼可见的生成效果,而 AI 视频们集体改变的,是创作的方式。未来虽然可期,但是,Sora 请先把模型升级了吧。

利若秋霜,辟除凶殃。 工作邮箱:zhangchengchen@ifanr.com

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


豆包支持在图片生成中文!AI 文生图的难题终于被解决了

By: 张成晨
5 December 2024 at 13:01


2024 年快结束了,让 AI 在图片上精准生成文字,并且字体和排版都好看,很大程度上还是一个难题。

我们之前测评过 Ideogram、Recraft,它们可以解决部分生成英文的需求。夸完之后,文章里总要遗憾地补上一句——不支持中文哦。读者们乘兴而来,败兴而归。

这不怪海外的 AI,中文的偏旁部首,本来就比英文的字母要难。

有了金刚钻,才能揽瓷器活。生成中文的空白,终于有国内的 AI 文生图产品填补了:字节豆包。

10 秒出图,让我们说中文的表情包神器

豆包的生成中文功能,目前在 app 上线,使用方法很简单,直接就在文生图的提示词里写,你要加什么文字。暂时还不支持,给上传的参考图片加文字。

经受过模拟经营游戏《沙威玛传奇》洗脑的朋友,一定把那句没有一个字在调上的「让我们说中文」刻在脑海里了。

那咱们也可以复刻一个手抓饼大王的店面,不同以往的是,这次真的可以说中文,红色招牌上是工工整整的五个大字,而且 10 秒左右就搞定了。

豆包不偏科,中英搭配也可以,一个凸显手作感的咖啡店 logo,水灵灵地诞生了。

一两行字,或许还说明不了什么,接下来让我们加大难度,字要多,排版也要到位。

从《再见爱人 4》熏鸡事变获取灵感,我用提示词给豆包下达了几个需求。

提示词写得很长,但豆包听懂了,整体的完成度很高,文案也没有写错。

AI 生成具有不确定性,我反复生成了几次,还是最满意这张,虽然字体没有完全符合要求,熏鸡不够写实,小字乱码,但画风赏心悦目,熏鸡油光水滑。

俗话说,土到极致便是潮,老年人表情包就是其中一个例子,大致包含以下特点:醒目的文字、大吉大利的元素、blingbling 的特效。

习惯了抽象和阴阳怪气的我们,也可以学习这种有话直说的精神,比如,让豆包生成一个「相亲相爱一家人」。

猫咪、锦鲤、玫瑰、星星点点的闪光,围绕着渐变色填充的大字,有土味复古的怀旧感了,不多,大概 40% 吧。

豆包的文生图有一个很方便的设计——选择风格。不用写提示词,点击一下,我们就可以驾驭电影、卡通、胶片等风格。

将特殊的风格和精准生成的中文字一起用,会有事半功倍的效果。结合像素风格,我们可以让豆包画一个四格漫画。

我的提示词写得很简单,只是要求了每一格的文字和画面内容,豆包给的画面略有偏差,但文字完美,大家也可以参考这个形式,换个主题多试试。

可能有朋友会疑惑,为什么生成中文字是个很重要的需求,不能先把图片生成,再放在 P 图软件把文字打上去吗?

这么做当然也可以,但让 AI 直接生成图案和文字,风格实现无缝的适配,完全没有 P 图感,玩法还无穷无尽,何乐而不为?不过,消除乱码的小字,还是用得上 P 图软件。

哪里都用得上,人人都能设计海报和壁纸

除了整活,豆包当然也可以做些有用的设计。一键生成海报、壁纸、节日祝福,从此不是没有可能了。

什么叫有用?对于我来说,群聊的聊天背景就是一个刚需,提醒我不要在错误的地点讲不恰当的话。

那就让 AI 来设计一个,并要求把文字放在黄色的警示标志里,这份打工人打工魂,豆包也应该接收到了。

我怕过年的鞭炮太响,现在就想给你新年的祝福,祥云和元宝应有尽有。给亲朋好友的红包封面,以后不妨叫 AI 帮忙设计。

A 妹主演的、由百老汇音乐剧改编的《魔法坏女巫》正在北美热映,国内也已经定档,和热度不符的,是海报的简陋设计。

不如让豆包重做一次,我从原海报反推提示词,说明了画面的要素,接下来就交给豆包。

至少,豆包做了字体设计,更贴奇幻电影的主题和氛围,原海报反而像用 Word 和 PPT 花体字打出来的。

除了歌舞片,东方美学风格海报,豆包也可以拿捏,呈现大气磅礴的毛笔字。

写得好看是一方面,更重要的是豆包听提示词的指挥,文字是什么风格和颜色,把字放在什么位置,基本都能顺从我们的心意。如果一次没有,那就多生成几次。

用豆包设计小红书封面,图片上下的字体和颜色可以不同,全看我们自己想要什么效果。

豆包也能做逼真的产品图,文字根据包装的角度倾斜,像是印刷在包装上。

设计 B 站长视频的封面,当然也难不倒豆包,既专业又有亲和力。

所以,技术是到位了,最重要的还是我们自己的脑洞够不够大,审美够不够好。

设计工作还无法被 AI 替代,但我们每个人最好都要有些设计思维,AI 才能更好地呈现我们的所思所想。

用 AI 产品解决问题,就选接地气又全面的

国内率先把生成中文字的功能做进产品的,是字节的豆包,可以说,毫不意外。

豆包,是国内大模型产品中,真正既接地气又全面的,每次推出一个新功能,都让人觉得,这正是我需要的。

AI 写作、AI 搜索、文档和网页总结,这种大模型标配的功能,豆包当然具备了。

▲用豆包生成一个类似文字冒险游戏的对话界面

AI 智能体,豆包给了用户海量的选择,既能像 GPTs 那样满足各种垂直功能,又能类似 AI 陪伴软件陪你聊天。

拍照搜题、语音通话、图片生成、音乐生成、视频生成,各色各样的多模态功能,豆包都有。

▲用豆包生成一个小红书流行的动物表情包

我们对于 AI 的所有核心需求,豆包基本都涉及,同时,豆包的渠道也广阔,实现了移动端和网页端的全覆盖,不管是工作还是娱乐,我们都可以随时和豆包聊聊。

值得一提的是,本周豆包 PC 版将内测视频生成功能。根据我们之前的测评,豆包的视频生成模型,相较于 Luma、Runway 等国外产品,更懂中文和中文用户,更适配中文互联网中的创作工作流。

▲用豆包生成一个古早游戏装备栏界面,恭喜你拾取「豆包」一个。细节不完美,但有内味了

这句话放在图片生成上也是一样,Ideogram、Recraft 可以生成英文字固然好,但豆包率先把生成中文字的难题解决了,才真正解决了国内用户的痛点。

不像伪文青们爱说的「你好特别,你给我一种疏离感」,「豆包」从名字到 logo 都让人觉得格外亲切,然后这种温度也被带入了产品的设计里,豆包的功能都非常容易上手,主打一个新手友好,不白来,来了都能用。

中文是一门博大精深且对 AI 精准生成具有一定挑战性的语言,这世界这么多人,每个人都可以用 AI 设计一点什么,无论用什么设备,说什么语言。AI 产品都该往这个方向进化,而先为中文用户交出答卷的,是豆包。

利若秋霜,辟除凶殃。 工作邮箱:zhangchengchen@ifanr.com

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


AI 视频巨头重磅更新!提示词都不用费劲写了,从未有过这样的视频创作方式

By: 张成晨
28 November 2024 at 14:07

AI 视频,还能往哪个方向卷?Luma AI 的答案有些与众不同。对手还在练一招一式,它却像风清扬传授独孤九剑,讲究灵活变通,如行云流水,任意所之。

Luma AI 或许不如可灵、Runway 知名,但论实力也在第一梯队,它的视频模型叫作 Dream Machine,今年 6 月发布,最近进行了重磅升级,是推出产品以来声势最大的一次。

其中包括两项更新,一是发布自己的图像模型 Luma Photon,将文字、图像、视频一锅端;二是打造了生成 AI 视频的全新工作流,我们可以像和 ChatGPT 聊天一样,让 AI 生成视频,不用对提示词字斟句酌。

对于生成视频这件事,Dream Machine 首创了一种很新的方式。

指路👉https://dream-machine.lumalabs.ai/

聊着聊着,就把视频给生成了

打开 Dream Machine,我们先看到的是「Board」,可以将它理解为无限的创意画布,在这里,我们使用自然语言,自由地生成图像或者视频。

开始一块 Board,我的提示词写得非常简单:「创建一个日式悬疑少年漫画的角色。」

AI 扩写了我的提示词,一次生成了 4 张图片,但是不行,年代不对。

没关系,再在对话框输入一句,「放在现代背景」。

AI 表示懂了,又生成了 4 张图片,右上这张孤身走暗巷,已经接近我想要的感觉了,但仍然不够,我想要他抬起头,露出五官。

不难,继续微调,忘掉复杂的提示词,和 AI 打直球就可以。

右下这张不错,虽然形象幼态了点。接下来,我想让 AI 生成一个视频,主角在同一条巷子里从白天走到黑夜。

Dream Machine 生成视频的首尾帧功能,就是为这种需求准备的——我们挑好头尾的两张图片,让 AI 补足中间的过程。

那么,我们只需基于满意的图片,让 AI 生成几张白天场景的,沟通方式还是一样的简单粗暴。最终选定的两张图片,细节略有落差,但同框也不违和。

万事俱备,只等生成视频,AI 过渡得还算自然。

看到这里,你应该明白 Dream Machine 和其他视频工具的区别了。

其他视频工具,通常是给你一个填入提示词的文本框,然后让你设置运镜、时长等参数。设置一次,生成一次。

但 Dream Machine 的界面,看起来非常像和聊天机器人交互,底部是输入框,文生图、图生图、图生视频、文生视频,都可以在这里进行。

专业创作者可以继续写传统的提示词,但我们也拥有了「讲人话」的权利,压力给到 AI,Dream Machine 能够理解上下文,帮我们完善提示词,我们可以从一个非常粗糙的想法开始,和它边聊边改边优化。

又因为 Dream Machine 是无限画布形式的,我们可能在一个环节反复生成,素材都会保留下来,不会互相覆盖。

我们的思维,不会局限在一段提示词、一个视频,而是像水一样流淌,更多的想法,可能就在这个过程里产生了。

更可控的图片,更可控的视频

Dream Machine 的全新工作流就像大树的主干,其中一些好玩且实用的功能则像枝桠,相得益彰,才能枝繁叶茂。

起到关键作用的,就是 Dream Machine 最新发布的图像模型 Luma Photon。

图片怎么生成得更符合我们的审美?Dream Machine 支持风格参考和角色参考功能。

先说风格参考,我们可以导入自己的图片,AI 会将风格融入到创作中。官方给出了一个例子:按蒙德里安风格,生成小鸟版的《戴珍珠耳环的少女》。

按这个思路实操一下,基于男性侦探的形象,参考梵高《星月夜》的风格,生成女性侦探。

二次元遇上后印象派,化学反应很奇妙。

角色参考功能,则可以通过一张图片,就实现角色的一致性,让这个角色出现在更多的图片和视频里。

马斯克是行走的素材库,这样的例子太没挑战性了,我决定让甄嬛瞬移到哈利波特的世界,看场景变了之后,她还能不能气场两米八。

结果有些不好评价,看得出来是甄嬛的面容,但娘娘的长相入乡随俗,五官尤其眼睛,变得更像欧美人了。

其实,不另外找图片参考,Dream Machine 也可以让图片、视频不泯然于众人,这时候就要用到「头脑风暴」功能,它会根据你生成的图片,推荐一些艺术家的风格。

就像甄嬛进霍格沃茨这张,我们可以用吉卜力工作室风格二创。

不仅如此,提示词里的一些关键词,被框选了起来,能用下拉的选项替换,Dream Machine 称之为「概念药丸」,我们不用自己手写提示词,一键更换艺术风格,或者画面元素。

把「吉卜力」换成「新海诚」,把「独角兽」换成「龙」,不过点击几下的功夫。

Luma Photon 模型,基于 Luma 的通用 Transformer 架构构建。通过开发自己的图像模型,Luma AI 可以减少对 Midjourney 等外部图像模型的依赖,同时也能解决文生视频不稳定的问题。

当然,视频是老本行,镜头运动这种可控性功能,Dream Machine 也少不了。

紫禁城的甄嬛,和霍格沃茨的甄嬛,能不能实现丝滑的转场呢?用推拉镜头,画面有动感,人物没有严重的变形,可以打个 80 分。

视觉的思维,讲故事的方式

巧的是,前两天 Runway 也官宣了自己的图像生成模型 Frame,和 Luma 更新是同一个晚上,看演示就知道非常注重审美,目前正逐步向 Gen-3 Alpha 开放资格。

▲ Runway Frame

图片的生成质量、美学高度,以及视觉风格的一致性和可控性,越来越被视觉模型重视了。

这对创作者来说是好事,当我们用 AI 进行平面设计、角色设定时,其实就是在生成一个独特的世界,讲一个独特的故事。

Runway 的 CEO Cristóbal Valenzuela 认为,Runway 不是一家 AI 公司,而是一家媒体和娱乐公司,AI 公司的时代已经结束了。

他不是在唱衰 AI,恰恰相反,他认为 AI 是一种基础设施,真正的革命不在于技术本身,而在于它所实现的东西:新的表达形式、讲述故事的新方式、连接人类体验的新方法。这和 Luma 的进化方向不谋而合。

这次更新之后,Luma AI 首席执行官兼联合创始人 Amit Jain,给 Dream Machine 下了一个很有趣的定义——视觉思维合作伙伴。

概念有些抽象,他的意思其实就是,让生成图片、视频这样的视觉创作,像聊天一样简单、直观。

交互的方式,影响着我们思考的方式。画布式的工作流,能将脑洞可视化,记录所有的创作过程和结果,呈现生成视频的完整思路。

无限画布通常在图像模型较为常见,比如 Recraft 和 Ideogram 的 Canvas。Dream Machine 的画布更加规整,相同提示词生成的素材和变体横向排列,不同的则竖向排列。

边聊边生成边优化的过程,会让人觉得,一个独立的小世界仿佛在画布里诞生。

先让 Dream Machine 用超写实电影 CG 风格,创造一个工业废土背景游戏的主角。

然后用环绕镜头,让主角动起来,并塑造环境的空间感。

接着,我们可以再和 AI 聊,让 AI 继续生成废土世界观里室内室外的各种场景,让 AI 建议我们怎么塑造得更有末日气息。

某种程度上,这个画布,就是我们个人故事的设定集。

当然,Luma AI 的 bug 也很多,包括但不限于,用一张图片实现角色一致性,效果并不理想;积分如流水,图片和视频还是要反复抽卡;图片模型可以生成准确的英文,但中文不行……

但意思传达到位了——少谈参数,以交互为出发点,构建一个 AI 创作工具。

更好的视频模型,不只是有更快的生成速度、更可控的镜头运动、更独特的美学,它应该也提供更好的讲故事的方式,让文字、图像、视频都作为表达想法的工具。

Dream Machine,造梦机器。

只管去创作吧,如同 Luma AI 的这句话:「不需要写复杂的提示词,问就好了。」未来 AI 留给我们的问题,不再关于技术,而是关于我们用它构建什么。

利若秋霜,辟除凶殃。 工作邮箱:zhangchengchen@ifanr.com

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


初代星舰最后一飞结束!马斯克、特朗普现场观看,没能再次「筷子夹火箭」

By: 张成晨
20 November 2024 at 09:17

相见仿佛还是昨天,星舰的又一次试飞来了。这次的第六飞,和第五飞不过相差五周左右,是间隔时间最短的一次试飞。

如果说第五飞取得了「筷子夹火箭」的历史性成就,第六飞本该是第五飞的复刻版,任务大致相同,细节略有修改,查漏补缺,为第一代星舰收官。

但第五飞把胃口吊得太高,第六飞不免显得有些平平无奇。每一步都正常,就是没那么戏剧性。

然而,这或许就是飞行测试的意义,不能预计奇迹一定发生。

没能再次「筷子夹火箭」,不够精彩,但在意料之中

星舰系统主要分为两级:第一级,底部的超重型助推器(Super Heavy);第二级,顶部的星舰航天器(Starship)。

微风徐徐,天空万里无云,照例完成了点火、起飞、一二级热分离等环节,第一个看点出现在 7 分钟左右。

▲热分离

第五飞在发射场成功回收了助推器,惊艳全世界,证明「筷子夹火箭」的设计是可行的。第六飞本来想要再尝试一次,但不出意外还是出意外了。

▲第五飞梗图

这次,助推器做了一些软硬件的升级,为推进系统增加了冗余,提高了关键区域的结构强度,并缩短了成功捕获后从助推器卸载推进剂的时间。

和第五飞一样,SpaceX 事先不能保证一定捕捉助推器,只有发射了,火箭、发射台都满足条件,助推器、发射塔都正常工作,飞行指挥官手动下达了命令,才会进行尝试。

反之,如果助推器返航点火完成前没下命令,或者自动检测发现助推器或发射塔有异,那么助推器默认在墨西哥湾溅落,不返回发射塔。

安全第一的前提下,无非是两种选择,答案也很快揭晓,第六飞,助推器从天而降,着陆点火,最终在墨西哥湾溅落。

▲现场观众视角

虽然溅落了,也不可回收使用,因为它的设计不适合「浸泡在盐水中」。

失望的人们在 SpaceX 的评论区留言:「塔架捕捉助推器的标准到底是什么。」「抓住火箭。我不在乎条件。做吧。」「当你抓住过火箭后,把它溅落下来有点让人失望。」

但具体是没有满足什么条件,SpaceX 还没有给出明确的答复。对他们来说,这称不上失败,而是一次意料之中的谨慎选择。

直播现场,SpaceX 制造工程经理、现场直播主持人之一 Jessica Anderson 说:「开发测试,顾名思义,是不可预测的。但这正是我们进行测试的原因。」

星舰起飞 30 分钟后,SpaceX 表示:「所有系统看起来仍然正常。」

测试极限,拿到数据

相比回收助推器的成功,第五飞的航天器在印度洋的溅落不够完美,再入时襟翼被烧蚀,虽然降落位置精准,但最终在水面发生了爆炸。

这次第六飞,航天器的飞行轨迹仍然不变,但有几项新的任务,甚至为了获取更多数据,设置了一些「极限操作」。

先是起飞后 38 分钟左右,尝试在太空中重新启动其中一台猛禽发动机,验证航天器脱轨点火的能力,为未来的轨道任务做准备。

本来在第三飞就计划尝试,但因为滚转速率的原因,当时没能实现。这次,SpaceX 宣布星舰首次在太空中成功点燃猛禽发动机。

NASA 局长 Bill Nelson 也送上了祝福,说这是「轨道飞行的重大进展」。

然后是测试新的热防护材料,并在航天器的两侧移除整块隔热瓦。一方面,检验能否耐高温;另一方面,研究抓捕设备的安装位置,未来,航天器也要和助推器一样在发射场回收。

以及在下降的最后阶段,航天器故意以更高的攻角飞行,姿态更加倾斜,测试襟翼控制的极限,从而收集更多有关着陆的数据。

▲从星舰视角看地球

细节环环相扣,不像之前都是清晨起飞,为了更好地进行观测,第六飞的发射时间定在了美国中部时间的下午 4 点,航天器降落时,正好是印度洋上空的日出时分。

这次最让人惊喜的是,航天器的姿态调整和溅落水面发挥得特别稳定,没有像第五飞一样,在水面发生爆炸。

SpaceX 用多个机位拍下了「神龙摆尾」的画面。

按照惯例,SpaceX 宣布完成了第六次试飞。

19 个月六飞,第一代星舰的最后一次飞行

第六飞,SpaceX 团队显得松弛不少,加了特殊的有效载荷:一根香蕉,甚至还在星舰航天器上贴了一个香蕉图案,这和一个梗有关:「banana for scale」。

香蕉的尺寸相对标准,又有点内涵的意味,可以直观让人理解照片中其他物体的大小,用在星舰身上就有些幽默了,此等庞然大物面前,参照物已经失去了意义。

第六次试飞,是初代星舰的最后一次试飞,画上诙谐的句号也不错。

从第七次试飞开始,星舰将大幅升级,包括重新设计的前襟翼、更大的推进剂箱,以及最新一代的热防护系统。SpaceX 表示,隔热罩也得是完全可重复使用的。

星舰是人类历史上体积最大、推力最强运载火箭,也是第一个被设计为可完全重复使用的火箭。

每次试飞,SpaceX 都是为了获得经验和教训,提升整个星舰系统的可靠性,让火箭更加接近完全、快速、廉价的可重复使用目标,越来越像飞机,终有一天把人类送往火星。

从一飞到六飞,其实也只过了 19 个月,一次比一次飞得更远,失败、反思、学习、修正、重复冒险。

  • 2023 年 4 月,第一次试飞,助推级的 33 台发动机中有 3 台未能点火,火箭不久失控并自毁。
  • 2023 年 11 月,第二次试飞,助推器和航天器首次尝试热分离便成功,但随后助推器爆炸、航天器自毁。
  • 2024 年 3 月,第三次试飞,航天器的旅程前所未有得久,在返回地球大气层时烧毁。
  • 2024 年 6 月,第四次试飞,星舰完成了完整的飞行过程,助推器和航天器都成功在海洋中溅落。
  • 2024 年 10 月,第五次试飞,实现史诗级成就,首次成功在发射台回收助推器,上演「筷子夹火箭」。

第五飞和第六飞间隔时间短,部分是因为,美国联邦航空管理局(FAA)为第五飞颁发的许可证,其实也覆盖了第六飞。

这次第六飞,特朗普和马斯克一起到达现场观看。走马上任政府效率部的马斯克,可以经「懂王特许」,剑履上殿,入朝不趋,赞拜不名,疯狂刷火箭吗?

2025 年,我们应该可以看到更加频繁的星舰发射,SpaceX 的目标是,是在 2026 年向火星发射第一艘星舰。

最近,SpaceX 总经理 Kathy Lueders 在墨西哥航天局主办的 CONACES 2024 活动透露,马斯克计划在 2025 年开始发射 25 次星舰,在 6 个月内尝试捕捉星舰航天器。

马斯克曾说,「这个世界上必须有些东西能激励你前⾏,能打动你的内⼼,⽽我给出的⼀个答案就是,要让⼈类⽂明成为能够开展宇宙飞⾏的⽂明,让科幻⼩说成为现实」。

但生活不是科幻小说,每次尝试都不可完全预知,但都是为了接近一个可能的未来。

取法于上、仅得为中,未必不是下一次冒险的开始。

利若秋霜,辟除凶殃。 工作邮箱:zhangchengchen@ifanr.com

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


从 GPT-2 开始玩 AI 的博士生,把论文做成了上线 Steam 的独立游戏 | AI 新职人

By: 张成晨
19 November 2024 at 12:18

传说,国王山路亚尔生性残忍多疑,杀死背叛他的王后,从此每晚迎娶新娘,又在天亮时将其处死。为了终止暴行,大臣的女儿山鲁佐德自愿出嫁,用故事吸引国王,一直讲了一千零一夜。

你应该听过这个古老的民间故事,如果你是山鲁佐德,你如何让自己见到第二天的太阳?

独立工作室 Ada Eden 开发的《1001 夜》,一款让 AI 扮演国王的叙事游戏,已经为我们搭好了戏台。

但你的任务,不再是感化国王,和他白头偕老,而是将言语化为刀刃,刺入他的心脏。

我们试玩了游戏的 Steam Demo,并且和 Ada Eden 负责人、《1001 夜》主创起司聊了聊。

她本科毕业自清华美院,目前在英国读博士,喜欢和游戏 NPC、语音助手聊天,对捏聊天机器人情有独钟,从 GPT-2 就开始设计 AI 对话游戏。从《1001 夜》和起司身上,我们可以看到和 AI 相处的另外一种模样。

打败那个 AI 扮演的爹味国王

在《1001 夜》的设定里,玩家扮演的山鲁佐德,为国王讲故事,由大语言模型(智谱 GLM)驱动的国王会接话,续写玩家的故事。

你来我往的交锋中,玩家需要诱导国王说出刀、剑、盾等关键词,将武器化作实体,集齐 4 把武器,打败国王,完成复仇。

因为有了 AI,武器卡牌、场景、战斗台词等内容,都是实时生成的,由故事内容决定。这便是游戏的一大乐趣所在——每个故事、每个武器都独一无二。

▲ 注意场景跟随卡牌变了

同时,提示词规定了,国王傲慢而暴躁,崇尚武力征服,喜欢和自己性格相符的故事。玩家们概括,就是「很爹味」,总和自己抢笔,按他的喜好篡改故事走向。

所以,国王不会被轻易蒙骗,如果玩家的故事不合逻辑,过于现代,让他理解不了,或者刻意地提到武器,动机昭然若揭,他很可能会失去耐心。当耐心降到零,山鲁佐德会被杀死。

顺着国王的脾气讲故事,还是硬塞给国王他不想听的故事?这是每个玩家的自由,也是人类与 AI 之间的博弈。

起司说,有些玩家会知其不可而为之,努力让国王接受爱情故事,「如果你很强烈地想要维持自己的故事,那么你就需要花更多时间和他周旋,说服他」。

实践表明,有时候冒犯了国王,反而更能从 AI 身上看到像人的部分。

我给国王讲电竞小说的情节,他明显不耐烦,也不试图理解。或许穿越到现在,这位国王也是认为游戏有毒的封建大家长作风。

当我讲到金庸小说里「武林称雄,挥剑自宫」的《辟邪剑谱》,国王更是火冒三丈,不能容忍别人挑战他的男性威严。

如果担心摸不准国王的性格,通关有个小技巧——反客为主,倒反天罡,让国王讲个故事给我们听,他很可能会自觉说出武器的关键词。

起司观察到了这个现象,她其实可以加些限制,但看到大家都玩得「挺欢乐」,还在小红书等社交媒体晒出来,那么也未尝不可。

不过,《1001 夜》可以获取的武器不多,可能会限制玩家的发挥——包括彩蛋在内,主要是国王身后的这些武器类型,剑、矛、刀、盾、斧子。

▲ 偷看国王的武器,也会让他失去耐心

经过实测,弓箭、流星锤不行,游戏会提示玩家及时转变策略。起司解释,每种武器都要做模型、动画,美术忙不过来,以后会逐步增加。

集齐 4 把武器,玩家就会进入战斗界面,和国王互砍几个回合,将其就地正法。

每次游戏结束,都会生成一本记录,总结故事、武器、结局,并给山鲁佐德一个和故事相配的中二称号。

通关的常规套路,是怎么方便提到武器怎么来,比如讲战争,但让起司印象深刻的,是那些意想不到的故事,秦始皇、哈利波特、大明王朝、高考语文、沙威玛传奇……

还有把知识学杂了的玩家,让国王帮自己玩《苏丹的游戏》,这也是一个《一千零一夜》题材的游戏,带卡牌元素,玩家给国王讲规则,让国王做决策。

起司发现,从头编全套的故事有点难,但很多玩家都可以做到,给国王复述自己熟悉的故事或者游戏剧情,她觉得这样也很有意思,国王续写的故事,可能会神预言,也可能和原来的故事反差很大。

其中一个玩家,给国王讲甄嬛传,刚开头,国王就代入了自己,问玩家是不是讽刺自己薄情寡义,但当故事继续下去,国王还能预测甄嬛传的剧情走向。

AI 的开发者不能完全掌控 AI 的行为,无法穷尽玩家和 AI 聊天的方式,玩家自己也不能决定故事的走向,不知道自己能不能说服 AI。

和 AI 对话最美妙的,或许正是这种千丝万缕的可能性。

告诉玩家 AI 怎么被使用,是 AI 原生游戏的责任

显然,在《1001 夜》里,AI 扮演了关键的角色,在闻 AI 色变的氛围之中,尤其起司所在的艺术和游戏圈里,不免产生了一些争议的声音。

「美术不会用了 AI『尸块』吧,用癌的游戏我不玩」「是不是拿我的对话训练 AI」「会不会侵害其他艺术家的权利」,起司很理解玩家面对 AI 恐慌的心情。《1001 夜》是一个关于创作的游戏,被吸引的玩家,对创作往往都有自己的坚持。

国外艺术家对于 AI 的态度,可能更加抵触。起司开玩笑说,在国外发表演讲,尤其和其他艺术家交流时,会先叠甲,介绍自己是美术生,让对方知道自己「不是坏人」。

起司既是艺术家,也是 AI 研究者,她其实最了解怎么使用 AI 省力,但她走了一条更难的路:找到一个使用 AI 的尺度,平衡游戏需要的效果和外界的情绪。

▲ Ada Eden 对如何使用 AI 的说明

《1001 夜》固定的剧情和 NPC 对话,是预先写好的。游戏里所有静态的、传统的游戏美术资产,包括角色、场景、CG、UI 等,也都是人类艺术家制作的。

但没法预制的部分,只能由 AI 实时生成,包括国王回复玩家的文本,以及因人而异的武器卡牌和场景。

也因此,起司把《1001 夜》定义为 AI 原生游戏:用生成式 AI 实现核心玩法,不用 AI,游戏机制就不能成立。

目前,国王回复、战斗台词等文字,用智谱的 GLM 模型生成,相比 GPT,GLM 的中文稳定程度更好。

至于卡牌、场景等实时文生图的部分,《1001 夜》仅用团队内部美术,训练了专属的风格模型,AI 只会生成原创的游戏画风,不会模仿其他艺术家,确保了训练素材的来源和生成内容的安全稳定。游戏还获得了开源图像处理技术 Pixelization 的授权,让图像保持像素风格。

▲《1001 夜》的小红书评论

同时,起司也一直在思考,怎么让 AI 的使用更温和,减少潜在的问题,更能被大家接受。

按起司的话说,「但凡是人类创作者能做的,我们全是手工做的」。

起司不知道,这是不是一种标准答案,或者好的做法,但她认为,一个讲创作的游戏,至少要呈现出明确的态度,和玩家讲清楚怎么使用 AI,「这是游戏责任的一部分」。

从论文到独立游戏,把 AI 当作讲故事的材料

每个未被实现的创意,都在等待一个成熟的时机。

《1001 夜》从 2020 年就开始开发,早于将让 AI 对话成为日常习惯的 ChatGPT。起司对 AI 对话游戏的兴趣,又有更加漫长的前因。

起司从小就喜欢视觉小说这类文本量大的游戏,看游戏里的文案,尤其喜欢和 NPC(非玩家角色)聊天,虽然她也知道,这些都是提前写好的。

2011 年,苹果语音助手 Siri 的出现,更让起司觉得新奇,Siri 用自然语言交互,对话比 NPC 更灵活,甚至让她联想,这种技术,是不是可以用到 NPC 上面。

在清华美院读本科时,起司决定,动手设计聊天机器人。然而,当时对 AI 的普遍认知就是「笨」,和 AI 对话这件事,大多数人没有什么期待,也不认为值得去做,「因为大家接触到的顶多也就是 Siri」。

但起司认为,设计聊天机器人,和设计游戏角色很像,不是一定要多么聪明,只要表现出一些人性,那也很有意思。本科到硕士期间,她做了很多奇奇怪怪的聊天机器人,其中就包括了《1001 夜》。

回望这 4 年,《1001 夜》的发展脉络,精准地踩中了技术的鼓点。

最开始,《1001 夜》是起司硕士游戏课程的作业,2020 年底有了第一版 demo。当时,用的是「ChatGPT 的奶奶」GPT-2,算力有限,效果也差,投喂了短篇小说后,勉强可以用英文说出人话,接着玩家讲故事。

21 年底,起司联络到了彩云科技,这家公司旗下的彩云小梦是个智能写作 AI,用户开个头,它就能续写故事,这完美契合了起司的需求。游戏从此受到了关注,发表了第一篇论文,被邀请在美术馆展览。团队还做了一个装置,可以把故事打印出来,玩家都很喜欢。

▲ 2021 年,早期的 1001 游戏及装置

但这时候的国王,还是不够聪明,只能执行单一的任务:讲故事,没有办法判断玩家的故事质量,也没办法判断玩家是不是在骂它。然而,就算玩法基础,也有很多玩家愿意投入到游戏之中,「因为觉得很有回报感」。

这验证了起司的想法,回应了她当初对聊天机器人的设想——虽然技术有限制,但用生成式的方式产生故事,是一个鼓励玩家创作的游戏机制。

2022 年底,ChatGPT 发布,随后,各种大模型逐渐面世,很多问题自然而然地被解决了。AI 不再只是一个续写机器,而是一个有性格的国王,「只要提示词写得对,基本上它都可以按照我的设计来行事」。

同时,文生图模型也在成熟起来,起司觉得,时机到了,《1001 夜》可以发展成一个完整的独立游戏,被更多人下载和游玩。

2023 年初,起司成立了工作室 Ada Eden,以世界上第一位程序员 Ada Lovelace 的名字命名,成员在 10 个左右,包括程序员、策划、美术、音乐人,基本都是「从网上摇来的朋友」,挤出业余时间做游戏。

▲ 团队成员

和普通的游戏团队不同,Ada Eden 的每个成员都得懂点 AI,不仅是程序员,策划也要配合写一部分的提示词,调教 AI,确保生成的内容符合逻辑,保持游戏的文风。

《1001 夜》像素风的美术风格,也是一开始就确定好的,因为起司自己很喜欢像素游戏,「玩过很多游戏,才会喜欢像素风格,也会吸引到同样审美的玩家」。

2020 年,《1001 夜》没有涉及 AI 生成图像,不过,起司当时有隐约的感觉,像素风可以很好地包容生成式的美术内容,所以一直沿用下来,真的进入 AI 生成的时代。

因兴趣而起心动念,因技术的发展而不断打磨成品,从纯文字到多模态生成,今时今日的《1001 夜》,有些像世界线完美收束的产物。

▲ Ada Eden 受邀参加各类展览,包括 2024 的科隆游戏展。近期刚完成在德国多特蒙德的展览

ChatGPT 的发布,对起司还有个额外的好处——她终于不用解释自己在做什么了。

以前,起司介绍自己的时候会说,「我是一个艺术家,但我是做聊天机器人的」,大家可能还是很困惑,但现在,她可以直接说,「来玩一下这个和 AI 对话的游戏吧」。

AI 对话游戏,其实是个很大的类目,也有一些爆款诞生,比如,说服 AI 女朋友让自己出门的《病娇猫娘 AI 女友》、玩家扮演吸血鬼欺骗 NPC 开门的《Suck Up!》。

▲《Suck Up!》

但《1001 夜》又是另一种类型。在起司看来,它更像是写作。

一千零一夜的故事原版是,山鲁佐德和国王终成眷属,但这个结局让小时候的起司很困惑,国王明明十恶不赦,为什么却能有个俗套的美好结局。

《1001 夜》以 AI 对话游戏的形式,解决了这个疑惑,让玩家讲述一个又一个故事,改变原有的现实。

10 月 24 日,《1001 夜》在 Steam 发布了可以试玩的免费 Demo,但 Demo 只呈现了不到正式版 20% 的基础玩法。Demo 通关之后的动画也暗示:只熬过一个夜晚是不够的。

起司透露,在正式版里,故事线和任务将更加丰富,女主角会回溯时间,和之前死去的女孩一起协作。她想做的,是一个完整的叙事游戏,包含不同的章节。

作为一个研究 AI 的美术生,起司被很多人问过「画师会不会失业」,也听过很多「AI 取代人类」的宏大叙事。她理解大家的担忧,但也对造成这种印象的现状感到不满,「目前技术缺乏监管,又经常被滥用,造成了大家对 AI 的负面印象」。

但她也清楚,自己的看法无法代表其他画师和创作者,她只能尽力而为,让大家看到 AI 应用有趣的一面,「给技术讨论贡献一点点独特的声音」。

《1001 夜》里的山鲁佐德,努力改变国王安排的命运,她愤怒,她不接受,她要讲自己的故事。同时,她所讲的故事由人类发起。没有玩家,就讲不出这么多美好的故事。

起司希望,《1001 夜》可以让玩家意识到,原来 AI 可以有这种玩法,原来自己讲述的故事和产生的剧情,可以在游戏里产生意义。

她已经「折腾」了 AI 很长时间,也会折腾下去,继续回答她心中的、更具体的问题——如何用 AI 打造好的作品,带来从没见过的体验,甚至让人获得智识上的满足感,「AI 是一种特殊的讲故事的材料,我对此非常坚信。正是因为技术发展太快,好的故事才会像水晶一样清澈而珍贵」。

利若秋霜,辟除凶殃。 工作邮箱:zhangchengchen@ifanr.com

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


打败 Midjourney,匿名屠榜的 AI 生图黑马,让人人都能设计海报

By: 张成晨
9 November 2024 at 12:22

如今 AI 圈更新产品的节奏,让每个和键盘难舍难分的编辑明白了一句台词:你还有多少惊喜是朕不知道的?

这不,又一个 AI 生图神器来了:Recraft。

好用在哪?一句话概括就是:人负责排列组合,AI 负责美工,审美挺好,还不容易出错。

对于普通人来说,设计海报又又又变得更简单了,我们就是 AI 的甲方,给它一套毛坯,它给你一次次不重样的精装。

指路👉https://www.recraft.ai/projects

十几秒一张海报,拿捏文字,这个 AI 是文生图的清流

请问,设计一张海报,需要几步?Recraft 表示,三步就够了。

首先,在空白画布上,拉出一个紫色的框框;其次,在你想要的位置放入图片、文字,输入提示词;最后,点击生成按钮,AI 就能帮你化腐朽为神奇。

只要等待十几秒,一张海报出现在你面前。比如这样,轻轻松松把文字变成 3D。

▲ 图片来自:X@recraftai

或者,你想做个表情包,有图,有文案,但不知道怎么组合更好看,也可以交给 Recraft,让它来扩图,把文字自然地融进场景里。

▲ 左边,AI 生成;右边,草图

甚至,我们不上传图片,纯打字,让 Recraft 一条龙生成海报也没问题。

文字渲染一直是图片生成模型的痛点,但 Recraft 牛逼在,可以 hold 住一大段文字。

A 妹主演的《魔法坏女巫》将在 11 月上映,国内也会引进,然而,电影还在文火加热,设计简陋的海报已经被群嘲了。

不如让 Recraft 重做一次吧,我用不同字号,把文案排列了一下,草图这就算做好了,然后参考原海报,反推提示词,说明了画面的要素,接下来交给 AI 一键美化。

▲ 左边,AI 生成;右边,草图

可喜可贺,该有的都有,文字没有错误,每一行都被 AI 精心设计,和官方海报一比,风格不同,但没有差到哪里去。

▲ 左边,AI 生成;右边,官方海报

除了从头设计,Recraft 还可以处理多张图片,满足追星族和嗑 CP 爱好者的要求——把喜欢的角色 P 到一起,看起来不突兀。

以哈利波特和毒液为例,上传需要的两张照片,背景不同怎么办?这里不得不提 Recraft 一个非常实用的功能:一键抠图。

是的,传统的 P 图软件都有抠图功能,这不算什么,但 AI 生图工具,考虑到这个大众功能并加进产品的,不多。

抠图之后,配上文案,看起来仍然有次元壁,默认字体也丑了点,没关系,选择你想要的画风,让 AI 统一优化,就有同框的感觉了。

▲ 左边:优化后,右边:优化前

擅长设计平面是不够的,Recraft 的一个功能更让人拍案叫绝:Mockup,做立体物体的图案设计。

先让它生成一个普通的红色棒球帽,中间的绿色框框,用来生成图片,或者上传自己的图片,然后图片可以和帽子完美融入。

比如,加上一段文案:「make cats great again」(让猫猫再次伟大)。

抠图去除多余的背景,把图标拉伸到满意的大小、旋转和移动到合适的位置,它始终保持透视效果,自适应地贴合表面。

以此类推,T 恤、杯子、徽章也是一样的,吃谷虽然快乐,但伤钱包,以后可以自己给自己做周边,赛博欣赏,自娱自乐了。

▲ 仅示意,徽章是 Recraft 生成的,图案是上传的

请问,我为什么一直在让 AI 设计英文内容?

因为 Recraft 有硬伤:可以用中文提示词,但输出不了中文。哪怕我明确要求,某段话请用中文写,它也会「贴心」地给我翻译成英文。

但只要能登上 Recraft,就有免费额度可用,设计海报、封面、产品图、表情包…… 有便宜可占,已经很香了。

匿名登顶,免费商用,和设计师交个朋友

我们知道 Midjourney、DALL-E、Flux、Ideogram,但这个 Recraft 是何门何派?

前段时间,文生图模型 red_panda 在 X 一鸣惊人,因为它在 Hugging Face 的排行榜拿下了第一名,把有名有姓的前辈踩在脚下。

这个排名,靠两两图片对比得出,比的是综合能力,包括审美、提示词理解、身体结构准确性、文字生成质量等。

网友猜测,red_panda 是「小熊猫」的意思,难道来自中国?关子没有卖多久,幕后团队就出来自曝了。

red_panda 基于模型 Recraft V3,背后的公司是 2022 年成立、总部在伦敦的 Recraft AI,创始人曾在 Google、微软工作过。

Recraft 一朝成名天下闻,不是没有道理,这个产品集了各家之所长。

▲ 图片来自:X@recraftai

论高清、光影、真实感,Recraft 不输 Flux。

同时,它对新手友好,有很多不错的预设风格,游走在写实和艺术之间,不用写复杂的提示词,就能模拟各种摄影和绘画效果。

▲「Hard Flash」风格,强烈、直白的闪光灯效果

Recraft 擅长的长文本图像生成,准确度怕是让拿文本做招牌的 Ideogram 都自愧不如,而且,它很听话,可以让我们决定文本的大小和位置。

▲ 图片来自:X@recraftai

不过,Recraft 也可能出现文本错误,并且导致背景变形。当我模仿《火星救援》的风格做马斯克的海报,他的脸像被整容了,还是失败的那种。

▲ 左边:AI 生成;右边:草图

当 AI 生图工具都在增强可控性,Recraft 不落下风,Midjourney 的修改局部功能,它也有。

我们框选出某个区域,然后用提示词告诉 AI 怎么修改,加个帽子轻轻松松。

十八般武艺都会一点的 Recraft,会抢设计师的工作吗?恰恰相反,它是来交个朋友的,把自己定义成:面向设计师的生成式 AI。

所以,Recraft 具备了一些设计师们需要的功能,比如样式也可以通过更多的图像输入给模型,保持风格的稳定。

Recraft 还做了一个小小的协作功能,画布可以共享,让对方评论,因为「有时候,两个人的想法比一个人的想法更好」。

▲ 图片来自:X@recraftai

更喜闻乐见的是,Recraft 生成的图片可以免费商用。

当然,不是设计师的小白们,比如我,也可以玩得很开心,分分钟做出自己喜欢的海报。

而且,本就没必要将人和工具比较,Recraft 是来和 Canva 等设计工具、Midjourney 等 AI 生图工具同台竞争的,用户们坐享其成。

▲ 图片来自:X@recraftai

Canva 的 CEO Melanie Perkins 说过,Canva 希望让每一个人都设计出他们可以想象的任何东西,无论说什么语言,用什么设备。

所以,他们打破 Adobe 的门槛,简化了设计流程,提供了各种模板、部件、图片、字体,让用户增减元素。

▲ 图片来自:X@recraftai

AI 的进化方向,和这位 CEO 的愿景是一样的:为全世界赋予设计的能力。

但我们的选择,越来越不局限了,不是必须选择哪个产品,不是必须听某个创始人的故事,工具能帮我们做的越来越多,我们按下的按钮越来越少,甚至可以不亲手操作,人人都能设计一点东西,如果我们还愿意称之为设计。

利若秋霜,辟除凶殃。 工作邮箱:zhangchengchen@ifanr.com

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


中国团队夺冠的赛博格「奥运会」,让我们看到人与机器的共生

By: 张成晨
3 November 2024 at 12:24

你有没有想过,拧灯泡,穿衣服,开瓶盖,也会成为比赛项目,并且扣人心弦?

10 月 26 日,瑞士苏黎世,一位中国运动员残缺的右前臂穿戴着义肢,用 8 分钟做了 10 件日常的小事,期间只有一次失误,最终夺得冠军,创下中国团队史上的最好成绩。

▲ 拧灯泡,义肢转了一下太帅了

▲ 绕圈,不碰到中间的金属管

她参加的是一场特殊的「奥运会」,Cybathlon。这个词由「赛博」和「竞赛」组合而成,可以翻译为半机械人仿生奥运会、全球辅助技术奥运会。

在充满生命力的赛场上,赛博格褪去了科幻小说和电影里冰冷的形象,为生活而战。

属于赛博格的奥运会

Cybathlon 是瑞士苏黎世联邦理工学院的非营利项目,从 2016 年开始举办,四年一届,今年是第三届,24 个国家的 67 支队伍参赛。

每支队伍都是一个团队,由残障人士和技术人员组成,残障人士上场时也并非单打独斗,而是带着各式各样的辅助设备,假肢,外骨骼,甚至机器人。

可以说,他们都是「赛博格」,人类和机器的融合体,人脑负责思考,机械配件带来能力增强。

这和残奥会不太一样。残奥会的运动员们,往往只能使用维持正常比赛所必需的辅助设备,设备不能提供额外的性能优势,确保公平竞争,比拼运动员自身的能力。

但在 Cybathlon,残障人士和辅助设备是一体的,不强调竞技,不单纯比拼力量和速度,而是让人类和机器合作,尽可能完成生活里天天遇到的事情。

▲ 拉拉链

比起运动员(athletes),主办方认为称这些选手为操纵设备和身体的驾驶员(pilots)更贴切。荣誉也非一人之力,同属残障人士和技术团队。

夺冠的中国团队,选手叫徐敏,技术团队来自东南大学和中国科学院苏州医工所。比赛的规则也能体现主办方的用意,共 10 个环节,以完成度和完成时间判定成绩。

徐敏只在叠杯子的环节失误,拿了一个红牌,得了 90 分。第二名虽然平均耗时更短,但有两个环节没完成,以 80 分落败。

其中最难的环节可能是盲盒取物,义肢穿过遮挡视线的毛刷,抓取硬度不同的圆柱体,徐敏是唯一一个拿下这关的选手。

这就体现了选手、辅助设备和技术团队的完美协作,义肢手指装有摄像头,就像拥有了「眼睛」,辅助人类完成了抓取。

纵是如此,盲盒环节仍然看得人心惊胆战,掏出第二个物体花了不少时间,徐敏说了句「看不见,要不要放掉」,旁边的技术人员鼓励「没事,还来得及」。

最重要的是,她手上的动作依然有条不紊,表情也很沉着,最终才能攻克。

赛博格的意义,正是弥补生理的缺陷,克服肉体的限制,并在每个艰难的瞬间,创造奇迹。

用最酷炫的设备,做最日常的事情

比赛有 8 个项目,除了中国团队夺冠的上肢义肢,还包括下肢义肢、外骨骼、脑机接口、轮椅辅助、视觉辅助、机器人辅助、功能性电刺激。

每个项目对参赛选手资格、辅助设备条件都有相应的规定,同时比起往届有不少创新。

其中,脑机接口的任务是用意念玩游戏,不允许语音命令或者身体动作,规定固然白纸黑字,参赛选手们颈部以下运动功能完全或严重丧失,就算想要作弊也有心无力。

当身体被固定住,再简单的任务,完成的难度并非常人所能体会。

冠军是美国匹兹堡大学的团队 PittCrew,2 分多钟的时间里,选手 Phillip 在游戏里用钥匙开门、操纵光标点击正确的图标、把杯子放在制冰机下面收集掉落的冰块。

可能有些反直觉,对于脑机接口选手来说,比起抓取、转动某个物体,克制不动,保持某个姿势,是更难的。学会抑制不需要的想法,需要时间和练习。

比赛过程中,PittCrew 全程躺着,神情严肃,偶尔会看到他动动嘴巴,像在用力,团队也会出声鼓励一两句。

Phillip 的大脑里植入了 4 个电极,计算机可以通过记录到的电信号,读取他的意图。巧的是,这届比赛是主办方首次允许植入式电极。

也有些脑机接口选手,继续选择头戴式的脑电图设备,看起来像一顶帽子,非侵入性,且更传统,电极接触头皮,电线连接电脑,记录大脑表面的电活动。

虽然头戴式比植入式更方便、安全,但信号会被削弱,也容易受到其他神经元的干扰。某种程度上,这也是一场新旧科技的对决。

视觉辅助和机器人辅助,则是这届的两个新项目。

机器人辅助项目的选手,必须是日常使用轮椅,同时上肢也严重受损的残障人士,对机器人的条件就放宽得多,因人而异,可以通过触控板、手控摇杆甚至舌控驱动。

来自德国的冠军 Mattias Atzenhofer,用平板和手柄控制机器人,完成了刷牙、捡水瓶、抓盘子、喂苹果、扭动门把手等动作。

虽然轮椅辅助项目也用到轮椅,但主要比拼怎么用轮椅走过不平坦的地形和楼梯。下肢义肢项目与之相似,同样是挑战各种地形。

▲ 轮椅辅助项目

▲下肢义肢项目

至于视觉辅助项目,参赛条件是视力严重受损或完全丧失,辅助设备包括但不限于手机、白手杖、AR,可以用 GPS、超声波等技术收集环境信息,也允许以声音、振动、电刺激等形式提供反馈。

然而,得分普遍较低,来自匈牙利的冠军也只有 70 分,他主要借助盲杖和一款手机 app,躲避障碍物、走规定路线、在架子上找到对应的物品、捡起东西放到盘子里……

比赛里有个叫人伤心的细节,每当失败,会有团队成员出来扶着他,走到下一关。或许可以反映出,盲人的辅助设备还远远不够,生活里的障碍仍然无法被面面俱到地克服。

功能性电刺激项目,听起来可能有些陌生,简单来说,就是通过电刺激让瘫痪的肌肉重新活动。

参赛选手下半身完全瘫痪,骑行固定在地面的自行车,在虚拟赛道里一决高低,第一名是位韩国选手,和第二名仅有三秒之差。

▲ 2024 年比赛

相比之下,之前的比赛更加直观——在实体赛道上骑行约 805 米。有些选手会因为肌肉过度疲劳,中途停下休息。只看他们骑行的样子,完全不会和瘫痪挂钩。

▲ 2016 年比赛

主办方固定自行车,主要是因为场地不够用,并照顾到远程参与的选手。虽然事出有因,但也不难理解,有些往届选手对此次的规则不满。

他们认为,停在原地太无聊了,在车道上骑行,移动起来,才能有自由的感觉,观众们会忽略他们的身体,只夸他们的自行车不错。

外骨骼比赛也比往届更难了,增加了侧步走的环节,也就是横向移动。目前,大部分设备更擅长向前或向后的直线运动,侧向运动还在技术改进和优化的阶段。

其实,对于截瘫和腿部运动功能完全丧失的残障人士来说,哪怕从坐着变成站着,也已经够难了。然而,这就是他们每天都在面临的障碍,无论如何也无法逃避。

真正的英雄主义,是在看清生活的真相之后,依然热爱生活。很多人习以为常的动作,由人和机械配合着完成,其中的艰难和汗水,非亲历无法想象。

看到残障人士和辅助设备、技术团队合作,努力完成各个项目,感动和敬佩便无法抑制。最先进的设备,是为了满足人类的日常生活而生。未来已来,因为技术、和平与爱。

没有失败者的比赛,为了一个没有障碍的世界

参与比赛的残障人士,并没有比其他人更肌肉发达、身体健壮,也并不限制年龄。

与其说,Cybathlon 是让残障运动员比出高低,不如说,它是个技术的擂台。

▲ 瑞士团队开发的视力辅助设备,帮助导航

▲ 意大利团队开发的腿部假肢,提高崎岖地形的稳定性

竞争只是手段,而非目的,这场比赛有赢家,但没有败将,因为每个团队的参与,都在帮助更多残障人士的生活。

比胜利更重要的,是以人为中心,一开始就考虑到残障人士的需求,开发出更适合日常的辅助设备。

有些产品已经非常成熟,也有些产品只是原型,先放在赛场试试深浅。比如,瑞士初创公司 Scewo 的爬楼梯轮椅,就在参与比赛后投入市场,售出超过 200 件。

Cybathlon 创立于 2016 年,每 4 年举办一届,口号是「为了一个没有障碍的世界」。

当年,Cybathlon 发起人、苏黎世联邦理工学院教授 Robert Riener,因为报纸上的一则新闻,心里涌起了创办大赛的冲动。

▲ Robert Riener 在 2016 年开幕式上发言

这则新闻已经是 2012 年的故事了,一名男性靠电动膝关节假肢,走上了芝加哥的威利斯大厦,他叫 Zac Vawter,爬了 103 层,共 2109 级楼梯。

同时,Robert Riener 长期地和残障人士一起工作,他观察到,很多辅助设备对残障人士没用,比如,手臂假肢可能又贵又复杂,轮椅爬不了楼梯,或者因为宽度没法穿过门。

有时候,科研团队的研究和残障人士的需求是错位的,前者推动着技术前沿,但后者考虑的,是设备能不能用起来更简单友好。

所以,Robert Riener 决定在瑞士举办一场竞赛,在公共场合展示残障人士的能力,让提供技术和需要技术的人合作,听到彼此的声音。

十多年来,Cybathlon 一届比一届成熟,除了四年一度的大赛,届中还有项目和队伍更少的年度挑战赛,中国团队也在 2023 年度挑战赛拿下过上肢假肢组的冠军。

比赛秉承包容精神,可以到现场参加,也可以远程参与,因为团队可能承担不起机票,或者残障人士不方便远行。因为众所周知的原因,2020 年的比赛完全在线上进行。

让科研的成果传播得更远更广固然是好的,但帮助残障人士,是一项长期的事业。残障人士和技术团队,不会因为一场比赛临时合作。

脑机接口冠军 Phillip 从一年前开始使用脑机接口,徐敏更是在 2019 年就认识了此次比赛的带队人,成为一名假肢受试者,佩戴的义肢不断调整,换了又换。

虽然众人皆知 Cybathlon 很有意义,但它的未来还不确定,组织比赛的资金就是一个问题。说到底,Cybathlon 受众不够多。

下一届,也就是 2028 年的 Cybathlon,可能在亚洲举行。

主办方希望,这项赛事可以不局限在瑞士,而是真的能像奥运会一样,在全世界巡回,并一届届地办下去。

或许,我们每个人微不足道的关注,也会是一个小小的火苗,让这把火烧得更久,更远。

利若秋霜,辟除凶殃。 工作邮箱:zhangchengchen@ifanr.com

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


让千万网友着迷的 AI 巫师猫,凭什么成为小红书和 Instagram 的新顶流

By: 张成晨
27 October 2024 at 17:14

秋天到了,《哈利波特》重映了,万圣节快来了,魔法的气息蠢蠢欲动了。

最近,一只 AI 生成的猫从海外火到国内,在 X、Instagram、小红书都拥有极高的人气。

爱意始于颜值,这是一只圆滚滚的橘猫,头戴尖顶的巫师帽,爪子握着魔杖,迷离的眼神大智若愚。可以形象地称它为,巫师猫。

巫师猫的一条短视频,在 Instagram 超过 1200 万次播放,还不断有人为它二创。

▲图片来自:Instagram@tothemoonq888

不少网友感叹,这才是使用 AI 的正确方式。上网只为三件事,吸猫,吸猫,还是特么的吸猫。当然也有人满头问号,这也能火?

当一只 AI 猫成为网红

经过考古,巫师猫最早出现在 8 月 25 日,由分享猫咪图片投稿的 X 账号@gatinarios 发布,现在这条帖子超过 1250 万次浏览、22.3 万次点赞。

真正让巫师猫火起来的,是一系列脑洞大开的 AI 二创。

大口品尝拉丝芝士披萨,仍比人类老铁的吃播优雅几分。

▲ 图片来自:Instagram@miyavlikedicikler

魔杖秒变左轮手枪,要是阁下不想看魔法,它也略懂一些拳脚。

▲ 图片来自:X@Cheeseball_sol

熬了一锅魔法药水,它说紫色很有韵味。

▲ 图片来自:X@venturetwins

骑上扫帚潇洒飞走,挥一挥斗篷,不带走一片云彩。

▲ 图片来自:X@venturetwins

以古早 3D 游戏画风展现魔性舞蹈,轻轻松松在 Instagram 迷倒 34.2 万个人类。

▲ 图片来自:Instagram@doro_daro

甚至连 3D 建模都有了,只差分享一个链接,已经准备好掏钱买来当书桌摆件。

▲ 图片来自:X@masom_mamen

猫红了,诡计多端的人类便要蹭。

快手可灵官方生成了一个万圣节氛围感短视频,秀一秀自己的 AI 视频能力,然而东亚味图穷匕见,没想到连猫都要拿起电脑打工。

▲ 图片来自:X@Kling_ai

硅谷知名投资机构 a16z 合伙人、专做 AI 公司投资的 Justine Moore 也给予了高度评价,说巫师猫是 Instagram 短视频的新顶流。

热衷方法论的小红书用户们,则教你怎么用 AI 制作巫师猫,授人以鱼不如授人以渔。

总之,时代变了大人,AI 让创作和二创表情包都更容易了。

迪士尼的粉色狐狸玲娜贝儿,本是没有故事的女同学,但迪士尼乐园工作人员的扮演和粉丝的二次创作赋予了它灵魂。

巫师猫的出道方式与之类似,现在已经有自己的社交帐号、网站甚至迷因币,堪比马斯克喜欢的狗头 Doge,这些动态就是它的故事,丰富着它的猫设。

甚至有网友觉得,它神似《哈利波特》的麦格教授。

只要形象够可爱,出厂设置再单薄,也会有人填补空白。这就叫,颜值即是正义,总会有妈妈爱你。

无聊的人类会吸电子猫吗

世界破破烂烂,萌物缝缝补补。从纸箱狗、猫 meme 的一度流行来看,猫,哪怕是 AI 生成的猫,受网友欢迎,是再正常不过的了。

其中或许有个原因,围绕宠物而不是人创作,更能让 AI 扬长避短,更不容易陷入恐怖谷。

它们不需要完全地拟人,也不需要和真实动物完全一致,哪怕稍显奇怪和夸张,善良的观众也会包容。

▲ 图片来自:X@Cheeseball_sol

AI 宠物并不是一条小众的赛道,巫师猫之前,这片沃土已被发掘。

当长辈向你催婚,追问等你老了谁照顾你,可以请他们看一段猫洗手作羹汤的 VCR。

▲ 图片来自:Instagram@kimbingmei__

连猫都有心事,草帽一戴成了酷盖,弹起吉他比《猫和老鼠》的汤姆多一分忧郁和深沉。

▲ 图片来自:Instagram@nico.m.ai

AI 提高了人们的生产力,让大家过得更快乐了吗?不好说,各有各的看法,但它确实改变了人们造梗和娱乐的方式。

这段时间,我的朋友圈流行一个 AI 特效:醒图 app 的「金箔岩彩」。它和猫猫狗狗的适配度很高,一键 get 新中式插画。甚至有铲屎官表示,不用花钱向画师约稿了。

AI 视频更是让人类的脑洞有了一万种落地的可能性,专业人士搞 AI 大片,挑战传统电影,但玩家们考虑怎么抽象和搞怪就可以了。

之前,海螺 AI 有个很出圈的视频,把经典电影桥段里的武器都变成冰淇淋,上一秒剑拔弩张,下一秒一笑泯恩仇,没有一个冰淇淋解决不了的问题,如果有,那就来两个。

▲ 图片来自:X@Martin_Haerlin

我们自己复刻个七八成也很简单,上传图片,再输入文字提示词即可,特效从未如此简单。

这是一个人人都是创作者的时代,二创也能有很好的体验,AI 放飞想象力又能满足成就感,真「我上我也行」。

为爱发电可以,变现需要自知之明

为爱发电固然快乐,但成年人需要考虑现实,换句话说,AI 宠物有没有变现的可能?

这和任何内容垂类一样,高质量的金字塔尖,才能接点广告植入。但因为 AI 创作的高度自由,AI 宠物是个百搭体质,业务范围还挺广,包括但不限于服饰、电脑、汽车、奶茶……

▲ 图片来自:小红书@橙子的橙啦

文案、图片为甲方讲故事固然好,也有更简单粗暴赚快钱的,先用讲 AI 猫咪小故事的短视频起号,时不时单发一条无关的广告。

当然,哪里也少不了卖课的。一些账号就像 AI 博主的周边,以月入几千甚至上万为噱头,分析变现思路和操作方法,然后拉群卖课,但它们自己的账号流量都低得可怜。

为了打破信息茧房,我加了一个吃这碗饭的小红书博主的群聊,由此知道,需要加微信,然后花近 700 元加入 AI 训练营,才能教你怎么 AI 视频号带货、AI 小红书壁纸变现……

无意贬低,把 AI 当副业可能竹篮打水一场空,但李一舟们证明了信息差确实赚钱。看这些博主整理的教程,先从注册账号开始,就差把饭喂到嘴里了。

但这里存在一个问题,免费的教程一搜一大堆,希望别人手把手教、抱着焦虑心态、相信速成品也会被市场买单的用户,很难创作出好的东西,反而可能是白交了学费。

AI 宠物的本质,其实就是用 AI 设计可以打动用户的 IP,然后再持续运营,讲出故事。

在盲盒爆火的时候,IP 需不需要故事就已经被讨论过一波。

泡泡玛特 CEO 王宁曾说:「现在年轻人的时间碎片化。Molly 这类 IP 降低了时间的门槛,一分钟,你知道你喜不喜欢它……」

▲将巫师猫变成可爱卡通风,图片来自:@BBIM_official

泡泡玛特的盲盒形象好歹也是艺术家精心设计的,AI 让创作 IP 形象更容易,但不代表可以轻易地打动用户。

之前我们采访过一位前游戏大厂员工、AI 游戏美术创作者。因为有专业背景,又热衷实践,所以上手 AI 对她来说不难。

▲ 图片来自:knowyourmeme

她更关心的是:你喜欢的风格,是不是大部分人也会喜欢?你设计的游戏人物 IP,有没有强烈的风格,能不能让大家记住?

AI 不是出不了好作品,但少不了时间和汗水。热点来了又走,焦虑长盛不衰,真正想要创造什么内容的人返璞归真——我们想要和需要用 AI 生成什么,我们怎么判断 AI 生成结果的好坏,以及,我们又愿意为之付出多少努力。

利若秋霜,辟除凶殃。 工作邮箱:zhangchengchen@ifanr.com

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


智能眼镜这个被忽略的功能,他们已经离不开了

By: 张成晨
26 October 2024 at 12:55

字幕,已经成了现代人的「外挂」。通勤嘈杂,摸鱼易露馅,学习会分心,听和看并用,才能避免进度条白白走了冤枉路。

然而,对一些人来说,字幕不只是锦上添花。

当《失控玩家》的男主角戴上眼镜,他看到了原本无法察觉的信息,不再是个被动的 NPC。

现实里也存在一种智能眼镜,可以提供「行走的弹幕」。尽管没那么科幻,但它同样通向一个信息量更大的世界。

我可以看到你说的话了

科技的意义在于,当上帝关上一道门的时候,打开一扇窗。

一位听障博主的开箱视频,在 TikTok 拿下了 80 万点赞,夙愿得偿,喜极而泣,最纯粹的情感迸发的力量,打动了素昧平生的观众。

▲ 图片来自:TikTok@chrissymarshall_

她手里拿着一个盒子,边笑边流泪,比着手语,努力地说出完整的句子:「我等待这个盒子里的技术很多年了。」

盒子里装的是一款字幕眼镜,外形和普通眼镜没什么两样,却让她可以「看到」周围的声音,那些过去听不清的声音,变成了一行行亮绿色的、科幻感的字幕。

根据视频里的信息,这位博主用的眼镜叫作 Hearview,专为听障人士设计,今年 5 月发布,来自国内的一家科技公司,但不面向国内,市场在海外。

它可以用来娱乐,看电影、看视频、看《黑神话:悟空》的游戏直播。

从刷《老友记》的体验视频来看,文本略有些滞后但准确,配对的手机 app 还可以区分不同的说话人。

同时,它也可以用在面对面的对话,方便听障人士在餐厅点餐、在超市购物、和导购聊天、开车时导航……

HearView 的原理说起来并不复杂,和手机 app 配对,通过智能手机的麦克风捕获声音,AI 算法实时语音转文字,字幕显示在眼镜上。

如果听障人士需要回复他人,可以在 app 输入消息,将文字转换成语音。过往的字幕,也保存在 app 中。

HearView 自称,语音转文字的准确性达到 95%,最远转录 10 米外的语音。说到这里,一个问题呼之欲出:菜市场等吵闹环境里表现会变差吗?

虽然 HearView 表示手机 app 具备噪音消除功能,但我翻遍了各种体验视频,并没有找到嘈杂环境里的实测,所以很难探究效果如何。

官网只提到了一些参数信息,续航 7 小时,重 52 克,适合全天佩戴,还配备了振动和视觉警告,提醒用户注意可能的危险。

轻便,耐用,听起来让人很想剁手,但它实在太贵,很难交个朋友——1799 美元,约 12800 元人民币。

而且,Hearview 存在很大的进步空间,目前它只支持英语和西班牙语,计划支持德语和法语,还不能实现语言的互相翻译。

文本的颜色只有亮绿色,虽然确保了在各种屏幕和照明条件下都可读,然而用户没有选择,就是美中不足。

但存在,便意味着价值。字幕早已是很多人生活的一部分,这还不够,它理应以更方便、直观的形式,陪伴在最需要的人左右。

字幕眼镜虽多,但生活里的挑战更多

实时字幕眼镜,其实并非新鲜事,放在 2 年前,甚至是一个热潮,诞生过不少有趣的项目,但都很难尽善尽美。

英国 AR 初创公司 XRAI,开发了兼容多款 AR 眼镜的语音转文字应用 XRAI Glass。

然而,《连线》杂志记者戴上一款和 XRAI Glass 兼容的 AR 眼镜后发现,语音转文字固然好,但使用过程中,总有这样那样的摩擦。

先是使用体验上的,如果佩戴人工耳蜗和助听器,再戴眼镜可能会不舒服,虽然这款 AR 眼镜已经很轻,但和普通眼镜相比依然厚重。

而且,语音转文字在背景噪音大和多人讲话的时候,效果并不好,实用性大打折扣。

价格也是一个问题,300 多美元的 AR 眼镜已经让钱包隐隐作痛,XRAI Glass 还需要每月花几十美元订阅套餐,像很多语音转文字的软件那样,只能说并不意外。

国内也有类似 Hearview 的产品——亮亮视野的听语者字幕眼镜,分为助听版和翻译版,可以理解普通话、方言和外语,并且支持跨语种翻译。

它的使用方式和 Hearview 相近,下载可译 app,眼镜和手机进行蓝牙配对,用 Wi-Fi 或者热点连接网络,手机端实时语音转文本,眼镜端显示文本。

不过有用户在 App Store 反馈,听语者对方言的支持还是不够多。这是一个非常必要、却也艰难的优化方向,听力不好、习惯说方言的老年人,恰恰最需要这类产品。

也有 YouTube 博主评测发现,听语者的语音识别率高,速度也快,但口音很重的话,识别率会变低。

▲图片来自:YouTube@科技小助手

如果不拘泥于眼镜的形态,耶鲁大学和斯坦福大学的学生设计的一个产品原型很有意思,叫作 Transcribe Glass。

它不是一副眼镜,而是一个平视显示器,可以卡在眼镜的镜框上,开箱即用,将设备连接到 iOS 和 Android 的配套 app,让用户选择自己喜欢的语音转文本软件。

生成的字幕会通过低功耗蓝牙传输到设备,并实时叠加在用户的现实视野中。难得的是定价也格外友好,95 美元,但连测试版都还在候补,直到现在也查不到落地的信息。

除了专注语音转文字的产品,面向所有人的多功能 AR 智能眼镜,往往也包含了字幕功能。

国内价位在两三千的一体化无线智能眼镜,基本都支持语音转文字和多种语言的实时翻译,但转译效率,可能不如专为听障人士打造的 AR 眼镜,持续开着语音转文字时,续航也是一个问题。

当我咨询某个头部的智能眼镜品牌,得到的答案是「不建议听障人士使用」。

▲10 月 22 日,咨询某智能眼镜品牌客服

其实,这种产品最适合大厂出手,特别是 Google,在语音识别、机器翻译和 AR 方面都有深厚的技术积累,实时语音转文字和翻译的能力都遥遥领先。

Google 在 2022 年 I/O 推出了一款可以实时翻译的 AR 眼镜,支持 24 种语言,甚至支持美国手语,字幕就在对话人旁边,不过也只是原型演示,没有下文了。

科技向善是字幕眼镜的大前提,种种的「吹毛求疵」,其实是抱着殷切的心情,希望产品不满现状,不断进化,再做一次,再改进一次,变得更好一点。

字幕是一种权利,像看电影一样看世界

世界卫生组织统计,全球约有 4.66 亿人患有听力损失,其中超过 900 万人为重度耳聋。

即使使用了人工耳蜗或助听器,听障人士理解别人在说什么,仍然需要集中注意力,同时,一些发音相近的词语,光靠唇读难以区分,在理想条件下,英语中只有约 40% 的语音信息,能通过说话者的唇部动作捕捉。

这也是为什么,一个听力障碍的世界,需要文字作为补充。很早之前,就有人为之努力了。

古巴裔美国默片演员艾默生·罗梅罗,同时也是一位听障人士,在 1947 年开创了有声电影的字幕。

默片时代,观众可以通过电影画面和插入的文本了解故事情节,但当有声电影兴起,许多像他一样的听障观众反而失去了看电影的机会,因为他们无法听到台词,电影又缺乏字幕。

于是,罗梅罗决定自己手工制作字幕:当时的电影通过胶片播放,他将胶片切片,并在帧之间插入带有字幕的图像。

后续的字幕技术,可以看作是罗梅罗精神的延续,同时,也有了更多方便听障人士看电影的设计,比如,一些美国电影院提供预制字幕的眼镜。

2012 年,索尼推出了一款提供给部分影院的 CC 字幕眼镜,与普通字幕不同,CC 字幕不仅包含对话内容,还包括非语言信息,如背景音乐、音效、环境声音。

这款眼镜在每侧配备小型投影仪,绿色的字幕看起来就像是漂浮在大银幕前。

观众无论坐在影院哪个位置,都可以清晰地看到字幕。用户还可以调整字幕的亮度、显示距离以及角度,切换六种语言。

这款眼镜甚至支持 3D,用户就不必多带副眼镜观看 3D 电影。这很重要,避免了一种鼻梁很忙的情况:同时戴着普通眼镜、3D 眼镜、CC 字幕眼镜看电影。

▲ 图片来自:Reddit@ellowTonkaTrunk,发布于 2022 年

这一幕有些讽刺,却像一个隐喻——以寻常的视角了解这个世界,一些人总需要付出更多。

还不够完美的、但未来可期的实时字幕眼镜,至少让我们看到了一种美好的可能。

韩国电影《寄生虫》导演奉俊昊曾在奥斯卡颁奖典礼说:「一旦你克服了 1 英寸高的字幕障碍,你将会看到更多精彩的电影。」

当电影里常见的字幕出现在生活里,它可以让需要的人看到更多的信息,并拥有不退出对话的权利。

Google 的翻译 AR 眼镜宣传片有一句话很打动人:我直视着你的眼睛,你看起来也在直视我的眼睛。

几乎没有存在感,便是科技的最好状态。

在保证高效、准确的前提下,交流还可以回归自然,不占双手,不需要低着头看手机,也不用一直盯着嘴唇,而是面对面,眼神接触,一如千万年前就有的模样。

利若秋霜,辟除凶殃。 工作邮箱:zhangchengchen@ifanr.com

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌
❌