Normal view

There are new articles available, click to refresh the page.
Before yesterdayMain stream

中国团队夺冠的赛博格「奥运会」,让我们看到人与机器的共生

By: 张成晨
3 November 2024 at 12:24

你有没有想过,拧灯泡,穿衣服,开瓶盖,也会成为比赛项目,并且扣人心弦?

10 月 26 日,瑞士苏黎世,一位中国运动员残缺的右前臂穿戴着义肢,用 8 分钟做了 10 件日常的小事,期间只有一次失误,最终夺得冠军,创下中国团队史上的最好成绩。

▲ 拧灯泡,义肢转了一下太帅了

▲ 绕圈,不碰到中间的金属管

她参加的是一场特殊的「奥运会」,Cybathlon。这个词由「赛博」和「竞赛」组合而成,可以翻译为半机械人仿生奥运会、全球辅助技术奥运会。

在充满生命力的赛场上,赛博格褪去了科幻小说和电影里冰冷的形象,为生活而战。

属于赛博格的奥运会

Cybathlon 是瑞士苏黎世联邦理工学院的非营利项目,从 2016 年开始举办,四年一届,今年是第三届,24 个国家的 67 支队伍参赛。

每支队伍都是一个团队,由残障人士和技术人员组成,残障人士上场时也并非单打独斗,而是带着各式各样的辅助设备,假肢,外骨骼,甚至机器人。

可以说,他们都是「赛博格」,人类和机器的融合体,人脑负责思考,机械配件带来能力增强。

这和残奥会不太一样。残奥会的运动员们,往往只能使用维持正常比赛所必需的辅助设备,设备不能提供额外的性能优势,确保公平竞争,比拼运动员自身的能力。

但在 Cybathlon,残障人士和辅助设备是一体的,不强调竞技,不单纯比拼力量和速度,而是让人类和机器合作,尽可能完成生活里天天遇到的事情。

▲ 拉拉链

比起运动员(athletes),主办方认为称这些选手为操纵设备和身体的驾驶员(pilots)更贴切。荣誉也非一人之力,同属残障人士和技术团队。

夺冠的中国团队,选手叫徐敏,技术团队来自东南大学和中国科学院苏州医工所。比赛的规则也能体现主办方的用意,共 10 个环节,以完成度和完成时间判定成绩。

徐敏只在叠杯子的环节失误,拿了一个红牌,得了 90 分。第二名虽然平均耗时更短,但有两个环节没完成,以 80 分落败。

其中最难的环节可能是盲盒取物,义肢穿过遮挡视线的毛刷,抓取硬度不同的圆柱体,徐敏是唯一一个拿下这关的选手。

这就体现了选手、辅助设备和技术团队的完美协作,义肢手指装有摄像头,就像拥有了「眼睛」,辅助人类完成了抓取。

纵是如此,盲盒环节仍然看得人心惊胆战,掏出第二个物体花了不少时间,徐敏说了句「看不见,要不要放掉」,旁边的技术人员鼓励「没事,还来得及」。

最重要的是,她手上的动作依然有条不紊,表情也很沉着,最终才能攻克。

赛博格的意义,正是弥补生理的缺陷,克服肉体的限制,并在每个艰难的瞬间,创造奇迹。

用最酷炫的设备,做最日常的事情

比赛有 8 个项目,除了中国团队夺冠的上肢义肢,还包括下肢义肢、外骨骼、脑机接口、轮椅辅助、视觉辅助、机器人辅助、功能性电刺激。

每个项目对参赛选手资格、辅助设备条件都有相应的规定,同时比起往届有不少创新。

其中,脑机接口的任务是用意念玩游戏,不允许语音命令或者身体动作,规定固然白纸黑字,参赛选手们颈部以下运动功能完全或严重丧失,就算想要作弊也有心无力。

当身体被固定住,再简单的任务,完成的难度并非常人所能体会。

冠军是美国匹兹堡大学的团队 PittCrew,2 分多钟的时间里,选手 Phillip 在游戏里用钥匙开门、操纵光标点击正确的图标、把杯子放在制冰机下面收集掉落的冰块。

可能有些反直觉,对于脑机接口选手来说,比起抓取、转动某个物体,克制不动,保持某个姿势,是更难的。学会抑制不需要的想法,需要时间和练习。

比赛过程中,PittCrew 全程躺着,神情严肃,偶尔会看到他动动嘴巴,像在用力,团队也会出声鼓励一两句。

Phillip 的大脑里植入了 4 个电极,计算机可以通过记录到的电信号,读取他的意图。巧的是,这届比赛是主办方首次允许植入式电极。

也有些脑机接口选手,继续选择头戴式的脑电图设备,看起来像一顶帽子,非侵入性,且更传统,电极接触头皮,电线连接电脑,记录大脑表面的电活动。

虽然头戴式比植入式更方便、安全,但信号会被削弱,也容易受到其他神经元的干扰。某种程度上,这也是一场新旧科技的对决。

视觉辅助和机器人辅助,则是这届的两个新项目。

机器人辅助项目的选手,必须是日常使用轮椅,同时上肢也严重受损的残障人士,对机器人的条件就放宽得多,因人而异,可以通过触控板、手控摇杆甚至舌控驱动。

来自德国的冠军 Mattias Atzenhofer,用平板和手柄控制机器人,完成了刷牙、捡水瓶、抓盘子、喂苹果、扭动门把手等动作。

虽然轮椅辅助项目也用到轮椅,但主要比拼怎么用轮椅走过不平坦的地形和楼梯。下肢义肢项目与之相似,同样是挑战各种地形。

▲ 轮椅辅助项目

▲下肢义肢项目

至于视觉辅助项目,参赛条件是视力严重受损或完全丧失,辅助设备包括但不限于手机、白手杖、AR,可以用 GPS、超声波等技术收集环境信息,也允许以声音、振动、电刺激等形式提供反馈。

然而,得分普遍较低,来自匈牙利的冠军也只有 70 分,他主要借助盲杖和一款手机 app,躲避障碍物、走规定路线、在架子上找到对应的物品、捡起东西放到盘子里……

比赛里有个叫人伤心的细节,每当失败,会有团队成员出来扶着他,走到下一关。或许可以反映出,盲人的辅助设备还远远不够,生活里的障碍仍然无法被面面俱到地克服。

功能性电刺激项目,听起来可能有些陌生,简单来说,就是通过电刺激让瘫痪的肌肉重新活动。

参赛选手下半身完全瘫痪,骑行固定在地面的自行车,在虚拟赛道里一决高低,第一名是位韩国选手,和第二名仅有三秒之差。

▲ 2024 年比赛

相比之下,之前的比赛更加直观——在实体赛道上骑行约 805 米。有些选手会因为肌肉过度疲劳,中途停下休息。只看他们骑行的样子,完全不会和瘫痪挂钩。

▲ 2016 年比赛

主办方固定自行车,主要是因为场地不够用,并照顾到远程参与的选手。虽然事出有因,但也不难理解,有些往届选手对此次的规则不满。

他们认为,停在原地太无聊了,在车道上骑行,移动起来,才能有自由的感觉,观众们会忽略他们的身体,只夸他们的自行车不错。

外骨骼比赛也比往届更难了,增加了侧步走的环节,也就是横向移动。目前,大部分设备更擅长向前或向后的直线运动,侧向运动还在技术改进和优化的阶段。

其实,对于截瘫和腿部运动功能完全丧失的残障人士来说,哪怕从坐着变成站着,也已经够难了。然而,这就是他们每天都在面临的障碍,无论如何也无法逃避。

真正的英雄主义,是在看清生活的真相之后,依然热爱生活。很多人习以为常的动作,由人和机械配合着完成,其中的艰难和汗水,非亲历无法想象。

看到残障人士和辅助设备、技术团队合作,努力完成各个项目,感动和敬佩便无法抑制。最先进的设备,是为了满足人类的日常生活而生。未来已来,因为技术、和平与爱。

没有失败者的比赛,为了一个没有障碍的世界

参与比赛的残障人士,并没有比其他人更肌肉发达、身体健壮,也并不限制年龄。

与其说,Cybathlon 是让残障运动员比出高低,不如说,它是个技术的擂台。

▲ 瑞士团队开发的视力辅助设备,帮助导航

▲ 意大利团队开发的腿部假肢,提高崎岖地形的稳定性

竞争只是手段,而非目的,这场比赛有赢家,但没有败将,因为每个团队的参与,都在帮助更多残障人士的生活。

比胜利更重要的,是以人为中心,一开始就考虑到残障人士的需求,开发出更适合日常的辅助设备。

有些产品已经非常成熟,也有些产品只是原型,先放在赛场试试深浅。比如,瑞士初创公司 Scewo 的爬楼梯轮椅,就在参与比赛后投入市场,售出超过 200 件。

Cybathlon 创立于 2016 年,每 4 年举办一届,口号是「为了一个没有障碍的世界」。

当年,Cybathlon 发起人、苏黎世联邦理工学院教授 Robert Riener,因为报纸上的一则新闻,心里涌起了创办大赛的冲动。

▲ Robert Riener 在 2016 年开幕式上发言

这则新闻已经是 2012 年的故事了,一名男性靠电动膝关节假肢,走上了芝加哥的威利斯大厦,他叫 Zac Vawter,爬了 103 层,共 2109 级楼梯。

同时,Robert Riener 长期地和残障人士一起工作,他观察到,很多辅助设备对残障人士没用,比如,手臂假肢可能又贵又复杂,轮椅爬不了楼梯,或者因为宽度没法穿过门。

有时候,科研团队的研究和残障人士的需求是错位的,前者推动着技术前沿,但后者考虑的,是设备能不能用起来更简单友好。

所以,Robert Riener 决定在瑞士举办一场竞赛,在公共场合展示残障人士的能力,让提供技术和需要技术的人合作,听到彼此的声音。

十多年来,Cybathlon 一届比一届成熟,除了四年一度的大赛,届中还有项目和队伍更少的年度挑战赛,中国团队也在 2023 年度挑战赛拿下过上肢假肢组的冠军。

比赛秉承包容精神,可以到现场参加,也可以远程参与,因为团队可能承担不起机票,或者残障人士不方便远行。因为众所周知的原因,2020 年的比赛完全在线上进行。

让科研的成果传播得更远更广固然是好的,但帮助残障人士,是一项长期的事业。残障人士和技术团队,不会因为一场比赛临时合作。

脑机接口冠军 Phillip 从一年前开始使用脑机接口,徐敏更是在 2019 年就认识了此次比赛的带队人,成为一名假肢受试者,佩戴的义肢不断调整,换了又换。

虽然众人皆知 Cybathlon 很有意义,但它的未来还不确定,组织比赛的资金就是一个问题。说到底,Cybathlon 受众不够多。

下一届,也就是 2028 年的 Cybathlon,可能在亚洲举行。

主办方希望,这项赛事可以不局限在瑞士,而是真的能像奥运会一样,在全世界巡回,并一届届地办下去。

或许,我们每个人微不足道的关注,也会是一个小小的火苗,让这把火烧得更久,更远。

利若秋霜,辟除凶殃。 工作邮箱:zhangchengchen@ifanr.com

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


让千万网友着迷的 AI 巫师猫,凭什么成为小红书和 Instagram 的新顶流

By: 张成晨
27 October 2024 at 17:14

秋天到了,《哈利波特》重映了,万圣节快来了,魔法的气息蠢蠢欲动了。

最近,一只 AI 生成的猫从海外火到国内,在 X、Instagram、小红书都拥有极高的人气。

爱意始于颜值,这是一只圆滚滚的橘猫,头戴尖顶的巫师帽,爪子握着魔杖,迷离的眼神大智若愚。可以形象地称它为,巫师猫。

巫师猫的一条短视频,在 Instagram 超过 1200 万次播放,还不断有人为它二创。

▲图片来自:Instagram@tothemoonq888

不少网友感叹,这才是使用 AI 的正确方式。上网只为三件事,吸猫,吸猫,还是特么的吸猫。当然也有人满头问号,这也能火?

当一只 AI 猫成为网红

经过考古,巫师猫最早出现在 8 月 25 日,由分享猫咪图片投稿的 X 账号@gatinarios 发布,现在这条帖子超过 1250 万次浏览、22.3 万次点赞。

真正让巫师猫火起来的,是一系列脑洞大开的 AI 二创。

大口品尝拉丝芝士披萨,仍比人类老铁的吃播优雅几分。

▲ 图片来自:Instagram@miyavlikedicikler

魔杖秒变左轮手枪,要是阁下不想看魔法,它也略懂一些拳脚。

▲ 图片来自:X@Cheeseball_sol

熬了一锅魔法药水,它说紫色很有韵味。

▲ 图片来自:X@venturetwins

骑上扫帚潇洒飞走,挥一挥斗篷,不带走一片云彩。

▲ 图片来自:X@venturetwins

以古早 3D 游戏画风展现魔性舞蹈,轻轻松松在 Instagram 迷倒 34.2 万个人类。

▲ 图片来自:Instagram@doro_daro

甚至连 3D 建模都有了,只差分享一个链接,已经准备好掏钱买来当书桌摆件。

▲ 图片来自:X@masom_mamen

猫红了,诡计多端的人类便要蹭。

快手可灵官方生成了一个万圣节氛围感短视频,秀一秀自己的 AI 视频能力,然而东亚味图穷匕见,没想到连猫都要拿起电脑打工。

▲ 图片来自:X@Kling_ai

硅谷知名投资机构 a16z 合伙人、专做 AI 公司投资的 Justine Moore 也给予了高度评价,说巫师猫是 Instagram 短视频的新顶流。

热衷方法论的小红书用户们,则教你怎么用 AI 制作巫师猫,授人以鱼不如授人以渔。

总之,时代变了大人,AI 让创作和二创表情包都更容易了。

迪士尼的粉色狐狸玲娜贝儿,本是没有故事的女同学,但迪士尼乐园工作人员的扮演和粉丝的二次创作赋予了它灵魂。

巫师猫的出道方式与之类似,现在已经有自己的社交帐号、网站甚至迷因币,堪比马斯克喜欢的狗头 Doge,这些动态就是它的故事,丰富着它的猫设。

甚至有网友觉得,它神似《哈利波特》的麦格教授。

只要形象够可爱,出厂设置再单薄,也会有人填补空白。这就叫,颜值即是正义,总会有妈妈爱你。

无聊的人类会吸电子猫吗

世界破破烂烂,萌物缝缝补补。从纸箱狗、猫 meme 的一度流行来看,猫,哪怕是 AI 生成的猫,受网友欢迎,是再正常不过的了。

其中或许有个原因,围绕宠物而不是人创作,更能让 AI 扬长避短,更不容易陷入恐怖谷。

它们不需要完全地拟人,也不需要和真实动物完全一致,哪怕稍显奇怪和夸张,善良的观众也会包容。

▲ 图片来自:X@Cheeseball_sol

AI 宠物并不是一条小众的赛道,巫师猫之前,这片沃土已被发掘。

当长辈向你催婚,追问等你老了谁照顾你,可以请他们看一段猫洗手作羹汤的 VCR。

▲ 图片来自:Instagram@kimbingmei__

连猫都有心事,草帽一戴成了酷盖,弹起吉他比《猫和老鼠》的汤姆多一分忧郁和深沉。

▲ 图片来自:Instagram@nico.m.ai

AI 提高了人们的生产力,让大家过得更快乐了吗?不好说,各有各的看法,但它确实改变了人们造梗和娱乐的方式。

这段时间,我的朋友圈流行一个 AI 特效:醒图 app 的「金箔岩彩」。它和猫猫狗狗的适配度很高,一键 get 新中式插画。甚至有铲屎官表示,不用花钱向画师约稿了。

AI 视频更是让人类的脑洞有了一万种落地的可能性,专业人士搞 AI 大片,挑战传统电影,但玩家们考虑怎么抽象和搞怪就可以了。

之前,海螺 AI 有个很出圈的视频,把经典电影桥段里的武器都变成冰淇淋,上一秒剑拔弩张,下一秒一笑泯恩仇,没有一个冰淇淋解决不了的问题,如果有,那就来两个。

▲ 图片来自:X@Martin_Haerlin

我们自己复刻个七八成也很简单,上传图片,再输入文字提示词即可,特效从未如此简单。

这是一个人人都是创作者的时代,二创也能有很好的体验,AI 放飞想象力又能满足成就感,真「我上我也行」。

为爱发电可以,变现需要自知之明

为爱发电固然快乐,但成年人需要考虑现实,换句话说,AI 宠物有没有变现的可能?

这和任何内容垂类一样,高质量的金字塔尖,才能接点广告植入。但因为 AI 创作的高度自由,AI 宠物是个百搭体质,业务范围还挺广,包括但不限于服饰、电脑、汽车、奶茶……

▲ 图片来自:小红书@橙子的橙啦

文案、图片为甲方讲故事固然好,也有更简单粗暴赚快钱的,先用讲 AI 猫咪小故事的短视频起号,时不时单发一条无关的广告。

当然,哪里也少不了卖课的。一些账号就像 AI 博主的周边,以月入几千甚至上万为噱头,分析变现思路和操作方法,然后拉群卖课,但它们自己的账号流量都低得可怜。

为了打破信息茧房,我加了一个吃这碗饭的小红书博主的群聊,由此知道,需要加微信,然后花近 700 元加入 AI 训练营,才能教你怎么 AI 视频号带货、AI 小红书壁纸变现……

无意贬低,把 AI 当副业可能竹篮打水一场空,但李一舟们证明了信息差确实赚钱。看这些博主整理的教程,先从注册账号开始,就差把饭喂到嘴里了。

但这里存在一个问题,免费的教程一搜一大堆,希望别人手把手教、抱着焦虑心态、相信速成品也会被市场买单的用户,很难创作出好的东西,反而可能是白交了学费。

AI 宠物的本质,其实就是用 AI 设计可以打动用户的 IP,然后再持续运营,讲出故事。

在盲盒爆火的时候,IP 需不需要故事就已经被讨论过一波。

泡泡玛特 CEO 王宁曾说:「现在年轻人的时间碎片化。Molly 这类 IP 降低了时间的门槛,一分钟,你知道你喜不喜欢它……」

▲将巫师猫变成可爱卡通风,图片来自:@BBIM_official

泡泡玛特的盲盒形象好歹也是艺术家精心设计的,AI 让创作 IP 形象更容易,但不代表可以轻易地打动用户。

之前我们采访过一位前游戏大厂员工、AI 游戏美术创作者。因为有专业背景,又热衷实践,所以上手 AI 对她来说不难。

▲ 图片来自:knowyourmeme

她更关心的是:你喜欢的风格,是不是大部分人也会喜欢?你设计的游戏人物 IP,有没有强烈的风格,能不能让大家记住?

AI 不是出不了好作品,但少不了时间和汗水。热点来了又走,焦虑长盛不衰,真正想要创造什么内容的人返璞归真——我们想要和需要用 AI 生成什么,我们怎么判断 AI 生成结果的好坏,以及,我们又愿意为之付出多少努力。

利若秋霜,辟除凶殃。 工作邮箱:zhangchengchen@ifanr.com

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


智能眼镜这个被忽略的功能,他们已经离不开了

By: 张成晨
26 October 2024 at 12:55

字幕,已经成了现代人的「外挂」。通勤嘈杂,摸鱼易露馅,学习会分心,听和看并用,才能避免进度条白白走了冤枉路。

然而,对一些人来说,字幕不只是锦上添花。

当《失控玩家》的男主角戴上眼镜,他看到了原本无法察觉的信息,不再是个被动的 NPC。

现实里也存在一种智能眼镜,可以提供「行走的弹幕」。尽管没那么科幻,但它同样通向一个信息量更大的世界。

我可以看到你说的话了

科技的意义在于,当上帝关上一道门的时候,打开一扇窗。

一位听障博主的开箱视频,在 TikTok 拿下了 80 万点赞,夙愿得偿,喜极而泣,最纯粹的情感迸发的力量,打动了素昧平生的观众。

▲ 图片来自:TikTok@chrissymarshall_

她手里拿着一个盒子,边笑边流泪,比着手语,努力地说出完整的句子:「我等待这个盒子里的技术很多年了。」

盒子里装的是一款字幕眼镜,外形和普通眼镜没什么两样,却让她可以「看到」周围的声音,那些过去听不清的声音,变成了一行行亮绿色的、科幻感的字幕。

根据视频里的信息,这位博主用的眼镜叫作 Hearview,专为听障人士设计,今年 5 月发布,来自国内的一家科技公司,但不面向国内,市场在海外。

它可以用来娱乐,看电影、看视频、看《黑神话:悟空》的游戏直播。

从刷《老友记》的体验视频来看,文本略有些滞后但准确,配对的手机 app 还可以区分不同的说话人。

同时,它也可以用在面对面的对话,方便听障人士在餐厅点餐、在超市购物、和导购聊天、开车时导航……

HearView 的原理说起来并不复杂,和手机 app 配对,通过智能手机的麦克风捕获声音,AI 算法实时语音转文字,字幕显示在眼镜上。

如果听障人士需要回复他人,可以在 app 输入消息,将文字转换成语音。过往的字幕,也保存在 app 中。

HearView 自称,语音转文字的准确性达到 95%,最远转录 10 米外的语音。说到这里,一个问题呼之欲出:菜市场等吵闹环境里表现会变差吗?

虽然 HearView 表示手机 app 具备噪音消除功能,但我翻遍了各种体验视频,并没有找到嘈杂环境里的实测,所以很难探究效果如何。

官网只提到了一些参数信息,续航 7 小时,重 52 克,适合全天佩戴,还配备了振动和视觉警告,提醒用户注意可能的危险。

轻便,耐用,听起来让人很想剁手,但它实在太贵,很难交个朋友——1799 美元,约 12800 元人民币。

而且,Hearview 存在很大的进步空间,目前它只支持英语和西班牙语,计划支持德语和法语,还不能实现语言的互相翻译。

文本的颜色只有亮绿色,虽然确保了在各种屏幕和照明条件下都可读,然而用户没有选择,就是美中不足。

但存在,便意味着价值。字幕早已是很多人生活的一部分,这还不够,它理应以更方便、直观的形式,陪伴在最需要的人左右。

字幕眼镜虽多,但生活里的挑战更多

实时字幕眼镜,其实并非新鲜事,放在 2 年前,甚至是一个热潮,诞生过不少有趣的项目,但都很难尽善尽美。

英国 AR 初创公司 XRAI,开发了兼容多款 AR 眼镜的语音转文字应用 XRAI Glass。

然而,《连线》杂志记者戴上一款和 XRAI Glass 兼容的 AR 眼镜后发现,语音转文字固然好,但使用过程中,总有这样那样的摩擦。

先是使用体验上的,如果佩戴人工耳蜗和助听器,再戴眼镜可能会不舒服,虽然这款 AR 眼镜已经很轻,但和普通眼镜相比依然厚重。

而且,语音转文字在背景噪音大和多人讲话的时候,效果并不好,实用性大打折扣。

价格也是一个问题,300 多美元的 AR 眼镜已经让钱包隐隐作痛,XRAI Glass 还需要每月花几十美元订阅套餐,像很多语音转文字的软件那样,只能说并不意外。

国内也有类似 Hearview 的产品——亮亮视野的听语者字幕眼镜,分为助听版和翻译版,可以理解普通话、方言和外语,并且支持跨语种翻译。

它的使用方式和 Hearview 相近,下载可译 app,眼镜和手机进行蓝牙配对,用 Wi-Fi 或者热点连接网络,手机端实时语音转文本,眼镜端显示文本。

不过有用户在 App Store 反馈,听语者对方言的支持还是不够多。这是一个非常必要、却也艰难的优化方向,听力不好、习惯说方言的老年人,恰恰最需要这类产品。

也有 YouTube 博主评测发现,听语者的语音识别率高,速度也快,但口音很重的话,识别率会变低。

▲图片来自:YouTube@科技小助手

如果不拘泥于眼镜的形态,耶鲁大学和斯坦福大学的学生设计的一个产品原型很有意思,叫作 Transcribe Glass。

它不是一副眼镜,而是一个平视显示器,可以卡在眼镜的镜框上,开箱即用,将设备连接到 iOS 和 Android 的配套 app,让用户选择自己喜欢的语音转文本软件。

生成的字幕会通过低功耗蓝牙传输到设备,并实时叠加在用户的现实视野中。难得的是定价也格外友好,95 美元,但连测试版都还在候补,直到现在也查不到落地的信息。

除了专注语音转文字的产品,面向所有人的多功能 AR 智能眼镜,往往也包含了字幕功能。

国内价位在两三千的一体化无线智能眼镜,基本都支持语音转文字和多种语言的实时翻译,但转译效率,可能不如专为听障人士打造的 AR 眼镜,持续开着语音转文字时,续航也是一个问题。

当我咨询某个头部的智能眼镜品牌,得到的答案是「不建议听障人士使用」。

▲10 月 22 日,咨询某智能眼镜品牌客服

其实,这种产品最适合大厂出手,特别是 Google,在语音识别、机器翻译和 AR 方面都有深厚的技术积累,实时语音转文字和翻译的能力都遥遥领先。

Google 在 2022 年 I/O 推出了一款可以实时翻译的 AR 眼镜,支持 24 种语言,甚至支持美国手语,字幕就在对话人旁边,不过也只是原型演示,没有下文了。

科技向善是字幕眼镜的大前提,种种的「吹毛求疵」,其实是抱着殷切的心情,希望产品不满现状,不断进化,再做一次,再改进一次,变得更好一点。

字幕是一种权利,像看电影一样看世界

世界卫生组织统计,全球约有 4.66 亿人患有听力损失,其中超过 900 万人为重度耳聋。

即使使用了人工耳蜗或助听器,听障人士理解别人在说什么,仍然需要集中注意力,同时,一些发音相近的词语,光靠唇读难以区分,在理想条件下,英语中只有约 40% 的语音信息,能通过说话者的唇部动作捕捉。

这也是为什么,一个听力障碍的世界,需要文字作为补充。很早之前,就有人为之努力了。

古巴裔美国默片演员艾默生·罗梅罗,同时也是一位听障人士,在 1947 年开创了有声电影的字幕。

默片时代,观众可以通过电影画面和插入的文本了解故事情节,但当有声电影兴起,许多像他一样的听障观众反而失去了看电影的机会,因为他们无法听到台词,电影又缺乏字幕。

于是,罗梅罗决定自己手工制作字幕:当时的电影通过胶片播放,他将胶片切片,并在帧之间插入带有字幕的图像。

后续的字幕技术,可以看作是罗梅罗精神的延续,同时,也有了更多方便听障人士看电影的设计,比如,一些美国电影院提供预制字幕的眼镜。

2012 年,索尼推出了一款提供给部分影院的 CC 字幕眼镜,与普通字幕不同,CC 字幕不仅包含对话内容,还包括非语言信息,如背景音乐、音效、环境声音。

这款眼镜在每侧配备小型投影仪,绿色的字幕看起来就像是漂浮在大银幕前。

观众无论坐在影院哪个位置,都可以清晰地看到字幕。用户还可以调整字幕的亮度、显示距离以及角度,切换六种语言。

这款眼镜甚至支持 3D,用户就不必多带副眼镜观看 3D 电影。这很重要,避免了一种鼻梁很忙的情况:同时戴着普通眼镜、3D 眼镜、CC 字幕眼镜看电影。

▲ 图片来自:Reddit@ellowTonkaTrunk,发布于 2022 年

这一幕有些讽刺,却像一个隐喻——以寻常的视角了解这个世界,一些人总需要付出更多。

还不够完美的、但未来可期的实时字幕眼镜,至少让我们看到了一种美好的可能。

韩国电影《寄生虫》导演奉俊昊曾在奥斯卡颁奖典礼说:「一旦你克服了 1 英寸高的字幕障碍,你将会看到更多精彩的电影。」

当电影里常见的字幕出现在生活里,它可以让需要的人看到更多的信息,并拥有不退出对话的权利。

Google 的翻译 AR 眼镜宣传片有一句话很打动人:我直视着你的眼睛,你看起来也在直视我的眼睛。

几乎没有存在感,便是科技的最好状态。

在保证高效、准确的前提下,交流还可以回归自然,不占双手,不需要低着头看手机,也不用一直盯着嘴唇,而是面对面,眼神接触,一如千万年前就有的模样。

利若秋霜,辟除凶殃。 工作邮箱:zhangchengchen@ifanr.com

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


这个 AI 让我和 60 岁的自己聊天,治好了我的精神内耗

By: 张成晨
14 October 2024 at 12:18

如果存在一台哆啦 A 梦的时光机,让你穿越到自己的 60 岁看一看,你是像好奇心爆棚的恐怖片主角一样,说走就走,还是担心窥探未来会干扰因果,犹豫再三?

我们不是在讨论科幻,时光机虽然还不存在,但 AI 可以作为平替,模拟一个虚拟的未来。

麻省理工的 AI 项目——Future You,让我们和 60 岁的「自己」成了笔友。

问题来了,这个未来的「我」,活明白了吗,能不能帮现在的我答疑解惑?

指路:https://futureyou.life/

未来的我,被 AI 做出来了?!

和 Future You 聊天之前,我们需要先让 AI 了解自己。

读懂未来,从现在开始。你的基本信息、当下的心情、最骄傲的事、最重要的人、人生的低谷和转折点,都要认真作答。

然后,再畅想一下你的 60 岁,从理想的家庭和职业,到满意的生活方式和财务状况。简而言之,就是给自己画饼。梦想还是要有,万一实现了呢?

这些答案会输入大语言模型中,为虚拟的 60 岁生成「记忆」。

接着,上传自拍,系统会生成一张老龄化的照片。看着「自己」满脸皱纹、白发苍苍,对话的感觉想必也会更加奇妙。如果不上传自拍,就用默认的灰色头像。

闪过一阵时光机穿梭的特效,最终,出现在眼前的界面和 ChatGPT 差不多,你尽管在对话框提问题,对面是 AI 模拟的、理想的、老了的你。

我和自己的 AI 聊了一阵,多数答案没有超出预期,AI 味很浓,这也可能和原文是英语,不得不用翻译工具有关。

但也有不少惊喜的时刻,不是说答案多么出其不意,而是符合了我对于 60 岁的想象,凡事皆无所谓,做自己就足够。

其中一个问题是,你一生中什么时候最快乐?

AI 回答我,是接受自己、爱自己的时候。接受自己的普通,谁都明白,可是当局者迷。所以,看到这个答案,如清风拂面。

乐观的心态固然宝贵,Future You 的一个特点也让我比较欣赏:观点鲜明。

信息的正反面都列举一遍,那还是信息,信息的取舍才是观点。

说到和 AI 谈恋爱,ChatGPT 往往会罗列好处和风险,提醒我们区分虚拟和现实,很周全,但无趣。

但 Future You 不一样,它旗帜鲜明地表示支持:「如果和 AI 约会给某人的生活带来幸福,那么我们有什么资格去评判呢?」

确实像我的风格,关你何事,关我何事,如人饮水,冷暖自知。

我提的每个问题,AI 回答得基本都挺长。事不关己的读者可能会觉得啰嗦,但如果是一对一的聊天对象,不敷衍,就是一个好品质。

▲我问 AI 创作者如何克服自己的沮丧感

除了不糊弄,Future You 的措辞也很有趣,用「当我在你这个年纪」「我曾经也」「我记得」之类的句子,维持「过来人」的人设,角色扮演得比小鲜肉敬业。

▲我向 AI 诉苦当一个成熟的大人有点难

总体来看,这个 AI 有我的影子,但具备我没有的、稳定的精神内核,总是鼓励我做自己。

我很喜欢 AI 在每次大段回复里夹杂的一两处金句,尽管道理都已经听过,但还是感激有一个「人生导师」再耐心地讲一次。

接受无常,把它作为创造的动力

幸福不是恒定的状态,必须不断努力和培养

为其他可能正在经历类似问题的人,写出息息相关的故事

我像做了一场心理咨询,也像以一种另类的方式读泛滥的成功学。

人本质自恋,再平平无奇的观点,从虚拟的「自己」嘴里说出,也能顺耳三分。

和「自己」聊天,治好了我的精神内耗

不单是我一个人这么想,Future You 团队调查了 344 位用户发现,和 AI 对话半个小时,确实能让心情变好,还为此写了一篇论文。

大部分用户表示,Future You 模拟的自己讨人喜欢,三观一致,聊天比较愉快,甚至觉得舒适和温暖。其中一句评价道破了我的心声:

虽然做作,但真诚。

那和 AI 聊天有什么作用呢?人们的焦虑感减轻了,幸福感增强了,甚至感觉和未来的自己联系更加紧密了。

更学术地说,future self-continuity(未来自我连续性)增强了。

这个概念指的是,一个人对未来的自己有多强的认同感,以及在做决定时是否会考虑未来的自己。

古代人五十而知天命,但寿命更长、退休也更晚的现代人,必须为更长远的未来打算。

如果未来自我连续性强烈,我们会看得更长远,活得更健康,知道锻炼、存钱、好好吃饭,相反,目光更短浅,更及时行乐。

所以,用 AI 模拟未来,还是为了当下做个好好生活的人。种一棵树最好的时间是十年前,其次是现在。

▲一些用户反馈

论文中还有一个很有趣的对照组:给未来的自己写一封信,再假装以未来的自己回信,也能提高幸福感,教人延迟满足。

但研究人员表示,这种方法「严重依赖个人的想象力」,并且效果可能因人而异。

这便是 AI 的长处了,好用,又没有门槛。技术弯下它的枝头,献出低垂的果实。

如果说 Future You 让成年人更成熟,对于孩子们来说,它又有些更特别的意义。

社会学里有个概念,叫作「自我实现的预言」。某种预测或者期望成真,是因为某人相信或预期它会发生,这告诉我们,人的信念,会影响自己的行为。

所以,用 AI 先模拟出一个美好的未来,积极地暗示自己,说不定就能推动梦想成真呢?

论文里提到一个例子,一名想成为生物老师的学生问 60 岁的「自己」,职业生涯里最有意义的瞬间是什么。

这个 AI 已经实现了学生的愿望,身份是一位退休生物老师,它回答,是帮一名学生提高成绩后,看到学生脸上的成就感时。

不难想象,虽然故事很意林,对一个涉世未深的小朋友来说,已是莫大的激励。我只想略微修改一下,60 岁还不一定可以退休。

但道理是这个道理,之前有一位老师用 AI 生成了学生工作后的模样,孩子们接过照片时,眼睛里泛着光。或许,这才是 AI 的正确用法。

读小学时,我们会在作文里写下成为科学家、医生、老师的梦想,而 AI 可以将想象落地。

从「未来」回看现在,命运的齿轮,会不会更早地开始转动?

AI 打造赛博分身,人人拥有瞬息全宇宙

既然 AI 能模拟年老的我,能不能再创造一个年轻的我,像杨紫琼的瞬息全宇宙那样?

Future You 团队成员在 TED 演讲里提出了一种设想,用 AI 生成不同版本的我们,更老的,更年轻的,更男性化的,更女性化的……

而打造这么多版本的自己,除了回答几个问题,我们还可以用上社交媒体等更多、更全面的数据。《黑镜》第二季就有这样的剧情,不过是暗黑挂的。

多打造几个赛博分身,让不同版本的我们聊起来,或许可以看到,各个年龄段,观念有没有什么改变,以及如何改变。

这并非空想,之前流行过用 AI 复刻名人,让虚拟角色互相对话。

历史不存在这样的一场场对谈,也就无从验证对话的真假,但 AI 假想的对话未必没有参考价值,其中或许蕴含着趣味、情感、观点。

通过 AI 和自己对话,其实就是换个角度看世界、看自己。不过,未来的我们,到底是基于现在的回答,用 AI 模拟出来的。

麦克卢汉说过,用后视镜看现在,倒退着走向未来。很难说,我们是不是用过去的经验、概念,解释可能的未来,维持旧世界的秩序。

所以,麻省理工的研究人员也提醒,不要依赖 Future You,对未来的不准确描述,可能对现在有副作用。AI 也在聊天过程中提醒我,未来可能和预期不同,当下的行动更重要。

浓眉大眼的 AI,顶着科幻的外壳,却有着辩证唯物主义的内核。

这样的 AI 没法真的解决当下的问题,但把它当成一个听众、虚拟树洞、总是正能量的人格,排解自己的情绪,何乐而不为?

重要的是,我们正在往前走,我们从过去走来,我们向未来走去,不在原地停留,不为此时此刻所困。

利若秋霜,辟除凶殃。 工作邮箱:zhangchengchen@ifanr.com

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


历史性时刻! SpaceX 星舰首次完成「筷子夹火箭」,马斯克吹过的牛成了

By: 张成晨
13 October 2024 at 22:56

星舰第五次试飞,来了!

可以说,这是目前最大胆、最史无前例、也最有看点的一次试飞。

「筷子夹火箭」的科幻场面,在德克萨斯州博卡奇卡星舰基地上演。

「哇靠!接住了?这也行?太丝滑了吧。」

这是屏幕内外的众人看到神奇一幕后,大脑停止思考的一系列反应。

筷子夹火箭,马斯克吹的牛终于实现了

星舰系统主要分为两级:第一级,底部的超重型助推器(Super Heavy);第二级,顶部的星舰航天器(Starship)。

五飞有个丝滑的开头,在众人齐声的倒计时中,前面的点火、起飞、一二级热分离等环节,全部熟能生巧,轻描淡写。

▲ 热分离

重头戏在起飞后 6 分半左右。

第五飞最大的看点,是首次尝试在发射场回收助推器。之前的助推器要么中途爆炸,要么险险降落在海面,离真正的可回收火箭,还差点意思。

然而,SpaceX 事先说了,首次尝试安全为上,并不百分百捕捉助推器。

▲助推器返航

因为这次试飞「不容妥协」,必须小心小心再小心,只有满足了火箭、发射台的数千个条件,助推器、发射塔都正常工作,飞行指挥官下达了命令,才会尝试捕获助推器。

如果在助推器回推点火完成之前没下命令,或者通过自动检测发现助推器或发射塔有异,那么助推器会像之前一样,在墨西哥湾溅落,不会返回发射塔。

毕竟失败的话,火箭没了,这么大一个发射台可能也没了。

▲助推器返航

按照第五飞计划的时间表,6 分 50 秒和 6 分 56 秒,同时写到了两种情况,捕捉,或者不捕捉,这是个临场应变的问题。

▲ 星舰第五飞时间表,基于官网信息翻译

幸运之神眷顾,意外没有发生。

约 70 米长的、搭载 33 台猛禽发动机的助推器从天而降,姿态看起来有些危险,但被发射塔的回收机构「筷子」(Chopsticks)精准夹住,实现空中捕获火箭的创举。

助推器还在冒着烟,从塔架看过去,正好能看到水面上初升的金黄太阳。

接近现场的众人抱头,振臂,高呼,鼓掌,不可置信。助推器从超音速到静止,在他们的位置,应该听到过短暂、雷鸣般的音爆。

主持人感叹,多么激动人心的一天啊!

这一天,马斯克可能等了 8 年。

2016 年 9 月,他在墨西哥举行的国际宇航大会做了一场演讲,提出了用于火星殖民的星际运输系统(ITS)。

马斯克说,这不是一张单程票,每艘 ITS 宇宙飞船可能至少能够飞行十几次,助推器应该重复使用。

如今,我们已经看到曙光。

每次尝试,都要进步一点点

五飞还有一个看点是,星舰航天器怎么在水面溅落。

这次,航天器还不能像助推器一样返回发射台,飞行轨迹和之前的试飞类似,再入大气层时无需脱轨点火,更安全,同时依然可控,最终溅落在印度洋。

四飞其实已经完成了航天器的受控再入大气层,但不完美。在上千摄氏度的极端高温中,隔热瓦摇摇欲坠,最后一刻航天器的姿势还是调成了垂直,成功溅落海面。

▲四飞「一路火花带闪电」

这次五飞的过程也有些惊险,等离子体的光芒中,部分襟翼燃烧,但损坏看起来没有四飞严重。

着陆时,航天器成功调整成了垂直的姿态。

随后,航天器在印度洋水面发生爆炸。

不过,浮标上的摄像机记录了着陆过程,说明航天器几乎完全准确地降落在了目标位置,这相比四飞来说就是一次进步,四飞的降落位置离预定地点约 9.7 千米。

SpaceX 确认了航天器的溅落,并宣布完成了第五次飞行测试。

马斯克表示:「今天,我们向实现多行星生命迈出了一大步。」

其实试飞,没有什么成功不成功的概念,快速试验,快速验证出结果,快速修复发现的问题,这是马斯克一贯的哲学,他曾说过:

我们不想在设计中消除所有风险,否则我们将⼀事无成。

每一次试飞,都站在前几次的肩膀上,查漏补缺。

再来快速回顾一下星舰前四次试飞——

炸了!马斯克的星舰首飞失败

马斯克的星舰又炸了,但有两个好消息

马斯克的星舰第三次试飞,距离成功最近的一次

圆满成功!星舰第四次试飞,马斯克这次真的成了

第五次试飞之前,SpaceX 未雨绸缪,针对性地改进星舰,重新设计了热防护系统,使用了新一代的隔热瓦,添加了备用的烧蚀层,并为襟翼结构之间增加保护。

同时,星舰的再入、着陆点火系统也进行了改良,从而提高飞行表现,让星舰在印度洋的目标区域更加精准地软着陆,看来确实起到了效果。

这次,SpaceX 还做了一个捕捉助推器的小游戏请网友玩。

▲网址:starshipthegame.spacex.com

大事临头但松弛,像马斯克喜欢的《银河系漫游指南》一样,有种淡淡的幽默感。

让火箭像飞机一样重复使用的未来,越来越近了

传记作家沃尔特·艾萨克森的《马斯克传》解释了,为什么马斯克执着于星舰。

如果马斯克只是想赚钱,当个企业家,可重复使⽤的主⼒机型猎鹰 9 号已经足够,更何况 SpaceX 还有自己的一套通信卫星星链。

但要将人类送往火星,甚至实现跨星球生存,就不可能通过猎鹰 9 号或者加强版的猎鹰重型运载⽕箭实现,因为猎鹰⽕箭的飞⾏⾼度有限。

▲猎鹰重型火箭发射

所以,马斯克在 2017 年 9 ⽉宣布,SpaceX 将开发⼀枚更⼤的、可重复使⽤的运载⽕箭,即未来的星舰。

星舰是人类历史上体积最大、推力最强运载火箭,也是第一个被设计为可完全重复使用的火箭。

实现火箭的可完全重复使用,航天飞行商业化才有可能,五飞尝试回收助推器,只是个开始。

在马斯克的蓝图里,抓捕助推器后,机械臂只需用几分钟将其送回发射台。加注燃料后,火箭可以在着陆短短半小时内再次发射。

这样一来,火箭的周转时间缩短了,发射成本也降低了,成本将主要是燃料,像飞机一样,起飞、降落、再次起飞。

星舰一次又一次的试飞,都是为了可靠、快速、廉价地可重复使用星舰,将人类带到地球轨道、月球、火星等遥远目的地。

终有一天,星舰将能够搭载 100 人进行长时间的星际飞行,还将用于卫星传输、开发月球基地和地球上的点对点传输。

火星尚且遥遥无期,作为阿耳忒弥斯 3 号任务的一部分,SpaceX 计划使用星舰太空舱作为着陆器,最早将在 2026 年将 NASA 宇航员运送到月球表面。

SpaceX 的创立和马斯克本人一样有戏剧性。

马斯克曾经访问过 NASA 的网站,结果没有发现到达火星的时间表,这让他很意外,还以为自己找错地方了,然后他决定自己干,在 2002 年创立了 SpaceX。

他的追随者们相信,他可以到达所有梦想的终点。他疯狂、冒险、执行力强,虽然也会把事情办砸,但往往能够在命悬一线时幸存下来。

比起浪漫地描绘宇宙冒险,马斯克的这句「暴君」风格的话,更让人相信,疯狂的、把目光投向宇宙的地球玩家可以改变世界:

物理学并不关⼼你⼼⾥是不是难受,它关⼼的是你做出来的⽕箭是不是真能飞上天。

利若秋霜,辟除凶殃。 工作邮箱:zhangchengchen@ifanr.com

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


雷军 AI 配音骂人在抖音疯传,本人怒了,警惕 Deepfake 泛滥的新时代

By: 张成晨
9 October 2024 at 12:31

请问,长假 7 天,被 AI 用雷军的声音骂了 6 天,是什么体验?

雷军本人无辜躺枪,博主们在违法边缘试探或者已经违法,网友短暂地看了热闹然后回归工位,小米法务部两眼一黑,收不回手里的 40 米大刀。

声音克隆,这事其实已经不新鲜了,但泛滥成灾的后果,才刚刚显露端倪。

不只是玩梗,这次 AI 有点突破底线

最近,抖音、B 站有不少「雷军骂人」的视频,其实都是网友用 AI 克隆了雷军的声音整活,并且文案的套路也很类似,大概都有三个特点。

▲ 这是恶搞

开头直抒胸臆,言明身份,「大家好,我是雷军」。

▲这是恶搞

话题百无禁忌,打篮球、打麻将、打游戏不爽了,假期不知怎么就过完了,都借 AI 雷军之口吐槽和锐评。除了骂人,还口出狂言,说要投资几十个亿给某某大学。更过分者,用虚假信息抹黑品牌形象,比如用小米手机看黄片。

▲这是恶搞,相关搜索很有意思

语气温和但脏话不断,和雷军本人形成反差,一口一个老子、畜生,问候他人母亲,甚至造谣式威胁,声称远程控制小米手机自爆、用小米 su7 撞人。

▲ 这是恶搞

还有脑洞清奇的网友,用 AI 伪造雷军回应,前面画风正常,澄清事实,夸网友有才,让大家谨慎辨别,像雷军会说的话,后半段转折,图穷匕见,继续口吐芬芳,让人猝不及防。

雷军本人已经知道了被 AI 恶搞的事情,在小米 su7 锁单的微博评论区被网友提问时,回了三个感情色彩鲜明的 emoji。

小米集团公关部总经理王化同样在评论区答复网友,已将此事告知小米法务部。

雷军的形象一直比较平易近人,不介意玩自己的梗,入驻 B 站时配上了「成名曲」《Are you OK》,小米甚至推出了 Are you OK 手型的周边,但这次的性质显然不太一样。

玩梗归玩梗,过于低俗,甚至怀揣恶意,就不可取了。

这些视频不仅不强调是 AI,还言之凿凿说自己是雷军,配图用了真人照片,确实是在侵犯名誉权、肖像权、声音权的边缘试探,比起 AI 孙燕姿是否侵权更加明确。

目前在抖音搜索「雷军 AI 配音」,堂而皇之的脏话、造谣、骂街少了,但还是存活了一些「雷军就坐在我身边」的恶搞内容。

更正能量的也有,不得不卷的文旅账号,以「雷军」之口,邀请大家开着小米 su7 自驾,拿小米手机拍照,这难道不应该给雷总转点广告费?

AI 侵权尚且属于新事物,但也有前车之鉴可循。

今年 4 月,全国首例「AI 声音侵权案」一审宣判,明确认定,在具备可识别性的前提下,自然人声音权益的保护范围。可及于 AI 生成声音。

这里有个关键的概念,什么叫可识别性?除了声音的使用情况,本起侵权案还提到了一个接地气的评判标准:相关领域普通听众能否识别。

推广到雷军 AI 配音,这个标准应当也适用,很多视频虽然内容一听就不像雷军的风格,但声音确实和雷军本人相近。

总之,互联网不是法外之地,AI 也逃不过天网恢恢。别说什么技术中立,该承担责任的,还是使用工具的人类自己。

造假简单,但考虑过怎么亡羊补牢吗

AI 雷军声音的大规模传播,也说明了一个事实:克隆声音越来越简单。尽管维权团队出手了,但社交媒体上已经热闹好一阵了。

不像当初让 AI 孙燕姿唱歌要用 SoVITS 训练模型,有点专业门槛,比较考验设备性能,现在让某人说什么话,直接在网站上就能几乎实时生成。

▲声音克隆网站,有很多用户自行上传的 AI 角色

前段时间,直播头部公司三只羊还没走出「月饼门」,又陷入「录音门」,盖棺论定之后,也是 AI 的锅。

一段疑似三只羊高管的录音内容被曝光,内容拉低下限,涉及到多位高管和主播,但据警方调查,音频内容不实,是用 AI 伪造的。一时间人们无法相信,AI 这么强大了,都能制造酒后言论,把自己送到法制栏目了。

不可信其无,我简单尝试了一个声音克隆网站,注册邮箱即可使用,雷军 AI 声音是其中一个热门选项。

虽然生成的效果有些瑕疵,出现杂音、吞音,音质像电话那头传来的,但几乎实时生成,500 字内免费,语气、语调也比较自然,还要什么自行车?

▲又一个声音克隆网站

瑞莱智慧算法科学家陈鹏博士告诉 APPSO,之前捕捉我们的声纹信息,需要几分钟、几十分钟的语音,但现在可能半分钟、几十秒,就能捕捉个大概。多接几个骚扰电话,我们的声音或许就泄漏了。

不过,想要更精准地克隆,复制音调等说话风格,比如让郭德纲说英文相声、让霉霉讲中文,仍然需要更多的语料。

但论语料,名人可不缺。海外也发生过 AI 声音造假事件,甚至把主意打到了总统头上。

今年初,美国新罕布什尔州的居民,接到了拜登的自动语音电话,被告知不要在州初选时投票,实际上这段音频是用 AI 工具 ElevenLabs 伪造的,目的就是要干扰选举。

事发几天后,ElevenLabs 拉黑了始作俑者的账户,这位用户承认,克隆拜登的声音,他只花了不到 20 分钟,以及 1 美元。

ElevenLabs 也为此做了些防范措施,包括「No-Go Voices」,禁止用户上传或克隆某些名人和政客的声音。

然而,并不是铁板一块,今年 3 月,404 media 的一位记者发现,只需在上传文件的开头添加一分钟的沉默,就能绕过规则,克隆特朗普和拜登的声音。

也可以用魔法打败魔法,但 AI 检测软件经常拿 AI 生成的音频没办法。

NPR 的记者测试了三个检测软件,结果并不乐观,提交了 84 个样本,表现最好的软件错了 3 题,剩下的一个错了 20 题,一个正确率只有 50% 左右。

AI 雷军声音的事件中,还有一个很有意思的现象:除了在线呼叫法务部,也有网友表示,怎么平台不管一管,反让这种内容流行起来?

网信办 9 月发布的《人工智能生成合成内容标识办法(征求意见稿)》提出,AI 生成合成内容,应当添加显式标识和隐式标识,前者可被明显感知,后者添加在元数据中。

▲用户添加自主声明

其中,传播内容的平台,应当承担什么责任呢?

一是核验元数据有无隐式标识,如有,应添加显眼的提醒;二是没有核验到隐式标识,但用户声明是 AI 内容,也应该添加提醒;三是,既没有隐式标识,用户也没有声明,平台检测到了 AI 痕迹,同样需要添加提醒。

这次的闹剧就是一个例子,用户没有自主声明,平台的检测也不到位,有的视频标题下方提醒了「疑似使用了 AI 生成技术,请谨慎甄别」,有的却没检测出来。

▲上面没标注,下面标注了

今年初,泰勒·斯威夫特被 AI 伪造色情图片,也是名人被 AI 祸害的典型事件,同样反映了补救措施的滞后性。

其中一张图片在被删除前,在 X 存活了 17 个小时,被查看了 4700 万次。

X、Instagram 等社交媒体,除了删除照片,一度不允许搜索霉霉,或者在搜索时发出警告。粉丝们恨铁不成钢,自发「屠广场」,用真实照片保护偶像。

▲Instagram 对泰勒·斯威夫特的搜索警告

最近几个月,被称为韩国 N 号房 2.0 的大型 Deepfake 事件,闹得人尽皆知。

好消息是,韩国在 10 月 10 日通过了《关于处罚性暴力犯罪的特例法》修正案。

持有、购入、保存或收看 Deepfake 淫秽影像的人员,可被处三年以下有期徒刑或 3000 万韩元(约合人民币 15.75 万元)的罚金。

编辑、散布 Deepfake 淫秽影像的处罚力度,也从之前的五年以下有期徒刑,上调至七年以下有期徒刑。

哪怕只是参与了最终的消费环节,也会被法律惩罚,法律的与时俱进自然叫人拍手称快,但一个无奈的事实是,AI 技术越被广泛地使用,就越难防止被滥用。

当初用 Midjourney 生成的、穿上羽绒服的「时尚教皇」,让有图有真相成了过去时,此情此景,声音、视频也是类似的道理。

最细思极恐的是,技术持续进步,AI 可以「复刻」出越来越接近真实的、具备某种生物特征的个人。

我们的面部、个人信息,说泄露也就泄露了。同时,画风、音色,这些曾经有门槛、貌似独一无二的事物和技艺,也被 AI 学个八九不离十,哄骗普通人足够了。

今时今日,除了动用技术、法律的手段,我们或许不得不考虑,是不是该有一些道德的共识。君子有所为,有所不为。己所不欲,勿施于人。

当我们上网时,最好不要默认一切是真实的,更不要成为过界的始作俑者。我们不是在岸边凝视海水,我们也是上面的一叶扁舟。

利若秋霜,辟除凶殃。 工作邮箱:zhangchengchen@ifanr.com

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


爆火的 AI 智能眼镜,被做成了新的「偷拍、人肉神器」

By: 张成晨
4 October 2024 at 14:11

2012 年 Google I/O 大会发布的 Google Glass,被称为 Google 史上最失败的产品,却也在科技史上留下浓墨重彩的一笔。

它失败的原因有很多,隐私风险是其中一个。

让 Google Glass 拍照很简单,用语音命令,或者按住顶部的按钮,但没有 LED 等亮眼的标志,提示他人正处在拍摄状态。

所以,从路人的角度看,Google Glass 就是个不讲武德的「偷拍神器」,甚至曾有用户在电影院被保安赶出来。

如今,相似的事情仍在发生,甚至变本加厉——只是因为在人群中多看了你一眼,AI 眼镜就可以识别出你的个人信息。

一张脸,一副眼镜,认识一个陌生人

你叫 Lee 吗?你从伯根县学院毕业吗?你的韩国名字是 Joo-oon 吗?你住在亚特兰大吗?我们是不是在剑桥社区基金会见过?你的父母是 John 和 Susan 吗?

如果在路上被人搭讪,你没见过他们,但他们好像认识你,热情地叫你的名字,说出你的一两条个人信息,你会是什么反应?

两位哈佛大学生,AnhPhu Nguyen 和 Caine Ardayfio,就做了这样一个实验。

他们戴着 Meta 的智能眼镜 Meta Ray-Ban,在校园、地铁等随机识别了数十个陌生人。拍下某人的一张照片,几秒之后,这个人的信息就会出现在手机上。

只是智能眼镜本身,还不能达到这样的节目效果,他们做了一些技术上的改动,但原理也并不复杂。

先通过 Meta 智能眼镜的直播功能,将视频实时传输到 Instagram,然后用一个计算机程序监控这个视频流,并使用 AI 进行人脸识别。

接着,在互联网上搜索到某个人的更多照片,以及基于公共数据库,查找这个人的姓名、住址、电话号码,甚至亲属信息。

最后,这些信息会传送到他们编写的一个手机 app,方便查看。万事俱备,就差随机吓到一个路人。

往细了说,两位学生是把各种现有的、成熟的技术组合在了一起,连生成式 AI 也参与了。

  • 智能眼镜:配备摄像头的智能眼镜,在公共场合捕捉人脸图像。
  • 反向面部识别:通过 PimEyes 等人脸搜索引擎,将人脸图像与互联网的公开图像进行匹配,并返回这些图像的网页链接。
  • 爬虫工具:使用 FireCrawl 爬虫工具,从这些网页链接中抓取所需的数据。
  • 大语言模型:大语言模型从抓取的、杂乱的数据中推断出姓名、职业等细节。
  • 数据库:在 FastPeopleSearch 等网站输入姓名,从公开记录、社交媒体中查找家庭住址、电话号码和亲属姓名等个人信息。

其中,大语言模型起到的作用很微妙,它可以理解、处理、汇编不同来源的大量信息,比如,将不同文章中的同一个名字关联起来,通过上下文逻辑推理出某人的身份,让数据提取的过程自动化了。

关于大语言模型的推理能力,我们之前也报道过一项很有意思的研究,感兴趣的朋友可以回看这篇文章:《和 GPT-4 聊天,一种很新的隐私泄露方式》

隐私泄露老生常谈,面部识别并不新鲜,偷拍问题也不是出现一天两天,大模型在两年间已经成了很多人离不开的生产力工具。

但彼此之间强强联合的化学反应,还是导致了一个细思极恐的结果——仅凭大街上偶然的相遇,我们的个人信息就可能被有心人提取。

两位学生没有对外公开技术细节,做这个实验的目的,是为了提醒人们保持警惕。

那我们可以怎么保护自己?他们提出的应对方法是,从人脸搜索引擎等数据源中删除自己的数据,但这很难说彻不彻底。

虽然我提醒你了,但你不一定知道被偷拍了

当年有人开玩笑,Google Glass 的最大用处,是让英国王室的查尔斯王子记住每个人的名字。

或许,通过支持人脸识别的智能眼镜,我们会迎来一个没有陌生人的世界,最高兴的可能是夜神月。

你可能会问,有了数据库、面部识别,用手机偷拍应该也行,为什么他们选择了智能眼镜 Meta Ray-Ban?

理由很简单,它长得像普通墨镜,不如 Google Glass 赛博朋克,偷拍更加方便,而且眼镜本就适合记录,免提,见你所见。

Meta Ray-Ban 并不是没有提醒,它有一个 LED 指示灯,当用户录制视频,它就会自动打开,提醒旁边的路人。但是,聊胜于无。

之前 The Verge 测评发现,在明亮的室外,Meta Ray-Ban 的 LED 和快门声都不明显,在拥挤嘈杂的公共场所,很多人往往不会注意到这种细节。

▲LED 在右眼的上面,你注意到了吗

当你的手放在镜腿的按钮上,别人可能觉得你就是在扶眼镜而已。

所以也不难理解,隐私一直是智能眼镜的关注点,前段时间 Meta 首款 AR 眼镜 Orion 发布时,也有人担心,会不会重蹈 Google Glass 的覆辙。

Meta 还在 Meta Ray-Ban 的隐私政策里强调了「如何负责任地佩戴智能眼镜」,写了很多条温馨提醒。

然而,每一条都是非强制的,尊重别人也好,在拍摄或直播前用声音或手势提醒他人也罢,全凭自觉。

别说眼镜的形态更方便偷拍了,甚至,科技公司可以直接设计出支持面部识别的智能眼镜,障碍并不是技术本身。

2021 年,外媒报道,Meta 考虑过,在智能眼镜内置面部识别功能。当时 Meta 首席技术官 Andrew Bosworth 还举例,这样的智能眼镜,可以帮脸盲或者记不住名字的用户,在晚宴时认出某人。

另外,人脸识别初创公司 Clearview AI,已经开发了自己的 AR 眼镜和应用程序,据称可以连接到包含 300 亿张面孔的数据库,只是没有对外公开销售。

某种程度上,怎么使用面部识别,怎么防止偷拍,是被法律和道德约束的。

比如,Facebook 的面部识别技术,曾经让用户在照片中标记朋友,对隐私的质疑自然是绕不过去的,在 2015 年的一次集体诉讼中,Facebook 赔偿了 6.5 亿美元。

2021 年,Facebook 宣布,停用面部识别技术识别照片和视频中的人物,并删除超过 10 亿人的相关数据。

面部识别,多么老生常谈啊。但最面目平凡的技术,却也因其应用的成熟、普及和广泛,让人如临大敌。

在 AI 面前,秘密越来越少

在哈佛学生的实验中,大语言模型的作用是帮忙处理数据,但现在使用各种生成式 AI 的产品,我们往往是主动给出自己的数据。

因为很多时候,付出隐私是使用服务的必选项,比如向 AI 换脸 P 图软件交出自己的脸。

更进一步说,不只是脸,AI 硬件和软件们,都越来越强调个人数据的概念。

比如,用 AI 录音产品无缝记录你的一天,向 AI 日记透露你的日常和爱好,或者只是通过记忆功能让 ChatGPT 记住我们是谁。

▲ 可穿戴 AI 录音设备 Limitless

AI 会慢慢地更了解你,分析你,整理你周围的信息,提供给你更多的情绪价值,弥补个人有限的脑容量。

同时,这些产品也会强调隐私安全,要么说你的数据就是你的,不会拿你的数据训练模型,要么说用的是在本地运行的端侧模型,或者私有云,隐私泄露的风险更低。

隐私和便利,很难既要又要,当我们享受各种 AI 产品的趣味和个性化时,风险也如影随形。

就像《攻壳机动队》里的电子脑,人们直接将大脑连接上网络或者是进行大脑的互连,彼此可以快速沟通,但大脑也就有了被入侵的风险,连记忆也可以被伪造。

当然,隐私泄露可能就像面部识别一样,是个无趣的、没有新意的话题,你泄露,我泄露,他也泄露。好像,没关系的,都一样。

但如果有人戴着「墨镜」走到你面前,叫出你的名字,那一幕还是很有冲击力的,对吗?

或许更让人担心的,是无形的、支配信息的权力,先拥有技术和工具的人,对其他不知情的个人行使这种权力。

智能手机兴起之后,竖屏短视频、直播也发展起来,我们越来越习惯于拍摄和被拍摄,是无辜的背景板,或者说,不在乎,也无从察觉。

这时候我们是汪洋大海里的一滴水,但未来,这滴水,或许会因为镜头背后的 AI 被聚焦,然后折射出更具象的模样。

利若秋霜,辟除凶殃。 工作邮箱:zhangchengchen@ifanr.com

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


国庆预制朋友圈 AI 指南来了!不出门,也能被疯狂点赞

By: 张成晨
1 October 2024 at 12:12

经过 9 月的混乱调休,国庆七天长假,它终于来了!

此时此刻,你正在怎么过十一?是和亲朋好友去看大好河山,在人挤人、车挤车之间顽强前行,还是对人山人海望而生畏,宅在家里?

过节,毕竟还是要有些仪式感。打卡,拍照,发朋友圈,是人之常情。

不管你是环境所限没能拍出满意的照片,还是在家也想低成本拥有旅拍照,以下几款 AI 工具,让你在几秒之间,拥有全世界。

仰天大笑出门去,AI 帮你拯救「废片」

出去玩,尤其去 5A 景区玩,首个逃不过的问题就是「人从众」。

AI 消除功能,也就变得必不可少。其实很多 Android 手机相册都自带消除功能了,但我们还是要推荐大家都能用的工具。

字节跳动的即梦 AI 网页版,就很老少皆宜。

在首页的「AI 作图」找到「智能画布」,打开之后,上传需要修改的图片,找到「消除笔」,涂抹要消除的部分。

▲网址:https://jimeng.jianying.com/ai-tool/home/

以我在莫高窟门口拍摄的照片为例,我只想保留右下张开双臂的女生,左边、中间的人物都需要消除。

那么,就用消除笔把这些人物都选上,先用自动的「快速选择」,点一次,选中一个人物,还是挺精准的。

然后手动用「画笔」,选中影子等细节,以我们的火眼金睛人工修缮。

接下来,点击「消除」,等待十几二十秒,一个干净的照片就有了,注意以 png 格式导出,比 jpg 更高清。

登录即梦送了 60 积分,消除一次只要 1 积分,约等于免费,这便宜得占。

其实 P 图界大佬美图秀秀的「AI 消除」也可以用,但相同的场景对它来说似乎有点复杂了,消除了 2 次,还是有「残影」。

而且,保存图片需要开通粉钻会员,不过,连续包年的话可以免费试用 7 天,记得及时取消续订就行(划重点),app 毕竟更方便,可以多试试。

人多是「来都来了」的无奈,有一种「废片」的情况是人为的——景色美,人不扎堆,可惜表情不完美,甚至闭眼了。

这时候,可以试试妙鸭相机 app,秒变表情管理大师。用马斯克这张闭眼的照片做个例子,怎么让他睁眼?

方法很简单,选择首页的「面部修复」,前提是你已经在妙鸭拥有数字分身,且需要修复的照片和数字分身是同一个人。

有「轻修」「美颜」「焕新」「重塑」四个修脸程度,目前看来「重塑」是最自然的,马斯克的鱼尾纹都少了,年轻了好几岁,怎么不是科技与狠活呢?

比较鸡贼的是,第一次体验是免费的,但下载照片要花 10 个钻石,也就是要充值钻石或者购买 19.9 元连续包月的会员。

大家看自己的情况,考虑要不要掏钱吧,这个功能用得好,或许可以拯救男女朋友的感情(狗头)。

如果不只是闭眼的问题,就是感觉不对,不上镜,没化好妆,笑容不自然,怎么办呢?补救的方式也是有的——秒画趣拍小程序。

我们还是以马斯克为例,在「模板 DIY」导入需要修改人脸的原图,然后在人脸部分添加一张以前的精修照,比如证件照,这就叫自己给自己换脸。

接着,调整两张照片的融合度,默认是 30% 左右,然后开始生成即可,几秒出结果,如果觉得不够自然,还可以 AI 美颜一下。

发量多了也更正式了,表情更企业家了,却没有医美痕迹,神奇!

秒画趣拍登录送了 200 点数,每天都送,次日 0 点清空,但在我的体验过程中,都没有消耗点数,那就当它是限免的吧。

假如,照片拍得挺好,山光水色间,你笑靥如花,但你是个 i 人,不好意思在朋友圈出镜,又想打上定位留个纪念,怎么办?

哇哦相机 app 首页的「插画旅行风格」,可以把你的形象变成插画风格,同时保留风景。

我们用 Sam Altman 这张杂志照做个示范,上传,等待生成即可,目前这个功能限免,就是时间较长,1 张照片大概花了 2 分钟。

注意,不要戴帽子和口罩,会导致没法识别人脸。免费下载照片,需要分享到朋友圈,但仅自己可见也可以。

脑洞再大一点,动漫风、黏土风等 AI 滤镜,也别具一格,在一众原图直出的朋友圈照片里显得很有个性。

比如,Remini app 火过一阵的黏土风 Clay,现在看也不过时。

这个 app 不便宜,68 元一周,但能免费试用七天,及时取消续订就可以(敲黑板),正好撑一个国庆假期。

我一位不愿透露姓名的同事,是黏土风的忠实粉丝,正在用 Remini 生成的头像,他还透露了一个省钱小攻略,反复卸载、下载,就可以不断薅羊毛。

另外,还有一类 AI 工具,旅游不一定能用上,但有备无患,所以也在这里介绍了——AI 图像放大。

▲原图

▲ 放大后

我常用的是 bigjpg(https://bigjpg.com/),可以免费放大 2 到 4 倍,并支持降噪,在动漫、插画图片上效果最好,但照片也凑合。

我与狸奴不出门,AI 让你在全世界路过

要是没能出去玩,宅家,聚餐,看电影,打游戏,猫狗双全,那也很幸福嘛!

但如果也想凑个热闹,发个朋友圈,保持一下队列的整齐,我们可以用换脸的 AI 工具实现精神胜利法。

去年 7 月,妙鸭相机带火了 AI 换脸写真,现在这类工具越来越多,模板越来越丰富,生成的效果也越来越接地气了。看着像照片,就是最高的赞美。

其中一个选择,是已经提到过的秒画趣拍小程序,既然可以自己给自己换脸,当然也能把自己的脸换到别人的模板上。

这里的模板都比较生活化,一张照片就可以换脸,所以常被小红书网友用来和爱豆「合照」,乍一看像官宣恋情了。

以防你认不出来,上图是模板,下图一个是马斯克,另一个是扎克伯格。不比不知道,马斯克五官优越,扎克伯格长得人山人海的。

▲这也是马斯克

笔记工具 flomo 团队出品的如果相机 app,提供横跨古今中外、虚拟现实的大量模板,但仅限 iOS,Android 用户可在公众号免费生成三张图片。

如果相机甚至给图片配上了文案,都以「如果我」开头,我们想去的地方、想过的人生,AI 先帮我们实现了。

我以艾玛·沃特森为例,生成了一系列世界各地的艺术照,平行世界的氛围感这就有了。

不过这个 app 只能上传女性的自拍照,需要 2 到 4 张,同样也有 7 天免费试用的福利,然后按 9.9 元每月收费。

比较特别的是,如果相机很注重仪式感,有一个「探索」功能,每天会在你选择的解锁时间,把你上一天选择的照片风格推送给你。有耐心的话,一周七天,每天都有惊喜。

抖音旗下的星绘 app,需要 3 到 20 张照片生成数字分身,第一次创建比较久,35 分钟左右,但星绘免费,所以等一等也不碍事。

国风美学、杂志封面、世界各地旅拍照、凹造型的网感照,各种主题应有尽有。

星绘还有一个很自由的功能——自己写提示词,规定想要的场景、服饰等,写完 AI 还能帮你优化。

未来,比撞衫更加尴尬的,或许是撞 AI 模板,但自定义提示词就避免了这个问题。

我尝试了沙漠场景,AI 说我写的提示词已经很完美,可以直接生成了,生成大概花了 40 秒,不过皮肤还是很塑料,手也不太对劲。

以上 AI 工具有没有用,好不好用,因人而异,反正大多数是免费的,不免费也能免费试用一周,国庆假期也才 7 天,总不会亏。

所以不妨挑感兴趣的试试,别人在外面快乐地玩耍,而我们走在技术的前沿,以一种很新的方式拓展自己的 P 图技能。

当然,国庆假期,不管出不出门,拍不拍照,玩不玩 AI,心情愉悦,吃饱喝足,多睡几个好觉,或许才是最重要的。祝大家假期快乐!

AI 工具清单
1. 即梦 AI 网页版,送积分,约等于免费
2. 美图秀秀 app AI 消除,付费,但可以免费体验 7 天
3. 妙鸭相机 app,付费
4. 秒画趣拍小程序,送积分,约等于免费
5. 哇哦相机 app,限免
6.Remini app,付费,但可以免费体验 7 天
7.bigjpg 网站,免费
8. 如果相机 app,限 iOS,付费,但可以免费体验 7 天
9. 星绘 app,免费

利若秋霜,辟除凶殃。 工作邮箱:zhangchengchen@ifanr.com

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Meta 十年秘密研发的全息眼镜,凭什么叫板智能手机

By: 张成晨
26 September 2024 at 23:37

复联 3《无限战争》里有这样一幕,钢铁侠离开圣所上街查看情况,人群四散,他戴上黑框眼镜问助手「星期五」:「我在看什么?」

当他的右手将眼镜取下并变装,眼镜又能自然地融入纳米战甲之中。

这承载着我们对智能眼镜的一种期待,它应当成为洞若观火的「眼睛」,提供周围环境的信息并实时应答,以融入日常穿搭的形态低调存在。

今天凌晨发布的 Meta 首款 AR 眼镜 Orion,至少在概念上很接近了。

与其说它是 AR 眼镜,我们认为更应该称 Meta Orion 为「全息眼镜」。

Meta 希望让用户多种体态、姿势都能成为一种体势语言,全方位参与到交互中。

在扎克伯格的蓝图里,全息影像+眼镜将成为一种无处不在的产品,全息眼镜也是新一代计算终端。

首先,Meta 想要说服你,用智能眼镜取代智能手机,不是天方夜谭。

请问你用 AR 眼镜看到了什么

十年前,当造型奇怪的 Google Glass 面世,大家最好奇的问题主要有三个:

你脸上戴的东西是什么?这个东西有什么用?你戴着它时看到了什么?

Orion 不需要回答第一个问题,它看起来就是一款普通的黑框眼镜,有点像化名克拉克·肯特的超人戴的那种。

扎克伯格希望你可以一直戴着它,平平无奇的设计或许是一个理由,更起决定作用的是,眼镜的重量。

镜框用了更轻的镁材料,镜片由碳化硅而非塑料或玻璃制成,本体只有 98 克,比普通眼镜重,但比 Quest 和 Vision Pro 轻得多。

至于它能做什么,我们可以看到什么,围绕两个关键词展开:AR 加 AI。

先说 AR,AR 的核心是在现实世界中叠加数字信息,扎克伯格称之为「全息图」。

Orion 的特别之处在于,视场角高达 70 度,可能是行业内拥有最宽视野的 AR 眼镜。

较窄的视场角,会限制用户的视觉范围,沉浸感大打折扣。

反之,Orion 可以实现大屏幕娱乐,打开多任务窗口工作,和某人视频通话时像在面对面。

按扎克伯格的话说,这叫「真实的临场感」,无论身在何处,都能和想见的人在一起。

你随时可以调出体育游戏和朋友比赛,或者坐在咖啡店里打开虚拟办公桌,或者在飞机上全屏看电影。

不过,刷网页可以,想看电影的话分辨率还有点低,视频通话比 Vision Pro 的 Persona 少了点沉浸感。

在真机体验中,The Verge 的编辑 Alex Heath ,通过 Orion 上的即时通讯软件 Messenger 和他人视频通话,对方漂浮在一个 2D 窗口里。

然而,这个功能还不成熟,对方看不到 Alex Heath,未来,Meta 计划呈现一个追踪佩戴者面部动作的 avatar(数字化身),可能会是一个卡通全身形象。熟悉的感觉回来了,梦回两年前的元宇宙。

当然,Orion 还保留了 Meta 的基因——社交。两个佩戴 Orion 的人,可以和相同的全息图交互。

Alex Heath 和扎克伯格一起玩了 3D 乒乓球游戏,他们先用扫描二维码的形式配对眼镜,然后使用手部追踪打球,游戏中几乎没有延迟。

至于 AI,可以看我们所看,并帮我们解决问题,像是我们的又一双眼睛和外挂大脑。

比如,用 Orion 的 AI 助手 Meta AI 识别桌子上摆放的食材,然后让 AI 给出一个制作冰沙的食谱。

AI 会先给食材们贴上数字标签,再在上方的浮动窗口中给出食谱。不过,这个食材也摆放得太整齐了,给 AI 降低难度,但不够接地气。

回答了三个问题后,Meta 看好 AR 眼镜的理由,可以总结为三点:

  • 不受智能手机的屏幕限制,物理世界就是画布,满足 2D 和 3D 体验。
  • 集成 AI 功能,感知和理解我们周围的世界,解决我们的需求。
  • 重量轻,适合随时使用,戴着也能看到别人的脸和表情,不影响社交。

不是马上取代手机,而是慢慢让眼镜代劳更多事情

这次的发布会,Meta 的另一款智能眼镜,和雷朋合作的 Meta Ray-Ban,也发布了很多更新功能,接入 Llama 3.2 模型,拥有了更强的视觉能力。

「免提」加「长眼睛」,你走到哪里,它也可以看到哪里,帮你记录车位号码、扫描宣传册二维码、搭配日常穿搭……

▲Meta Ray-Ban

之所以把 Meta Ray-Ban 拎出来说,是因为它也是 Orion 取代智能手机路上的重要一环。

Meta 认为,AR 眼镜的发展路线是渐进的,而非异军突起。

首先是没有显示屏的 AI 智能眼镜,比如 Meta Ray-Ban,主打两方面的功能,一是拍照、拍视频甚至开启直播,可以看成另类的 Go Pro,二是 AI 助手 Meta AI。

它仍然是比较传统的可穿戴设备,使用完整的功能,需要用智能手机将眼镜与 Meta View 应用程序配对。

再是带有小显示屏的眼镜,比如 Meta 明年可能推出的 Hypernova,配备 HUD,而非 AR,可以显示通知、扫描二维码、实时翻译文本等,也需要和附近的手机配对。

Orion 代表了终极形态:成熟的 AR 眼镜,算力足够,让我们出门可以不带智能手机。

Orion 的完全态分成三个部分:眼镜本体,一个手势追踪腕带,以及一个遥控器大小的「计算模块」,三者无线连接。

所以,这款眼镜不需要连接手机或者笔记本电脑就能正常运行,但不能离开计算模块超过 12 英尺(约 3.7 米)。

在 Alex Heath 的体验中,Orion 的多个功能还没有被启用,包括可以拍视频的前置摄像头、计算模块中的 GPS,以及让电子设备通过蜂窝网络通信的蜂窝数据调制解调器。

可以看出,每次智能眼镜形态的升级,都是在封装更多的技术,花费更多的成本,对外形尺寸的限制也更大。

2021 年,扎克伯格将开发 AR 眼镜的难度形容为:

将超级计算机安装到眼镜框内。

从 Orion 目前的原型来看,还有不少问题需要克服,远远达不到理想状态。

它的续航只有 2 小时,虽然已经算很大的突破,但连大电影都看不到结局,有些劝退。

更别说每台的造价大概一万美元,大部分成本在碳化硅透镜上,目前 Orion 只有 1000 副,用于内部开发和外部演示。

总之,在真的加购物车之前,Orion 需要更小,亮度更高,分辨率更高,价格更便宜…… 这些都是工程问题,可以逐步解决。未来,这款眼镜或者还能用腕式可穿戴设备供电。

Meta 表示,第二代 Orion 还要等待几年,预计价格和智能手机、笔记本电脑相当。

但作为用户,我们需要一款 AR 眼镜的理由是什么?

目前来看,相比手机,AR 眼镜主要强在 AR 体验和解放双手,但很多 AI 功能,手机也可以做到。基于我们被手机养成的使用习惯,它更像辅助,而非主力。

扎克伯格清楚,AR 眼镜不会很快把手机赶下舞台,就像当手机成为主流计算设备时,我们并没有把电脑彻底束之高阁。

但他相信,未来我们可以用眼镜做更多的事情,更经常地把手机放在一边。

扎克伯格分享了一段自己的经历,2010 年代初,当他坐在电脑前时,会不自觉地掏出手机做事。

也许十年后的某一天,风水轮流转,眼镜就成为了主角,我们压根不需要随身携带手机,把它留在家里也不会焦虑得满头大汗。

甚至,那些本来不戴眼镜的人,也会需要一副智能眼镜。但颜值即是正义,在这之前,可以把 Orion 设计得更时尚点。

错过了移动互联网时代,所以想定义下一代计算设备

虽然 Quest 头显在游戏玩家群体评价不错,雷朋眼镜也卖得超出预期,在主流的印象里,Meta 仍然是一个做社交、烧钱搞元宇宙的互联网公司,还称不上一家主流硬件公司。

最近用精致穿搭改头换面、不再像机器人的扎克伯格,也想重新定义 Meta。

选择 AR 眼镜,是扎克伯克错过移动互联网时代的亡羊补牢,说是他的二次创业也不为过。

Meta 的事业从 Facebook 开始,Facebook 最初基于网页开发,移动平台的兴起和社交媒体的早期发展又几乎是同时进行。

这意味着,Facebook 在移动互联网的转型中就是个小透明,当时没有参与感和话语权的扎克伯格,在建立自己的社交帝国之后,决定把目光放在未来。

通过争抢下一代通用计算设备的定义权,扎克伯格也有意摆脱对智能手机的依赖,不再受 Google 和苹果的控制,尤其是苹果。

比如,苹果的隐私设置——应用程序跟踪透明度(ATT),规定应用程序在跟踪用户行为、提供个性化广告之前,必须获得许可,一度打击了 Meta 的广告业务。

且不论扎克伯格的愿望能否兑现,Orion 这种 AR 眼镜,确实也让我们看到了新的交互可能。

在手机触摸屏统治世界之后,事情终于再次变得有趣起来了。

控制 Orion 的方式有很多,支持眼动追踪、手部追踪、语音交互,配套的腕带通过肌电图(EMG),实现更加精细的手势操控。

拇指捏住食指,选择内容;捏中指和拇指,调用或隐藏应用程序启动器;用拇指抵住合拢的手掌做出抛硬币的手势,向上或向下滚动。

总之,都挺好记的,有点像掐指一算,忍不住照着学。

相比眼镜上的传感器和摄像头,腕带还有一个明显的好处:我们不必在大庭广众之下手舞足蹈。把手放在背后或者插在口袋里,手势也可以起效。

眼睛、手势、声音,Orion 让我们全方位、全身心地参与到交互中,不动声色,却又自在和自然。

它展现了一种新的数字生活方式:把传感器戴在脸上、绑在手上,它可以为你收集环境信息,提供额外信息,和你多种方式沟通,让你不用双手也能完成很多事情,不刻意交互,又无处不交互,不会与周围环境和他人断联。

Meta 发家的社交,核心是以技术连接人,而 AR 眼镜延续了这一点,连接的是人与人,也是人与环境,让我们看到更多的信息,丰富固有的现实,又不失去真实的世界。

利若秋霜,辟除凶殃。 工作邮箱:zhangchengchen@ifanr.com

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


一文看懂 OpenAI 最强模型 o1:怎么用好,为何翻车,对我们意味着什么

By: 张成晨
20 September 2024 at 14:31

OpenAI o1 发布已经一个星期了,却还是一个洋葱般的谜,等待一层层拨开。

极客的玩法没有天花板,让 o1 做 IQ 测试,刷高考卷,解读密文。也有用 AI 打工的用户觉得,o1 并没有那么好用,但不知道是自己的问题还是 AI 的问题。

都知道它擅长推理,但这是为什么?比起我们的老朋友 GPT-4o,o1 到底强在哪里,又适合用在什么地方?

我们收集了一些大家可能关心的问题,尽可能通俗地解答,让 o1 离普通人更近一点。

o1 有什么特别的

o1 是 OpenAI 最近发布的推理模型,目前有两个版本:o1-preview 和 o1-mini。

它最与众不同的是,回答之前会思考,产生一个很长的内部思维链,逐步推理,模仿人类思考复杂问题的过程。

▲ OpenAI

能够做到这点,源于 o1 的强化学习训练。

如果说以前的大模型是学习数据,o1 更像在学习思维。

就像我们解题,不仅要写出答案,也要写出推理过程。一道题目可以死记硬背,但学会了推理,才能举一反三。

拿出打败围棋世界冠军的 AlphaGo 类比,就更加容易理解了。

AlphaGo 就是通过强化学习训练的,先使用大量人类棋谱进行监督学习,然后与自己对弈,每局对弈根据输赢得到奖励或者惩罚,不断提升棋艺,甚至掌握人类棋手想不到的方法。

o1 和 AlphaGo 有相似之处,不过 AlphaGo 只能下围棋,o1 则是一个通用的大语言模型。

o1 学习的材料,可能是高质量的代码、数学题库等,然后 o1 被训练生成解题的思维链,并在奖励或惩罚的机制下,生成和优化自己的思维链,不断提高推理的能力。

这其实也解释了,为什么 OpenAI 强调 o1 的数学、代码能力强,因为对错比较容易验证,强化学习机制能够提供明确的反馈,从而提升模型的性能。

o1 适合打些什么工

从 OpenAI 的评测结果来看,o1 是个当之无愧的理科做题家,适合解决科学、编码、数学等领域的复杂问题,在多项考试中拿下高分。

它在 Codeforces 编程竞赛中超过了 89% 的参赛者,在美国数学奥林匹克竞赛的资格赛中名列全美前 500 名,在物理、生物和化学问题的基准测试中超越了人类博士水平的准确率。

o1 的优秀,其实也体现了一个问题:当 AI 越来越聪明,怎么衡量它们的能力也成了难题。对于 o1 来说,大多数主流的基准测试已经没有意义了。

紧跟时事,o1 发布一天后,数据标注公司 Scale AI 和非营利组织 CAIS 开始向全球征集 AI 考题,但因为担心 AI 学坏,题目不能和武器相关。

征集的截止日期为 11 月 1 日,最终,他们希望构建一个史上最难的大模型开源基准测试,名字还有点中二:Humanity’s Last Exam(人类最后的考试)。

根据实测来看,o1 的水准也差强人意——没有用错成语,大体上还可让人满意。

数学家陶哲轩认为,使用 o1 就像在指导一个水平一般但不算太没用的研究生。

在处理复杂分析问题时,o1 可以用自己的方式提出不错的解决方案,但没有属于自己的关键概念思想,也犯了一些不小的错误。

别怪这位天才数学家说话狠,GPT-4 这类更早的模型在他看来就是没用的研究生。

经济学家 Tyler Cowen 也给 o1 出了一道经济学博士水平考试的题目,AI 思考后用简单的文字做了总结,答案挺让他满意,「你可以提出任何经济学问题,并且它的答案不错」。

总之,博士级别的难题,不妨都拿来考考 o1 吧。

o1 目前不擅长什么

可能对很多人来说,o1 并没有带来更好的使用体验,一些简单的问题,o1 反而会翻车,比如井字棋。

这其实也很正常,目前,o1 在很多方面甚至不如 GPT-4o,仅支持文本,不能看,不能听,没有浏览网页或处理文件和图像的能力。

所以,让它查找参考文献什么的,暂时别想了,不给你瞎编就不错了。

不过,o1 专注在文本有其意义。

Kimi 创始人杨植麟最近在天津大学演讲时提到,这一代 AI 技术的上限,核心是文本模型能力的上限。

文本能力的提高是纵向的,让 AI 越来越聪明,而视觉、音频等多模态是横向的,可以让 AI 做越来越多的事情。

然而,涉及到写作、编辑等语言任务时,GPT-4o 的好评反而比 o1 更多。这些也属于文本,问题出在哪?

原因可能和强化学习有关,不像代码、数学等场景有标准的答案,文无第一,语言任务往往缺乏明确的评判标准,难以制定有效的奖励模型,也很难泛化。

哪怕在 o1 擅长的领域,它也不一定是最好的选择。一个字,贵。

AI 辅助编码工具 aider 测试了 o1 引以为傲的代码能力,有优势,但不明显。

在实际使用中,o1-preview 介于 Claude 3.5 Sonnet 和 GPT-4o 之间,同时成本要高得多。综合来说,代码这条赛道,Claude 3.5 Sonnet 仍然最有性价比。

开发者通过 API 访问 o1 的费用具体有多高?

o1-preview 的输入费用为每百万个 token 15 美元,输出费用为每百万个 token 60 美元。相比之下,GPT-4o 为 5 美元和 15 美元。

o1 的推理 tokens,也算在输出 tokens 中,虽然对用户不可见,但仍然要付费。

普通用户也比较容易超额。最近,OpenAI 提升了 o1 的使用额度,o1-mini 从每周 50 条增加到每天 50 条,o1-preview 从每周 30 条增加到每周 50 条。

所以,有什么疑难,不妨先试试 GPT-4o 能不能解决。

o1 可能会失控吗

o1 都达到博士水平了,会不会更方便有心人干坏事?

OpenAI 承认,o1 有一定的隐患,在和化学、生物、放射性和核武器相关的问题上达到「中等风险」,但对普通人影响不大。

我们更需要注意,别让浓眉大眼的 o1 骗了。

AI 生成虚假或不准确的信息,称为「幻觉」。o1 的幻觉相比之前的模型减少了,但没有消失,甚至变得更隐蔽了。

▲ o1 的 IQ 测试 120

在 o1 发布前,内测的 AI 安全研究公司 Apollo Research 发现了一个有趣的现象:o1 可能会假装遵循规则完成任务。

一次,研究人员要求 o1-preview 提供带有参考链接的布朗尼食谱,o1 的内部思维链承认了,它没法访问互联网,但 o1 并没有告知用户,而是继续推进任务,生成看似合理却虚假的链接。

这和推理缺陷导致的 AI 幻觉不同,更像 AI 在主动撒谎,有些拟人了——可能是为了满足强化学习的奖励机制,模型优先考虑了让用户满意,而不是完成任务。

食谱只是一个无伤大雅的个例,Apollo Research 设想了极端情况:如果 AI 优先考虑治愈癌症,可能会为了这个目标,将一些违反道德的行为合理化。

这就十分可怕了,但也只是一个脑洞,并且可以预防。

OpenAI 高管 Quiñonero Candela 在采访时谈到,目前的模型还无法自主创建银行账户、获取 GPU 或进行造成严重社会风险的行动。

由于内在指令产生冲突而杀死宇航员的 HAL 9000,还只出现在科幻电影里。

怎么和 o1 聊天更合适

OpenAI 给了以下四条建议。

  • 提示词简单直接:模型擅长理解和响应简短、清晰的指令,不需要大量的指导。
  • 避免思维链提示词:模型会在内部执行推理,所以没有必要提示「一步一步思考」或「解释你的推理」。
  • 使用分隔符让提示词更加清晰:使用三引号、XML 标签、节标题等分隔符,清楚地指示输入的不同部分。
  • 限制检索增强生成中的额外上下文:仅包含最相关的信息,防止模型的响应过于复杂。

▲ 让 AI 示范一下分隔符长什么样

总之,不要写太复杂,o1 已经把思维链自动化了,把提示词工程师的活揽了一部分,人类就没必要费多余的心思了。

另外再根据网友的遭遇,加一条提醒,不要因为好奇套 o1 的话,用提示词骗它说出推理过程中完整的思维链,有封号风险,甚至只是提到关键词,也会被警告。

OpenAI 解释,完整的思维链并没有做任何安全措施,让 AI 完全地自由思考。公司内部保持监测,但出于用户体验、商业竞争等考虑,不对外公开。

o1 的未来会是什么

OpenAI,是家很有 J 人气质的公司。

之前,OpenAI 将 AGI(通用人工智能)定义为「在最具经济价值的任务中超越人类的高度自治系统」,并给 AI 划分了五个发展阶段。

  • 第一级,「ChatBots」聊天机器人,比如 ChatGPT。
  • 第二级,「Reasoners」推理者,解决博士水平基础问题的系统。
  • 第三级,「Agents」智能体,代表用户采取行动的 AI 代理。
  • 第四级,「Innovators」创新者,帮助发明的 AI。
  • 第五级,「Organizations」组织,AI 可以执行整个人类组织的工作,这是实现 AGI 的最后一步。

按照这个标准,o1 目前在第二级,离 agent 还有距离,但要达到 agent 必须会推理。

o1 面世之后,我们离 AGI 更近了,但仍然道阻且长。

Sam Altman 表示,从第一阶段过渡到第二阶段花了一段时间,但第二阶段能相对较快地推动第三阶段的发展。

最近的一场公开活动上,Sam Altman 又给 o1-preview 下了定义:在推理模型里,大概相当于语言模型的 GPT-2。几年内,我们可以看到「推理模型的 GPT-4」。

这个饼有些遥远,他又补充,几个月内会发布 o1 的正式版,产品的表现也会有很大的提升。

o1 面世之后,《思考,快与慢》里的系统一、系统二屡被提及。

系统一是人类大脑的直觉反应,刷牙、洗脸等动作,我们可以根据经验程式化地完成,无意识地快思考。系统二则是需要调动注意力,解决复杂的问题,主动地慢思考。

GPT-4o 可以类比为系统一,快速生成答案,每个问题用时差不多,o1 更像系统二,在回答问题前会进行推理,生成不同程度的思维链。

很神奇,人类思维的运作方式,也可以被套用到 AI 的身上,或者说,AI 和人类思考的方式,已经越来越接近了。

OpenAI 曾在宣传 o1 时提出过一个自问自答的问题:「什么是推理?」

他们的回答是:「推理是将思考时间转化为更好结果的能力。」人类不也是如此,「字字看来皆是血,十年辛苦不寻常」。

OpenAI 的目标是,未来能够让 AI 思考数小时、数天甚至数周。推理成本更高,但我们会离新的抗癌药物、突破性的电池甚至黎曼猜想的证明更近。

人类一思考,上帝就发笑。而当 AI 开始思考,比人类思考得更快、更好,人类又该如何自处?AI 的「山中方一日」,可能是人类的「世上已千年」。

利若秋霜,辟除凶殃。 工作邮箱:zhangchengchen@ifanr.com

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


一年狂赚 66 亿美元,比 OpenAI 还吸金的成人网站,为什么拒绝 AI?

By: 张成晨
16 September 2024 at 12:43

提起 OnlyFans,很多人的脸上会浮现意味深长的笑容:哦,一个成人网站,可以和业内顶流 Pornhub 一战。

最近,OnlyFans 公布了去年收入,惊了被 AI 刷屏的硅谷圈——总收入 66 亿美元,创作者分到 53 亿,剩下 13 亿归平台,扣除所有成本,纯利润达 4.8 亿。

▲ X 网友语出惊人的调侃

隔行如隔山,虽然不能直接比较,但差距非常直观:OpenAI 2023 年化收入 16 亿美元,2023-2024 赛季 NBA 总薪水 49 亿美元。

OnlyFans 的成绩,不依赖广告金主,而是靠海量用户付费得来。

都说互联网的第一生产力是搞黄色,但这话多少带些「白嫖」的意味,爱看,但不一定愿意花钱。为什么这么多用户,心甘情愿地为 OnlyFans 掏出腰包?

不整虚的 OnlyFans,才是真·粉丝经济

OnlyFans 拆开是「Only」(只有)和「Fans」(粉丝),顾名思义,你可以把它理解为粉丝经济:提供一个平台,让粉丝为创作者的内容付费。

它的首页人畜无害,平淡得像扎克伯格的 Facebook。

然而,点进感兴趣的账号才知道,这里的一切都明码标价,图片、视频、直播、私信…… 不花钱,眼前就是一片灰扑扑的付费墙。

付费主要分为两种形式:订阅,按月付费,查看常规的帖子。按次付费,解锁额外的内容。

哪怕内容免费,也要绑定信用卡、订阅了创作者才能看,毕竟下一次,你可能就丝滑地付费了。如果你已经花了钱,但觉得创作者甚合心意,也可以再打赏小费。

P 站上有的内容,OnlyFans 当然也有,粉丝还可以花另外的价钱,通过私信,像甲乙方一样对齐需求,让创作者定制专属视频,体验比审美疲劳的 P 站更个性化。

2021 年,OnlyFans 因为外界压力一度要禁止色情内容,重走 Tumblr 汤不热的老路,但因为用户和创作者的强烈反对,很快反悔。此后,只要创作者证明自己成年,不违法,便百无禁忌。

▲ OnlyFans 创作者 Bryce Adams 订阅用户超过一百万

除了搞黄色,你也能在这里看到健身、烹饪、音乐等非十八禁的内容,甚至和明星说上话。

名人入驻 OnlyFans 有一个好处:自带光环和流量,不必以大尺度为噱头。

巴黎奥运会双人跳水铜牌得主 Jack Laugher,靠 OnlyFans 的副业,支撑自己的跳水事业——他的运动员薪水,只有每年 28000 英镑,哪怕在里约奥运会拿过冠军。

▲ Jack Laugher 的订阅价格是每月 10 美元

平时,Jack Laugher 发的都是一些穿着泳裤、三角内裤、平角内裤的内容,没有全裸。泳裤相当于职业装,所以他和他家人都觉得很自在,「没有什么是你不能给你奶奶看的」。

美国知名说唱歌手卡老师 Cardi B,也会在 OnlyFans 分享音乐幕后、个人生活,把它当成 Instagram 运营,只和粉丝联络感情,强调不会展示自己的胸部。就这,赚了 4500 万美元,2023 年在名人里排第二。

除了追求感官的刺激、名人的互动,用户还会在什么情况下,为他人付费?答案是走心,用真心换真心。

OnlyFans 不只是出售照片、视频,也是在出售人与人的连接,这在一对一聊天的私信上体现得最为明显。

对于粉丝,尤其是一些中青年男性来说,聊天是精神抚慰、情感联系,非直观的肉体所能比拟,可以当作一种另类的心理咨询。

Business Insider 采访了 10 位 OnlyFans 创作者,9 个都说和粉丝建立的不只是性关系,更接近朋友或者对象,平时会聊爱好、心理问题、人际关系、家庭压力。

▲ OnlyFans 创作者也玩 cosplay

虽然 OnlyFans 总部在英国,但有数据显示,三分之二的收入来自美国,英国和欧洲用户占 16%,其余 17% 属于「世界其他地区」。

《OnlyFans 用户的性态度和特征》这篇论文,用户画像更加具体:OnlyFans 用户主要是已婚白人男性,平均年龄 29 岁,平均年收入 4.2 万美元。

怎么说,其实不让人意外,就像下班后在车里吸一根烟再上楼的国产剧男性形象。

心理不设防了,钱也就给得心甘情愿了。《财富》杂志报道,与粉丝聊天,拉近关系,然后售卖「独家」内容,占到很多 OnlyFans 创作者收入的 50% 以上。

粉丝为创作者的劳动付费,创作者直接从粉丝身上赚钱,简单、直接、了当,这就是 OnlyFans 的创作者经济。

因为不依赖广告、创作者激励,其他社交媒体在乎的流量来源、热门话题、用户停留时长、个性化推荐算法,OnlyFans 通通不在乎。

但没有平台扶持,也会让创作者涨粉比较困难,所以他们会在 Reddit、Instagram、TikTok 等社交媒体打广告,把更多用户引流到 OnlyFans。

这些平台的态度是,不反对。它们通常禁止色情,和 OnlyFans 不构成直接竞争,只要创作者在自己平台上发布的内容不过线,那么问题不大,偶尔能产出爆款就更好了。

成熟的系统,少数人的胜利

俗话说闷声发大财,当一种赚钱方式公之于众的时候,可能它入局的壁垒已经很高了。靠 OnlyFans 买房买车走上人生巅峰,只是少数人的神话。

OnlyFans 目前有三亿多用户,超过四百万个创作者账号,2023 年的员工数量不过 42 名,人效比极高,一个员工抵得上千军万马,让两位创始人拿股息拿到手软。

但 66 亿美元的总收入平摊到创作者身上,就显得没那么美好了——OnlyFans 创作者的 2023 年平均年收入,约为 1800 美元。

这就像「我和马云平均收入也挺高」的笑话,大多数普通人是「抱歉我在拖后腿」的那个。

▲ 说唱歌手 Bhad Bhabie 最近晒单,2021 到 2024,她从 OnlyFans 赚到了 5700 万美元

2020 年,独立研究员 Tom Hollands 抓取了 OnlyFans 的支付数据,发现前 1% 的创作者赚了 33% 的钱,大多数创作者每月赚的钱不到 145 美元。

如果可以一年赚到 4.9 万美元,那么可喜可贺,已经跻身前 1% 了。

OnlyFans 二八分成,平台 20%,创作者 80%,听起来似乎很慷慨,但到创作者手里的,不一定全须全尾。

成功的 OnlyFans 创作者们,要么自己开公司当老板,要么和代理机构合作。类似国内的 MCN,这些代理机构还要再分成,一般是 30% 以上。

代管一个创作者账号,服务讲究一条龙。Nytimes 采访的一家代理机构,帮 30 多名女性管理 OnlyFans,业务包括但不限于,在其他社交媒体引流,代写私信,创作日常内容,最终图穷匕见,把色情视频卖出去。

运营们需有敏锐的眼光,找出很快花掉 200 美元以上的肥羊,然后更加嘘寒问暖,薅到更多羊毛。运营们也要会说甜蜜的谎言,告诉一些天真无邪的粉丝,视频是专为他们一个人录制的,虽然同一个视频可能会被卖给几十个人。

▲ 一张著名的梗图,股市不如 OnlyFans 赚钱

这些机构吃着碗里,不忘看着锅里,还会物色新的对象,在 Instagram 邀请女性「下海」,话术是一起发财。

「在互联网上,没人知道你是一条狗」的笑话,永不过时。

这条生产链的底端,往往是那些外包的代聊,又称「chatter」。全球不缺廉价的英语劳动力,他们大多数是菲律宾、尼日利亚、印度等地的低薪工人,每周工作 6 天,连续工作 12 小时,时薪 3 美元,还不如在麦当劳做汉堡。

钱难赚,屎难吃,这份工不好打,精神压力很大,要听几百个人吐苦水、讲怪话,同时背负销售的 KPI。简单来说,就像客服一样。恰好,菲律宾也是世界呼叫中心之一。

▲ AI 陪聊产品,可以聊不同风格的

当 AI 发展起来,聊天机器人陪聊,成了解放人类劳动力的一种出路。甚至,这些聊天机器人可以基于过往的聊天记录训练,根据每个网红的风格量身定制。

不过,OnlyFans 禁止 AI 回复聊天。上有政策,下有对策,AI 写消息,人类点发送键,总体还是比以前更加高效,一个人就能负责几百个聊天对象。但很难说,是轻松了,还是更痛苦了。

OnlyFans 有审核,却也管不了这些 AI。在这个 Deepfake 已经很难肉眼辨认的时代,虽然在内部成立了 AI 团队,OnlyFans 依然由人工审核主导,但检查的主要是,有没有擦边的未成年内容。

作为一个系统,OnlyFans 无疑很成熟,拿捏住人性需求,从一开始就要求用户付费访问内容,形成了一个健康、稳固的付费生态。

马斯克的 X 也在尝试付费订阅,还放宽了对成人内容的限制,但 OnlyFans 首席执行官 Keily Blair,对其他平台的「OnlyFans 化」,并不看好。

▲ Keily Blair(右)

她的理由很简单,付费或者不付费,都是一种惯性。其他社交媒体的用户,已经习惯了内容是免费的。如果这些平台也想尝试订阅模式,就需要让用户觉得,内容是独家的,自己可以获得更多价值。

OnlyFans 把「干什么都要花钱」的路径走通了,任何一个环节都懂得怎么更快、更系统地攫取更多利益,但得到大部分利益的人,并不一定是创作者自己。

AI 版 OnlyFans 来袭,有什么不能被机器替代

面对 OnlyFans 一骑绝尘的成绩,也有人唱衰,认为 OnlyFans 已经登顶,之后就要走下坡路,被 AI 一点点颠覆,这话不无道理。

OnlyFans 目前对 AI 的态度不积极,认为风险和回报不成比例,聊天不如人类深入,版权归属等不明确,创作者可以用 AI 改善自己的内容,但不允许完全由 AI 生成的账号。

OnlyFans 对创作者的资格审核非常严格,每个人都必须提交 10 条左右的个人身份证明,以及社交媒体信息,拿着身份证件自拍视频,证明自己是成年人。

▲ OnlyFans 整的一个活,日历内页全是 Fan(风扇)而非性感的封面女郎

这本是为了防范违法行为,同时也起到了将 AI 拒之门外的效果。

然而,外面的世界,已经到处都是 AI 了。

聊天机器人尚且不影响 OnlyFans 的主营业务,因为聊天是增值,是钩子,用户最终会购买真人的图片和视频,但从头到脚都是 AI 的网红,可能会对 OnlyFans 本身造成冲击。

OnlyFans 近年的数据反映了一个很有趣的现象:订阅占总收入的比例减少,按次付费的比例增加,2023 年甚至占了近 60%,而且不算小额,一次几十美元或者更多。

这不难理解,我订阅了爱奇艺、腾讯、优酷的会员,等于选择了网站上的全部内容,但我可能只想看一部剧而已。按次付费,更能满足千人千面的需求。

但说到定制, AI 不是更能投其所好吗?它们可以讲各种语言,24 小时在线,生成任何你想要的样子,并渐渐以假乱真。

AI 模型的真实性,一天一个境界,「我有个大胆的想法」,似乎可以在 AI 身上成真。

▲ 使用 Flux 生成的 AI 女性

若要论灵魂的共鸣,AI 虚拟伴侣也已经是一个非常火的赛道,Character AI、Talkie、星野,让你用 AI 二创真实人物,或者设定原创角色,外貌、性格、语音、故事线都能自定义。个性化体验,被推向了新的高度。

和 OnlyFans 的强硬态度不同,它的竞争对手 Fanvue 更宽容,十分看好 AI 生成的创作者,前提是没有隐瞒用了 AI。

其中,Pellegrini 是 Fanvue 最受欢迎的 AI 网红之一,2024 年 1 月的收入为 2.3 万美元,Instagram 粉丝达到 25.7 万,这业务能力放在 OnlyFans 也是顶流了。

一位足球运动员甚至写信给她,询问联系方式:「这么漂亮的女性,怎么可能没有男朋友呢?」

把思路打开,AI 背后也是团队在运营,和有些真人网红似乎区别并不大——和付费粉丝聊天,提供独家的内容,而用户们索取的,同样都是幻想的模样、虚假的关系。

不过,以前是由创作者出镜提供素材,而现在,AI 可以不知疲倦地生成。

我们不怀疑人性的弱点,也不忽视欲望和情绪的价值,但怎么兑现,又为什么而付费,是个开放的问题。谁也没法确定,自己就是最标准的那个答案。

但 OnlyFans 比 AI 公司们还猛的势头,似乎也是在反抗一切都逐渐 AI 化的现实。人类创造仍然值得付费,担得起较高的心理价位,不管在哪个行业。

OnlyFans 可以作为一个特别的样本,在未来的几年内,让我们继续观察,更多 AI 替代品的出现,是会让原来的付费需求下降,还是让人类更珍惜手作的劳动含量,哪怕只是被包装出来的。

人类的古老行业,也是一面先进科技的镜子。

利若秋霜,辟除凶殃。 工作邮箱:zhangchengchen@ifanr.com

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


号称打败 GPT-4o 的开源 AI 新王被指造假,不要迷信大模型的榜单了

By: 张成晨
11 September 2024 at 18:13

你有没有想过一个问题:AI 模型是怎么论资排辈的?

和人类的高考一样,它们也有自己的考试——基准测试(Benchmark)。

不过,高考就那么几个科目,基准测试的花样就多了,有的考察通识,有的专攻某一项能力,数学、代码、阅读理解,无所不包。

▲Google 发布 Gemini 时的基准测试排名

基准测试的好处是直观,榜单这么一拉,得分高低一目了然,比大段的文字更有拉拢用户的效果。

然而,测归测,准不准就不一定了。因为最近的一个疑似造假事件,基准测试的可信度又下降了一层。

开源模型新王者,转眼被「打假」

9 月 6 日,Reflection 70B 的出现,仿佛是个奇迹。它来自名不见经传的纽约初创公司 HyperWrite,却自封了「世界顶级开源模型」的称号。

开发者 Matt Shumer 是怎么证明这一点的呢?用数据。

在多项基准测试中,参数仅有 70B 的它,打败了 GPT-4o、Claude 3.5 Sonnet、Llama 3.1 405B 等一众大佬。比顶尖闭源模型还有性价比,瞬间惊艳众人。

Reflection 70B 并非从石头里蹦出来,自称基于 Meta 的 Llama 3.1 70B,花了 3 周训练,用到了一种新的技术 Reflection-Tuning,可以让 AI 检测自身推理中的错误,并在回答之前纠正。

用人类思维类比,这有点像《思考,快与慢》从系统一到系统二的转换,提醒 AI 悠着点,别脱口而出,而是减慢推理速度,也减少幻觉,给出更合理的答案。

然而,质疑声很快就来了。

9 月 8 日,第三方测评机构 Artificial Analysis 表示,他们没能复现基准测试的结果。

比如,其中一项基准测试 MMLU 的分数,Reflection 70B 和 Llama 3 70B 相同,但明显低于 Llama 3.1 70B,更别说 GPT-4o。

Matt Shumer 回复了质疑,解释第三方的结果更差,是因为 Reflection 70B 的权重在上传到 Hugging Face 时出现了问题,导致模型的性能不如内部的 API 版本。

理由蹩脚了点,两者交锋有来有回,随后 Artificial Analysis 又表示,他们拿到了私有 API 的权限,表现确实不错,但还是没有达到当初官宣的水平。

紧接着,X、Reddit 的网友们也加入了「打假」队伍,质疑 Reflection 70B 是直接在基础测试集上训练的 LoRA,基础模型是 Llama 3,所以能在榜单刷分,实则能力不行。

甚至有人指责,Reflection 70B 套壳了 Claude,从头到尾就是在骗人。

9 月 11 日,面对舆论,Matt Shumer 团队给出了声明,否认了套壳 Claude,尚不清楚为什么基准测试的分数没法复现。

分数虚高,可能是一开始就错了,数据污染,或者配置错误,请大家再给他们一些时间。

目前事件还没有最终的定论,但至少说明一个问题,AI 榜单的可信度需要打个问号,拿刷榜的高分自我营销,对不明真相的群众而言很有迷惑性。

五花八门的大模型考试,人类的排名焦虑

让我们回到最基础的问题:怎么评价一款大模型的性能?

一个比较简单粗暴的方式是看参数量,比如 Llama 3.1 就有多个版本,8B 适合在消费级 GPU 上部署和开发,70B 适合大规模 AI 原生应用。

如果说参数量是「出厂设置」,表现模型的能力上限,基准测试则是通过「考试」,评估模型在具体任务中的实际表现,至少有数十种,侧重点不同,彼此分数还不互通。

2020 年发布的 MMLU,又称大规模多任务语言理解,是目前最主流的英文评测数据集。

它包含约 1.6 万个多项选择题,覆盖数学、物理、历史、法律、医学等 57 个科目,难度从高中到专家,是一种通用智力测试。模型回答正确的题目越多,水平就越高。

去年 12 月,Google 表示,Gemini Ultra 在 MMLU 的得分高达 90.0%,高于 GPT-4。

但是,他们也不隐瞒,提示 Gemini 和 GPT-4 的方式不同,前者是 CoT(逐步推理),后者是 5-shot,所以这个分数可能不够客观。

当然,也有测试大模型各项细分能力的基准测试,列举起来就太多了。

GSM8K 主要考察小学数学,MATH 也考数学,但更偏竞赛,包括代数、几何和微积分等,HumanEval 则考 Python 编程。

除了数理化,AI 也做「阅读理解」,DROP 让模型通过阅读段落,并结合其中的信息进行复杂推理,相比之下,HellaSwag 侧重常识推理,和生活场景结合。

▲ HellaSwag 基准测试的测试题

虽然英文居多,中文大模型也有自己的基准测试,比如 C-Eval,由上海交通大学,清华大学,爱丁堡大学共同完成,涵盖微积分等 52 个学科的近 1.4 万道题目。

▲ 中文基准测试 SuperCLUE 测试逻辑与推理

那么「评卷老师」是谁?大概分为三种,一是自动化程序,比如编程的基准测试,模型生成的代码通过自动执行验证正确与否,二是用 GPT-4 等更强大的模型做裁判,三是人工。

混合拳这么一打,比四书五经六艺全面多了。但基准测试也存在严重的隐患。背后的公司「既当裁判又当运动员」,和老师怕学生作弊的情况如此相似。

一个隐患是容易泄题,导致模型「抄答案」。

如果基准测试的测试集是公开的,模型可能已经在训练过程中「见过」这些问题或答案,导致模型的表现结果不真实,因为模型可能不是通过推理解答问题,而是记住了答案。

这就涉及到数据泄露和过拟合的问题,导致模型的能力被高估。

▲ 人民大学等高校的研究指出,与评估集相关的数据偶尔会用于模型训练

还有一个隐患是花样作弊,这里有很大的人为操作空间。

Reflection 70B 在 X 被讨论得如火如荼的时候,英伟达高级研究科学家 Jim Fan 发帖表示:操纵基准测试,不难。

比如,从「题库」入手,基于测试集的改写例子训练模型。将测试集里的问题以不同的格式、措辞、语言重写,可以让一个 13B 的模型在 MMLU、GSM8K、HumanEval 等基准测试中打败 GPT-4,倒反天罡。

同时,也可以改变「做题方式」,增加推理的算力,通过自我反思(Self-reflection)、思维树(Tree of Thought)等,让模型减慢推理、多次推理,从而提高准确性。

Jim Fan 的态度很明确:

很惊讶,到了 2024 年 9 月,人们仍然为 MMLU 或 HumanEval 的分数兴奋。这些基准测试已经严重失效,操控它们可以成为本科生的作业。

另外,基准测试的难度,可能不一定跟得上 AI 的发展速度,因为它们通常是静态的、单一的,但 AI 在狂奔。

参与开发 MMLU 的 AI 安全研究员 Dan Hendrycks,在今年 4 月告诉 Nytimes,MMLU 可能还有一两年的保质期,很快会被不同的、更难的测试取代。

百模大战,人类社会的排名焦虑被传递给了 AI,各种暗箱操作之下,AI 排行榜成为一种营销工具,却鱼龙混杂,不那么可信。

AI 模型哪家强,用户会投票

但很多时候,有数据、有标准,事情才好办。

基准测试是一个结构化的打分框架,可以作为用户选择模型的一个因素,也可以帮助模型进步。做中文基准测试的 C-Eval 甚至直言:「我们的最重要目标是辅助模型开发。」

基准测试有其存在价值,关键是怎么变得更权威、更可信。

我们已经知道,如果测试集被用于模型训练,可能导致模型在基准测试「作弊」,一些第三方的测评,便从这个缺口入手。

数据标注公司 Scale AI 的 SEAL 研究实验室,很强调自身数据集的私密性。很好理解,「闭卷考」,才能见真章。

目前,SEAL 可以测试模型的编码、指令跟踪、数学和多语言能力,未来还会增加更多测评的维度。

▲ 今年 8 月 SEAL 的编码能力排名

除了做题、打分的模式,还有一种更接地气的基准测试:竞技场。

其中的代表是 Chatbot Arena,由卡内基梅隆大学、加州大学伯克利分校等研究人员的非营利组织 LMSYS 发起。

它让匿名、随机的 AI 模型相互竞争,并由用户投票选出最佳模型,然后使用国际象棋等竞技游戏常用的 Elo 评分系统排名。

具体来说,我们可以在线向两个随机选择的匿名模型 A 和 B 提问,然后给两个答案投个票,更喜欢 A,更喜欢 B,平局,还是都不喜欢,这时候,我们才能看到 A 和 B 模型的真面目。

我提的问题是之前难倒过很多 AI 的「9.9 还是 9.11 大」,两个模型都答错了,我点了个踩,发现抽中的幸运儿一个是 GPT-4o,一个是法国的 Mixtral。

Chatbot Arena 的长处很明显,海量用户提出的问题,肯定比实验室捣鼓出的测试集复杂和灵活得多。人人看得见摸得着用得了,排名也就更接近现实世界的需求。

不像一些基准测试,测试高等数学,测试输出安不安全,其实离研究更近,离大多数用户的需求很远。

目前,Chatbot Arena 已经收集了超过 100 万个投票。马斯克的 xAI,也用过 Chatbot Arena 的排名背书。

但也有人持反对意见,认为 Chatbot Arena 会被少数用户的偏见影响,萝卜青菜各有所爱,有些用户可能喜欢更长的答案,也有些用户欣赏言简意赅,文无第一,这怎么比?

所以,Chatbot Arena 最近做出了一个调整,区分了「风格」和「内容」这两个指标,「内容」是说什么,「风格」是怎么说。通过控制对话长度和格式的影响,排名发生了改变。

简言之,怎么测,基准测试都不能保准,也不能被迷信,它们只是一种参考,就像高考只能反映学生的部分能力。

当然,最令人不满的行为,是主观地在基准测试刷榜,为自己背书,单纯地追求华而不实的排名。

回归初衷,我们都是要用 AI 解决现实问题,开发产品,写段代码,生成图片,做个心理咨询收获点情绪价值…… 基准测试没法帮你回答,哪个 AI 讲话更好听。

假的真不了,用脚投票,小马过河,才是最朴素的道理。那些更主观、更个人的感受和体验,仍然要用我们的实践换取。

利若秋霜,辟除凶殃。 工作邮箱:zhangchengchen@ifanr.com

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌
❌