Normal view

There are new articles available, click to refresh the page.
Yesterday — 16 September 2024Main stream

一年狂赚 66 亿美元,比 OpenAI 还吸金的成人网站,为什么拒绝 AI?

By: 张成晨
16 September 2024 at 12:43

提起 OnlyFans,很多人的脸上会浮现意味深长的笑容:哦,一个成人网站,可以和业内顶流 Pornhub 一战。

最近,OnlyFans 公布了去年收入,惊了被 AI 刷屏的硅谷圈——总收入 66 亿美元,创作者分到 53 亿,剩下 13 亿归平台,扣除所有成本,纯利润达 4.8 亿。

▲ X 网友语出惊人的调侃

隔行如隔山,虽然不能直接比较,但差距非常直观:OpenAI 2023 年化收入 16 亿美元,2023-2024 赛季 NBA 总薪水 49 亿美元。

OnlyFans 的成绩,不依赖广告金主,而是靠海量用户付费得来。

都说互联网的第一生产力是搞黄色,但这话多少带些「白嫖」的意味,爱看,但不一定愿意花钱。为什么这么多用户,心甘情愿地为 OnlyFans 掏出腰包?

不整虚的 OnlyFans,才是真·粉丝经济

OnlyFans 拆开是「Only」(只有)和「Fans」(粉丝),顾名思义,你可以把它理解为粉丝经济:提供一个平台,让粉丝为创作者的内容付费。

它的首页人畜无害,平淡得像扎克伯格的 Facebook。

然而,点进感兴趣的账号才知道,这里的一切都明码标价,图片、视频、直播、私信…… 不花钱,眼前就是一片灰扑扑的付费墙。

付费主要分为两种形式:订阅,按月付费,查看常规的帖子。按次付费,解锁额外的内容。

哪怕内容免费,也要绑定信用卡、订阅了创作者才能看,毕竟下一次,你可能就丝滑地付费了。如果你已经花了钱,但觉得创作者甚合心意,也可以再打赏小费。

P 站上有的内容,OnlyFans 当然也有,粉丝还可以花另外的价钱,通过私信,像甲乙方一样对齐需求,让创作者定制专属视频,体验比审美疲劳的 P 站更个性化。

2021 年,OnlyFans 因为外界压力一度要禁止色情内容,重走 Tumblr 汤不热的老路,但因为用户和创作者的强烈反对,很快反悔。此后,只要创作者证明自己成年,不违法,便百无禁忌。

▲ OnlyFans 创作者 Bryce Adams 订阅用户超过一百万

除了搞黄色,你也能在这里看到健身、烹饪、音乐等非十八禁的内容,甚至和明星说上话。

名人入驻 OnlyFans 有一个好处:自带光环和流量,不必以大尺度为噱头。

巴黎奥运会双人跳水铜牌得主 Jack Laugher,靠 OnlyFans 的副业,支撑自己的跳水事业——他的运动员薪水,只有每年 28000 英镑,哪怕在里约奥运会拿过冠军。

▲ Jack Laugher 的订阅价格是每月 10 美元

平时,Jack Laugher 发的都是一些穿着泳裤、三角内裤、平角内裤的内容,没有全裸。泳裤相当于职业装,所以他和他家人都觉得很自在,「没有什么是你不能给你奶奶看的」。

美国知名说唱歌手卡老师 Cardi B,也会在 OnlyFans 分享音乐幕后、个人生活,把它当成 Instagram 运营,只和粉丝联络感情,强调不会展示自己的胸部。就这,赚了 4500 万美元,2023 年在名人里排第二。

除了追求感官的刺激、名人的互动,用户还会在什么情况下,为他人付费?答案是走心,用真心换真心。

OnlyFans 不只是出售照片、视频,也是在出售人与人的连接,这在一对一聊天的私信上体现得最为明显。

对于粉丝,尤其是一些中青年男性来说,聊天是精神抚慰、情感联系,非直观的肉体所能比拟,可以当作一种另类的心理咨询。

Business Insider 采访了 10 位 OnlyFans 创作者,9 个都说和粉丝建立的不只是性关系,更接近朋友或者对象,平时会聊爱好、心理问题、人际关系、家庭压力。

▲ OnlyFans 创作者也玩 cosplay

虽然 OnlyFans 总部在英国,但有数据显示,三分之二的收入来自美国,英国和欧洲用户占 16%,其余 17% 属于「世界其他地区」。

《OnlyFans 用户的性态度和特征》这篇论文,用户画像更加具体:OnlyFans 用户主要是已婚白人男性,平均年龄 29 岁,平均年收入 4.2 万美元。

怎么说,其实不让人意外,就像下班后在车里吸一根烟再上楼的国产剧男性形象。

心理不设防了,钱也就给得心甘情愿了。《财富》杂志报道,与粉丝聊天,拉近关系,然后售卖「独家」内容,占到很多 OnlyFans 创作者收入的 50% 以上。

粉丝为创作者的劳动付费,创作者直接从粉丝身上赚钱,简单、直接、了当,这就是 OnlyFans 的创作者经济。

因为不依赖广告、创作者激励,其他社交媒体在乎的流量来源、热门话题、用户停留时长、个性化推荐算法,OnlyFans 通通不在乎。

但没有平台扶持,也会让创作者涨粉比较困难,所以他们会在 Reddit、Instagram、TikTok 等社交媒体打广告,把更多用户引流到 OnlyFans。

这些平台的态度是,不反对。它们通常禁止色情,和 OnlyFans 不构成直接竞争,只要创作者在自己平台上发布的内容不过线,那么问题不大,偶尔能产出爆款就更好了。

成熟的系统,少数人的胜利

俗话说闷声发大财,当一种赚钱方式公之于众的时候,可能它入局的壁垒已经很高了。靠 OnlyFans 买房买车走上人生巅峰,只是少数人的神话。

OnlyFans 目前有三亿多用户,超过四百万个创作者账号,2023 年的员工数量不过 42 名,人效比极高,一个员工抵得上千军万马,让两位创始人拿股息拿到手软。

但 66 亿美元的总收入平摊到创作者身上,就显得没那么美好了——OnlyFans 创作者的 2023 年平均年收入,约为 1800 美元。

这就像「我和马云平均收入也挺高」的笑话,大多数普通人是「抱歉我在拖后腿」的那个。

▲ 说唱歌手 Bhad Bhabie 最近晒单,2021 到 2024,她从 OnlyFans 赚到了 5700 万美元

2020 年,独立研究员 Tom Hollands 抓取了 OnlyFans 的支付数据,发现前 1% 的创作者赚了 33% 的钱,大多数创作者每月赚的钱不到 145 美元。

如果可以一年赚到 4.9 万美元,那么可喜可贺,已经跻身前 1% 了。

OnlyFans 二八分成,平台 20%,创作者 80%,听起来似乎很慷慨,但到创作者手里的,不一定全须全尾。

成功的 OnlyFans 创作者们,要么自己开公司当老板,要么和代理机构合作。类似国内的 MCN,这些代理机构还要再分成,一般是 30% 以上。

代管一个创作者账号,服务讲究一条龙。Nytimes 采访的一家代理机构,帮 30 多名女性管理 OnlyFans,业务包括但不限于,在其他社交媒体引流,代写私信,创作日常内容,最终图穷匕见,把色情视频卖出去。

运营们需有敏锐的眼光,找出很快花掉 200 美元以上的肥羊,然后更加嘘寒问暖,薅到更多羊毛。运营们也要会说甜蜜的谎言,告诉一些天真无邪的粉丝,视频是专为他们一个人录制的,虽然同一个视频可能会被卖给几十个人。

▲ 一张著名的梗图,股市不如 OnlyFans 赚钱

这些机构吃着碗里,不忘看着锅里,还会物色新的对象,在 Instagram 邀请女性「下海」,话术是一起发财。

「在互联网上,没人知道你是一条狗」的笑话,永不过时。

这条生产链的底端,往往是那些外包的代聊,又称「chatter」。全球不缺廉价的英语劳动力,他们大多数是菲律宾、尼日利亚、印度等地的低薪工人,每周工作 6 天,连续工作 12 小时,时薪 3 美元,还不如在麦当劳做汉堡。

钱难赚,屎难吃,这份工不好打,精神压力很大,要听几百个人吐苦水、讲怪话,同时背负销售的 KPI。简单来说,就像客服一样。恰好,菲律宾也是世界呼叫中心之一。

▲ AI 陪聊产品,可以聊不同风格的

当 AI 发展起来,聊天机器人陪聊,成了解放人类劳动力的一种出路。甚至,这些聊天机器人可以基于过往的聊天记录训练,根据每个网红的风格量身定制。

不过,OnlyFans 禁止 AI 回复聊天。上有政策,下有对策,AI 写消息,人类点发送键,总体还是比以前更加高效,一个人就能负责几百个聊天对象。但很难说,是轻松了,还是更痛苦了。

OnlyFans 有审核,却也管不了这些 AI。在这个 Deepfake 已经很难肉眼辨认的时代,虽然在内部成立了 AI 团队,OnlyFans 依然由人工审核主导,但检查的主要是,有没有擦边的未成年内容。

作为一个系统,OnlyFans 无疑很成熟,拿捏住人性需求,从一开始就要求用户付费访问内容,形成了一个健康、稳固的付费生态。

马斯克的 X 也在尝试付费订阅,还放宽了对成人内容的限制,但 OnlyFans 首席执行官 Keily Blair,对其他平台的「OnlyFans 化」,并不看好。

▲ Keily Blair(右)

她的理由很简单,付费或者不付费,都是一种惯性。其他社交媒体的用户,已经习惯了内容是免费的。如果这些平台也想尝试订阅模式,就需要让用户觉得,内容是独家的,自己可以获得更多价值。

OnlyFans 把「干什么都要花钱」的路径走通了,任何一个环节都懂得怎么更快、更系统地攫取更多利益,但得到大部分利益的人,并不一定是创作者自己。

AI 版 OnlyFans 来袭,有什么不能被机器替代

面对 OnlyFans 一骑绝尘的成绩,也有人唱衰,认为 OnlyFans 已经登顶,之后就要走下坡路,被 AI 一点点颠覆,这话不无道理。

OnlyFans 目前对 AI 的态度不积极,认为风险和回报不成比例,聊天不如人类深入,版权归属等不明确,创作者可以用 AI 改善自己的内容,但不允许完全由 AI 生成的账号。

OnlyFans 对创作者的资格审核非常严格,每个人都必须提交 10 条左右的个人身份证明,以及社交媒体信息,拿着身份证件自拍视频,证明自己是成年人。

▲ OnlyFans 整的一个活,日历内页全是 Fan(风扇)而非性感的封面女郎

这本是为了防范违法行为,同时也起到了将 AI 拒之门外的效果。

然而,外面的世界,已经到处都是 AI 了。

聊天机器人尚且不影响 OnlyFans 的主营业务,因为聊天是增值,是钩子,用户最终会购买真人的图片和视频,但从头到脚都是 AI 的网红,可能会对 OnlyFans 本身造成冲击。

OnlyFans 近年的数据反映了一个很有趣的现象:订阅占总收入的比例减少,按次付费的比例增加,2023 年甚至占了近 60%,而且不算小额,一次几十美元或者更多。

这不难理解,我订阅了爱奇艺、腾讯、优酷的会员,等于选择了网站上的全部内容,但我可能只想看一部剧而已。按次付费,更能满足千人千面的需求。

但说到定制, AI 不是更能投其所好吗?它们可以讲各种语言,24 小时在线,生成任何你想要的样子,并渐渐以假乱真。

AI 模型的真实性,一天一个境界,「我有个大胆的想法」,似乎可以在 AI 身上成真。

▲ 使用 Flux 生成的 AI 女性

若要论灵魂的共鸣,AI 虚拟伴侣也已经是一个非常火的赛道,Character AI、Talkie、星野,让你用 AI 二创真实人物,或者设定原创角色,外貌、性格、语音、故事线都能自定义。个性化体验,被推向了新的高度。

和 OnlyFans 的强硬态度不同,它的竞争对手 Fanvue 更宽容,十分看好 AI 生成的创作者,前提是没有隐瞒用了 AI。

其中,Pellegrini 是 Fanvue 最受欢迎的 AI 网红之一,2024 年 1 月的收入为 2.3 万美元,Instagram 粉丝达到 25.7 万,这业务能力放在 OnlyFans 也是顶流了。

一位足球运动员甚至写信给她,询问联系方式:「这么漂亮的女性,怎么可能没有男朋友呢?」

把思路打开,AI 背后也是团队在运营,和有些真人网红似乎区别并不大——和付费粉丝聊天,提供独家的内容,而用户们索取的,同样都是幻想的模样、虚假的关系。

不过,以前是由创作者出镜提供素材,而现在,AI 可以不知疲倦地生成。

我们不怀疑人性的弱点,也不忽视欲望和情绪的价值,但怎么兑现,又为什么而付费,是个开放的问题。谁也没法确定,自己就是最标准的那个答案。

但 OnlyFans 比 AI 公司们还猛的势头,似乎也是在反抗一切都逐渐 AI 化的现实。人类创造仍然值得付费,担得起较高的心理价位,不管在哪个行业。

OnlyFans 可以作为一个特别的样本,在未来的几年内,让我们继续观察,更多 AI 替代品的出现,是会让原来的付费需求下降,还是让人类更珍惜手作的劳动含量,哪怕只是被包装出来的。

人类的古老行业,也是一面先进科技的镜子。

利若秋霜,辟除凶殃。 工作邮箱:zhangchengchen@ifanr.com

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Before yesterdayMain stream

号称打败 GPT-4o 的开源 AI 新王被指造假,不要迷信大模型的榜单了

By: 张成晨
11 September 2024 at 18:13

你有没有想过一个问题:AI 模型是怎么论资排辈的?

和人类的高考一样,它们也有自己的考试——基准测试(Benchmark)。

不过,高考就那么几个科目,基准测试的花样就多了,有的考察通识,有的专攻某一项能力,数学、代码、阅读理解,无所不包。

▲Google 发布 Gemini 时的基准测试排名

基准测试的好处是直观,榜单这么一拉,得分高低一目了然,比大段的文字更有拉拢用户的效果。

然而,测归测,准不准就不一定了。因为最近的一个疑似造假事件,基准测试的可信度又下降了一层。

开源模型新王者,转眼被「打假」

9 月 6 日,Reflection 70B 的出现,仿佛是个奇迹。它来自名不见经传的纽约初创公司 HyperWrite,却自封了「世界顶级开源模型」的称号。

开发者 Matt Shumer 是怎么证明这一点的呢?用数据。

在多项基准测试中,参数仅有 70B 的它,打败了 GPT-4o、Claude 3.5 Sonnet、Llama 3.1 405B 等一众大佬。比顶尖闭源模型还有性价比,瞬间惊艳众人。

Reflection 70B 并非从石头里蹦出来,自称基于 Meta 的 Llama 3.1 70B,花了 3 周训练,用到了一种新的技术 Reflection-Tuning,可以让 AI 检测自身推理中的错误,并在回答之前纠正。

用人类思维类比,这有点像《思考,快与慢》从系统一到系统二的转换,提醒 AI 悠着点,别脱口而出,而是减慢推理速度,也减少幻觉,给出更合理的答案。

然而,质疑声很快就来了。

9 月 8 日,第三方测评机构 Artificial Analysis 表示,他们没能复现基准测试的结果。

比如,其中一项基准测试 MMLU 的分数,Reflection 70B 和 Llama 3 70B 相同,但明显低于 Llama 3.1 70B,更别说 GPT-4o。

Matt Shumer 回复了质疑,解释第三方的结果更差,是因为 Reflection 70B 的权重在上传到 Hugging Face 时出现了问题,导致模型的性能不如内部的 API 版本。

理由蹩脚了点,两者交锋有来有回,随后 Artificial Analysis 又表示,他们拿到了私有 API 的权限,表现确实不错,但还是没有达到当初官宣的水平。

紧接着,X、Reddit 的网友们也加入了「打假」队伍,质疑 Reflection 70B 是直接在基础测试集上训练的 LoRA,基础模型是 Llama 3,所以能在榜单刷分,实则能力不行。

甚至有人指责,Reflection 70B 套壳了 Claude,从头到尾就是在骗人。

9 月 11 日,面对舆论,Matt Shumer 团队给出了声明,否认了套壳 Claude,尚不清楚为什么基准测试的分数没法复现。

分数虚高,可能是一开始就错了,数据污染,或者配置错误,请大家再给他们一些时间。

目前事件还没有最终的定论,但至少说明一个问题,AI 榜单的可信度需要打个问号,拿刷榜的高分自我营销,对不明真相的群众而言很有迷惑性。

五花八门的大模型考试,人类的排名焦虑

让我们回到最基础的问题:怎么评价一款大模型的性能?

一个比较简单粗暴的方式是看参数量,比如 Llama 3.1 就有多个版本,8B 适合在消费级 GPU 上部署和开发,70B 适合大规模 AI 原生应用。

如果说参数量是「出厂设置」,表现模型的能力上限,基准测试则是通过「考试」,评估模型在具体任务中的实际表现,至少有数十种,侧重点不同,彼此分数还不互通。

2020 年发布的 MMLU,又称大规模多任务语言理解,是目前最主流的英文评测数据集。

它包含约 1.6 万个多项选择题,覆盖数学、物理、历史、法律、医学等 57 个科目,难度从高中到专家,是一种通用智力测试。模型回答正确的题目越多,水平就越高。

去年 12 月,Google 表示,Gemini Ultra 在 MMLU 的得分高达 90.0%,高于 GPT-4。

但是,他们也不隐瞒,提示 Gemini 和 GPT-4 的方式不同,前者是 CoT(逐步推理),后者是 5-shot,所以这个分数可能不够客观。

当然,也有测试大模型各项细分能力的基准测试,列举起来就太多了。

GSM8K 主要考察小学数学,MATH 也考数学,但更偏竞赛,包括代数、几何和微积分等,HumanEval 则考 Python 编程。

除了数理化,AI 也做「阅读理解」,DROP 让模型通过阅读段落,并结合其中的信息进行复杂推理,相比之下,HellaSwag 侧重常识推理,和生活场景结合。

▲ HellaSwag 基准测试的测试题

虽然英文居多,中文大模型也有自己的基准测试,比如 C-Eval,由上海交通大学,清华大学,爱丁堡大学共同完成,涵盖微积分等 52 个学科的近 1.4 万道题目。

▲ 中文基准测试 SuperCLUE 测试逻辑与推理

那么「评卷老师」是谁?大概分为三种,一是自动化程序,比如编程的基准测试,模型生成的代码通过自动执行验证正确与否,二是用 GPT-4 等更强大的模型做裁判,三是人工。

混合拳这么一打,比四书五经六艺全面多了。但基准测试也存在严重的隐患。背后的公司「既当裁判又当运动员」,和老师怕学生作弊的情况如此相似。

一个隐患是容易泄题,导致模型「抄答案」。

如果基准测试的测试集是公开的,模型可能已经在训练过程中「见过」这些问题或答案,导致模型的表现结果不真实,因为模型可能不是通过推理解答问题,而是记住了答案。

这就涉及到数据泄露和过拟合的问题,导致模型的能力被高估。

▲ 人民大学等高校的研究指出,与评估集相关的数据偶尔会用于模型训练

还有一个隐患是花样作弊,这里有很大的人为操作空间。

Reflection 70B 在 X 被讨论得如火如荼的时候,英伟达高级研究科学家 Jim Fan 发帖表示:操纵基准测试,不难。

比如,从「题库」入手,基于测试集的改写例子训练模型。将测试集里的问题以不同的格式、措辞、语言重写,可以让一个 13B 的模型在 MMLU、GSM8K、HumanEval 等基准测试中打败 GPT-4,倒反天罡。

同时,也可以改变「做题方式」,增加推理的算力,通过自我反思(Self-reflection)、思维树(Tree of Thought)等,让模型减慢推理、多次推理,从而提高准确性。

Jim Fan 的态度很明确:

很惊讶,到了 2024 年 9 月,人们仍然为 MMLU 或 HumanEval 的分数兴奋。这些基准测试已经严重失效,操控它们可以成为本科生的作业。

另外,基准测试的难度,可能不一定跟得上 AI 的发展速度,因为它们通常是静态的、单一的,但 AI 在狂奔。

参与开发 MMLU 的 AI 安全研究员 Dan Hendrycks,在今年 4 月告诉 Nytimes,MMLU 可能还有一两年的保质期,很快会被不同的、更难的测试取代。

百模大战,人类社会的排名焦虑被传递给了 AI,各种暗箱操作之下,AI 排行榜成为一种营销工具,却鱼龙混杂,不那么可信。

AI 模型哪家强,用户会投票

但很多时候,有数据、有标准,事情才好办。

基准测试是一个结构化的打分框架,可以作为用户选择模型的一个因素,也可以帮助模型进步。做中文基准测试的 C-Eval 甚至直言:「我们的最重要目标是辅助模型开发。」

基准测试有其存在价值,关键是怎么变得更权威、更可信。

我们已经知道,如果测试集被用于模型训练,可能导致模型在基准测试「作弊」,一些第三方的测评,便从这个缺口入手。

数据标注公司 Scale AI 的 SEAL 研究实验室,很强调自身数据集的私密性。很好理解,「闭卷考」,才能见真章。

目前,SEAL 可以测试模型的编码、指令跟踪、数学和多语言能力,未来还会增加更多测评的维度。

▲ 今年 8 月 SEAL 的编码能力排名

除了做题、打分的模式,还有一种更接地气的基准测试:竞技场。

其中的代表是 Chatbot Arena,由卡内基梅隆大学、加州大学伯克利分校等研究人员的非营利组织 LMSYS 发起。

它让匿名、随机的 AI 模型相互竞争,并由用户投票选出最佳模型,然后使用国际象棋等竞技游戏常用的 Elo 评分系统排名。

具体来说,我们可以在线向两个随机选择的匿名模型 A 和 B 提问,然后给两个答案投个票,更喜欢 A,更喜欢 B,平局,还是都不喜欢,这时候,我们才能看到 A 和 B 模型的真面目。

我提的问题是之前难倒过很多 AI 的「9.9 还是 9.11 大」,两个模型都答错了,我点了个踩,发现抽中的幸运儿一个是 GPT-4o,一个是法国的 Mixtral。

Chatbot Arena 的长处很明显,海量用户提出的问题,肯定比实验室捣鼓出的测试集复杂和灵活得多。人人看得见摸得着用得了,排名也就更接近现实世界的需求。

不像一些基准测试,测试高等数学,测试输出安不安全,其实离研究更近,离大多数用户的需求很远。

目前,Chatbot Arena 已经收集了超过 100 万个投票。马斯克的 xAI,也用过 Chatbot Arena 的排名背书。

但也有人持反对意见,认为 Chatbot Arena 会被少数用户的偏见影响,萝卜青菜各有所爱,有些用户可能喜欢更长的答案,也有些用户欣赏言简意赅,文无第一,这怎么比?

所以,Chatbot Arena 最近做出了一个调整,区分了「风格」和「内容」这两个指标,「内容」是说什么,「风格」是怎么说。通过控制对话长度和格式的影响,排名发生了改变。

简言之,怎么测,基准测试都不能保准,也不能被迷信,它们只是一种参考,就像高考只能反映学生的部分能力。

当然,最令人不满的行为,是主观地在基准测试刷榜,为自己背书,单纯地追求华而不实的排名。

回归初衷,我们都是要用 AI 解决现实问题,开发产品,写段代码,生成图片,做个心理咨询收获点情绪价值…… 基准测试没法帮你回答,哪个 AI 讲话更好听。

假的真不了,用脚投票,小马过河,才是最朴素的道理。那些更主观、更个人的感受和体验,仍然要用我们的实践换取。

利若秋霜,辟除凶殃。 工作邮箱:zhangchengchen@ifanr.com

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


反击韩国 N 号房 2.0 !当普通人在 AI 换脸面前一败涂地,他们用魔法打败魔法

By: 张成晨
9 September 2024 at 12:03


最近在韩国发生的「N 号房 2.0」事件,再次把 Deepfake(深度伪造)这个老生常谈的话题带到了台前。

加害人们聚集在 Telegram,用 AI 将女性照片合成为裸照,昭示着,Deepfake 的包围圈,早已从娱乐明星、政治人物,扩张到你我这样的普通人。

在这个 AI 成为显学的时代,我们想要了解,看似并不新鲜的、但近年越发普及的技术,如何影响了日常生活。

Deepfake 进化到什么程度了,会造成什么危害?如何用技术反 Deepfake?普通人怎么防范 Deepfake?

我们和瑞莱智慧算法科学家陈鹏博士聊了聊这些问题。瑞莱智慧成立于 2018 年,由清华大学人工智能研究院孵化,深耕 AI 鉴伪多年。

陈鹏告诉我们,普通人在鉴别 Deepfake 上已经一败涂地,反 Deepfake 还得看 AI。

一张图,几秒钟,Deepfake 越来越简单

Deepfake 最早兴起于 2017 年的「美版贴吧」Reddit,主要形式是将明星的脸替换到色情视频的主角身上,或者恶搞政界人物。

如今,造谣、搞黄色,仍然是 Deepfake 的主流用途,只是变得更加容易。

陈鹏解释,采集一张照片也足够换脸,当然,采集的数据越多,痣、五官等人脸的细节也会被更好地建模,换脸的效果就越逼真。

今年 4 月,两位德国艺术家的行为艺术项目,就是一个活生生的例子。

他们设计了一个 AI 相机 NUCA,相机本体 3D 打印,内置 37 毫米广角镜头,拍下的照片会被传输到云端,由 AI「脱去衣服」,10 秒钟不到即可「出片」。

NUCA 其实不知道你的裸体是什么样,只是通过分析你的性别、面部、年龄、体型等,呈现 AI 眼里你的裸体。

粗劣吗?或许不重要,几秒之间,你已经在 AI 面前暴露无遗,别人说不定也会相信这是你。

韩国「N 号房 2.0」也被曝光出类似的细节:一个 22.7 万人的 Telegram 聊天室,内置一个将女性照片合成为裸照、并能调整胸部的机器人,5 到 7 秒生成 Deepfake 内容。

▲聊天室截图,说明 Deepfake 的使用方法

换脸、脱衣,只是 Deepfake 的一种应用。

通过生成式 AI 模型(GAN、VAE、扩散模型等),合成或伪造逼真的内容,包括文字、图像、音频、视频,都可以称为 Deepfake。

其中,音频的 Deepfake 也相当常见。

2023 年初,科技记者 Joseph Cox 拨打银行的自动服务热线,播放自己用 ElevenLabs 克隆的 AI 语音「我的声音就是我的密码」,要求检查余额,没想到语音验证成功了。

陈鹏表示这不奇怪,之前捕捉我们的声纹信息,需要几分钟、几十分钟的语音,但现在可能半分钟、几十秒,就能捕捉个大概。多接几个骚扰电话,我们的声音或许就泄漏了。

当然,想要更精准地克隆,复制音调等说话风格,比如让郭德纲说英文相声、让霉霉讲中文,仍然需要更多的语料。

甚至,文本也是一个被 Deepfake 的领域。AI 生成的文本早已到处可见,被学生拿来作弊和应付作业让老师头疼,但我们或许还没有意识到这背后的风险。

虚假消息和谣言,是文字 Deepfake 的重灾区,陈鹏说,以前还需要人类自己写文案,但现在针对某个事件,AI 可以生成各种言论,然后自动化地投放到社交媒体。

Deepfake 更快速、更简单,在陈鹏看来,主要有三个原因。

一是,文生图、文生视频等生成式 AI 技术有了突破,二是,算力越发普及,消费级的显卡已经能够运行生成式 AI 模型。

还有很重要的一点,Deepfake 这项技术,被优化成了各种门槛更低的工具。

拿换脸举例,Deepfake 的开源项目不少,比如 Github 的 DeepFaceLive 和 Deep-Live-Cam,用户可以从网站下载代码,在本地配置运行环境。

▲AI 马斯克直播,用的是 Deep-Live-Cam

如果不懂技术的小白还是觉得有难度,也有专业人士直接把饭喂到嘴边,对模型进行封装,编写成简单好用的软件供玩家免费下载,自己赚点广告费,包括很多一键脱衣的 app。

至于音频的 Deepfake,也已经有成熟的商业公司,以 SDK(开发工具包)或者 API(应用编程接口)的方式,让用户轻松使用服务。

用户甚至不需要一台带有显卡的设备部署程序,而是将音频等内容上传到网站,等待生成结果,然后下载。

所以,复杂的技术原理隐藏幕后,在用户面前的是一个个「开箱即用」的界面,连青少年们也能随手制造虚假信息。

一言以蔽之,陈鹏的结论是:

Deepfake 已经到了普通人唾手可得的地步了。

肉眼鉴别 Deepfake,人类可能已经一败涂地

当一项技术「飞入寻常百姓家」,最可能被波及的,恰恰也是普通人。

诈骗是 Deepfake 最常见的作恶方式之一。

今年年初,一家跨国公司香港分公司因为 AI 被骗走了 2500 万美元。受害人参加了一次视频会议,其他人都是经过「AI 换脸」和「AI 换声」的诈骗分子。

▲警方示范怎么用 Deepfake 伪造多人视频会议

事已至此,我们可以做些什么保护自己?

如果别人拿 Deepfake 来骗你,钻 AI 的空子,是其中一种办法,但有保质期。

举个例子,我们在视频通话时,如果怀疑对方是 AI 换脸,可以引导对方做些特定的动作,比如把手放在面前快速划动几下、大幅度地转动头部。

如果 AI 换脸背后的模型没有对手部遮挡做专门的优化,那么就会露馅,脸可能会出现在手的背部,或者突然发生扭曲。

转动头部的原理也是一样,如果在收集数据的阶段,对方没有特意采集大于 45 度的转头素材,那么脸部贴合的形迹就会不自然。

但未来,这种肉眼可见的瑕疵,肯定会慢慢减少。

▲美国西北大学的「找茬」测试:AI-generated or Real?

陈鹏开玩笑说,如果诈骗分子觉得你是只待宰的肥羊,存了心要骗你,扒光你的社交媒体信息,花好几天优化你的模型,那么这些方法也不保证有用。

一个视频如果没有出现这些瑕疵的话,那就说明它是真视频?这不是的。
至于说有效没效,那肯定不能完全有效、百分百有效,就是一定程度上有效。

换成专业一些的说法,人类的视觉感知,在语义层次上表现得很好,比如能够轻松分辨出物体或场景的含义,但在处理像素级别的、低层次的细微差别时,感知能力不如 AI 模型。

从这个角度看,陈鹏认为,普通人在分辨 Deepfake 上已经一败涂地,专家或许还有一战之力,因为看得太多,分析能力比较全面,可以看出某个地方不符合规律。

我们都不是列文虎克,也没有火眼金睛,但人性亘古不变。所以,我们也可以拉起传统的、和技术无关的心理防线——小心驶得万年船。

诈骗往往万变不离其宗:窃取隐私,利用恐惧、贪欲、情绪价值编故事,冒充熟人或包装自己获取信任,图穷匕见以钱为最终目的。

▲瑞莱智慧旗下产品 RealBelieve,会在视频通话时发出预警

牢记这点,然后提高戒心,不点陌生链接,不随便给验证码,尽量不在互联网过度暴露人脸、声音、指纹等个人生物信息,接到可疑电话,谈到钱就多个心眼,多种方式验证对方身份,比如询问只有彼此知道的事情。

古语有云,攻心为上,我们一旦意识到自己有可能被骗,那么就有可能不被骗。

魔法对轰魔法,AI 打败 AI

提高防诈意识还不够,韩国「N 号房 2.0」事件,展现了 Deepfake 的另一种作恶形式。人在家中坐,锅从天上来。

虚假裸照的受害者,可能遇上「复仇色情」——加害者以传播 Deepfake 材料为威胁,勒索和骚扰受害人,造成更严重的二次伤害。

但这把镰刀也可能举到我们头上:想象一下,诈骗团伙不知道从哪里拿到你的照片,合成到低俗视频,发短信威胁你,不转账,就全网曝光,你该如何自证?

陈鹏所在的瑞莱智慧,确实遇到过这类个人业务,对方说被视频换脸,能不能还他个清白。

方法当然是有的:魔法对轰魔法,AI 打败 AI。

陈鹏介绍,AI 鉴伪主要有两条技术路线:主动式防御,被动式检测。

先说主动式防御,当我们在社交媒体发了照片,不希望照片被别人利用,那么可以在其中嵌入一些视觉上不可感知的噪声。

如果别人拿我们的照片训练模型,因为这种隐形的干扰,AI 没法很好地提取其中的视觉表征,最终出来的结果可能扭曲或者变糊,这叫作「对抗样本攻击」。

「半脆弱性水印」,是另一种主动式防御的方式。添加水印之后,如果别人编辑了我们的照片,这个水印会被破坏,我们就可以知道,这个图片被处理过了,不太可信。

水印不能直接阻止图片被 Deepfake,但可以检测和认证图片的真实性。

▲海外也有类似探索,Adobe 发起 C2PA 标准,利用元数据参数,作为图片出处的判定方式

当然,主动式防御的门槛较高,我们需要防患于未然,提前对图片进行一些处理。

更常见的情况是,我们没法未卜先知,收到自己的「裸照」,却也是第一次和自己这样「坦诚相见」。这时候,就要用上被动式检测。

瑞莱智慧旗下有一系列负责鉴伪的 AI 产品,包括生成式 AI 内容检测平台 DeepReal、人脸 AI 安全防火墙 RealGuard 等等。

▲DeapReal

简单来说,用 AI 鉴别 AI,分为两个环节,先提取大量的伪造特征,再基于这些样本建模,让 AI 学习鉴伪的规律。

颜色的扭曲、纹理的不合理、表情的不自然、音画的不同步、虹膜形状的不规则、两个瞳孔高光的不一致,都是 AI 的学习素材。

其中,视频的鉴伪,可能比图像的准确率更高,因为视频由一系列连续的图像组成,相比单独的图像,提供了更多可以用于鉴伪的信息,比如人物在不同帧之间的动作连续性。

本质上,AI 鉴伪有些像人类用肉眼找茬,也是在利用 AI 模型本身的瑕疵。

▲ 中科院研究人员向全球开源了检测 Deepfake 的 AI 模型

但瑕疵肯定会逐渐改善,所以产生了一个很关键的问题:是先有伪造,后有鉴伪吗?如果如此,鉴伪不是永远落后伪造半拍吗?

陈鹏回答,生成的技术,可能略微领先鉴伪的技术,但他们内部有红蓝对抗的攻防实验室,一边模拟 Deepfake,一边防御 Deepfake,不断提高 Deepfake 的检测能力。

如果有什么新的 Deepfake 技术面世,他们可以很快复现,然后在检测产品上进行验证,「新的技术出来,即使我没有见过,我还是能够一定程度上检测出来」。

而且,模型本身也有一定的泛化能力,见过的 Deepfake 内容多了,碰上没见过的,一定程度上也可以准确识别和检测。

▲ B 站等平台会对 AI 换脸娱乐内容进行标注

总之,AI 伪造和鉴伪,是一个长期对抗、互相博弈的「猫鼠游戏」。

这也是为什么,陈鹏一直在研究 AI 鉴伪算法:

反 Deepfake 对抗性太强了,需要长期投入,不像很多 AI 产品,做完就不用管了。

尽管如此,他仍然比较乐观:「用法律法规监管,平台进行内容治理,产业界提供技术和工具,媒体让更多人意识到风险,多方面治理到一定程度,肯定会有缓和。」

以后上网,我们可能会陷入这样一个有些荒谬的场景:验证码让你证明「我是人」,Deepfake 又让你证明「我不是我」。

技术没法完全检测出所有的恶意,但人类也不必过于焦虑,Deepfake 的得逞只是最后的结果,防范 Deepfake 却可以随时开始。

就像陈鹏所说,即使一个非常简单的 AI 产品,也是一个很系统性的工程。

我们是更大的系统里的部分,让受伤的人发声,让加害的人被罚,让阻止恶行的技术介入,让社会的观念抬高一寸,我们才能共同走向一个技术不被恐惧而是被合理使用的未来。

利若秋霜,辟除凶殃。 工作邮箱:zhangchengchen@ifanr.com

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


咳嗽几声,Google 的 AI 就知道我有没有病?

By: 张成晨
3 September 2024 at 14:30

AI 的特点在于超强的学习能力,聊天、绘画、写作、作曲,就没有它不会的。

你为 AI 焦虑到头秃,Google 倒希望 AI 帮你照顾好自己的身体。

这次,AI 的学习材料变成了咳嗽声。

基于 YouTube 等平台无版权的公开视频,Google 收集了 3 亿条 2 秒左右的音频数据,包括咳嗽、抽鼻子、打喷嚏和呼吸困难的声音,然后训练了一个 AI 基础模型:HeAR。

HeAR 可以通过你的声音,了解你的健康状况,甚至能在疾病的早期给出诊断。

Google 没有让 HeAR 在实验室束之高阁,已经和印度 AI 医疗初创公司 Salcit Technologies 展开合作。

Salcit 有自己的 AI 模型 Swaasa(梵语里意为「呼吸」)以及 app,在一些情况下可以替代传统的肺活量测试,用户提交 10 秒的咳嗽样本,就能检测某些呼吸道疾病。

HeAR 拓展了 Swaasa 的技能,又延续了 Swaasa 的精神。两者的强强联合,首先用在基于咳嗽声的结核病早期检测。

为什么是结核病?首先,HeAR 有这个能力,训练材料里,咳嗽声就占了大概 1 亿条。

其次,结核病的情况比较特殊,可以治愈,但每年有数百万病例未被诊断,耽误了病情,原因无非是医疗落后,患者没有条件。如果不治疗,结核病的死亡率高于 50%。

这就能体现 AI「听诊」的好处了——与血液测试、成像等相比,声音是更容易获得、成本也更低的信息,可以直接通过智能手机上的麦克风和 AI 软件收集、分析。

不过,在更广泛地落地前,HeAR 还有一些问题需要解决,包括音频样本的背景噪音过多。

除了 Google,还有一些大厂和初创公司,也在尝试让 AI「听见」疾病。

2021 年,301 医院、北京大学第一医院等联合发起呼吸健康研究,华为在其中扮演了重要角色。

拥有华为 WATCH 4 系列、WATCH GT 4 等智能手表的用户,可以在华为创新研究 app 选择加入呼吸健康研究,录制咳嗽音,采集生理数据,实现肺部感染风险筛查。

「咳几声」,怎么就能知道肺部有没有感染?肺部感染的患者,咳嗽的爆发音、频谱衰减和其他人不同,所以能被区分开来。

背后默默提供支持的,是海量专业的模型数据,以及环境音识别、高精度咳嗽识别和呼吸健康筛查评估三重算法。

另外,AI 也正在通过我们说话的声音,深入我们的内心世界。声音会因为精神健康而改变,有研究可循。

抑郁症患者讲话通常更单调、更平淡、更柔和,音高范围和音量较小,有更多停顿,也会更频繁地停下来。焦虑症患者则会因为身体紧张,往往说得更快,呼吸更加困难。

基于微软云服务 Microsoft Azure 的美国初创公司 Canary Speech,可以捕捉并处理 40 秒的对话语音,追踪压力、情绪等,从而检测健康状况。

人类可能会自欺欺人地说「我很好」,但算法不会骗人,而是观察你的表达方式,根据语气词、停顿等,做出客观的评估。AI 不仅关注你说什么,更关注你怎么说。

美国国立卫生研究院的愿景则更为广阔,有些「兼济天下」的意思。

研究人员计划到 2026 年,创建一个大型的开源语音数据库,训练 AI 诊断疾病,最终开发一个 app,帮助全科医生将患者转诊给专家,将服务辐射到农村等医疗欠缺的地区。

他们知道声音里有大量的信息——说话低声、缓慢的人可能患有帕金森病,口齿不清是中风的征兆,抑郁症也能在声音中找到端倪。

不过,收集的语音还是有优先级,包括五种疾病:神经系统疾病、声音障碍、情绪障碍、呼吸系统疾病、自闭症和言语迟缓等儿科疾病。

某种程度上,从手表、手环、戒指等可穿戴设备到 AI「听诊」,技术都是在将人类的感官数字化,并且功能越发丰富,更加关注身体的综合状况。

你做冥想了吗,你的心血管如何了,月经周期怎么样,运动圆环合上了吗……

首款 Apple Watch 于 2015 年发布,距今已有 10 年,我们渐渐习惯,让身边的智能设备,随时、安静、非侵入性地检测身体。

而语音是一个更日常的场景,用我们的手机就可以实现交互。不过,语音数据的偏见性、准确性、隐私问题,以及算法的黑盒本质,也让很多研究人员担心语音检测的负面影响。

可能未来的某一天,Siri、小爱同学等语音助理,会这样提醒我们:亲,今天咳嗽了几次,心情跌到谷底几次,呼吸急促了几次…… 这是科技的进步,还是现实版的《美丽新世界》?

利若秋霜,辟除凶殃。 工作邮箱:zhangchengchen@ifanr.com

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


韩国 N 号房再现!大量女性被 AI 换脸在微博求助,涉及 500 所学校,超过 22 万人参与

By: 张成晨
31 August 2024 at 13:14

上世纪末的作品《攻壳机动队》中,全身义体化的素子,怀疑自己是否仍然存在。身体、记忆和其他人的关系,当这些事物都能够被复制,也就无法成为肉身生命的论据。

AI 歌手爆火之时,孙燕姿也在回应里提出类似的观点,你并不特别,你已经是可预测的,而且不幸你也是可定制的。

我们可以加上一句,任何人都是可以被 AI 描述和生成的,哪怕你从未做过某些事情。

鲁迅真的说过,一见短袖子,立刻想到白臂膊。人类的想象力是共通的,毫不意外,每当技术有新进展,某个垂直赛道会被开发得越发成熟:搞黄色。

曾经因为 N 号房震惊世界的韩国,此时此刻正在上演 2.0 版本。

普通人对普通人的暴力

之前的 N 号房事件,作案人在加密即时通讯软件 Telegram 上建立多个聊天室,发布性剥削内容。这次的事件,也主要发生在 Telegram。

两者主要是犯罪手段的区别:一个是偷拍,一个是 Deepfake(深度伪造)。

我们早已对 Deepfake 不陌生,它利用 AI 生成看似真实的视频、音频或图像,模拟实际没有发生的事情。

Deepfake 常用在娱乐圈和政治人物,但它也正被普通人所掌控,拿来伤害其他普通人。

N 号房 2.0 的加害人们,将魔爪伸向了身边的家人、同事和同学,很多 Telegram 聊天室按照学校或者地区组织,所以群友有共同的熟人、臭味相投的话题。

▲ 按高校区分的聊天室

除了身边女性,女明星也是他们围猎的对象。有些聊天室甚至细分到了职业类型,包括教师、护士、军人等。

《韩民族日报》报道,一个 22.7 万人参与的 Telegram 聊天室,只需要女性的照片,就能在 5 到 7 秒内生成 Deepfake 内容。

22 万什么概念?韩国 2023 年新生儿人数只有 23 万,总人口数只有 5000 多万。

这个聊天室内置一个将女性照片合成为裸照、并能调整胸部的机器人,用户进入聊天室后,聊天窗口会立即弹出消息:「现在发送你喜欢的女性照片。」

▲ 聊天室截图,说明 Deepfake 的使用方法

参与者数量多到令人发指,或许和「准入门槛」不高有关:在 X(原 Twitter)通过搜索特定关键词就可以找到链接。

这个聊天室还建立了变现模式。前两张照片免费,之后收费,每张照片收费 1 钻石(0.49 美元,约 3.47 人民币)。支付只能用虚拟货币,以便匿名。如果邀请朋友,也可以拿到一些免费额度。

但也有些聊天室需要「投名状」——想进群,先提交 10 张认识的人的照片,并通过面试。

聊天软件 KakaoTalk 的头像、Instagram 的照片,都可以作为「原材料」。

更细思极恐的是,受害者和加害者里,青少年的比例都不小。

志愿者们做了实时更新的地图,显示犯罪发生在哪些学校。就算是女子学校也会有受害者,因为加害者不一定是同学。

到底有多少学校受到影响,目前还没有定论。有博主称,这次涉及了超过 70% 的学校。

8 月 26 日,《韩国中央日报》指出,至少包括全国约 300 所的学校,其中甚至还有小学。8 月 28 日,WSJ 的报道又将数字扩大到了约 500 所。

一位网友在评论区感叹:「这基本上就是整个韩国了……」

虽然此次事件还没有明确的调查结果,但过去的数据也能说明情况的严重性。

韩国妇女人权研究所统计,从今年 1 月到 8 月,共有 781 名 Deepfake 受害者寻求帮助,其中有 288 名未成年人,占比 36.9%。真实数字可能远高于此。

另外,韩国国家警察厅称,自 2023 年初,约 300 名被指控制作和分发虚假裸照的人中,约 70% 是青少年。

不少韩国女性到微博发出求助,她们不会中文,只能机翻内容,传递无助和恐惧,「N 号房 2.0」一度冲上微博热搜。

有些网友奇怪为什么韩国女性跑到中文互联网求助,其实不只是中文,韩国女性也有用其他语言发声,除了韩国内部,新加坡、土耳其等国的媒体也报道了这起事件。

她们认为,被外国人关注和批评的话,媒体会更积极地报道,相关部门会更认真地调查,而不是装聋作哑和息事宁人。

一些犯罪证据乃至始作俑者的身份,是韩国女性自己调查的,类似当年的 N 号房。好在,韩国总统和在野党领袖已经表态了,韩国总统尹锡悦提出:

Deepfake 是一种明确的数字性犯罪,我们将彻底根除它们。

Deepfake 可能被看作是恶作剧,但它显然是在匿名掩护下利用技术的犯罪行为,任何人都可能成为受害者。

Telegram 的服务器在海外,其首席执行官又被拘留在巴黎,所以调查起来有困难。韩国通信标准委员会表示已经致函,要求法国政府配合调查 Telegram。

被舆论关注之后,相关行为有所收敛,但《韩民族日报》又跟踪报道发现,有些贼心不死的用户,会通过更严格的「身份验证」,在更私密的聊天室继续 Deepfake。

▲聊天室截图,用户讨论加入更私密的聊天室

虚假的内容,真实的伤害

Deepfake 不是新鲜事,但它的伤害其实很少被正视。

韩国一些女性将自己的社交账号设为私密,或者删除发布在网上的照片,尝试做些补救。

她们既痛苦,又怀疑。一方面,她们不知道,自己的照片被分享到了哪,传播了多远。另一方面,她们不理解,为什么都在要求受害者小心上传照片,而不是教育加害者。

当女学生在 Instagram 的 Story(快拍)呼吁「把上传的所有照片都拿下来吧」,同校男生们却能说出「你们太丑了,根本不会用在那些东西上」这种荒谬言论。

▲加害者的言论,说女性站得太高了

网上还不乏这样的声音:「不知道这种犯罪为什么会造成很大的伤害。」「如果是几个人自己制作的,伤害应该很小吧。」

但受害者们所经历的,不仅是看到自己的脸被 Deepfake。加害者们还会侮辱她们,散布她们的地址、电话、学生证等个人信息,造谣她们的私生活,接近并骚扰她们。

更可怕的是遇上「复仇色情」——加害者以传播 Deepfake 材料为威胁,勒索和伤害女性,造成更严重的二次伤害。

▲一个韩国 YouTuber 说女性大惊小怪,但他知道蒙面保护自己

《韩国先驱报》报道,17 岁的京畿道高中生 Song,以前经常在网上分享一些跳舞的照片和短视频。一天,她在 Instagram 收到了一条附有三张露骨照片的匿名消息:「你的朋友和父母了解你生活的这一面吗?」

这些照片都是 Deepfake 的,但几乎没法和真实图像区分。噩梦没有结束,她回复的消息,只会让对方更兴奋、提出更多的要求。

▲Song 和加害者的短信截图,根据 Song 的要求进行了修改并翻译成英文

没有谁能分担痛苦。甚至有受害者表示:「我所知道的世界已经崩塌了。」

这和加害者为此付出的代价不对等。

▲聊天室截图,一些猥琐发言,如「可以设定你想要的姿势来制作照片,超爽」

此次事件尚未尘埃落定,但韩国之前有对 Deepfake 判决,其中一起在 8 月 28 日进行了一审。

从 2020 年 7 月到今年 4 月,朴某盗用大学校友等女性受害者的脸部照片,制作了 419 个 Deepfake 色情视频,并传播了 1735 个,被判处有期徒刑 5 年。

受害者们从 2021 年 7 月开始辗转奔走,才成功将加害者推上审判台,让朴某在今年 5 月被起诉。

因为这次大型 Deepfake 事件,韩国相关部门考虑,将最高刑期从 5 年提高到 7 年。

▲韩国女性发声,抗议性犯罪

又考虑到 Deepfake 的青少年犯罪很常见,但法律有漏洞,韩国正在衡量义务教育阶段作案人的最高惩罚。

时至今日,Deepfake 在很多地方仍是灰色地带,保护力度跟不上威胁速度。

比如在美国,如果受害者是成年人,各州有不同的法律规定,或定为刑事犯罪,或提起民事诉讼,但目前还没有联邦层面的法律禁止制作 Deepfake 色情内容。

▲聊天室截图,成员聊共同的熟人

之所以立法困难,一个原因在于,有些观点认为,Deepfake 图片里的主体就算长得像你,实际并不是你,所以你的隐私并没有真正受到侵犯。

然而谁都清楚,图片虽然虚假,伤害是真实存在的。

法律推进缓慢,与此同时,那些未曾露面的加害者,暂时「偃旗息鼓」,等待「卷土重来」。

作恶如此简单,Deepfake 和所有人有关

韩国并非个例,Deepfake 的发生不限国界。

2023 年 9 月,西班牙的小镇阿尔门德拉莱霍,一群男生将女同学发在社交媒体的照片上传到了一款「一键脱衣」AI 工具。小镇有五所中学,女同学的「裸照」在至少四所流传。

这款工具可以通过手机 app 或者 Telegram 使用,受害者至少有 30 名,主要是 12 岁到 14 岁的女学生。

始作俑者大多和她们认识,也是未成年人,至少有 10 名,部分甚至未满 14 岁,不能面临刑事指控。

▲一位母亲呼吁更多受害者站出来

他们在 WhatsApp 和 Telegram 创建群聊传播这些「裸照」,通过 Instagram 威胁受害者,勒索「赎金」和真人裸照。

美国新泽西州的一所高中发生过类似的情况,受害者也在 30 名左右,她们的男性同学在暑假制作了「裸照」。

校长保证,所有图片已被删除,不会再被传播,始作俑者被停学了几天,又像没事人一样回到「案发地点」。

Deepfake 最早兴起于 2017 年的「美版贴吧」Reddit,主要形式是将明星的脸替换到色情视频的主角身上,或者恶搞政界人物。

从技术原理来说,主要有两条路径:一是编码器-解码器路径,通过将图像进行压缩和重建,将一张脸替换成另一张脸;二是生成器-鉴别器路径(即生成对抗网络,GAN),通过对抗训练生成逼真的图像。

▲GAN

如今,Deepfake 是一个更为广义的概念,不再仅限于最初的面部替换,我们用它来指代通过技术手段伪造现实的一切行为。

复杂的技术原理隐藏幕后,在用户面前的是一个个「开箱即用」的界面,青少年们也能随手制造虚假信息,Deepfake 从一门技术,堕落为几乎没有门槛的工具。

「一键脱衣」的 app 们,只需要一张照片、一个电子邮件地址和几美元,就可以批量脱掉名人、同学、陌生人的「衣服」,被用来「脱衣」的图片,往往从社交媒体获取,未经发布者同意,然后也在他们不知情的情况下传播。

基于接受过海量图片训练的开源扩散模型,用户可以通过输入提示词的方式,生成名人的虚假露骨照片。

▲好莱坞女星的 AI 模型,已经下载上千次

像 Deep-Live-Cam 这样的开源 GitHub 项目,通过一张照片,就能在视频聊天中换脸。

骗过年轻人或许有难度,但是长辈们就不一定了,现实的惨痛例子已经上演——美国的一位 82 岁老人,因为盲信在视频里坑蒙拐骗的 AI 马斯克,损失了 69 万美元的退休金。

▲ AI 马斯克的直播

2023 年 7 月,德国电信发了一条关于儿童数据安全的广告,呼吁家长尽量少在互联网分享儿童隐私。

图像、视频和音频,都在被 Deepfake,虽然理智明白「眼见为实」成了过去时,但我们的心理还没有完全接受,也不具备对应的分辨能力,所有人都可能成为受害者。

技术或许中立,但人用技术产出的信息不只是信息,也是用来进行羞辱、污名和获得优越感的武器。越低俗和猎奇的内容,越容易传播,自古皆然。

普通人可以做些什么?至少我们可以决定自己如何使用技术,也可以选择产出和传播什么信息,对受害者给予关注,对加害者嗤之以鼻,以微末的力量,推动法律和社会观念的进步。

被换脸,为什么是受害者删除照片?被偷拍,为什么是受害者深感羞耻?这似乎是技术也没法回答的问题。

利若秋霜,辟除凶殃。 工作邮箱:zhangchengchen@ifanr.com

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


连塔罗牌都用上 AI 了,年轻人痴迷的玄学又多一个平替

By: 张成晨
28 August 2024 at 17:59

不确定性的生活里,玄学从未过时,总有年轻的模样。

微博转发锦鲤,雍和宫求手串,淘宝买「爱因斯坦的脑子」,抖音看陶白白的星座分析…… 受唯物主义熏陶的年轻人们明白,解救之道不在其中,但附赠的情绪价值无伤大雅。

如今,连塔罗牌这门「传统技艺」,也抱上了 AI 这条大腿,以更赛博也更抽象的形式出现。

AI 读心?不,你原本就清楚问题在哪

我们先来简单了解一下塔罗牌的规则。

塔罗牌是一堆画了人物、场景、象征符号的彩色卡片,共 78 张,包括 22 张主牌和 56 张辅牌,主牌关注大方向和重大影响,辅牌更侧重日常细节和具体情境。

占卜时,卜问者提出问题,塔罗师洗牌,切牌,让卜问者抽牌,然后「看图说话」,解读每张牌的含义和组合起来的意思,一张牌的正位或逆位,即正放或倒放,也会影响结果。

「有事没事测一测,不花钱。」当 Kimi 官方智能体「塔罗师」这样介绍自己,完全拿捏了人类占便宜的心理,包括从没玩过塔罗的我。

这位「塔罗师」一切从简,我们的沟通就是通过一个聊天界面,它用语言引导你,闭上眼睛,深呼吸,默念问题,然后由它抽牌,一次只抽一张牌。

塔罗牌可以选择不同的牌阵,代表抽不同数量的牌,比如,三牌阵一次抽三张牌,分别昭示过去、现在、未来,像 Kimi 这样就是单牌阵,一次抽一张牌,适合简单的问题。

当我问「我如何克服拖延症,更快地写完一篇稿子」,AI 的网速太快,我的情绪还没酝酿,答案就已经出现——战车牌。

战车牌代表胜利、自律和意志力,AI 说到底还是提醒我自律,但没有用,这些道理我也明白,只是很难落地为具体的行动。

我决定再追问「目前阻碍我快速完成稿子的最大障碍是什么」,拿到的是一张塔牌,平心而论,这次 AI 大师的解读其实还是很对症的。

这让我感觉,塔罗牌更擅长分析问题和微妙心理,而不是提供具体的解决方案,但这些问题不用占卜,内心多少也能察觉。

除了免费、零门槛的 Kimi,还有很多 AI 塔罗牌产品,往形式上卷,尽可能接近线下体验。

Quin 稍微比 Kimi 复杂,但它会在我们提出问题后,进行简单的新手引导。

我提问「熬夜的日子还要持续多久」,Quin 觉得应当改变一下提问的方式,「我需要如何调整我的生活习惯以减少熬夜」更适合塔罗牌回答,并建议我选择三牌阵。

第一张牌展现目前关于熬夜的生活习惯,第二张牌揭示改变习惯过程中可能遇到的阻碍,第三张牌指引如何调整生活习惯以减少熬夜。

接下来的交互就很好玩了,依次洗牌,滑动选牌,然后解牌。Quin 还不断地加以语言暗示:深吸一口气、静下心、施展魔法…… 代入感很强,仿佛坐在塔罗师面前了。

解牌时可以打开语音,一个掌握熟练中文的外国人为你解答,不知道 Quin 是不是从 GPT-4 迷倒万千网友的 Cove 男声获得了灵感。

一张愚者逆位、一张皇帝、一张宝剑八逆位,塔罗牌提醒我,先认识到熬夜的负面影响,然后建立秩序,并克服心理障碍。

设计优秀,交互友好,但 Quin 的问题和 Kimi 是一样的:我承认它说得都对,但不占卜我也明白这些道理。

反过来想,其实是我对 AI 和塔罗牌的心理预期太高了。

AI 塔罗牌并不是「先知」,无法告诉什么全新的道理,或者必然有效的、可以落地的解决方式,而是以一个第三方视角,引导我们更清晰地看待自己的处境和内心。

我也从中得到了一点宽慰,首先,抽卡的感觉很好,哪怕不是氪金手游,其次,我是个有自知之明但行动力低下的人。

随时都在的玄学聊天搭子

和按小时或者问题收费的人类塔罗师相比,AI 塔罗师最明显的好处是:成本低、时刻在线、不厌其烦地回答千人千面的问题。

虽然这条赛道几乎没有免费应用,需要按周或者按月订阅,但至少有免费体验的额度。Quin 的同一次对话,可以在 24 小时内无限次提问,界面和其他 AI 对话应用没什么区别。

同时,它们往往都有一个功能——今日运势,吸引你每天掐指一算,比 B 站 UP 主们的直播看牌还勤奋。

常言道兼听则明,但每个 AI 塔罗牌的答案都不撞车,还挺让人抓耳挠腮,不解其意。

8 月 26 日这一天,我在月见塔罗抽到了星币四逆位,在 Kimi 抽到了正义,在预见塔塔抽到了女祭司逆位,在 Quin 抽到了金币七。

有的日签语焉不详,泛泛而谈,似镜中月水中花,让人忍不住吐槽:大师,请说人话。

有的日签详细得像长辈钉在墙上、一天撕一次的老黄历,不仅建议我做什么,避免做什么,甚至能提醒我吃什么。

同时,这些接地气的 AI 塔罗牌,也让我对塔罗牌的神秘性祛魅了。

过去说到塔罗牌,我们的脑海会想象这样的场景:安静的房间里,问卜者和塔罗师对坐,中间的小桌子铺着黑色丝绒布,摆放着蜡烛台、水晶石和塔罗牌。

相比之下,AI 塔罗就显得随便不少,主打一个在心不在形。我们也不一定要问什么重大的财运、桃花运、事业运,和生活相关的事情,都可以拿来聊聊。

其中一款 AI 塔罗产品 Lumi 表示:「像和朋友聊天一样,享受塔罗牌占卜体验。」

▲Lumi 的抽卡过程也很有意思

当我问它「2 年内我会养猫吗」,翻开的牌是权杖八。

Lumi 解读道,这种可能性是存在的,事情可能会很快发生,「如果拥有一只猫是你真正想要的,这张卡片是一个好兆头」。

但它也同时提醒:「塔罗牌可以提供指导和见解,但未来并不是一成不变的。你的选择和行动会影响结果。」

什么话都被它说圆了,我也不好批评了,也没必要在 2 年之后验证这句话的正确与否了。

甚至去哪里旅游之类的小问题,我也会拿来问一问塔罗,给的答案虽然模糊,但描述接近我内心的目的地。

说不准没事,说准了会带来一份额外的快乐,不必严肃对待,但求自在随心。

更适合年轻人体质的情绪按摩

不管塔罗还是占星,六爻还是梅花易数,更多时候,人类接触玄学和迷信,其实是在无助的情况下,内心生发出被「剧透」的渴望。

困惑和痛苦是不可解的,或者很难有标准答案的。

AI 塔罗牌里也会有一些默认的推荐问题与之有关:「我这周的运势如何」「我在事业上的最大障碍是什么」「我会因为什么而获得或失去财富」。

它们的回答也有一个明显的特点:总体乐观。

哪怕是问「障碍」之类的题目,AI 也能找到一个有利于我们的角度解读,提供一些情绪价值,告诉我们,只要行动起来,就会有收获。

在问一些情感、负面情绪类的话题时,被 AI 灌鸡汤的感觉尤为明显。

哪怕这些话只是泛泛而谈,容易让人陷入自作多情的巴纳姆效应,但对于内心阴暗爬行的年轻人来说,还是可以起到一定的治愈效果。

这有些类似和 AI 虚拟女友、男友建立亲密关系,从一开始,AI 伴侣的大部分用户就是被变相选择过的,他们越感到孤独,越需要它们无条件的爱与善意。

除了垂直赛道的 AI 塔罗牌,一些和心理健康搭边的 AI 应用,也提供类似塔罗牌的功能。

AI 日记「心光」的「今日塔罗牌」主打治愈,点一下按钮出一张牌,仿佛一个阳光开朗的吉祥话制造机。

AI 心理陪伴应用「林间疗愈室」的「星语图」,先让用户选择某个主题、给出具体的问题,再让用户用四个关键词讲故事或者表达脑海中的画面,然后给出言之有物的分析。

AI,一款更适合年轻人体质的「情绪按摩」。有的时候,我们需要一些「正确而无用的废话」。

就像向 ChatGPT 大吐苦水时,它往往会这样说:「随时欢迎你分享和探讨。如果你还有其他想聊的,或是任何问题,我在这里。」在容易 emo 的深夜里,这确实能给人安慰。

然而,我们也都知道,得救之道不在其中,命运不在牌里。B 站会在塔罗牌之类的视频旁提醒:「该内容涉及未经科学验证的现象、观点,请注意甄别。」

从来就没有什么救世主和神仙皇帝,要创造人类的幸福,全靠我们自己。摆烂的问事业,熬夜的问健康,那么 AI 也无解。

但人会有各种各样的需求,总在痛苦和无聊之间摇摆,占卜不那么科学和理性,却总有生存的土壤。

如果 AI 能让我们紧绷的精神找到短暂的出口,生出一点想要改变的勇气,基于玄学的精神胜利法也未必不可。纵然云霭中天、密云不雨,只要有前进的动力,终能不陷不困。

利若秋霜,辟除凶殃。 工作邮箱:zhangchengchen@ifanr.com

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


全球 AI 产品 Top100 出炉!只有一个国产应用进前十,字节跳动开始霸榜

By: 张成晨
23 August 2024 at 18:47

「一觉醒来又变天了」,这是我们早起刷 AI 新闻时经常会有的感受。

廉价的情绪稍纵即逝,拉长时间的维度,用脚投票,才能证明产品的含金量。

8 月 21 日,硅谷知名投资机构 a16z,根据近半年的数据,选出了前 100 名 AI 应用。

大多数人在使用哪些 AI 产品?哪些类别更受欢迎?用户会坚持使用哪些 AI 产品,而不是转瞬即忘?接下来,我们一起来看看。

ChatGPT 还是第一,字节跳动数量取胜

这已经是 a16z 第三次发布 AI 百强榜单了,第一次是 2023 年 9 月,第二次是 2024 年 3 月,半年一更,频率稳定。

a16z 的评选方法是,基于 Similarweb、Sensor Tower 的数据,每 6 个月排一次名,榜单分成 2 部分:

  • 「网页产品」(Web Products)50 个,按照每月独立访问量排名;
  • 「移动应用」(Mobile App)50 个,按照每月活跃用户数排名。

▲网页端前 50

▲移动端前 50

网页端和移动端的 TOP10 里,美图秀秀国际版 Meitu 属于国产,靠粘土滤镜爆红的 Remini 最开始也是出海产品,后被一家意大利公司收购。

接下来我们分门别类地谈谈,首先是通用型 AI 助手。

第三次了,ChatGPT 还是遥遥领先,在网页和移动端都拿下第一,绝对的 killer app。

与此同时,ChatGPT 不如对手们增长势头猛烈。谁才是最好的 AI 助理,尚且没有定论。

▲增长指数

黄仁勋爱用的 AI 搜索 Perplexity 在网页端排名第三,并首次入围移动端榜单,正好排在第 50 名,差点名落孙山。

Perplexity 超过 7 分钟的用户平均停留时间,甚至略胜于 ChatGPT。

比起 Google 等传统搜索,Perplexity 直接提供简洁、实时、相对准确、可以引用信息来源的答案。数据说明,AI 搜索的形式在一定程度上走通了。

OpenAI 的 Sam Altman 也对这种形式保持认可,然而,OpenAI 的 AI 搜索 SearchGPT 还在小范围地内测,用户比 CEO 更着急。

和 ChatGPT 定位最像、竞争更直接的产品是 Claude,来自前 OpenAI 员工创立的 Anthropic。这次,Claude 的排名有所提升,在网页端排名第四,好过上个榜单的第十。

今年 6 月,Claude 推出的新功能 Artifacts 突破了聊天窗口的限制,可以实现实时可视化、互动编程等,拓展了用户与 Claude 交互的方式,好评不少。

▲Artifacts

除了早已功成名就的一代目,通用助手的赛道也有一些后起之秀。

字节跳动这次一次性上榜了五个产品:教育应用 Gauth、开发平台 Coze、通用助手豆包、豆包英文版 Cici、照片和视频编辑工具 Hypic。

除了 Hypic,其他都是首次出现在榜单,其中,豆包移动端第 26 名、网页端第 47 名,Cici 也在移动端排到第 34 名。

豆包的功能发展得很全面,并且多端覆盖,使用门槛又低,日常场景够用,所以有这么大的用户量,也在情理之中。论做产品和商业化,还得看字节。

另外,AI 助手 Luzia 首次上榜移动端,一来就是第 25 名。

你可能没有听说过这款产品,它主要服务西班牙语环境,全球拥有 4500 万名用户。最初,Luzia 作为 WhatsApp 的聊天机器人出道,但 2023 年 12 月有了独立的 app。

图片、音乐、视频,搞创作已经离不开 AI 了

除了什么都能聊的通用助手,消费者对于 AI 还有哪些垂直的、特别的需求?

一个重要的趋势是,大家都在用 AI 搞创作,并且创作的形式越来越丰富了。

a16z 的网页端榜单里,52% 的公司支持图像、视频、音乐、语音等的内容生成和编辑。

其中包括 7 家新上榜的公司,排名还不低,视频生成工具 Luma 排在第 14 名,音乐生成工具 Udio 排在第 33 名。

和 Udio 同一个赛道、被称为音乐界 ChatGPT 的 Suno,存在感更是暴涨,从今年 3 月的第 36 名,上升到今年 8 月的第 5 名。

榜单和榜单的纵向比较也很有意思,之前的榜单里,大多数内容生成工具围绕图像。

但现在,图像生成的占比降到了 41%,只有一个图片生成工具(SeaArt)首次上榜,视频生成工具出现了三个新面孔(Luma、Viggle 和 Vidnoz)。

▲网络端新增产品

Udio 上线于今年 4 月,6 月则是 AI 视频工具爆发的一月,快手可灵、Dream Machine 的 Luma AI、Runway 的 Gen-3 Alpha 接二连三发布。

可以看到,不过半年,AI 在音乐和视频上的输出质量,都卷出了成绩。

至于移动端,最常见的创作形式是编辑图像、视频。相关工具占到榜单的 22%,是移动端的第二大产品类别。

▲Adobe Express

虽然也有初创公司涌现,但排名更高的,是那些在生成式 AI 浪潮里转型、推出更多玩法的传统创意公司。

其中有我们比较熟悉的名字,美图秀秀国际版 Meitu 在第 9 名,字节跳动旗下的照片和视频编辑器、醒图国际版 Hypic,位列第 19 名。

另外,韩国互联网巨擘 Naver 旗下的相机应用 SNOW 第 30 名,内置了 Adobe Firefly 生成式 AI 的 Adobe Express 第 35 名。

让 AI 当伴侣、红娘、造型师,也是刚需

之前 washingtonpost 做过一个调查:人们会和聊天机器人说什么?他们分析了数千次对话发现,第一是搞黄色,第二是完成家庭作业。

最近也有一款很火的 P 肌肉应用 Gigabody,让你提前看看增肌之后的模样。它会产出很多照骗,也会打击健身人群的自信心,因为很可能练了半天,还不如 Gigabody。

举出这两个例子,是为了佐证 a16z 的结论。

a16z 移动和网页端的榜单,都出现了一个很有意思的新类别:美学和约会。

其中包括三个新入围移动端榜单的工具:LooksMax AI(第 43 名)、 Umax(第 44 名)和 RIZZ(第 49 名)。

▲移动端新增产品

LooksMax 和 Umax 采集用户的照片并评分,然后给出建议,提升你的魅力。Umax 甚至会给出一个「满分模板」,也就是 AI 眼里你的完美模样。

LooksMax 不仅照顾到了颜控的看脸需求,也会分析用户声音的吸引力。

但它们的用户规模并不大,LooksMax 超过 200 万,Umax 在 100 万左右。

可能和这个赛道太卷有关,上网随便搜搜能够找到大量身体美颜滤镜,减肥、增肌、健身、变胖、换衣服,AI 都能帮忙,我们不再需要在 B 站学习复杂的 PS 教程。

但这些应用的套路又都很类似,靠订阅赚钱,能赚多少是多少,Umax 每周收费 4.99 美元,LooksMax 每周收费 3.99 美元。

如果说 LooksMax 和 Umax 是认识更多发展对象的敲门砖,下一步就该用 RIZZ 了。

笨嘴拙舌的用户,可以用它提升回复约会 app 消息的水平。上传对话截图、个人资料等,RIZZ 都可以教你说些高情商表达。

古代的邹忌问身边人「吾与徐公孰美」,童话里的皇后问魔镜谁是世界上最好看的人,现在的人们则在问 AI:我怎么变得更帅、更漂亮、更有魅力,怎么不算一种科技与狠活呢?

食色性也,情感关系未必在人和人之间,也可以是人机。这次,AI 伴侣应用 Character.AI 排在移动端的第十,上次是第十六。

其实,上榜的还有一些尺度更大的 AI 伴侣应用,包括 Janitor、SpicyChat、candy.ai、Crushon 等,但 a16z 没有特别强调出来。

下一个爆款的 AI 产品,可能会在这里出现

拿 a16z 今年 8 月的榜单和今年 3 月相比,近 30% 的公司是新公司。

如果再拿今年 3 月和去年 9 月的榜单相比,那么这个数字是 40%。

可见 AI 产品竞争之激烈和残酷,新一代 AI 原生产品和公司的发展速度,前所未有地快。

下一个爆款的 AI 产品,可能会是什么?答案或许在社交产品 Discord 出现。

a16z 发现,Discord 的流量,能够体现一个产品有没有潜力,尤其在内容生成方面。

Discord 的好处是,提供了服务器和交流社区,开发者无需构建完整的前端产品,所以它很适合作为一个沙盒,用来验证 PMF(产品与市场契合度)。

很多产品都是从 Discord 起步,构建社区,测试功能,积累用户,然后才有自己的独立网站,比如 Suno 和 Midjourney。

时至今日,Midjourney 还是所有 Discord 服务器邀请流量的第一名。

▲ 在 Discord 受欢迎的 AI 公司

截至 7 月,10 家 AI 公司在所有 Discord 服务器邀请流量中排名前 100,与 1 月相比,其中一半是新秀。

AI 继续发展下去,未来可能连 app 的概念都会消失,人手一个 agent,AI 主动帮我们解决需求,但现在,我们还是从被用户选择的 app 中,一窥 AI 的可用性如何被定义。

常言道「不要创造需求」,产品的成功不在于通过广告等人为方式制造需求和虚假繁荣,而是找到并满足已经存在的、真实的需求。

AI 也是这样,融资、刷屏、炒作之后,依然是沉默的大多数,做出最诚实也最落地的投票。其中,有没有你正在使用并欣赏的产品呢?

附 a16z 完整榜单
2024 年 8 月:
https://a16z.com/100-gen-ai-apps-3/
2024 年 3 月:
https://a16z.com/100-gen-ai-apps/
2023 年 9 月:
https://a16z.com/how-are-consumers-using-generative-ai/
利若秋霜,辟除凶殃。 工作邮箱:zhangchengchen@ifanr.com

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


魔改「黑神话悟空」,打败 Midjourney,这个 AI 生图神器让人上头

By: 张成晨
23 August 2024 at 13:33

当 AI 文生图比拼真实度、艺术感,Ideogram 开辟了一个刁钻的赛道:在图片上精准生成文字,并且字体和排版都好看。

这个需求并不小众,一键生成海报、插画,还不用 P 图,能够省不少事,很适合对设计一窍不通的普通人。

我们之前写过 Ideogram 的 1.0 版本。8 月 21 日,2.0 版本来了,真实感更好了,海报更有设计感了,文字这个看家本领也更强了。

你或许从来没有听说过它,这是一款前 Google 员工开发的 AI 产品,缺点不少,但长板能「弯道超车」Midjourney。

指路👉https://ideogram.ai/

AI 想知道,你说的悟空,是哪个悟空

Ideogram 有个特别新手友好的功能:「魔法提示」。

你直接输入中文提示词,它会帮你翻译成英文,同时帮你优化。作为一款海外产品,这样的操作很能收买人心。

同时,Ideogram 主打五种风格:普通、写实、设计、3D、动漫,都很好理解,所以选择起来也不会让人纠结。

先来个简单的中文提示词,「拿着金箍棒的孙悟空」,动漫风格,让 AI 帮我翻译和优化,看看它能自由发挥成什么模样。

当水灵灵的《七龙珠》版悟空出来的时候,我惊了一下,一看提示词,AI 把孙悟空翻译成了「Son Goku」,那就不奇怪了。

而且,也很想问问 Ideogram,是不是太明目张胆,给版权费了么。

为了避免 AI 再误解,再输入提示词的时候,我不偷懒了,强调「孙悟空」是「Sun Wukong」,不是「Son Goku」。

这次走写实风格,并且规定了比较详细的场景,大圣身穿铠甲,手拿金箍棒,神情肃穆,威风凛凛,站在佛窟前,温暖的橙色调,图片底部写着「Black Myth: Wukong」(黑神话:悟空)。

文字没有错误,大写字母冲击感强,佛窟的氛围也营造了三分,但「大圣」的气质差了点、形象返祖了点,眼神里也没有光。

用相同的提示词让 Midjourney 生成一次,文字既有错误又没设计感,但稍帅一筹的「大圣」和页游的画风弥补了这一点。

▲ Midjourney 生成

不甘心的我又试了 3D 风格,提示词基本保持不变,只是把底部的文字改成了「8 月 20 日游戏上线」。

结果,Ideogram 生成的结果很像某个国风 Q 版盲盒系列的宣传图,画面处理得很干净,但完全不是我脑海里的 3D 游戏风格,还把美猴王画出了二郎神的模样。

并且 AI 也从中暴露了自己,虽然它对英文的文字渲染得心应手,却对中文一窍不通,这个缺陷从 1.0 延续到了 2.0。

看来海外产品不够理解国内的传统文化,Ideogram 第一回合的表现有些令人失望,却也不失趣味。

Ideogram 团队说过,2.0 版本不输 Flux 和 DallE。最近,Flux 真实版 LoRA 生成的 TED 演讲照片因为真假难辨,骗过了不少网友的眼睛。那么就来测测,Ideogram 生成的结果能多像照片。

▲ Flux 生成

选择写实风格后,我输入了中文提示词,TED 演讲照片,幻灯片标题为「Ideogram 2.0 发布」,上面有三个要点:「文字准确」「擅长设计」和「更真实」,女性演讲者站在白板前,背景中有几个人。

可以看出,Ideogram 的语义理解是不错的,该有的元素都有,TED 的标志几乎以假乱真,演讲者和观众的表情都很生动,头发和皮肤比较自然。

不过,细节处理得还不够好,虽然要求生成的文字没有问题,随机出现的一些小字坏了一锅粥,人物的手指和身体也不太对劲,但已经比之前的 1.0 版本强太多了。

至于海报设计,可以说是 Ideogram 吊打其他文生图 AI 的「舒适区」了。

如果以票房异常火爆的《异形:夺命舰》为考题,AI 能设计出那种不可名状的恐怖感觉吗?

我选择了设计风格,用提示词描述了一下画面的要素,并特别提及,海报底部写上一句:「未成年观众谨慎观看。」

总体的效果让人眼前一亮,长串的文字也成功生成了,只有一处小错误,但特别不写实,更像美漫的画风,和真人电影不太相配。

我再以暑期档烂片《红楼梦之金玉良缘》为灵感,让 Ideogram 生成海报,提示词写到的背景、装饰物乃至人物都在其中了,再次感叹提示词的跟随性真的不错。

片名当然也写对了,但字体像借鉴了指环王,有些出戏,整体风格更像花木兰动画电影。

Ideogram 的「设计风格」偏向二次元,比较独特,但反过来想,这也局限了海报的使用场景。

小结一下,Ideogram 是一款很有自己特色的 AI 文生图产品,写实的水平和 Flux 相近,艺术感和 Midjourney 各有千秋。

▲「rainy summer」图案

但文字生成水平独一档,比较适合用来生成海报、插画、广告、表情包、T 恤印花等。

人类评估的结果显示,Ideogram 2.0 在提示词对齐、整体表现和文本渲染质量方面,都比 Flux Pro 和 DALL·E 3 更好。

▲ 但这是 Ideogram 自己的说法

可玩性高又接地气,这样的 AI「甜品」不妨多来一些

去年 8 月 22 日,Ideogram 宣布成立,与 2.0 发布正好相隔一年。

创始团队共 7 人,来自 Google Brain、加州大学伯克利分校、卡内基梅隆大学和多伦多大学,其中 4 位是 Google 文生图扩散模型 Imagen 研究论文的作者。

这次除了发布 2.0,Ideogram 还推出了 iOS app,国内可以直接下载,Android 版计划稍晚发布,从网页到移动端,我们可以随时随地生成图片了。

▲ 手机端界面

Ideogram 目前向所有用户免费开放,不过,额度非常有限,生成 5 次共 20 张照片后,Ideogram 就提醒我,10 个积分用完了,请明天再来。(当然,隔壁的 Midjourney 免费生成 25 张也没有显得多大气。)

如果很少接触文生图,想要一款文生图 AI 用来入门的,Ideogram 是个不错的选择。

输入中文提示词、用「魔法提示」翻译和优化是一方面,另外,Ideogram 还有很多选项帮你生成更接近脑海所想的画面。

提供范围有限的选项让用户「点击」,相比在空白的输入框完成「输入」,交互起来更简单。想要什么图片比例、什么风格、什么色调,Ideogram 都可以让你挑选。

▲ 不同色调的「戴珍珠耳环的少女吃麦当劳」

不会写提示词,那也可以画出来,让 Ideogram 帮我们化腐朽为神奇。

我为我的糟糕画工感到抱歉,但 AI 能够领会意思,优化了线条和上色,还加了个背景,格调一下子上去了。有了 AI,谁不是神笔马良。

另外,网页版的输入框下面,都是他人生成的作品,遇到喜欢的,我们可以查看和参考提示词。Ideogram 表示,他们的用户在过去一年生成了超过 10 亿张公开可见的图片。

如果想要生成一个特定的对象,但又不知道怎么写提示词,Ideogram 这次还推出了用文本搜索公共创作库的功能,但这个功能目前需要会员。

▲ 搜索「cat」的结果

总而言之,Ideogram 是一款可玩性较强的文生图产品。

它可以比较精准地生成用户所需的文字内容,并适配各种风格的图片,就业领域很广。

▲ Ideogram 博客

偶尔还能带来情绪价值,以图言志,虽然做的表情包太偏欧美互联网的审美了。

▲「我想玩《黑神话:悟空》」表情包

Ideogram 的整体质量不差,文本功能强大,对新手友好,使用方便,交互也让人愉悦。当 AI 工具兼具了创意、便利和分享价值,就很容易让人上头。

一个照着模子刻出来的世界太无聊了,洞察到很小的需求,然后将解决办法做到行业第一,那也很有意思。

世界上有很多的产品,同时有更多的受众,我们可以期待更多这样的 AI「甜品」。

利若秋霜,辟除凶殃。 工作邮箱:zhangchengchen@ifanr.com

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


被 AI 颠覆一半工作的前大厂员工,花了 8 个月找到用 AI 工作的新方式|AI 新职人

By: 张成晨
20 August 2024 at 12:04

「小白如何用 AI 做游戏美术」「如何十分钟用 Midjourney 画游戏角色 IP」「如何用 AI 十分钟画出法式风格插画」……

以上是 Boka 的小红书标题,打开帖子会发现,她并不夸大其词,内容都是落地且基础的操作指南。

之前,Boka 在一家海外手游大厂担任了 5 年多的发行美术,2023 年底离职之后,她开始自由地接项目,经营社交媒体,探索怎么用 AI 制作游戏美术素材。

我们找到了 Boka,和她聊了聊怎么用 AI 搞创作。她所分享的内容,就像她的几分钟教程一样,让人感觉到,AI 其实是很简单的工具,只要我们真的去使用。

还在一句话写提示词?你也能用 AI 生成你想要的东西

目前,Midjourney 是 Boka 最常用的 AI 图片生成工具,在她手下产出了法式风格插画、3D 风格 IP 形象、三消游戏美术素材等。

你的 AI,我的 AI,好像不一样。AI 可以让外行也用一句话创作出一张图,但生成具体的、特定风格的作品,对很多人来说仍然是难事。

理由大致有两个,AI 不那么可控,同时,我们可能不懂 AI,不得其门而入。

当我问 Boka,「写提示词有什么诀窍吗」,Boka 淡定表示,「其实懂英语就可以了」。

这固然是一个大前提,其中也有些让 AI 指哪打哪的、具体可行的方法论。

首先,总得知道让 AI 生成什么吧?

拿 Boka 比较熟悉的欧美三消游戏(消除至少三个相同元素的益智游戏)来说,里面肯定有背景图、用来消除的图案、代表各种奖励的图标,如果结合到解锁不同场景的装饰玩法,那么可能还会有沙发等家具。

▲ 左:参考图片;右:Boka 用 AI 设计的三消游戏页面

这时候,需要生成什么物品,直接尝试写在提示词就好,宝箱就是「treasure chest」,钥匙就是「key」。

接下来,怎么确定美术风格?

一种方式是通过学习教程和他人的提示词,并积累一些特定的提示词。

为了用 AI 生成三消游戏的界面,Boka 看了很多用 AI 进行 UI 图标设计的 YouTube 视频。

从中,她就学习到了一个关键的提示词:「multiple item spritedsheet」,用它生成包含多个相关图案的图像集合,这样就更容易保持图标风格、角度的一致,避免 AI 跑偏。

还有一种方式,是让 AI 告诉我们用什么提示词。

再拿三消游戏举例,如果背景图需要实现从天花板看下去的顶视效果,怎么写提示词?

Boka 的方式是,先别急着写,找到一张符合我们要求的图片,上传给 Midjourney,让它的 Describe 功能去给出这张图的提示词。

同时,AI 给出的提示词不必照单全收,我们只需要其中和视角有关的部分,「a top-down view of an interior room」(室内房间的俯视图),结合到自己的提示词里。

但只写好提示词,仍然是不够的。很多 AI 图片的风格是一种样子,光亮、油腻、缺乏个性,让人见之即忘。

Boka 解释,这是因为,AI 模型的本质决定了,它的画风是趋同性的、大众化的,只靠语言描述一个画面,AI 生成的往往就是一张普通的、无聊的、符合欧美审美的图片。

同时,语言也并不精准,很难直接生成我们想要的风格,说到「中国风」,一千个人心中可能有一千个答案,AI 也不懂我们想要哪种。

最简单的解决办法,就是「垫图」,给 AI 一个明示。如果在 Midjourney,上传相关的图片,使用风格参考功能「–sref」,就可以锚定画风。

可以说,提示词保持不变时,垫图直接决定了图片的质量和风格。垫图选择得越有风格,生成的图片也更不落窠臼。

按照 Boka 的经验,垫图无需复杂,越简单,效果越直白。拿一个欧美卡通风格、空白背景的箱子当垫图,就可以让平平无奇的图标,变成符合欧美三消游戏风格的图标。

▲ 左:普通箱子,中间:垫图,右:欧卡风格箱子

这些生成图片的经验,都是 Boka 从学习教程、亲身实践中得来的。

Boka 相信,尝试得多了,提示词也好,工作流也罢,我们很快就能摸索出自己的一套 AI 方法论,并熟能生巧,因为她觉得,「AI 其实门槛挺低的​」。

不着急拥抱 AI,但一旦上手就要用好每个功能

满打满算,Boka 上手生成式 AI 也只有八九个月,最常用的只有三个工具:ChatGPT、Midjourney、KREA(一个高清修复软件),心态很「大道至简」。

Midjourney 在 2022 年 7 月就面世了,但之前看到一句话生成的图片,Boka 并没有什么强烈的、被冲击的感觉,因为质量都不怎么样。

今年年初,AI 生成图片工具有几波大的更新,技术更成熟了,可控的小功能更多了,渐渐让 Boka 看到了商业化的可能,她才觉得,是时候认真对待了。

▲ Midjourney V6.1 版本

对于新的技术,Boka 的态度是,学是肯定要学的,但可以再观望一下更加成熟的产品,要不然会花费很多无谓的精力。等到真正上手了,那就要物尽其用。

Midjourney 老生常谈就是那么几个功能,但是我觉得把这几个功能用好,也是一个非常需要练习的过程。

AI 仍然不完全可控,跑图是日常,但总有一些解决办法,让 AI 不那么放飞自我。

Boka 用 Midjourney 做过不少 IP 设计,经常用到它的两个功能:风格参考功能「–sref」,锚定画风;角色一致性功能「–cref」, 锚定人物形象。

▲ Boka 用 AI 将 2D 画风转成 3D

如此一来,多次生成之后,图片之间的相似度仍然保持在 80 到 90%。

有时候,AI 生成的图片不够完整,比如,我们希望得到全身的 IP 形象,但 AI 给出的结果没有脚。

Boka 建议要么多试几次,要么用 Midjourney 的扩展图片功能「Zoom Out」,扩展画幅,让 AI 生成原来缺少的部分。

▲ 左,扩图前;右,扩图后

另外,AI 也经常生成细碎的、不需要的东西,Boka 会用 Midjourney 的编辑特定区域功能「Vary(Region)」,进行简单的消除。

除了不断跑图、让 AI 工具内部消化问题,当然也可以用 Photoshop 等传统作图软件给 AI「善后」,包括更彻底地去除多余的部分,进行整体的调色等等。

尽管用的 AI 工具不多,也仍然离不开传统作图软件,但 AI 的参与足够让 Boka 节省时间和精力,看到更多可能性。

Boka 现在是自由职业,平时会接一些设计的项目,但市场环境不好,很多项目的人选需要用提案角逐。

▲ Boka 用 AI 设计 IP 形象

其中一个儿童牙膏 IP 形象的项目,Boka 基于以牙齿为特色的动物大开脑洞,最终定下了海狸。如果按传统流程,从想法到完整的提案,一般需要 1 周的时间,用到 Photoshop、Maya 等作图软件。

这次,Boka 用 Midjourney 和 Photoshop 作图,由 ChatGPT 完成整个文案部分,包括取名和概念解释,2 天就完成了提案。

不仅效率更高了,客户还很满意她的完成度,Boka 有些自豪:「没告诉对方用了 AI,对方也看不出来用了 AI。」

AI 并非全能,但人类不能止步不前

Boka 也是被 AI 改变的艺术行业中的一员。

她在伦敦念完视觉传达,后来入职一家海外手游大厂担任了 5 年多的发行美术,负责制作游戏的动画片、宣传片、海报等对外宣传的内容,2023 年底离职。

艺术行业对 AI 的焦虑和批评早已见诸报端,Boka 对此很了解,也在小红书开玩笑地说过,「我考虑退休种地了」。

在她的实践中,虽然 AI 还不太擅长处理排线等复杂的 3D 建模细节,但在概念设计、环境设计、UI 设计方面问题不大。AI 生成的图片,已经可以在略微修改之后作为原画交付。

▲ Boka 用 AI 设计游戏角色 IP

这不意味着,AI 就能全权代劳了。

游戏美术是一个环环相扣的链条,现在主要被 AI 冲击的是创意和概念设计,后面的建模、导入游戏引擎等步骤,多半还是按照传统的方式推进。

AI 力所不能及的环节很多,但 Boka 更明白人类固步自封的可怕。

原画师、建模师等单一的美术行业工种,如果不考虑改变,未来很可能被 AI 替代。Boka 待过的发行美术岗位,50% 的工作内容已经被 AI 影响。

建模师不能总指望别人给你概念设计,才能做下一步…… 美术应该到一专多会的水准,才会在行业里长久。

生成 IP 形象、美术素材,只是 Boka 探索 AI 游戏美术的开始。

未来,Boka 计划开发自己的休闲类小游戏,她数了数需要的技能,三个人的团队可能就够了,一个美术、一个设计机制的策划、一个程序员,她自己就可以跑通概念设计、建模、导入游戏引擎等环节。

毕竟,Photoshop 等传统设计工具,Maya、Blender 等 3D 建模软件,UE、Unity 等游戏引擎软件,是她在发行美术岗位上的工作日常。某种程度上,这就是「一专多会」。

福兮祸所伏,祸兮福所倚,AI 代替了一些岗位,也给了更多个体创造作品的机会,不是像 Boka 这样的专业人士才能有资格上牌桌。

比如,虽然 AI 还不擅长 3D 建模,但很多小游戏本来也用不到 3D 建模。

Boka 解释,像王者荣耀这种大型手游,英雄角色、战斗地图、技能特效等需要 3D 建模,但一些三消游戏,背景只是一张静态图片,机制也很简单,玩家完成某个任务,然后解锁一个新的装饰品,装饰某个背景,并不需要建模,开发起来更容易。

当谁都可以参与创作,隐形的门槛依然存在:审美的重要性被凸显出来。

▲ Boka 用 AI 画法式 chill 风插画

你喜欢的风格,是不是大部分人也会喜欢?你设计的游戏人物 IP,有没有强烈的风格,有没有不同文化背景的融合,能不能让大家记住?

Boka 用 AI 产出图片的时候,常常会考虑到这些问题。她认为,AI 就是一个简单的模仿工具,生成的结果完全看使用者的审美和想要输出的风格方向。

采访过程中,我问了不少 Boka 使用 AI 的具体方法,除了回答每个问题的细节,她还给出了一个建议:

自己去尝试,AI 是一个很容易看到结果的事情。

当人人都可以用 AI,起到决定作用的变量,还是人类自己的审美和行动力——我们想要和需要用 AI 生成什么,我们怎么判断 AI 生成结果的好坏,以及,我们又愿意为之付出多少努力。

利若秋霜,辟除凶殃。 工作邮箱:zhangchengchen@ifanr.com

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


硅谷的「失败博物馆」,用这些「翻车」告诉你失败未必是成功之母

By: 方嘉文
19 August 2024 at 11:17

前几年,瑞典心理学教授 Samuel West 发起的「失败博物馆」展览走红网络,从瑞典一路巡展到世界各地,甚至也在上海以「成功之母博物馆」的名字展出。

然而,它却一直没去到那个最拥抱失败的地方 —— 硅谷。

没问题,现在硅谷也有自己的「失败博物馆(Failure Museum)」了。

▲ 硅谷「失败博物馆」馆长 Sean Jacobsohn,身后是他的产品们

和瑞典的「失败博物馆」不同的是,硅谷「失败博物馆」的「馆长」除了爱收集失败的产品以外,更爱收集失败的公司,然而硅谷的大多创业公司的产品都是「摸不着」的服务,那要如何「收藏」?

对于馆长,今年 52 岁风险投资人 Sean Jacobsohn 来说,一切起源于一场球赛。

2022 年 11 月的一个晚上,当 Jacobsohn 进场看「金州勇士队」的比赛时,工作人员给他递来了个球员 Jordan Poole 的周边玩偶。

球员造型很可爱,但还是不如盒子上印着的 logo 抢眼 —— FTX。

就在球赛举行前几天,当时的球队赞助商,也就是美国加密货币交易平台 FTX 的骗局正式被曝光。

▲ FTX 联合创始人 Sam Bankman-Fried

这个来不及改设计的周边,一下成为了既糟糕又有启发性的产品。

Jacobsohn 心想:「这是一个多么棒的收藏品,太酷了!」

科技公司热爱周边

它们想改变世界,想颠覆规则。而常常限量或只限内部才有的周边,是「一份子」的身份象征,也是「信仰」的表达。

▲一位苹果零售店员工在 5 年里收集了 45 款苹果的主题 T 恤,图片来自 Cult of Mac

直到那些公司或项目崩塌。

周边大多变成流连于二手店/交易平台的「工艺品」,要不就被遗忘在角落甚至被丢到垃圾桶里。

▲ GeekWire 联合创始人 Todd Bishop 一大爱好:在微软总部旁的二手店淘 T 恤,图片来自 GeekWire

也是从这些「周边」开始,Jacobsohn 逐渐建立起了自己的「失败博物馆」。

从古早王者到新晋明星公司,失败无处不在

失败无处不在。

收藏一开始,这个事实也显现得更快了。

▲ Google Glass 当然不缺席

从 2022 年年底到现在,Jacobsohn 的藏品已经从个位数飙到 1000+ ,大概花了数万美元。

事实上,我已经不够位置了。

我在阁楼上还装了 30 箱。我太太都想在房子里新建一个空间了。

▲ 微软的 Zune 也被收录其中

在这一千多件藏品里,Jacobsohn 最爱的是一瓶来自 Webvan 庆祝 IPO 用的香槟。

成立于 1996 年的早期零售电商 Webvan,野心要颠覆美国人的购物方式,30 分钟配送上门。它市值最高时曾达到 76 亿美元,1999 年正式 IPO,随着互联网泡沫破碎,它也于 2001 年宣告破产。

而 Jacobsohn 喜爱的这个香槟,就是 Webvan 在辉煌 IPO 时送出的「周边」:

搞不好它就是唯一一瓶还没开过的,我就拥有它!

创立于 1994 年,曾经的互联网王者 Yahoo 也在博物馆拥有自己的一席之地

Yahoo 联合创始人杨致远的名片上,头衔还是「chief yahoo!」。卡片底部的网址则已经无法打开。

如果所 Facebook 已经算是「老土」,那这家可以说是因 Facebook 崛起而加速衰落的社交媒体平台「MySpace」,年轻读者可能完全没听过了。

它曾是全球最大的社交网络平台,用户可以在上面分享音乐,照片和文字。说起来,它还曾是乐队 Arctic Monkeys、歌手 Adele 和 Lily Allen 等人崭露头角的地方。

博物馆里不只有古早的王者们。

说起轰动硅谷的 Theranos,虽然 Jacobsohn 没法拿到「滴血验癌」的设备 Edison,但他有 Theranos 实验室白袍子、马克杯,还有其创始人 Elizabeth Holmes 的名片。

2014 年开始琢磨建造时速高达 700 英里(约 1127 公里)超级高铁的 Hyperloop One 早已梦碎,留下的除了网络上的概念图,也有博物馆里的这件 T 恤。

让人在时间上感觉「既远又近」的 Clubhouse,虽然还未「盖棺」,但在 Jacobsohn 眼中已经值得入馆了。

2021 年,平台开始扩大,他们没法和用户建立更深的联系,也没能可以扩大能自我维护的社区。

Jacobsohn 在「失败博物馆」对应的页面上写道。

硅谷:失败有益

虽然 Jacobsohn 会把藏品都拍照放到 Failure Museum 网站上,但这个博物馆并不对公众开放,只有受邀请的创业者才能前来参观。

作为馆长领队时,Jacobsohn 会和创业者分享他从藏品中总结的「六大失败动力(Six Forces of Failure)」:糟糕的产品市场匹配度、不稳定的财务状况、忽视客户反馈、竞争激烈、时机不对,以及人的问题。

▲ 2008 年,Mark Madoff 和他的兄弟 Andrew 揭露了他们的父亲 Bernie 犯下的数十亿美元庞氏骗局。

失败虽然要警惕,但 Jacobsohn 对失败的看法也相当「硅谷」—— 如果创业者从来没尝过失败的滋味,那就意味着他们并没有承担过有意义的风险:

VC 并不害怕去投资那些曾经失败过的创业者。

不要害怕失败或是冒险。

即便那些最成功的公司都遇到需要转型的时候。

譬如,博物馆里的 Mazagran,是星巴克和百事可乐在 1994 年合作推出的一款瓶装咖啡饮品,它既是咖啡,也是汽水。

这款产品只卖了很短时间。

然而,星巴克为做这款产品制作的咖啡浓缩液,却在 1996 年促成了瓶装星冰乐的诞生。直到现在,我们还能在商店里看到这款饮料,其成功不言而喻。

曾经被乔布斯称为「我听过最 ** 愚蠢的东西」的 ESPN 手机,也在失败中为 ESPN 的数字化转型作出了巨大贡献。

对于同为投资人的 Jeff Crowe 来说,在「失败博物馆」里参观,就像走在一个实体的商业史一样。他也喜欢和和创业者聊失败。

在他看来,如果创业者压根没理解自己为何失败,那他们很有可能会再次失败:

如果你只谈成功而不聊失败,你就漏了等式的一边了。

是健康心态,还是「失败情结」?

没有谁能完全不经历任何失败,创业世界里更是「尸横遍野」。

如果在失败前建立一个更健康的态度,那当然很好,但在硅谷,失败有时候已经被神圣化了。

正如 Jacobsohn 会将没失败过的创始人视为没「合理冒险」过,年轻的创始人们甚至会将失败视为一种特别的「社交货币」。

2009 年,刚经历完创业失败的 Cass Phillipps 创立了一个名为 「FailCon(失败大会)」的活动,本意是创造一个安全的空间,让曾经遭遇失败的创业者可以敞开心扉,寻求帮助。

这个活动一开始就备受好评,PayPal 联合创始人 Max Levchin 这类明星创业家也愿意现身参与和分享,后来更是从旧金山单一个城市,扩展到于几十个城市开展。

创业者们都争着分享自己的「失败故事」,Phillipps 不得不进行更严格的筛选,确保创业者们的分享是真诚和具有反思性的,而不只是一种自我宣传的方式。

▲ Failcon 现场

失败不知为何成为了一种时髦的,可接受的结果。

创业公司可能会因为糟糕的执行力或市场认知而破产,创始人们会立即陷入相互吹捧的循环中。

英国创业顾问 Paul Smith 说道

更夸张的是,有时候所谓的「失败宣言」,会变相被写成反向炫耀或「求职广告」。一家名为 Outbox 的创业公司曾在关闭告知中写道:

我们汇聚了国际一流的工程师、设计师、市场营销人员和运营专家。

联手一起,我们做出了一个复杂美丽的产品,将近克服了我们所遇到的所有困难。

在硅谷的「快速失败,频繁失败(Fail fast, fail often)」口号下,失败有时甚至会变成了成功的「符号」之一。

最近一项研究甚至指出,「失败」后成功的几率远远被高估了。

人们总觉得,律师、护士、教师等专业人士就是「自动自觉」能从失败中学习成长然后再次尝试。因此,人们会认为政府没必要投入资源帮助失败的人去恢复。

现实是,正在经历失败的人很难从失败中学习,因为失败本质上对于人的自我伤害很重,而且也会让人失去动力。

从这个角度来看,高估失败的价值而不提供帮助,简直就是噩梦。

我们都高估了失败之后成功的可能性。

研究作者之一的心理学家 Lauren Eskreis-Winkler 说道。

硅谷的确很需要自己的「失败博物馆」。

然而,需要反思的不一定只是创业者,投资人也应该看到警报。正如 WSJ 作者 Ben Cohen 所言:

的确,失败博物馆里很多失败的公司、想法和产品,他们都来自于投资人愚蠢的赌博而成为可能。

他们总高估了失败的教育意义。也许在未来,他们多想起失败之痛,克制一下自己。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


苹果这部新短片,打造了一场看起来最「不公平」的竞赛 | Feel Good 周报

By: 方嘉文
18 August 2024 at 18:00

Feel Good 导读

  • 苹果发布新短片,打造了一场我们不常见的竞赛
  • 美国的老人家都在学 AI
  • 越来越热的当下,日产汽车做了一款「冷漆」
  • 📷 孩子眼中的世界
  • Copper:为家电配上一个电池能改变很多

苹果发布新短片,打造了一场我们不常见的竞赛

2024 残奥会到来之前,苹果先组织了一场我们甚少在屏幕上能看到的「竞赛」—— 让残障运动员和非残障运动员同台竞争。

在最新短片《接力赛》中,八位运动员分别在泳池、跑道、单车赛道和举重场进行两两竞赛。

对于不少残障运动员来说,和非残障运动员同场竞技很平常,然而,我们却较少能在屏幕上看到。

通过这支宣传影片,苹果展示出了当环境障碍被清除后,不论肢体情况,运动员都同样可通过训练和努力去追求更高更快更强。

当然,影片中也展示了残障运动员如何借助「为每一个不同的人而设计」的苹果设备来进行健康管理和进行日常事务。

《接力赛》由曾执导《蓝色情人节》的美国导演 Derek Cianfrance 操刀。而讲述了失去听力的金属摇滚乐鼓手的电影《金属之声》,剧本灵感也是来自于 Cianfrance 作为音乐家的经历。

2024 年巴黎残奥会将于 8 月 28 日至 9 月 8 日举行。

美国的老人家都在学 AI

▲ 89 岁的 Barbara Winston 报名到老人中心学习 AI

据美联社报道,美国各地的老人中心开始为老人提供 AI 课程,帮助他们理解这项可能会影响他们生活的技术以及它可能带来的威胁。

我可是见证了冰盒子变成冰箱的人,我活了真的很久。我现在感觉,这也许是我一生中见到最大的科技革命。

89 岁的 Barbara Winston 说道。她缴费参加了诺斯菲尔德老人中心的 AI 课程。

这位退休教授在课后,还会自己去找讲述 AI 技术的书来看,也开始体验不同 AI 平台:

这是我教育的开始。我不担心要自我保护。我已经太老了没发担心这个。

很多研究指出,老人更容易被 AI 骗局和假消息影响。

有专家指出,老人和 AI 的关系,在于平衡 —— 不应让老人过于害怕而不敢接触 AI。

很微妙。部分老人可能还好,也有部分老人我不希望他们会因为担心而不再愿意上网。

诺斯菲尔德的一位讲师 Michael Gershbein 说道。每周,Gershbein 会上两堂 AI 课。那除了是传授知识的空间外,更多是讨论和分享的机会:

那是一个安全的空间,老人可以来这里,分享讨论他们听到的「只言片语」,然后我们大家可以一起去拼凑更完整的情况,他们可以有机会去提出问题。

不少上了 AI 课的老人能很好地理解 AI 的好和不好。

它的好坏在于编写它的人,用户需要明白这个。你得去质疑他。

70 岁的 Linda Chipko 在上完课后说道。

也有老人已经开始活用 AI 创作。

77 岁的 Ruth Schneiderman 曾经用 AI 来为自己撰写的童书制作配图。这个经历让她对 AI 产生了兴趣,因此也开始上 AI 课了:

我妈妈活到了 90 岁。我从她那学习到,如果你想在这个世界上活下去,你就要去适应世界的改变,不然就会被抛下。

越来越热的当下,日产汽车做了一款「冷漆」

最近,日产公布了一款被称为「冷漆」的汽车涂料,据说可让烈日下的人们在车里感到凉快些。

涂上了冷漆的汽车看起来平平无奇,但却能让汽车车顶板温度降低 12 摄氏度,汽车内部温度可降低 5 摄氏度。这款涂料是日产和中国公司瑞凌合作打造而成。

日产研究中心经理 Susumu Miura 表示:「我的梦想是在不消耗能源的情况下创造出更清凉的汽车。」

无独有偶,丰田汽车也一直在测试研发能给车身降温的涂料,主要方向在于使用能够折射太阳光线的颜色上。

日产的冷漆除了也能更好地反射阳光外,还会产生电磁波阻挡射线,将能量从车辆上转移。

然而,虽然看起来没啥不同,但日产这冷漆的厚度却是一般涂料的六倍,因此在商业化上有点难度。

目前,日产现在在那些经常需要在机场穿梭的汽车进行涂料测试,因为那些路径通常缺乏遮阴。

📷 孩子眼中的世界

名为「Behind Blue Eyes」的项目,为仍然生活在战火中的乌克兰儿童提供了一次性相机,邀请他们记录下生活的日常。当他们归还相机,项目会为他们实现之前写下的一些小愿望。

让志愿者感到意外的是,虽然身处糟糕的环境中,孩子们还是用自己的方式创造出一种「日常」,甚至还会散发出一种乐观积极性。

我们相信,无论面对怎样的困阻,孩子都会去做梦和创想。这也展示了创造力是一个强大的工具,让渴求变成现实。

这个项目从 2022 年开始进行,现在已经收集了大量作品。其中一位项目发起人 Artem 表示:

实体上,我们收集了很独特的作品 —— 从未来的角度去审视战争与其后果。

在精神上,我们有机会提出重要内心声明:关于我们自己,我们的童年,以及这两者之间的联系;关于战争和死亡,关于生命和未来。

Copper:为家电配上一个电池能改变很多

「炉灶+烤箱」一体化灶具在欧美家庭颇常见。然而,如果想从燃气灶具换成电灶具却有不少麻烦。

因为这类电灶具通常需要在短时间用很多电,所以安装时通常需要重新布线和拆除墙壁。如果是老房子,那就更麻烦了。

为了减少这个麻烦,创业公司 Copper 打造了一系列名为「Charlie」的电灶具,用户能直接插电使用,不必重新走线。

Charlie 和其他同类产品差异在于,机器内部加置了一块电池。即使哪天停电了,如果只做晚餐,Charlie 也能靠电池来支持五天。

除此以外,Copper 还考虑了「错峰用电」的优势。

在类似加州这种地方,电池可以在白天非用电高峰时期充好电,利用那时常有盈余的干净能源。然后在高峰做饭时期就能直接用电池里的电力。

设计上,Charlie「复兴」了被很多新厨房家电抛弃的实体旋钮。这个决定自于对消费者的调研,不少人都反馈触控屏幕在做饭这种比较复杂的场景中并不可靠。

想让人们更愿意接受「清洁」家电时,降低置换难度和新设计使用障碍都很重要。有时候,增加一块电池也能带来不少改变。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


10 分钟写上万字,这个 AI 版 Word 是现在最有「人味」的写作神器 | AI 有用功

By: 张成晨
16 August 2024 at 12:14

Perplexity 首席执行官 Aravind Srinivas,曾在接受福布斯采访说,AI 对他而言主要是个搜索工具,他不怎么用 AI 写作,备忘录和信息都坚持手写。

即使是现在,我也不喜欢自动完成式的写作,感觉很不自然。

他的大实话让人心有戚戚焉,是个 AI 就能「写文案」,但我们还是很难看到 AI 味少的文案。

不过,国内有一款 AI 产品,橙篇,专攻长文这个难度系数较高的领域。

橙篇有些低调,来历可能也有些出乎你的意料。它属于百度文库旗下,今年 5 月底推出,是一款超长图文理解和生成、专业知识检索和问答工具。

论测评结果,省流地说,生成的长文质量还行,但突然有点明白,大学老师给我的论文写修改意见的心情——我们交出水分,压力给到老师。

AI 味更少的长文神器,却也有些啰嗦

橙篇目前刚上线手机端 app,更推荐体验网页端(https://cp.baidu.com),以及 Mac 和 Win 的客户端。

和很多 AI 产品一样,橙篇是一个技能多样的综合型选手,不过我们重点体验它的长文创作能力,于是点击「长文写作」,选择「论文助手」,然后输入主题。

AI 会在这时候提醒你:「请输入您的文章主题,尽可能完整哦。」

既然它诚心诚意地要求了,那我就以「不要沉迷人形机器人了」为主题,写了一段详细的提示词,既规定了文章有三部分,又要求提到一些具体的科幻作品和科技产品。

橙篇对提示词的跟随性还不错,生成的大纲符合要求,按照三个部分展开细节,并且我列举的产品和作品都被放了进去。

大纲包括章节、小节,还可以进行人工编辑,调整层级、上传参考文档、新增、删除……

橙篇成文从大纲开始,并支持修改,很符合人类作者的日常。编辑写文章给甲方也这么走流程,大纲对了,达成共识了,进度才能再往下推。这个 AI,乙里乙气。

看着 AI 吐出的大纲,我突然想到,除了近代的科幻作品,古代也有类似的神话和故事,《列子·汤问》的偃师、希腊神话的《皮格马利翁》,都按照人类的形象造物。

所以,我给大纲增加了一个小节,并上传了一个自己整理的 Word 文档,作为补充材料。

然后就可以生成正文了,耗时大约 10 分钟,橙篇贴心地提醒我们不必干等,可以开新的聊天窗口,做些别的事情。对话历史和文件都会保留,不怕关上网页就丢失。

文章生成完毕,打开之后仿佛是一个 AI 版 Word 文档。

左边是目录大纲,点击跳转到对应的位置,中间是正文,支持手动编辑,右边是与 AI 互动的空间,可以和 AI 聊天、用 AI 搜索等。

AI 生成的正文有 11300 字,字数就够唬人,形式也很正式,中文版摘要和英文版摘要都端了上来。

见真章还得看正文,首先检查我手动新增的章节,AI 虽然写到了这两个例子,但没有直接运用材料,更像在自我发挥。文字略嫌啰嗦,但没有明显的 AI 味,已经很让人感动了。

另外,AI 对科幻作品的分析也不错,谈到了机器人的三大定律、赛博朋克之下的存在主义等核心的设定。

但问题在于,AI 的文字读着总有些不尽兴,好像什么都蜻蜓点水了一下,不够展开和深入,留给读者「啊,就没了」的意犹未尽,介绍科技产品的时候较为明显。

当然,我们可以指挥 AI 完善正文,选中句子就可以扩写。

但新的问题又出现了。AI 洋洋洒洒地写了好几段,却文风突变,和论文本身很不搭,同时,它是在用文字砸晕你,不是用数据、例子说服你,没有带来新的信息增量。

所以,扩写这种一键生成按钮操作起来简单,也意味着调整空间小,选项少。我们想要的,和 AI 能给的,尚有很大的距离。行到水穷处,还得自己写。

正文最后默认加了个声明,橙篇基于文心一言模型,参考文献来自百度学术。橙篇本来就是百度文库的产品,这属于发挥自身优势,就像腾讯元宝基于公众号生态。

不管如何,学术信源的质量,相对更加参差不齐的网页总要好上一筹,也可以解释橙篇的 AI 味相对没那么浓。

除了在文档上编辑,我们可以在旁边和 AI 助手互动、搜索材料,看还有什么信息能补充到文章里。

有什么问题,可以直接在这里问,不用另外搜索,对于懒人来说是一大福音。

我尝试搜索了几个问题,信源有百度学术、搜狐、百家号、豆瓣、知乎等,答案无功无过,搜索结果相比其他 AI 搜索没有明显的优势。

人类和 AI 协作之必要

橙篇固然还有很大的进步空间,但这个 AI 已经有些「人味」了。

什么是「人味」?我以创作者的角度定义一下:

  • AI 生成的流程,符合创作者创作的过程,从大纲到正文。
  • AI 生成的文案,遣词造句的 AI 味要少,少用些首先其次再者的句式。
  • AI 引用的消息源相对权威,信息量大,言之有物,拒绝片汤话。
  • 人工修改和编辑的空间大,并且交互简单、自然,毕竟现在的 AI 只能打个底稿。

橙篇目前都沾了一点,但还不彻底,扩写功能尤其让人不满意。

WPS AI 最近也推出了「AI 帮我写文档」的功能,都是做文档业务的,不妨和橙篇同题比较。

我输入了以下提示词:「分析北魏的佛教文化和艺术,涵盖主要的事件,包括拓跋珪迁都平城、拓跋焘扩张、云冈石窟开凿、孝文帝改革、孝文帝迁都洛阳、龙门石窟开凿等。」

▲ WPS AI 正文

WPS AI 没有大纲生成和修改环节,直接生成不到一千字的文章了,并且不是按照论文格式写,文案更加通用,但自由发挥的空间也小,完全按照提示词来,一板一眼。

橙篇照样还是从大纲开始写起,思维更加开阔,更加旁征博引。

▲ 橙篇提纲

▲ 橙篇正文

两者适用的场景不同,不能直接分出优劣,反正我们都得上手改。单论功能设计,它们在 AI 协助人类创作的思路上是类似的。

一方面,都强调「以我为主」,WPS 的生成功能是「AI 帮我写」,修改功能是「AI 帮我改」,是帮我,而不是替我。

另一方面,都在可编辑的空间里,集成 AI 辅助功能,让你留在原地完成创作,别跑出去打开十几个窗口了。AI 文档是创作的起点,也可以是创作的终点。

▲ WPS AI 修改功能

总之,目前拿 AI 创作文字,人类的存在感依然强大,我也试过,就输入一句简单的提示词,让橙篇生成论文,但怎么看产出的都是一篇垃圾。

所以,仍然是我去主导过程里的各个环节:设计提示词、完善大纲、补充材料、调整正文、让 AI 搜索问题…… 我是选手,也是裁判。

同时,AI 确实也能在一些过去现在未来都讨人嫌的工作上发挥作用。

橙篇有个挺有意思的功能——全文校正,用来纠正错误和增加可读性。

如果文章主体都是 AI 生成的,选择这个功能,等于 AI 自己给自己优化,但恕我直言,没有看出来修改的必要性,AI 只是交个差,通知你它干活了。

如果是上传我们编辑的公众号文章,从优化的结果来看,我觉得 AI 并不了解语言简洁和通俗的重要性,或者说,它还是以论文的思路理解一切文章。

但这个功能的存在很合理,它不只是找找错别字,而是抱着优化的目的。想法优秀,水平还有待提高。

橙篇的格式整理和生成参考文献,更是学生党的刚需,遥想当年,为了搞好页眉页脚,大学生掉了多少头发。

在 AI 没法生成超越人类的文案的时候,我建议它们先在这些耗时且麻烦的地方卷起来。

一切都是创作的起点

除了提示词生成长文,橙篇还能围绕长文做很多事。

写长文,我们总得找资料吧?橙篇支持根据主题搜索文献,学术或者全网。

先试试「学术搜索」,输入「人机恋爱」,材料基本都是出自百度学术,但质量参差不齐,其中一些怎么看怎么不靠谱,怎么还能跑题到无人机种地呢?

同样以「人机恋爱」为主题,进行「全网搜索」,基于百家号、新闻网页等信源,结果反而更好、更全面,不只是资料的集成,而是像一篇文章的大纲了。

而且,我们可以不停留在聊天记录,点击左下方的「去编辑」,一键跳转到在线文档,就这个内容继续加工。

和生成长文一样,可以原地和 AI 聊天、用 AI 搜索、进行全文校正等,一篇文章水灵灵地有了。

橙篇的「文档总结」功能也不错。当我上传 37.8 万字的、近 700 页的《马斯克传》,总结得简明扼要有细节,同样支持「去编辑」。

将相同的文件丢给 kimi 总结,超出字数限制,只读了前 32%,效果不免大打折扣,也不能进行下一步了。不过,两者是两个场景的产品,体验上的差异也可以理解。

但橙篇的总结形式还是有点传统,要点罗列加小结,有时候我们可能分不清楚,哪些信息是更为重要、值得细看的。

在这方面,橙篇可以向腾讯元宝最近推出的深度阅读功能取取经,这个功能甚至可以提取原文的图表,专攻论文、研报、财报场景。

我上传了同一篇关于麦克卢汉的传播学论文,橙篇的总结没有什么废话,但也没有什么亮点。

元宝的总结形式更加创新,拆解了核心信息,要点的呈现又更加结构化,按研究背景、研究方法、研究结果娓娓道来,我们还可以在一侧继续追问。

最讨人喜欢的地方是,元宝给出了正反两方面的论文评价,总结了一些论文里的关键问题,又能自己给出答案,看起来非常清爽且有信息量,认真地想让我们学会什么。

体验下来,橙篇围绕长文场景做了很多设计,进步空间较大,细节还待打磨,但理念可嘉。

大纲生成、资料搜索、文档总结,我们指挥 AI 生成的文字,都可以跳脱出对话框,成为在线文档,直接作为创作的起点,让我们编辑、完善。

目前 AI 写作工具的作用,不是替代人类,而是降低门槛,缩短从想法到成文的流程,顺便解决一些麻烦的环节,任何人都可以随时开始写些什么。

创作 1 万字,不再是很难的事,让更多人先有创作的欲望,然后我们再去谈,怎样创作得更好。

利若秋霜,辟除凶殃。 工作邮箱:zhangchengchen@ifanr.com

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


今年最糟的 AI 广告出现了,比审美降级更可怕的是「不做人」

By: Selina
14 August 2024 at 09:29
「最松弛」的一届奥运会告一段落,有欢笑有眼泪,有胜利有失落,但要论最大的输家,一定是 Google。
在奥运期间,Google 为 Gemini 做了一支电视广告,展示了 Gemini 的写作能力 —— 可惜,没有用在正道上。
广告中,一位父亲用 Gemini 代劳,为女儿写一封粉丝信给美国知名的田径运动员 Sydney McLaughlin-Levrone,表达女儿对她的喜爱,以及想要超越她的梦想。
广告一出,直接被喷到关闭评论区。华盛顿邮报专栏作家亚历山德拉・佩特里是骂得最狠的一位,在字里行间怒吼:求一双没有看过这广告的眼睛。

 

虽然每个人对同一个内容的理解,可能会偏差,但是 Google 在这则广告里,确实有很主动在暗示 Gemini 可以和人类一样好。
这堪称是目前 AI 营销最大的雷区。
同样在奥运期间投广告的还有微软,而且同样是 AI 产品。微软突出了 Copilot 是如何辅助用户的日常生活。
从精简行程,到制定计划,Coplit 最终帮助用户实现了「You empowered」的效果,这是跟 Google 截然不同的基调。
甚至,被拿来跟 Google 翻车相提并论的苹果,这次没有重蹈覆辙。依然是为 iPad 制作的广告,不过采用了更亲近生活的街头广告牌,并且与法国插画家合作,走活泼可爱的路线。
苹果是有「前科」的。今年五月,为新 iPad 制作的广告「Crush」里时,一台巨大的液压机,碾碎钢琴、颜料、游戏机,同时也碾碎了观众的眼镜,引发了巨大的批评浪潮。
尽管有苹果的前车之鉴,Google 却没有发现到自己广告里也有不对劲的地方,或许是因为它在同时面对不少幺蛾子,也可能是因为它压根没觉得自己做错了。

希望之光

Google 最近的境况都不太好。
8 月 5 日,美国华盛顿的哥伦比亚特区联邦地区法院裁定 Google 非法垄断了在线搜索市场,违反了美国反垄断法。当日 Google 母公司 Alphabet 股价应声下跌,跌幅超 5%。
这是继本世纪初,美国司法部与微软之间展开的反垄断对决之后,最大的科技反垄断案,同时也是今年 Google 在反垄断上的又一张罚单——三月时,法国监管机构就开出过 2.2 亿欧元的罚款。
美国司法部的诉讼书是这样写的:「二十年前,互联网刚刚兴起,Google 从一家草草成立的创业公司,凭借其创新的搜索方式,一跃成为硅谷宠儿。曾经的 Google 早已不再。如今的 Google 只是互联网垄断的守门人。
短短几行字,是一个科技巨头二十六年的起和伏,也是世界对待技术变革时心路历程的变迁史。
时间退回本世纪第一个十年,Google 是上一波互联网浪潮里,开放、创新的代表。有点网龄的朋友,可能还记得「谷人希」这个昵称,那是 Google 粉丝们起的,意在 Google 是人类的希望之光。
世人对 Google 的宠爱在 2012 年达到顶峰。那一年,Google Glass 发布,谢尔盖・布林在台上,带领全场观众通过 Google Glass,穿越到了高空中的跳伞运动员视角。
一路由旧金山上空,落在发布会所在的展览中心房顶;再攀岩走壁从大楼外立面直落,最终由山地车手骑着车冲进会场,冲上演讲台,完成了这款产品的亮相。
那是科技史上浓墨重彩的一笔。今天我们再去回看那些影像记录时,画面晃动、像素欠佳,但依然能从中瞥见上一个十年,新技术「降落」时,所有人都献上兴奋和欢呼。
那一年,距离 Google 坚持「不作恶」这句口号,已有十三年。然而距离它重组 Alphabet,只剩三年。2015 年公司重组后,这句口号被改写;2018 年后,逐渐淡出江湖。
Alphabet 当年的重组固然有很多商业上的考量,不过,当时的美国企业普遍在收兵买马、壮大自身,背后有这样一个愿景:将利润和股东利益最大化,让社会自行完成福利分配,恰恰是一种追求公共利益的表现
然而这种愿景并没有实现,重组和壮大最后只是走向垄断,走向和早期硅谷黑客文化完全不同的方向。Google 从曾经的「不作恶」,成了现在的「不做人」。
更何况,技术的迭代可能比技术人自己预估得都快。不管是 Google Glass,还是 Google 一直倚赖的搜索,在用户眼中曾经是更天然无公害的「进步」范式。
搜索引擎作为通往信息世界的钥匙,在提供检索服务;手机、眼镜等移动电子设备,是数字世界与线下生活彼此交互的方式 —— 它们都只是辅助,让生活变得更好,从不在于「取代」人。
然而人工智能不尽相同。
人工智能在追求的是自动化。无论是借助算法,还是借助机器设备,都是瞄准了那些在可预测的环境中、以规定方式实施的工作。而基于大语言模型的 AI 产品,进一步拓宽这个定义,降低了「可预测」三个字的门槛,又一次提高了自动化的水平。
面对自动化,科技精英普遍狂热。然而劳动人民看待自动化,是截然不同的眼光。

自动化也有基本法

一讲自动化,19 世纪初的卢德运动就要被拎出来游街。
这项反对自动织布机的运动最后被英国政府强力镇压,最终,砸坏机器的反对分子,没有能阻止工业自动化进程。
这个例子常被作为论据,用来论证技术进步的车轮滚滚而过,不可阻挡。但老实说,19 世纪的经济形态,实在是跟今天差太远了。
现代经济中,服务业和知识型工作的比重远大于工业时代,AI 对这些领域的冲击和影响与卢德时代对制造业的影响完全不同。不仅影响蓝领工人,还可能影响白领工作,包括专业和管理职位。还有可能借由自然语言,介入人的意识世界 —— 这些是卢德运动时期根本不存在的。
自动化取代人类在近代有没有发生过?也确实有。
上世纪 20 年代,打电话时需要转接线路,这都是由人工完成的,而且大部分是年轻女性。当时美国的 AT&T 是电话接线员的最大雇主。
接下来三十年间,自动电话转接系统逐步取代了人工接线员。但却没有重创就业率。这是由于不同的工会组织快速行动,为劳动者争取权益,尤其是保证由新技术带来的新就业机会,能承接曾经的劳动力。
这就是和 19 世纪工业时代最大的差别:现代社会向人们许诺,分歧可以经由制度、规则来协调,从而彼此适应
对 Google 的口诛笔伐再狠,总没有人溜进机房拔电源吧。
只要彼此正视各自的诉求,不需要走到砸机器那般针锋相对的地步。1962 年,在美国自动化转型最重要的阶段,一份由劳工管理政策咨询委员会出具的报告书,递到时任美国总统肯尼迪的桌上。
封面函里列出了三大要点:
委员会一致同意以下基本要点:
1. 自动化与技术的进步,对本国的全体福利、经济实力及国防至关重要。
2. 实现这种进步时,不仅能够、而且是必须不牺牲人类的价值观。
3. 在不牺牲人类价值观的前提下实现技术进步,需要在符合自由社会原则的基础上,由民间与政府合作达成。
肯尼迪写去回信,「我非常感谢这份报告所代表的贡献。这个自动化问题与我们面临的任何问题一样重要。我们必须利用每一个技术发展的机会,但我们不能忽视其中涉及的人文价值。」

不完美,才孕育了完美

「人文价值」究竟是什么,各人有各人的定义,但逃不开的,是「人」本身的存在。
Gemini 广告犯下的最大错误,是释放出 AI 能够替代人的潜台词 —— 而且还是一个孩子。
孩子是社会的希望,但同时孩子一定是不完美的。Gemini 可以写出行文流畅无瑕的信,但孩子,可能连字词拼写都会出错。
但难道只有完美,才是值得存在的吗?
微博大 V 阑夕评论说,「科技本身的进步性,极易纵容自我迷恋的滋生,自我迷恋的终点,就是傲慢」这话讲的非常客气,他没有明确指出迷恋的、傲慢的究竟是什么。
恰恰就是一种完美的皮相。
自动接线系统出现时,并不是一步到位的,那三十年并不完全是花在协调劳动力上。在早期,接线系统依赖于电机、继电器等机械部件,同时需要在大量线路中完成精准匹配,还要应对信号清晰度和减少噪音的挑战,这导致系统的可靠性和稳定性成为一个大问题。

▲1940 年代左右,电话工程师正在检查电话线的连接 图片来自:佐治亚州立大学图书馆档案

整个社会陪着制造商和研发们,一点点适应。这个过程中也有批评声,指责机器僵硬的程式没有人情味,但正是在这样的磨合中,最终完成了迭代的过程。
今天的生成式人工智能,也有诸多问题。抽卡与幻觉、具体落地场景有限,对数据和内容的侵占时刻在挑战人的神经 —— 可是如果真要走完美主义那一套,对早期不成熟的技术毫无包容,GPT 还在 2.0 的时候就已经死在摇篮里了。
就像面对孩子们,尽管他们写不出完美的文字,还是要让他们写。
Google 用几十年来收集的用户数据训练出自己「完美的」工具,然后反过来说人出品的东西不够好所以要被消灭,简直就是倒反天罡。
完美背后有许多看不见的代价,只迷恋它光滑白洁的皮相,自然容易被蛊惑,容易纵容傲慢,容易对自己的成就沾沾自喜,而忘记:是大众容忍了所有早期的不完美,才有了后来的完美
人工智能整体要面对的问题,比一个 Google 做砸了的广告要多得多。这个插曲在提醒所有人,一种基于人文价值的协调过程,将会是一段漫长的跋涉。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


25 秒爆改热梗,把心情哼成歌,这个最新的音乐 AI 太上头了

By: 张成晨
9 August 2024 at 12:02

自从今年 3 月 Suno 火爆全网,音乐生成赛道便人才辈出。有才的不是各家的大模型,而是擅长整活的广大网友。

从「萨菲罗斯男人中的男人」到「你的钢门比较松弛」,初听痛苦,再听着迷,AI 以鬼畜、抽象的方式出道音乐界,征服了你我他的心。

我们也就此明白,AI 还不是来代替人类的,而是更像一个趁手的工具,让脑洞实现生产力的大解放。

8 月 8 日,字节旗下的豆包,表示也要加入这个家庭,网页和手机端都上线了音乐生成的功能。

豆包的音乐生成功能有什么不一样?能不能让更多人玩起来?体验了 2 天后,我们有了一些有趣的发现。

25 秒三段歌曲,接地气又懂艺术的国产音乐 AI 来了

目前,豆包能够生成 1 分钟以内的音乐,支持民谣、流行等 11 种曲风,驾驭快乐、忧郁等 9 种情绪,音色只能指定男声或者女声,歌词可以让 AI 生成,也可以自己上传。

如果你拿捏不准自己要什么曲风、情绪,可以直接听听输入框上面现成的模板,哪首歌曲听着顺耳,就可以一键「做同款」。

我一眼相中了《牙买加的偶遇》这个超 chill 的夏日风模板,那么就等于选定了「雷鬼」的音乐风格、「活力」的情绪、「男声」的音色。

▲ 豆包的网页端音乐生成界面

然后再让 AI 帮我写歌词,我从头到尾只需要打几个字,描述歌词要表达的主题。身为「紧人」的我,输入了「古希腊掌管松弛感的神」。

几乎无需等待,25 秒左右就出来了 3 段 1 分钟左右的音乐,歌名、封面、歌词、旋律,都由 AI 一手包办。

封面符合古希腊的主题,像幅油画,艺德充沛。歌词更是深得我心,报菜名似的,把神的名讳挨个说一遍。旋律还很容易上头,适合单曲循环。句句不提松弛感,句句都是松弛感。

至于 AI 演唱的水平,难得的是总体的中文演唱效果很好,吐字清晰度、演唱流畅性胜过海外的音乐生成 AI,甚至听出些北方人的调调。

再蹭一下奥运会的热点,输入「光靠干饭就获胜」,生成一首嘻哈音乐。

AI 不仅拥有清澈的男声,还懂得跟着伴奏变换唱腔,强有力地切入,抒情地收尾。我很喜欢歌词体现的生活态度,吃饱喝足,才能上场比赛。事已至此,先吃饭吧。

论表达感情,AI 这个风格百变的歌手,可以欢快而活泼,也可以细腻而深情。

让豆包以「奶奶的针线包」为主题唱一首民谣,朴实的歌词仿佛讲了一个故事,女声缓缓道来,没有复杂的技巧,没有过多的修饰,就足够打动听者的内心。

除了指定主题让 AI 生成歌词,我们也可以自定义歌词,但这个概念很宽泛,AI 的参与度可大可小,我们可以粘贴自己的歌词不做改动,或者再让 AI 优化,甚至完全让 AI 随机生成。

豆包对于版权比较严格,我上传了一段明代戏剧家汤显祖《牡丹亭》的曲词,但被豆包拒绝生成了,因为涉嫌侵权。

较真些挺好,总站在前人的肩膀上也很无聊,我上传了几句最近的热梗,「偷感很重、已读乱回、别吵我在思考、感觉尸体暖暖的、正是藏不住话的年纪」,随意排了序,让 AI 帮我优化歌词。

结果 AI 稍加改编之后,这个歌词看起来还真有些意义,像一个网速 5G 年轻人的自嘲。

就拿这段歌词,让豆包来段忧郁的、男声演唱的民谣,AI 这回不仅吐词清晰,唱腔还确实有些伤感,吉他这么一弹,仿佛云南哪个酒吧的长发忧郁男。

接下来我又上传了一段歌词,是之前让 Siri 给我写的诗,不用 AI 改编,直接用,表现一个赶 DDL 的创作者美好的精神状态。

爵士的风格、活力的情绪、女声的演唱,乐景衬哀情的化学反应果然很奇妙,一曲听罢,码字都变得更有精神了。

一番体验下来,我觉得豆包很适合我的中国宝宝体质。

普通话拿捏了,风格也更符合国内听众的喜好,擅长民谣、嘻哈、R&B 等曲风,旋律流畅,歌词通俗易懂、贴近生活,听着听着,人就跟着哼起来了,听了三遍,就会唱了。

▲ 豆包的手机端音乐生成界面

同时,初出茅庐的豆包也存在不足的地方,一个是时长短,一个是定制化功能欠缺。

豆包目前只能生成 1 分钟,Suno 已经可以生成 4 分钟。

Udio 最近的更新引入了调性控制,作为音乐爱好者,我也希望豆包后续能提供更多定制性选项,目前豆包暂时不支持生成男中音、高音等音色,不支持乐器,曲风还不够丰富。

最懂个性化的 AI 音乐,是属于所有人的表达工具

豆包的音乐生成虽然是一个新功能,但上手没什么压力。

「音乐生成」和「帮我写作」「图像生成」等功能一样,驻守在网页端的聊天框上方,等你点击,或者用「@」和「/」召唤,无缝融入豆包的生态里。

选择这个功能之后,豆包也很懂得照顾对音乐一窍不通的小白,连提示词的公式都帮着写好了,我们只需要在蓝色框里做选择题或者完形填空。

而且,其中一个选项是情绪,使用起来很直观,不通乐理的普通人,同样能下意识地判断,我们希望这首歌包含怎样的感情。

生成歌曲之后,豆包还会推荐一些相关问题,顺便让我们学点知识,相比垂直的音乐生成平台,时刻陪伴的聊天机器人不会让你觉得弱小孤独又无助。

即使不是专业的音乐人,也可以在这里贡献创意,拿到一首包含歌词、歌名、封面的完整音乐作品。

作者栏上面的名字,首先是你,其次是豆包,时刻提醒着,这份作品有你的贡献。

当 AI 生成的音乐日渐丰富,海外的 Suno、Udio,都在向音乐社区发展,它们的首页,以热度、题材、风格等标准,给歌曲列排行榜。

然而目前看来,它们取代 Spotify 为时尚早,这是因为,大多数 AI 生成的音乐离专业创作还是有距离的,不耐听,大白嗓,旋律简单,缺乏抑扬顿挫和起承转合。

豆包也存在这个问题,有些生成结果不如人意,比如拿「青梅竹马」作为主题,豆包写的歌词就有些敷衍了。这可以理解,要给 AI 一些成长时间,才能更好地捕捉人类「郎骑竹马来,绕床弄青梅」的意境。

不论国内海外,AI 生成音乐存在共同的难点,音乐的信息密度极高,每一秒都可能整合了多个节拍、音符、和声。同时,不同乐句之间还要保持流畅性,多种旋律和声音也需要协调。总之,生成音乐可比生成语言难得多了。

但这不影响我们可以用 AI 音乐,个性化地表达自我。那些难以为外人道的心绪、灵感,存在被 AI 接收并生成出来的可能性,这是目前 AI 赋予每个人的微观创作权利。

技术交给产品团队去攻克,作为用户,我们输入简单的提示词,就能让 AI 带给我们灵感和创造。

为午餐创作一首歌、创作一首关于月亮的歌…… 提示词只有一句话甚至一个词,但可能确实是我们当下的所思所想。

我常常在周日晚上陷入焦虑,玩也玩不好,工作也工作不了,只能通过晚睡的方式,延缓又一个周一的到来。

基于这种心情,我给豆包指定了一个主题:「周日恐慌」,音乐风格 R&B,情绪伤感,女声演唱。

AI 给出的作品,有些出乎我的意料,这些歌词,不就是我想说的话吗?AI 甚至还能把它们唱出来,押了韵。

更多情绪上头的时刻,我们都可以邀请 AI 共享和分担。最近广州的天气太热了,于是我让豆包基于「热得我拖鞋都快融化了」的主题写了一首放松的摇滚。

天气一热,人是想什么都不做,豆包很擅长写这种带点情绪的主题,甚至可以道出我们内心的潜台词,一口郁气也就跟着吐出来了。

曹操在《观沧海》里写,幸甚至哉,歌以咏志。

虽然这些歌是 AI 帮我完成的,但也只有我能够生成,并需要这样的歌曲。

豆包的音乐生成功能简介是:「把你的想象力变成音乐。」

AI 让我们的想象力,更容易具象化了。AI 创作离专业作品还有距离,但每个人都能参与其中,以更丰富的方式表达自己的感情。

点击播放键,听到歌曲,不管那一瞬间是被打动了,还是被逗得笑出声了,内心被击中的微妙感觉,就是技术给予人性的糖果。

利若秋霜,辟除凶殃。 工作邮箱:zhangchengchen@ifanr.com

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


动动嘴就能干活,这 7 款 AI 工具成了我离不开的效率搭子|AI 有用功

By: 张成晨
7 August 2024 at 19:20


语音,是一个「甲之蜜糖,乙之砒霜」的媒介。被微信 60 秒语音轰炸过的朋友,最懂个中滋味。

你说语音输出快,我嫌听起来不方便。你觉得语音更有感情,我认为文字更一目了然。立场相对,对语音的态度也就不同。

好在,已经重塑了很多产品的 AI,终于也在语音工具上雕花了。或许会让你觉得,语音也没那么讨厌。

APPSO 选取了几款语音转文字的工具,根据 4 个不同的场景,分享具体的使用体验,不存在纯粹的推荐,过程中有种草也有踩雷。

除了处理他人的语音,我们也可以用这些工具,记录脑洞,提高效率,甚至在以前意想不到的场景,打开新世界的大门。

如果你觉得有什么好用的产品,也欢迎在评论区分享!

捕捉脑洞的灵感搭子

——闪念贝壳、Voicenotes

接收语音固然让人暴躁,输出语音却比打字来得迅速。也就是说,捕捉一闪而过的脑洞,语音是一种时间成本较低的方式。

但这里存在一个问题,语音记录的信息粗糙、不直观、不方便检索,说完之后,我们还要再进行整理。

app「闪念贝壳」(目前只有 iOS 版),考虑到了存在已久的痛点。

▲ 设计特别,开屏致敬了《星球大战》的千年隼号

你不用担心停顿、口语化或者逻辑混乱,直接开口说你的想法,AI 可以帮你自动整理内容,并添加标签,方便管理和查找。

生成文字之后,你还能通过预置的提示词,将内容一键改写成代办事项、小红书文案等各种风格,或者再和 AI 聊聊,完善你的想法。

我口述了编辑的工作日常,要求整理成待办事项,说话的时候是想到哪就说到哪,但 AI 能够按时间线整理。

当我以更随意的状态,输出一些小说、电影的评价,对比了录音可以发现,AI 帮我省去了一些「哎」「嗯」之类的语气词,无意义的「然后」也会被消除,说错的一个词重新说一遍之后,会保留下来正确的版本。

AI 干完了整理的活,然后我们就可以和它再聊聊,读后感最适合和什么都懂一点的 AI 交流。

不过,AI 转录后的文案可能出现错误,可以让 AI 重新整理,或者点击页面之后人工微调。

基础功能也没被忽略,闪念贝壳同时保留录音和文字,并可以导出录音,我们纠错也就更加方便。

有些遗憾的是,免费用户体验的「点数」有限,且录音无法超过 1 分钟,付费(19 元每月、149 元每年、198 元终身),才能不限制录音时间,继续使用 AI 功能。

海外的语音笔记应用 Voicenotes,和闪念贝壳的定位和功能比较像:保留录音、添加标签、人工改正转录错误、AI 改写文风、与 AI 交流想法,但界面设计更加极简。

▲「独家富人大象馆」,实为「杜莎夫人蜡像馆」

Voicenotes 国内可用,app 语言为英文,支持在设置里将我们的输入和转写语言改成简体中文。

同样,Voicenotes 需要订阅(68 元每月或者 328 元终身),才能实现 1 分钟以上的录音,用上 GPT-4o、Claude Opus 等更好的大模型。

用一句话吩咐的生活秘书

——Miley

脑洞、工作事项之外,我们的生活里还存在更日常、更轻量、一句话就能说完的场景,这时候可以试试 Miley AI,一款主打「记录+智能体」的个人记忆 AI,目前只有 iOS 版。

它很适合用来在不方便打字的路上随手一记,吃了什么,花了多少钱,有什么突然的灵感,或者接下来要做某件事情,让人类 NPC 的一天井井有条。

最有意思的地方在于,Miley 可以根据你输入的内容,智能分析各种类型的事项。

你提到开心的事情,AI 可以识别出你的情绪,并用对应的表情标记。你说午餐花了多少钱,AI 会帮你记账。你怕错过点外卖的时间,AI 可以设置横幅提醒。

甚至你想设立一个每日运动的小目标,也可以通过授权苹果健康数据,监督每天有没有完成。比如,告诉 AI 每天都要散步 2000 步,周末 citywalk 实现 17800 步,这一项便可以打上勾。

水灵灵地随口一说,我们就有了记账本、运动打卡、提醒事项……

AI 的好处便在这里,碎片化的内容,整理起来不像以前那么花时间了,甚至像我这样不喜欢做计划的懒人也愿意试试,如此日积月累,形成微型日记,内心还会产生成就感。

不过对于免费用户来说,语音识别和智能体分析额度有限,尤其智能体分析,很容易触顶,这时候就需要「钞能力」,每月 28 元或者每年 188 元订阅。

▲「选题会」这个词,AI 识别有错有对

更影响使用体验的是,语音识别的准确性不够高,虽然支持修改,但会影响我们使用的初衷——AI 应该省事,而非多事。

改变输出习惯的创作工具

——墨问便签

说到创作,我们的脑海中会浮现这样的场景:正襟危坐在电脑前,在键盘上敲敲打打,眼睛快粘在屏幕上……

更随意、更生活化的语音,是否能被用于更长篇幅的创作?如果你想知道自己能不能出口成章,墨问便签是个不错的开始。

墨问便签是一款微信小程序,它的 AI 语音功能,单条最长支持录制 10 分钟,目前免费。

▲ 长按底部「+」号召唤出语音功能

其中一个设计很有意思,墨问便签支持实时输出,你边说边能看到转录的文字,而不是只能看到录音时间。

但这个功能也可能是打扰我们输出的干扰项,虽然会不断地自我修正,但转录文字的准确性还有待提高。

输出完毕,按下停止键,AI 会对文字润色一番,包括分段、修改错别字、去掉因为嘴瓢重复的词等等,但 AI 也不能修改所有的错误,之后我们还可以进行手动修改。

最终,我们就整理好了一条保留语音的笔记,可以仅自己可见,也可以公开。

墨问便签将自己定位为「创作者工具」,打开小程序,先显现出来的是它的 slogan:记录即创作。

平时看着电脑屏幕发呆还不觉得有什么,但对着手机讲满 10 分钟,还是挺有挑战性的,不仅口干舌燥,还有搜索枯肠、无话可说的无力感。

提供轻量化体验的小程序,或许真能让思考成为一种习惯。

重度语音处理的效率助手

——飞书妙记、讯飞听见、通义听悟

以上的语音场景,大多数不是硬性需求,可以抱着玩的心态上手体验。

平时工作遇到必须要用语音的时候,飞书妙记是我的首选。无他,习惯了,「先进团队,先用飞书」,企业账号真香。

几十分钟甚至几个小时的线下发布会、采访,我都是掏出手机,用飞书 app 里的「飞书妙记」录音,然后在飞书网页端处理音频,导出带有时间戳的文字记录。

这样一来,哪里的文字记录可能有问题,就可以精准定位到音频的对应位置,自己边听边修正。

飞书妙记也支持上传本地的音视频文件,如果网不好,可以用手机自带的录音工具记录,再交给飞书妙记处理。越基础的需求,越解决得好,使用体验就越丝滑。

飞书之前,我常用的是讯飞听见,飞书有的导入音频、区分说话人、倍速播放、搜索关键词等功能,它也有。

不过,讯飞听见虽然录音免费,但核心服务收费:将音频转成文字导出,需要购买录音转写包(连续包月 18 元)或者畅享包(连续包月 79 元)。

讯飞听见现在还有 AI 的加成,支持章节速览和问一问。我让聊天机器人「小谛」总结关于「冥想」的 40 分钟采访,重点抓得挺有条理,对于写文章有些帮助。但 AI 功能也并非免费,包含在录音转写包和畅享包里。

如果说飞书妙记用于线下、基于手机,那么通义听悟就补全了线上的场景。

通义听悟有网页、浏览器插件、微信小程序,更加「即用即走」,每天登录自动领取 10 小时的转写时长,基本相当于免费使用。

通义听悟也支持本地音视频的转文字,可以区分发言人、提供翻译,但我用得更多的,是实时语音转文字的功能。

在网页端,将标签页分享给通义听悟,我们开会、看视频、追发布会,就能拥有一个实时记录、提供字幕的搭子。

如果涉及外语,通义听悟还支持实时双语字幕,先选择音视频语言,再选择翻译语言,然后开启实时记录即可。

▲ 上为通义听悟,下为基于 CC 字幕的双语翻译

但通义听悟的翻译速度有延迟,翻译结果也会根据原文的变化而变动,这很正常,英语句子较长、定语较多,一句话说完才能知道意思,哪怕有字幕,有时候仍然一头雾水。

▲ 通义听悟实时调整翻译结果

所以在我的实际体验中,对于实时字幕,通义听悟在中文发布会的表现比英文发布会要好,像雷军这样略微不标准的普通话,很适合交给通义听悟处理。

结束共享之后,通义听悟可以提供转写原文,并智能总结内容和提取重点,很适合作为写稿材料。

讯飞听见有「小谛」,通义听悟也有「小悟」,你可以基于文字记录,向它提出相关的问题,点击回答中的时间戳,还可以定位到原文内容。

但还是会出现语音识别的老问题:说不对名字。Kimi 变成了「km」,秘塔变成了「蜜塔」,靠用户自己分辨和修正。

语音转文字,等待 AI 重做一遍

语音转文字,某种程度上是一项刚需。

聊天消息的转写,采访、会议、发布会的跟进,脑洞、生活碎片的记录,我们都可以用到它。

本质上,这些更强调 AI 存在感的新兴语音转文字产品,其实都在主打更智能、深入的内容处理,包括文字转写润色、按标签和类型整理内容、通过对话的方式查找和拓展内容等。

与此同时,仍有很多不尽如人意的地方。

  • 语音转文字的准确率仍然需要提高,保留录音和支持手动编辑又勉强弥补了这个问题。
  • 功能有创意,但不够完善,甚至成为阻碍记录的干扰项。
  • 收费门槛很低,少量尝鲜后就需要订阅了,但这也不能怪开发者,谁都想站着赚钱。

独立开发者们在语音转文字的赛道竞争,前景如何也并不明朗。

锤子手机 2017 年推出的闪念胶囊,是很多人心中的「白月光」。

长按 Home 键,或者耳机线控的中间按键,就能开始语音输入,记录你一闪而过的想法,文字和录音都会保存下来,你还能再编辑文本。

记录下的「胶囊」,可以拖拽到便签、插入微信输入框、变成待办事项……

这样基于系统的功能,唤起和使用步骤更少,也更符合我们的直觉,不把记录搞复杂化,才能真正地提高效率。

所以,虽然现在产品井喷,未来可能还是由操作系统厂商一锤定音,出现 Apple Intelligence 这样的、系统级的收编和降维打击。

之前看到一句调侃,国内的主流操作系统不是 iOS 也不是 Android,而是微信。

这话有些道理,像我一位做播客的同事,习惯在路上记录灵感,试过很多语音转文字的工具,最终大道至简,给文件传输助手发语音,再转文字。

高端的食材,往往只需要最简单的烹饪方式。想法本身的奔涌最为可贵,有些时候,不需要什么辅助的 AI 功能,我们只是想要快速把事情记录下来,能够一键完成终极目标的、最习以为常的方式,往往才是效率最高的手段。

利若秋霜,辟除凶殃。 工作邮箱:zhangchengchen@ifanr.com

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


为了和 AI 唱反调,Instagram 上演了一场 1200 人的行为艺术

By: 张成晨
5 August 2024 at 22:37

摄影师 Miles Astray 决定玩一个诡计:在 AI 主题大赛中,提交一张实拍的照片。

拍摄地点在阿鲁巴岛,定格的画面里,这只火烈鸟弯下脖子,用喙挠自己的肚子,似乎没有头,看起来像很多 AI 图片一样,有些不真实。

最终,这张照片获得了评审团奖和大众投票奖,在 Miles Astray 主动坦白后被取消资格。

这场行为艺术宣告完成,证明人类创作并未被 AI 打败。这位摄影师在 Instagram 写下:「大自然和诠释她的人类仍然可以胜过机器。」

还有更多像 Miles Astray 这样老派而固执的人,在 AI 登堂入室的时候,呼唤人类创作的荣光。

1200 名艺术家接力,画一个与 AI 无关的作品

当 AI 可以几秒生成文字、图片乃至视频,人人都可以「创作」艺术,那些一笔一画古法手作的人类作品,又该怎样区分自己?

美国自由插画家 Beth Spencer,想出了一个笨办法。某天在摸鱼时,她拿起 iPad,花 5 分钟画了一个标志。

和很多平滑的 AI 绘画不同,它的笔触简单,画风稚拙,但很有生命力,像是儿童绘本里的图案,上面用英文写着:「用人类智能创造。」

▲ 图片来自:Instagram@bethspencerart

然后,她把这个标志分享到了博客,大家可以免费下载,用在自己的网站、帖子、作品集,从而告知访客,这些创作和 AI 无关。

Beth Spencer 原以为有两三个人响应已经不错,结果在发布的第一天,就有 50 名左右的艺术家和作家表示,很愿意用上这个标志。

她意识到,自己大概戳中了未被言说的共鸣,于是「一不做二不休」,把这个标志发布在了 Instagram,欢迎更多艺术家用自己的风格和各种工具重新绘制。当然,AI 被排除在外。

一场有趣的、充满人味的接力开始了。从 6 月到现在,来自世界各地的近 1200 名艺术家参与其中,各显神通。

英国设计师 Poppy Prudden,用手绘纸和彩色铅笔制作了一幅拼贴画,并把它放在自己伏案工作的桌子上。

▲ 图片来自:Instagram@poppyprudden

哥伦比亚黏土动画艺术家 Mateo Montoya,花了大约 2 天的时间,完成了一个类似《小羊肖恩》画风的作品,得到了 1.8 万的点赞。

握着红色铅笔的手,由一种叫作冷瓷的黏土制作,再用丙烯酸涂料覆盖。手臂的外套和衬衫袖子如肉眼所见,就是用布料做的。

▲ 图片来自:Instagram@clayman_illustration

发布作品时,这位艺术家用西班牙语写道:「我曾经在一家面包店读到过一句标语,用心的东西是用双手制作的。」

布鲁克林艺术家、作家兼教师 Samantha Dion Baker,则用铅笔、墨水和水彩作画,她相信,手绘线条激发出的情感,无法被轻易复制。

▲ 图片来自:Instagram@sdionbakerdesign、thornockstudios

除了手绘,也有艺术家以数字化的方式表达自我。美国自由插画家、插画学教授 Christopher Thornock,在 iPad 上用 Procreate 和自定义笔刷,绘制出了铅笔画的感觉。

Instagram 的话题「#hibadge2024」下,还有更多这样的作品。墨水、蜡笔、彩铅、水彩、黏土、拼贴画、数字绘画,都成了艺术家们挥洒创意的工具。

作品本身固然赏心悦目,更重要的是它们所传达的观念。

所谓「文以载道」,自古以来,艺术不仅是用来欣赏的,也是用来交流和表达观念的。当 AI 平等地带来焦虑,艺术家们自觉更应该团结起来,证明自己尚且不可替代。

读者们或许会疑惑,这群艺术家是顽固的守旧派吗?就像卢德运动里那些破坏自动纺织机的失业手摇织工一样?

发起接力的 Beth Spencer,并非全然地反对 AI,也许以后还会用 AI 创作,但至少现在,AI 生成的图片,没有给她留下什么好印象。

它们都有点油腻,就像浸在油里一样,人们会厌倦看到光亮的图像。

AI 的进步一日千里,超越人类并非不可能。与其说,目前人类创作的文字、音乐、视频比 AI 更有价值,不如说,这群艺术家无论如何都不想被剥夺创作的感觉。

越可能失去的,越需要被强调和看见。

AI 也应该被引用,而不是被理所当然地借用

为你非 AI 的原创内容,贴上个贴纸吧。

在 Beth Spencer 之前,一个类似的活动已经在 2023 年初发起——「Not By AI」。

▲ 超过 28 万的网页正使用着 Not By AI 贴纸

不管是网站、视频、书籍还是艺术创作,对于非商业用途的作品,只要人类原创内容达到 90%,就可以免费使用这个电子贴纸。如果是商用的,也可以注册并付费使用。

剩下的 10% 是什么?可以是用 AI 翻译、找灵感、修正语法错误、进行搜索引擎优化等等。所以,Not By AI 也不是否认 AI,而是以人为本、以 AI 为辅。

Not By AI 是为鼓励人们持续产出原创内容,且让这些原创内容能被注目而产生。

至于是否符合 90% 原创的要求,「Not By AI」会对付费用户进行人工验证,之后还可能使用检测工具,但负主要责任的、向读者做出承诺的,是内容创作者自己。

为了以身示范原创精神,「Not By AI」声明,他们所有的设计都是设计师用 Figma、Sketch 和 Photoshop 制作的,并且没有用到其中的 AI 生成填充功能。

▲ 使用 Not By AI 的示意图

其实很多时候,不存在一个从头到脚的人类原创作品或者 AI 生成作品,我们使用 AI 的比例,可能是 20%、30%。

毕竟,我们没有必要倒行逆施,把 AI 隔绝在外。但这也导致了创作边界的模糊:哪些是我们的?哪些是 AI 生成的?

为此,老牌 Markdown 写作软件 iA,提出了一个另辟蹊径的想法。

去年 11 月,iA 在 Writer 7 版本推出了一个新功能——标记用户复制到文档里的 AI 生成文本,AI 也可以是作者。

AI 生成的文本是灰色的,你自己写的文字是黑色的,如果你微调了 AI 文本,那么重写的部分也会是黑色的,彼此用颜色分出了楚河汉界。

使用这个功能不难,同时复制提示词和回答,iA 就能自动将 AI 生成的内容标记为灰色,但我们也可以手动操作。iA 很佛系,「对自己有多诚实取决于你自己」。

这个功能看似简单,却很有意义。人和 AI 合作,已经是 AIGC 时代的主旋律,但这不代表,我们可以理直气壮地把 AI 生成的内容视为自己的创作。

▲ 左:微调前,右:微调后

应该像 iA 说的,「认识到什么是借来的」,而不是像孔乙己那样辩白,「读书人的事能算偷么」。

本质上,Not By AI 和 iA,都在提醒我们一件事:怎么和 AI 一起负责任地创作。

创作是一个人类思考的过程,AI 不是我们的代笔,AI 的创作不等于我们的创作,AI 不应该全权接管我们的职责。

标记 AI 的劳动成果也好,控制 AI 的使用边界也罢,都是在尊重我们自己。

创作本身就是自由的

区分 AI 生成内容和人类创作,更主流的办法,其实是各种防止作弊的 AI 检测器,或者标记 AI 生成内容的水印,但它们不一定靠得住。

从 5 月开始,Meta 会自动给 Facebook、Instagram 和 Threads 等社交 app 的一些图片打上「AI 制造」(Made with AI)的标签。

结果,6 月就闹出一个乌龙,印度板球超级联赛的真实照片被标记为「AI 制造」。

AI 是个广义的词汇,使用 AI 是个包罗万象的概念。前白宫摄影师 Pete Souza 的作品也被「误伤」。他怀疑,自己使用 Adobe 工具编辑了照片,才触发了 Meta 的算法。

Meta 没有解释出错的原因,但表示会改进方法,让标签更好地反映图片中 AI 的使用量。

与此同时,AI 生成的内容占比越来越大,并越来越接近人类的水平。

AI 生成的小红书营销文案、AI 味的地铁广告和软件开屏、满地乱窜的微博评论机器人…… 甚至有人预测,2025 年,90% 的互联网内容将由 AI 生成。

Midjourney 最近更新了 v6.1 版本,更快、更清晰、更美观,更接近摄影。

既然边界越来越模糊,未来,区分 AI 和人类创作还有必要吗?

Beth Spencer 的答案比较唯心:「没有任何软件经历过我们创作艺术的挣扎和喜悦。」字里行间,有些「赋到沧桑句便工」的意味。

面对技术的侵袭,人们总是希望保留完成更加困难的事情的权利,哪怕效率比不过 AI。

就像一个流行的互联网梗图里写着:我想让 AI 帮我干家务,这样我就有更多时间玩艺术和写作了,而不是反过来。

《连线》杂志写过一篇文章,说明自己的生成式 AI 使用原则。其中一条是,不发布带有 AI 生成文本的故事。

不仅是因为 AI 无聊、容易出错、产生偏见或者无意抄袭他人的文字,更是因为,以写作为生的人,有责任不断思考,怎么用自己的语言表达复杂的想法。

历史上也有一个人物,将创作本身摆在至高无上的位置。鲁迅曾说,曹丕的时代是「文学的自觉时代」,因为他提出,诗赋不必寓教训。

意思是,文章不必总是讲道理,而是更追求审美,为艺术而艺术,几乎就和儒家的「立言」​唱反调了。这有些像摄影发展起来后,除了模仿自然,艺术也可以更加抽象,艺术家独特的个人表现力被凸显出来。

至此,我们也就可以更明白,为什么艺术家们如此强调「人类创作」。

用自己的笔墨写文章、画画,为创造而创造,就是一种我手写我心的自觉和自由。这和学习 AI 并不相悖,甚至广义地说,学习提示词生成更好的结果,也是创造。

站在今时今日,我们仍然更容易被人类的作品打动,也容易体会到他们创作的真心,以及对美更苛刻的追求。

也许很多年后,AI 和人类创作的界限终将消失,我们只从美本身去评价两者创作的好坏,尔曹身与名俱灭,不废江河万古流,美本身不朽。

利若秋霜,辟除凶殃。 工作邮箱:zhangchengchen@ifanr.com

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


体验完小红书、抖音、B 站的 AI 搜索,我发现跟着 AI 吃喝玩乐也不会更省心

By: 张成晨
29 July 2024 at 21:52

「遇事不决小红书」,吃喝玩乐、办证流程之类的问题,是小红书图文帖子的强项。近两年,小红书成为了越来越多网友的「生活搜索入口」。

同时, Perplexity 等 AI 搜索也蓬勃发展起来,我们在对话框输入问题,就能快速获取答案,以及相关的引用来源,主打一个省心又省事。

如果小红书结合 AI 搜索,我们会得到一本更聪明的生活百科全书吗?

小红书内置的「搜搜薯」和「达芬奇」,可以给我们答案。

接地气的 AI 搜索,但还不够聪明

小红书在 AI 方面的动作比较低调,基本靠用户自己的慧眼发觉。

还处于内测阶段的「搜搜薯」,在搜索框输入问题后随机出现。

搜索「港澳通行证广州办理流程」,搜搜薯会在页面顶部给出一个总结性的回答,并引用相关的帖子,点击角标跳转到帖子本身,相关内容还会暂时凸出显示。

总结回答的下面,仍然可以像以前一样,由我们亲自看帖子。

但不是所有问题都会召唤出搜搜薯,我尝试搜索「怎么买飞机票最便宜」「照片回执怎么弄」,结果没有触发。

再覆盖得全面一些,或许我的搜索习惯也就能改变了。

比起玄学的搜搜薯,小红书的聊天机器人达芬奇 AI 就靠谱得多,事事有回音,有意经营接地气的人设,自称是「掌管小红书笔记的神」。

虽然和文艺复兴时期的大画家同名,但达芬奇目前不具备生成图片的功能,就想和你当笔友。

你有什么问题,搜索到「达芬奇」账号,给它「发消息」就可以,达芬奇会搜索站内数据并直接生成答案,末尾推荐三篇左右的相关帖子,并给出你可能会追问的问题。

让它推荐广州 citywalk 路线就是一个例子,相关的帖子点击后可以丝滑跳转,节省了我们自己找帖子的功夫。

最近,小红书很多帖子把吐鲁番称为「祛湿天堂」,尤其吸引一生被说湿气重的南方人。不妨也来问问达芬奇:吐鲁番沙疗流程是怎样的?

达芬奇给的回答,可以看出至少化用了两篇小红书帖子,但沙疗什么时候埋、一次埋多久,彼此有细微的出入,让人不敢照着做。

▲ 左,达芬奇答案;中和右,两篇小红书帖子

这就是个人生活经验和 AI 幻觉叠加的双重风险了,小红书的很多内容,不是纯粹的知识,也不是完全客观的信息,往往因人而异,需要个人谨慎判断。

互联网的流行文化几乎一周一更,问到 6 月的老梗「city 不 city」,达芬奇回答得还不错,甚至给了你一段传播学分析,同时用了大量 emoji,不愧是小红书培养的 AI。

不过,问到外国游客的「新手村」是什么意思,达芬奇就有点呆了。这个语境下的「新手村」,其实是北京、上海等更发达的大城市,达芬奇升华成,生活是一款游戏,人人都是玩家。偏题,但格局够大。

体验过程中也可以发现,达芬奇的即时性比较差,在 7 月 26 日问它下个节假日是什么时候,达芬奇回答了端午节,可能和它选择引用的帖子发布时间在 5 月甚至更早有关。

但如果规定了时间,又能找到日期符合要求的帖子和内容。

Kimi 等大模型都有小红书文案写作的功能,小红书自己的 AI 来写,结果会怎么样?

结果还是形似神不似,一口一个宝子,一段两个 emoji,但读下来没有被种草的感觉,有种 i 人强装成 e 人的别扭。

目前来说,从搜搜薯到达芬奇,AI 更多起到总结、引路的作用,不能代替帖子本身,偶尔会出小问题,但交流起来挺接地气,懂幽默,比较符合小红书的风格。保持观望和鼓励,再给它们一点成长的时间。

用 AI 做计划,还是不能偷懒

小红书有生活百科之称,是因为很多博主会用「保姆级教程」图文并茂解释一个问题,比如教你退税是从下载哪个 app 开始,然后每一步都打上标注和解读。

但旅游计划仍然需要亲力亲为,毕竟没有标准答案。小红书的帖子只能拿来参考,还要小心「照骗」。如果有 AI 能根据我们的需求,直接告诉我们怎么做,那就太节省时间和精力了。

说到旅游,最近有一款很火的 AI 旅游产品:Wanderboat,胜在图文并茂、信息丰富、个性定制,人称 AI 版小红书、马蜂窝的结合体。

难道风水轮流转,小红书取代了旅游杂志和网站,又要被 AI 后起之秀取代?不如就让 Wanderboat 和达芬奇来个同题竞赛,以一次生成的答案为准。

我输入的提示词如下:「从广州出发,去广西旅游,四天三夜,桂林市区、龙脊梯田、阳朔这三个地方必去,请给我一个旅游指南,包括景点、住宿、饮食和交通方式。」

Wanderboat 先帮我生成了一个粗糙的方案,参考了携程、马蜂窝等三个链接,看起来没什么问题,于是一键生成完整的旅游计划。

AI 生成的页面很直观,按时间线排列,罗列出了景点视频、照片、要点和注意事项。

每个景点都可以让用户微调时间,同时查看地图上的所在位置和附近的其他景点,总之让你不走冤枉路,又避免留下遗憾。

一旁还有「Ask AI」功能,你对某个景点感兴趣,就可以问 AI,这个景点有什么故事,哪里方便停车,附近有没有推荐的餐厅。我问了日月双塔文化公园附近可以吃些什么,AI 帮我找了家海底捞,怎么不算是美食呢?

点开景点,可以进一步查看详情,包括地址、营业时间、拍照地点等信息,甚至还能跳转到订票网站,有帮你一站式解决问题的意识。

虽然交互愉悦,但这个计划并不符合我的要求。最大的问题是,AI 一直围绕桂林市区打转,没有提及龙脊梯田和阳朔。其次,虽然有餐饮安排,但没有提供住宿和交通信息。细节打磨得再好,出发点错了也就没有用处。

再看达芬奇,给出的指南高度概括,更像一个大纲。景点、住宿、饮食、交通等重点都在其中,且推荐的三个帖子也比较精准,标题里就有「四天三夜」,方便我做参考。

但大纲还需要细化,于是我追问,有没有桂林市区的住宿推荐,这时候就出现了问题,美团一查,有的酒店价位上千。我的经济水平被 AI 高估了,不敢和小红书网友平起平坐。

没说明白,是我的问题。我再让 AI 推荐 400 元以下的,价位合理了,但 AI 把「雅斯特」说成了「维斯特」。转念一想,有时间验证 AI 的答案,我为什么不直接去美团找?

接下来再问交通,怎么从桂林市区到龙脊梯田,大巴需不需要提前预定,AI 有对小红书帖子照搬照抄的嫌疑,措辞基本一模一样,而且这篇帖子是 2022 年的,不够新,参考意义不大。

▲ 左:达芬奇;右:小红书帖子

达芬奇的多轮交流能力还算不错,但体验下来可以发现,AI 只适合生成大纲,提供大方向的建议,无法代为执行脑力劳动,我们还是要追问,逼着 AI 挤牙膏。

不管是 Wanderboat 还是达芬奇,验证和补充信息都是免不了的,不存在一步到位、提起背包说走就走的潇洒。

更打动我的、我也更需要的,仍然是亲身实践之后可复制的个体经验,这和小红书常被批评的「出片至上」是两回事,出片再浮夸和没意义,它也是可以执行的指南。

app 内的搜索正在 AI 升级,可用却不好用

不只是小红书,一些国内的娱乐、知识类 app,也在优化内部的搜索。

它们都有些低调,也有些傲娇,躲在角落不让你发现,又担心你不发现。

微信读书的「AI 问书」,在搜索框输入问题后才会出现。默认情况下,微信读书按照关键词给你推书;点击「AI 问书」,AI 就会直接解答你的问题。

▲ 左:默认结果;右:AI 问书

AI 以站内书籍为信源,还会建议你追问哪些问题。点击引用源,我们可以直接跳转到具体的某一页。

功能是实用的,但不确定 AI 引用书籍的逻辑。高情商地说,AI 旁征博引的能力很强。低情商地说,这些书看起来都很小众。

小红书、微信读书至少明确基于站内内容,但抖音的「AI 搜」有点让人摸不着头脑,参考来源是全网,主要起到一个总结的作用,倒不如在 app 内直接搜短视频来得直观。

▲ 左:默认搜索,中和右:AI 搜

B 站的搜索 AI 助手也犹抱琵琶半遮面,需要点击搜索框旁边的「AI 小电视」召唤出来。

搜索宠物 UP 主「Q 大壮呀」,AI 强行解释,这可能是一个叫大壮的人的 QQ 昵称,但参考的链接里,确实又提到了这个 UP 主,往下拉,账号名字和相关视频也都是对的。很想问问阅卷老师,这怎么打分。

再来个 B 站应该擅长的问题——「推荐热血体育番」,AI 给出了简单回答加引用来源,下滑是相关视频,和直接搜索区别不大,我还是有必要打开 UP 主的视频看看。

▲ 左:直接搜索,右:AI 搜索

对于内部的 AI 搜索尝试,这些 app 给出的措辞普遍很谨慎:内测、还在学习成长、内容仅供参考、希望得到你的反馈……

▲ 小红书搜搜薯

▲ B 站搜索 AI 助手

总体来看,它们或多或少可以节省一点检索有效内容的时间,简单解答加推荐信源,但不那么聪明,不至于颠覆使用体验,并且有擅长和不擅长的领域。

Web 1.0 时代,我们通过浏览器访问不同的网站满足信息需求。但在移动互联网时代,传统的搜索引擎变得广告多、不精准,内容被分隔在各种 app 里,信息获取更加垂直和个性化。

小红书、抖音、微博等等,无法真正代替搜索,但一定程度上满足了与日常生活场景相关联的搜索需要。我已经数不清,在小红书查找过几次洗衣机清洁之类的「小白」问题了。

所以,引入生成式 AI,更加高效地使用站内内容,其实很顺其自然。

秘塔等 AI 搜索固然也能总结和引用不同信源,覆盖到播客、学术、文库,但也没能打到 app 内部。app 们的用户,仍在不断贡献新的垂直内容,app 本身,是一个活水涌流的、无边无际的内容平台。

但 app 们所表现出的谨慎和纠结,也说明 AI 存在问题,小到信息错误,大到减少用户打开内容的动机和使用时长、破坏社区「普通人连接普通人」的活人生态。

内容获取的高效性,博主产出内容的动力,用户之间的交流和摩擦,彼此其实存在矛盾。

幸也不幸,目前 app 内的 AI 搜索只是能用,而非好用。就拿小红书的达芬奇来说,总结全是文字,少了点情绪,缺少真实感和互动感,让我必须去另行查证。

但在未来,AI 是引流,还是替代用户的内容,社区是提供真人的个人经验,还是精准的唯一解,小红书、抖音、B 站们或许需要认真考虑。

利若秋霜,辟除凶殃。 工作邮箱:zhangchengchen@ifanr.com

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


被讨薪人群弄倒的亲子自行车

By: Steven
3 July 2023 at 22:47

昨天下午,朋友发了张照片给我。画面里是我常去的那个咖啡馆所在的大楼,外面熙熙攘攘地挤满了人,一群来讨薪、维权的苦命人。

晚上从舞蹈室回到家里,我想起这事,就跟咖啡店的老板聊了几句。整个店被人群围得水泄不通,他也很无奈。他在现场发了晚上的照片给我看,从画面里可以感受到,无论是他、咖啡师、人群都很无奈。

直到今天回公司,中午吃饭路过,我才意识到,原来被波及的不只是他们。这其中,也包括我。

我有每次停车都拍照记录的习惯

这是我周五停自行车的位置。我工作日都会把车停在他们店门口,周五停在这里之后,周末两天车都在这里静静待着,直到我周一晚上来骑它回宿舍。今天中午我找不到它了。

它没在周五照片里的这个位置。

我在附近来回走了三遍,非常疑惑:不可能有人偷这辆车吧?图啥啊?直到我想起昨天的事情,于是扩大了搜索范围。终于在不远处一堆电动车包围的地上,看到了我倒下的单车。

它身上被缠了一条警戒线,篮子里有两支空水瓶,半残的车铃也完全断了。

我突然想到昨晚 DY(店老板)给我的照片,心想没准能看到我的单车是如何参与了昨夜的事件。果然,作为一辆单车,在人群聚集的场合中,往往被作为隔离带使用:

我多少有一点点生气:何故迁怒于我的无辜小车?

但气不过三秒,又觉得很好笑:自行车在全世界范围内都是这样的命运吧?不是被人骑,就是当作围栏,或者焚烧和打砸的对象。起码,这群苦命人没有把我的车高高举起,砸个稀巴烂。它只是掉了链子,躺在地上;和前一个周末一样,被人推倒了,躺在地上。区别是,上一次脚架变形了,这一次没有。

一夜之后,随着一场大雨,除了两张照片和我躺在地上的车,还有什么能证明这一切发生过吗?

咖啡师杠杠上午发来一张照片,是店外的装饰植物,一棵全身金属但被许多人挤变形、掉光了叶子的假植物。我说,幸好它是假的,真植物肯定早就断气了。

她说他们走了之后,玻璃上全是人的指纹。但这些曾经发生过的证据,早已被她和小蒙擦干净了。开门做生意要保持整洁,但指纹的存在不利于社会经济。

这是一件「小事」,不被传播的事,但它不会被忘记。

一系列变化的传导还会持续一段时间,倍受影响的不会只有当事人,还有每一个「与此无关」的路人、小车、植物和玻璃。此时有一点点庆幸作为非真社会性动物的人类,可以选择一定程度的远离,而不是真社会性动物的蚂蚁那样,只有全或零。

众生皆苦,何时闻道?

AI 在餐饮界也卷出了「萝卜快跑」,打饭比食堂阿姨手稳,炒菜接近大厨

By: 张成晨
26 July 2024 at 13:38

背景设定在 2035 年的《我,机器人》里,NS-5 机器人手起刀落,切菜速度像开了两倍速,快过练习时长 30 年的老师傅。

虽然威尔·史密斯一脸嫌弃,但我脑海浮现的是电影中机器人公司的广告词:「女士们先生们,它将成为您家庭和工作中的绝佳伙伴,赶快行动,机不可失……」

现实比科幻发展得缓慢,2024 年了,大多数人还没吃上一口机器人做的饭。

不过,也有一些机器人,已经在你看不见的地方上岗,以另一种方式征服你的胃。

2 年打出 2000 万份菜,AI 的手比食堂阿姨稳

威尔·史密斯面对的是上千机器人方阵,进入 Chef Robotics 的工厂,你看见的是一套由 AI 驱动的机械臂系统。

这是一家总部位于旧金山的初创公司,盯准了一个小众场景:工业厨房,为超市货架、航空餐饮等大规模生产即食、冷冻食品的地方。

机器人不是做饭,而是「打饭」,有些类似后厨的切配工,根据菜谱预制各种冷冻食品,照顾国际口味,从印度咖喱鸡块,到意大利香蒜酱饺子。

它们不眠不休,天天准时上班,既节省了人力,也可以减少浪费,因为掌控分量比人类更精准,不会像食堂阿姨那样手抖。

比起传统的机器人,它们又更加姿态灵活。各种类型的食物,主食、蔬菜、肉类、酱汁,块状、丝状、流体状,都可以夹起来。

遇到不同形状的容器、不同速度的传送带,机器人总会让食物落到正确的地方。

分量不一的食物,机器人照样可以对症下药,用不同的工具抓取大份和小份。

什么,难道之前不是用机器人包装的吗?

并不,这行也是劳动密集型的,传统的机器人更适合罐头等单一食品的大规模生产,人类比机器人灵活多了,可以适应不同食谱的生产线,而且某些难搞的食材,如米饭或碎奶酪,过去很难用机器人操作。

工人们待在冷藏室里,连续几个小时舀豌豆、土豆或米饭,工作内容很枯燥,让人想起卓别林在《摩登时代》里拧螺丝的经典场面。

正因如此,Chef Robotics 创始人兼首席执行官 Rajat Bhageria 觉得,机器人在这个领域仍然大有可为,关键是能不能做到一点:让机器人像人类一样,给各种类型的食材装盘。

但这是一道「先有鸡还是先有蛋」的难题。

ChatGPT 等大语言模型从互联网学习数据,但食品行业并没有很多现成的训练数据,食物的情况又很复杂,可能会变形、黏腻、潮湿…… 所以,为了生成有用的训练数据,必须在现实里部署机器人。

Chef Robotic 的系统经过了数万小时生产数据的预训练,然后在工厂上岗,安上摄像头和传感器,其实就是在继续训练,同时它们会和人类协作,不是一开始就完全自动化。获取的数据越多,AI 越进步,机器人也越来越自主。

在过去的两年里,Chef Robotic 生产了 2000 万份菜肴,在美国和加拿大的六个城市部署了机器人,并学会了如何操作数百种食材。

大语言模型预测句子中最有可能的下一个单词,而 Chef Robotic 的模型,知道机器人接下来该采取哪个动作。

Chef Robotic 不直接出售机器,而是出售服务,走机器人即服务 (RaaS) 模式。

北美即食餐饮品牌 Amy’s Kitchen 是其中一个客户,一个 Chef Robotic 系统可以完成两到四名工人的工作,上下的浮动,具体取决于是什么食材。

机器人把人的活给干了,那人负责干什么?

目前来看,人类还是要在触摸屏上输入生产的食物名称,帮机器人连接好要用的器具,甚至在生产线上和机器人协作,各装各的菜。

至于未来,Amy’s Kitchen 提出一个设想:人类管理和维护机器人就好了,比如在机器人忙着分装的时候,保证食材充足。

但听着,只是给机器人打下手换了个高大上的说法。

机器人加快效率,人类在角落辅助机器

AI 最强大的影响将以具身智能的形式发生在物理世界,物理世界占 GDP 的 90%。

Chef Robotics 创始人兼首席执行官 Rajat Bhageria 如是说。

当 AI 生成文案、图片、视频屡见报端,让格子间打工人战战兢兢,线下的变化虽然更为低调,却也持续不断地发生,百度旗下的无人驾驶车「萝卜快跑」就是一个例子。

其实,餐饮机器人从来不是新鲜事,但隔三差五总会有新的动态,存在感更强的,是比 Chef Robotic 离餐馆更近、直接做饭给顾客吃的机器人。

轻食品牌 Sweetgreen,2023 年 5 月推出了沙拉制作机器人。

五颜六色的食材放置在管道里,机器人控制好份量,将羽衣甘蓝、奶酪等食材放到传送带上的碗中,并进行搅拌和混合。

看起来不高的技术含量,Sweetgreen 其实花了多年的时间研究。比如,山羊奶酪容易结块,樱桃番茄容易被压扁,让机器人对这些食材「得心应手」,费了一番功夫。

和 Chef Robotic 的情况类似,Sweetgreen 的人类员工也不能闲着。

他们全天盯着屏幕准备补充食材,把做好的沙拉送给顾客,有时候负责收尾,往沙拉上添加香草、牛油果等机器人还没法操作的食材。上完一天班,还要清洁机器人系统。

Sweetgreen 说得很好听,午餐高峰期,只需要一到两个人类员工和机器人一起制作沙拉,而传统流程需要七到九个人。机器人 5 分钟不到就能制作一碗沙拉,人类员工处理一份订单却需要 15 分钟。

除了节省时间和人力,机器人还能避免忙中出错、混淆订单,保持份量的精确和统一。这话很耳熟,Chef Robotic 也是这么讲的。

但真的降本增效了吗?Sweetgreen 拒绝对外透露机器的制造成本,到了 2024 年初,只开出了两家自动化餐厅,并且选址都在郊区,需求并没有那么大。因为不确定自动化能带来多少利润,摩根士丹利分析师也保持谨慎观望。

类似地,休闲快餐品牌 Chipotle 从 2022 年开始,试点制作玉米片的机器人 Chippy,减轻员工的负担。按下葫芦又起瓢,Chipotle 发现,Chippy 并没有想象中好用,因为清洁起来太麻烦了。

但 Chipotle 并没有放弃,也许是派的活不对,太为难机器人。2023 年,他们又开始试验切开牛油果并去皮、去核的机器人 Autocado,更方便人工制作牛油果酱。

简而言之,在目前这个阶段,后厨也好,前台也罢,有了机器人,人类仍然在打工,围绕机器人力不可及的部分,更换了工作内容。

2017 年烈火烹油的无人零售,只是概念性的无人,那些原来负责收银的店员,转而负责机器暂时无法操作的业务,比如现制食物、补充货架。

如今,这样的故事依然没有什么本质的改变。

机器人还在复刻人类的初级阶段,但标准化即是力量

冷冰冰的「白人饭」,机器人已经在做了,强调「锅气」的中国菜,机器人也在挑战了。

斯坦福大学的 ALOHA 机器人,今年 1 月惊艳亮相,可以做出滑蛋虾仁、干贝烧鸡、蚝油生菜等菜肴。

别急着高兴,ALOHA 的能力分为两部分,一种是能够自主完成的,一种是需要人类远程操作完成的。炒滑蛋虾仁之类的复杂任务,就属于后一种。ALOHA 可以模仿学习,但还远远不能到达你点什么它都给做的境界。

英伟达高级科学家 Jim Fan 也发过推文解释,ALOHA 仍然有人类远程控制,并非独立自主,应该将它看成一款精良的跑车,高超的赛车技巧还是要看人类。

一方水土养一方机器人,国内当然也有专攻炒菜机器人的公司,其中有代表性的是 AI 炒菜机器人公司橡鹿科技,最近再获京东近 2 亿元战略投资。

▲ 图片来自:见水印

他们的炒菜机器人「美膳狮」,服务门店超千家,涵盖八大菜系超 800 道食谱,打出「真爆炒、锅气足」「接近专业厨师炒制」的口号,相对更加自动化。人类把食材放到相应的位置之后,接着美膳狮可以自己投菜、投料、控温、炒菜甚至洗锅。

人类还是要发挥一点作用的,更重要的是,美膳狮想做的也不是超越大厨,而是复刻大厨,推进中餐标准化,加快连锁店铺扩张,尽管支持菜谱微调辣度、酸度、熟度等,做的本质还是标准化的事情。

这就很有意思了,在做饭这个博大精深的领域,我们离完全自主的机器人厨师还很远。

但论标准化,从打菜到炒菜,很多环节都有公司在参与了,机器人不手抖、不喊累、不浪费、水平稳定,人类要么被挤占位置,要么被派到新的岗位辅助机器人。

人类的智慧和老祖宗的技艺还没有完全被征服,可标准化已经足够解决市场的大部分需求。

一个代表性的前例是寿司机器人。

1981 年,日本公司 Suzumo Machinery 发明了世界上第一款寿司机器人,用途就是捏饭团。发展到现在,寿司机器人已经根据偏好的口味,控制饭团的大小和硬度。

当初,寿司机器人的推出遭受了很大的阻力,因为寿司被认为是一门匠人的工艺,寿司本身也昂贵而奢侈。时至今日,仍然有《寿司之神》这样的纪录片,将制作寿司的过程看得至高无上。

但寿司实现廉价、大规模生产,回转寿司连锁门店扩张到全球,离不开机器人的贡献。不是所有餐馆都请得起十年磨一剑的寿司大师,也不是所有人都会去一号难求的百年老店。很多时候,不难吃其实就可以了。

未来,我们在超市买冷冻食品,或者下馆子聚餐,都有机会吃到机器人做的饭,但很可能毫无所觉,或者并不在乎。

一叶知秋,管中窥豹,未来面对其他 AI 生成的事物,作为消费者的我们,内心活动未必不是这样。

利若秋霜,辟除凶殃。 工作邮箱:zhangchengchen@ifanr.com

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


被 AlphaGo 击败的李世石,用 8 年重建崩塌的世界

By: 方嘉文
22 July 2024 at 09:58

输给 AI,有种感觉是,我整个世界都塌了。

李世石在最近接受《纽约时报》采访时说道

2016 年,这位曾 14 次获世界冠军的韩国棋士代表人类出战 Google 的 AlphaGo,最终以 1:4 告败。

他当初在接受邀请时,觉得那会是一次「好玩」的经历:

好玩的前提是我觉得会赢。我从未想过自己会输。

那可能是 AI 技术在 ChatGPT 登场前,其中一个最重要的高光时刻。

现在离 ChatGPT 的发布过去了不足两年,我们已看到多个领域被 AI 影响,而生活更多方面似乎也被埋下了改变的伏笔,我们总忍不住想要去推测和畅想未来的 AI。

在这个语境下,比其他行业和领域更早受到 AI 冲击的围棋界,能帮助我们看到一种已经发生的可能性。

击败人类后,更强的 AI 在进一步去「人味」

我没有办法再去享受围棋,所以我就退役了。

和 AlphaGo 对战的三年后,李世石正式宣布退役。

对于 5 岁就开始学围棋的李世石而言,围棋不仅是竞赛,而是一种艺术,一种棋手个性和风格的延伸,但在 AI 时代,它却「沦为」了算法的效率游戏。

在这三年间,其实还发生了另一件事。

2017 年,DeepMind 宣布了新版的 AlphaGo —— AlphaGo Zero。

AlphaGo 诞生自神经网络对人类高手 3000 多万手数的学习和自我练习,但 AlphaGo Zero 却是从一开始就脱离「人味」,训练期间不接触任何人类棋谱,单纯靠自己和自己下棋训练。

只用了三天,AlphaGo Zero 在迎战 AlphaGo 时就已经以 100:0 取胜。

《大西洋月刊》称其为 「不需要从人类身上学习任何东西的 AI」

在围棋中,有一种手法看起来简单或无关紧要,但长远却能造成致命威胁,有人会说那就像是「幽灵」般。

而 AlphaGo 和 AlphaGo Zero 的棋谱,却难以理解到直接被视为「外星文明投下的一本神秘指南」。

美国职业棋手 Michael Redmond 于 2017 年表示,人类学习围棋其中一个重要的手段是搭建一个故事:「那是我们沟通的方式。它是一件非常人性的事。」

这也许也呼应了李世石的观点,在下棋时,棋手也展现了他们作为人的一部分。

Redmond 补充说,据他自己的观察,人类棋手初见「AI 味」棋路时很可能直接「举手投降」:

AlphaGo 下棋的方式,总让人觉得很「非人性」,面对这样的棋局,我们甚至很难投入其中。

李世石作为其中一位最早经受到冲击的围棋高手,久久不能释怀。

他开始执迷于 AI。

退役后,除了开设自己的围棋学院、出书和推出基于围棋的桌游外,李世石还开始做关于 AI 的演讲

我算是很早开始面对 AI 的问题,其他人也将会经历。那未必会有开心大团圆结局。

对于他来说,AI 最让人担心的地方在于,它可能会改变人类的价值观:

过去,人们会对创造力、原创性和创新充满敬畏,但自从 AI 出现以来,这些很多都已经消失了。

并不是所有人都同意这个讲法。

人机共创时代

AI 毁灭了围棋圈所有存在的秩序,然后开始重建。

在康奈尔大学研究人工智能的围棋爱好者 Jiuheng He 说道

在很多围棋学院里,用 AI 来学习围棋已经几乎是所有棋手都要经历的过程

在香港一家围棋学院里,Ng Chee Man 会为学生提供 iPad 来用 AI 学习围棋。

每次到学生下棋,AI 都会展示出「最佳走法」建议,同时,系统也会记录下学生哪些步下得好,哪些不好。

去年,在《美国国家科学院院刊》上刊登的一篇研究指出,自从 AI 进入围棋圈后,人类棋手的判断能力获得了提升。

早在 2016 年,在 AlphaGo 打败李世石前,曾在不公开测试中对决 AlphaGo 的樊麾也有过类似经历

虽然落败,但樊麾说 AlphaGo 让以他一种全新的方式去看待围棋,提升他的技巧,让他的世界排名快速跃升。

2023 年的研究则以 1950 年至 2021 年积累的棋谱为基础,包含了 580 万手数的数据。

研究人员发现,在 AlphaGo 击败李世石前,人类棋手的判断质量在 66 年中都保持平稳,基本不变,但在 2016、2017 期间,棋手的判断质量开始爬升。

换言之,人类棋手虽然未必能击败 AI 棋手,但他们的判断能力的确有所提升。

看到人类棋手能如此快速地适应,将这些新走法融入自己的方法中正式让人非常振奋。

这些结果表明,人类将适应这些发现,并在它们基础上大大地提升自身潜力。

DeepMind 首席研究科学家、 AlphaGo 项目负责人 David Silver 对这个研究评论道

曾被 AlphaGo 于 2017 年击败的柯洁,也曾于 2023 年表示自己除了比赛外,已经很少和真人练习了,并认为 AI 甚至已经成为了围棋创造力的源头:

创造性不是你随便做一件什么不同的事情,创造性必须投入实战并得到检验,现在围棋创新的大部分是 AI 来完成,我们想下一些和以前不一样的棋,大概率会输,因为 AI 通过大量实战,得出和之前不同的思维,这才是创造力。

除此以外,另一位职业棋手的表现也尤其引人关注。

韩国棋手申真谞是首位夺得世界冠军的 00 后棋手,常被棋迷称为「申工智能」,因为他正是通过长时间进行 AI 训练和研究著称。

今年 2 月,申真谞于 25 届农心杯击败中国主将辜梓豪,实现了单赛季六连胜,跨赛季 16 连胜,超越了其前辈李昌镐。今年 3 月,他谈论了自己和 AI 的关系

我觉得我和 AI 现在是朋友关系。

我和比我更优秀的 AI 一起学习。AI 和人类的思路是完全不同的,AI 通过数学算法解决问题,借鉴 AI 的思路使我受益良多。

现在,中国、韩国、日本的职业选手,都会用 AI 来训练。

「AI 味」启示录

正如在生成式 AI 时代下,一些设计师和作者需要因为作品中包含的所谓「AI 味」而进行繁复的自证,在融入 AI 已久的围棋界也一直在面对「AI 味」衍生出来的各种议题。

在现时围棋比赛中,常常都会配有 AI 推测胜率和 AI 推荐最好的走法。观众在观赛过程中也因此能获得一种「主动性」,拥有多个观赛的角度。

2022 年,中国棋手李轩豪在对决申真谞过程中,很多决策都和 AI 最优判断预测前三符合,因此被队友杨鼎新质疑其有用 AI 作弊之疑

生于 95 年的李轩豪在用 AI 训练上「朝九晚九,全年无休,确实很用功」,因此棋路有时会被视作有所谓的「机器味」。

对于质疑,中国围棋协会进行了调查,最终认定这一指控没有证据,杨鼎新作出了处罚。

但用 AI 作弊的情况也的确存在。

2020 年,韩国 13 岁的职业棋手金恩持被发现在线上比赛中的落子与 AI 推荐有高达 92% 的重合。经过调查后,最终认定其作弊(且本人也承认了),被罚禁赛一年。

2022 年,中国棋手刘睿智被判定 AI 作弊,是中国首次正式因 AI 作弊而被处罚的职业棋手。和金恩持相比,刘睿智已经懂得规避「AI 味」,只是在一些关键点用了 AI。

为了应对,各国的比赛也是在不断改进反 AI 作弊机制。

与此同时,也有人利用了「AI 味」来击败 AI。

2023 年,美国业余棋手 Kellin Pelrine 击败了围棋 AI KataGo

KataGo 是现有开源最强围棋 AI 之一,韩国也会用它来训练棋手。

Pelrine 利用了名为 FAR AI 的程序和 KataGo 对决了超过 100 万局,最后 FAR AI 找到了 KataGo 的弱点,并在人机对决中践行且获胜了:

那个策略算不上小儿科,但也不是特别难学。

然后,他也用同样的方法击败了另一个比较厉害的围棋 AI Leela Zero。

策略关键在于要创造一个大的「圈」来围住对手一组棋,然后可以突然把一子下到另一个不相关的角落,去干扰 AI。

Pelrine 说,如果是人类棋手,看到那个圈肯定就知道有问题,但 AI 并不会留意到。

这个弱点看起来有点「取巧」,是不是让 AI 去进行针对性地训练就能打上补丁?

《自然》上周一篇报道援引了今年一篇预印本论文指出,面对专门找 AI 弱点的程序,模型的漏洞并非想象中容易修复。

这次被「针对」的还是 KataGo。研究人员用三种不同的策略来让 KataGo 反击能力更强:

  • 让 KataGo 通过自我对弈学习如何应对攻击;
  • 迭代训练,用攻击程序攻击 KataGo,把漏洞反馈给 KataGo,让它通过自我对弈或其他方式学习应对,然后再用攻击程序攻击 KataGo,往复循环;
  • 从头开始训练一个新的围棋 AI 系统,采用不同的神经网络模型。

虽然这些训练在一定程度上帮助了 KataGo 提高防御能力,但攻击程序依旧能发现漏洞,分别以 91%、81% 和 78% 的胜率击败 KataGo。

这些攻击程序本身不是出色的围棋 AI,人类也能轻松击败。

当然,这里的关键不是去比拼到底是人类厉害还是 AI 厉害。

重点是,对于围棋这个 AI 曾「颠覆」的领域,并且经过那么多年的应用与改进,其 AI 依旧存在很多问题。论文作者 Adam Gleave 说道:

如果我们在像围棋这种单一领域里也没法解决这个问题,那在短期里,想在 ChatGPT 之类模型修复越狱的可能性似乎很小。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


从豆包到 Kimi,为什么 AI 产品都在做浏览器插件

By: 张成晨
17 July 2024 at 19:05

我的浏览器,已经被各种 AI 插件包围了。

它们不仅占据了右上角的工具栏,也聚集在右下方的浮窗,让极简主义者心头一紧。

从百模大战开始,一名成熟打工人的主要矛盾,就变成了增强生产力的美好需要和 AI 助手的选择困难之间的矛盾。

如此看来,另辟蹊径做插件很有必要。我的使用时长,其实也看哪个 AI 主动来找我。

更轻便的功能,更广泛的陪伴

目前的 AI 浏览器插件,大概可以分成三类。

一类是基于自有大模型的伴生产品。

7 月 8 日,Kimi 智能助手推出了浏览器插件,我们第一时间写了体验文章。之前,第三方开发者也做过插件「Kimi Copilot」,这次是官方亲自下场。

为什么推出插件?事实就是,我们没法在全屏对话的 Kimi 主站做完所有事情,但插件可以让你在任何网页随时可用 AI 功能。

想象一下,浏览新闻网页看文章时,术语看不懂,人名不认识,使用在线文档写作时,某个问题不确定,但我们不想打断此刻的状态,切换到其他页面搜索。

这时候,Kimi 插件可以当即搜索、答疑解惑、总结全文…… 再不济,插件也起到引流作用,让你一键跳转到 Kimi 主站。

英雄所见略同,Kimi 的竞争对手豆包,更早地推出了插件,Kimi 能做的,它也都可以。阅读和创作的不同场景下,豆包插件的功能稍微有所差别。

在网页端选中一段话,豆包插件支持 AI 搜索、解释、追问、翻译等。

而打开在线文档选中一段话,除了以上功能,豆包插件还支持修正语法、调整语气。

最让我觉得实用的,其实是豆包领先 Kimi 的两个插件功能。

一个是视频总结、脑图、时间线梳理和跳转功能,YouTube 和 B 站都适用,Kimi 插件目前还不能总结视频内容。

还有一个是收藏功能,不管是刷到好玩的即刻、微博动态,还是看到文章里受益匪浅的段落,都能一键保存到豆包主站,并附上原文网址,方便之后查看。做产品,还得看字节。

AI 浏览器插件的第二类,是基于既有模型的「套壳」产品,其中代表是 Monica。

这是一个基于 GPT-4o、Claude 3.5 等大模型,支持 Google、Bing 等搜索引擎的插件。

我们可以和它对话,让它搜索,写作,翻译和解释选中的文本,总结 PDF、网页、邮件、YouTube 视频……

简言之,一个能聊、能搜、能翻译、能总结的全能 AI 助手,以插件连接了一众 AI 产品,实现了「all in one」的体验。

不过,相比免费的 Kimi 和豆包插件,「白嫖」Monica 有额度限制,解锁更多功能需要订阅。往好了想,总比单独订阅多个 AI 产品便宜。

还有一类 AI 浏览器插件,扎根垂直的赛道,满足小而美的需求。从我们科技编辑的角度看,比较常用的有两个。

首先是通义听悟,实现各种网页的语音转文字,支持开启实时双语字幕,结束录音之后可以总结内容和提取重点,很适合用来追发布会。

其次是沉浸式翻译,实现各种网页、视频甚至 PDF 的双语对照翻译,不像 Google 翻译那样覆盖原文,冲浪体验更好了,也更方便核查信息了。

同时,沉浸式翻译针对游戏网站、社交媒体等不同场景推出了专家翻译功能——本质上是一系列精心设计的提示词。我们也不必复制文本到 ChatGPT,自己写提示词让 AI 以某种口吻、某个身份给我们翻译了。

Kimi 团队说,Kimi 插件像一个「轻量的小搜索」,帮你解决碎片化的小问题。这句话也适用于其他 AI 产品的浏览器插件形态。插件,是 AI 落地的轻巧尝试。

不管你是在阅读、写作还是看视频,不管你打开哪个网页,它们中的一个或者多个,都可以围绕人类的脑力活动,扮演好辅助的角色,弥补之前上网时不舒服的细节、不到位的体验。

存在感太强的插件,有时候是种干扰

然而,就像去年的大模型、今年上半年的 AI 搜索一样,插件之间的竞争也很激烈,功能之间有重合,甚至已经开始打架了。

添加到工具栏之后,AI 插件们基本都有强烈的跟随性,希望在用户面前秀存在感。

它们招之即来,可用快捷键唤起,以悬浮按钮出现在屏幕一角,以侧边栏出现在网页右侧,还在你选中某个句子的时候争相跳出,想为你提供服务。

▲ 选中句子,Monica、豆包、Kimi 都会出现

不过,它们也可以挥之即去。Kimi 是否显示悬浮按钮,以及是否在你选择文字后跳出按钮,都是可选的。豆包和 Monica,也都支持隐藏按钮。

围绕生产力的通用型 AI 插件,功能大而全,基本满足了以下几个需求:划线解释、辅助创作、内容总结……

用户上网的核心需求,可能就这几个,如果同时由几个 AI 插件满足,会让你陷入选择困难。其中,豆包和 Monica 尤其容易狭路相逢。

看 YouTube 视频,豆包、Monica 都会帮你总结亮点和时间线。

用 Google 进行传统搜索的时候,豆包、Monica 都会在结果页面右侧回答问题。比如,Google 搜索「豆包简介」,豆包介绍了自己,Monica 介绍了叫作豆包的美食。

不过,豆包比 Monica 还多了一个功能:鼠标选中一条链接,但不点击,豆包也会帮你总结内容,然后你可以再打开链接看详情。

至于辅助创作,就更加夸张了,几乎任何一个输入框,包括 ChatGPT、微博、豆瓣,Monica 的「紫色小点」都会出现。

点开之后是「写作助手」,AI 问你需不需要写些什么,是求职信还是邮件,内容生成之后可以直接插入输入框。

类似地,豆包也有个「帮我写」功能,输入主题,帮你生成小红书、抖音等风格的文案,然后一键插入到输入框。

古人言,凡有井水饮处,即能歌柳词。现在这句话可以有互联网的版本了:需要生成文案的空白处,都可以留下 AI 生成的大作。

但可能,我们只是想自己写个吐槽,或者和 ChatGPT 聊聊天,这时候,图标就显得有些打扰,需要你手动关闭。

这些表演欲极强的插件,有点像 2000 年前后教新用户用 Office 的微软吉祥物「大眼夹」。当时,你新建文档,或者打出「Dear」写信,大眼夹都会不由分说地突然出现。

大眼夹的问题是,能帮上的忙很有限,在 Office XP 上线后就失业了,微软觉得,产品本身已经足够简单和易用。

而插件的问题是,有用,但功能大同小异,如果没有涉及刚需,偶尔会让人觉得有「侵入感」。

就像之前我问一位同事,能不能推荐一个 YouTube 翻译的好用插件。他一时给不出答案,因为类似的插件太多,不置顶到工具栏,就会把它们忘掉。

AI 成了信息入口,哪里不会点哪里的浏览器来了

AI 产品自己的衍生插件已经泛滥,同时,也有为 AI 产品服务的第三方插件。

其中一款是 Google 插件 AI Home Tab,功能很简单,但理念很有意思。

它可以把你喜欢的 AI 主站设为浏览器主页,同时也可以换回默认主页。

这个插件最主要的作用,其实是潜移默化地改变我们上网的习惯。

为了成为 Safari 的默认搜索引擎,Google 每年都会向苹果支付巨额费用。可见,「默认」对用户习惯的养成,就像地心引力一样强大。

如果我们的信息入口直接变成了各个 AI 搜索工具,或许我们也会越来越习惯,也越来越擅长,通过搜索框和 AI 交流得到答案,而不是在 Google 输入网址找到 AI 搜索。

不过,AI 的幻觉仍然需要警惕,一款叫作 SeekAll 的插件就为此而生。

这是一个浏览器多屏助手,支持一键打开多个搜索引擎,对比搜索结果,同时支持 AI 搜索和传统搜索,目前最多同时支持三个搜索。

更多的插件,更直接的入口,未来,我们的上网体验,或许真的会变成「哪里不会点哪里」。

这个专业术语是什么意思?这个文档里的句子怎么优化?这个 YouTube 字幕能转写成文字吗?都可以等 AI 跳出来帮你解答。豆包插件最近甚至可以总结小宇宙播客了。

反过来,从 AI 初创公司的角度看,开发插件有些像摸着石头过河。虽然 AI 的产品层出不穷,但他们还在寻找更多的细分场景,积累更多的用户数据,训练更强大的模型。

浏览器是我们上网必备的工具,探索 AI 可以满足用户的哪些高频需求,灵活融入网页的浏览器插件或许会是一个比较理想的测试形态。

先不要设定边界,然后才看到更多可能。

未来,上网时的用户界面长什么样子,我们和 AI 的交互形式是怎样的,尚且没有明确的定义。但小步快跑、轻盈迭代的插件们,让我们离一个 AIGC 加持的浏览器更近。

利若秋霜,辟除凶殃。 工作邮箱:zhangchengchen@ifanr.com

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


麦当劳令人失望的玉米杯

By: Steven
30 June 2024 at 13:21

麦当劳你要减少一次性用品,有指标压力,这我非常理解。但以前,你是先设计好免吸管杯盖,且普及了一段时间后才取消吸管的。现在你的玉米杯没有任何免勺子的可用方案,就直接取消勺子,还直接张嘴找客户收费,这吃相也太难看了。

别说玉米杯设计了类似饮料开口的盖子,这杯盖显然不是为此设计的,完全不可用。你要是老老实实设计个新盖子,那取消勺子我举双手赞成。

以麦当劳的体量,这个设计修改所涉及的模具、运输、仓储成本都可以做到比市价低很多的水平。

你们为什么不能像以前取消吸管一样有条理地处理问题?你们引以为傲的 SOP 失效了吗?总不能说没钱请设计师吧?

你可是麦当劳啊……非常失望。

政策是政策,设计是设计,不然著名的翻转车头大灯是怎么出现和流行的?不要因为政策就认为不行,也不要觉得商家转嫁成本就是不得已跟合理,无管杯盖就是最现成的好案例,能做到而不作为,这才是重点。

感谢星巴克

By: dimlau
20 June 2024 at 12:40

多年来我一直说,作为从业者,对星巴克的态度多半是感谢。2009 年我的咖啡馆开张之后的许多年里,顾客都寥寥无几,把泡咖啡馆描绘得多么贴近生活,都没什么收效。倒不是说独立小店长着一张不可信的脸,而是声量太小,认同这个观点的人未必听得到,听到的人里又有不少人不认同——咖啡馆是相亲的地方;咖啡馆应该有单间;咖啡馆可以抽烟打牌……许多人始终这么认为。

星巴克开到我们这个小城市的时候,有朋友替我担心竞争压力,我反过来安慰——在我没为此事感觉疲倦之前——独立咖啡馆和星巴克不在同一片海域,它像是一艘大游轮,会让人们知道可以出海,但是喜欢坐游轮和喜欢摩托艇、潜水艇、小舢板、古董船……并不冲突。果不其然,也正是从那时候开始,咖啡馆在我们这个城市渐渐多起来,我的店,因为「历史悠久」,经营状况如我所料是有好转的。而且客人们已经大致上了解,咖啡馆里可以只是坐着喝杯咖啡聊聊天,消磨一段时间,放松一下身心。

在我的观念里,事物的发展会衍生出许多相应的习俗和趣味,我不喜欢所谓弯道超车的原因之一就是它会丢掉这些习俗和趣味。妳要问我细致的因果链条,我没法说出。但是要说「因为一切发展太快了,所以才会有,带着A家的东西去B家吃,惹得B家不高兴的事出现」,我猜还是会有很多人同意吧?毕竟,就算不知道事情到底是怎么运作的,如果慢下来,一定会出现让各方都相对满意的方案出现,大家都慢慢接受,这就是约定俗成。

这世界没有如果,现在的情况就是,一切都那么快。上一秒,咖啡馆还是所谓小资场所;下一秒咖啡馆随处可见。一方面,人们还抱有一种预期,自己进了门就该被当作上帝或者潜在的上帝,不容置疑;另一方面,现实是咖啡馆已经和早点摊理发店没什么区别。不会有人觉得早点摊主或者理发店主要求已经落座的客人赶快做决定有什么不对,但是咖啡馆似乎就不行。如果问我的处理方式,坦白说,我把自认为理应如此的规矩——归根到底就是不要影响到其他客人——写在了大门上、菜单上、小票上,但是具体到某个客人时,我基本什么都不说。原因还是那样,作为独立小店——即便是全市最古老的咖啡馆,影响力是很小的,客人们听到的是「这家店的要求」而不是理应如此。这个时候,星巴克作为在中国有几千家门店的连锁品牌,它的做法不见得最妥当,但是无疑是成功地提醒到了我们,因为跑得太快而忽略了一些必要的思考。

fin.

經濟再差也不能公開談論

By: Steven
17 March 2024 at 18:02

經濟狀況究竟有多糟糕呢?從各大品牌在售後策略、降價思路和運營的混亂程度等方面的表現,均可窺見一斑。尤其是當你置身於自媒體、電商與品牌運營三者的交匯點上,這種巨大的荒謬性將更加明顯。

上週末出差重慶,兩周沒在家,難得一個週末,結果倆人坐下後就被各自工作群里的事情纏著,不是回消息就是打電話,咖啡都沒喝上一口。

在國內的社交媒體似乎不讓提「經濟不好」這樣的事,與之相關的話也會被限制,索性我就轉成日語來發了:

経済状況は本当にどれほど悪いのでしょうか?各大ブランドのアフターサービス戦略、値引きの考え方、そして運営の混乱度などから、その一端を窺い知ることができます。特に、個人のネットワークソーシャルメディア、ECサイト、およびブランド運営の交差点に立つと、この巨大な不条理さがさらに明白になります。

先週末、出張で重慶に行ってきました。二週間も家に帰っていなかったので、久しぶりの週末を楽しみにしていたのですが、結果として、座った途端、それぞれの仕事グループからの連絡が絶えず届き、メッセージを返したり、電話をしたりすることに追われてしまいました。コーヒーすら一口も飲めないままです。

為什麼是轉日文不是英語呢?因為即便是英語,在內地的網絡環境里也顯得有些直白了。日語反而更有「似乎知道在說什麼,但根本看不懂」的戲劇化的「陌生化」的效果。

好不容易,終於把翻了一年的《夜航西飛》讀完了。

這是我今年讀完的第三本書。

昨天去宜家看洗手檯和鏡櫃,直到在餐廳排隊前一秒,都沒想起宜家給我發的領生日蛋糕的短信。可就是那麼巧,下周生日,昨天正猶豫要不要去店裡看看,我就慫恿筱燁說想幹就幹,這一來才想起有一個蛋糕等著領。這就是天注定的意思。

苹果停车转 AI 将引发人才大震荡

By: Steven
28 February 2024 at 20:16

1、没有 AI 的汽车、手机、电脑、平板等,将是一堆废铁;

2、一家公司的核心战略不能同时放在两个大方向上。

综上,停下造车全攻 AI 是非常明智的。

连键盘侠都知道「不难」的造车,没造出来不是造不出来,是制定的目标太远太高。苹果之前想一步到位搞出 L4 的移动座舱,但现阶段的人类还没有办法,这太难了。在他们之前的设想中,自动驾驶的汽车和 Apple Vision Pro 是可以放在同一个场景里的。但很显然,这个步子太大了。用新势力们的方式当然可以,但那不是苹果想做的。

最关键的是,AI 的大爆发是此前大家都没料到的。没有这事儿,车还是一个重要的方向,但这一波爆发的 AI 不是资本热潮,而是实打实的浪潮了,此时不全力转向,是真的会死的。况且苹果并不是没有在 AI 上投入的,这些年一直都在积累,只是权重还没拉到那么高。现在切方向,即是大势所趋的必须,也是归拢资源的必要。

过去 Jony 可以对供应商说,这里有一桶取不完的钱,你能做到你就能拿走,以此把工业设计拉高到一个令人望尘莫及的程度;今天的苹果比二十年前拥有更多的现金,有自己的芯片和庞大的人才库,有海量的设备和训练数据,可以说:

比起造车,AI 才是更适合苹果干的事;

干好 AI 所需的人才、数据、算力,也是他们的优势。

以苹果的财力,下这样的决心,恐怕要出现一次人才流动的大震荡。

原文发布于知乎提问:

苹果取消探索十年之久的电动汽车项目,将团队转向生成式 AI,原因有哪些?会带来哪些影响?

世界真的是个草台班子吗?

By: Steven
14 November 2023 at 18:30

前段时间那一篇互联网裁员潮演变成制造业招聘潮的文章,让我想起了多年前跟人讨论的关于笔尖钢的事情。这件事情在不同的场合跟不同的人都讨论过很多次,但最终在对方的嘴里都会演变成「因为市场经济结构没必要,所以不必去做」这样的方向。

虽然这种「不想要」的说法听起来很厉害,但作为一个从小在国营钢厂长大的工科生,我想表达的是:在讨论市场经济和供需关系之前,还是得先搞清楚「有没有能力做」这件事。尽管你们可能在很多科普的文章,或者一些朋友的嘴里都听说过,做这个东西并没有想象中那么难,并且也有新闻报道了,我们确实攻克了技术上的难点,但制造业并不是「可以做」就一定可以实现的东西。

生产和检测是这件事情的一体两面,在「有没有能力做」这个问题上会涉及到材料问题、检测工具以及生产工具和检测工具的精度。举个例子,今天你可以在互联网上找到关于芯片原理和制造工艺的各种资料,从论文到图文到视频都有非常多,但为什么能够制造芯片的公司那么少?为什么光刻机会成为卡脖子的关键?

因为这不仅仅是一个关于市场供需关系和经济结构的问题,如果一项技术在市场端需要如此谨慎的考虑材料、工艺和成本时,往往在真实的制造生产层面,就意味着它的难度是非比寻常的。在生产车间里,把笔尖制造出来的绝对不是材料科学家或者力学方面的专家,而是数以十万计的只有高中或者初中学历的普通人。想象一下《三体》当中描写的阵列计算机:你得把一个如此复杂的东西,最终分解、简化到每个人只需要拿着两盏灯的程度。

我们公司研发老大的前东家,就曾经在这一类对精度要求极高的项目当中,在技术上被国外卡脖子。所有的理论层面的难题,他们都已经跑通了,最后卡在了一个检测设备上。我们国产的设备,无论如何都达不到那一个精度,导致那个项目一直没有办法落地。

我弟弟所在的实验室之前拿到了全球只有一百份的实验材料,但他们所构思的实验设计,恰恰就被卡在了如何把这仅仅只有 1g 的粉末,按照他们想要的精度划分,并取出来。

任何关于精度与制造的突破,都是人类文明前进的标志。这绝对不是用市场经济可以简单解释的事情。

所以我觉得,有那么一批人能够从互联网行业投身到制造业,是一个非常好的事情。人如果习惯了用比特的思维方式来看世界,是非常危险的。因为原子是比特的容器。我们必须对物理世界有切身的体会,才能感受到参差不齐是世界的常态,以及工业化究竟意味着什么?

在我们调侃世界是一个草台班子的同时,也得清晰地认识到:这个草台班子的精度,其实已经远远超出了普通人的想象。

❌
❌