Normal view

There are new articles available, click to refresh the page.
Before yesterdayMain stream

全球 AI 产品 Top100 出炉!只有一个国产应用进前十

By: Anonymous
19 August 2024 at 13:18

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

8 月 21 日,硅谷知名投资机构 a16z,根据近半年的数据,选出了前 100 名 应用

大多数人在使用哪些 AI 产品?哪些类别更受欢迎?用户会坚持使用哪些 AI 产品,而不是转瞬即忘?接下来,我们一起来看看。

这已经是 a16z 第三次发布 AI 百强榜单了,第一次是 2023 年 9 月,第二次是 2024 年 3 月,半年一更,频率稳定。

a16z 的评选方法是,基于 Similarweb、Sensor Tower 的数据,每 6 个月排一次名,榜单分成 2 部分:

全球 AI 产品 Top100 出炉!只有一个国产应用进前十

▲网页端前 50

▲移动端前 50

网页端和移动端的 TOP10 里,美图秀秀国际版 Meitu 属于国产,靠粘土滤镜爆红的 Remini 最开始也是出海产品,后被一家意大利公司收购。

接下来我们分门别类地谈谈,首先是通用型 AI 助手。

第三次了,ChatGPT 还是遥遥领先,在网页和移动端都拿下第一,绝对的 killer app

与此同时,ChatGPT 不如对手们增长势头猛烈。谁才是最好的 AI 助理,尚且没有定论。

▲增长指数

黄仁勋爱用的 AI 搜索 Perplexity 在网页端排名第三,并首次入围移动端榜单,正好排在第 50 名,差点名落孙山。

Perplexity 超过 7 分钟的用户平均停留时间,甚至略胜于 ChatGPT

比起 等传统搜索,Perplexity 直接提供简洁、实时、相对准确、可以引用信息来源的答案。数据说明,AI 搜索的形式在一定程度上走通了。

OpenAI 的 Sam Altman 也对这种形式保持认可,然而,OpenAI 的 AI 搜索 SearchGPT 还在小范围地内测,用户比 CEO 更着急。

ChatGPT 定位最像、竞争更直接的产品是 Claude,来自前 OpenAI 员工创立的 Anthropic。这次,Claude 的排名有所提升,在网页端排名第四,好过上个榜单的第十。

今年 6 月,Claude 推出的新功能 Artifacts 突破了聊天窗口的限制,可以实现实时可视化、互动编程等,拓展了用户与 Claude 交互的方式,好评不少。

▲Artifacts

除了早已功成名就的一代目,通用助手的赛道也有一些后起之秀。

字节跳动这次一次性上榜了五个产品:教育应用 Gauth、开发平台 Coze、通用助手豆包、豆包英文版 Cici、照片和编辑 Hypic。

除了 Hypic,其他都是首次出现在榜单,其中,豆包移动端第 26 名、网页端第 47 名,Cici 也在移动端排到第 34 名。

豆包的功能发展得很全面,并且多端覆盖,使用门槛又低,日常场景够用,所以有这么大的用户量,也在情理之中。论做产品和商业化,还得看字节。

另外,AI 助手 Luzia 首次上榜移动端,一来就是第 25 名。

你可能没有听说过这款产品,它主要服务西班牙语环境,全球拥有 4500 万名用户。最初,Luzia 作为 WhatsApp 的聊天机器人出道,但 2023 年 12 月有了独立的 app

除了什么都能聊的通用助手,消费者对于 AI 还有哪些垂直的、特别的需求?

一个重要的趋势是,大家都在用 AI 搞创作,并且创作的形式越来越丰富了。

a16z 的网页端榜单里,52% 的公司支持图像、视频音乐、语音等的内容生成和编辑。

其中包括 7 家新上榜的公司,排名还不低,视频生成工具 Luma 排在第 14 名,音乐生成工具 Udio 排在第 33 名。

和 Udio 同一个赛道、被称为音乐界 ChatGPT 的 Suno,存在感更是暴涨,从今年 3 月的第 36 名,上升到今年 8 月的第 5 名。

榜单和榜单的纵向比较也很有意思,之前的榜单里,大多数内容生成工具围绕图像。

但现在,图像生成的占比降到了 41%,只有一个图片生成工具(SeaArt)首次上榜,视频生成工具出现了三个新面孔(Luma、Viggle 和 Vidnoz)。

端新增产品

Udio 上线于今年 4 月,6 月则是 AI 视频工具爆发的一月,快手可灵、Dream Machine 的 Luma AI、Runway 的 Gen-3 Alpha 接二连三发布。

可以看到,不过半年,AI 在音乐和视频上的输出质量,都卷出了成绩。

至于移动端,最常见的创作形式是编辑图像、视频。相关工具占到榜单的 22%,是移动端的第二大产品类别。

▲Adobe Express

虽然也有初创公司涌现,但排名更高的,是那些在生成式 AI 浪潮里转型、推出更多玩法的传统创意公司。

其中有我们比较熟悉的名字,美图秀秀国际版 Meitu 在第 9 名,字节跳动旗下的照片和视频编辑器、醒图国际版 Hypic,位列第 19 名。

另外,韩国互联网巨擘 Naver 旗下的相机应用 SNOW 第 30 名,内置了 Adobe Firefly 生成式 AI 的 Adobe Express 第 35 名。

之前 washingtonpost 做过一个调查:人们会和聊天机器人说什么?他们分析了数千次对话,第一是搞黄色,第二是完成家庭作业。

最近也有一款很火的 P 肌肉应用 Gigabody,让你提前看看增肌之后的模样。它会产出很多照骗,也会打击健身人群的自信心,因为很可能练了半天,还不如 Gigabody。

举出这两个例子,是为了佐证 a16z 的结论。

a16z 移动和网页端的榜单,都出现了一个很有意思的新类别:美学和约会。

其中包括三个新入围移动端榜单的工具:LooksMax AI(第 43 名)、Umax(第 44 名)和 RIZZ(第 49 名)。

▲移动端新增产品

LooksMax 和 Umax 采集用户的照片并评分,然后给出建议,提升你的魅力。Umax 甚至会给出一个「满分模板」,也就是 AI 眼里你的完美模样。

LooksMax 不仅照顾到了颜控的看脸需求,也会分析用户声音的吸引力。

但它们的用户规模并不大,LooksMax 超过 200 万,Umax 在 100 万左右。

可能和这个赛道太卷有关,上网随便搜搜能够找到大量身体美颜滤镜,减肥、增肌、健身、变胖、换衣服,AI 都能帮忙,我们不再需要在 B 站学习复杂的 PS 教程

但这些应用的套路又都很类似,靠订阅赚钱,能赚多少是多少,Umax 每周收费 4.99 美元,LooksMax 每周收费 3.99 美元。

如果说 LooksMax 和 Umax 是认识更多发展对象的敲门砖,下一步就该用 RIZZ 了。

笨嘴拙舌的用户,可以用它提升回复约会 app 消息的水平。上传对话截图、个人资料等,RIZZ 都可以教你说些高情商表达。

古代的邹忌问身边人「吾与徐公孰美」,童话里的皇后问魔镜谁是世界上最好看的人,现在的人们则在问 AI:我怎么变得更帅、更漂亮、更有魅力,怎么不算一种科技与狠活呢?

食色性也,情感关系未必在人和人之间,也可以是人机。这次,AI 伴侣应用 Character.AI 排在移动端的第十,上次是第十六。

其实,上榜的还有一些尺度更大的 AI 伴侣应用,包括 Janitor、SpicyChat、candy.ai、Crushon 等,但 a16z 没有特别强调出来。

拿 a16z 今年 8 月的榜单和今年 3 月相比,近 30% 的公司是新公司。

如果再拿今年 3 月和去年 9 月的榜单相比,那么这个数字是 40%。

可见 AI 产品竞争之激烈和残酷,新一代 AI 原生产品和公司的发展速度,前所未有地快。

下一个爆款的 AI 产品,可能会是什么?答案或许在社交产品 Discord 出现。

a16z 发现,Discord 的流量,能够体现一个产品有没有潜力,尤其在内容生成方面。

Discord 的好处是,提供了服务器和交流社区,开发者无需构建完整的前端产品,所以它很适合作为一个沙盒,用来验证 PMF(产品与市场契合度)。

很多产品都是从 Discord 起步,构建社区,测试功能,积累用户,然后才有自己的独立,比如 Suno 和

时至今日,Midjourney 还是所有 Discord 服务器邀请流量的第一名。

▲ 在 Discord 受欢迎的 AI 公司

截至 7 月,10 家 AI 公司在所有 Discord 服务器邀请流量中排名前 100,与 1 月相比,其中一半是新秀。

AI 继续发展下去,未来可能连 app 的概念都会消失,人手一个 agent,AI 主动帮我们解决需求,但现在,我们还是从被用户选择的 app 中,一窥 AI 的可用性如何被定义。

常言道「不要创造需求」,产品的成功不在于通过广告等人为方式制造需求和虚假繁荣,而是找到并满足已经存在的、真实的需求。

AI 也是这样,融资、刷屏、炒作之后,依然是沉默的大多数,做出最诚实也最落地的投票。其中,有没有你正在使用并欣赏的产品呢?

We crunched the data to find out: Which gen AI apps are people actually using? And which are they returning to, versus dabbling and dropping?


2024 年 3 月:

Thousands of new AI-native companies are vying for attention. We crunched the data to find out: Which generative AI products are people actually using?


2023 年 9 月:
https://a16z.com/how-are-consumers-using-generative-ai/

魔改「黑神话悟空」,打败 Midjourney,这个 AI 生图神器让人上头

By: 张成晨
23 August 2024 at 13:33

当 AI 文生图比拼真实度、艺术感,Ideogram 开辟了一个刁钻的赛道:在图片上精准生成文字,并且字体和排版都好看。

这个需求并不小众,一键生成海报、插画,还不用 P 图,能够省不少事,很适合对设计一窍不通的普通人。

我们之前写过 Ideogram 的 1.0 版本。8 月 21 日,2.0 版本来了,真实感更好了,海报更有设计感了,文字这个看家本领也更强了。

你或许从来没有听说过它,这是一款前 Google 员工开发的 AI 产品,缺点不少,但长板能「弯道超车」Midjourney。

指路👉https://ideogram.ai/

AI 想知道,你说的悟空,是哪个悟空

Ideogram 有个特别新手友好的功能:「魔法提示」。

你直接输入中文提示词,它会帮你翻译成英文,同时帮你优化。作为一款海外产品,这样的操作很能收买人心。

同时,Ideogram 主打五种风格:普通、写实、设计、3D、动漫,都很好理解,所以选择起来也不会让人纠结。

先来个简单的中文提示词,「拿着金箍棒的孙悟空」,动漫风格,让 AI 帮我翻译和优化,看看它能自由发挥成什么模样。

当水灵灵的《七龙珠》版悟空出来的时候,我惊了一下,一看提示词,AI 把孙悟空翻译成了「Son Goku」,那就不奇怪了。

而且,也很想问问 Ideogram,是不是太明目张胆,给版权费了么。

为了避免 AI 再误解,再输入提示词的时候,我不偷懒了,强调「孙悟空」是「Sun Wukong」,不是「Son Goku」。

这次走写实风格,并且规定了比较详细的场景,大圣身穿铠甲,手拿金箍棒,神情肃穆,威风凛凛,站在佛窟前,温暖的橙色调,图片底部写着「Black Myth: Wukong」(黑神话:悟空)。

文字没有错误,大写字母冲击感强,佛窟的氛围也营造了三分,但「大圣」的气质差了点、形象返祖了点,眼神里也没有光。

用相同的提示词让 Midjourney 生成一次,文字既有错误又没设计感,但稍帅一筹的「大圣」和页游的画风弥补了这一点。

▲ Midjourney 生成

不甘心的我又试了 3D 风格,提示词基本保持不变,只是把底部的文字改成了「8 月 20 日游戏上线」。

结果,Ideogram 生成的结果很像某个国风 Q 版盲盒系列的宣传图,画面处理得很干净,但完全不是我脑海里的 3D 游戏风格,还把美猴王画出了二郎神的模样。

并且 AI 也从中暴露了自己,虽然它对英文的文字渲染得心应手,却对中文一窍不通,这个缺陷从 1.0 延续到了 2.0。

看来海外产品不够理解国内的传统文化,Ideogram 第一回合的表现有些令人失望,却也不失趣味。

Ideogram 团队说过,2.0 版本不输 Flux 和 DallE。最近,Flux 真实版 LoRA 生成的 TED 演讲照片因为真假难辨,骗过了不少网友的眼睛。那么就来测测,Ideogram 生成的结果能多像照片。

▲ Flux 生成

选择写实风格后,我输入了中文提示词,TED 演讲照片,幻灯片标题为「Ideogram 2.0 发布」,上面有三个要点:「文字准确」「擅长设计」和「更真实」,女性演讲者站在白板前,背景中有几个人。

可以看出,Ideogram 的语义理解是不错的,该有的元素都有,TED 的标志几乎以假乱真,演讲者和观众的表情都很生动,头发和皮肤比较自然。

不过,细节处理得还不够好,虽然要求生成的文字没有问题,随机出现的一些小字坏了一锅粥,人物的手指和身体也不太对劲,但已经比之前的 1.0 版本强太多了。

至于海报设计,可以说是 Ideogram 吊打其他文生图 AI 的「舒适区」了。

如果以票房异常火爆的《异形:夺命舰》为考题,AI 能设计出那种不可名状的恐怖感觉吗?

我选择了设计风格,用提示词描述了一下画面的要素,并特别提及,海报底部写上一句:「未成年观众谨慎观看。」

总体的效果让人眼前一亮,长串的文字也成功生成了,只有一处小错误,但特别不写实,更像美漫的画风,和真人电影不太相配。

我再以暑期档烂片《红楼梦之金玉良缘》为灵感,让 Ideogram 生成海报,提示词写到的背景、装饰物乃至人物都在其中了,再次感叹提示词的跟随性真的不错。

片名当然也写对了,但字体像借鉴了指环王,有些出戏,整体风格更像花木兰动画电影。

Ideogram 的「设计风格」偏向二次元,比较独特,但反过来想,这也局限了海报的使用场景。

小结一下,Ideogram 是一款很有自己特色的 AI 文生图产品,写实的水平和 Flux 相近,艺术感和 Midjourney 各有千秋。

▲「rainy summer」图案

但文字生成水平独一档,比较适合用来生成海报、插画、广告、表情包、T 恤印花等。

人类评估的结果显示,Ideogram 2.0 在提示词对齐、整体表现和文本渲染质量方面,都比 Flux Pro 和 DALL·E 3 更好。

▲ 但这是 Ideogram 自己的说法

可玩性高又接地气,这样的 AI「甜品」不妨多来一些

去年 8 月 22 日,Ideogram 宣布成立,与 2.0 发布正好相隔一年。

创始团队共 7 人,来自 Google Brain、加州大学伯克利分校、卡内基梅隆大学和多伦多大学,其中 4 位是 Google 文生图扩散模型 Imagen 研究论文的作者。

这次除了发布 2.0,Ideogram 还推出了 iOS app,国内可以直接下载,Android 版计划稍晚发布,从网页到移动端,我们可以随时随地生成图片了。

▲ 手机端界面

Ideogram 目前向所有用户免费开放,不过,额度非常有限,生成 5 次共 20 张照片后,Ideogram 就提醒我,10 个积分用完了,请明天再来。(当然,隔壁的 Midjourney 免费生成 25 张也没有显得多大气。)

如果很少接触文生图,想要一款文生图 AI 用来入门的,Ideogram 是个不错的选择。

输入中文提示词、用「魔法提示」翻译和优化是一方面,另外,Ideogram 还有很多选项帮你生成更接近脑海所想的画面。

提供范围有限的选项让用户「点击」,相比在空白的输入框完成「输入」,交互起来更简单。想要什么图片比例、什么风格、什么色调,Ideogram 都可以让你挑选。

▲ 不同色调的「戴珍珠耳环的少女吃麦当劳」

不会写提示词,那也可以画出来,让 Ideogram 帮我们化腐朽为神奇。

我为我的糟糕画工感到抱歉,但 AI 能够领会意思,优化了线条和上色,还加了个背景,格调一下子上去了。有了 AI,谁不是神笔马良。

另外,网页版的输入框下面,都是他人生成的作品,遇到喜欢的,我们可以查看和参考提示词。Ideogram 表示,他们的用户在过去一年生成了超过 10 亿张公开可见的图片。

如果想要生成一个特定的对象,但又不知道怎么写提示词,Ideogram 这次还推出了用文本搜索公共创作库的功能,但这个功能目前需要会员。

▲ 搜索「cat」的结果

总而言之,Ideogram 是一款可玩性较强的文生图产品。

它可以比较精准地生成用户所需的文字内容,并适配各种风格的图片,就业领域很广。

▲ Ideogram 博客

偶尔还能带来情绪价值,以图言志,虽然做的表情包太偏欧美互联网的审美了。

▲「我想玩《黑神话:悟空》」表情包

Ideogram 的整体质量不差,文本功能强大,对新手友好,使用方便,交互也让人愉悦。当 AI 工具兼具了创意、便利和分享价值,就很容易让人上头。

一个照着模子刻出来的世界太无聊了,洞察到很小的需求,然后将解决办法做到行业第一,那也很有意思。

世界上有很多的产品,同时有更多的受众,我们可以期待更多这样的 AI「甜品」。

利若秋霜,辟除凶殃。 工作邮箱:zhangchengchen@ifanr.com

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


被 AI 颠覆一半工作的前大厂员工,花了 8 个月找到用 AI 工作的新方式|AI 新职人

By: 张成晨
20 August 2024 at 12:04

「小白如何用 AI 做游戏美术」「如何十分钟用 Midjourney 画游戏角色 IP」「如何用 AI 十分钟画出法式风格插画」……

以上是 Boka 的小红书标题,打开帖子会发现,她并不夸大其词,内容都是落地且基础的操作指南。

之前,Boka 在一家海外手游大厂担任了 5 年多的发行美术,2023 年底离职之后,她开始自由地接项目,经营社交媒体,探索怎么用 AI 制作游戏美术素材。

我们找到了 Boka,和她聊了聊怎么用 AI 搞创作。她所分享的内容,就像她的几分钟教程一样,让人感觉到,AI 其实是很简单的工具,只要我们真的去使用。

还在一句话写提示词?你也能用 AI 生成你想要的东西

目前,Midjourney 是 Boka 最常用的 AI 图片生成工具,在她手下产出了法式风格插画、3D 风格 IP 形象、三消游戏美术素材等。

你的 AI,我的 AI,好像不一样。AI 可以让外行也用一句话创作出一张图,但生成具体的、特定风格的作品,对很多人来说仍然是难事。

理由大致有两个,AI 不那么可控,同时,我们可能不懂 AI,不得其门而入。

当我问 Boka,「写提示词有什么诀窍吗」,Boka 淡定表示,「其实懂英语就可以了」。

这固然是一个大前提,其中也有些让 AI 指哪打哪的、具体可行的方法论。

首先,总得知道让 AI 生成什么吧?

拿 Boka 比较熟悉的欧美三消游戏(消除至少三个相同元素的益智游戏)来说,里面肯定有背景图、用来消除的图案、代表各种奖励的图标,如果结合到解锁不同场景的装饰玩法,那么可能还会有沙发等家具。

▲ 左:参考图片;右:Boka 用 AI 设计的三消游戏页面

这时候,需要生成什么物品,直接尝试写在提示词就好,宝箱就是「treasure chest」,钥匙就是「key」。

接下来,怎么确定美术风格?

一种方式是通过学习教程和他人的提示词,并积累一些特定的提示词。

为了用 AI 生成三消游戏的界面,Boka 看了很多用 AI 进行 UI 图标设计的 YouTube 视频。

从中,她就学习到了一个关键的提示词:「multiple item spritedsheet」,用它生成包含多个相关图案的图像集合,这样就更容易保持图标风格、角度的一致,避免 AI 跑偏。

还有一种方式,是让 AI 告诉我们用什么提示词。

再拿三消游戏举例,如果背景图需要实现从天花板看下去的顶视效果,怎么写提示词?

Boka 的方式是,先别急着写,找到一张符合我们要求的图片,上传给 Midjourney,让它的 Describe 功能去给出这张图的提示词。

同时,AI 给出的提示词不必照单全收,我们只需要其中和视角有关的部分,「a top-down view of an interior room」(室内房间的俯视图),结合到自己的提示词里。

但只写好提示词,仍然是不够的。很多 AI 图片的风格是一种样子,光亮、油腻、缺乏个性,让人见之即忘。

Boka 解释,这是因为,AI 模型的本质决定了,它的画风是趋同性的、大众化的,只靠语言描述一个画面,AI 生成的往往就是一张普通的、无聊的、符合欧美审美的图片。

同时,语言也并不精准,很难直接生成我们想要的风格,说到「中国风」,一千个人心中可能有一千个答案,AI 也不懂我们想要哪种。

最简单的解决办法,就是「垫图」,给 AI 一个明示。如果在 Midjourney,上传相关的图片,使用风格参考功能「–sref」,就可以锚定画风。

可以说,提示词保持不变时,垫图直接决定了图片的质量和风格。垫图选择得越有风格,生成的图片也更不落窠臼。

按照 Boka 的经验,垫图无需复杂,越简单,效果越直白。拿一个欧美卡通风格、空白背景的箱子当垫图,就可以让平平无奇的图标,变成符合欧美三消游戏风格的图标。

▲ 左:普通箱子,中间:垫图,右:欧卡风格箱子

这些生成图片的经验,都是 Boka 从学习教程、亲身实践中得来的。

Boka 相信,尝试得多了,提示词也好,工作流也罢,我们很快就能摸索出自己的一套 AI 方法论,并熟能生巧,因为她觉得,「AI 其实门槛挺低的​」。

不着急拥抱 AI,但一旦上手就要用好每个功能

满打满算,Boka 上手生成式 AI 也只有八九个月,最常用的只有三个工具:ChatGPT、Midjourney、KREA(一个高清修复软件),心态很「大道至简」。

Midjourney 在 2022 年 7 月就面世了,但之前看到一句话生成的图片,Boka 并没有什么强烈的、被冲击的感觉,因为质量都不怎么样。

今年年初,AI 生成图片工具有几波大的更新,技术更成熟了,可控的小功能更多了,渐渐让 Boka 看到了商业化的可能,她才觉得,是时候认真对待了。

▲ Midjourney V6.1 版本

对于新的技术,Boka 的态度是,学是肯定要学的,但可以再观望一下更加成熟的产品,要不然会花费很多无谓的精力。等到真正上手了,那就要物尽其用。

Midjourney 老生常谈就是那么几个功能,但是我觉得把这几个功能用好,也是一个非常需要练习的过程。

AI 仍然不完全可控,跑图是日常,但总有一些解决办法,让 AI 不那么放飞自我。

Boka 用 Midjourney 做过不少 IP 设计,经常用到它的两个功能:风格参考功能「–sref」,锚定画风;角色一致性功能「–cref」, 锚定人物形象。

▲ Boka 用 AI 将 2D 画风转成 3D

如此一来,多次生成之后,图片之间的相似度仍然保持在 80 到 90%。

有时候,AI 生成的图片不够完整,比如,我们希望得到全身的 IP 形象,但 AI 给出的结果没有脚。

Boka 建议要么多试几次,要么用 Midjourney 的扩展图片功能「Zoom Out」,扩展画幅,让 AI 生成原来缺少的部分。

▲ 左,扩图前;右,扩图后

另外,AI 也经常生成细碎的、不需要的东西,Boka 会用 Midjourney 的编辑特定区域功能「Vary(Region)」,进行简单的消除。

除了不断跑图、让 AI 工具内部消化问题,当然也可以用 Photoshop 等传统作图软件给 AI「善后」,包括更彻底地去除多余的部分,进行整体的调色等等。

尽管用的 AI 工具不多,也仍然离不开传统作图软件,但 AI 的参与足够让 Boka 节省时间和精力,看到更多可能性。

Boka 现在是自由职业,平时会接一些设计的项目,但市场环境不好,很多项目的人选需要用提案角逐。

▲ Boka 用 AI 设计 IP 形象

其中一个儿童牙膏 IP 形象的项目,Boka 基于以牙齿为特色的动物大开脑洞,最终定下了海狸。如果按传统流程,从想法到完整的提案,一般需要 1 周的时间,用到 Photoshop、Maya 等作图软件。

这次,Boka 用 Midjourney 和 Photoshop 作图,由 ChatGPT 完成整个文案部分,包括取名和概念解释,2 天就完成了提案。

不仅效率更高了,客户还很满意她的完成度,Boka 有些自豪:「没告诉对方用了 AI,对方也看不出来用了 AI。」

AI 并非全能,但人类不能止步不前

Boka 也是被 AI 改变的艺术行业中的一员。

她在伦敦念完视觉传达,后来入职一家海外手游大厂担任了 5 年多的发行美术,负责制作游戏的动画片、宣传片、海报等对外宣传的内容,2023 年底离职。

艺术行业对 AI 的焦虑和批评早已见诸报端,Boka 对此很了解,也在小红书开玩笑地说过,「我考虑退休种地了」。

在她的实践中,虽然 AI 还不太擅长处理排线等复杂的 3D 建模细节,但在概念设计、环境设计、UI 设计方面问题不大。AI 生成的图片,已经可以在略微修改之后作为原画交付。

▲ Boka 用 AI 设计游戏角色 IP

这不意味着,AI 就能全权代劳了。

游戏美术是一个环环相扣的链条,现在主要被 AI 冲击的是创意和概念设计,后面的建模、导入游戏引擎等步骤,多半还是按照传统的方式推进。

AI 力所不能及的环节很多,但 Boka 更明白人类固步自封的可怕。

原画师、建模师等单一的美术行业工种,如果不考虑改变,未来很可能被 AI 替代。Boka 待过的发行美术岗位,50% 的工作内容已经被 AI 影响。

建模师不能总指望别人给你概念设计,才能做下一步…… 美术应该到一专多会的水准,才会在行业里长久。

生成 IP 形象、美术素材,只是 Boka 探索 AI 游戏美术的开始。

未来,Boka 计划开发自己的休闲类小游戏,她数了数需要的技能,三个人的团队可能就够了,一个美术、一个设计机制的策划、一个程序员,她自己就可以跑通概念设计、建模、导入游戏引擎等环节。

毕竟,Photoshop 等传统设计工具,Maya、Blender 等 3D 建模软件,UE、Unity 等游戏引擎软件,是她在发行美术岗位上的工作日常。某种程度上,这就是「一专多会」。

福兮祸所伏,祸兮福所倚,AI 代替了一些岗位,也给了更多个体创造作品的机会,不是像 Boka 这样的专业人士才能有资格上牌桌。

比如,虽然 AI 还不擅长 3D 建模,但很多小游戏本来也用不到 3D 建模。

Boka 解释,像王者荣耀这种大型手游,英雄角色、战斗地图、技能特效等需要 3D 建模,但一些三消游戏,背景只是一张静态图片,机制也很简单,玩家完成某个任务,然后解锁一个新的装饰品,装饰某个背景,并不需要建模,开发起来更容易。

当谁都可以参与创作,隐形的门槛依然存在:审美的重要性被凸显出来。

▲ Boka 用 AI 画法式 chill 风插画

你喜欢的风格,是不是大部分人也会喜欢?你设计的游戏人物 IP,有没有强烈的风格,有没有不同文化背景的融合,能不能让大家记住?

Boka 用 AI 产出图片的时候,常常会考虑到这些问题。她认为,AI 就是一个简单的模仿工具,生成的结果完全看使用者的审美和想要输出的风格方向。

采访过程中,我问了不少 Boka 使用 AI 的具体方法,除了回答每个问题的细节,她还给出了一个建议:

自己去尝试,AI 是一个很容易看到结果的事情。

当人人都可以用 AI,起到决定作用的变量,还是人类自己的审美和行动力——我们想要和需要用 AI 生成什么,我们怎么判断 AI 生成结果的好坏,以及,我们又愿意为之付出多少努力。

利若秋霜,辟除凶殃。 工作邮箱:zhangchengchen@ifanr.com

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


金色曠野裡的自行車

By: Steven
19 September 2023 at 03:31

距離九月四號已經過去十四天,除了那天傍晚六點零幾時,我抱著小柒哭了幾分鐘,直到上週五零點左右,我才終於第二次哭出來。在《單車》的旋律裡,在跟著哼唱的情緒裡,在那些模糊又清晰的記憶裡,抽泣著把這些天積攢的情緒慢慢釋放了一些些。

颱風「蘇拉」襲擊深圳,高鐵停運,坐順風車趕回韶關

我很難形容那些複雜混合的感覺,它們彷彿一陣一陣的海浪:我就站在沙灘浪邊,潮水一次次慢慢地湧上來,包圍我,退去時拉著我往深處走,腳下的沙子一次次被抽空,明明站在地上,卻如同失重一般無法站立。

我無法說出「我很想他」這樣的話。

想念嗎?想。

責怪嗎?也有。

內疚麼?有些。

後悔嗎?沒有。

醫院的走廊,左邊是病房,右邊是護士站

我已經在盡我最大的努力做好每一次了,在阿爺阿嬤和爸爸的靈位前,我可以說我是問心無愧的。某一個守夜的晚上,我跟筱烨這麼說。但無論我怎麼做,都會被人說我做得不夠,做得不好,說我不孝。你回來得太少了,帶小柒回來得太少了,你看他就是為了等小柒,不然怎麼會剛回來就嚥氣,諸如此類。我應該承受這些麼?筱烨應該承受這些麼?她們是妹妹,一定是非常傷心的,但我就不傷心麼?我是兒子就理應被這樣指指點點麼?她們不懂。她們從來不知道我這三十多年是在什麼樣的環境中走過來的,她們也不知道我從小到大有多麼羨慕弟弟妹妹們那溫暖的花房。

但這已不重要了,父母沒做好的部分,我會努力在我這裡終結掉,不讓小柒體會我所經歷的那些事。我對父親的情緒太複雜,我愛他,也埋怨他,我敬畏他,也可憐他,在漸漸緩慢下來的呼吸中,他沒有疼痛地結束了這一生,對於一個癌症病人來說已經是萬幸了。可我仍然在一陣陣的海浪當中,無法跨出離開沙灘的腳步。

照進病房的陽光
從鼻管換成氧氣面罩

「我只是想保護你」

回到深圳的第一晚,在負一樓等電梯的間隙裡,我和小柒聊起他記憶中那次糟糕的經歷。

那大概是三年前?我其實記不清準確的時間點了,大概就是他四歲左右的時候。具體他做了什麼事我也不記得了,當時我們都挺生氣他做的事,說也說不聽,一氣之下我突然就有了想揍他一頓的衝動。但是,那一刻我還保有一部分理智,我很清楚我不能真的動手打他,我不能像我的爸爸打我那樣打小柒,我不能讓自己成為那樣的爸爸,那樣的人。於是,我靠著怒氣中僅存的理智,把他從椅子上抱起來,放在了雙人沙發上。

「放在沙發上」是我給怒氣的出口,但也因為是怒氣與理性的撕扯,放下去那一刻的力量始終還是大了,以至於小柒直到現在還會因為那次「被扔到沙發上」的經歷而害怕。

我說:「小柒,爸爸當時是想保護你的,我不想成為我爸爸那樣。我不想像他拿棍子打我那樣對待你,但那時候我真的控制不住,我不想打你,放到沙發是對你的保護,那時候是爸爸不對,但我真的盡力了。」

我不確定小柒能否理解這些,但那一天,他的呼吸停下來之後,我抱著小柒哭時,他知道那一刻發生了什麼。他抱著我的手臂,拍拍我,點點頭。他沒有說話。但我能感受到,他那麼溫柔,那麼溫暖,這是我所不具備的品質,我很高興。

放學的中學生們
依然熟練地開門鎖門

金黃田野裡的兩輛自行車

如果仔細回憶的話,關於父親的畫面,其實有很多。和我媽相比,他才是那個主內的人;儘管真正主內的人,其實是阿嬤。他其實不那麼像一個照顧全家人的大家長,更像一個年長的大哥,一個依舊生活在老母親保護下的大花公雞。他和我在一起的時間,是母親和我在一起的數十上百倍,但當我想起他時,能立刻回憶起來的畫面,其實只有三個:

小學低年級的某一夜,我高燒不退,他半夜背著我去醫院,我迷迷糊糊間,只能看見歪歪斜斜的路燈和熟悉的門診部,以及他寬厚的背部。這件事我根本記不住任何細節了,但因為後來我寫過一篇關於父親的作文,因此我還多少留有一些記憶的畫面,而此時的所有記憶,其實來自我寫的那篇作文。至於那個晚上,我能回憶起來的只有漆黑的夜和晃動的路燈。

「就這兩個小時了,你們抓緊時間安排吧」

另一件,是一次暴力事件。大概是小學六年級時,某一次我做錯了事,又或者是我對阿嬤說了很過分的話,我不記得了,總之他當時暴怒的樣子嚇到我了,於是我躲進了我的房間,把房門反鎖上,躲起來。他像颱風一樣拍打我的房門,我躲在門後面,非常害怕,直到他一腳踹爆了房門。他反舉著雞毛掃,用棍子那一端抽打我,這種泣不成聲的抽打從我記事起,一直持續到初一。這一次,大概是最後一次,我哭得幾乎昏厥,發不出一點聲音,呼吸困難,是在阿嬤的制止下才結束的。

他本來就不怎麼跟我說話,那次之後,我們之間的話就更少了。

在我的回憶裡,與父親的對話極少。除了高考之後那一次,我在幾個姑丈面前於他爭辯,說我多麼想被關注,甚至故意把日記本擺在桌面上,希望他和媽媽能偷看一下,多瞭解我在想什麼,但你們從不與我談論任何心事。此後,再沒有別的大段對話的回憶了。

可我依然有一段溫暖的畫面,直到今天,也是我確信他愛我的證據之一:

初中時某一個週末的下午,我和他各自騎著自行車,在金黃色的陽光中,穿行在金黃色的稻田之中。那是一條筆直的鄉間柏油馬路,自右下向左上延伸,我們並排著,在又高又直的兩列白樺樹中,並行前進。

選墓地時,偶遇的白貓

其實,在廣東不會有這樣的畫面。真實的場景裡,應該是一連串小片的綠油油的稻田。但也許是那樣的回憶對我來說太珍貴了,於是我的大腦自動美化了那個畫面:一個類似無人機視角的鳥瞰的暖色調的俯拍畫面,一個能救我於水火之中的金黃色的畫面。

難離難捨總有一些,茫茫人生好像荒野

每每想到這個畫面,《單車》的旋律就會響起。

每一夜,守夜點香
爺爺打的桌子

「你就像一棵小樹苗」

可如果我只記得他做得不好的部分,只記得那些傷害我的記憶,那是不公平的。

關於時間的概念,是他通過言傳身教交給我的。關於守時,關於長期的時間觀念,是在一次次他的遵守時間約定之中,在長達數年幫助我收集煙盒、火柴盒、包裝袋當中,緩慢而紮實地建立起來的。我從來不會因為一時三刻的得失而慌張,其實是得益於他的收藏習慣。他收藏紙幣、硬幣、郵票,我跟著收藏各種包裝,都是需要耐心和等待的事情,久而久之,就體會到了時間維度被拉長之後的視野。

我知道時間是連續的綿長的,因此才會有這個博客;綿長而流動的時間會塑造出物件和歷史的輪廓,也會雕刻出一個人的樣子,因此我有嘗試新事物的勇氣與好奇心;漫長的路途中不需要帶走所有東西,紀錄就是最好的篩選,放下我不想帶去未來的記憶,在文字裡刻下我認為是好的內核,通過文章、視頻的紀錄,一點一點塑造未來的自己。

這是我最珍貴的品質,是他帶給我的。

他帶我買高達和四驅車的地方

當他不再用雞毛掃打我的時候,說過一番話:「你就像是一株小樹苗,爸爸不會干涉你怎麼長。只有你長歪的時候,我才會扶一下。但你想長成什麼樣子,是你自己決定的。」

其實我那時就不氣他打我了,但心中還是很害怕,還是有隔閡。

這番話如果放到今天的社交網絡上,一定會有人說這是他在 PUA 我,或者說這是為自己的行為找藉口的洗腦話術。可是,這樣惡毒的揣測,對自己有什麼好處?一個成年人,如果不能判斷什麼是愛,不會分辨一段關係中複雜的構成因素,不知道人事物就是複雜的,那他就枉顧了這一生。

若他在天有靈,會為我感到驕傲嗎?

「你這是灌水」

我原以為,我們的告別會是無聲的,平和的。

在他離開前的兩天,媽媽回家裡去拿一些東西,那個下午,就只有我和他兩個人。我有些無所適從,因為自打離家上大學後,我就幾乎沒有跟他獨處的經驗了。更何況,是他躺在我面前,無法自理的獨處。

我有一些害怕,不是怕他,不是怕照顧他,是怕照顧不好他。

前些年阿嬤走的時候,有一段時間裡,我常常覺得是不是自己害死了她。在那段剛畢業的時光裡,我大概每年會去一趟香港,幫阿嬤買一種心臟病的藥。後來,時不時會看到一些報導或者社交媒體上的說法,說一些藥店會把假藥賣給我們這些內地過去的人,把數量有限的真藥留給本地人。於是,阿嬤後來因為心臟病的藥引發腎臟的問題,進而導致更嚴重的情況直到離世,我都忍不住去想:是不是我買到假藥了?

理智上,我可以寬慰自己說,不是你,不要這樣想。

但情感上,我忍不住,她就是我的天,我做不到。

阿嬤和我打羽毛球的衛生所

所以,那天下午,我爸在那麼虛弱的情況下,從嘴裡擠出一句:“斌斌,你會不會接尿?”我其實有點欣慰和緊張。欣慰在於,我覺得只要還能吃點粥,能排尿,就還不算太糟糕,還有希望;緊張是在於,我媽在這裡照顧他那麼久,都是她處理吃喝拉撒,我還沒嘗試過,萬一我沒做好呢?

但沒有別人,能不能做好我都必須做。

我一個人翻動一米七五的他,幫他翻身;關上門,揭開被子,幫他接尿。我不知道我完成得算不算好,但那天下午,他尿了兩次,每次各兩百毫升,我第一次覺得尿是這樣好的東西。

每次接完,我都會問他要不要喝水,他都說要。第一次餵了四個杯蓋的量,他就不喝了;第二次他一直說沒喝夠,最終喝了七蓋的量。但也是第二次的時候,一方面他的聲音很虛弱,我聽不清他說什麼,另一方面也是有點急,想他多喝一點,所以餵的節奏快了一些。他中途停下來,用一種我很熟悉的抱怨的語氣說了一句:

「你這不是喝水,是灌水。」

我愣了一會兒。

這是他意識還清醒時,對我說的最後一句話。後面兩天,他都再沒有說過話,絕大部分時候都在昏迷和發燒。直到小柒和筱烨趕到,聽見孫子喊他,激動得點了兩下頭,不到十分鐘,我眼見著他呼吸節奏減緩,胸口動靜的幅度減輕,直到一點起伏也沒有了。

最後一句話,是說我沒做好。

我當時是愣住了十來秒,一邊覺得是我著急了,得再慢一點,一邊又不忿,為什麼這時候了還是這樣的語氣?同時又覺得,算了,算了,我不重要。十幾秒內閃過很多念頭,有鞭打的聲音,也有金黃的陽光,最後我吞了一下口水,接著放慢速度,餵了後面兩三杯。

我不知道還能說什麼,只是坐在旁邊,看著他。

後來的某個瞬間,大概是第二次喝水到媽媽回到醫院之間的某個瞬間,他很努力地抬起頭看著我。他只有一隻眼睛睜著,但直直地看著我。我該說些什麼?沒事的,會好的?我說不出來這樣的話,因為醫生已經叫我們抓緊時間安排後事了,我不能騙他。我只能看著他,讓他能看到我也在看他。

那一刻,我感覺他在和我告別。

前一晚,預感不妙而失眠,用 Midjourney 畫的《追風少年》

大家都很喜歡他

他人很好。這是來自驢友們對他的印象。

葬禮那天,除了海南和廣州的親人們,還來了一群平時和他出去玩的驢友們。說起他,大家都是一副熱情、飽滿、聲淚俱下的樣子,彷彿他們才是他的孩子。我多少有點妒忌這幫人,只是一起玩耍吃喝的人而已,為什麼能把眼哭腫?他平時和你們的關係是有多好?

為什麼他把笑臉都給了你們,卻留一張黑臉給我?

我一邊遞過香去,一邊不理解眼前發生的事,很困惑。

在下葬後的屬於我們家庭的聚餐上,三地的親人們在把酒言歡,說著接下來的安排,一杯接一杯的酒,一杯接一杯地對我說著「阿斌啊,以後就靠你了」和「多回來海南啊」這些話。這個場面在爺爺和阿嬤過世時,也是如此,不要悲傷,要歡樂,是這樣的。對面桌上坐著廣南、廣星、阿坤三位叔叔,他們是我爸發小,送殯儀館那晚他們也在,他們在這桌上,是很合理的。但另一桌,整整一桌人,都是驢友,我們總共四桌,他們有一桌。

我很高興他們來送他了,但我還是困惑。

陳剛叔叔跟我爸那麼熟,我零九年初來深圳時,還在他家暫住了一晚,第一間出租屋也是他幫忙安排的。這樣交情的朋友,難過哭泣很好理解,可驢友們跟完了從殯儀館到墓地直到家宴的全程,散席時還在哭。他們流的眼淚,比我為阿嬤、爺爺、我爸流的加起來再乘以一百還要多。你們真的就那麼愛他麼?

我感覺自己被套在了一個真空的試管裡。

情緒到底是消失了,還是我感受不到了?我分辨不了。你們為之哭成淚人的他,最近一次對我笑,是我在手機上給他的遺照修圖時。那是大姑丈從我結婚時的合照中扣出來的。我平靜地、小心地、仔細地處理他臉上的痘印和眼鏡上的反光,調整曲線,以便讓他的臉部的光線更明亮,和背景之間的層次拉得更開。

那張笑臉,永遠定格在相框裡了。

他和阿嬤、爺爺的位置很近

閻羅的判詞

中國人常說,死者為大。

在任何場合裡,似乎離去的人,無論生前如何,悼詞裡都是一些美好的品質。正如那天的那一篇模板,他偉岸,為家庭撐起一片天,照顧好所有的家人,但十殿閻羅的判詞會怎麼寫?我們都不得而知。對我而言,他確實是半個好爸爸。五十年後,小柒會怎麼寫我?我希望至少能做到是 0.6 個好爸爸,至少是 0.51 個。我還不知道我能不能做好,但我會盡力不要留給他什麼遺憾,不會覺得有什麼虧欠和不公。

那晚,跟著鐵床推上山坡時,我媽摔了一跤,胸椎第十節壓縮性骨折,現在在醫院四樓躺著靜養。我感覺自己像一隻風中的打火機,擦不出火,點不著一根香。

十多年前的一隻籤裡說,我,六親無靠,大器晚成。

守夜後佈滿血絲的眼睛
用 Midjourney 畫的新壁紙

可我只希望:

跳出三界外,不在五行中。

镜头的变幻就是故事|Midjourney V5.2 Zoomout 测试

By: Steven
26 June 2023 at 00:18

➡阅读更多 AIGC 相关内容

最近一直都非常忙,所以连续 20 来天都没有碰过 Midjourney 了。前两天在社交媒体上看到,新推出的 V5.2 中有一个向外扩写的功能,因为此前已经在 PS+SD 的组合中见过这类拓展画面的应用思路,所以很想看看 MJ 的 Zoomout 能做出什么样的东西来。趁着端午假期这个空档,我集中跑了几波测试,有一些小小的心得,在此记录一下。

总体结论有三个:

1、Zoomout 可以无限次数地向外扩展,但随着镜头的拉远,Midjourney 自身的联想能力并不足以做出任何有意思的画面,不刻意控制地放大出来的画面,到了第 3~5 步之后,就会明显变得乏味和缺乏美感。

2、通过刻意地控制画幅比例、扩张倍数,以及针对性地调整 prompt 的描述,可以利用这个功能讲出有意思的故事。关键在于,使用者对于「镜头语言」的理解,以及对运镜和故事之间联系的掌控程度。

3、对工业设计的辅助甚微,做点「花活儿」可以,一旦涉及到逻辑,依旧不行。

Zoomout 功能的主交互界面

测试内容目录:

1、通过默认的 Zoomout X2 按钮连续放大 3 次

2、通过默认的 Zoomout X2 按钮连续放大 15 次

3、通过自定义 Zoomout 微调构图

4、通过自定义 Zoomout 构建人物画像

5、通过自定义 Zoomout 构建人物性格

6、通过自定义 Zoomout 完善场景氛围

7、在 niji 中应用自定义 Zoomout 构建人物和场景

8、自定义 Zoomout 构建情绪与故事

9、通过焦点变化构建故事的场景

10、通过镜头变化,构建故事的起承转合

以下为部分测试过程记录:

test case no.1:通过默认的 Zoomout X2 按钮连续放大 3 次

⬆ 点击以全屏查看图片 Click to view the image in full screen

操作方式:连续 3 次放大图像两倍,不对 prompt 进行修改,也不对画幅做设置。

输出成果:在奔跑的场景中增加了后方的人,有一点点故事性,但继续放大后会明显失焦,花面焦点始终在最开始的小女孩身上,继续放大生成的场景和人物都是模糊的。

test case no.2:通过默认的 Zoomout X2 按钮连续放大 15 次

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:连续 15 次放大图像两倍,不对 prompt 进行修改,也不对画幅做设置。

输出成果:外围拓展的场景越宏大,有效信息和故事性就越低,除了在阴影中无意间冒出的人影,没有任何惊喜和意料之外,拓展的画面也很单调乏味。

test case no.3:通过自定义 Zoomout 微调构图

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:不对 prompt 进行修改,按 1.1 和 1.2 的拓展比例小幅度调整画幅。

输出成果: 初始图像是近景特写,根据图像本身的特点,对画幅进行小幅度地微调来获得完整的全景镜头,以及合适的构图比例。

test case no.4:通过自定义 Zoomout 构建人物画像

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:先生成一个黄色漩涡图案,然后拓展时改写 prompt 为一只眼睛,进而生成一个带特征的面部局部画面,再次拓展时修改描述词为一个洞穴中的原始部落男性。

输出成果: 成功构建了一个有目标特征「黄色漩涡瞳孔」的男性角色,通过控制拓展比例以达到最终效果—-人物整体和局部特征均得以完整呈现的画面。

test case no.5:通过自定义 Zoomout 构建人物性格

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:先生成一个红色皮夹克的女性胸像,再改写 prompt 获得其坐在摩托车上的局部画面,再改写画幅比例获得完整的人物与车辆的全景照。

输出成果: 成功构建了一个有目标特征「红色皮衣+摩托车」的女性角色,通过控制拓展比例以达到最终效果—-人物细节和整体氛均衡的画面。

test case no.6:通过自定义 Zoomout 完善场景氛围

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:在初次生成的几批图像中,选择合适的画风和画面主体,再根据已有画面特征修改画幅比例。

输出成果: 在选定风格和主体后,将竖幅主体拓展为气势更足的全景影像。关键是拓展比例并非默认的 2 倍或 1.5 倍,而是根据实际需求来控制比例,同时也需要关注怎样的画幅比例可以传达对应的氛围。最终图像画幅比例是 3:1,适合展现有足够细节的宽幅场景。

test case no.7:在 niji 中应用自定义 Zoomout 构建人物和场景

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:

step 1、使用 niji 5 的 style original 生成一个细节丰富的初始人物;

step 2、以 1.2 的 Zoomout 比例纵向拓展出人物的半身画像,画幅比例是 1:2;

step 3、以 1.1 的 Zoomout 比例和 2:1 的画幅比例重构画面,得到外围场景;

step 4、以 1.2 的 Zoomout 比例和 3:4 的画幅比例重构画面,生成人物全身像;

step 5、改写 prompt 添加「宫殿」关键词,以 1.65 的 Zoomout 比例和 3:2 的画幅比例重构画面,生成人物在场景中的全景画面。

输出成果: 虽然人物细节和场景氛围的融合程度还不错,但因为漫画角色的细节较多,在多次 Zoomout 的过程中,场景的丰富会逐渐抢掉中心人物的视觉焦点。因此在每一次修改画幅比例与关键词的时候,需要多加注意对视觉元素的控制。

test case no.8:自定义 Zoomout 构建情绪与故事

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:

step 1、生成一个情绪和神情符合目标的初始人物;

step 2、改写 prompt 同时添加「马」关键词,以 2 的 Zoomout 比例和 3:4 的画幅比例重构画面,生成后续画面的基础,此时需要注意人物与马的位置关系,否则后续生成的画面会非常扭曲怪异;

step 3、以 1.05 的 Zoomout 比例和 2:1 的画幅比例重构画面,生成完整的马匹造型与部份环境信息;

step 4、对比改写 prompt 产生的变化,黑发组不改描述词,以 1.1 的 Zoomout 比例和 3:4 的画幅比例重构画面;白发组添加「巨大镜子」关键词,以 1.6 的 Zoomout 比例和 3:4 的画幅比例重构画面。

输出成果:通过控制 Zoomout 的幅度、画幅比例和 prompt 的调整,可以生成指定场景的画面,且人物的神态到位、情绪饱满,整体画面焦点清晰。但美中不足是,构图不够自由。

test case no.9:通过焦点变化构建故事的场景

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:

step 1、生成一个在河岸上的粽子;

step 2、修改 prompt 为「熊宝宝正准备吃粽子」,以 2 的 Zoomout 比例和 3:4 的画幅比例重构画面;

step 3、修改 prompt 为「小熊一家在野餐」,以 1.2 的 Zoomout 比例和 4:3 的画幅比例重构画面。

输出成果:通过对 prompt 的修改,控制 Zoomout 的幅度、画幅比例,可以改变画面中的焦点和表达主题,适合不同文化元素之间的混搭。

test case no.10:通过镜头变化,构建故事的起承转合

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:

step 1、生成一幅鲜花山谷的画面,人物要明显;

step 2、修改 prompt 为「一面巨大的镜子在草地上」,以 2 的 Zoomout 比例和 3:4 的画幅比例重构画面,此处竖构图是为了生成较高的全身落地镜;

step 3、修改 prompt 为「少女站在镜子前」,以 1.5 的 Zoomout 比例和 3:2 的画幅比例重构画面,改为横构图是为了囊括少女全身以及环境信息。

输出成果:通过改变画面中的焦点和增加元素,在镜头逐渐拉远的过程中,故事缓缓托出。

➡阅读更多 AIGC 相关内容


我的整体感受是:

通过 Midjourney V5.2 的 Zoomout 无限拓展,一次次修改画幅比例、提示词内容,可以用镜头语言的变化来讲故事了,也可以基于一些初始的「点子」延展成有意思的融合作品。但越是这样,越发显得对话式、指令式的交互界面( SD 那种也不算图形交互 )的局限太大了,我很希望今年之内能发展出图形交互界面。

没错,今年 AI 的爆发指向了一个新的趋势:对话式交互界面。但人类之所以发明绘画,开始通过设计图来制作各式各样的新工具,恰恰就是因为语言本身的效率太低。这个逻辑其实也可以从媒体形态上找到端倪:文字–> 图像–> 视频。仅仅依靠对话,我们无法构建出一个一把剪刀;仅仅通过语言表达的播客,也无法传达任何需要视觉才可以精准理解的信息。对话指令的交互界面与图形交互界面之间的关系,并非只是 dos 和 windows 之间的差异,更重要的点在于,后者可以更直观地完成交互,以及精准地进行创作行为。AIGC 的重点不仅仅只是 AI,而是我们如何使用 AI 进行「Generative Content」。

我说一句话,AI 给我一个东西,这不是创作。

创作是一个生命在主观意志的驱使下,刻意的、有目的地表达其心中所想。

因为 GPT 的爆发而说对话式交互是未来,这样的断言是过于冲动的。只要是一个严肃的创作者,就会立刻意识到,真正的创作一定需要多纬度的交互界面。这其中不仅仅包含对话指令,同样更需要图形界面以及在数字虚拟空间中的三维交互。AIGC 工具与 PS、表格、PPT、思维导图等已有工具的结合,就是这类多维交互的雏形。

那一刻,我们不会等太久。

➡阅读更多 AIGC 相关内容

描觀念 繪感受|超微型 AI 觀念畫展

By: Steven
4 June 2023 at 00:23

前言:

*為了減緩閱覽速度,充分感受和理解,因此採用繁體中文。

最近的工作狀態和社會新聞,讓我感覺到非常疲憊。一次次的憤怒和失望,和一次次的徒勞無功,身在漩渦當中無法抽身,只能通過一點點表達來疏解。三幅畫都是用 Midjourney 來繪制的,但 prompt 無法直接描述所要表達的觀念和感受,因此得用視覺化的語言來向 AI 描述想呈現的畫面。

這組圖,可以當作是一次超微型的 AI 觀念畫展。

*每張圖都可以通過「點擊放大」獲得完整尺寸的高清版本。

第一部分:《異類》
[ 点此可下载:经 AI 放大处理后的超高清图像 11.3MB ]

我們是怎麼看待「他者」的呢?

在公共輿論場中,尤其是此時此刻的中文網絡輿論環境當中,我們是看不到任何「人」的。一個個觀點匯聚了大量的「賬號」,牠們沒有個性、閱歷、身份,只要有一塊肉掉在地上,就會瞬間蜂擁而至,吃個乾淨。但我們很難說,「我們」不是「牠們」。因為在「我們」眼中的「牠們」,恐怕與「牠們」眼中的「我們」並沒有什麼本質的區別。

我們都是對方眼裡的「他者」。

人與人之間的觀念差異之大,如克蘇魯眷屬與地球人之間一般,亦如人類和腳下的螞蟻,並無關好壞,而是徹底的「異化」和「無所謂」。在各自的眼中,對方只是一群穿著人類服裝的「蟲子」,是與我們不在同一個世界裡的「異類」,是「偽裝」成「我們」的臥底、特工和間諜。總之,「他者」都不是「人」,「他者」就意味著「異類」,是被異化的不同於自身的存在,是被敵視的「蟲子」。

信任體系崩潰,人就不是人。

第二部分:《共鳴》
[ 点此可下载:经 AI 放大处理后的超高清图像 11.4MB ]

所以群體不再重要,也無法重要,因為在破碎的環境中無法建立起大面積的信任。我之所以不信任 DAO 這種組織形式,並非老頑固或者害怕前進,恰恰相反,作為一個向來積極主動擁抱新技術的人,我無法對人類持有這樣樂觀的想法。人與人之間的「心之壁」是與生俱來的系統限制。因為語言本身並不是一種優秀的系統,它是抽象和概括的。每一次「對話」都需要經歷至少四次「轉譯」:

來自 A 對世界的體會和理解的語言化,A 向 B 表達時將語言化的觀念輸出成的語言,來自 B 對世界的體會和理解的語言化,B 用自己語言化體系所理解的 A 的語言。

這種信息傳遞效率如此之低,因此需要大面積和海量的交流把「同類」們連接起來。

但互聯網放大了「同類」這個概念的同時,縮小了「個體」的存在感。並不是被網絡連接的人數多了,可以公開表達觀點的人多了,就等於「個體」被彰顯。因為這些「個體」並沒有作為「獨立個人」存在,牠們依然依附於各種「觀點」和「趨勢」之中,牠們的聲音也不代表著一個活著的人類的思想,而是一股潮流和陣痛當中的一次次伴隨。無論是網絡語言暴力,還是人人都掛在腦門上的 MBTI 性格分類標籤,都只是把「個體」隱藏在事件背後的一種障眼法。

人腦會本能地「簡化」信息,以降低能耗比。這是生存策略,也是系統的短板。一個人要與另一個人產生情理上的連接,不僅需要花時間,還需要有耐心去解開雙方轉譯過程中的一次次「雞同鴨講」,必須兩個人同時站在對方的位置上去理解對方的語言,才能達成共鳴。他們必須用最複雜的方式,走通這條最短的路。

因此,共鳴只存在兩個個體之間。

我不信任 DAO 的最主要原因,就是不相信這種「共識」可以不被「簡化」和「異化」地傳遞到每一個參與者當中。只要這一點無法在技術層面上落實,那麼任何一種觀念或者 DAO 都與舊世界無異。

第三部分:《武陵》
[ 点此可下载:经 AI 放大处理后的超高清图像 24.1MB ]

但如果可以通過限制准入標準的方式,把「個體」簡化或者降維成不容易產生差異的「標準型號」呢?

這源於我對《桃花源記》的一種怪異解讀:

武陵漁人所去到的「桃花源」並非一個地區,而是一顆巨大的桃樹。他所穿過的「山」只是巨大桃樹根部的一處彎曲,那個彷彿若有光的「洞」,不過是盤根錯節的樹根中間的一處縫隙。之所以目之所及的地方都是落英繽紛,中無雜樹,是因為他此時身處桃樹之中。他在遇到和穿過桃樹根的時候,就被縮小成了螞蟻大小的微縮小人兒了。因為長期處於這樣的螞蟻社會中,當中的人們自然也就成了「小國寡民」的狀態,行為和思想也因此被簡化,成了雞犬相聞、夜不閉戶的簡單狀態。

南陽劉子驥尋不著這個地方,不是他找不到,是因為他沒有經過樹根那一輪「降維標準化」。身為一名「高尚士」,他應該是一個見識、思想異於常人的「個體」,怎麼可能輕易被「簡化」呢?他與桃花源的協議不兼容,自然是無法進入和連接了。

理想模型之所以是理想,就是因為理想實驗環境往往就意味著屏蔽了諸多複雜的干擾因素,簡化了條件。

這樣好麼?我並不這麼認為。

複雜性是人性的基礎,放棄了人性的豐富與複雜,化身成桃花源中的白衣男女,無怨無恨,亦如死人一般。因此常有把桃花源解做「誤入墳塋」的故事版本,這並非沒有道理。我們在排練《暗戀桃花源》的時候,也曾反覆思考過,為什麼其中的白衣男女與世俗社會中的老陶、袁老闆、春花如此不同?陶袁花的故事可笑,但白衣男女也可笑,他們並沒有什麼差別。有沒有煩惱,都很可笑。

可笑是矛盾的表現,也是價值所在。

如果消解矛盾和分歧的方式是所有人都歸於 LCL 之海,那麼當我中有你、你中有我,我們彼此不分的時候,所謂的「我」還有什麼存在的意義呢?如果一切都要歸於熵,那所有的分歧和衝突對立,也只是笑話。

唯一可做的,也只有減緩自己的熵增。


後記:

為了創作出對應於「觀念」和「感受」的畫面,我花了很多時間在 prompt 的調整上,因為用語言生成畫面這件事,本身就充滿了對語言的誤讀和轉譯,而 AI 基於概率的運行方式,也增加了難度。因此,把腦海裡的觀念和情緒先通過語言表達出來,變成一種對某一類具體畫面的描述後,才能在一次次的 /imagine 中找到更合適的語言和畫面。

這種創作體驗很奇特。

過往的繪畫訓練或寫作表達,手頭功夫的訓練是至關重要的。但使用 AI 畫畫來表達觀念,會因為表達這個目標倒逼我把觀念拆解成更為細緻的狀態,不止是邏輯的細化,更需要把細化的觀念給圖像化,用視覺語言來描述它。

同樣是昆蟲人,面容的風格、眼神的選擇、肌理所呈現的氛圍、服裝的細節,都會影響表達的效果。選錯了表達方式,很容易就會得到一個一眼看上去就遭人討厭的怪物,或者因為太像人而失去了異化的感受。那樣就和我想表達的意思,背道而馳了。

*部分被放棄的方案

關於共鳴那部分,應該是我做了最久的。

因為「共鳴」太抽象了,怎樣的人物狀態、神情和與環境的關係,都試了很多種畫面邏輯。從山上到海裡,從逆光的傍晚到深夜的月光,從全身像面對面站立到半身和面部的特寫,面孔的表達又在歐美人、亞洲人、東西混血中嘗試了一些,畫面色調和畫風也會有很直觀的影響。這麼「簡單」的畫面,想要找到那個比較精準的感覺和情緒,也花了兩天,才從約 300 個方案中找到最恰到好處的那一個。

*部分被放棄的方案

網上有很多用 Stable Diffusion 畫美女和裸女的,說實話,好看的那些確實顯得很「精緻」,哪怕是色情畫面也精緻得嘆為觀止。但這就和攝影術發明之初類似,攝影像油畫是沒有任何意思的,它應該有它的新的用法和創作思路。對我來說,AI 繪畫的最底線應該是輔助我把腦海的觀念傳遞出來,而不是畫很多精緻得像量產網紅一樣的裸女畫。

我並不是反對量產的 AI 裸女畫,只是想從創作的思路去看待:當刺激感官衝動成為 AI 可以輕而易舉做到的事情之時,更複雜和更深入的連接才是人類創作者應該去嘗試的領域。

這確實不容易,但 AI 讓這件事方便了很多。

借行业科普聊了一次 AI 与设计师的关系

By: Steven
5 April 2023 at 14:53

上个月去上海之前,@取景框看世界 在微信上邀请我一起做一期关于设计行业的科普视频,面向学生群体做一次对行业整体状况的分享。这次是 B站 向他发起的约稿,也是他频道的主要内容类型之一。答应他后,从上海回来我就根据自己这么些年的体会和反思,录了一期比较掏心窝的内容。由于参与的人比较多,直到前天,节目才终于上线。

🎥 点击图片跳转到播放页面

因为参与的人数比较多,我说的话也比较多,所以在汇总的成片里需要剪掉一些。但我又觉得难得录一期视频(从去年11月到现在都没有更过视频了),为了保证表达的完整性,我还是得有一个自己的版本。但因为实在忙得顾不过来,于是麻烦 @小雨 帮我把这条视频剪了出来。

毕竟是 @怪物尚志 的御用摄影/后期,有他的帮忙,我的视频里头一回多了许多配合文案的动画,比我一个人在镜头前单口相声好看多了。这一期花絮,也在昨天发了出来,跟正片错开一天。

🎥 点击封面跳转到播放页面

这期视频的封面是我昨晚用 midjourney 画的。

在这条视频里,除了科普工业设计的一些基本概念和行业现状,我也特别聊了一下 AIGC 和设计师之间的关系。前两个月虽然一直很忙,但我也一直在关注 AIGC 的动向。这两个月的变化实在是过于惊人了!

以下是我去年八九月用 midjourney 画的一些东西:

然而在这短短半年内,版本已经从当时的 v3 发展到了现在的 v5。ChatGPT 也从 GPT-3 发展到了 GPT-4,坊间传言 GPT-5 的研发已经完成且爬完了全网所有视频,可以直指某一条视频中的某一段话,只是还没发布。可以说开年后的这两个月内,AIGC 的发展速度已经大大超乎了预料,甚至正处于失控的边缘,它们正在开始颠覆一些东西。将来会发生什么,无法预料,但一定有什么事情已经在发生了。

所以我觉得,无论如何,再忙也得重新用起来。光是跟进各种新闻和消息是不行的,midjourney 前两天刚发布了由图片转译成 prompt 的新功能,多模态的 AI 已经不远了,这会更进一步推动人和 AI 之间的交互。我觉得,自己还是得保持使用状态才行。所以前两天我又重新充了值,开始体验它的新版本。

我先试着画了一些机甲的东西,例如这样的:

上面的两张的用 prompt 直接生成的,但下面的两张,是用 /remix 命令修改了部分描述词后的新图。可以看到下面的图和上面的图保持了相关性,于是我想试试,如果用这个命令替换背景会是什么效果,于是有了这组车的图:

上面的两张图是用 prompt 直接生成的,当我用 /remix 替换了背景描述的 prompt 之后,就生成了下面的两张。更换环境之后,车辆的姿态和镜头视角几乎没有变化,车身的反光与环境之间的关系也很自然,这个效果已经可以说非常惊人了!

然后,我随便画了一些白色的机器人站在燃烧废墟上的场景:

用 /remix 替换了机器人配色部分的描述词后,生成了下面这样的图:

对 /remix 有了基本的体感之后,我开始尝试用 /blend 命令来做一些融合的实验。

首先,我随便描述了一个赛博少女,得到一些随机的图:

接着,我再随便生成一个红发少女:

材料准备好之后,开始把它们进行组合。

第一次先尝试融合两张图,一个是游戏画风的机甲人,一个是二次元的赛博少女。

它们俩合成后,得到了以下这个人物:

新角色具备其中一张图里人物的长相特征与体态,也有另一张图的配色和机甲特点。虽然得到的结果具有随机性,但既然可以这样融合,那么应该也可以通过 /blend 命令来得到一些更有目的性的创作。

有了第一次的体验后,第二次我用三张图片进行合成:

图一是现画的半透明金属机器人,图二是上面准备好的红发少女,图三是现画的骑士。

这三个合成出来的新角色,同时具备了细碎的金色细节、波浪红发、银白色盔甲:

但这不是我想要的,我想试试加大红发少女的比例。在垫图的方式下,可以通过 –iw 命令来分配各个图片之间的权重占比,但是在 /blend 中不能这么操作。于是,我想通过把合成的新图作为素材,再一次与红发少女进行融合,并加入机甲的元素来强化她身上盔甲的质感。

二次合成使用的图,如下:

合成出来的新角色我非常满意!

她既有红发少女面部和眼神的特征,又把两副银白外甲融合得非常优雅,也保留了初始半透明金属机器人遗传下来的金色金属关节的特征,又做出了图三机甲的坚硬感和图一外甲的银白光泽。这一次的融合很成功。

但如果 /remix 可以局部替换特征,那么这些没有写 prompt 而是通过 /blend 直接合成的图,能否通过 /remix 加入新的 prompt 来修改已有的特征呢?

为了让实验效果明显一些,我想让盔甲的白色部分比例缩小,增加金属部分的比例,于是就先把这批图重新刷了几遍,直到出现肩甲是金色的变异版本:

然后不断在此基础上进一步变异,强化金色肩甲的特征:

所有图片均可以点击放大下载原图

准备好之后,我在 /remix 中添加新的 prompt:pink armor

以下是修改特征后的结果:

所有图片均可以点击放大下载原图

整体的效果我还是挺满意的。一来,新生成的人物很好地保持了最初红发少女的眼神和神态;二来,金色金属被替换成粉色金属后,金属质感的表达是正确的。虽然头发也一起变成了粉色,这确实是没完全理解指令,但原有的发色搭配新的粉色盔甲也确实不是很和谐。

到此,重新开始用 AIGC 工具的热身完毕,找回一些感觉了。

至于这期视频封面里用到的车图,是我昨晚用 Maserati 和 Ferrari 以及 Apple 和 Tesla 分别杂糅出来的缝合怪。虽然乍一看好像没什么新奇的,但是如果我把去年八月底用 midjourney 画的汽车拿出来对比,就会意识到这是多么疯狂的进化速度了:

上面三个是去年八月用 v3 画的车;

下面这些是昨晚用 v5 画的车:

所有图片均可以点击放大下载原图
视频封面使用的图片
所有图片均可以点击放大下载原图

虽然工业设计有大量的细化和落地工作是 AI 无法干的,但从目前来看,无论是 midjourney 还是 Stable Diffusion + controlNET 都已经可以很好地帮助设计师完成概念发散和快速枚举了。这样的图像质量,通过垫图、remix 和 blend 的组合使用,完全可以在创意初期快速拉出一批高质量的「草图」,设计师可以把更多的精力放在对方案思路的推敲、对细节的考据以及各个环节的沟通协调上。

从今年二三月开始到往后的十一二年,人类社会将迎来一场以破坏为开端的变革和创新。

无论我们是否愿意,都将一起进入新的世界。

AI 会促使设计师成为更完整的人

By: Steven
28 March 2023 at 00:32

最近关于 AIGC 的关注度太高了,自己也时不时会抽空去了解一些情况,或者尝试去用一些工具。很多关于 AI 要替代人的观点大行其道,也一直有不少 AI 要让设计师失业的看法在坊间流传。但我自己的感受和看法是:

在 Midjourney、Stable Diffusion、ChatGPT 这些 AI 工具出现后,「手头功夫」并没有因此丧失意义,它们只是不再具备作为门槛的价值,但依旧是重要的前提。因为「手头功夫」是培养我们发掘问题、判断优劣和快速取舍的重要训练,缺少这部分锻炼,会让人在这一系列 AI 工具面前感到无力。准确地识别问题并提出诉求,这是未来教育的重中之重,也会反过来强调人的价值。

正好,前段时间后浪送了我一本书,是前微软包容性设计的首席总监 Kat Holmes 写的《误配》。一边看这本书,我就一边在结合自己的工作和最近关于 AIGC 的思考,我觉得这本书里提倡的理念,正好回应了当下的舆论思潮。

大部分谈论设计的书,都在试图通过图形和案例来构建一类理论和范式。但在这个 AIGC 日进八万步的新时代里,设计师要以什么身份来参与?我认为所有的既定范式,都会在三到五年之内被全部击碎。串联、融汇、杂交才是新世界的主流,创作者的身份将愈加模糊,甲乙方的界限也会逐渐消失或扭转。怎么回应这样的快速变化?我觉得《误配》这本首版于五年前的「旧书」,提出了很适合当下思考的母题:

设计行为、设计师、设计对象以及新技术之间,如何在智能化浪潮里,互相包容和一起进化?

这本书没有给出直接的答案,但对于有三年以上工作经验的设计师而言,带着经验、问题和困难去阅读,会有启发和收获。「物」的旧体系正在溃散,「系统」和「生态」将是历史的新主角。旧时代的残党,可以下船了。

昨天在各个社交媒体上发了一下自己的读书感受,因为被后浪的微博官号转发了,于是被这本书的译者何盈女士注意到。正巧我的朋友宋喆在刷朋友圈时看到她的这条寻人启事,就这么阴差阳错地跟她直接联系上了。

这种「地球村」的感觉很妙!

这更坚定了我今年一定要 重新启动设计纪录片 的决心了!

你的投票会让 Midjourney 更懂你

By: Steven
13 June 2024 at 14:22

Midjourney 今早更新了测试版 Personalization (–p) 的新功能,通过你在 Ranking 中投票的选择来提供个性化的输出。

我用之前的 prompt 测试了一下:

第一张图是之前制作的,后面三张是用同样的 prompt 加上 –p 之后出的图。

对比之下可以看到,个人喜好对风格的影响非常明显。

但是这个功能还在处于测试阶段,局部修整的功能还无法使用。

整合利用 11 款 AI 工具,打造高效率个人专属工作流程

By: Anonymous
7 June 2024 at 15:24

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

众多的 AI 工具让人眼花缭乱,根据不同需求有不同的工具选择,要如何针对自己的工作流程,选择适合自己的 AI 工具呢?有时候最困难的是不要在一大堆工具里迷失,才能建立刚刚好适合自己的 AI 工具组合。

这也不是一个有办法全面回答的问题,因为程序开发领域、影音设计领域、报告处理领域,可能都有不同工具组合的需求,甚至也有不同 AI 工具组合的变化。

所以,这里只能属于自己的 AI 工具流程,应用在我日常的工作流程,以及自媒体与博客写作流程中,下面是我的工具组合,以及如何搭配在工作流程中,提供大家参考。

工具流程没有标准答案,欢迎大家在留言分享你的选择与组合。

想要快速掌握我常用的 11 个 AI 工具的朋友,可以直接参考下面的表格,并通过工具名称的链接,进入到相关的工具的介绍文章。

我如何搭配这些工具,进入我真实的工作流程中呢?下面这张流程图,可以展示出目前我的工作流程。

如果你说,为什么没有 AI 视频编辑工具?没有 AI 源码工具?没有更进阶的 AI 图像编辑工具?很简单,因为这就是我目前需要的真实工作流程,每一个人需要的工具会有不同处,也欢迎分享你的工作流程与工具。

但工作流程的逻辑可以套用在不同的工作需求上。

以上就是我目前利用这些工具的工作流程,提供大家参考,也欢迎分享你的工作流程,大家互相参照。

[事实核查] 图片反向搜索核查工具汇总,检测 AI 生成图像的真实性实战指南

By: Anonymous
12 May 2024 at 14:30

DUN.IM BLOG

DUN.IM BLOG

在中文社交上,单纯以文字形式流传的虚假信息从比例上越来越少,以图片、截图形式流传的可疑信息则越来越多。

究其原因,一是「有图有真相」的观念深入人心,网络传言往往会附上图片来增加内容的可信度;二是图片形式更容易在群、朋友圈、微博等社交网络平台传播。

结果,有很多图片被抽离原有的背景和时间线流传,让受众对于该图片产生完全不同的认识和理解。还有的图片被软件加工篡改,完全改变了原有的意义。

因此,使用图片反向搜索(Reverse Image Search)工具,追溯图片的来源,在此基础上检查图片是否被修改或者挪用,是事实核查员最常处理的工作。

目前比较常用的图片反向搜索工具有谷歌、Yandex、Bing、TinEye、百度等,其中以前四个最为常用,各有优势和特点。

谷歌适合大多数基本的反向图像搜索,包括识别照片中的知名人物、查找已在网上大量共享的图像的来源、确定一件艺术品的名称和创作者等等。

使用方法:

1.在电脑上保存要核查的图片,或者复制该图片的网址

2.前往 Google 图片页面(https://images.google.com

3.点击搜索框的相机图标

4.可以选择直接上传图片、拖拽图片或粘贴图片的链接

比如核查以下图片(LIBKOS/AP):

在搜索结果中,可以看到页面右侧「图片匹配结果」中有两张完全一致的图片,点击图片即可找到这张图片的详细说明,包括时间、地点和拍摄者。

点击「查找图片来源」的选项,可以查看所有包含此图片的网页,从中选择可靠的信源,找到图片的详细说明:

还可以点击搜索框的「工具」按钮,进一步收窄搜索结果的范围,可以选择「按图片搜索」、「外观相似」或「更多尺寸」。

「工具」还有「时间」选项,可以选择从「过去 1 小时内」到「过去 1 年内」不同的时间范围,也可以自定义范围。通过这种设置,可以更容易找到图片初次发布的网页。

如果希望进一步搜索图片的局部,谷歌提供了裁剪工具,图片的四个圆角是可以移动的,用来调整搜图的范围,页面右侧会实时展示对裁剪后的画面进行图片搜素的结果。

对核查员来说,有时要核查的图片画面非常复杂,但有效信息只有其中的一部分,这时候裁剪功能就非常有用。

如果使用谷歌 Chrome 浏览器,可以直接在需要核查的图片上点击右键,选择「使用 Google 搜索图片」,搜索结果会在页面右侧显示。

也可以在页面空白处点击右键,选择「使用 Google 搜索图片」,页面会出现「选择要搜索的图片区域」的提示和截图用的图标,可以任意选择要搜索的图片区域,有关该区域的图片搜索结果会出现在页面右侧。

识别图片中的文字信息

在谷歌图片的搜索结果页中,点击「文字」按钮,谷歌可以识别图片上的文字信息,并且将其转换成可复制的文本。

这一功能非常实用,核查带有标语、路牌等元素的图片时,可以快速提取其中的文字,然后检索,以可能的线索。尤其是有关文字元素为俄语、阿拉伯语、韩语等语种时,核查员不必担心电脑输入法问题。

比如,查证一张带有俄语的图片(Alexander Ermochenko/Reuters):

在搜索结果中点击「文字」按钮,光标可以在图片上点击并拖动选择任意文字,也可以选择「选择所有文字」,这是页面右侧已经出现了标语上的文本,这时可以有 4 个选项:「复制文字」、「聆听」、「翻译」和「搜索」,可直接进行下一步的操作。选择「翻译」可知,这是俄罗斯在一个名为苏多普拉托夫的地点的征兵广告。

翻译图片中的文字信息

点击「翻译」按钮,谷歌可以直接在图片上将外语文字翻译成中文,可以大致明白图片上外语文字的意思,但受到识别度的限制,并不完整和准确,仅可提供快速的参考。

比如查证这张带有法语的图片(AFP):

在搜索结果中点击「翻译」,可大致知道这次示威的主题是关于养老金改革。

谷歌 lens 的特点是试图识别图像的主题,而非图像本身。不利的一面是,许多匹配项都侧重于图像中的主题。因此,如果图像搜索的主题不太清楚,可能不会获得高质量的结果。

比如搜索这张乌克兰总统泽连斯基的图片(EPA/UKRAINIAN PRESIDENTIAL PRESS SERVICE – HANDOUT):

返回的大部分却是与战术背心有关的结果:

「关于此图像」功能

2023 年 5 月 10 日,谷歌在 I/O 2023 开发者大会上宣布,将在接下来的几个月里添加一种新方法来帮助用户评估图像来源。

通过在搜索中的「About this Image」工具,用户将能够看到重要的背景信息,例如:

该图片和类似图片是什么时候首次被谷歌索引的,

这张图片可能首次出现的地方,

这张图片还出现在了网上的什么地方(例如新闻、社交或事实核查网站)

用户可以有三种方式来使用这一功能:点击 Google 图片搜索结果中的图片上的三个点;在 Google Lens 中使用图片或屏幕截图进行反向搜索;在使用 Google 的移动时,如果在一个页面上遇到想了解更多信息的图片,可以向上滑动。

按照谷歌的计划,2023 年晚些时候,用户还可以在桌面和移动端的 Chrome 浏览器中通过右键点击或长按图片来使用这一功能。

该功能将首先在美国以英语提供。

Yandex是一个俄罗斯的搜索引擎,检索有关俄罗斯、东欧、中亚等地区的内容时特别有优势,因此在俄乌战争期间很有价值。

使用方法:

1.在电脑上保存要核查的图片,或者复制该图片的网址

2.前往 Yandex 图片搜索页面(https://yandex.com/images/

3.点击搜索框的相机图标

4.可以选择直接上传图片、拖拽图片或粘贴图片的链接

5.单击搜索选项以在 Yandex 上查找相关图片。Yandex 将返回具有完全匹配或视觉相似图像的结果,包括使用这些图像的网页列表。

比如,2022 年 3 月 20 日,有微博用户称:「波兰铁路工人中断了与乌克兰的铁路连接,使装有英美武器的火车无法前往乌克兰。」有关博文还附有一张模糊的铁路照片,画面中有两列列车,但是没有显示地点的明显标记。(参考阅读:波兰铁路工人中断与乌克兰铁路连接?

在 Yandex 上反搜这张图片,可以找到大量的匹配结果:

在谷歌上反搜,首先出现的是一大批相似图片:

下拉数页后才能发现匹配的图像:

2023 年 4 月,中文网络流传一段视频,称「歌手席琳·迪翁参加她儿子的婚礼,因为罕见的僵硬人综合症已无法自己站立,看到的画面让人感伤」。

截取视频画面分别在谷歌、Yandex 和 TinEye 上反搜,可以发现,只有 Yandex 返回了包括大量相似图片的搜索结果,并且其中包含有意义的线索。

Yandex 还可以在搜索结果中显示其找到的核查图片的不同尺寸,如果核查的原图比较模糊,此时可以点击并保存更大尺寸的图片,然后继续反搜大尺寸的图片,一般而言可能更接近于找到图片的源头。

同样,Yandex 也具有识别图片中的文字,裁剪图片等与谷歌类似的功能。

案例 1:

2022 年 2 月,俄罗斯进攻乌克兰之前,中文网络广泛流传一张据称是乌克兰少女拿枪乘坐公交车的图片。

图片中,这位女孩头戴米色编织毛线帽,身穿带圆形拉链的黑色高领羽绒服,左手涂蓝色指甲油,右手涂红色指甲油。图片中没有明确可以提示时间、地点的元素。

有关图片被指拍摄于乌克兰,在俄罗斯和俄语区广泛使用的搜索引擎 Yandex 上反搜图片,可以发现该图片自 2020 年起就在俄罗斯社交网络 VK 上广泛流传。

在 VK 上进一步检索,可以发现能够找到的最早版本发布于 2020 年 3 月 27 日,发布者名为「寻找新西伯利亚的你」。从其主页内容看,这是一个寻人账号,slogan 是「连接命运」。账号介绍称:如果你在某个地方看到一个人,但由于某种原因无法接近和认识,那么你可以通过描述你的故事来尝试找到 Ta。

这张照片由名为 Karpov Sasha 的用户拍摄,配文是:「我一路坐在她旁边,我非常喜欢她,但很害怕打招呼。我在寻找你,美女。」

在帖子下方的评论中,一位名为 Ekaterina Gladkikh 的用户称,她就是照片中的女子。

她还在自己的 VK 页面上转发了这个帖子。

根据 Ekaterina Gladkikh 的 Instagram 账号,她是俄罗斯人,目前在新西伯利亚生活,是一位网红。

检索 Gladkikh 的 Instagram 账号,可以发现她在 2020 年 3 月 10 日发布的视频中,左手涂有红色指甲油、右手涂有蓝色指甲油,与网上流传的照片特征一致。

在 Gladkikh 于 2020 年 4 月 8 日发布的照片中,可以看到她穿戴着与网络流传照片中同款的毛线帽、黑色羽绒服,右手也涂有蓝色指甲油。

(参考阅读:乌克兰少女带枪坐公交?

案例 2:

2022 年 5 月,短视频平台抖音出现一批内容几乎一模一样的视频,文案是:「没有国哪有家,俄罗斯进入最困难时期,民众排队存钱救国!」

视频画面多是俄罗斯人在银行、ATM 取款机等处排长队的场景。

核查的关键之处在于找到每张图片的来源。

比如这张图片,使用谷歌和 Bing 都没有找到理想的结果:

使用俄罗斯搜索引擎 Yandex,裁剪截图的文字部分,可以找到一张同类结果:

点开网页发现,使用这张图片的文章发布于 2014 年 12 月 17 日,虽然可以断定此图与 2022 年俄乌局势无关,但是网页没有提供有关这张图片的详细信息,如图片说明、出处等。

不过,与最初的视频截图相比,这个网页上的照片尺寸较大,也更清晰,我们可以把这张大尺寸照片保存下来在 Yandex 上反搜,可以在第二个搜索结果中发现 Getty 图片社的网站包含了这张图片。

点击搜索结果中的 Getty 网站,可以发现该图片由彭博社记者安德烈·鲁达科夫(Andrey Rudakov)拍摄于 2014 年 12 月 17 日,图片说明是:俄罗斯圣彼得堡的一家 M-Video 商店内,顾客排队购买电子物品。在该国自 1998 年以来最严重的货币危机中,人们担心价格会进一步上涨而抢购消费品。

由此这张图片的身世就完全搞清楚了。(参考阅读:俄罗斯全民排队存钱救国?

Bing 是微软旗下的搜索引擎。在首页(bing.com)的搜索框旁边即有图像搜索的图标,可以直接进行反向图片搜索,而不必像谷歌和 Yandex 那样进入二级页面。

使用Bing 图片搜索时,可以将一张或多张图片拖到搜索框中、粘贴图像或 URL、从电脑上传图像,还可以用设备拍照——然后 Bing 将在网络上搜索匹配的图像。

Bing 也具有和谷歌、Yandex 类似的图片裁剪功能,在搜索结果页面点击「视觉搜索」按钮,可以裁剪照片的不同区域并查看实时搜索结果,这对于查找那些具有多个可识别主题的图像来说会非常有用。

Bing 另一特点是在搜索结果页,选择「具有此图像的页面」后,可以选择以「最新」或「最久」来对搜索结果进行排列。此功能与 TinEye 的按时间排序类似。

此外,与谷歌相比,Bing 会尝试识别照片中的不同元素,然后查找包含所有这些元素的图像。

比如,一张停在树旁的古董车的图片会触发包含一棵树和一辆古董车的相关匹配,而谷歌在这种情况下会选择其中一个更强烈的主题并寻找匹配。

TinEye创办于 2008 年,总部位于加拿大多伦多。TinEye 的最大优势是可以对搜索结果进行时间排序。

TinEye 使用图像识别技术来搜索图像,而不是关键字、元数据或水印。当用户提交要搜索的图像时,TinEye 会使用图像识别为其创建一个独特且紧凑的数字签名(「指纹」),然后将此指纹与其索引中的所有其他图像进行比较以查找匹配项。TinEye 会不断爬取网络并将图像添加到其索引库中。

使用方法:

通过单击上传(upload)按钮从电脑上传图像,也可以用拖曳方式把图片拖入搜索框。如果按 URL 搜索,可以把图像的 URL 地址复制并粘贴到搜索框中。

使用 TinEye 搜索图像时,可以通过几种不同的方式对这些结果进行排序和过滤:

最佳匹配(best match):首先显示视觉上最接近被搜索图像的图像。这也是默认的排序选项。

改动最大(most changed):首先显示对搜索图像改动最大的图像(经过大量编辑的图像)。

最大图像(biggest image):首先显示最高分辨率的图像。

最新的图像(newest):首先显示 TinEye 最新发现的图像。

最早的图像(oldest):首先显示 TinEye 最早发现的图像。

能够对搜索结果按照时间排序,是 TinEye 相比其他图片反搜工具的最大优势。对事实核查员来说,这一功能更容易破解挪用旧图片的传言,足以证明那些被形容为新闻的图片实际上已经有数月甚至数年之久。

以下图为例,2022 年 2 月 26 日,俄罗斯对乌克兰开战 2 天后,微信群流传一张据称是战场的新闻照片,两名儿童面对飘扬着乌克兰国旗的装甲车队敬礼,远处硝烟弥漫。

在 TinEye 上输入照片,排序选择 sort by oldest,可以发现出现在 TinEye 搜索结果第一位的是乌克兰网站 Gordonua 的页面,时间是 2016 年。

点击 Gordonua 的网络链接,可以找到 2016 年 3 月 23 日的一张图片与要核查的图片相同。

图片说明称,这是乌克兰国防部在其 Facebook 页面上发布的「战争之子」系列照片中的一张。

因此可以判定,这张图片至少拍摄于 2016 年,与 2022 年的俄乌战争无关。(参考阅读:乌克兰儿童向乌军车队敬礼?

可以在 TinEye 上搜索哪些类型的图像?

文件类型:TinEye 接受各种格式,包括但不限于 JPEG、PNG、GIF、BMP、TIFF 和 WebP 图像。

图像尺寸:最适合使用至少为 300 像素的图像,但也可以接受低至 100 像素的图像。

文件大小:最大为 20M。

为了获得最佳搜索效果,应尽量避免使用有明显水印的图像,因为 TinEye 可能会搜索水印而不是图像本身。

TinEye 的搜索结果会以域名分类,显示包含相关图片的网站;如果想知道搜索图片的版本是否出现在一个特定的网站上,可以在「按域名/集合过滤」(filter by domain/collection)的输入框里输入该网站的网址。TinEye 也会自动设置一些域名分类,主要包括主要的社交媒体平台和媒体,如 Twitter、Reddit、AFP 等。

如果搜索的图片属于图库里含有的图片,会标记为 stock;如果隶属于某一个系列的图片,则会标记为 collection。当 TinEye 确定一个网站已经无法访问时,会默认隐藏该网站的搜索结果。但如果用户对这些匹配结果感兴趣,可以勾选「包括不可用的结果」(include results not available),TinEye 就会显示该网页的存档。

TinEye 还有比较(compare)功能,可以将搜索结果与用于执行搜索的图片进行比较,这在识别裁剪过的、调整过大小的、倾斜过的或 PS 过的图片时非常有用。

但是,有些图像 TinEye 找不到:

大多数社交媒体网站,如 Facebook 和 Instagram,都限制 TinEye 抓取他们的图片。

受密码保护的页面或不可公开访问的页面上的图像。比如,如果要核查的图片最早发布在一个 WhatsApp 群组或微信群里,并且从来没有在网上被分享过,TinEye 就无法找到。

用户个人设备上的个人照片。

一些太小的或简单的图像,可能没有足够的细节让 TinEye 制作「指纹」。

与其他搜索引擎不同,TinEye 只能找到与我们搜索的图像完全匹配的图像(也包括经过裁剪、颜色调整、大小调整、编辑或轻微旋转的图像),但一般来说无法找到相似的图像。

注意:

TinEye 抓取到最旧的图片并不一定是该图片第一次出现在互联网上的日期。因此,TinEye 不能告诉我们一张图片首次出现在互联网上的时间,只能告诉我们 TinEye 首次发现它的时间。

一般而言,核查员在核查图片时会尝试使用多个反搜工具,而最方便的是下载安装 InVID Verification Plugin 插件,该插件集成了多种图片验证功能。

通过 Chrome 或 Firefox 浏览器下载安装插件后,在网页浏览图片时,可以直接右键点击图片,选择 Fake news debunker by InVID by WeVerify,进一步选择 Image Reverse Search-All,即可同时启动谷歌、Yandex、Bing、TinEye 等多种图片反搜工具,并在不同的新窗口展示搜索结果,极大地提高了效率。

另外一种使用方法是进入 InVID 系统。安装 InVID 后,Chrome 浏览器顶部会出现一个启动图标:

点击后选择「打开工具箱」(Open Toolbox)

进入 InVID 界面,选择图片处理(Image),即可看到 6 大功能:

1.图片分析(Image analysis):针对 Twitter 和 Facebook 上的图片,进行详细的数据分析。

输入图片的网址,点击提交,出现有关该图片的信息。

图片 ID、平台、创建时间、图片链接、点赞数、转推数,同时还抓取了推文下面所有的评论并且分类,包括带有链接的回复数。

比如我们分析 SpaceX 的这则推文图片:

2.放大镜(Magnifier):用户可以在图片上使用放大镜功能,以帮助解读和阅读图像中难以看到的细节——比如汽车牌照、飞机侧面的识别号码、徽章、标志、横幅等等。用户可以输入图片的网址,或者使用本地文件按钮(LOAD LOCAL FILE)从本地上传图像。

比如我们可以用放大镜检查这架战斗机涂装上的信息:

然后可以使用图片下方的谷歌、Google Lens、Yandex、Tineye、百度等按钮对图片进行反向搜索,或使用图像取证选项。

该功能还包括图片编辑(点击 EDIT IMAGE),可以对图片进行裁剪、翻转、锐化等。

3.元数据(Metadata):用户可以查看 jpg 和 tiff 格式的图片的 Exif 数据,可以输入图片链接或上传本地图片文件。

Exif (可交换影像档案格式,Exchangeable Image File Format) 档案会储存照片的重要资料,例如设备、曝光值、拍摄时间、地点以及使用的任何设置。每当用户拍摄新的照片时,几乎所有数码相机和智能手机都会建立这些资料档案。

4.取证(Forensic):帮助用户检测图片是否被篡改,比如是否被 Photoshop 软件编辑过。不过,使用者需要极其丰富的图像知识,且结果可能存在误差,所以,一般而言仅能作为参考,而非决定性证据。

5.OCR:可以将图片上的文字内容,智能识别成为可编辑的文本,不过有时无法识别。

6.检查 GIF 图片(CheckGif):可以对比原始图像和被篡改的图像(包括图像被裁剪过的情况),然后生成一个 GIF 并输出,可以更直观地展示篡改行为。不过,该功能目前仅对事实核查员、记者和研究人员开放。

2022 年 7 月 8 日,日本前首相安倍晋三遇刺后,中文网络流传一张照片称,被称为「日本第一女保镖」的石田萌美也在现场,却未能阻止杀手。

石田萌美此前在中文网络被形容为「日本第一女保镖」。她被指曾是安倍晋三最信任的贴身人员之一,因为外型靓丽和身份特殊受到关注。有文章指她是日本顶尖的武功高手,能够在 0.2 秒内拔枪制服袭击者,曾击退 10 名壮汉。

使用图片反搜工具搜索这张照片,可以确定照片本身是真实的,但是因为安倍身边的这位女士戴着口罩,也无其他明显的识别特征,所以依然很难判断她的身份。

这时我们仔细观察这张被指是石田萌美检查安倍伤势的照片,可以发现这位女士外表可供辨认的几大特征:长发束辫,黑色或深蓝色上衣,带有花卉纹样的裙装,低跟皮鞋。

由于安倍遇刺发生在公开场合,且现场媒体众多,因而有利的一面是,有大量现场照片可供检索。在《朝日新闻》网站上的安倍遇刺现场图片集中,我们可以发现大批同一场景的照片,能够较清晰地分辨出这位女士身穿的是一件罩衫,罩衫内是黄色 T 恤。

在美联社转发《读卖新闻》的一张照片中,安倍被送上救护车,救护车旁有一位女士的正面照片,放大后可见其发型、黄色 T 恤和蓝色罩衫、带花纹的裤装、黑色皮鞋,均与网传照片一致,可以判定她与被中文网络认为是石田萌美的那位女士是同一人。

大量现场视频和照片显示,安倍遭到枪击后,一批身穿黄色 T 恤的人员对其进行了心肺复苏等急救。这些人员的黄色 T 恤与这位女士的黄色 T 恤一致,因此,黄色 T 恤成为识别这位女士身份的最关键因素。

核查员用日语在推特、Facebook 平台上搜索「安倍 黄色衣服」关键词,发现有日本网民的推文中提供了线索,指出这是日本看护联盟的工作人员在急救。

据此线索,检索看护联盟的官方网站,了解到看护联盟是代表日本护理行业的组织,而且网站上的照片显示,看护联盟的成员在参加集体活动时一般均着黄色标志色衣服,有护理、急救知识和经验。

再用日语检索「看护联盟 安倍」,可以发现代表日本看护联盟参加众议院选举的友納理緒在有关安倍的讣告中提到,「在这次事件中,现场的看护联盟的各位在混乱中奋力救助」。

照片中的这位女士也穿着统一的黄色 T 恤,因此可以判定,她不可能是石田萌美,也不可能是安倍的保镖。

从这张照片的核查过程来看,以图搜图只是一个起点,更需要根据图片中的各种信息、图片外的各种新闻报道、社交媒体上的线索等等综合研判,得出结论。(参考阅读:安倍遇刺时网红女保镖就在身边?

2021 年 9 月,中文网络流传一张照片称,被加拿大扣押的华为公司首席财务官孟晚舟「困境中不忘支持国货,穿鸿星尔克出庭」,并附上孟晚舟穿运动鞋面带笑容的照片。不过,这双鞋上并无醒目的品牌 logo。

以「Meng Wanzhou+sneaker」为关键词在搜索引擎检索,可以在德国新闻图片社 IMAGO 的网站上发现一组照片,与中文网络流传的照片一致。

该组照片由加拿大新闻社记者 Darryl Dyck 拍摄,图片说明是:2021 年 8 月 6 日,华为公司首席财务官孟晚舟戴着脚踝监视器,穿跑鞋(running shoes)离开温哥华的家,前往位于温哥华的加拿大不列颠哥伦比亚省高等法院参加引渡听证。

此时我们已经找到了图片的来源,但是原图的图片说明中并未指出这双鞋是什么品牌。

不过,搜索结果很有利的一点是,摄影师拍了一组照片,尤其是有一张特写孟晚舟脚踝监视器的照片,孟晚舟的跑鞋也相比网传图片更加清晰。

这时我们使用 Google Lens 搜索这双鞋,因为 Google Lens 不仅可以搜索图片,还会试图提供图片中的信息,比如你扫描一张产品图片,可能会看到购物链接。果然,搜索结果指向了 HOKA 品牌。

核查员还使用了淘宝 APP 的拍照功能,拍下图片上的鞋子,然后淘宝快速识别出相似的结果,也指向了 HOKA 品牌。

据此线索进入 HOKA 官网的网络商店检索,可以发现孟晚舟所穿鞋款品牌为 HOKA ONE ONE,款式为 Clifton 8。

与此同时,核查员还登录了鸿星尔克官方商城、鸿星尔克淘宝旗舰店,没有发现类似商品。鸿星尔克淘宝旗舰店的客服也证实这款鞋子并非鸿星尔克。

由此可以得出结论,这张照片是孟晚舟于 2021 年 8 月 6 日离开住所前往加拿大不列颠哥伦比亚省高等法院参加引渡听证时拍摄的,她脚穿鞋款品牌并非鸿星尔克,而是法国品牌 HOKA ONE ONE。(参考阅读:孟晚舟穿鸿星尔克运动鞋在加拿大出庭?

2022 年 7 月 8 日,日本前首相安倍晋三遇刺后,中文网络流传一张照片,一位日本电视台的男性主播在咧嘴大笑,画面下方是一行日语字幕,可以辨认出与安倍遇刺有关——“安倍晋三元首相死亡確認”。

首先我们先从照片上的信息入手,这张截图的左上角有日文字样「イット」,在谷歌检索,找到节目的官网,可见这是日本富士电视台和富士新闻网(FNN)播放的一档新闻节目,全称为 Live News it!(日语片假名为:ライブ ニュース イット!),于 2019 年 4 月 1 日开播,一般直播时段为每周一至周五下午 3 点 45 分-7 点。

比对节目官网上的主持人形象,可以确认屏幕上的主播名叫榎並大二郎,毕业于庆应大学,2008 年加入富士电视台,从 2020 年 9 月 25 日起开始担任 Live News it!的主播。

这时我们要确认的是,榎並大二郎在播报安倍遇刺后确认死亡的新闻时是否大笑,所以最好要找到有关的节目视频。在 FNN 的 频道检索,可以发现该频道 2022 年 7 月 8 日上传的一则视频与中文流传截图的字幕、主持人衣着、背景均一致:「速报:安倍晋三元首相死亡確認 元海上自衛官に銃撃される」。

不过,在这则时长 44 秒的视频中,榎並大二郎并无大笑的表情。

那这张网传截图中大笑的表情从何而来?P 图能够如此自然吗?

事实上,随着 AI 技术的进步,常见的人脸编辑器或修图应用已经能很轻松地改变照片中的人物表情,比如国外的 FaceApp 和国内的醒图 App。

核查员从榎並大二郎播报安倍遇刺视频中截取照片,试图复现图片中的主持人大笑效果:

在醒图应用中选择「微笑」的特效选项后,应用自动处理完成后展示的效果如下,与网传图片非常接近:

核查至此,得到两个证据:一是检索到主持人播报该条新闻时的完整视频片段,主持人并无大笑;二是核查员使用修图软件,复现了网传图片中的主持人大笑效果。

但是,为了让结论更坚实,我们还就这张图片联络了富士电视台观众中心,工作人员回复查询时表示,当天紧急速报无异常,播报员榎並大二郎没有大笑的行为。

此时我们可以得出结论,主持人当天播报有关新闻时并未大笑。这一核查案例也提醒我们,随着 AI 技术的日益进步,对于图片的识别难度也在增加,必须借助更多信息加以综合研判。(参考阅读:日本主持人播报安倍遇刺时咧嘴大笑?

三星手机的 Space Zoom 功能可以让用户拍摄到美丽的月球图像,但也引发了由此产生的图像是否「真实」的争议。

2023 年 3 月,Reddit 上的一则帖子引发激烈的讨论,该贴清楚地拿出「证据」说明,指责三星的月球照片是「假」的。

Reddit 用户 ibreakphotos 先故意制作了一张模糊的月球照片,将其显示在电脑屏幕上,然后用三星 S23 Ultra 手机拍摄屏幕上这张模糊的月球照片,最终的照片显示了一张清晰的月球照片,增加了一些以前没有的细节。

制作过程:

1.从互联网上下载了这张高分辨率的月球图片

2.将图片尺寸缩小到 170×170 像素并使用高斯模糊,让月球上所有的细节都消失,这意味着它不可恢复,信息不存在,数字模糊

放大 4 倍的版本,以便更好地看清模糊效果:

3.在显示器上全屏显示该图像(尺寸为 170×170 像素,非常模糊),拍摄者移到房间的另一端,关掉所有灯光,开始拍摄

4.手机拍摄效果

5.对比

ibreakphotos 认为,用三星 Galaxy S23 Ultra 拍摄的月球图像,是通过应用「月球纹理」(Moon texture)来伪造的。 这名用户得出的结论是,三星的月球照片是假的,在没有细节的地方添加了细节,大部分工作是 AI 完成的,而不是光学器件。

对于图片造假指控,三星向著名的科技产品评测指南网站 Tom『s Guide回应称:「三星致力于在任何条件下提供最佳的拍照体验。当用户拍摄月亮时,基于 AI 的场景优化技术会识别出月亮是主要拍摄对象,并进行多帧合成,然后 AI 会增强图像质量和颜色细节。它不会对照片应用任何图像叠加(image overlaying)。用户可以关闭基于 AI 的场景优化功能,这将禁用对用户拍摄的照片进行自动细节增强。」

也就是说,三星否认了 Galaxy S23 Ultra 使用基于 AI 的图像叠加技术来增强月亮照片细节的说法。

科技网站 The Verge 就此评论称:「在这种情况下,『假』到底是什么意思?这是一个很难回答的问题,随着计算技术进一步融入摄影过程,这个问题将变得越来越重要和复杂。我们可以肯定地说,我们对照片造假的理解很快就会改变,就像过去对数码相机、Photoshop、Instagram 滤镜等的理解一样。

摄影正在发生变化,我们对什么是『真实照片』的理解也会随之改变。「

AI 图像生成工具在 2023 年呈现出爆发性应用趋势,可以通过利用海量数据库生成无限数量的图像。

Midjourney是一种使用生成 AI 从简单的文本提示创建图像的工具,2023 年 3 月推出了更先进的模型,能够生成更逼真的图像。

Stable Diffusion是一个文字转图片的生成模型,可以只用几秒钟时间就生成比同类技术分辨率、清晰度更高,更具「真实性」或「艺术性」的图片结果。

DALL-E 的出品方 Open AI 旗下的一个模型,接收文本和图像作为输入,以多种形式输出最终转换后的图像。升级版本 DALL-E 2 在生成用户描述的图像时具有更高的分辨率和更低的延迟。

Craiyon AI是一个免费的在线 AI 图片生成器工具,可以根据用户输入的任意文本生成独一无二的视觉艺术作品。

2023 年 3 月,微软 Bing 在线 AI 绘图功能Image Creator上线,由 Open AI 的 DALL-E 驱动,可通过文字描述生成图片内容。Bing 绘图目前仅支持英文,使用「形容词 + 名词 + 动词 + 风格」的格式可以生成高质量图片。每个由图像创建器生成的图像都会在左下角添加 Bing Logo。

Adobe 也在 2023 年 3 月发布了使用人工智能生成图像的新工具Adobe Firefly。Firefly 允许用户通过文字来描述其软件将创建的图像、插图或视频。

英伟达公司也推出了名为「毕加索「的自有服务,该服务使用人工智能技术从文本描述中生成图像、视频和 3D 应用程序。

虽然篡改图片和创建假图像的做法并不新鲜,但 、DALL-E、Stable Diffusion 的 AI 图像生成工具更易于使用。它们可以快速生成具有详细背景的逼真图像,只需来自用户的简单文本提示即可。这些技术如果被不良行为体利用,可能会大幅提高核查难度。

在过去,包括深度伪造(deepfake)在内的造假者会篡改一张已经存在的图片或一段已经存在的视频,此时尚且可以通过图片反搜等方式,追根溯源找到原图来进行核查。

但是,新时代的造假者已经不需要这么做,他们可以使用人工智能 技术,特别是文本生成图像的模型,创建完美支持其虚假叙述的全新图像,制造逼真的假证据。这种图像,无法通过图片反搜的方式直接追根溯源,因为它本身就是源头。

2023 年 3 月,在美国纽约检方可能因一起案件逮捕前总统特朗普之际,开源调查新闻机构 Bellingcat 创始人 Eliot Higgins 在一系列广为流传的推文中,用 Midjourney 工具的最新版本制作了特朗普虚构被捕的大量戏剧性画面。他在推文中明确表示这些图像是 AI 生成的,也说明了自己在 AI 生成过程中发布的指令:「特朗普在被捕过程中摔倒。新闻报道画面。」 随后 AI 给出了这些图片。

虽然推特的资深用户和人工智能爱好者可能第一眼就能认出这些假图片,但也有很多人并没有,甚至会提出疑问:「为什么特朗普被捕没有成为新闻」?在没有关键背景的情况下,这些视觉效果很快就会被其他人转发。一篇 Instagram 帖子分享了 Higgins 的一些特朗普照片,就好像它们是真的一样,获得了超过 79000 个赞。

虽然这些照片存在瑕疵,比如脸和手明显扭曲,警察制服上的文字乱七八糟,一张图片显示特朗普戴着警用腰带,等等。然而,这些线索没有那么简单被觉察,而且在现阶段可以很容易就被 Photoshop,或者一点动态模糊、像素化所掩盖。可以预见的是,随着技术的进步和迭代,这些瑕疵肯定也会消失,比如 Midjourney 的第五代版本已经可以较好地解决手部问题。

2023 年 4 月,德国摄影师鲍里斯·艾达格森(Boris Eldagsen)的黑白肖像摄影作品「电工」(The Electrician)不仅入围「Sony 世界摄影大奖」(Sony World Photography Awards)的创意类别,更获选为冠军,看起来是以传统摄影技术所拍摄的、两名来自不同世代的女性。

不过,艾达格森在 Facebook 发文坦承,这张其实是由 Open AI 的「DALL-E 2」工具生成的图像。事实上,「电工」是艾达格森 2022 年开始创作的「Pseudomnesia」系列作品之一;Pseudomnesia 在拉丁语中指的是「虚假记忆」,包括从未发生过的虚假事件,而不只是不准确的记忆。

艾达格森表示:「这是一个历史性时刻,这是第一张由 AI 生成的图像赢得了一个国际摄影大奖。」他声明称:「我想检验摄影比赛是否已经准备好接受 AI 生成图像。但事实上并没有明确的规定,关于 AI 图像是否合法,该组别允许编辑和合成图像。」

目前核查这些 AI 生成的图像并无非常有效的工具,只能综合各种信息研判。

人工智能创业公司 Hugging Face 开发了一个人工智能图像检测器(AI Image Detector),能检查图像的显著特征,并对图像是自然的还是假造的做出说明。

比如这张特朗普被「逮捕」的 AI 生成图片,检测器判断出 67%的图像是由人工智能创造的。

这张乌克兰总统办公室 3 月 23 日发布的泽连斯基视察赫尔松的真实照片,检测器判断出其 83%的图像是由人而非人工智能创造的。

但是这种检测只能作为一种参考,而无法成为唯一的决定性证据。

图像数据分析公司 Mayachitra 也有一个针对使用 GAN(Generative Adversarial Network,生成对抗网络)技术生成图像的检测工具,目前只有测试版,不过可靠性仍有待提高。

比如这张特朗普被「逮捕」的 AI 生成图片,Mayachitra 工具却认为它「很可能不是使用 GAN 技术生成的」(Probably not GAN generated)。

人工智能公司 Hive Moderation 也有一个AI 生成内容检测工具,既可以检测文字内容,也可以检测图像内容。图像检测方面,可以检测由 DALL-E、Midjourney 和 Stable Diffusion 等流行工具生成的图像。

上传图片后,Hive 的人工智能检测模型会进行处理,以确定图片是否由 AI 生成,然后给出一个分数结果。如果模型认定图片由 AI 生成,结果还会判断这张图片是由哪个引擎创建的。

比如这张火车站老人与孔雀的 AI 生成图片,Hive 判断其 99.9%由 AI 生成,并且是由 Midjourney 生成的。

这张法国总统马克龙官方推特 4 月 7 日发布的访问中国中山大学的图片,Hive 判断其只有 0.5%的可能性是由 AI 生成的。

另一个核查的线索是找到图片首次发布到网上的时间。在某些情况下,最初的创作者可能会明确表示图片是人工智能生成的,并指出使用的工具。反向图像搜索可以帮助查看图片是否已在搜索引擎中编入索引并查找包含相同照片的旧帖子。反向图像搜索也会找到相似的图片,这时可以将潜在的 AI 生成的照片与来自可靠来源的照片进行比较,发现有用的线索。

有时照片本身也隐藏着线索,例如某些 AI 创作工具使用的水印。

例如,DALL-E 会在其所有图像的右下角自动生成一个多色条。

Craiyon 在同一个地方放了一支小红铅笔。

但并非所有人工智能生成的图像都有水印——这些水印可以被移除、裁剪或隐藏。

2023 年 5 月 10 日,谷歌在 I / O 2023 开发者大会上宣布,将确保每一张由谷歌 AI 生成的图像在原始文件中都有一个标记。其他创作者和出版商将能够添加类似的标记,因此用户将能够在 Google 图像搜索结果中看到这些 AI 生成标签。

另外,尽管生成式 AI 取得了长足的进步,但截至 2023 年 3 月,AI 生成的内容中仍然会出现错误,这些缺陷是目前识别 AI 生成图像的重要方式。比如,逼真的手仍然很难生成。AI 图像也很难产生反射,发现人工智能的一个好方法是寻找阴影、镜子、水,也可以放大眼睛,分析瞳孔,因为拍照时通常会有反光。有时图像会出现眼睛大小不一,颜色不同。还可以查看照片的远景,元素离得越远,物体就越模糊、扭曲并且视角不正确。

但是,AI 生成图像的技术绝对会快速进步,这些视觉缺陷也绝对会被弥补。比如,2023 年 3 月月发布的 Midjourney 的最新版本能够描绘出逼真的手部。所以从长远来看,视觉线索也并不可靠。

为了应对深度伪造图像,科技公司、研究人员、新闻机构正在试图建立内容来源和所有权的标准,从源头出发对影像的创造和传播进行全程跟踪。或许未来我们核查图像时,首先要做的是查看其数字水印。

2021 年 2 月,多家具有影响力的科技和媒体公司结为伙伴,成立「内容来源和真实性联盟「(Coalition for Content Provenance and Authenticity,C2PA),制定媒体内容来源与历史或出处认证技术标准,试图解决虚假信息、错误信息和在线内容欺诈的扩散问题。联盟创始成员包括 Adobe、Arm、BBC、Intel、Microsoft 和 Truepic,着力建立一套标准化溯源解决方案,解决好误导性内容问题。

C2PA 成员将共同针对常见资产类型和格式制定内容溯源规范,让出版商、创作者和消费者能够追踪媒体内容(包括图像、视频、音频和文档)的来源和演变。这些技术规范明确各类资产应标示的相关信息内容、如何显示和存储该信息以及如何识别篡改的证据。

各平台能够通过 C2PA 开放标准保存和读取基于出处的数字内容。一项开放标准可供任何在线平台采用,因此对于在整个互联网上提升信任度至关重要。除了将各类媒体类型纳入其中,C2PA 还着力推动从捕获设备到信息消费者的端到端出处体验。与芯片制造商、新闻机构以及软件和平台公司合作对于促进出处标准和推动整个内容生态系统的推广采用至关重要。

C2PA 的成立将 Adobe 主导的内容真实性倡议(Content Authenticity Initiative,CAI)和 Microsoft 与 BBC 主导的项目溯源(Project Origin)的众创始成员召集在了一起,在一个联盟下统一技术规范。CAI 正在构建一套数字媒体出处与历史系统,创作者可通过该系统声明其作者身份,消费者则可以通过它来判断其所看到的内容是否值得信赖。「项目溯源」针对的是新闻制作与传播。其方向是将证明内容真实性的标示附加到内容上,并让用户能够看到该标示信息,由此来解决数字新闻生态系统中的虚假信息问题。C2PA 成立后,技术标准将统一,上述两个实体将继续在各自社区内进行推广、原型设计和教育。

2022 年 2 月,C2PA 联盟发布了用以对抗深度伪造技术的数字内容认证技术规范的第一版,包括实现指南、考虑因素、用户体验指南以及关于程序目标和基本原理的完整细节。

C2PA 称:「C2PA 规范将为平台提供一种方法,以定义与每种类型的资产(如图像、视频、音频或文档)相关的信息,以及这些信息如何呈现和存储,以及如何识别篡改证据。作为一个开放标准,它被设计用于任何软件、设备或在线平台,以及监管机构和政府机构建立数字来源标准。」

在理想状况下,未来视觉内容的生产、传播与消费可能是这样的链条:制造视频和照片生产工具的公司——包括手机和相机制造商——需要在一开始就纳入 C2PA 身份验证标准。用户需要主动将内容凭证包含在他们制作的视觉效果中。主流出版商和社交媒体公司需要先找到这些凭证,然后才在其平台上显示图像。观众在信任图像或视频之前,可能要先查看一个带有下拉菜单的小图标。

目前,C2PA 联盟的成员已经扩展到包括索尼、佳能、尼康、松下、加拿大广播公司、德国新闻社、纽约时报等等在内的 52 家科技公司、媒体以及其他机构。

从应用层面看,2022 年 10 月,Adobe宣布与徕卡和尼康建立合作关系,这将使这两家相机公司在两款相机中实施符合 C2PA 标准和 CAI 标准的图像证明技术:徕卡 M11 和尼康 Z9,该技术将允许摄影师在相机拍摄时安全地附上照片的来源信息,包括每张照片的拍摄时间、地点和方式。

Adobe 还推出了内容凭据 (Beta)功能,这是 Adobe Photoshop 中一项正在开发的功能,凭借此功能,创作者可向导出的图像中添加其归因详细信息。启用后,内容凭据会收集编辑、活动和制作者姓名等详细信息,然后在创作者导出其最终内容时将这些信息作为防篡改归因和历史数据(称为内容凭据)附加到图像。不过,目前该功能只提供英语、德语、法语和日语版本。

C2PA 联盟中,尤为值得一提的是Truepic 公司,该公司是 C2PA 联盟的创始成员,相比 Adobe 这样的巨头,Truepic 是一家位于美国加州的创业公司,但是 Adobe 的内容凭据功能有一部分就是 Truepic 提供技术支持的。

通过捕获、签名和密封任何照片或视频中的元数据,Truepic 的技术可以创建防篡改数字指纹,并可以在整个网络上进行跟踪。这一流程也被称为「镜对镜」(glass-to-glass)系统,在该系统中拍摄、存储和传输的图片和视频会向观看者发出关于内容已被修改的提醒,无论这些修改是在何时何地进入一则影像从镜头到屏幕的过程中的。

首先,Truepic 的安全相机技术可捕捉、标记和密封每张照片或视频中的关键细节,例如日期、时间、位置和捕捉到的真实像素。

随后,Truepic 对图像实施符合 C2PA 标准的签名并密封。

然后,Truepic 将可以通过 SDK 将数据集成到任何网站或数字服务中,让关注可以查看任何媒体文件的来源和历史记录。

2023 年 3 月底,Truepic 和微软宣布发起「普罗维登斯计划「(Project Providence),利用上述技术和标准帮助记录和保护乌克兰的文化遗产。

2023 年 4 月初,Truepic 和荷兰公司 Revel.ai 合作创造并发布了一段深度伪造的视频:人工智能专家尼娜·希克(Nina Schick)在视频中发出「真实与虚构之间的界限正在变得模糊」的警告。

然而,这并非她本人。视频以一条字幕结尾:「这个深度伪造作品是由 Revel.ai 在尼娜·希克的同意下创建的,并由 Truepic 加密签名」。

这两家公司将这一视频描述为「第一个数字透明的深度伪造」(first digitally transparent deepfake),视频右上角有一个带有 i 标志的水印,表明它是计算机生成的,数据被加密密封在文件中,如果篡改图像,就会破坏数字签名,并在使用可信软件时阻止该证书显示。

除了 Truepic 以外,位于伦敦的机构eyeWitness to Atrocities也开发了类似的系统。作为系统核心的应用有两个功能。首先,当安装有该应用的手机拍摄照片或视频时,它会记录下事件发生的时间和地点,而这些时间和地点是由 GPS 卫星、附近的手机基站和 Wi-Fi 网络等难以否认的「电子证人」报告的。这被称为元数据的受控捕获,它比从手机上收集这类元数据更可靠,因为手机时间和位置的设置是可以更改的。第二,该应用读取图像的整个数字序列(用 0 和 1 呈现),并使用标准数学公式计算出该图像独有的由字母和数字组成的数值,即哈希值。

然后,使用者将图片或视频发动到 eyeWitness 的服务器,eyeWitness 会创建一个受信任的监管链,此链表明原始信息未以任何方式更改。

随后,eyeWitness 收到的所有信息都将由律师,他们对这些视觉证据进行标记、分类和处理,以满足调查人员的需求。

C2PA 项目联合创始人兼主席安德鲁·詹克斯(Andrew Jenks)认为,身份验证标准应该被视为一项重要的数字素养工作,其最接近的类似应用是如今被广泛采用的保证网页安全的 SSL 证书。

网站 SSL 证书是一种遵守 SSL 协议的服务器数字证书,由受信任的根证书颁发机构颁发。SSL 证书采用 SSL 协议进行通信,SSL 证书部署到服务器后,服务器端的访问将启用 HTTPS 协议(超文本传输安全协议),网站将会通过 HTTPS 加密协议来传输数据,可帮助服务器端和客户端之间建立加密链接,从而保证数据传输的安全。

如果某个网站受 SSL 证书保护,其相应的 URL 中会显示 HTTPS。单击浏览器地址栏的挂锁图标,即可查看证书详细信息,包括颁发机构和网站所有者的公司名称。

「我们必须训练用户寻找你今天在每个浏览器中上看到的挂锁图标,」詹克斯说,「那是一个非常困难的问题,花了很长时间,但这与我们今天面临的媒体素养问题完全相同。」

1.工具很重要,但更重要的是常识和逻辑。

2.没有任何工具是完美的,每个搜索引擎都有其优点和缺点,核查员可以使用 InVid 插件,尝试多种工具,确保找到更准确的图片源头。

3.搜寻到相同的图片并非一定就是最终的答案,也不一定能确定图片的真伪。若要确定图片中所展现的原始事件,必须更加谨慎地检查搜索结果,反复比对不同搜索结果对图片的描述;检查图片的拍摄时间和地点;分析包含图片的网页的发布者身份,判断其是媒体、政府机构,还是普通网民,以评估其可信度等。综合考虑搜索结果、影像细节和信源可信度等要素,进行交叉验证,才可能揭示事件的真相。总之,必须全方位分析才能确认原始事件的来龙去脉。

4.仅仅因为反向搜索引擎得到的结果都是同一张图片,并不一定代表该图片是真实且未被修改的。因为,即使一张图片被广泛传播,它也可能会被进行过后期修改,反向搜索结果也可能是其修改后的版本而非原始版本。举个例子,如果某个用户修改了他所拍摄的照片 A 并将其改成了图片 B,然后只上传了经过修改后的图片 B,那么反向搜索引擎将无法搜索到原始的照片 A。因此,需要注意的是,反向搜索引擎仅仅是一种帮助我们找到类似图片的工具,需要进行进一步的验证和核实才能确定图片的真实性和完整性。

5.有时候对原始图片进行某些修改可以更容易地找到最佳结果。

例如,有些人会发布一张照片并声称它是原始图片,但实际上只是对现有照片进行了翻转。在这种情况下,通过对照片进行翻转并进行搜索,可能会找到更准确的搜索结果。

6.留意图片上不起眼地方的水印,有时会提供图片原始来源的线索。

7,搜索结果有时会受到算法的影响,因此出现在前几页或出现多次的信息并不一定代表可信度高或图片的源头,因此需要更耐心地翻查搜索结果。

Fotoforensics是一个检测图片是否被修改过的免费网络工具。

ELA 是其主要特殊功能,ELA 是 Error Level Analysis 的缩写,表示错误级别分析,它通过在图像上显示错误级别来帮助我们检测图像是否经过 处理。

数字图像修改过的地方以及对比度较高的边界,往往 ELA 值较高,即表现为比较醒目的白色;而大面积的同色或者背景,往往表现为暗沉的黑色。

JPEG%的意思是图片质量比,显示上次保存时的图像质量。 每修改一次质量都会下降,一般来说也可证明图片被软件修改过。

元数据显示有关该图片的可用信息,例如创建时间、修改时间以及用于拍摄该照片的相机。

需要注意的是,使用 Fotoforensics 需要专业的影像知识,一般仅作为参考证据之一,而不宜作为主要的或者唯一的证据;还需要利用图片反向搜索工具等方法,寻找图片的来源,作为最终判断的依据。

VerEXIF可以用来查看照片的 EXIF 资料,也可以用来删除照片的 EXIF。

EXIF 是可交换图像文件的缩写,它是一种使用 JPEG 压缩在数码摄影图像文件中存储交换信息的标准格式。几乎所有新的数码相机都使用 EXIF 注释,在图像上存储信息,例如快门速度、曝光补偿、光圈值、使用的测光系统、是否使用闪光灯、ISO 编号、拍摄图像的日期和时间、白平衡,使 用的辅助镜头和分辨率等。有些图像甚至可能存储 GPS 信息,可以查看图像的拍摄地点。

注意:EXIF 资料是可以修改、编辑和删除的,因此只应作为核查参考。

而且,不是所有互联网上的照片都有 EXIF 信息,有些人在将其个人影像上传到网站之前,会先移除 EXIF 档案,例如其 GPS 位置。很多社交网络平台也会移除 EXIF 数据。

用于识别不同旗帜的大型数据库,可以按照不同的维度检索。

LICENSE PLATES OF THE WORLD

Plates Mania

提供全球各国和地区的车牌样式资料,按大洲和国家分类。如果不确定图片是在哪个国家/地区拍摄的,图片上的车牌可能是线索之一。

比如,2022 年 1 月初,中文网络流传一则视频,几名武装分子乘坐三轮车,在街头伏击扫射一辆白色轿车,镜头一转,白色轿车内出现孩子和女性惨死的镜头。有关文字称视频内容是「阿富汗,女人开车,被塔利班全车射杀」。

在视频的后半部分画面中,可以比较清晰地看到受害者的车牌样式和号码「LEH 15 6840」及位于号码下的「PUNJAB」字样。

在搜索引擎中检索「PUNJAB」,可以发现这一般是指是跨越印度和巴基斯坦的旁遮普地区。在上述车牌资料库查询,可以发现视频中的车牌样式是巴基斯坦的。这样可以确认视频不是发生在阿富汗。(参考阅读:阿富汗女性开车遭塔利班全车射杀?

高速公路标志数据库,按照国家分类。当图片或视频没有其他线索的时候,这些信息可以成为一个核查的入口参考。

偏见和缺陷是创作的灵药:人类和 Ai 有什么区别_3.ylog

By: Steven
16 May 2024 at 21:00

无论你对 Ai 秉持怎样的态度和观点,都希望这期节目能给你带去一些思维激荡的时刻。作为工业设计师,我认为,如果不时常忏悔,不为自己做的东西(无论是否在自己的意志下,通常都不在)对这个世界造成的影响抱有歉意,这样的人很容易成为误以为自己是夜神月的弥海砂。

这是一期需要配图食用的播客,从近期一组以「戏剧感」为创作目标的十二生肖聊起,关于 Ai 创作的评价和人类作品之间的区别,谈到如何在这个 AIGC 爆发的时代下找到自己的位置。

创作者的骄傲和创作者的骄傲,是南辕北辙的两件事。

在这一期,你会听到:

—— 什么样的作品是有「人味儿」的?

——「偏见」和「缺陷」是艺术创作的灵药?

—— 为什么 Ai 会在创作领域疯狂爆发?

—— 现当代艺术常被人诟病的原因之一:抽象

—— 细节!什么是令人信服的细节?

—— 这些 Ai 正在拓宽我的眼界;

—— 人不能创造出自己从未见过的东西,吗?

—— 设计不是天马行空地想象,它是一种「劳作」;

—— 超人的诞生;

—— 超人的洞察和创新,与人类无关;

—— 能耗、模型与错觉;

—— 涌现、艺术与创新;

—— 马车夫的工作经验如何平移到汽车司机?

—— 选择 AIGC 工具的基本思路;

—— 向藻类致敬!

|相关图片|

—- 十二生肖系列中的兔、马、猴,完整图集和介绍 见链接

—-《城堡下的人群》(参考马列维奇的风格)

—- 毫无表达意图的随手测试图

—- 似是而非的剃须刀设计图

—- 汽车设计草图的测试

|相关阅读|

—- 十二生肖·Midjourney·戏剧角色设计

—- 描觀念 繪感受|超微型 AI 觀念畫展

—- 艺术可以糊弄,体力劳作也是高级智能

—- 表达的精度就是人类外延的尺度

—- 镜头的变幻就是故事

|登场人物|

苏志斌:工业设计师,智能硬件产品经理,《设以观复》作者

|相关链接|

若你所使用的播客客户端未能完整显示插图,或遇网络问题未能正常播放,请访问:

荒野楼阁 WildloG 的地址:https://suithink.me/zlink/podcast/

阅读设计相关的各类文章:https://suithink.me/zlink/idea/

|其他社交网络媒体|

苏志斌 @ 知乎|SUiTHiNK @ 即刻 / 微博

苏志斌SUiTHiNK @ Bilibili / YouTube / 小红书

|联络邮箱|

suithink.su@gmail.com

欢迎在 小宇宙、Spotify、YouTube、Apple Podcast 收听本节目,期待你的留言。

💾

Elmo – 免费好用的 AI 浏览器助理工具,提升网页效率的 Chrome 扩展

By: Anonymous
8 May 2024 at 15:17

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

Elmo 是一个免费的 Chrome 扩展,主要功能是利用 AI 技术快速建立摘要、观点和总结,当用户在浏览网站、 文件或 YouTube 时只要点击 Elmo 就会对当前内容进行摘要和重点整理,同时显示于的侧边栏,最大程度提升阅读上的速度和效率。它同时也是一个「可互动性」AI ,还能够对内容提问、指定关键词深入探索或洞察,非常强大。

Elmo is your AI companion to create summaries, insights and extended knowledge.

Elmo 背后使用的大型语言模型〔LLM〕API 是由 Lepton AI 提供,从 Chrome 程序商店后就能使用,不需要额外注册、也不会用到 / 账户,不仅免费、而且也支持多国语言,更重要的是能整合 PDF、Google 文件,就不用再手动将文件上传到 AI 服务。

另一个我觉得很好用的是 Elmo 兼具翻译功能,如果遇到英文、日文或其他语言,也能将摘要、重点、作者观点等输出为中文或指定语言,默认值是依照用户浏览器的主要语言而定〔也能手动选择〕,对于要阅读外文网站或文件来说 Elmo 是很好的 AI 助理哦!

Elmo is your AI web copilot to create summaries, insights and extended knowledge.

从 Elmo 官网会看到 Chrome 应用程序商店页面链接,进入后点击右上角「获取」将它下载到浏览器,不过当前在 Arc 浏览器还无法使用,如果是使用 Arc 浏览器就会显示 Not available for Arc 信息。

安装到浏览器后记得将 Elmo 固定于右上角,要启动 AI 功能时可以使用快捷键

或点击 Elmo 闪电图标。

使用方法很简单,在浏览网页时点一下 Elmo 右上角的按钮后会出现侧边栏,利用 AI 将网页内容进行总结、摘要和重点整理,默认情况下生成的内容会以用户浏览器的主要语言为主,这部分非常方便,不用手动输入提示词。

往下滑动后还会生成各种可能的相关问题,点击就能让 AI 继续帮你解答,Elmo 侧边栏最下方还能输入要询问的问题或输入 / 〔斜线〕选择操作指令。

要询问相关问题以外的内容也可以,Elmo 回答还蛮精确,排列方式很好阅读。

Elmo 设置选项里能够调整「偏好语言」,默认是使用浏览器语言,其他还有像「保持侧边栏进入」或设置快捷键功能,我觉得维持侧边栏打开很好用,否则在切换至其他分页后 Elmo 侧边栏就会自动关闭。

试着在英文网页点击 Elmo 就会在侧边栏显示总结、摘要和观点,直接翻译为中文。

还能使用中文进行提问,有助于用户更深入了解相关信息。

当遇到专有名词时选取后会出现选项,点击「Insight」可以对指定关键词生成更多说明〔包含相关网页链接〕。

在浏览时 Elmo 就很方便,不用从头到尾逐字阅读,只要生成总结、摘要后就能知道新闻大致内容。

Elmo 还能整合 PDF、Google 文件和 YouTube 视频,这个功能真的很好用,不过在遇到 YouTube 视频没有字幕时可能会出现不正确或幻觉问题。

实用 AI 提示词优化高级指南,新加坡首届 GPT-4 提示工程大赛冠军分享 [译]

By: Anonymous
7 May 2024 at 16:02

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

上个月,我非常荣幸地在新加坡政府科技局(GovTech)组织的首届 GPT-4 提示工程大赛中脱颖而出,这场比赛吸引了超过 400 名杰出的参与者。

提示工程是一门将艺术与科学巧妙融合的学科 — 它不仅关乎技术的理解,更涉及创造力和战略思考。这里分享的是我在实践中学到的一些提示工程策略,这些策略能够精准地驱动任何大语言模型为你服务,甚至做得更多!

作者的话: 在写作本文时,我特意避开了那些已经广泛讨论和记录的常规提示工程。相反,我更希望分享一些我在实验中获得的新洞见,以及我个人在理解和应用这些技巧时的独到见解。希望你能从中获得乐趣!

本文涵盖以下主题,其中 🔵 代表初学者友好的技巧,而 🔴 代表高级策略。

在使用大语言模型时,有效的提示构建至关重要。CO-STAR 框架,由新加坡政府科技局科学与 AI 团队创立,是一个实用的提示构建工具。它考虑了所有影响大语言模型响应效果和相关性的关键因素,帮助你获得更优的反馈。

这里有一个 CO-STAR 框架为何有用的现实案例。

假设你担任媒体经理,需要草拟一条 帖子,用以推广公司的新产品。 未使用 CO-STAR 的快速提示可能是这样的:

这是 GPT-4 的回答:

这一输出虽足够,但显得过于泛化,缺乏必要的细节和针对性吸引力,未能真正触及公司目标受众的心。

下面是一个应用 CO-STAR 模板的示例,它提醒我们在制定提示时,要考虑到任务的其它方面,特别是之前快速提示中缺少的风格语调受众

通过运用 CO-STAR 框架,GPT-4 的响应变得更具针对性和效果:

CO-STAR 框架指引您以有组织的方式提供所有关键任务信息,确保响应完全针对您的需求并进行优化。

分隔符是特殊的符号,它们帮助大语言模型 (LLM) 辨识提示中哪些部分应当被视为一个完整的意义单元。

这非常关键,因为你的提示是作为一个长的 Token 序列一次性传给模型的。通过设置分隔符,可以为这些 Token 序列提供结构,使特定部分得到不同的处理。

需要注意的是,对于简单的任务,分隔符对大语言模型的回应质量可能无显著影响。但是,任务越复杂,合理使用分隔符进行文本分段对模型的反应影响越明显。

分隔符可以是任何不常见组合的特殊字符序列,如:

选择哪种特殊字符并不重要,关键是这些字符足够独特,使得模型能将其识别为分隔符,而非常规标点符号。

这里是一个分隔符使用的示例:

在上述示例中,使用 ### 分隔符来分隔不同的部分,通过大写的章节标题如 对话示例 和 输出示例 进行区分。引言部分说明了要对 {{{CONVERSATIONS}}} 中的对话进行情绪分类,而这些对话在提示的底部给出,没有任何解释文本,但分隔符的存在让模型明白这些对话需要被分类。 GPT-4 的输出正如请求的那样,仅给出情绪分类:

使用 XML 标签作为分隔符是一种方法。XML 标签是被尖括号包围的,包括开启标签和结束标签。例如,{tag}{/tag}。这种方法非常有效,因为大语言模型已经接受了大量包含 XML 格式的网页内容的训练,因此能够理解其结构。

以下是利用 XML 标签作为分隔符对同一提示进行结构化的例子:

在指令中使用的名词与 XML 标签的名词一致,如 conversationsclasses 和 examples,因此使用的 XML 标签分别是 {conversations}{classes}{example-conversations} 和 {example-classes}。这确保了模型能够清晰地理解指令与使用的标签之间的关系。 通过这种结构化的分隔符使用方式,可以确保 GPT-4 精确地按照您的期望响应:

_在开始前,我们需指出,本节内容仅适用于具备系统提示功能的大语言模型 (LLM),与文章中其他适用于所有大语言模型的部分不同。显然,具有此功能的最知名的大语言模型是 ,因此我们将以 ChatGPT 为例进行说明。_

首先,我们来厘清几个术语:在讨论 ChatGPT 时,这三个术语「系统提示」、「系统消息」和「自定义指令」几乎可以互换使用。这种用法让许多人(包括我自己)感到混淆,因此 发表了一篇文章,专门解释了这些术语。简要总结如下:


图片来自 Enterprise DNA Blog

尽管这三个术语表达的是相同的概念,但不必因术语的使用而感到困扰。下面我们将统一使用「系统提示」这一术语。现在,让我们一探究竟!

系统提示是您向大语言模型提供的关于其应如何响应的额外指示。这被视为一种额外的提示,因为它超出了您对大语言模型的常规用户提示。

在对话中,每当您提出一个新的提示时,系统提示就像是一个过滤器,大语言模型会在回应您的新提示之前自动应用这一过滤器。这意味着在对话中每次大语言模型给出回应时,都会考虑到这些系统提示。

系统提示一般包括以下几个部分:

例如,系统提示可能是这样的:

每一部分对应的内容如下图所示:

系统提示已经概括了任务的总体要求。在上述示例中,任务被定义为仅使用特定文本进行问题解答,同时指导 LLM 按照{"问题":"答案"}的格式进行回答。

这种情况下,每个用户提示就是您想用该文本回答的具体问题。

例如,用户提示可能是"这篇文本主要讲了什么?",LLM 的回答将是{"这篇文本主要讲了什么?":"文本主要讲述了……"}

但我们可以将这种任务进一步推广。通常,与只询问一个文本相比,你可能会有多个文本需要询问。这时,我们可以将系统提示的首句从

改为

如此,每个用户提示将包括要问答的文本和问题,例如:

此处,我们使用 XML 标签来分隔信息,以便以结构化方式向 LLM 提供所需的两个信息。XML 标签中的名词,text 和 question,与系统提示中的名词相对应,以便 LLM 理解这些标签是如何与指令相关联的。

总之,系统提示应提供整体任务指令,而每个用户提示则需要提供执行该任务所需的具体细节。在这个例子中,这些细节就是文本和问题。

在之前的讨论中,我们通过系统提示来设定规则,这些规则一经设定,将在整个对话中保持不变。但如果你想在对话的不同阶段实施不同的规则,应该怎么做呢?

对于直接使用 ChatGPT 用户界面的用户来说,目前还没有直接的方法可以实现这一点。然而,如果你通过编程方式与 ChatGPT 互动,那么情况就大不相同了!随着对开发有效 LLM 规则的关注不断增加,一些允许你通过编程方式设定更为详细和动态的规则的软件包也应运而生。

特别推荐的一个是由 NVIDIA 团队开发的NeMo Guardrails。这个工具允许你配置用户与 LLM 之间的预期对话流程,并在对话的不同环节设定不同的规则,实现规则的动态调整。这无疑是探索对话动态管理的一个很好的资源,值得一试!

你可能已经听说过 OpenAI 在 ChatGPT 的 GPT-4 中为付费账户提供的高级数据分析插件。它让用户可以上传数据集到 ChatGPT 并直接在数据集上执行编码,实现精准的数据分析。

但是,你知道吗?并不总是需要依赖这类插件来有效地使用大语言模型 (LLM) 分析数据集。我们首先来探讨一下仅利用 LLM 进行数据分析的优势与限制。

正如你可能已经知道的,LLMs 在执行精确的数学计算方面有所限制,这让它们不适合需要精确量化分析的任务,比如:

正是为了执行这些量化任务,OpenAI 推出了高级数据分析插件,以便通过编程语言在数据集上运行代码。 那么,为什么还有人想仅用 LLMs 来分析数据集而不用这些插件呢?

LLMs 在识别模式和趋势方面表现出色。这得益于它们在庞大且多样化的数据上接受的广泛训练,能够洞察到复杂的模式,这些模式可能不是一眼就能看出来的。 这使它们非常适合执行基于模式查找的任务,例如:

对于这些基于模式的任务,单独使用 LLMs 可能实际上会在更短的时间内比使用编程代码产生更好的结果!接下来,我们将通过一个例子来详细说明这一点。

我们将使用一个流行的实际Kaggle 数据集,该数据集专为客户个性分析而设计,帮助公司对客户基础进行细分,从而更好地了解客户。 为了之后 LLM 分析的方便,我们将这个数据集缩减至 50 行,并仅保留最相关的几列。缩减后的数据集如下所示,每一行代表一位客户,各列展示了客户的相关信息:

设想你是公司营销团队的一员,你的任务是利用这份客户信息数据集来指导营销活动。这是一个分两步的任务:首先,利用数据集生成有意义的客户细分;其次,针对每个细分提出最佳的市场营销策略。

这是一个实际的商业问题,其中第一步的模式识别能力是 LLM 可以大显身手的地方。 我们将按以下方式设计任务提示,采用四种提示工程技术:

下面是 GPT-4 的回复,我们将继续将数据集以 CSV 字符串的形式传递给它。

随后,GPT-4 按照我们要求的标记符报告格式回复了分析结果:

为了简洁,我们选择两个由大语言模型生成的客户群体进行验证——“年轻家庭”和“挑剔的爱好者”。

年轻家庭

– 大语言模型生成的描述:出生于 1980 年后,已婚或同居,中等偏低的收入,育有孩子,常做小额消费。

– 此群体包括的数据行:3、4、7、10、16、20 – 深入查看这些数据行的详细信息,结果显示:


年轻家庭的完整数据 — 作者图片

这些数据完美对应大语言模型确定的用户描述。该模型甚至能够识别包含空值的数据行,而无需我们预先处理!

挑剔的爱好者

– 大语言模型生成的描述:年龄跨度广泛,不限婚姻状况,高收入,孩子情况不一,高消费水平。

– 此群体包括的数据行:2、5、18、29、34、36 – 深入查看这些数据行的详细信息,结果显示:


挑剔的爱好者的完整数据 — 作者图片

这些数据再次精准匹配大语言模型确定的用户描述!

本例展示了大语言模型在识别模式、解读及简化多维数据集以提炼出有意义的洞见方面的强大能力,确保其分析结果扎根于数据的真实情况。

为了全面考虑,我使用同一提示尝试了相同的任务,不过这次我让 ChatGPT 通过编程方式进行分析,启用了其高级数据分析插件。插件应用 K-均值等聚类算法直接对数据集进行处理,以便划分不同的客户群体,并据此制定营销策略。

尽管数据集仅含 50 行,多次尝试均显示错误信息且未产生任何结果:

当前情况表明,虽然高级数据分析插件能够轻松完成一些简单任务,如统计描述或生成图表,但在执行需要较大计算量的高级任务时,有时可能因为计算限制或其他原因而发生错误,导致无法输出结果。

答案因分析的具体类型而异。

对于需要精确的数学运算或复杂的规则处理的任务,传统的编程方法依然更加适用。

而对于依赖模式识别的任务,传统的编程和算法处理可能更加困难且耗时。大语言模型在这类任务中表现优异,能提供包括分析附件在内的额外输出,并能生成 Markdown 格式的完整分析报告。

总的来说,是否采用大语言模型取决于任务本身的性质,需要平衡其在模式识别上的强项与传统编程技术提供的精确度和特定性。

在本节结束前,让我们重新审视用于生成此数据分析的提示,并详细解析关键的提示工程技巧:

大语言模型(LLM)擅长处理简单的任务,对于复杂的任务则表现不佳。因此,在面对复杂任务时,把它分解成一步步简单的指令是至关重要的。这种方法的核心思想是,明确告知 LLM 你自己执行该任务时会采取的每一个步骤。

例如,具体步骤如下:

这样的分步指导,比起直接要求 LLM「对客户进行分组并提出营销策略」的方式,能显著提高其输出的准确性。

在提供步骤时,我们会用大写字母标记每个步骤的输出,这样做是为了区分指令中的变量名和其他文本,方便后续引用这些中间输出。

例如数据聚类(CLUSTERS)聚类描述(CLUSTER_INFORMATION)聚类命名(CLUSTER_NAME)营销策略(MARKETING_IDEAS)策略解释(RATIONALE)

此处我们请求一个 Markdown 格式的报告,以增强响应的可读性和结构性。利用中间步骤的变量名,可以明确报告的构架。

此外,你还可以让 ChatGPT 将报告以可下载文件形式提供,便于你在编写最终报告时参考使用。

在我们的首个提示中,你会发现我们并没有直接将数据集交给大语言模型(LLM)。反而,提示只给出了数据集分析的任务指令,并在底部添加了这样的话:

随后 ChatGPT 表示它已理解,并在下一个提示中,我们通过 CSV 字符串的形式将数据集传递给它:

但为什么需要将指令与数据集分开处理呢?

这样做可以帮助大语言模型更清晰地理解各自的内容,降低遗漏信息的风险,尤其是在指令较多且复杂的任务中。

你可能遇到过这样的情况:在一个长的提示中提出的某个指令被「偶然遗忘」了——例如,你请求一个 100 字的回答,但大语言模型却给出了更长的段落。

通过先接收指令,再处理这些指令所对应的数据集,大语言模型可以更好地消化它应该做的事情,然后再执行相关的数据操作。

值得注意的是,这种指令与数据集的分离只能在可以维护对话记忆的聊天型大语言模型中实现,而非那些没有这种记忆功能的完成型模型。

在本文结束之前,我想分享一些关于这次非凡旅程的个人思考。

首先,我要衷心感谢 GovTech Singapore 精心策划这场精彩的比赛。如果你对 GovTech 如何组织这场独一无二的比赛感兴趣,可以阅读 Nicole Lee——比赛的主要组织者撰写的这篇文章

其次,我要向那些出色的竞争对手们致以最高的敬意,每个人都展现了特别的才能,让这场比赛既充满挑战又富有成效!

我永远不会忘记决赛那一刻,我们在舞台上激烈竞争,现场观众的欢呼声——这是我将一直珍视的记忆。 对我而言,这不只是一场比赛;这是一次才华、创造力及学习精神的盛会。我对未来充满期待,并激动于即将到来的一切!

撰写本文让我感到非常愉快,如果你在阅读时也享受这份乐趣,希望你能花一点时间点赞并关注! 期待下一次的相遇!

DuckDuckGo AI Chat – 无需注册免费体验 GPT-3.5、Claude 3

By: Anonymous
3 May 2024 at 14:06

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

近期 DuckDuckGo 推出新产品「AI Chat」,用户在没有注册、登入下就能使用 GPT-3.5 和 Anthropic 的 Claude 聊天模型,对话内容不会被用来训练 模型,也不会储存任何聊天记录,想临时使用一下 AI 聊天就很推荐,而且具有中文界面。

目前 DuckDuckGo AI Chat 自带两种 AI 模型:OpenAI 的 GPT-3.5 Turbo、Anthropic 的 Claude 3 Haiku,用户可以在服务内自由切换不同模型,以获取不同的回答结果。

因为这项服务不会储存聊天记录,输入的内容也不会被用来训练 AI 模型,因此无法储存用户的内容,在每次进入新对话前都会清除对话,但也能够确保用户在使用 AI 对话时获得最高的保护。

DuckDuckGo. Privacy, Simplified.

进入 DuckDuckGo AI Chat 后会有简单的特色介绍,点击中间「开始使用」就会进入下一步。

接着选择要使用的 AI 模型,有 GPT-3.5 Turbo 和 Claude 3 Haiku 可用〔我在写这篇文章时是 Claude 1.2 Instant,看得出来在很短时间 AI Chat 就获得提升〕,选好模型后会有一个隐私权政策和使用条款,点击下方同意后就会进入聊天功能。

DuckDuckGo AI Chat 操作界面和一般对话 AI 类似,进入后会有欢迎信息,可以点击提示、带入各种默认的内容开始使用,或是从下方输入对话信息,目前 AI Chat 只支持文字,还无法上传或文件。

AI Chat 使用的模型都支持多国语言,如果使用中文输入的话也会得到中文回复。

因为不会记录对话、没有登入功能,对话内容就不会像 、Microsoft Copilot 等服务可以保留或在不同对话切换,要进入新的对话时点击聊天功能左侧「清除对话」按钮就会将对话清除、开始新的聊天室。

从左上角「设置」选择不同 AI 聊天模型,有 OpenAI GPT-3.5 和 Anthropic Claude 3 Haiku 可用。

整体来说,DuckDuckGo AI Chat 确实是很方便的工具,因为它最大程度保护用户的隐私和性,也整合多种不同的 AI 聊天模型,有点像「Poe 网页版」的感觉。

Fast Stable Diffusion XL – 免费使用 Google Cloud TPU v5e 快速生成 AI 高清图片

By: Anonymous
25 April 2024 at 17:06

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

Stable Diffusion XL〔简称 SDXL〕是一个高清、文字转模型,使用的是 StabilityAI 技术,但很多人可能不清楚这些专业名词或术语,只想知道「要使用一段描述提示词来建立想要的图片」,最快的方法是直接使用在线,就能在输入提示词后建立图片,还能设置图片风格、高度宽度尺寸。

接下来要推荐「Fast Stable Diffusion XL」是 建立于 Hugging Face 平台的示例模型,主要是展示自家 Google Cloud TPU v5e 运用在 SDXL 模型的效能,TPU 是经过最佳化调整的特制 加速器,对各种 AI 实例提供最好的速度效能。当然,用户也能运用 Fast Stable Diffusion XL on TPU v5e 工具生成 1024×1024 尺寸图片,几乎没有使用限制。

通过 Fast Stable Diffusion XL 输入要生成图片的提示词〔描述〕,在几秒钟内生成四张预览图,也能随时调整图片风格、negative prompts〔专门用来修复一些奇怪的图片〕或是强度指标。

Discover amazing ML apps made by the community

进入 Fast Stable Diffusion XL 在 Hugging Face 示范模型后,直接从上方字段输入 Prompt 也就是图片的提示词〔描述〕,点击「Generate」就能在几秒钟快速生成四张预览图片。

如果没有灵感,SDXL 页面下方也有一些示例描述词可快速带入,或是使用以下服务上传图片生成:

从示例模型可以感受到图片生成速度飞快,只要不用十秒时间就能生成四张预览图。

下方有进阶设置选项可预先指定要生成的图片样式,包括、摄影、日本卡通、漫画、数位艺术、像素艺术、奇幻艺术、霓虹庞克和 3D 模型,必要时还能输入 negative prompts〔负提示词〕或调整强度。

试着换了一个风格、重新生成图片,SDXL 很快就给出四张新的预览图,看得出来和之前的图片样式完全不同路线,比较可惜的是 SDXL 生成的图片都是 1024×1024 正方形,若需要长方形或不同尺寸的图片就要自己裁切、调整。

点击图片后会看到更大张的预览图,按下右上角小小的「Download」按钮就能、保存图片。

Flowith – AI 互动新形式,白板画布式 ChatGPT 体验

By: Anonymous
24 April 2024 at 12:23

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

的交互,就像和朋友的聊天,你来我往,从上到下,线性的结构非常直观。

学生时期,我们应该都见过白板,老师用可以擦除的马克笔,在白色的平滑板面上写公式。

Canva、Figma 等设计平台,则提供了在线白板,它们沿袭了物理白板的特点,但画布是无限的,形式也更加自由,就像现实的办公桌一样,可以灵活地放置各种东西,很适合进行头脑风暴。

▲ 在线白板工具示意图. 图片来自:Canva

如果 ChatGPT 也以白板的方式和我们互动,会产生什么奇妙的化学反应?

Flowith 就是这样一款 内容生成工具,最近发布了公测,一周新增约 2 万名新用户。

Interact with the world's most powerful AI in a way from the future flowith is an AI productivity tool powered by GPT 4. Through innovative interaction, it allows you to collaborate smoothly with AI, with ideas flowing like a vibrant spring.

它在形式上最大的亮点是,把纵向的聊天记录,转变成了动态的画布,为人机交互提供了一种很新的方式。

Flowith 支持 GPT 4 Turbo、Claude 3 Opus 等模型,本质和 Perplexity 差不多,都是在他人的地基上搭建服务,但创新之处各有千秋。

通过邀请链接,都会获取一个月时间的无限次 GPT 3.5 查询以及有限次 GPT 4 查询(直接注册分别每个月只有 20 次和 5 次),GPT 4 奖励次数累积叠加。

Flowith 的底部仍然有输入框,但你是在一块类似在线白板的无限画布上,和 AI 互动。

这里还引入了一个新概念:节点。

每次提问产生新的节点,节点可以再发散和引用,串成很多不同的线。

举个例子更加直观,直接问 AI:「给我头脑风暴 5 个 AI 创业想法。」

Flowith 给出的答案是:AI 医疗影像诊断、AI 在线平台、AI 投资顾问、AI 智能家居可穿戴设备、AI 场景消费推荐。

然后,我们可以在「AI 智能家居和可穿戴设备」的分支下,追问目前有哪些主要玩家。

第一次看到答案以卡片的形式分叉和,心里会忍不住「哇」一声。

这个例子使用的是「思维导图发散模式」。除此之外,Flowith 还提供了自动决策模式、联网超级模式、生成图片模式,适合不同的问题和场景。

开放性的问题多半交给思维导图模式,联网搜索模式则像 Perplexity 的平替,能搜索、能总结,甚至还能开脑洞。

当我输入「国内 AI 搜索的发展情况如何」,Flowith 的输出分成三栏。

左边提供实时搜索结果和图片,可以进一步追问,让 AI 总结某个链接的内容;中间对几个 排名靠前的链接进行了总结,等于输出了一篇短小的「文献综述」。

但右边才是最有趣的一栏,AI 给出了知识图谱,帮我们拓展思路,搭建知识体系。

「AI 搜索发展现状」本身是一个非常宽泛的问题,Flowith 延伸出了不少细分的方向:AI 在搜索引擎功能中的集成、AI 搜索算法的进展、AI 搜索结果中的偏见……

好奇心强的人类,可以不断探索下去。选中知识图谱的动态效果也有些魔性,QQ 弹弹,像果冻的质感。

而在自动决策模式下,Flowith 会根据你的提示词,自动切换到最合适的 AI 模型,判断是否需要联网搜索,是否需要文生图,是选择速度优先的 GPT-3.5,还是更强的 GPT-4 和 Claude 3,可以窥见 Agent 的雏形。

比如,问问广州今天的天气如何,Flowith 就会进行实时搜索。

从整体来看,Flowith 的动态 UI 也很酷,整块画布可以拖拽、缩小、放大,节点可以引用、追问、删除、重新生成。

使用 Flowith,有些类似我们过去在草稿纸上涂涂画画思考问题,发散、延伸、删除,漫无边际,不像逻辑清晰的大纲,也不像和 ChatGPT 之间直观的聊天记录。

但这就是我们使用画布的目的,在发散创意的过程中,慢慢地把思路捋清,如同流水那样滔滔不绝。

画布式 AI 的可视化,本身就是思考的外显。

创新的形式,本质是为了实现人类和 AI 更高效的交互。

如果说 ChatGPT 是聊天式的 AI,Flowith 这类产品,可以简称为画布式的 AI。

类似地,设计平台 Figma 的在线白板工具 FigJam,也在去年 8 月提供了内置的 AI 部件 Jambot。Jambot 结合了 ChatGPT 的生成能力,可以进行头脑风暴、总结、改写等。

参与开发的产品设计师 Aosheng Ran 在发布时提到:

我想我们被困在聊天框里了。就像我们现在被困在 Zoom 中一样。

▲ Jambot

和聊天式的 AI 互动,确实存在局限性。

ChatGPT 等聊天机器人是基于线性的结构,但思考往往不是线性的,大模型又有一定的随机性,生成的内容,比如文案、翻译、代码,往往需要反复修改、对比和测试。

ChatGPT 纵然可以反复生成,但如果某个问题对话了几百次,聊天记录过长,我们可能也不知道自己聊到哪里了。

哪怕把一个问题研究清楚了,ChatGPT 无法直观地呈现从这个问题引发出去的不同分支。

但画布式的 AI 是不一样的烟火。

同一块画布上,我们可以反复修改提示词,或者用不同的大模型多试几次,答案全部保留;我们也可以同时完成多项任务并查看结果,搜索、头脑风暴、内容总结等需求并行不悖。

▲ 图片来自:X@DerekNee

比如,假期快到了,我先用了头脑风暴模式,让 Flowith 列出 AI 旅行助手应当具备的 5 个特点,再用了联网搜索模式,让它直接找出 3 个目前最主流的 AI 旅行助手应用。

以此类推,涉及到需要反复生成、对比内容的创作场景,以及发挥 AI 多项能力的工作流,画布式的 AI 往往比聊天式的 AI 更有趣、更直观,也更具互动性,不必新开很多的聊天页面,本身就是一块无限的创作土壤。

在线白板工具引以为傲的团队协作功能,也是画布式 AI 所擅长的,聊天式 AI 只能甘拜下风。

ChatGPT 支持共享聊天记录,但不能从分享的链接继续对话。

Perplexity 支持分享搜索结果,其他用户可以在原有的基础上追问,但追问后会创建新的链接,和我们分享的并不在同一个页面。

然而,Flowith 只要开了「可编辑」的,对方就可以参与团队协作,在输入框提出自己的问题。如果只是「可查看」,虽然没有输入框,对方也可以发表评论。

想象一下,我们分享一个「flow」给别人,直接在画布上进行实时多人生成和讨论,又不会干扰原有的痕迹,激情和甲方 Battle,有种在飞书文档挥斥方遒的感觉了。

类似 Notion 的模板,如果不知道怎么更高效地使用,Flowith 还提供了 Discover 页面,向你推荐别人的用法。验证可行的工作流,被加工成了一个个开箱即用的半成品。

之所以反复强调画布和聊天的不同,甚至隐隐有些把它们对立起来,是因为交互的方式,潜移默化地影响着我们思考的方式。

如果只是看到一个输入框,可能我们的思维也会陷入「对话模式」,像和人类交流一样和 AI 说话,向它问好,问它如何一夜暴富,或者向它倾诉自己的心情。

这样的用法也很好,但当使用 AI 的方式更多、更自由,内容生产也就有了更多的可能,AI 能力的边界也就离我们更近。

画布式的 AI 和聊天式的 AI,并非你死我活的替代,而是美美与共的互补。

聊天式 AI 固然有缺点,画布式 AI 也并非总是笑到最后。

如果只是找一个简单的问题、了解某个陌生的概念,还是求助 GPT-4 和 Perplexity 更快。

作为一个初出茅庐的产品,Flowith 也不是那么好用,短板肉眼可见。

生成图片模式支持的模型不多,目前只有 Stable Diffusion 和 DALL·E 3,之前支持 Midjourney,但现在不可选了。

同时,Flowith 调取的模型有 2 个梯队,高级的 T1 和基础的 T2。虽然 GPT-3.5 Turbo 等 T2 模型在邀请朋友后无限次免费,但 GPT-4 Turbo、文生图模型等 T1 模型有使用额度。

在个人的体验之中,Flowith 也出现了一些奇怪的状况,但不确定这些问题的普遍性。

用中文向 Flowith 提问,答案也可能是全英,有些影响用户体验。拿同样的提示词问 GPT-4 和 GPT-3.5,回答的都是中文。

虽然 Flowith 支持读取 PDF,但如果上传的文件过大,很可能不成功。

Flowith 的交互也不够流畅,输入新的问题时,其他节点和整体界面总会发生动态的变化,有时候会让人迷失视觉的重心。虽然效果酷炫,但新鲜感只是一时的。

另外,在对 Flowith 的某个节点进行追问时,上下文不一定连贯,出现过答非所问的状况。

尽管产品还不那么成熟,但 Flowith 做了和 Perplexity 类似的事情:在大语言模型的基础上,考虑怎么应用 AI 的能力,让 AI 更好地加入我们的工作流。

Flowith 开发者 @DerekNee,在 X 分享了他对产品的见解——不应该只把 Flowith 看作是一个白板 AI 工具。

他本身是 GPT-4 和 AI 产品的重度用户,但在写文案、写代码、搜索内容时,主流的聊天式 UI 不够高效,不适合反复的修改、对比和测试。

在他看来,白板是为了让大众理解二维画布、节点概念的一个代替词,Flowith 的核心依然是帮助用户生成内容,探索 Human-AI 新的、更有效的交互方式。

这和 Figma 的理念不谋而合。推出 Jambot 时,Figma 在博客写道,AI 是一种增强工作和协作的工具。与其说让 AI 为你做事,不如说 AI 在帮助你做得更好。

WPS、钉钉等办公 AI 化,听用户的指挥一键生成 PPT,让 AI 助理进行文档速读,其实也是这个道理。

Flow 的本意「流动」,某种程度上就是我们对 AI 工具的期许:帮助人类的思维流动起来。

其实,我们思考和解决问题的方式已经被 AI 改变了。

Perplexity 等 AI 搜索,渐渐变成了日常离不开的产品,人类提出问题,它们搜索、摘要、成文,自己已经是一个成熟的工作流了,我们付出更少,但效率更高。回想只用传统搜索引擎的日子,万古如长夜。

还没有和人类磨合得很好的 Flowith,无法代替 ChatGPT,但这不是问题。

Canva 等设计平台能在 Adobe 的领域闯出一条路,是因为搭建产品的底层与 Adobe 不同,前者是模板和部件,后者是对图片的像素级调整。

Canva 抢不走 Adobe 的忠实用户,但吸引了不会或者没法用 Adobe 的用户。

Flowith 也是类似,本质是在填补市场的空缺。Perplexity 不重复 Google,Flowith 不重复 Perplexity。

ChatGPT 引领了聊天式的 AI,用起来确实便捷又简单,在它之后,很多产品照做了,用户也默认接受了。

然而未来,我们与 AI 的协作,不会只是翻译、问答,应该允许更多有趣的想法发生,它们不一定成功,但足够带来惊喜。

毕竟,AI 的时代,变化总是很快,必然还有更新鲜的 AI 交互方式,提升效率、创新思维、改变工作流。

在玩过更多产品之后,我们才能归来仍是少年地惊呼:这才是我想要的 AI 应用。

ChatGPT 开放 Memory、无痕模式,AI 对话长期、跨频道记忆实测

By: Anonymous
18 April 2024 at 21:37

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

在 2024 年 2 月的时候公布了「Memory」新功能,可以在对话中「记住」我们的特殊要求,并且在不同的对话聊天中共享指定记忆,让 助理在处理我们的任务时,可以更符合自己的特殊需要,而不用每次都重复提供资料、重复训练。

这几天〔2024/4/25〕,看到许多朋友的 ChatGPT 账号都开始新增了「Memory」功能,我也同样获得更新,应该是正式对一般用户推出了。

例如,我们可以在某一个对话频道中,讨论了自己某个项目的资料和处理方式,这时候可以请 ChatGPT 总结并「记住」,那么就会形成一个「记忆」记录在 ChatGPT 的记忆库中。下一次,换到一个新的对话频道,可以请他根据之前某个项目的处理方式,来处理这次的新任务。

或许慢慢的,我们的 ChatGPT 就会更像是每一个人指定的个人 AI 秘书,可以根据我们的背景、需求、喜好、特殊要求,更适当的、更有针对性地完成我们提出的任务。

ChatGPT 的「Memory 〔记忆〕」功能可以有哪些案例呢?下面几个是我目前测试后有实际保留使用的:

伴随着「Memory 〔记忆〕」功能推出,也同时推出了更能保护的「无痕模式〔 Temporary chat 〕」。

无痕模式跟记忆模式刚好相反,是让用户在相对隐私有保护的情况下对话,对话中的内容不会成为 AI 训练材料,也不会有任何记忆,离开对话频道后,对话内容也会消失。

下面文章,我会一一这些功能的实测心得,以及示范一个利用「记忆」功能训练摘要助理的案例

我们先来看看 ChatGPT「Memory 〔记忆〕」功能的基本应用。

例如我可以直接跟 ChatGPT 说明要记住的基本个人资料,这时候 ChatGPT 回答时会出现一个「Memory updated」,就代表在这里进行了记忆的操作。

你也可以用这样的方式:「请记住……资料。」,让 ChatGPT 记住任何特殊资料,以后回答时就能重复利用。

或者,有时候在 ChatGPT 回答后,经过几次修正,终于修改出我想要的风格了。这时候也可以回答 ChatGPT「很好,之后……要记住目前这样的……」,让 ChatGPT 以后记得用同样风格撰写。

那么,ChatGPT 同样会启动「Memory updated」的处理,不只是回复记住了,而是真的记在他的库,跨对话频道时都能记住要用这样的要求来处理。

有时候 AI 回答就是会跳到英文,无法 100%根据我的需要用中文回答。现在有了 ChatGPT 的「Memory 〔记忆〕」功能,也可以获得解决。

这次我同样说:「请记住,一定要用中文回答。」而 ChatGPT 现在会真的记在自己的数据库中,就算更换对话频道也会记得

那么,经过上述提供个人资料信息、要求的文章风格、要用中文回答等等的「记忆」训练后,ChatGPT 记住的成效如何呢?

于是我打开一个全新的对话频道,直接提出一个没有提供任何资料、条件的要求:「撰写一篇推荐我的博客的文章,适合发布在 。」

结果如同下图所示,而且我反复打开新的对话,测试了十来次,都可以看到拥有「记忆」的 ChatGPT 提供了符合我的资料、风格、格式的回答

经过了更多的测试,我也 ChatGPT 的「Memory 记忆」是可以在对话中被持续修改、调整的!

例如下面这个框起来的「记忆条目」,就是我在几次对话讨论中,让 ChatGPT 慢慢记住与修正的。

ChatGPT 会自动判断哪些条目是「相关的」,针对我们需要记住的回答去反复更新,让记忆越来越符合自己。

我们还可以在「设置〔 Settings 〕」中的「Personalization」,进入、关闭「Memory」功能。

如果 Memory 开启,保存的对话记忆会自动修正、使用、处理。

关闭时,就回到原本的 ChatGPT 模式,不会在接下来的对话生成「记忆」,也不会在对话中使用「记忆」。避免有时候现有记忆的干扰,反而让自己想要的新内容无法顺利生成。

当然,如果某一条「记忆」成为生成内容时的干扰〔我目前尚未遇到,但总觉得应该会发生〕,可以到「Manage」处删除指定的记忆条目即可。

下面来示范一个比较进阶的例子,利用 ChatGPT 的「Memory 〔记忆〕」功能,训练一个自己想要的摘要助手,之后不用下复杂的指令,就能符合我的需求与特殊格式进行摘要。

首先,先用正常模式进行摘要:

这时候,通过对话回馈,调整自己更想要的摘要方式,例如要尽量引用原文,并且 ChatGPT 记住,进入他的记忆模式。

当他做得很好时,例如用表格总结出我想要的逻辑系统,就通过正向回馈,让 AI 记住这样的摘要处理格式,进入 ChatGPT 的记忆模式。

换一个对话频道,这次直接说要摘要,然后贴上文章,不下任何复杂的指令。

但这次虽然没有复杂提示语, AI 却也记得之前我要他记住的:根据问题找出原文,列出重点清单,并用表格总结。

那么,ChatGPT 就成为「记住」我的摘要助理了。

有记忆模式,也有「无痕模式〔 Temporary chat 〕」在无痕模式中:

就像是的无痕模式一样,这个模式的对话频道本身不保留,离开对话频道,这次讨论就会完全消失。

但是在该次讨论内,还是可以上下文对话互相总结,应该适合用在某种指定需求上。

ChatGPT 这两个新功能,应该可以用在许多不同的需求上,也欢迎跟我分享你的利用方式。

Meta AI 官方机器人使用教程,从注册、聊天到生成图片实测

By: Anonymous
14 April 2024 at 17:47

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

Meta 正式宣布推出新一代 AI 大型语言模型 Llama 3 后,也同步推出 Meta 聊天机器人,能够根据用户问题进行回应,能依照文字描述生成或制作动画与 GIF 图片。

想免费使用 Meta AI 聊天机器人可以通过本文介绍了解,告诉你如何使用 Meta 最新的 Llama 3 模型,而且还支持中文聊天对话,让你免也能使用脸书 Meta AI 聊天和生成图片服务。

Use Meta AI assistant to get things done, create AI-generated images for free, and get answers to any of your questions. Meta AI is built on Meta's latest Llama large language model and uses Emu, our…

不管是手机、平板或电脑都能使用 Meta AI 聊天功能,只要通过打开 Meta AI 网站后,点击「Log in with 」登入 FB 账号。

目前 Meta AI 聊天机器人仅开放美国、澳大利亚、加拿大、加纳、牙买加、马拉维、新西兰、尼日利亚、巴基斯坦、新加坡、南非、乌干达、赞比亚和津巴布韦国家才能使用。

尚未开放国家要使用 Meta AI 功能,可以通过 DUN.IM 匿名服务连接美国地区就可以使用 Meta AI 功能,不管是电脑版或手机版都可以。

当进入 VPN 后,刷新 Meta AI 网页就正常显示 Meta AI 聊天界面。

其实 Meta AI 聊天功能与 或 Claude AI 界面很像,只要在聊天室框内输入想要问的问题,像是规划活动行程之类问题,可以直接用中文提问,Meta AI 同样看得懂也能回答。

目前 Meta AI 算是测试版本阶段,默认都会是以英文回应,要是想要用中文回答,就要在问题后面加入「请用中文回答」Meta AI 才会直接改用中文回复,或者也可以直接打「后续都要用中文回答每个问题」,但容易会跳回英文会应。

测试用 Meta AI 来规划马祖四天三夜活动行程,其实在行程规划的算是不错,会列出每天上午、下午和晚上行程建议。

同时也测试看看 Meta AI 对于未来大盘走势,Meta Llama 3 会直接说无法预测未来走势,同时还会给出影响股市因素,以及提醒投资不要单纯依照预测和猜测。

Meta AI 也同样能够支持生成 AI 图片功能,不过这点就需要完全用英文描述〔Promp〕才能生成,直接输入后就会立即生成 4 张不同 AI 图片。

像是我直接要求 Meta AI 生成哥斯拉大战进击的巨人图片,图片在精致度和光影效果都算不错。

也可以要求 Meta AI 生成漫威黑寡妇穿旗袍图片,聊天机器人生成人物图片同样也是没太大问题。

通过 Meta AI 生成的图片,可以点击右上角「•••」点击「Download image」就可以下载到设备,每张图片大小也算是 1280×1280 高分辨率,基本这功能与 Meta Imagine 功能几乎是完全一样,图片左下角都会加入水印。

以上就是 Meta 最新语言模型 Meta Llama 3 使用方法,目前官方仅开放部分国外地区使用,未来也会陆续开放到更多国家,包含 Meta Imagine AI 生成图片功能,能依照文字描述来回答和生成各种图片。

未来 Meta 也计划将 Meta AI 延伸到 WhatsApp 聊天、Ray-Ban Meta 眼镜与 Meta Quest 设备上。

您的电子邮箱地址不会被公开。 必填项已用 * 标注

一些日常生活中的杠铃策略

By: Steven
23 April 2024 at 00:01

「杠铃策略」是一种投资思路,它主张同时投资高风险高收益和低风险低收益的项目,避免那些不上不下的中等投资类项目,通过这样的组合来实现收益的平衡与稳健增长。它鼓励我们一边冒险一边保守,以下是这种策略,应用在日常生活中的例子:

☕ 不要每天早上都喝咖啡,这会让你过度依赖咖啡因,长期处于高兴奋状态会影响效率。应该避免平时一直喝咖啡,留到周末尽情喝,用它把有趣的事情变得更有趣。

📖 不要读那些含糊不清的科学书籍,而是读纯粹好玩的书(比如奇幻、科幻、漫画等)或者真正深入的科学书籍(教科书和综述论文)。

🧑‍🤝‍🧑 不要总交一些「还行」的朋友,而是通过聚会和互联网快速结识成百上千的人,然后找出一小群或几个跟你非常合得来的人,经常见面或聊天。

💻 不要一边写文章一边修改,这样太累了。可以一天写五六篇随笔,随时记录想法,然后在一周内逐渐合并修改成一篇好文章。这样,你的创作冲动就不会被心中的批评家扼杀,同时你内心的批评家也能确保你的写作质量。

💼 别用业余时间做些无聊的项目,尝试一段时间内同时做几份工作,然后用赚的钱去实现一些大胆的计划,比如创业、成为独立研究员等。

🧘 别只是每天用零碎时间冥想,不如每年集中花十天冥想,这样会更快地提升心灵,其他时间尽管随意生活。

📱 不要只是在上厕所的时候随手刷刷交友软件,不如花一个周末好好完善你的资料,然后尽可能多地和不同的人交流,这样你就有更多的可能性找到合适的伴侣。

📚 不要每天都读一章书,而是每几个月花两三周时间集中阅读,那时你可以一天读一本,然后用空闲时间思考书中的内容,把它们串联起来,这样收获会更多。

💬 也别每周读一本书,而是多花点时间写书评,阐释它的主要观点,思考书中的内容,试图与作者的思想进行辩论。通过查找有关主题的更多信息,来丰富自己的知识与思考。

源一:Examples of barbell strategies

源二:Barbell Investment Strategy

配图:SUiTHiNK by Midjourney

翻译:ChatGPT 3.5

润色:SUiTHiNK

Meta 最强开源大模型 Llama 3 开卷 GPT-4, 马斯克点赞 | 附体验链接

By: Anonymous
12 April 2024 at 17:22

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

没有出乎太多意外,Meta 带着号称「有史以来最强大的大模型」Llama 3 系列模型来「炸街」了。

Build the future of AI with Meta Llama 3. Now available with both 8B and 70B pretrained and instruction-tuned versions to support a wide range of applications.

具体来说,Meta 本次开源了 8B 和 70B 两款不同规模的模型。

以上还只是 Meta 的开胃小菜,真正的大餐还在后头。在未来几个月,Meta 将陆续推出一系列具备多模态、多语言对话、更长上下文窗口等能力的新模型,其中超 400B 的重量级选手更是有望与 Claude 3 超大杯「掰手腕」。

与前代 Llama 2 模型相比,Llama 3 可谓是迈上了一个新的台阶。

得益于预训练和后训练的改进,本次发布的预训练和指令微调模型是当今 8B 和 70B 参数规模中的最强大的模型,同时,后训练流程的优化显著降低了模型的出错率,增强了模型的一致性,并丰富了响应的多样性。

扎克伯格曾在一次公开发言中透露,考虑到用户不会在 WhatsApp 中向 Meta AI 询问编码相关的问题,因此 Llama 2 在这一领域的优化并不突出。

而这一次,Llama 3 在推理、代码生成和遵循指令等方面的能力取得了突破性的提升,使其更加灵活和易于使用。

基准测试结果显示,Llama 3 8B 在 MMLU、GPQA、HumanEval 等测试的得分远超 Gemma 7B 以及 Mistral 7B Instruct。用扎克伯格的话来说,最小的 Llama 3 基本上与最大的 Llama 2 一样强大。

Llama 3 70B 则跻身于顶尖 AI 模型的行列,整体表现全面碾压 Claude 3 大杯,与 Gemini 1.5 Pro 相比则是互有胜负。

为了准确研究基准测试下的模型性能,Meta 还特意开发了一套新的高质量人类评估集。

该评估集包含 1800 个提示,涵盖 12 个关键用例:寻求建议、头脑风暴、分类、封闭式问答、编码、创意写作、提取、塑造角色、开放式问答、推理、重写和总结。

出于避免 Llama 3 在此评估集上出现过度拟合,Meta 甚至禁止他们的研究团队访问该数据集。在与 Claude Sonnet、Mistral Medium 和 GPT-3.5 的逐一较量中,Meta Llama 70B 都以「压倒性胜利」结束了比赛。

据 Meta 官方介绍,Llama 3 在模型架构上选择了相对标准的纯解码器 Transformer 架构。与 Llama 2 相比,Llama 3 进行了几项关键的改进:

训练数据的数量和质量是推动下一阶段大模型能力涌现的关键因素。

从一开始,Meta Llama 3 就致力于成为最强大的模型。Meta 在预训练数据上投入了大量的资金。据悉,Llama 3 使用从公开来源收集的超过 15T 的 token,是 Llama 2 使用数据集的七倍,其中包含的代码数据则是 Llama 2 的四倍。

考虑到多语言的实际,超过 5% 的 Llama 3 预训练数据集由涵盖 30 多种语言的高质量非英语数据组成,不过,Meta 官方也坦言,与英语相比,这些语言的性能表现预计是稍逊一筹。

为了确保 Llama 3 接受最高质量的数据训练,Meta 研究团队甚至提前使用启发式过滤器、NSFW 筛选器、语义重复数据删除方法和文本分类器来预测数据质量。

值得注意的是,研究团队还前几代 Llama 模型在识别高质量数据方面出奇地好,于是让 Llama 2 为 Llama 3 提供支持的文本质量分类器生成训练数据,真正实现了「AI 训练 AI」。

除了训练的质量,Llama 3 在训练效率方面也取得了质的飞跃。

Meta 透露,为了训练最大的 Llama 3 模型,他们结合了数据并行化、模型并行化和管道并行化三种类型的并行化。

在 16K GPU 上同时进行训练时,每个 GPU 可实现超过 400 TFLOPS 的计算利用率。研究团队在两个定制的 24K GPU 集群上执行了训练运行。

为了最大限度地延长 GPU 的正常运行时间,研究团队开发了一种先进的新训练堆栈,可以自动执行错误检测、处理和维护。此外,Meta 还极大地改进了硬件可靠性和静默数据损坏检测机制,并且开发了新的可扩展存储系统,以减少检查点和回滚的开销。

这些改进使得总体有效训练时间超过 95%,也让 Llama 3 的训练效率比前代足足提高了约 3 倍。

更多技术细节欢迎查看 Meta 官方博客:https://ai.meta.com/blog/meta-llama-3/

作为 Meta 的「亲儿子」,Llama 3 也顺理成章地被优先整合到 AI 聊天机器人 Meta AI 之中。

追溯至去年的 Meta Connect 2023 大会,扎克伯格在会上正式宣布推出 Meta AI,随后便迅速将其推广至美国、澳大利亚、加拿大、新加坡、南非等地区。

在此前的采访中,扎克伯格对搭载 Llama 3 的 Meta AI 更是充满信心,称其将会是人们可以使用的最的 AI 助手。

我认为这将从一个类似聊天机器人的形式转变为你只需提出一个问题,它就能给出答案的形式,你可以给它更复杂的任务,它会去完成这些任务。

附上 Meta AI 网页体验地址:https://www.meta.ai/

当然,Meta AI 若是「尚未在您所在的国家/地区推出」,你可以采用开源模型最朴素的使用渠道——全球最大的 AI 开源社区 Hugging Face。

附上体验地址:https://huggingface.co/meta-llama/Meta-Llama-3-70B-Instruct

Perplexity、Poe 等平台也迅速宣布将 Llama 3 集成到平台服务上。

你还可以通过调用开源模型平台 Replicate API 接口来体验 Llama 3,其使用的价格也已经曝光,不妨按需使用。

有趣的是,在 Meta 官宣 Llama 3 前,有眼尖的网友发现微软的 Azure 市场偷跑 Llama 3 8B Instruct 版本,但随着消息的进一步扩散,当蜂拥而至的网友再次尝试访问该链接时,得到的只有「404」的页面。

目前已恢复:https://azuremarketplace.microsoft.com/en-us/marketplace/apps/metagenai.meta-llama-3-8b-chat-offer?tab=overview

Llama 3 的到来,正在平台 X 上掀起一股新的讨论风暴。

Meta AI 首席科学家、图灵奖得主 Yann LeCun 不仅为 Llama 3 的发布摇旗呐喊,并再次预告未来几个月将推出更多版本。就连马斯克也现身于该评论区,用一句简洁而含蓄的「Not bad 不错」,表达了对 Llama 3 的认可和期待。

英伟达高级科学家 JIm Fan 则将注意力投向了即将推出的 Llama 3 400B+,在他看来,Llama 3 的推出已经脱离了技术层面的进步,更是开源模型与顶尖闭源模型并驾齐驱的象征。

从其分享的基准测试可以看出,Llama 3 400B+ 的实力几乎媲美 Claude 超大杯、以及 新版 GPT-4 Turbo,虽然仍有一定的差距,但足以证明其在顶尖大模型中占有一席之地。

今天恰逢斯坦福大学教授,AI 顶尖专家吴恩达的生日,Llama 3 的到来无疑是最特别的庆生方式。

不得不说,如今的开源模型真的是百花齐放,百家争鸣。

今年年初,手握 35 万块 GPU 的扎克伯格在接受 The Verge 的采访时,用坚定的语气描绘了 Meta 的愿景——致力于打造 AGI(通用人工智能)。

与不 open 的 形成鲜明对比,Meta 则沿着 open 的开源路线朝 AGI 的圣杯发起了冲锋。

正如扎克伯格所说,坚定开源的 Meta 在这条充满挑战的征途中也并非毫无收获:

我通常非常倾向于认为开源对社区和我们都有好处,因为我们会从创新中受益。

在过去的一年中,整个 AI 圈都在围绕开源或闭源的路线争论不休,这场辩论,已经超越了技术层面的优劣比较,触及了 AI 未来发展的核心方向。甚至亲自下场的马斯克也通过开源 Grok 1.0 的方式给全世界打了个样。

前不久,一些观点称开源模型将会越来越落后,如今 Llama 3 的到来,也给了这种悲观的论调一记响亮的耳光。

然而,尽管 Llama 3 为开源模型扳回一局,但这场关于开源与闭源的辩论还远未结束。

毕竟暗中蓄势待发的 GPT-4.5/5 也许会在今年夏天,以无可匹敌的性能为这场旷日持久的争论画上一个句号。

Canva AI – 2024 最新 15 个图片生成、修图 AI 自动化功能实测分享

By: Anonymous
4 April 2024 at 10:29

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

Canva 是现在非常多人使用的在线设计工具,通过大量的模板与素材,就算不是专业设计师,只要组合各种各样的模板,也能快速生成可用的图像,无论是用在网页文章中的解说 视频的封面,各种上的图文搭配,都能节省许多时间。还能制作流程图、文件报告、协作白板、视频编辑等等。尤其陆续添加的 功能,让 Canva 对一般人来说更好上手设计图文影音的工作流程。

过去一年多来,Cnava 也陆陆续续在其工具中加入了很多 AI 相关的功能,例如用 AI 编写运营图片上的文案,或是用 AI 制作视频当中的动画等等。〔部分 Canva AI 功能有使用额度,部分功能则需要升级到 Canva Pro 付费版账户。〕

而今天这篇文章。我想针对自己最常用到的「图片 AI 调整」,做一个完整的 AI 图片设计、生成、修图功能总整理,因为这些功能原本散落在 Canva 许多不同的工具中,每个功能也有不同的情境,所以让我们用一个尽量连贯的案例,展开可以在什么时候如何运用这些隐藏的 Canva AI 图像设计功能

下面的介绍,会根据我平常使用 Canva 最常操作的 AI 图片编辑相关流程来介绍,结合自己的使用经验与心得,希望这样可以更容易看到不同功能之间的使用场景与搭配应用方式。也欢迎你在留言跟我分享你最常使用的功能与技巧。

如果查找 Canva 数据库中已有的图文模板,找不到自己想要的,那么或许利用「Magic Design」会是一个有效的开始。

在 Canva AI 中我常使用的起手式,这个功能(和最后一个功能)是目前在 Canva 英文版测试中的「Magic Design」,只要用一句话或几个关键词描绘自己想要的设计需求,让 Canva AI 生成全新的模板、草稿,我就可以在这样基础上进一步修改。

不过要使用这个功能前,要到设置中先把语言先换到「English」。

接着,来到主画面上方的「栏」,使用英文描述自己想要的模板内容,按下确认。

这时候就会启动「Magic Design」,最上方一排,就是 Canva AI 自动生成的图文模板。

也可以利用其中的「Media」功能,上传一张自己的图片素材,例如想要自定义的背景照片,这时候 Canva AI 会再次根据这张图片素材,设计出搭配好的新模板。

我们可以选择一个最适合自己的,然后开始进一步修改。

进入模板开始设计后,可能会需要在原本模板上组合一些独立的图片元素,这时候可以先查找 Canva 大量的图库,找到适合的照片后,用抠图功能,取出照片里的指定素材来使用。

这样一来,可以说就有源源不绝的图标物件可以自由搭配了。

先查找图库照片,或是上传自己的照片,把找到的照片先插入设计图中。

选择「编辑照片」,然后选择「背景移除工具」。

完成抠图后,这个素材就可以自由运用在原本的设计图中。

AI 魔法抓取就是把图片中的背景、主体各项元素分离,于是可以自由移动元素的位置,调整大小等,重新进行设计。

譬如原本靠右边的物品,移动到左边,让右边可以有更多摆放文字的空间。

有了这个 Magic Grab 魔法抓取,许多照片、图片的构图都能自由调整,更多设计弹性。

只要选择要调整的照片,进入「编辑照片」,选择「魔法抓取」。

就可以把主体、背景分离,而背景也会自动填满,这样一来就能当成两个素材来使用了。

有时候设计图上就是有某个小地方差了一点点,不想因此换掉整张图,这时候可以善用 Canva AI 的「魔法编辑工具」来适度的调整。

例如把一个人的白头发变成黑头发,加了一顶帽子等等,可以发挥自己的想象力,用 AI 指令去替换掉各种不满意的图片内容。

先选择设计图中想要调整的图片,进入「编辑照片」,选择「魔法编辑工具」。

接着,涂抹想要修改的区域,例如我这边不满意的是图库中的笔记页面都是空白的,所以我先涂抹笔记的空白区域。

然后,描述想要替换、新增的内容,或想要的修改结果,例如我这边描述想要在笔记空白页面上加上一些素描。

最后,就会用 AI 调整指定区域的内容,生成四种不同结果,我们只要选取最适合的生成结果即可。

有时候我们不是想要替换掉照片中的部分内容,而是想要直接移除对象就好。那么就可以使用「魔法消除」功能。

同样在照片编辑中,选择「魔法橡皮擦」。

涂抹不想要的部分即可,有时多抹除几次的效果更好。

Canva 很多修图的功能让一般人也能很好上手,例如在「编辑照片」中,会自动分离出照片里的颜色、材质,让我们可以进行微调,这有助于我们快速把照片调整到自己想要的感觉。

在编辑照片中进入「调整」页面,针对获取到的照片主要颜色,可以进行调整,甚至替换成不同的颜色。

或是针对材质进行清晰度的调整。这有时候会在 AI 生成的图片作微调,效果更明显。

还有一个我很喜欢的自动化功能〔虽然跟 AI 没有关系,但因为是工作流上常用的,还是一并介绍〕,就是在左方的「设计」中选择「样式」,就可以进行各种配色的替换。

有时候换个配色,原本感觉不搭配的模板就变得更加适合。

只要进入「样式」,在调色盘上自由点击,就可以不断替换,直到找到自己满意的为止。

还可以在样式页面滑动到最下方,会根据主图建议适合的配色,在这边选择配色,会让主图与版面更加搭配。

有时候要把照片插入版面中,可能因为照片比例大小的问题,需要慢慢剪切移动,找到最佳位置。

而通过 Canva AI,在「编辑照片」中进入「裁切」,选择「智能裁切」,就会自动帮这张照片找到最好的裁切、缩放、移动位置

有时候照片的比例就是不对,无论如何裁切也找不到最完美的位置,这时候就要使用相应的「魔法展开」功能,可以用 AI 自动生成延伸扩展的背景,改变照片的尺寸、比例大小,方便我们进行更好的裁切与位置调整。

选择照片,进入编辑照片,选择「裁切」中的「展开」,就可以,选择插件想要展开的部分。

有时候一张图片素材让我不满意的地方不是图像,而是里面的文字,可这是一张照片,要如何修改上面的文字呢?利用 Canva AI 的「抓取文字」功能就有机会做到。

一样选择「编辑照片」,进入「抓取文字」,让 Canva AI 识别照片中的文字内容,读取成功的部分就可以手动编辑。

选择适合的字体并输入新的文字,照片中的文字就变成自己想要的版本咯!

有时候很想要一种立体特效字体、很想要一个特殊材质 ICON 图标,但就是找不到?那么利用 Canva AI 中的 Magic Morph〔魔法变形工具〕,把现有的文字、图标变成想要的特效即可。

我们可以在 Canva 的「应用程序」中浏览,找到 Magic Morph〔魔法变形工具〕,便能开始使用。适合用在图标、物件、文字〔中文偶尔可以,主要支持英文〕的 AI 修改上。

例如我选中一段文字内容,启用魔法变型工具,这时候可以用文字描述自己想要的特效效果。

等待 AI 生成并调整,就能获得四个不同的选择,挑选自己想要的插入设计图中即可。

这是 Canva AI 中的 AI 绘制图片功能,虽然效果可能没有 ChatGPT DALL-E.3Midjourney 那么好,但也堪用,且快速。

在新增元素的面板中,有一个用 AI 生成影像、视频的选项。也可以在应用程序中浏览,找到 Magic Media〔魔法媒体工具〕。都能利用 AI 生成图片,也能生成短片。

一样是输入文字,选择想要的照片风格、比例。

就能生成适合的图像。

搭配前面各种修图功能,调整一下,就能生成自己需要的各种图片素材。

如果要在各种不同社交、影音平台发布图像,就要好好利用 Canva 的魔法尺寸替换功能,可以自动把 Banner 等变成文件、YouTube 略缩图变成 Facebook 正方形图片。

做好的横幅图像,快速转换成方形,这可以节省许多调整时间。

Canva 的 AI 与自动化功能那么多,不知道可以用什么功能调整目前素材时,建议按下右下方的「Canva 助理」,可以提供各种建议,或是提供各种适合目前设计的图片扩充延伸素材,节省许多自己的尝试时间

第一个功能,和现在这个第 15 个功能 需要切换到英文版,其他功能在 Canva 中文版中也已经都可以使用。

英文版中,进入 Canva 设计 PPT 的画面,可以在搜索字段直接描述自己想要的简报主题与风格,就会自动用 AI 生成适合的简报模板。

你也可以从这里找到更多模板:2024 免费 PPT 设计模板下载!13 个免费 PPT 模板网站汇总

其实 Cnava AI 还有很多特殊功能,像是用 AI 编写文案,或者利用 AI 来制作小动画,还有很多应用程序可以使用。不过我们这篇文章就聚焦在跟图片生成有关的部分,分享我自己的工作流程,欢迎大家参考与分享。

Image to SFX – AI 图片转音效工具,免费上传照片生成场景音效素材

By: Anonymous
20 March 2024 at 16:36

全球网络服务更新,更多区域已上线

全球网络服务更新,更多区域已上线

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

Image to SFX」是将转为音效〔SFX〕的 ,依照开发者所述,这也是一个针对不同声音模型、同张图片生成音效的比较器,用户只要将图片拖曳到生成器,选择一个 AI 模型后就能快速生成长度约 10 秒左右的音效,这段音效很可以描述照片代表的画面或环境。

音效(SFX)是指在影视、、广播等媒体中使用的声音效果。它们被用来增强场景的真实感和情感表达,包括各种声音,如爆炸、枪声、雨滴声、动物叫声等。音效可以通过录制现实中的声音或者通过数字合成来创建,并在后期制作中进行编辑和混合,以达到与画面相配的效果。

例如上传一张露营的照片,Image to SFX 会给出虫鸣鸟叫、很静谧的声音;在海边看海喝咖啡的照片则会有海浪拍打岸边的声音,准确度相当高。

Image to SFX 提供四种 AI 模型选项:MAGNet、AudioLDM-2、AudioGen 和 Tango,生成音效很快,完成后为 .wav 格式,也可以使用在任何想使用的地方。

Generates audio environment from an image

进入 Image to SFX 后先点击图片右上角按钮「移除图片」,再把生成音效的照片拖曳上去,接着从左下模型选项,不确定要选什么直接选 AudioLDM-2 即可。

点击「Submit」送出后就会开始分析、处理并生成音效,下方会显示预估时间,等待整个流程跑完。

生成的音效会显示于下方「Audio output」,长度大约 10 秒左右,可调整播放速度、直接在预览。

点击右上角「Download」将生成的音效保存为 .wav 格式,由于是 AI 生成的内容,可自由使用于各种用途而不受版权或任何规范。

让 MJ 学我画两张小画儿

By: Steven
7 April 2024 at 12:58

昨晚吃饭前跟儿子一起画画,我随便画了一下我们在 Minecarft 里的第二个家,和随便画的一个岩浆包围的高堡:

后来想说看看 Midjourney 能模仿成怎么程度,就丢进去试了一下:

emmm,画得还行……

就是画风不太相关,它有它的训练痕迹,哈哈哈哈哈哈哈~

测试所使用的 prompt:

Tree house, jungle, rainforest, simple little house –sref+空格+两张手绘图的地址 –ar 9:16 –s 50 –v 6.0 –style raw

LINE 更新群组「AI 信息摘要」怎么用?如何开关群聊重点总结与常见问题

By: Anonymous
21 March 2024 at 17:32

DUN.IM BLOG

DUN.IM BLOG

有不少人 群组都多出「 信息摘要」新功能,能够利用 AI 功能快速总结群组信息,不过你是否也发现并不是每个 LINE 群组都会出现,到底是什么情况才会跳出 LINE 信息摘要功能呢?本文就来替大家全面整理和解惑 LINE 的「AI 信息摘要」功能相关问题。

LINE AI 信息摘要是一项利用 AI 技术自动总结整理 LINE 群组信息的功能。当 LINE 群组内的信息累积到一定程度时,无需用户主动操作,AI 会在指定时间自动生成群组重点摘要,就可以替用户快速整理之前没参与到的群组重要讨论与话题,还能快速了解相关内容,方便跟上群组内对话。

至于 LINE 替群组加入 AI 信息摘要功能,主要有以下几个目的:

想使用 LINE AI 信息摘要功能方法也相当简单,只要打开群组,就会看见右下角会出现「AI 信息摘要」图标按钮,点击后就可以看见查看摘要结果。

LINE 更新群组「AI 信息摘要」怎么用?如何开关群聊重点总结与常见问题

「AI 信息摘要」功能不管是 LINE 社交管理者或所有成员,都能随时浏览信息摘要功能。只有群组内信息累积到足够量,群组就会自动在某些时间自动统整为摘要,而且 LINE AI 信息摘要功能每天最多只有 4 次使用频率。

要是在 LINE 社交内没看见群组右下角显示「AI 信息摘要」图标,有底下几个原因造成:

要是想关闭 LINE 信息摘要功能显示,可以手动通过 LINE 群设置内停用「在结果中显示此群」及「向所有人公开」任一开关后,就可以直接关闭信息摘要。

不过要提醒「AI 信息摘要」功能仅限管理者设置移除,且关闭后就无法恢复,至于群组成员无法自行决定手动关闭「AI 信息摘要」功能显示,按钮会一直停留在右下角。

LINE 信息摘要使用 的生成式 AI 模型,有可能会发生摘要结果不是 100%准确,用于摘要的信息不会保存在 OpenAI 中。

目前 LINE 群组的 AI 信息摘要无法提供给群组成员关闭,只能够由管理者手动关闭「在查找结果中显示此群」及「向所有人公开」任一群功能才能隐藏停用。

如果被摘要的信息被删除或收回,对已生成的信息摘要结果不会有任何影响,依旧能看见摘要记录。

信息摘要功能是阶段性功能更新,要是你的 LINE 未出现此功能,请稍加等待。

信息摘要功能仅限于主群组使用,不支持子群组。

Inpaint-web – 免费开源 AI 图片编辑服务,可离线修复放大图片、去除杂物瑕疵

By: Anonymous
23 March 2024 at 16:35

DUN.IM BLOG

DUN.IM BLOG

Inpaint-web 是一个编辑服务,提供图片修复、图片高清化〔无损放大〕两项功能,利用 WebAssembly 和 WebGPU 技术在快速处理图片,用户的照片不需要上传远端服务器,减少文件离开电脑可能会生成隐私或安全方面疑虑,对于想要快速修图的用户来说非常方便。

A free and open-source inpainting & image-upscaling tool powered by webgpu and wasm on the browser。| 基于 Webgpu 技术和 wasm 技术的免费开源 inpainting & image-upscaling , 纯浏览器端实现。 – lxfater/inpaint…

Inpaint-web 图片修复工具是以笔刷绘制出要清除的部分,AI 会自动处理、擦除图片上的指定内容,并在移除范围填补适当的颜色或材质,无论要抹除掉画面上的人物、物品、文字或任何东西都没问题。

另一个 Inpaint-web 提供的功能是图片高清化,简单来说就是提高照片的画素,当图片分辨率太低、尺寸太小就能使用这项功能「放大四倍」,如果这项功能无法达到较好的效果,也可试试看其他图片无损放大工具。

这项服务完全免费!也没有任何使用上的限制,唯有第一次使用需要保持连线,服务会从网络需要的 AI 模型文件。

No Description

进入 Inpaint-web 后直接把图片拖曳到框框内就能进行编辑,或者点击底下示例图片、带入后进行功能测试,第一次使用在操作过程可能会跳出如下画面,这是要下载处理图片会用到的 AI 模型文件。

图片编辑器很简单,主要功能有调整笔刷大小、进入原图比较功能和「四倍放大」。

以鼠标直接涂满要移除的范围,可以是人物、物品、文字等等,不用非常精确,AI 算法会自己识别。

涂完后什么都不用做 Inpaint-web 就会开始处理,这可能需要几秒钟时间。

如果没有清除干净或成果不佳,也可点击左下角「撤销」回到上一步,点击下方「原图」进入比较功能,利用拖曳方式查看编辑前后的图片细节差异。

另外,点击编辑器下方「四倍放大」会将图片尺寸放大,对于分辨率较差或有点模糊的图片来说就有修复图片的效果,最后再按下右下角的「下载」即可保存处理或修复后的图片。

ChatGPT 新功能发布,Reply 功能实测,对话再乱再长也能随时修改

By: Anonymous
26 March 2024 at 15:07

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

你有没有这样的 使用经验?在和 进行了来来回回的对话,生成了多段的内容后,忽然想要回到之前某一段的讨论中进行修改,或是针对 AI 之前回答的某一段内容重新生成。这时候,应该如何不用重新进入讨论,而可以准确的指定让 AI 回到某一段内容进行修改与调整呢?

现在 ChatGPT 推出了新的「Reply」功能〔陆续开放中〕,可以更方便解决上述的困扰,

例如我自己会在一个固定的 ChatGPT 对话频道中,讨论各种跟文章写作相关的内容,有时候会头脑风暴,有时候生成文章大纲,有时候帮忙设计一些标题,经常会讨论不同的对话主题。

如果针对之前讨论的对话主题,又想要回头进行某一段内容的调整时,我就要想办法用指令〔prompt〕明确告诉 ChatGPT 要回头去找到什么样的信息。但这往往会有一定程度的误差,没办法百分之百的精准。

现在如果有了 ChatGPT 的「Reply」功能,这项任务就简单许多了。我只要回到之前话题,在 AI 的回答中「选中」我需要进一步讨论的上下文,点击弹出的「Reply」按钮,就可以提出新的指令要求,这就能让 ChatGPT 明确的知道要重新讨论、修改、生成哪一段内容

下面进行实测,ChatGPT 的「Reply」功能使用的 3 种方式:

下面就来我的三个实际测试。

我先请 ChatGPT 帮我把杂乱的资料,整理成表格。

第一阶段的表格有一些我不满意的地方,现在可以直接选中 AI 回答中的表格内容,按下「Reply」。

针对圈选的这部分内容,提出新的指令,例如我这边提出了请他合并表格的指令。

于是,在保留上下文的讨论脉络下,可以很简单的让 ChatGPT 有针对性的进行部分内容的修改。

这可以节省我们原本许多复制贴上的时间,也可以让 ChatGPT 更明确知道我们要修改的部分。

利用同样的功能,随时继续之前某一段的讨论。

例如我有一个专门讨论文章写作的频道,我想要回到之前某一段讨论标题的地方,继续讨论。这时候,我只要选中那一段标题讨论的回答内容,选择「Reply」。

请 AI 根据这段很久之前的标题讨论,继续在新的回答中生成新的标题建议。

这样一来,要回到之前某一段讨论的某一段回答,继续讨论下去,都可以用类似的方法处理。

前面的使用方式,原本我们复制贴上也可以实现,只是手动比较麻烦,现在可以用 Reply 快速进行。

但如果我们需要的不只是复制贴上,而是真的回到之前某一段的讨论情境,继续当时的讨论,继续生成新的内容呢?

那么这时候,使用「Reply」就能相对准确地完成任务。

例如我们有可能在进行多轮讨论后,想要回到之前某一阶段的讨论,针对当时讨论的主题,继续生成新内容。这时候就可以选中某一段内容,点击「Reply」。

我这边测试的指令是:「针对这一段内容,汇总上述讨论中的相关内容,以及分析原始文章中的相关段落,尽量引用原文,改写成更长更完整的论述。」

很顺利地让 ChatGPT 继续把当初这一段讨论,扩展成更长的文章。

这时候,我再从前面的对话中,随意挑出另外一段,请 AI 进行生成,并提示「改写时要确认跟前一个回答的连续性」。

结果 ChatGPT 也能准确把握。

于是在这样的过程中,等于我可以利用 ChatGPT 的「Reply」,快速引用多段不同的问答内容,然后重新进行整合与生成。

不知道你获得这个功能了吗?或者你想到哪些更棒的使用方法?欢迎跟我分享。

CLIP Interrogator – 用 AI 分析图片获取生成图片提示词

By: Anonymous
22 March 2024 at 13:19

DUN.IM BLOG

DUN.IM BLOG

在用 生成时最令人头痛的就是输入提示词 Prompt 吧,好的图片描述有助于生成更贴近用户想象、也更细腻的结果,但对中文用户来说要写出英文的提示词并不容易。

CLIP Interrogator」是协助用户生成图片提示词的在线将图片上传、AI 会分析图片后生成良好的提示词 Prompt,方便用户在其他 AI 图片工具生成类似结果〔尽量看起来很像但肯定不会完全一样〕。

CLIP Interrogator 2.1 使用 Stable Diffusion 2.0、ViT-H-14 OpenCLIP 模型以分析、生成好的图片提示词,也有不同模式和生成的细节可选择,分析图片时需要一些时间,不过可以得到相当优异的提示词结果,必要时还能自行修改、交给其他 AI 图片生成器优化生成。

Discover amazing ML apps made by the community

打开 CLIP Interrogator 〔目前架设在 Hugging Face 空间〕,直接把要转换的图片拖曳到网页上。

下方有几个不同的分析模式:best、classic 和 fast,best 速度最慢、可以分析出最多细节;反之 fast 是速度最快、但可能就没有那么多细节,最下方有示例可以测试。

另外还有一个「best mode max flavors」应该是调整模式下可生成的形容词数量,维持默认值即可。

分析时右下角会有个时间预测,不过不太准确,等待工具的分析和生成流程结束后就会有图片描述,例如我在写这篇文章时尝试上传了一张「咖啡」照片,生成提示词如下:

a cup of coffee sitting on top of a table, by Adam Chmielowski, shutterstock, photorealism, volumetric backlighting, paper cup, close up food photography, stock photo

将 CLIP Interrogator 生成的图片描述丢到其他 AI 图片生成器就能生成相似、但又不太一样的图片,例如我曾介绍过的 Stable Diffusion 网页版或是 Midjourney ,真的超方便!

AI Leaderboard – 关于 AI 及大语言模型 LLM 的各大排行榜汇总

By: DUN
29 March 2024 at 11:42

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

最近有不少 相关排行榜,这也是关注获取所有 AI 资讯的渠道,也能看到目前 AI 发展程度。所以进行了整理汇总。

https://lmsys-chatbot-arena-leaderboard.hf.space/?__theme=light

LMSYS Org(Large Model Systems Organization),最为知名的目前大型语言模型的埃洛评级(Elo Rating)监测,过多次。目前该排名值得关注的是 Claude 3 Opus 仍然排名第一,并且其更便宜模型 Claude 3 Haiku 也超过了部分 GPT4 模型。

https://www.cbinsights.com/learn/ai-100-2024

综合评估选出了目前 TOP100 从事 AI 模型研究和的公司。Hugging Face(抱脸)凭借其强大的开源开发者社区支持,提供大量的预训练模型和集和相关综合排名第一,抱脸还有很多有意思的排名,如模型竞技场排名/最佳 AI 内容贡献者等都值得关注;第二名 Databricks 是家专注大数据处理的 AI 公司,通用开源的大型语言模型 DBRX 即由它们创建。后面跟着的是之前提到的法国黑马 AI 初创公司 MISTRAL 以及

Leaderboard Comparing LLM Performance at Producing Hallucinations when Summarizing Short Documents – vectara/hallucination-leaderboard

这是目前 AI 幻觉率(Hallucination)排名。截止今年 3月底,目前幻觉率最低 TOP 出现个 Intel Neural Chat 7B,其次 GPT4 幻觉处理仍然很好。

No Description

这个排行榜是「SuperCLUE:中文语言通用大模型综合性测评基准」排名,更关注中文语言的排行榜,包括古诗/文学/歇后语和方言等测试排名。除去 GPT4,排名靠前的即国内文心一言/智谱 AI/通义千问等。

Language models ranked and analyzed by usage across apps

大型语言模型使用接口排行榜和数据,有版本以及付费。

Web site created using create-react-app

AI 模型翻译质量和 Token 使用耗费排行榜。


还有些排行榜已经停止更新,这个榜单将持续补充。

相关链接

❌
❌