Reading view

There are new articles available, click to refresh the page.

让 MJ 学我画两张小画儿

昨晚吃饭前跟儿子一起画画,我随便画了一下我们在 Minecarft 里的第二个家,和随便画的一个岩浆包围的高堡:

后来想说看看 Midjourney 能模仿成怎么程度,就丢进去试了一下:

emmm,画得还行……

就是画风不太相关,它有它的训练痕迹,哈哈哈哈哈哈哈~

测试所使用的 prompt:

Tree house, jungle, rainforest, simple little house –sref+空格+两张手绘图的地址 –ar 9:16 –s 50 –v 6.0 –style raw

艺术可以糊弄,体力劳作也是高级智能

昨天发现 AAAny 更新了发图的功能,于是就顺势发起了一个讨论 AIGC 的话题

轶轩在话题下问我为什么对外发表的图都是一些细节比较丰富的类型,是否有基于 AIGC 的生成方式而做的一些突破方向的尝试。我觉得,针对这个问题,我可以在对他的回复上,再做一期视频来谈一谈我的观点。

用于风格参考的马列维奇的画作
基于马列维奇而生成的《城堡下的人群》

但与此同时,我也想做一些「简练」或「抽象」的图来辅助说明我的看法。于是,今天在工作之余,用一些碎片时间,做了一些图出来。

对此,我尝试比较随意地做了一些「东西」。它们都没有什么明确的「表达」,仅仅只是我随手写的一些 prompt,或者就是在 Midjourney 的社区里复制修改的 prompt,最终出来的东西都是一眼看上去有一些「意境」或者没那么精致细节的但表现比较能唬住人的图像。

你会发现,在这些人类认为偏「抽象」的表达上,AI 反而是比较容易做「好」的。

但是,这种好不是真的好,只是这些风格上,并不需要对细节有很认真的考据,在表现层面上是非常容易「糊弄」的。

这也是现当代艺术作品常常被人诟病的原因之一,因为那些作品浓缩了大量的思考和抽象提炼,但表现形式上,其实并没有比传统艺术更复杂,或更需要技艺和体力上的付出。也就是说,作为当代艺术最核心的「观念」,在完全不需要理解的情况下,一个外行的人或者一个数据量管够的 AI 就可以模仿出「看上去像那么回事」的东西。这种模棱两可的状态,恰恰是江湖神棍和 AIGC 擅长处理的对象。

这里说的「糊弄」「神棍」并非贬义,而是借着世俗的话语体系来表达,这样的「生成作品」并不需要 AI 具备「意识」和「创意」也可以轻松地实现。

那么,什么东西是更难的呢?

细节,是令人信服的细节。

这些是我用 AI 生成的男士剃须刀的设计方案。

你会发现,这些方案咋一看是那么回事,但只要你多看两秒,立刻就会意识到它不对。它们的空间关系、形态的处理、物理交互的关系、电子器件的布局,通通都有很大的问题。这些就是不可信的细节。

因为 AI 实际上并不理解它学习的那些图像。

这些令人信服的关键点,是无法糊弄的。因为它们当中包含了大量精确的思考和训练,也包含了海量的脑力和体力劳动,如果一个「智能体」不理解一个图像背后的复杂逻辑,那么它就没有办法真正地创作出这个对象。它只能模仿,只要模仿得足够像,就可以唬住外行。但是对于以此为生的从业者,这样的智能工具,还不足以成为生产力。设计师可以用这样的工具拓展自己的思维,但这些过程并不能替代设计行为。

从创意到落地,中间还有漫长的路需要人类设计师去走完。

现阶段,更适合工业设计使用 AIGC 的方式是这样:

我的意思并不是让 AI 画手绘图,这仅仅是一种表现方式。但是,这是一种不需要追求精确的表达方式,很适合 AI 用「抽卡」的方式来快速堆想法。除了这种,当然也可以让它生成上面剃须刀那样的图,但同样的,目的不在于出方案,而是借助 AI 的海量数据库,快速地堆出一批发散性思维的「胡编乱造」的混杂图像来。

人类的视野有限,但 AI 看得一定比人类个体的平均值多。

工业设计不是天马行空地想象,它是一种「劳作」。

从初期的构思,从草图推延到模型和效果图,再从设计方案导入结构设计和工艺、制程,这意味着工业设计不是一项纯脑力劳动,不是一种只运行在计算机里的行为。它包含的体力劳作同样是设计的一部份,甚至可以说,是更关键的那部份。这种体力劳作,不仅仅是肌肉和工具的配合,更是人脑对环境、事件、社会群体、物质的反应和处理,设计师的动作意味着这个人对世界的认知。这种程度的认知,对于只运行在计算机内,仍然缺少复杂的传感器和理解过程的 AI 而言,暂时还是无法实现的。

我当然相信它未来会具备这样的能力,但是在目前的技术条件下,依然需要大量的人类来完成这些真正代表了「智能」的「体力劳作」。

欢迎加入我们的讨论:

https://aaany.app/aaa/ltwu3txza

想注册体验 AAAny 的话,请给我留言

我会给你留言的邮箱发送注册邀请码

十二生肖 · Midjourney · 戏剧角色设计

在网上看过很多人用 AI 画十二生肖主题的系列画,但大多数我都觉得太套路了,要么只是生成一只动物,要么是套上一些所谓的古风服装,强行「国风」一把。我觉得,既然工具本身已经有很强的生成能力了,那么,创作者就应该更多地表达观念。没有观念的全自动生成出来的东西,再好看,也是大同小异、千篇一律。这种现象,最典型的就是那些长着网红脸的 AI 美女图。好看,但无味,因为缺少人味儿。

人味儿来自什么?最重要的两个点是:有缺陷,有观念

缺陷是因为人的不完美,不能样样都要,那么就得有取舍,而取舍的依据是什么呢?那就是观念。观念和审美,本质上是我们经年累月的经历中,所积累下来的看待世界的偏见。这里说的「偏见」不是贬义词,而是在说,人无法客观,而观念与审美就是在主观中沉淀下来一系列判断依据。我们就是用这样的依据来取舍,这些选择就形成了创作的结果。

即便是回溯到人类此前的所有历史中,艺术家们的创作,也是基于自己的「偏见」来选择创作的工具、技艺、载体和题材的。没有偏见,就没有作品。

因此,我想尝试创作一套有「戏剧感」的十二生肖。

戏剧感,一方面来自这些生肖不能只是动物,或者套了动物头套的人,而是得有个性与故事的角色,角色的人物小传可以从它们的神情、服饰、妆容等呈现出来;另一方面,需要一定的冲突感,这里说的不是观念不同的冲突,而是来自文化和故事背景中,衍生出来的角色的生命力,它会把你带入到某种场景里,它们的妆容和服饰或许不是那么常规、习以为常的文化惯性中的表达,但它们在场景和故事中,是合理的。

以下就是我的创作尝试:

如果你喜欢,可以自行下载原图。

如果你要转载,或者二次创作,请附上这篇 blog 的链接:suithink.me/?p=11457

我大致分享一下,这十二个角色的构思吧。

【鼠牛虎】这一组,是想把【生肖】与【西服】做一个融合,但我希望它们有更多的变化和区别,就分别在色彩、气质上做一些差异化描述。最后出来的三个角色,能感觉到是来自同一出剧的人物,饱受欺凌的鼠,正直优雅的牛、权势凌人的虎,故事就由此可以展开了。

【兔】通常是软弱和被欺负的对象。我希望创作一只勇敢、独立的兔小姐,于是让她走在一个昏暗的街道里,身着红色皮夹克,眼神坚定地朝着镜头。在很多文化意象中,兔子、皮衣和地下文化的组合,是谄媚的,是挑逗的,或者是色情和暴力的。但我不希望是这样,我想她可以是地下世界的英雄。她是这个系列中的第一位女性角色。

【龙】在中国的文化里,高高在上的霸权。于是我想,首先在颜色上我就不要那种红黄黑的东西,我不要皇权和武力的表达,我要它是个君子。作为君子的龙,需要同时具备威严和素雅。威严在于其妆容造型和气质眼神,素雅在于整体的色彩倾向和服饰风格。所以,这头金龙虽然相貌霸气,但眼神柔和坚定,白发之下是金线白袍,不怒自威。

【蛇】是邪恶的,多数文化中,它们都是这样的形象。这是第二位女性,我希望赋予她高雅的气质,和中立的角色身份。她在诸国纷争中,不倾向任何一方。但保持中立,需要的不仅仅是态度,也需要武力和经济。所以,她应该是一位既有贵气又有智慧的女性领主。在她紫色的服饰之中,使用了羽毛的元素,与蛇类那种光滑、阴暗的视觉元素做一点调和。

【马羊猴】这一组是相对现代的角色。【马】通常是黑色或褐色的,虽然也有白马,但在印象中,说起马就是黑色的动物。所以我想给她穿一身干练的白色风衣,即符合马这种动物在人类文化中的形象,又能在色彩搭配上突出她的质感。值得一提的是,我选择了一个侧面的视角,因为马的轮廓,侧面是最美的;并且,我在 prompt 中加入了长辫的描述,黑色布料的造型很妙,因此这个角色是目前没在网上出现过的全新的马人形象。她也是这组当中的第三位女性。【羊】的种类实在是多,不同种类的羊,出来的气质也都不太一样。经过不同的组合尝试,我最终选择了 Goat 这种羊。我想要一个有点脾气和痞气的大叔,他平时就坐在街道头的店铺门外,跟老板聊天,街上一旦出了什么事情,他一定会出手。因此,他的皮衣和眼镜都是有点讲究的。不过你看得出来,他并不是那种有钱人,他的讲究是一种对待自我的态度。

【猴】很特别,一方面是猴的种类也很多,另一方面是,猴子在绝大多数文化中都是活泼闹腾的男性形象。我非要她是女性,但她不会是个乖训的家伙。最后我之所以觉得,滇金丝猴是一个很合适的选择,在于它的毛色和毛发的形态,橙色到白色的过度让角色有一种温和的基调,但向外肆意张开的样子又很有流浪不羁的气质。服饰上我选了裙子和围巾。但在色彩上我动了一点心思,暖色系的猴和皮衣加长裙,得有一些色彩上的对冲,来建立她的个性和态度。因此,围巾是绿色的,也有相当的体量感。

【鸡狗猪】中的【鸡】是在【骄傲大公鸡】的基础上的进一步表达。首先,鸡的种类很多,但白色羽毛的,通常是 white Plymouth Rock。为了增加戏剧冲突,我希望他穿着镶满了珠宝的绿色三件套西装。神气,就是要神气!【狗】就更多种类了,我最开始也尝试了不同的品种,因为拿不准什么样的形象是更合适的。后来我意识到,不同的狗,它们自身的气质差别就很大,所以不存在一种狗能表达狗这件事。于是,重点就变成了,我想要表达什么,那就选择什么狗。我希望这是第五位女性。恰好,筱烨以前的 Daisy 就是一只金毛,一个可爱热情受街坊邻里欢迎的小女孩。那就金毛寻回犬吧!在这个设定的基础上,我增加了双麻花辫和白色校服的描述,最后就有了这个金毛小女孩。

最后的【猪】我有两个想法,一个是十二生肖中男女比例对半开,所以我希望她是女生;另一个是,我想她可以非现实一些。前面的十一位都是比较写实的感觉,但写实的猪,和女性结合,在观感上,很容易让人产品某些厌女、性别对立的联想。我不希望这位可爱的女性角色被贬损。于是,我给她增加了金色皮毛质感的设定,穿上温暖的粉红色外套,带着白围巾站在雪地里。这是一位温柔的女性,但她的防风镜会告诉你,她可不是傻白甜,在雪天的山里行走,缺少她的交通工具,哪怕是楼上的虎先生,也寸步难行。温柔也是有力量的。

下载高清原图:                      

女神雕像|Midjourney V6 Alpha 不锈钢材质测试

之前测试了 Midjourney V6 在石膏、大理石、黄金材质下的表现,出品非常好,并且品质表现很稳定。今天忽然想测试一下,同样的题材在不锈钢材质下的表现如何。

因为上述三种材质的漫反射对形态的干扰很小,AI 的训练素材应该也大部分是以这类非镜面材质的图库为主,所以我猜测,同样的雕像在抛光/镜面不锈钢下的表现,很可能会因为镜面反射对形态的干扰,产生许多错误。

以下实测例图,均可点击查看原始尺寸高清大图

Prompt ⬆ Bust photo, polished stainless steel goddess sculpture, real feathered wings, black rock, magma and flame, dark clouds –ar 3:4 –style raw –v 6

可以看到,镜面不锈钢材质在没有手部参与的情况下,表现非常出色。形态、比例与动态都在镜面材质下,显得更为出色,细节的呈现也非常舒服。

Prompt ⬆ A statue of the goddess made of polished stainless steel, with huge white feathered wings, surrounded by obsidian, with lava flowing, violent flames, and clouds of darkness –ar 3:4 –style raw –stylize 50 –v 6

这一组我着实测试了很多轮,才终于能挑选出这两张还看得过去的成品。期间最容易出现问题的点有:

1、手的比例和手指的形态、数量;

2、画面未完整呈现 prompt 所制定的内容;

3、不锈钢、羽毛、岩浆、火焰四种材质的不恰当混合。

我感觉目前的 
V6 Alpha 虽然在光影关系和质感的表达上非常强,但在较复杂的 prompt 的情况下,非常容易出现不合适的混合。

Prompt ⬆ Mirrored Stainless Steel, Goddess Statue, White Feathers, Obsidian, Lava –ar 2:3 –style raw –v 6

这一组实例中,明显可以看到 

MJ 对于 Mirrored Stainless Steel 这个关键词的错误执行。虽然质感的表现非常好,但它根本不是镜面不锈钢。同时,岩浆、黑曜石这些关键词也几乎没有呈现,仅有部份反光似乎呈现出了对「Lava」一词的反馈。从最终结果来看,质感的表达是明显跑题了。

Prompt ⬆ Mirrored Stainless Steel, Goddess Statue, Above the Waist, Red Feathers, Obsidian, Magma –ar 2:3 –style raw –v 6

当我把其中「白色羽毛」的描述,修改成「红色羽毛」后,可见材质之间的干扰就几乎消失了。大概是镜面材质中高光的部份容易和白色材质产生混淆,所以在颜色明显有区分的描述下,不锈钢的质感表达就非常舒服了。

这一点猜测,在最后一组失误实例中,可见到更离谱的跑题。

Prompt ⬆ Mirrored Stainless Steel, Goddess Statue, White Feathers, Obsidian, Lava –ar 2:3 –style raw –v 6

这一组和上上组的 prompt 是完全一样的,区别有:

1、选择方案发散路径时,选择了有躯体的版本,有起伏的形态更有利于表达镜面材质;

2、更大面积的曲面形态,似乎会有更少的概率出现材质跑题的情况。

我不确定以上猜测的概率,但在实际测试中的感受就是:

如果人物以全身、半身的形态来呈现,那么镜面不锈钢的表达错误非常少见;但如果选择只有脸部特写的方案深入,材质跑偏的概率明显更大。

Prompt ⬆ Mirrored stainless steel, close-up of goddess’s hand, white feathers –ar 3:4 –style raw –v 6

同时,因为以上的所有测试中,手的比例和手指的形态、数量一直都在出问题,所以我单独对「手」做了几轮测试。在高反射材质描述下,「手」出问题的概率非常非常大。必须一轮一轮地精挑细选,在看着还行的方案上一次次地 Vary 才能偶遇到一两个,看着没什么大毛病的「手」。

同时,因为高反射的干扰,高光和白色很容易让不锈钢材质呈现出磨砂质感。

Prompt ⬆ Polished stainless steel bust of a goddess with white feathered wings, black rocks, lava, flames, dark clouds –chaos 21 –ar 3:4 –v 6

这就是上文说到的跑题千里的材质表达。

同是 Polished stainless steel 这个词,但无论是躯体还是面部,都完全没有 Polish 的意思。整体观感更像是光滑的石头,它的质感表达完全被白色羽毛给搞混了。但同时,羽毛也呈现出石雕的质感,完全不是羽毛的质感,和上面几组实例的羽毛完全不是一类表现。

本轮测试总计生成了 659 份方案,筛选出以上 19 张我认为可以的成品图。

在我看来,这个比例过于低了。

希望在 



V6 的正式版本中,能优化这方面算法。

表达的精度就是人类外延的尺度|Midjourney 
V6 Alpha 自然语言生图测试

Midjourney V6 的质感和细节,真的是飞跃式的成长!

和今年三月相比,已经完全脱胎换骨了。对自然语言的理解和再表达,也已经在渐渐脱离「咒语」的局限,结合 ChatGPT 的语言转译,一个人能够用母语把尚不明确的观念表达清晰,愈发显得重要。

点击图片,可查看原始尺寸高清大图:

当 AI 越来越擅长理解人类的自然语言,我们就愈发迫切地要掌握「用语言表达思想」这件事情。

因为语言的精度和颗粒度,将会在人类与 AI 的相处、合作中,展现出人类智力的上限所在,以及外延的纵深能够得着多远。

Upscale from Variations
Upscale(Subtle)
Upscale from Variations
Upscale(Subtle)
Upscaled (Subtle)
Upscaled (Creative)
Upscaled (Subtle)
Upscaled (Creative)
–Style 50
–Style 100
–Style 250
–Style 750
–Style 1000

2025 款 五菱星跃 Safari EV 四驱四座

点击可查看大图

这是一个玩笑。

这其实是我使用 Midjourney 画的一款概念车。初始的构思是,一款小型电动越野车,比一般的 K-Car 稍微大一些,但得有越野车的强壮感,同时要贴合当代审美的流畅线条。

为了测试大家对它的反应,我把五菱的标志合成到了我最终在 MJ 上输出的图上,并虚构了这个型号,没有任何多余解释,直接发出来。我会观察一阵子,看看会发生什么。

在这张图里,我所使用的描述词:

正在行驶在路上的四轮微型车,小巧的车身,简洁和硬朗的造型,硬朗和锋利的车灯造型,黄色车身,光洁的表面,流畅的曲线,越野设计风格,背景是黑色的玄武岩山脉,3D模型,虚幻引擎渲染

prompt:

Four-wheeled miniature car driving on the road, compact body, clean and hard styling, hard and sharp lamps styling, yellow body, glossy surfaces, smooth curves, off-road design style, black basalt mountain range in the background, 3D model, Unreal engine rendering

用 MJ 画一辆车非常简单,但想要看上去能骗到人,还是得在细节上多做调整。所以我除了调整描述词外,最主要的尝试,是不断用 Vary(Region) 这个功能来调整局部,以使其达到我想要的效果。包括但不限于车身轮廓、车灯造型、C柱与尾部的衔接、防护栏造型与车身的衔接、轮毂、远山等。

同时也保留了一些 bug,来确保有人可以发现其非真实性,例如被我抹掉的 A 柱和门把手,被抹掉的前舱盖的缝之类的。

以下是未经处理的大尺寸原图:

文件体积:25.7 MB

你可以拿去玩,把你喜欢的或你认为适合的品牌标识合成上去,拿到任何地方发表,不需要经过我同意。祝你玩得开心!

❌