Reading view

There are new articles available, click to refresh the page.

镜头的变幻就是故事|Midjourney V5.2 Zoomout 测试

➡阅读更多 AIGC 相关内容

最近一直都非常忙,所以连续 20 来天都没有碰过 Midjourney 了。前两天在社交媒体上看到,新推出的 V5.2 中有一个向外扩写的功能,因为此前已经在 PS+SD 的组合中见过这类拓展画面的应用思路,所以很想看看 MJ 的 Zoomout 能做出什么样的东西来。趁着端午假期这个空档,我集中跑了几波测试,有一些小小的心得,在此记录一下。

总体结论有三个:

1、Zoomout 可以无限次数地向外扩展,但随着镜头的拉远,Midjourney 自身的联想能力并不足以做出任何有意思的画面,不刻意控制地放大出来的画面,到了第 3~5 步之后,就会明显变得乏味和缺乏美感。

2、通过刻意地控制画幅比例、扩张倍数,以及针对性地调整 prompt 的描述,可以利用这个功能讲出有意思的故事。关键在于,使用者对于「镜头语言」的理解,以及对运镜和故事之间联系的掌控程度。

3、对工业设计的辅助甚微,做点「花活儿」可以,一旦涉及到逻辑,依旧不行。

Zoomout 功能的主交互界面

测试内容目录:

1、通过默认的 Zoomout X2 按钮连续放大 3 次

2、通过默认的 Zoomout X2 按钮连续放大 15 次

3、通过自定义 Zoomout 微调构图

4、通过自定义 Zoomout 构建人物画像

5、通过自定义 Zoomout 构建人物性格

6、通过自定义 Zoomout 完善场景氛围

7、在 niji 中应用自定义 Zoomout 构建人物和场景

8、自定义 Zoomout 构建情绪与故事

9、通过焦点变化构建故事的场景

10、通过镜头变化,构建故事的起承转合

以下为部分测试过程记录:

test case no.1:通过默认的 Zoomout X2 按钮连续放大 3 次

⬆ 点击以全屏查看图片 Click to view the image in full screen

操作方式:连续 3 次放大图像两倍,不对 prompt 进行修改,也不对画幅做设置。

输出成果:在奔跑的场景中增加了后方的人,有一点点故事性,但继续放大后会明显失焦,花面焦点始终在最开始的小女孩身上,继续放大生成的场景和人物都是模糊的。

test case no.2:通过默认的 Zoomout X2 按钮连续放大 15 次

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:连续 15 次放大图像两倍,不对 prompt 进行修改,也不对画幅做设置。

输出成果:外围拓展的场景越宏大,有效信息和故事性就越低,除了在阴影中无意间冒出的人影,没有任何惊喜和意料之外,拓展的画面也很单调乏味。

test case no.3:通过自定义 Zoomout 微调构图

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:不对 prompt 进行修改,按 1.1 和 1.2 的拓展比例小幅度调整画幅。

输出成果: 初始图像是近景特写,根据图像本身的特点,对画幅进行小幅度地微调来获得完整的全景镜头,以及合适的构图比例。

test case no.4:通过自定义 Zoomout 构建人物画像

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:先生成一个黄色漩涡图案,然后拓展时改写 prompt 为一只眼睛,进而生成一个带特征的面部局部画面,再次拓展时修改描述词为一个洞穴中的原始部落男性。

输出成果: 成功构建了一个有目标特征「黄色漩涡瞳孔」的男性角色,通过控制拓展比例以达到最终效果—-人物整体和局部特征均得以完整呈现的画面。

test case no.5:通过自定义 Zoomout 构建人物性格

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:先生成一个红色皮夹克的女性胸像,再改写 prompt 获得其坐在摩托车上的局部画面,再改写画幅比例获得完整的人物与车辆的全景照。

输出成果: 成功构建了一个有目标特征「红色皮衣+摩托车」的女性角色,通过控制拓展比例以达到最终效果—-人物细节和整体氛均衡的画面。

test case no.6:通过自定义 Zoomout 完善场景氛围

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:在初次生成的几批图像中,选择合适的画风和画面主体,再根据已有画面特征修改画幅比例。

输出成果: 在选定风格和主体后,将竖幅主体拓展为气势更足的全景影像。关键是拓展比例并非默认的 2 倍或 1.5 倍,而是根据实际需求来控制比例,同时也需要关注怎样的画幅比例可以传达对应的氛围。最终图像画幅比例是 3:1,适合展现有足够细节的宽幅场景。

test case no.7:在 niji 中应用自定义 Zoomout 构建人物和场景

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:

step 1、使用 niji 5 的 style original 生成一个细节丰富的初始人物;

step 2、以 1.2 的 Zoomout 比例纵向拓展出人物的半身画像,画幅比例是 1:2;

step 3、以 1.1 的 Zoomout 比例和 2:1 的画幅比例重构画面,得到外围场景;

step 4、以 1.2 的 Zoomout 比例和 3:4 的画幅比例重构画面,生成人物全身像;

step 5、改写 prompt 添加「宫殿」关键词,以 1.65 的 Zoomout 比例和 3:2 的画幅比例重构画面,生成人物在场景中的全景画面。

输出成果: 虽然人物细节和场景氛围的融合程度还不错,但因为漫画角色的细节较多,在多次 Zoomout 的过程中,场景的丰富会逐渐抢掉中心人物的视觉焦点。因此在每一次修改画幅比例与关键词的时候,需要多加注意对视觉元素的控制。

test case no.8:自定义 Zoomout 构建情绪与故事

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:

step 1、生成一个情绪和神情符合目标的初始人物;

step 2、改写 prompt 同时添加「马」关键词,以 2 的 Zoomout 比例和 3:4 的画幅比例重构画面,生成后续画面的基础,此时需要注意人物与马的位置关系,否则后续生成的画面会非常扭曲怪异;

step 3、以 1.05 的 Zoomout 比例和 2:1 的画幅比例重构画面,生成完整的马匹造型与部份环境信息;

step 4、对比改写 prompt 产生的变化,黑发组不改描述词,以 1.1 的 Zoomout 比例和 3:4 的画幅比例重构画面;白发组添加「巨大镜子」关键词,以 1.6 的 Zoomout 比例和 3:4 的画幅比例重构画面。

输出成果:通过控制 Zoomout 的幅度、画幅比例和 prompt 的调整,可以生成指定场景的画面,且人物的神态到位、情绪饱满,整体画面焦点清晰。但美中不足是,构图不够自由。

test case no.9:通过焦点变化构建故事的场景

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:

step 1、生成一个在河岸上的粽子;

step 2、修改 prompt 为「熊宝宝正准备吃粽子」,以 2 的 Zoomout 比例和 3:4 的画幅比例重构画面;

step 3、修改 prompt 为「小熊一家在野餐」,以 1.2 的 Zoomout 比例和 4:3 的画幅比例重构画面。

输出成果:通过对 prompt 的修改,控制 Zoomout 的幅度、画幅比例,可以改变画面中的焦点和表达主题,适合不同文化元素之间的混搭。

test case no.10:通过镜头变化,构建故事的起承转合

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:

step 1、生成一幅鲜花山谷的画面,人物要明显;

step 2、修改 prompt 为「一面巨大的镜子在草地上」,以 2 的 Zoomout 比例和 3:4 的画幅比例重构画面,此处竖构图是为了生成较高的全身落地镜;

step 3、修改 prompt 为「少女站在镜子前」,以 1.5 的 Zoomout 比例和 3:2 的画幅比例重构画面,改为横构图是为了囊括少女全身以及环境信息。

输出成果:通过改变画面中的焦点和增加元素,在镜头逐渐拉远的过程中,故事缓缓托出。

➡阅读更多 AIGC 相关内容


我的整体感受是:

通过 Midjourney V5.2 的 Zoomout 无限拓展,一次次修改画幅比例、提示词内容,可以用镜头语言的变化来讲故事了,也可以基于一些初始的「点子」延展成有意思的融合作品。但越是这样,越发显得对话式、指令式的交互界面( SD 那种也不算图形交互 )的局限太大了,我很希望今年之内能发展出图形交互界面。

没错,今年 AI 的爆发指向了一个新的趋势:对话式交互界面。但人类之所以发明绘画,开始通过设计图来制作各式各样的新工具,恰恰就是因为语言本身的效率太低。这个逻辑其实也可以从媒体形态上找到端倪:文字–> 图像–> 视频。仅仅依靠对话,我们无法构建出一个一把剪刀;仅仅通过语言表达的播客,也无法传达任何需要视觉才可以精准理解的信息。对话指令的交互界面与图形交互界面之间的关系,并非只是 dos 和 windows 之间的差异,更重要的点在于,后者可以更直观地完成交互,以及精准地进行创作行为。AIGC 的重点不仅仅只是 AI,而是我们如何使用 AI 进行「Generative Content」。

我说一句话,AI 给我一个东西,这不是创作。

创作是一个生命在主观意志的驱使下,刻意的、有目的地表达其心中所想。

因为 GPT 的爆发而说对话式交互是未来,这样的断言是过于冲动的。只要是一个严肃的创作者,就会立刻意识到,真正的创作一定需要多纬度的交互界面。这其中不仅仅包含对话指令,同样更需要图形界面以及在数字虚拟空间中的三维交互。AIGC 工具与 PS、表格、PPT、思维导图等已有工具的结合,就是这类多维交互的雏形。

那一刻,我们不会等太久。

➡阅读更多 AIGC 相关内容

描觀念 繪感受|超微型 AI 觀念畫展

前言:

*為了減緩閱覽速度,充分感受和理解,因此採用繁體中文。

最近的工作狀態和社會新聞,讓我感覺到非常疲憊。一次次的憤怒和失望,和一次次的徒勞無功,身在漩渦當中無法抽身,只能通過一點點表達來疏解。三幅畫都是用 Midjourney 來繪制的,但 prompt 無法直接描述所要表達的觀念和感受,因此得用視覺化的語言來向 AI 描述想呈現的畫面。

這組圖,可以當作是一次超微型的 AI 觀念畫展。

*每張圖都可以通過「點擊放大」獲得完整尺寸的高清版本。

第一部分:《異類》
[ 点此可下载:经 AI 放大处理后的超高清图像 11.3MB ]

我們是怎麼看待「他者」的呢?

在公共輿論場中,尤其是此時此刻的中文網絡輿論環境當中,我們是看不到任何「人」的。一個個觀點匯聚了大量的「賬號」,牠們沒有個性、閱歷、身份,只要有一塊肉掉在地上,就會瞬間蜂擁而至,吃個乾淨。但我們很難說,「我們」不是「牠們」。因為在「我們」眼中的「牠們」,恐怕與「牠們」眼中的「我們」並沒有什麼本質的區別。

我們都是對方眼裡的「他者」。

人與人之間的觀念差異之大,如克蘇魯眷屬與地球人之間一般,亦如人類和腳下的螞蟻,並無關好壞,而是徹底的「異化」和「無所謂」。在各自的眼中,對方只是一群穿著人類服裝的「蟲子」,是與我們不在同一個世界裡的「異類」,是「偽裝」成「我們」的臥底、特工和間諜。總之,「他者」都不是「人」,「他者」就意味著「異類」,是被異化的不同於自身的存在,是被敵視的「蟲子」。

信任體系崩潰,人就不是人。

第二部分:《共鳴》
[ 点此可下载:经 AI 放大处理后的超高清图像 11.4MB ]

所以群體不再重要,也無法重要,因為在破碎的環境中無法建立起大面積的信任。我之所以不信任 DAO 這種組織形式,並非老頑固或者害怕前進,恰恰相反,作為一個向來積極主動擁抱新技術的人,我無法對人類持有這樣樂觀的想法。人與人之間的「心之壁」是與生俱來的系統限制。因為語言本身並不是一種優秀的系統,它是抽象和概括的。每一次「對話」都需要經歷至少四次「轉譯」:

來自 A 對世界的體會和理解的語言化,A 向 B 表達時將語言化的觀念輸出成的語言,來自 B 對世界的體會和理解的語言化,B 用自己語言化體系所理解的 A 的語言。

這種信息傳遞效率如此之低,因此需要大面積和海量的交流把「同類」們連接起來。

但互聯網放大了「同類」這個概念的同時,縮小了「個體」的存在感。並不是被網絡連接的人數多了,可以公開表達觀點的人多了,就等於「個體」被彰顯。因為這些「個體」並沒有作為「獨立個人」存在,牠們依然依附於各種「觀點」和「趨勢」之中,牠們的聲音也不代表著一個活著的人類的思想,而是一股潮流和陣痛當中的一次次伴隨。無論是網絡語言暴力,還是人人都掛在腦門上的 MBTI 性格分類標籤,都只是把「個體」隱藏在事件背後的一種障眼法。

人腦會本能地「簡化」信息,以降低能耗比。這是生存策略,也是系統的短板。一個人要與另一個人產生情理上的連接,不僅需要花時間,還需要有耐心去解開雙方轉譯過程中的一次次「雞同鴨講」,必須兩個人同時站在對方的位置上去理解對方的語言,才能達成共鳴。他們必須用最複雜的方式,走通這條最短的路。

因此,共鳴只存在兩個個體之間。

我不信任 DAO 的最主要原因,就是不相信這種「共識」可以不被「簡化」和「異化」地傳遞到每一個參與者當中。只要這一點無法在技術層面上落實,那麼任何一種觀念或者 DAO 都與舊世界無異。

第三部分:《武陵》
[ 点此可下载:经 AI 放大处理后的超高清图像 24.1MB ]

但如果可以通過限制准入標準的方式,把「個體」簡化或者降維成不容易產生差異的「標準型號」呢?

這源於我對《桃花源記》的一種怪異解讀:

武陵漁人所去到的「桃花源」並非一個地區,而是一顆巨大的桃樹。他所穿過的「山」只是巨大桃樹根部的一處彎曲,那個彷彿若有光的「洞」,不過是盤根錯節的樹根中間的一處縫隙。之所以目之所及的地方都是落英繽紛,中無雜樹,是因為他此時身處桃樹之中。他在遇到和穿過桃樹根的時候,就被縮小成了螞蟻大小的微縮小人兒了。因為長期處於這樣的螞蟻社會中,當中的人們自然也就成了「小國寡民」的狀態,行為和思想也因此被簡化,成了雞犬相聞、夜不閉戶的簡單狀態。

南陽劉子驥尋不著這個地方,不是他找不到,是因為他沒有經過樹根那一輪「降維標準化」。身為一名「高尚士」,他應該是一個見識、思想異於常人的「個體」,怎麼可能輕易被「簡化」呢?他與桃花源的協議不兼容,自然是無法進入和連接了。

理想模型之所以是理想,就是因為理想實驗環境往往就意味著屏蔽了諸多複雜的干擾因素,簡化了條件。

這樣好麼?我並不這麼認為。

複雜性是人性的基礎,放棄了人性的豐富與複雜,化身成桃花源中的白衣男女,無怨無恨,亦如死人一般。因此常有把桃花源解做「誤入墳塋」的故事版本,這並非沒有道理。我們在排練《暗戀桃花源》的時候,也曾反覆思考過,為什麼其中的白衣男女與世俗社會中的老陶、袁老闆、春花如此不同?陶袁花的故事可笑,但白衣男女也可笑,他們並沒有什麼差別。有沒有煩惱,都很可笑。

可笑是矛盾的表現,也是價值所在。

如果消解矛盾和分歧的方式是所有人都歸於 LCL 之海,那麼當我中有你、你中有我,我們彼此不分的時候,所謂的「我」還有什麼存在的意義呢?如果一切都要歸於熵,那所有的分歧和衝突對立,也只是笑話。

唯一可做的,也只有減緩自己的熵增。


後記:

為了創作出對應於「觀念」和「感受」的畫面,我花了很多時間在 prompt 的調整上,因為用語言生成畫面這件事,本身就充滿了對語言的誤讀和轉譯,而 AI 基於概率的運行方式,也增加了難度。因此,把腦海裡的觀念和情緒先通過語言表達出來,變成一種對某一類具體畫面的描述後,才能在一次次的 /imagine 中找到更合適的語言和畫面。

這種創作體驗很奇特。

過往的繪畫訓練或寫作表達,手頭功夫的訓練是至關重要的。但使用 AI 畫畫來表達觀念,會因為表達這個目標倒逼我把觀念拆解成更為細緻的狀態,不止是邏輯的細化,更需要把細化的觀念給圖像化,用視覺語言來描述它。

同樣是昆蟲人,面容的風格、眼神的選擇、肌理所呈現的氛圍、服裝的細節,都會影響表達的效果。選錯了表達方式,很容易就會得到一個一眼看上去就遭人討厭的怪物,或者因為太像人而失去了異化的感受。那樣就和我想表達的意思,背道而馳了。

*部分被放棄的方案

關於共鳴那部分,應該是我做了最久的。

因為「共鳴」太抽象了,怎樣的人物狀態、神情和與環境的關係,都試了很多種畫面邏輯。從山上到海裡,從逆光的傍晚到深夜的月光,從全身像面對面站立到半身和面部的特寫,面孔的表達又在歐美人、亞洲人、東西混血中嘗試了一些,畫面色調和畫風也會有很直觀的影響。這麼「簡單」的畫面,想要找到那個比較精準的感覺和情緒,也花了兩天,才從約 300 個方案中找到最恰到好處的那一個。

*部分被放棄的方案

網上有很多用 Stable Diffusion 畫美女和裸女的,說實話,好看的那些確實顯得很「精緻」,哪怕是色情畫面也精緻得嘆為觀止。但這就和攝影術發明之初類似,攝影像油畫是沒有任何意思的,它應該有它的新的用法和創作思路。對我來說,AI 繪畫的最底線應該是輔助我把腦海的觀念傳遞出來,而不是畫很多精緻得像量產網紅一樣的裸女畫。

我並不是反對量產的 AI 裸女畫,只是想從創作的思路去看待:當刺激感官衝動成為 AI 可以輕而易舉做到的事情之時,更複雜和更深入的連接才是人類創作者應該去嘗試的領域。

這確實不容易,但 AI 讓這件事方便了很多。

借行业科普聊了一次 AI 与设计师的关系

上个月去上海之前,@取景框看世界 在微信上邀请我一起做一期关于设计行业的科普视频,面向学生群体做一次对行业整体状况的分享。这次是 B站 向他发起的约稿,也是他频道的主要内容类型之一。答应他后,从上海回来我就根据自己这么些年的体会和反思,录了一期比较掏心窝的内容。由于参与的人比较多,直到前天,节目才终于上线。

🎥 点击图片跳转到播放页面

因为参与的人数比较多,我说的话也比较多,所以在汇总的成片里需要剪掉一些。但我又觉得难得录一期视频(从去年11月到现在都没有更过视频了),为了保证表达的完整性,我还是得有一个自己的版本。但因为实在忙得顾不过来,于是麻烦 @小雨 帮我把这条视频剪了出来。

毕竟是 @怪物尚志 的御用摄影/后期,有他的帮忙,我的视频里头一回多了许多配合文案的动画,比我一个人在镜头前单口相声好看多了。这一期花絮,也在昨天发了出来,跟正片错开一天。

🎥 点击封面跳转到播放页面

这期视频的封面是我昨晚用 midjourney 画的。

在这条视频里,除了科普工业设计的一些基本概念和行业现状,我也特别聊了一下 AIGC 和设计师之间的关系。前两个月虽然一直很忙,但我也一直在关注 AIGC 的动向。这两个月的变化实在是过于惊人了!

以下是我去年八九月用 midjourney 画的一些东西:

然而在这短短半年内,版本已经从当时的 v3 发展到了现在的 v5。ChatGPT 也从 GPT-3 发展到了 GPT-4,坊间传言 GPT-5 的研发已经完成且爬完了全网所有视频,可以直指某一条视频中的某一段话,只是还没发布。可以说开年后的这两个月内,AIGC 的发展速度已经大大超乎了预料,甚至正处于失控的边缘,它们正在开始颠覆一些东西。将来会发生什么,无法预料,但一定有什么事情已经在发生了。

所以我觉得,无论如何,再忙也得重新用起来。光是跟进各种新闻和消息是不行的,midjourney 前两天刚发布了由图片转译成 prompt 的新功能,多模态的 AI 已经不远了,这会更进一步推动人和 AI 之间的交互。我觉得,自己还是得保持使用状态才行。所以前两天我又重新充了值,开始体验它的新版本。

我先试着画了一些机甲的东西,例如这样的:

上面的两张的用 prompt 直接生成的,但下面的两张,是用 /remix 命令修改了部分描述词后的新图。可以看到下面的图和上面的图保持了相关性,于是我想试试,如果用这个命令替换背景会是什么效果,于是有了这组车的图:

上面的两张图是用 prompt 直接生成的,当我用 /remix 替换了背景描述的 prompt 之后,就生成了下面的两张。更换环境之后,车辆的姿态和镜头视角几乎没有变化,车身的反光与环境之间的关系也很自然,这个效果已经可以说非常惊人了!

然后,我随便画了一些白色的机器人站在燃烧废墟上的场景:

用 /remix 替换了机器人配色部分的描述词后,生成了下面这样的图:

对 /remix 有了基本的体感之后,我开始尝试用 /blend 命令来做一些融合的实验。

首先,我随便描述了一个赛博少女,得到一些随机的图:

接着,我再随便生成一个红发少女:

材料准备好之后,开始把它们进行组合。

第一次先尝试融合两张图,一个是游戏画风的机甲人,一个是二次元的赛博少女。

它们俩合成后,得到了以下这个人物:

新角色具备其中一张图里人物的长相特征与体态,也有另一张图的配色和机甲特点。虽然得到的结果具有随机性,但既然可以这样融合,那么应该也可以通过 /blend 命令来得到一些更有目的性的创作。

有了第一次的体验后,第二次我用三张图片进行合成:

图一是现画的半透明金属机器人,图二是上面准备好的红发少女,图三是现画的骑士。

这三个合成出来的新角色,同时具备了细碎的金色细节、波浪红发、银白色盔甲:

但这不是我想要的,我想试试加大红发少女的比例。在垫图的方式下,可以通过 –iw 命令来分配各个图片之间的权重占比,但是在 /blend 中不能这么操作。于是,我想通过把合成的新图作为素材,再一次与红发少女进行融合,并加入机甲的元素来强化她身上盔甲的质感。

二次合成使用的图,如下:

合成出来的新角色我非常满意!

她既有红发少女面部和眼神的特征,又把两副银白外甲融合得非常优雅,也保留了初始半透明金属机器人遗传下来的金色金属关节的特征,又做出了图三机甲的坚硬感和图一外甲的银白光泽。这一次的融合很成功。

但如果 /remix 可以局部替换特征,那么这些没有写 prompt 而是通过 /blend 直接合成的图,能否通过 /remix 加入新的 prompt 来修改已有的特征呢?

为了让实验效果明显一些,我想让盔甲的白色部分比例缩小,增加金属部分的比例,于是就先把这批图重新刷了几遍,直到出现肩甲是金色的变异版本:

然后不断在此基础上进一步变异,强化金色肩甲的特征:

所有图片均可以点击放大下载原图

准备好之后,我在 /remix 中添加新的 prompt:pink armor

以下是修改特征后的结果:

所有图片均可以点击放大下载原图

整体的效果我还是挺满意的。一来,新生成的人物很好地保持了最初红发少女的眼神和神态;二来,金色金属被替换成粉色金属后,金属质感的表达是正确的。虽然头发也一起变成了粉色,这确实是没完全理解指令,但原有的发色搭配新的粉色盔甲也确实不是很和谐。

到此,重新开始用 AIGC 工具的热身完毕,找回一些感觉了。

至于这期视频封面里用到的车图,是我昨晚用 Maserati 和 Ferrari 以及 Apple 和 Tesla 分别杂糅出来的缝合怪。虽然乍一看好像没什么新奇的,但是如果我把去年八月底用 midjourney 画的汽车拿出来对比,就会意识到这是多么疯狂的进化速度了:

上面三个是去年八月用 v3 画的车;

下面这些是昨晚用 v5 画的车:

所有图片均可以点击放大下载原图
视频封面使用的图片
所有图片均可以点击放大下载原图

虽然工业设计有大量的细化和落地工作是 AI 无法干的,但从目前来看,无论是 midjourney 还是 Stable Diffusion + controlNET 都已经可以很好地帮助设计师完成概念发散和快速枚举了。这样的图像质量,通过垫图、remix 和 blend 的组合使用,完全可以在创意初期快速拉出一批高质量的「草图」,设计师可以把更多的精力放在对方案思路的推敲、对细节的考据以及各个环节的沟通协调上。

从今年二三月开始到往后的十一二年,人类社会将迎来一场以破坏为开端的变革和创新。

无论我们是否愿意,都将一起进入新的世界。

让 MJ 学我画两张小画儿

昨晚吃饭前跟儿子一起画画,我随便画了一下我们在 Minecarft 里的第二个家,和随便画的一个岩浆包围的高堡:

后来想说看看 Midjourney 能模仿成怎么程度,就丢进去试了一下:

emmm,画得还行……

就是画风不太相关,它有它的训练痕迹,哈哈哈哈哈哈哈~

测试所使用的 prompt:

Tree house, jungle, rainforest, simple little house –sref+空格+两张手绘图的地址 –ar 9:16 –s 50 –v 6.0 –style raw

艺术可以糊弄,体力劳作也是高级智能

昨天发现 AAAny 更新了发图的功能,于是就顺势发起了一个讨论 AIGC 的话题

轶轩在话题下问我为什么对外发表的图都是一些细节比较丰富的类型,是否有基于 AIGC 的生成方式而做的一些突破方向的尝试。我觉得,针对这个问题,我可以在对他的回复上,再做一期视频来谈一谈我的观点。

用于风格参考的马列维奇的画作
基于马列维奇而生成的《城堡下的人群》

但与此同时,我也想做一些「简练」或「抽象」的图来辅助说明我的看法。于是,今天在工作之余,用一些碎片时间,做了一些图出来。

对此,我尝试比较随意地做了一些「东西」。它们都没有什么明确的「表达」,仅仅只是我随手写的一些 prompt,或者就是在 Midjourney 的社区里复制修改的 prompt,最终出来的东西都是一眼看上去有一些「意境」或者没那么精致细节的但表现比较能唬住人的图像。

你会发现,在这些人类认为偏「抽象」的表达上,AI 反而是比较容易做「好」的。

但是,这种好不是真的好,只是这些风格上,并不需要对细节有很认真的考据,在表现层面上是非常容易「糊弄」的。

这也是现当代艺术作品常常被人诟病的原因之一,因为那些作品浓缩了大量的思考和抽象提炼,但表现形式上,其实并没有比传统艺术更复杂,或更需要技艺和体力上的付出。也就是说,作为当代艺术最核心的「观念」,在完全不需要理解的情况下,一个外行的人或者一个数据量管够的 AI 就可以模仿出「看上去像那么回事」的东西。这种模棱两可的状态,恰恰是江湖神棍和 AIGC 擅长处理的对象。

这里说的「糊弄」「神棍」并非贬义,而是借着世俗的话语体系来表达,这样的「生成作品」并不需要 AI 具备「意识」和「创意」也可以轻松地实现。

那么,什么东西是更难的呢?

细节,是令人信服的细节。

这些是我用 AI 生成的男士剃须刀的设计方案。

你会发现,这些方案咋一看是那么回事,但只要你多看两秒,立刻就会意识到它不对。它们的空间关系、形态的处理、物理交互的关系、电子器件的布局,通通都有很大的问题。这些就是不可信的细节。

因为 AI 实际上并不理解它学习的那些图像。

这些令人信服的关键点,是无法糊弄的。因为它们当中包含了大量精确的思考和训练,也包含了海量的脑力和体力劳动,如果一个「智能体」不理解一个图像背后的复杂逻辑,那么它就没有办法真正地创作出这个对象。它只能模仿,只要模仿得足够像,就可以唬住外行。但是对于以此为生的从业者,这样的智能工具,还不足以成为生产力。设计师可以用这样的工具拓展自己的思维,但这些过程并不能替代设计行为。

从创意到落地,中间还有漫长的路需要人类设计师去走完。

现阶段,更适合工业设计使用 AIGC 的方式是这样:

我的意思并不是让 AI 画手绘图,这仅仅是一种表现方式。但是,这是一种不需要追求精确的表达方式,很适合 AI 用「抽卡」的方式来快速堆想法。除了这种,当然也可以让它生成上面剃须刀那样的图,但同样的,目的不在于出方案,而是借助 AI 的海量数据库,快速地堆出一批发散性思维的「胡编乱造」的混杂图像来。

人类的视野有限,但 AI 看得一定比人类个体的平均值多。

工业设计不是天马行空地想象,它是一种「劳作」。

从初期的构思,从草图推延到模型和效果图,再从设计方案导入结构设计和工艺、制程,这意味着工业设计不是一项纯脑力劳动,不是一种只运行在计算机里的行为。它包含的体力劳作同样是设计的一部份,甚至可以说,是更关键的那部份。这种体力劳作,不仅仅是肌肉和工具的配合,更是人脑对环境、事件、社会群体、物质的反应和处理,设计师的动作意味着这个人对世界的认知。这种程度的认知,对于只运行在计算机内,仍然缺少复杂的传感器和理解过程的 AI 而言,暂时还是无法实现的。

我当然相信它未来会具备这样的能力,但是在目前的技术条件下,依然需要大量的人类来完成这些真正代表了「智能」的「体力劳作」。

欢迎加入我们的讨论:

https://aaany.app/aaa/ltwu3txza

想注册体验 AAAny 的话,请给我留言

我会给你留言的邮箱发送注册邀请码

十二生肖 · Midjourney · 戏剧角色设计

在网上看过很多人用 AI 画十二生肖主题的系列画,但大多数我都觉得太套路了,要么只是生成一只动物,要么是套上一些所谓的古风服装,强行「国风」一把。我觉得,既然工具本身已经有很强的生成能力了,那么,创作者就应该更多地表达观念。没有观念的全自动生成出来的东西,再好看,也是大同小异、千篇一律。这种现象,最典型的就是那些长着网红脸的 AI 美女图。好看,但无味,因为缺少人味儿。

人味儿来自什么?最重要的两个点是:有缺陷,有观念

缺陷是因为人的不完美,不能样样都要,那么就得有取舍,而取舍的依据是什么呢?那就是观念。观念和审美,本质上是我们经年累月的经历中,所积累下来的看待世界的偏见。这里说的「偏见」不是贬义词,而是在说,人无法客观,而观念与审美就是在主观中沉淀下来一系列判断依据。我们就是用这样的依据来取舍,这些选择就形成了创作的结果。

即便是回溯到人类此前的所有历史中,艺术家们的创作,也是基于自己的「偏见」来选择创作的工具、技艺、载体和题材的。没有偏见,就没有作品。

因此,我想尝试创作一套有「戏剧感」的十二生肖。

戏剧感,一方面来自这些生肖不能只是动物,或者套了动物头套的人,而是得有个性与故事的角色,角色的人物小传可以从它们的神情、服饰、妆容等呈现出来;另一方面,需要一定的冲突感,这里说的不是观念不同的冲突,而是来自文化和故事背景中,衍生出来的角色的生命力,它会把你带入到某种场景里,它们的妆容和服饰或许不是那么常规、习以为常的文化惯性中的表达,但它们在场景和故事中,是合理的。

以下就是我的创作尝试:

如果你喜欢,可以自行下载原图。

如果你要转载,或者二次创作,请附上这篇 blog 的链接:suithink.me/?p=11457

我大致分享一下,这十二个角色的构思吧。

【鼠牛虎】这一组,是想把【生肖】与【西服】做一个融合,但我希望它们有更多的变化和区别,就分别在色彩、气质上做一些差异化描述。最后出来的三个角色,能感觉到是来自同一出剧的人物,饱受欺凌的鼠,正直优雅的牛、权势凌人的虎,故事就由此可以展开了。

【兔】通常是软弱和被欺负的对象。我希望创作一只勇敢、独立的兔小姐,于是让她走在一个昏暗的街道里,身着红色皮夹克,眼神坚定地朝着镜头。在很多文化意象中,兔子、皮衣和地下文化的组合,是谄媚的,是挑逗的,或者是色情和暴力的。但我不希望是这样,我想她可以是地下世界的英雄。她是这个系列中的第一位女性角色。

【龙】在中国的文化里,高高在上的霸权。于是我想,首先在颜色上我就不要那种红黄黑的东西,我不要皇权和武力的表达,我要它是个君子。作为君子的龙,需要同时具备威严和素雅。威严在于其妆容造型和气质眼神,素雅在于整体的色彩倾向和服饰风格。所以,这头金龙虽然相貌霸气,但眼神柔和坚定,白发之下是金线白袍,不怒自威。

【蛇】是邪恶的,多数文化中,它们都是这样的形象。这是第二位女性,我希望赋予她高雅的气质,和中立的角色身份。她在诸国纷争中,不倾向任何一方。但保持中立,需要的不仅仅是态度,也需要武力和经济。所以,她应该是一位既有贵气又有智慧的女性领主。在她紫色的服饰之中,使用了羽毛的元素,与蛇类那种光滑、阴暗的视觉元素做一点调和。

【马羊猴】这一组是相对现代的角色。【马】通常是黑色或褐色的,虽然也有白马,但在印象中,说起马就是黑色的动物。所以我想给她穿一身干练的白色风衣,即符合马这种动物在人类文化中的形象,又能在色彩搭配上突出她的质感。值得一提的是,我选择了一个侧面的视角,因为马的轮廓,侧面是最美的;并且,我在 prompt 中加入了长辫的描述,黑色布料的造型很妙,因此这个角色是目前没在网上出现过的全新的马人形象。她也是这组当中的第三位女性。【羊】的种类实在是多,不同种类的羊,出来的气质也都不太一样。经过不同的组合尝试,我最终选择了 Goat 这种羊。我想要一个有点脾气和痞气的大叔,他平时就坐在街道头的店铺门外,跟老板聊天,街上一旦出了什么事情,他一定会出手。因此,他的皮衣和眼镜都是有点讲究的。不过你看得出来,他并不是那种有钱人,他的讲究是一种对待自我的态度。

【猴】很特别,一方面是猴的种类也很多,另一方面是,猴子在绝大多数文化中都是活泼闹腾的男性形象。我非要她是女性,但她不会是个乖训的家伙。最后我之所以觉得,滇金丝猴是一个很合适的选择,在于它的毛色和毛发的形态,橙色到白色的过度让角色有一种温和的基调,但向外肆意张开的样子又很有流浪不羁的气质。服饰上我选了裙子和围巾。但在色彩上我动了一点心思,暖色系的猴和皮衣加长裙,得有一些色彩上的对冲,来建立她的个性和态度。因此,围巾是绿色的,也有相当的体量感。

【鸡狗猪】中的【鸡】是在【骄傲大公鸡】的基础上的进一步表达。首先,鸡的种类很多,但白色羽毛的,通常是 white Plymouth Rock。为了增加戏剧冲突,我希望他穿着镶满了珠宝的绿色三件套西装。神气,就是要神气!【狗】就更多种类了,我最开始也尝试了不同的品种,因为拿不准什么样的形象是更合适的。后来我意识到,不同的狗,它们自身的气质差别就很大,所以不存在一种狗能表达狗这件事。于是,重点就变成了,我想要表达什么,那就选择什么狗。我希望这是第五位女性。恰好,筱烨以前的 Daisy 就是一只金毛,一个可爱热情受街坊邻里欢迎的小女孩。那就金毛寻回犬吧!在这个设定的基础上,我增加了双麻花辫和白色校服的描述,最后就有了这个金毛小女孩。

最后的【猪】我有两个想法,一个是十二生肖中男女比例对半开,所以我希望她是女生;另一个是,我想她可以非现实一些。前面的十一位都是比较写实的感觉,但写实的猪,和女性结合,在观感上,很容易让人产品某些厌女、性别对立的联想。我不希望这位可爱的女性角色被贬损。于是,我给她增加了金色皮毛质感的设定,穿上温暖的粉红色外套,带着白围巾站在雪地里。这是一位温柔的女性,但她的防风镜会告诉你,她可不是傻白甜,在雪天的山里行走,缺少她的交通工具,哪怕是楼上的虎先生,也寸步难行。温柔也是有力量的。

下载高清原图:                      

女神雕像|Midjourney V6 Alpha 不锈钢材质测试

之前测试了 Midjourney V6 在石膏、大理石、黄金材质下的表现,出品非常好,并且品质表现很稳定。今天忽然想测试一下,同样的题材在不锈钢材质下的表现如何。

因为上述三种材质的漫反射对形态的干扰很小,AI 的训练素材应该也大部分是以这类非镜面材质的图库为主,所以我猜测,同样的雕像在抛光/镜面不锈钢下的表现,很可能会因为镜面反射对形态的干扰,产生许多错误。

以下实测例图,均可点击查看原始尺寸高清大图

Prompt ⬆ Bust photo, polished stainless steel goddess sculpture, real feathered wings, black rock, magma and flame, dark clouds –ar 3:4 –style raw –v 6

可以看到,镜面不锈钢材质在没有手部参与的情况下,表现非常出色。形态、比例与动态都在镜面材质下,显得更为出色,细节的呈现也非常舒服。

Prompt ⬆ A statue of the goddess made of polished stainless steel, with huge white feathered wings, surrounded by obsidian, with lava flowing, violent flames, and clouds of darkness –ar 3:4 –style raw –stylize 50 –v 6

这一组我着实测试了很多轮,才终于能挑选出这两张还看得过去的成品。期间最容易出现问题的点有:

1、手的比例和手指的形态、数量;

2、画面未完整呈现 prompt 所制定的内容;

3、不锈钢、羽毛、岩浆、火焰四种材质的不恰当混合。

我感觉目前的 
V6 Alpha 虽然在光影关系和质感的表达上非常强,但在较复杂的 prompt 的情况下,非常容易出现不合适的混合。

Prompt ⬆ Mirrored Stainless Steel, Goddess Statue, White Feathers, Obsidian, Lava –ar 2:3 –style raw –v 6

这一组实例中,明显可以看到 

MJ 对于 Mirrored Stainless Steel 这个关键词的错误执行。虽然质感的表现非常好,但它根本不是镜面不锈钢。同时,岩浆、黑曜石这些关键词也几乎没有呈现,仅有部份反光似乎呈现出了对「Lava」一词的反馈。从最终结果来看,质感的表达是明显跑题了。

Prompt ⬆ Mirrored Stainless Steel, Goddess Statue, Above the Waist, Red Feathers, Obsidian, Magma –ar 2:3 –style raw –v 6

当我把其中「白色羽毛」的描述,修改成「红色羽毛」后,可见材质之间的干扰就几乎消失了。大概是镜面材质中高光的部份容易和白色材质产生混淆,所以在颜色明显有区分的描述下,不锈钢的质感表达就非常舒服了。

这一点猜测,在最后一组失误实例中,可见到更离谱的跑题。

Prompt ⬆ Mirrored Stainless Steel, Goddess Statue, White Feathers, Obsidian, Lava –ar 2:3 –style raw –v 6

这一组和上上组的 prompt 是完全一样的,区别有:

1、选择方案发散路径时,选择了有躯体的版本,有起伏的形态更有利于表达镜面材质;

2、更大面积的曲面形态,似乎会有更少的概率出现材质跑题的情况。

我不确定以上猜测的概率,但在实际测试中的感受就是:

如果人物以全身、半身的形态来呈现,那么镜面不锈钢的表达错误非常少见;但如果选择只有脸部特写的方案深入,材质跑偏的概率明显更大。

Prompt ⬆ Mirrored stainless steel, close-up of goddess’s hand, white feathers –ar 3:4 –style raw –v 6

同时,因为以上的所有测试中,手的比例和手指的形态、数量一直都在出问题,所以我单独对「手」做了几轮测试。在高反射材质描述下,「手」出问题的概率非常非常大。必须一轮一轮地精挑细选,在看着还行的方案上一次次地 Vary 才能偶遇到一两个,看着没什么大毛病的「手」。

同时,因为高反射的干扰,高光和白色很容易让不锈钢材质呈现出磨砂质感。

Prompt ⬆ Polished stainless steel bust of a goddess with white feathered wings, black rocks, lava, flames, dark clouds –chaos 21 –ar 3:4 –v 6

这就是上文说到的跑题千里的材质表达。

同是 Polished stainless steel 这个词,但无论是躯体还是面部,都完全没有 Polish 的意思。整体观感更像是光滑的石头,它的质感表达完全被白色羽毛给搞混了。但同时,羽毛也呈现出石雕的质感,完全不是羽毛的质感,和上面几组实例的羽毛完全不是一类表现。

本轮测试总计生成了 659 份方案,筛选出以上 19 张我认为可以的成品图。

在我看来,这个比例过于低了。

希望在 



V6 的正式版本中,能优化这方面算法。

表达的精度就是人类外延的尺度|Midjourney 
V6 Alpha 自然语言生图测试

Midjourney V6 的质感和细节,真的是飞跃式的成长!

和今年三月相比,已经完全脱胎换骨了。对自然语言的理解和再表达,也已经在渐渐脱离「咒语」的局限,结合 ChatGPT 的语言转译,一个人能够用母语把尚不明确的观念表达清晰,愈发显得重要。

点击图片,可查看原始尺寸高清大图:

当 AI 越来越擅长理解人类的自然语言,我们就愈发迫切地要掌握「用语言表达思想」这件事情。

因为语言的精度和颗粒度,将会在人类与 AI 的相处、合作中,展现出人类智力的上限所在,以及外延的纵深能够得着多远。

Upscale from Variations
Upscale(Subtle)
Upscale from Variations
Upscale(Subtle)
Upscaled (Subtle)
Upscaled (Creative)
Upscaled (Subtle)
Upscaled (Creative)
–Style 50
–Style 100
–Style 250
–Style 750
–Style 1000

2025 款 五菱星跃 Safari EV 四驱四座

点击可查看大图

这是一个玩笑。

这其实是我使用 Midjourney 画的一款概念车。初始的构思是,一款小型电动越野车,比一般的 K-Car 稍微大一些,但得有越野车的强壮感,同时要贴合当代审美的流畅线条。

为了测试大家对它的反应,我把五菱的标志合成到了我最终在 MJ 上输出的图上,并虚构了这个型号,没有任何多余解释,直接发出来。我会观察一阵子,看看会发生什么。

在这张图里,我所使用的描述词:

正在行驶在路上的四轮微型车,小巧的车身,简洁和硬朗的造型,硬朗和锋利的车灯造型,黄色车身,光洁的表面,流畅的曲线,越野设计风格,背景是黑色的玄武岩山脉,3D模型,虚幻引擎渲染

prompt:

Four-wheeled miniature car driving on the road, compact body, clean and hard styling, hard and sharp lamps styling, yellow body, glossy surfaces, smooth curves, off-road design style, black basalt mountain range in the background, 3D model, Unreal engine rendering

用 MJ 画一辆车非常简单,但想要看上去能骗到人,还是得在细节上多做调整。所以我除了调整描述词外,最主要的尝试,是不断用 Vary(Region) 这个功能来调整局部,以使其达到我想要的效果。包括但不限于车身轮廓、车灯造型、C柱与尾部的衔接、防护栏造型与车身的衔接、轮毂、远山等。

同时也保留了一些 bug,来确保有人可以发现其非真实性,例如被我抹掉的 A 柱和门把手,被抹掉的前舱盖的缝之类的。

以下是未经处理的大尺寸原图:

文件体积:25.7 MB

你可以拿去玩,把你喜欢的或你认为适合的品牌标识合成上去,拿到任何地方发表,不需要经过我同意。祝你玩得开心!

❌