Normal view

There are new articles available, click to refresh the page.
Before yesterdayMain stream

金色曠野裡的自行車

By: Steven
19 September 2023 at 03:31

距離九月四號已經過去十四天,除了那天傍晚六點零幾時,我抱著小柒哭了幾分鐘,直到上週五零點左右,我才終於第二次哭出來。在《單車》的旋律裡,在跟著哼唱的情緒裡,在那些模糊又清晰的記憶裡,抽泣著把這些天積攢的情緒慢慢釋放了一些些。

颱風「蘇拉」襲擊深圳,高鐵停運,坐順風車趕回韶關

我很難形容那些複雜混合的感覺,它們彷彿一陣一陣的海浪:我就站在沙灘浪邊,潮水一次次慢慢地湧上來,包圍我,退去時拉著我往深處走,腳下的沙子一次次被抽空,明明站在地上,卻如同失重一般無法站立。

我無法說出「我很想他」這樣的話。

想念嗎?想。

責怪嗎?也有。

內疚麼?有些。

後悔嗎?沒有。

醫院的走廊,左邊是病房,右邊是護士站

我已經在盡我最大的努力做好每一次了,在阿爺阿嬤和爸爸的靈位前,我可以說我是問心無愧的。某一個守夜的晚上,我跟筱烨這麼說。但無論我怎麼做,都會被人說我做得不夠,做得不好,說我不孝。你回來得太少了,帶小柒回來得太少了,你看他就是為了等小柒,不然怎麼會剛回來就嚥氣,諸如此類。我應該承受這些麼?筱烨應該承受這些麼?她們是妹妹,一定是非常傷心的,但我就不傷心麼?我是兒子就理應被這樣指指點點麼?她們不懂。她們從來不知道我這三十多年是在什麼樣的環境中走過來的,她們也不知道我從小到大有多麼羨慕弟弟妹妹們那溫暖的花房。

但這已不重要了,父母沒做好的部分,我會努力在我這裡終結掉,不讓小柒體會我所經歷的那些事。我對父親的情緒太複雜,我愛他,也埋怨他,我敬畏他,也可憐他,在漸漸緩慢下來的呼吸中,他沒有疼痛地結束了這一生,對於一個癌症病人來說已經是萬幸了。可我仍然在一陣陣的海浪當中,無法跨出離開沙灘的腳步。

照進病房的陽光
從鼻管換成氧氣面罩

「我只是想保護你」

回到深圳的第一晚,在負一樓等電梯的間隙裡,我和小柒聊起他記憶中那次糟糕的經歷。

那大概是三年前?我其實記不清準確的時間點了,大概就是他四歲左右的時候。具體他做了什麼事我也不記得了,當時我們都挺生氣他做的事,說也說不聽,一氣之下我突然就有了想揍他一頓的衝動。但是,那一刻我還保有一部分理智,我很清楚我不能真的動手打他,我不能像我的爸爸打我那樣打小柒,我不能讓自己成為那樣的爸爸,那樣的人。於是,我靠著怒氣中僅存的理智,把他從椅子上抱起來,放在了雙人沙發上。

「放在沙發上」是我給怒氣的出口,但也因為是怒氣與理性的撕扯,放下去那一刻的力量始終還是大了,以至於小柒直到現在還會因為那次「被扔到沙發上」的經歷而害怕。

我說:「小柒,爸爸當時是想保護你的,我不想成為我爸爸那樣。我不想像他拿棍子打我那樣對待你,但那時候我真的控制不住,我不想打你,放到沙發是對你的保護,那時候是爸爸不對,但我真的盡力了。」

我不確定小柒能否理解這些,但那一天,他的呼吸停下來之後,我抱著小柒哭時,他知道那一刻發生了什麼。他抱著我的手臂,拍拍我,點點頭。他沒有說話。但我能感受到,他那麼溫柔,那麼溫暖,這是我所不具備的品質,我很高興。

放學的中學生們
依然熟練地開門鎖門

金黃田野裡的兩輛自行車

如果仔細回憶的話,關於父親的畫面,其實有很多。和我媽相比,他才是那個主內的人;儘管真正主內的人,其實是阿嬤。他其實不那麼像一個照顧全家人的大家長,更像一個年長的大哥,一個依舊生活在老母親保護下的大花公雞。他和我在一起的時間,是母親和我在一起的數十上百倍,但當我想起他時,能立刻回憶起來的畫面,其實只有三個:

小學低年級的某一夜,我高燒不退,他半夜背著我去醫院,我迷迷糊糊間,只能看見歪歪斜斜的路燈和熟悉的門診部,以及他寬厚的背部。這件事我根本記不住任何細節了,但因為後來我寫過一篇關於父親的作文,因此我還多少留有一些記憶的畫面,而此時的所有記憶,其實來自我寫的那篇作文。至於那個晚上,我能回憶起來的只有漆黑的夜和晃動的路燈。

「就這兩個小時了,你們抓緊時間安排吧」

另一件,是一次暴力事件。大概是小學六年級時,某一次我做錯了事,又或者是我對阿嬤說了很過分的話,我不記得了,總之他當時暴怒的樣子嚇到我了,於是我躲進了我的房間,把房門反鎖上,躲起來。他像颱風一樣拍打我的房門,我躲在門後面,非常害怕,直到他一腳踹爆了房門。他反舉著雞毛掃,用棍子那一端抽打我,這種泣不成聲的抽打從我記事起,一直持續到初一。這一次,大概是最後一次,我哭得幾乎昏厥,發不出一點聲音,呼吸困難,是在阿嬤的制止下才結束的。

他本來就不怎麼跟我說話,那次之後,我們之間的話就更少了。

在我的回憶裡,與父親的對話極少。除了高考之後那一次,我在幾個姑丈面前於他爭辯,說我多麼想被關注,甚至故意把日記本擺在桌面上,希望他和媽媽能偷看一下,多瞭解我在想什麼,但你們從不與我談論任何心事。此後,再沒有別的大段對話的回憶了。

可我依然有一段溫暖的畫面,直到今天,也是我確信他愛我的證據之一:

初中時某一個週末的下午,我和他各自騎著自行車,在金黃色的陽光中,穿行在金黃色的稻田之中。那是一條筆直的鄉間柏油馬路,自右下向左上延伸,我們並排著,在又高又直的兩列白樺樹中,並行前進。

選墓地時,偶遇的白貓

其實,在廣東不會有這樣的畫面。真實的場景裡,應該是一連串小片的綠油油的稻田。但也許是那樣的回憶對我來說太珍貴了,於是我的大腦自動美化了那個畫面:一個類似無人機視角的鳥瞰的暖色調的俯拍畫面,一個能救我於水火之中的金黃色的畫面。

難離難捨總有一些,茫茫人生好像荒野

每每想到這個畫面,《單車》的旋律就會響起。

每一夜,守夜點香
爺爺打的桌子

「你就像一棵小樹苗」

可如果我只記得他做得不好的部分,只記得那些傷害我的記憶,那是不公平的。

關於時間的概念,是他通過言傳身教交給我的。關於守時,關於長期的時間觀念,是在一次次他的遵守時間約定之中,在長達數年幫助我收集煙盒、火柴盒、包裝袋當中,緩慢而紮實地建立起來的。我從來不會因為一時三刻的得失而慌張,其實是得益於他的收藏習慣。他收藏紙幣、硬幣、郵票,我跟著收藏各種包裝,都是需要耐心和等待的事情,久而久之,就體會到了時間維度被拉長之後的視野。

我知道時間是連續的綿長的,因此才會有這個博客;綿長而流動的時間會塑造出物件和歷史的輪廓,也會雕刻出一個人的樣子,因此我有嘗試新事物的勇氣與好奇心;漫長的路途中不需要帶走所有東西,紀錄就是最好的篩選,放下我不想帶去未來的記憶,在文字裡刻下我認為是好的內核,通過文章、視頻的紀錄,一點一點塑造未來的自己。

這是我最珍貴的品質,是他帶給我的。

他帶我買高達和四驅車的地方

當他不再用雞毛掃打我的時候,說過一番話:「你就像是一株小樹苗,爸爸不會干涉你怎麼長。只有你長歪的時候,我才會扶一下。但你想長成什麼樣子,是你自己決定的。」

其實我那時就不氣他打我了,但心中還是很害怕,還是有隔閡。

這番話如果放到今天的社交網絡上,一定會有人說這是他在 PUA 我,或者說這是為自己的行為找藉口的洗腦話術。可是,這樣惡毒的揣測,對自己有什麼好處?一個成年人,如果不能判斷什麼是愛,不會分辨一段關係中複雜的構成因素,不知道人事物就是複雜的,那他就枉顧了這一生。

若他在天有靈,會為我感到驕傲嗎?

「你這是灌水」

我原以為,我們的告別會是無聲的,平和的。

在他離開前的兩天,媽媽回家裡去拿一些東西,那個下午,就只有我和他兩個人。我有些無所適從,因為自打離家上大學後,我就幾乎沒有跟他獨處的經驗了。更何況,是他躺在我面前,無法自理的獨處。

我有一些害怕,不是怕他,不是怕照顧他,是怕照顧不好他。

前些年阿嬤走的時候,有一段時間裡,我常常覺得是不是自己害死了她。在那段剛畢業的時光裡,我大概每年會去一趟香港,幫阿嬤買一種心臟病的藥。後來,時不時會看到一些報導或者社交媒體上的說法,說一些藥店會把假藥賣給我們這些內地過去的人,把數量有限的真藥留給本地人。於是,阿嬤後來因為心臟病的藥引發腎臟的問題,進而導致更嚴重的情況直到離世,我都忍不住去想:是不是我買到假藥了?

理智上,我可以寬慰自己說,不是你,不要這樣想。

但情感上,我忍不住,她就是我的天,我做不到。

阿嬤和我打羽毛球的衛生所

所以,那天下午,我爸在那麼虛弱的情況下,從嘴裡擠出一句:“斌斌,你會不會接尿?”我其實有點欣慰和緊張。欣慰在於,我覺得只要還能吃點粥,能排尿,就還不算太糟糕,還有希望;緊張是在於,我媽在這裡照顧他那麼久,都是她處理吃喝拉撒,我還沒嘗試過,萬一我沒做好呢?

但沒有別人,能不能做好我都必須做。

我一個人翻動一米七五的他,幫他翻身;關上門,揭開被子,幫他接尿。我不知道我完成得算不算好,但那天下午,他尿了兩次,每次各兩百毫升,我第一次覺得尿是這樣好的東西。

每次接完,我都會問他要不要喝水,他都說要。第一次餵了四個杯蓋的量,他就不喝了;第二次他一直說沒喝夠,最終喝了七蓋的量。但也是第二次的時候,一方面他的聲音很虛弱,我聽不清他說什麼,另一方面也是有點急,想他多喝一點,所以餵的節奏快了一些。他中途停下來,用一種我很熟悉的抱怨的語氣說了一句:

「你這不是喝水,是灌水。」

我愣了一會兒。

這是他意識還清醒時,對我說的最後一句話。後面兩天,他都再沒有說過話,絕大部分時候都在昏迷和發燒。直到小柒和筱烨趕到,聽見孫子喊他,激動得點了兩下頭,不到十分鐘,我眼見著他呼吸節奏減緩,胸口動靜的幅度減輕,直到一點起伏也沒有了。

最後一句話,是說我沒做好。

我當時是愣住了十來秒,一邊覺得是我著急了,得再慢一點,一邊又不忿,為什麼這時候了還是這樣的語氣?同時又覺得,算了,算了,我不重要。十幾秒內閃過很多念頭,有鞭打的聲音,也有金黃的陽光,最後我吞了一下口水,接著放慢速度,餵了後面兩三杯。

我不知道還能說什麼,只是坐在旁邊,看著他。

後來的某個瞬間,大概是第二次喝水到媽媽回到醫院之間的某個瞬間,他很努力地抬起頭看著我。他只有一隻眼睛睜著,但直直地看著我。我該說些什麼?沒事的,會好的?我說不出來這樣的話,因為醫生已經叫我們抓緊時間安排後事了,我不能騙他。我只能看著他,讓他能看到我也在看他。

那一刻,我感覺他在和我告別。

前一晚,預感不妙而失眠,用 Midjourney 畫的《追風少年》

大家都很喜歡他

他人很好。這是來自驢友們對他的印象。

葬禮那天,除了海南和廣州的親人們,還來了一群平時和他出去玩的驢友們。說起他,大家都是一副熱情、飽滿、聲淚俱下的樣子,彷彿他們才是他的孩子。我多少有點妒忌這幫人,只是一起玩耍吃喝的人而已,為什麼能把眼哭腫?他平時和你們的關係是有多好?

為什麼他把笑臉都給了你們,卻留一張黑臉給我?

我一邊遞過香去,一邊不理解眼前發生的事,很困惑。

在下葬後的屬於我們家庭的聚餐上,三地的親人們在把酒言歡,說著接下來的安排,一杯接一杯的酒,一杯接一杯地對我說著「阿斌啊,以後就靠你了」和「多回來海南啊」這些話。這個場面在爺爺和阿嬤過世時,也是如此,不要悲傷,要歡樂,是這樣的。對面桌上坐著廣南、廣星、阿坤三位叔叔,他們是我爸發小,送殯儀館那晚他們也在,他們在這桌上,是很合理的。但另一桌,整整一桌人,都是驢友,我們總共四桌,他們有一桌。

我很高興他們來送他了,但我還是困惑。

陳剛叔叔跟我爸那麼熟,我零九年初來深圳時,還在他家暫住了一晚,第一間出租屋也是他幫忙安排的。這樣交情的朋友,難過哭泣很好理解,可驢友們跟完了從殯儀館到墓地直到家宴的全程,散席時還在哭。他們流的眼淚,比我為阿嬤、爺爺、我爸流的加起來再乘以一百還要多。你們真的就那麼愛他麼?

我感覺自己被套在了一個真空的試管裡。

情緒到底是消失了,還是我感受不到了?我分辨不了。你們為之哭成淚人的他,最近一次對我笑,是我在手機上給他的遺照修圖時。那是大姑丈從我結婚時的合照中扣出來的。我平靜地、小心地、仔細地處理他臉上的痘印和眼鏡上的反光,調整曲線,以便讓他的臉部的光線更明亮,和背景之間的層次拉得更開。

那張笑臉,永遠定格在相框裡了。

他和阿嬤、爺爺的位置很近

閻羅的判詞

中國人常說,死者為大。

在任何場合裡,似乎離去的人,無論生前如何,悼詞裡都是一些美好的品質。正如那天的那一篇模板,他偉岸,為家庭撐起一片天,照顧好所有的家人,但十殿閻羅的判詞會怎麼寫?我們都不得而知。對我而言,他確實是半個好爸爸。五十年後,小柒會怎麼寫我?我希望至少能做到是 0.6 個好爸爸,至少是 0.51 個。我還不知道我能不能做好,但我會盡力不要留給他什麼遺憾,不會覺得有什麼虧欠和不公。

那晚,跟著鐵床推上山坡時,我媽摔了一跤,胸椎第十節壓縮性骨折,現在在醫院四樓躺著靜養。我感覺自己像一隻風中的打火機,擦不出火,點不著一根香。

十多年前的一隻籤裡說,我,六親無靠,大器晚成。

守夜後佈滿血絲的眼睛
用 Midjourney 畫的新壁紙

可我只希望:

跳出三界外,不在五行中。

镜头的变幻就是故事|Midjourney V5.2 Zoomout 测试

By: Steven
26 June 2023 at 00:18

➡阅读更多 AIGC 相关内容

最近一直都非常忙,所以连续 20 来天都没有碰过 Midjourney 了。前两天在社交媒体上看到,新推出的 V5.2 中有一个向外扩写的功能,因为此前已经在 PS+SD 的组合中见过这类拓展画面的应用思路,所以很想看看 MJ 的 Zoomout 能做出什么样的东西来。趁着端午假期这个空档,我集中跑了几波测试,有一些小小的心得,在此记录一下。

总体结论有三个:

1、Zoomout 可以无限次数地向外扩展,但随着镜头的拉远,Midjourney 自身的联想能力并不足以做出任何有意思的画面,不刻意控制地放大出来的画面,到了第 3~5 步之后,就会明显变得乏味和缺乏美感。

2、通过刻意地控制画幅比例、扩张倍数,以及针对性地调整 prompt 的描述,可以利用这个功能讲出有意思的故事。关键在于,使用者对于「镜头语言」的理解,以及对运镜和故事之间联系的掌控程度。

3、对工业设计的辅助甚微,做点「花活儿」可以,一旦涉及到逻辑,依旧不行。

Zoomout 功能的主交互界面

测试内容目录:

1、通过默认的 Zoomout X2 按钮连续放大 3 次

2、通过默认的 Zoomout X2 按钮连续放大 15 次

3、通过自定义 Zoomout 微调构图

4、通过自定义 Zoomout 构建人物画像

5、通过自定义 Zoomout 构建人物性格

6、通过自定义 Zoomout 完善场景氛围

7、在 niji 中应用自定义 Zoomout 构建人物和场景

8、自定义 Zoomout 构建情绪与故事

9、通过焦点变化构建故事的场景

10、通过镜头变化,构建故事的起承转合

以下为部分测试过程记录:

test case no.1:通过默认的 Zoomout X2 按钮连续放大 3 次

⬆ 点击以全屏查看图片 Click to view the image in full screen

操作方式:连续 3 次放大图像两倍,不对 prompt 进行修改,也不对画幅做设置。

输出成果:在奔跑的场景中增加了后方的人,有一点点故事性,但继续放大后会明显失焦,花面焦点始终在最开始的小女孩身上,继续放大生成的场景和人物都是模糊的。

test case no.2:通过默认的 Zoomout X2 按钮连续放大 15 次

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:连续 15 次放大图像两倍,不对 prompt 进行修改,也不对画幅做设置。

输出成果:外围拓展的场景越宏大,有效信息和故事性就越低,除了在阴影中无意间冒出的人影,没有任何惊喜和意料之外,拓展的画面也很单调乏味。

test case no.3:通过自定义 Zoomout 微调构图

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:不对 prompt 进行修改,按 1.1 和 1.2 的拓展比例小幅度调整画幅。

输出成果: 初始图像是近景特写,根据图像本身的特点,对画幅进行小幅度地微调来获得完整的全景镜头,以及合适的构图比例。

test case no.4:通过自定义 Zoomout 构建人物画像

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:先生成一个黄色漩涡图案,然后拓展时改写 prompt 为一只眼睛,进而生成一个带特征的面部局部画面,再次拓展时修改描述词为一个洞穴中的原始部落男性。

输出成果: 成功构建了一个有目标特征「黄色漩涡瞳孔」的男性角色,通过控制拓展比例以达到最终效果—-人物整体和局部特征均得以完整呈现的画面。

test case no.5:通过自定义 Zoomout 构建人物性格

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:先生成一个红色皮夹克的女性胸像,再改写 prompt 获得其坐在摩托车上的局部画面,再改写画幅比例获得完整的人物与车辆的全景照。

输出成果: 成功构建了一个有目标特征「红色皮衣+摩托车」的女性角色,通过控制拓展比例以达到最终效果—-人物细节和整体氛均衡的画面。

test case no.6:通过自定义 Zoomout 完善场景氛围

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:在初次生成的几批图像中,选择合适的画风和画面主体,再根据已有画面特征修改画幅比例。

输出成果: 在选定风格和主体后,将竖幅主体拓展为气势更足的全景影像。关键是拓展比例并非默认的 2 倍或 1.5 倍,而是根据实际需求来控制比例,同时也需要关注怎样的画幅比例可以传达对应的氛围。最终图像画幅比例是 3:1,适合展现有足够细节的宽幅场景。

test case no.7:在 niji 中应用自定义 Zoomout 构建人物和场景

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:

step 1、使用 niji 5 的 style original 生成一个细节丰富的初始人物;

step 2、以 1.2 的 Zoomout 比例纵向拓展出人物的半身画像,画幅比例是 1:2;

step 3、以 1.1 的 Zoomout 比例和 2:1 的画幅比例重构画面,得到外围场景;

step 4、以 1.2 的 Zoomout 比例和 3:4 的画幅比例重构画面,生成人物全身像;

step 5、改写 prompt 添加「宫殿」关键词,以 1.65 的 Zoomout 比例和 3:2 的画幅比例重构画面,生成人物在场景中的全景画面。

输出成果: 虽然人物细节和场景氛围的融合程度还不错,但因为漫画角色的细节较多,在多次 Zoomout 的过程中,场景的丰富会逐渐抢掉中心人物的视觉焦点。因此在每一次修改画幅比例与关键词的时候,需要多加注意对视觉元素的控制。

test case no.8:自定义 Zoomout 构建情绪与故事

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:

step 1、生成一个情绪和神情符合目标的初始人物;

step 2、改写 prompt 同时添加「马」关键词,以 2 的 Zoomout 比例和 3:4 的画幅比例重构画面,生成后续画面的基础,此时需要注意人物与马的位置关系,否则后续生成的画面会非常扭曲怪异;

step 3、以 1.05 的 Zoomout 比例和 2:1 的画幅比例重构画面,生成完整的马匹造型与部份环境信息;

step 4、对比改写 prompt 产生的变化,黑发组不改描述词,以 1.1 的 Zoomout 比例和 3:4 的画幅比例重构画面;白发组添加「巨大镜子」关键词,以 1.6 的 Zoomout 比例和 3:4 的画幅比例重构画面。

输出成果:通过控制 Zoomout 的幅度、画幅比例和 prompt 的调整,可以生成指定场景的画面,且人物的神态到位、情绪饱满,整体画面焦点清晰。但美中不足是,构图不够自由。

test case no.9:通过焦点变化构建故事的场景

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:

step 1、生成一个在河岸上的粽子;

step 2、修改 prompt 为「熊宝宝正准备吃粽子」,以 2 的 Zoomout 比例和 3:4 的画幅比例重构画面;

step 3、修改 prompt 为「小熊一家在野餐」,以 1.2 的 Zoomout 比例和 4:3 的画幅比例重构画面。

输出成果:通过对 prompt 的修改,控制 Zoomout 的幅度、画幅比例,可以改变画面中的焦点和表达主题,适合不同文化元素之间的混搭。

test case no.10:通过镜头变化,构建故事的起承转合

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:

step 1、生成一幅鲜花山谷的画面,人物要明显;

step 2、修改 prompt 为「一面巨大的镜子在草地上」,以 2 的 Zoomout 比例和 3:4 的画幅比例重构画面,此处竖构图是为了生成较高的全身落地镜;

step 3、修改 prompt 为「少女站在镜子前」,以 1.5 的 Zoomout 比例和 3:2 的画幅比例重构画面,改为横构图是为了囊括少女全身以及环境信息。

输出成果:通过改变画面中的焦点和增加元素,在镜头逐渐拉远的过程中,故事缓缓托出。

➡阅读更多 AIGC 相关内容


我的整体感受是:

通过 Midjourney V5.2 的 Zoomout 无限拓展,一次次修改画幅比例、提示词内容,可以用镜头语言的变化来讲故事了,也可以基于一些初始的「点子」延展成有意思的融合作品。但越是这样,越发显得对话式、指令式的交互界面( SD 那种也不算图形交互 )的局限太大了,我很希望今年之内能发展出图形交互界面。

没错,今年 AI 的爆发指向了一个新的趋势:对话式交互界面。但人类之所以发明绘画,开始通过设计图来制作各式各样的新工具,恰恰就是因为语言本身的效率太低。这个逻辑其实也可以从媒体形态上找到端倪:文字–> 图像–> 视频。仅仅依靠对话,我们无法构建出一个一把剪刀;仅仅通过语言表达的播客,也无法传达任何需要视觉才可以精准理解的信息。对话指令的交互界面与图形交互界面之间的关系,并非只是 dos 和 windows 之间的差异,更重要的点在于,后者可以更直观地完成交互,以及精准地进行创作行为。AIGC 的重点不仅仅只是 AI,而是我们如何使用 AI 进行「Generative Content」。

我说一句话,AI 给我一个东西,这不是创作。

创作是一个生命在主观意志的驱使下,刻意的、有目的地表达其心中所想。

因为 GPT 的爆发而说对话式交互是未来,这样的断言是过于冲动的。只要是一个严肃的创作者,就会立刻意识到,真正的创作一定需要多纬度的交互界面。这其中不仅仅包含对话指令,同样更需要图形界面以及在数字虚拟空间中的三维交互。AIGC 工具与 PS、表格、PPT、思维导图等已有工具的结合,就是这类多维交互的雏形。

那一刻,我们不会等太久。

➡阅读更多 AIGC 相关内容

描觀念 繪感受|超微型 AI 觀念畫展

By: Steven
4 June 2023 at 00:23

前言:

*為了減緩閱覽速度,充分感受和理解,因此採用繁體中文。

最近的工作狀態和社會新聞,讓我感覺到非常疲憊。一次次的憤怒和失望,和一次次的徒勞無功,身在漩渦當中無法抽身,只能通過一點點表達來疏解。三幅畫都是用 Midjourney 來繪制的,但 prompt 無法直接描述所要表達的觀念和感受,因此得用視覺化的語言來向 AI 描述想呈現的畫面。

這組圖,可以當作是一次超微型的 AI 觀念畫展。

*每張圖都可以通過「點擊放大」獲得完整尺寸的高清版本。

第一部分:《異類》
[ 点此可下载:经 AI 放大处理后的超高清图像 11.3MB ]

我們是怎麼看待「他者」的呢?

在公共輿論場中,尤其是此時此刻的中文網絡輿論環境當中,我們是看不到任何「人」的。一個個觀點匯聚了大量的「賬號」,牠們沒有個性、閱歷、身份,只要有一塊肉掉在地上,就會瞬間蜂擁而至,吃個乾淨。但我們很難說,「我們」不是「牠們」。因為在「我們」眼中的「牠們」,恐怕與「牠們」眼中的「我們」並沒有什麼本質的區別。

我們都是對方眼裡的「他者」。

人與人之間的觀念差異之大,如克蘇魯眷屬與地球人之間一般,亦如人類和腳下的螞蟻,並無關好壞,而是徹底的「異化」和「無所謂」。在各自的眼中,對方只是一群穿著人類服裝的「蟲子」,是與我們不在同一個世界裡的「異類」,是「偽裝」成「我們」的臥底、特工和間諜。總之,「他者」都不是「人」,「他者」就意味著「異類」,是被異化的不同於自身的存在,是被敵視的「蟲子」。

信任體系崩潰,人就不是人。

第二部分:《共鳴》
[ 点此可下载:经 AI 放大处理后的超高清图像 11.4MB ]

所以群體不再重要,也無法重要,因為在破碎的環境中無法建立起大面積的信任。我之所以不信任 DAO 這種組織形式,並非老頑固或者害怕前進,恰恰相反,作為一個向來積極主動擁抱新技術的人,我無法對人類持有這樣樂觀的想法。人與人之間的「心之壁」是與生俱來的系統限制。因為語言本身並不是一種優秀的系統,它是抽象和概括的。每一次「對話」都需要經歷至少四次「轉譯」:

來自 A 對世界的體會和理解的語言化,A 向 B 表達時將語言化的觀念輸出成的語言,來自 B 對世界的體會和理解的語言化,B 用自己語言化體系所理解的 A 的語言。

這種信息傳遞效率如此之低,因此需要大面積和海量的交流把「同類」們連接起來。

但互聯網放大了「同類」這個概念的同時,縮小了「個體」的存在感。並不是被網絡連接的人數多了,可以公開表達觀點的人多了,就等於「個體」被彰顯。因為這些「個體」並沒有作為「獨立個人」存在,牠們依然依附於各種「觀點」和「趨勢」之中,牠們的聲音也不代表著一個活著的人類的思想,而是一股潮流和陣痛當中的一次次伴隨。無論是網絡語言暴力,還是人人都掛在腦門上的 MBTI 性格分類標籤,都只是把「個體」隱藏在事件背後的一種障眼法。

人腦會本能地「簡化」信息,以降低能耗比。這是生存策略,也是系統的短板。一個人要與另一個人產生情理上的連接,不僅需要花時間,還需要有耐心去解開雙方轉譯過程中的一次次「雞同鴨講」,必須兩個人同時站在對方的位置上去理解對方的語言,才能達成共鳴。他們必須用最複雜的方式,走通這條最短的路。

因此,共鳴只存在兩個個體之間。

我不信任 DAO 的最主要原因,就是不相信這種「共識」可以不被「簡化」和「異化」地傳遞到每一個參與者當中。只要這一點無法在技術層面上落實,那麼任何一種觀念或者 DAO 都與舊世界無異。

第三部分:《武陵》
[ 点此可下载:经 AI 放大处理后的超高清图像 24.1MB ]

但如果可以通過限制准入標準的方式,把「個體」簡化或者降維成不容易產生差異的「標準型號」呢?

這源於我對《桃花源記》的一種怪異解讀:

武陵漁人所去到的「桃花源」並非一個地區,而是一顆巨大的桃樹。他所穿過的「山」只是巨大桃樹根部的一處彎曲,那個彷彿若有光的「洞」,不過是盤根錯節的樹根中間的一處縫隙。之所以目之所及的地方都是落英繽紛,中無雜樹,是因為他此時身處桃樹之中。他在遇到和穿過桃樹根的時候,就被縮小成了螞蟻大小的微縮小人兒了。因為長期處於這樣的螞蟻社會中,當中的人們自然也就成了「小國寡民」的狀態,行為和思想也因此被簡化,成了雞犬相聞、夜不閉戶的簡單狀態。

南陽劉子驥尋不著這個地方,不是他找不到,是因為他沒有經過樹根那一輪「降維標準化」。身為一名「高尚士」,他應該是一個見識、思想異於常人的「個體」,怎麼可能輕易被「簡化」呢?他與桃花源的協議不兼容,自然是無法進入和連接了。

理想模型之所以是理想,就是因為理想實驗環境往往就意味著屏蔽了諸多複雜的干擾因素,簡化了條件。

這樣好麼?我並不這麼認為。

複雜性是人性的基礎,放棄了人性的豐富與複雜,化身成桃花源中的白衣男女,無怨無恨,亦如死人一般。因此常有把桃花源解做「誤入墳塋」的故事版本,這並非沒有道理。我們在排練《暗戀桃花源》的時候,也曾反覆思考過,為什麼其中的白衣男女與世俗社會中的老陶、袁老闆、春花如此不同?陶袁花的故事可笑,但白衣男女也可笑,他們並沒有什麼差別。有沒有煩惱,都很可笑。

可笑是矛盾的表現,也是價值所在。

如果消解矛盾和分歧的方式是所有人都歸於 LCL 之海,那麼當我中有你、你中有我,我們彼此不分的時候,所謂的「我」還有什麼存在的意義呢?如果一切都要歸於熵,那所有的分歧和衝突對立,也只是笑話。

唯一可做的,也只有減緩自己的熵增。


後記:

為了創作出對應於「觀念」和「感受」的畫面,我花了很多時間在 prompt 的調整上,因為用語言生成畫面這件事,本身就充滿了對語言的誤讀和轉譯,而 AI 基於概率的運行方式,也增加了難度。因此,把腦海裡的觀念和情緒先通過語言表達出來,變成一種對某一類具體畫面的描述後,才能在一次次的 /imagine 中找到更合適的語言和畫面。

這種創作體驗很奇特。

過往的繪畫訓練或寫作表達,手頭功夫的訓練是至關重要的。但使用 AI 畫畫來表達觀念,會因為表達這個目標倒逼我把觀念拆解成更為細緻的狀態,不止是邏輯的細化,更需要把細化的觀念給圖像化,用視覺語言來描述它。

同樣是昆蟲人,面容的風格、眼神的選擇、肌理所呈現的氛圍、服裝的細節,都會影響表達的效果。選錯了表達方式,很容易就會得到一個一眼看上去就遭人討厭的怪物,或者因為太像人而失去了異化的感受。那樣就和我想表達的意思,背道而馳了。

*部分被放棄的方案

關於共鳴那部分,應該是我做了最久的。

因為「共鳴」太抽象了,怎樣的人物狀態、神情和與環境的關係,都試了很多種畫面邏輯。從山上到海裡,從逆光的傍晚到深夜的月光,從全身像面對面站立到半身和面部的特寫,面孔的表達又在歐美人、亞洲人、東西混血中嘗試了一些,畫面色調和畫風也會有很直觀的影響。這麼「簡單」的畫面,想要找到那個比較精準的感覺和情緒,也花了兩天,才從約 300 個方案中找到最恰到好處的那一個。

*部分被放棄的方案

網上有很多用 Stable Diffusion 畫美女和裸女的,說實話,好看的那些確實顯得很「精緻」,哪怕是色情畫面也精緻得嘆為觀止。但這就和攝影術發明之初類似,攝影像油畫是沒有任何意思的,它應該有它的新的用法和創作思路。對我來說,AI 繪畫的最底線應該是輔助我把腦海的觀念傳遞出來,而不是畫很多精緻得像量產網紅一樣的裸女畫。

我並不是反對量產的 AI 裸女畫,只是想從創作的思路去看待:當刺激感官衝動成為 AI 可以輕而易舉做到的事情之時,更複雜和更深入的連接才是人類創作者應該去嘗試的領域。

這確實不容易,但 AI 讓這件事方便了很多。

借行业科普聊了一次 AI 与设计师的关系

By: Steven
5 April 2023 at 14:53

上个月去上海之前,@取景框看世界 在微信上邀请我一起做一期关于设计行业的科普视频,面向学生群体做一次对行业整体状况的分享。这次是 B站 向他发起的约稿,也是他频道的主要内容类型之一。答应他后,从上海回来我就根据自己这么些年的体会和反思,录了一期比较掏心窝的内容。由于参与的人比较多,直到前天,节目才终于上线。

🎥 点击图片跳转到播放页面

因为参与的人数比较多,我说的话也比较多,所以在汇总的成片里需要剪掉一些。但我又觉得难得录一期视频(从去年11月到现在都没有更过视频了),为了保证表达的完整性,我还是得有一个自己的版本。但因为实在忙得顾不过来,于是麻烦 @小雨 帮我把这条视频剪了出来。

毕竟是 @怪物尚志 的御用摄影/后期,有他的帮忙,我的视频里头一回多了许多配合文案的动画,比我一个人在镜头前单口相声好看多了。这一期花絮,也在昨天发了出来,跟正片错开一天。

🎥 点击封面跳转到播放页面

这期视频的封面是我昨晚用 midjourney 画的。

在这条视频里,除了科普工业设计的一些基本概念和行业现状,我也特别聊了一下 AIGC 和设计师之间的关系。前两个月虽然一直很忙,但我也一直在关注 AIGC 的动向。这两个月的变化实在是过于惊人了!

以下是我去年八九月用 midjourney 画的一些东西:

然而在这短短半年内,版本已经从当时的 v3 发展到了现在的 v5。ChatGPT 也从 GPT-3 发展到了 GPT-4,坊间传言 GPT-5 的研发已经完成且爬完了全网所有视频,可以直指某一条视频中的某一段话,只是还没发布。可以说开年后的这两个月内,AIGC 的发展速度已经大大超乎了预料,甚至正处于失控的边缘,它们正在开始颠覆一些东西。将来会发生什么,无法预料,但一定有什么事情已经在发生了。

所以我觉得,无论如何,再忙也得重新用起来。光是跟进各种新闻和消息是不行的,midjourney 前两天刚发布了由图片转译成 prompt 的新功能,多模态的 AI 已经不远了,这会更进一步推动人和 AI 之间的交互。我觉得,自己还是得保持使用状态才行。所以前两天我又重新充了值,开始体验它的新版本。

我先试着画了一些机甲的东西,例如这样的:

上面的两张的用 prompt 直接生成的,但下面的两张,是用 /remix 命令修改了部分描述词后的新图。可以看到下面的图和上面的图保持了相关性,于是我想试试,如果用这个命令替换背景会是什么效果,于是有了这组车的图:

上面的两张图是用 prompt 直接生成的,当我用 /remix 替换了背景描述的 prompt 之后,就生成了下面的两张。更换环境之后,车辆的姿态和镜头视角几乎没有变化,车身的反光与环境之间的关系也很自然,这个效果已经可以说非常惊人了!

然后,我随便画了一些白色的机器人站在燃烧废墟上的场景:

用 /remix 替换了机器人配色部分的描述词后,生成了下面这样的图:

对 /remix 有了基本的体感之后,我开始尝试用 /blend 命令来做一些融合的实验。

首先,我随便描述了一个赛博少女,得到一些随机的图:

接着,我再随便生成一个红发少女:

材料准备好之后,开始把它们进行组合。

第一次先尝试融合两张图,一个是游戏画风的机甲人,一个是二次元的赛博少女。

它们俩合成后,得到了以下这个人物:

新角色具备其中一张图里人物的长相特征与体态,也有另一张图的配色和机甲特点。虽然得到的结果具有随机性,但既然可以这样融合,那么应该也可以通过 /blend 命令来得到一些更有目的性的创作。

有了第一次的体验后,第二次我用三张图片进行合成:

图一是现画的半透明金属机器人,图二是上面准备好的红发少女,图三是现画的骑士。

这三个合成出来的新角色,同时具备了细碎的金色细节、波浪红发、银白色盔甲:

但这不是我想要的,我想试试加大红发少女的比例。在垫图的方式下,可以通过 –iw 命令来分配各个图片之间的权重占比,但是在 /blend 中不能这么操作。于是,我想通过把合成的新图作为素材,再一次与红发少女进行融合,并加入机甲的元素来强化她身上盔甲的质感。

二次合成使用的图,如下:

合成出来的新角色我非常满意!

她既有红发少女面部和眼神的特征,又把两副银白外甲融合得非常优雅,也保留了初始半透明金属机器人遗传下来的金色金属关节的特征,又做出了图三机甲的坚硬感和图一外甲的银白光泽。这一次的融合很成功。

但如果 /remix 可以局部替换特征,那么这些没有写 prompt 而是通过 /blend 直接合成的图,能否通过 /remix 加入新的 prompt 来修改已有的特征呢?

为了让实验效果明显一些,我想让盔甲的白色部分比例缩小,增加金属部分的比例,于是就先把这批图重新刷了几遍,直到出现肩甲是金色的变异版本:

然后不断在此基础上进一步变异,强化金色肩甲的特征:

所有图片均可以点击放大下载原图

准备好之后,我在 /remix 中添加新的 prompt:pink armor

以下是修改特征后的结果:

所有图片均可以点击放大下载原图

整体的效果我还是挺满意的。一来,新生成的人物很好地保持了最初红发少女的眼神和神态;二来,金色金属被替换成粉色金属后,金属质感的表达是正确的。虽然头发也一起变成了粉色,这确实是没完全理解指令,但原有的发色搭配新的粉色盔甲也确实不是很和谐。

到此,重新开始用 AIGC 工具的热身完毕,找回一些感觉了。

至于这期视频封面里用到的车图,是我昨晚用 Maserati 和 Ferrari 以及 Apple 和 Tesla 分别杂糅出来的缝合怪。虽然乍一看好像没什么新奇的,但是如果我把去年八月底用 midjourney 画的汽车拿出来对比,就会意识到这是多么疯狂的进化速度了:

上面三个是去年八月用 v3 画的车;

下面这些是昨晚用 v5 画的车:

所有图片均可以点击放大下载原图
视频封面使用的图片
所有图片均可以点击放大下载原图

虽然工业设计有大量的细化和落地工作是 AI 无法干的,但从目前来看,无论是 midjourney 还是 Stable Diffusion + controlNET 都已经可以很好地帮助设计师完成概念发散和快速枚举了。这样的图像质量,通过垫图、remix 和 blend 的组合使用,完全可以在创意初期快速拉出一批高质量的「草图」,设计师可以把更多的精力放在对方案思路的推敲、对细节的考据以及各个环节的沟通协调上。

从今年二三月开始到往后的十一二年,人类社会将迎来一场以破坏为开端的变革和创新。

无论我们是否愿意,都将一起进入新的世界。

AI 会促使设计师成为更完整的人

By: Steven
28 March 2023 at 00:32

最近关于 AIGC 的关注度太高了,自己也时不时会抽空去了解一些情况,或者尝试去用一些工具。很多关于 AI 要替代人的观点大行其道,也一直有不少 AI 要让设计师失业的看法在坊间流传。但我自己的感受和看法是:

在 Midjourney、Stable Diffusion、ChatGPT 这些 AI 工具出现后,「手头功夫」并没有因此丧失意义,它们只是不再具备作为门槛的价值,但依旧是重要的前提。因为「手头功夫」是培养我们发掘问题、判断优劣和快速取舍的重要训练,缺少这部分锻炼,会让人在这一系列 AI 工具面前感到无力。准确地识别问题并提出诉求,这是未来教育的重中之重,也会反过来强调人的价值。

正好,前段时间后浪送了我一本书,是前微软包容性设计的首席总监 Kat Holmes 写的《误配》。一边看这本书,我就一边在结合自己的工作和最近关于 AIGC 的思考,我觉得这本书里提倡的理念,正好回应了当下的舆论思潮。

大部分谈论设计的书,都在试图通过图形和案例来构建一类理论和范式。但在这个 AIGC 日进八万步的新时代里,设计师要以什么身份来参与?我认为所有的既定范式,都会在三到五年之内被全部击碎。串联、融汇、杂交才是新世界的主流,创作者的身份将愈加模糊,甲乙方的界限也会逐渐消失或扭转。怎么回应这样的快速变化?我觉得《误配》这本首版于五年前的「旧书」,提出了很适合当下思考的母题:

设计行为、设计师、设计对象以及新技术之间,如何在智能化浪潮里,互相包容和一起进化?

这本书没有给出直接的答案,但对于有三年以上工作经验的设计师而言,带着经验、问题和困难去阅读,会有启发和收获。「物」的旧体系正在溃散,「系统」和「生态」将是历史的新主角。旧时代的残党,可以下船了。

昨天在各个社交媒体上发了一下自己的读书感受,因为被后浪的微博官号转发了,于是被这本书的译者何盈女士注意到。正巧我的朋友宋喆在刷朋友圈时看到她的这条寻人启事,就这么阴差阳错地跟她直接联系上了。

这种「地球村」的感觉很妙!

这更坚定了我今年一定要 重新启动设计纪录片 的决心了!

正在一点点发生转变的三十六岁

By: Steven
20 March 2023 at 22:28

虽然已经对自己的年龄不太有感知了,但今年却因为前段时间的一系列事情,而感受到了一股力量在推动着某些事情前进。那是一股巨大的浪潮,一股将会被历史记录的洪流,而我隐隐蹭到一些浪花,感受到了来自三十六岁的礼物:转变的推力。

最开始是从去年八月开始接触 AI 创作,短短半年时间,到今年二月就明显感受到了巨大的进步。如果说前面几年的各种什么元宇宙元年、AR/VR 元年、Web3 元年都还只是一波波热钱推动的热闹的话,那么这一波 AIGC 所带来的冲击,已经不是元年这种概念了。它已经直接冲到了我们的面前,正在以肉眼可见的速度,迅速拓展到各种方面。我向来都是技术进步派,这种变化让我感到兴奋,比起担心、忧虑,我更加希望参与其中,拥抱这一切的变化。

然后,是在一段很长时间令我感到厌烦但必须处理的各种工作之后,突然收到了来自熊小默苏兆阳的邀请函!他们的线下展终于要开了!先和筱烨商量了一下,得到她的支持后,我果断买了去上海的飞机票,奔赴一处让我得以喘息的「他处」。

我太需要一次「离开」了!

逃离这些令我感到厌烦的、繁复的文书工作,以获得片刻自由呼吸。尤其这是一次我期待已久的见面,与这两位朋友时隔一年的见面,与他们的展览以及这些艺术家们的见面,以及与他们的作品的见面,一次让我可以从世俗中抽离,与自己的见面。

第三晚,回深圳前去现场 say bye,却遇到了启发我做视频的 Flypig
作品代有强烈私人情绪的林洽
多年观众和网友,前锤子产品经理,杰里开
新认识的朋友,很棒的小泽zz6

看到大家都在认真地做着自己热爱的事情,这非常打动我。

其实在 2015 年的下半年那几个月,我做过一个叫做《搭讪》的设计采访栏目,一共做了七期,采访了不同领域、不同阶段的设计师。后来因为工作原因,就搁置了。大概从前年开始吧,我就隐隐希望把这件事再拾起来。尤其在看到《拍照的人》第一集播出后,更加刺激了我要把这件事重新拾起来的想法。

我要把设计师们和产品的故事挖出来,用纪录片的方式。

左起:苏兆阳、熊小默、苏志斌
第一晚留到最后的人:熊小默、苏兆阳、akira 以及所有参展艺术家和朋友们
全画幅相机取景器里的苏志斌和熊小默
苏兆阳送的非卖品:《拍照的人》泡泡骚

结束后我们一起去吃饭,期间我问熊小默为什么想做这件事,他说他要歌颂摄影,不是精英化的摄影师身份或者某些作品,而是摄影这个行为以及那些一直在拍照的人。我说这很动人,因为我也一直想做这件事。

我今年要重新开始做这件事。

正好二月初的时候,迪龙找我聊,关于传播他和曾德钧老师搁置了十年但正在重新制作的那一对特殊的音响。他们最开始只是想写一篇文章,但我建议,应该是一条视频,一条记录了你们共同的作品以及你们的采访的纪录片。于是,这件事终于有了一个开始的契机。

郑冬平和他的设计师们在讨论设计方案
郑冬平办公室一角

从上海回来后的第一个周一,我去见了刚重组了公司和工作、生活的郑冬平。他把上善设计的工业设计业务解散了,专心在现在的小家电新品牌上,原本的上善收缩成一家品牌设计公司。我跟他说了我想做这个纪录片系列的想法,我想以他为开始,做第一条片子。

他答应了,他的合伙人也觉得很有意义。

即刻公司的大门,可见即刻和小宇宙的logo
来过小宇宙录音室的主播们
相当专业的小宇宙录音室

在上海的第二天,在雨医生和 Kael 的带领下,参观了即刻。

很羡慕这样有活力的年轻人的公司,并不是说互联网公司的工作环境轻松的意思,而是觉得他们有想法就立刻执行的环境,非常激励人。他们告诉我,原本这些位置是空的,但大家因为对这些事情有兴趣,就主动投入精力来做。

我喜欢这种活法。

雨医生一直在向我发出录播客的邀请,她和 Kael 都是我的观众,总说我这样的内容在互联网上独此一家,很难得。前一晚,熊小默和苏兆阳也是这么说我的视频。独特才是最重要的,不存在所有人都喜欢的东西。这也是我所赞赏的。我还有一个理论,是关于把两个领域结合在一起做到自己独门独院的工作才是最好的状态。只是,我目前还不知道可以用播客聊什么。

我想,我也会开始做播客的,但还需要一个契机。

左起:苏志斌、yoga、显卡

同样在进行工作和生活转变的,还有 yoga 和显卡的B站频道

两人终于彻底脱离音乐老师的身份,把工作的重心转移到运营频道上来。我为他们的选择感到高兴,不是因为离开或转移,而是他们明白自己要什么,找到了明确的目标和方向,并正在努力付出和尝试。这是最珍贵的!

他们接下来想做的事情,多少也和我想做的方向有不少重叠。这可能就是奇妙之处,当我下定决心要做这件事情的时候,事情居然都这么慢慢地靠拢过来了。更妙的是,事情还把朋友们互相串起来了。我希望能串得顺利和成功,这样才不枉费这些认真的人们如此热爱生活。

头一回有品牌方主动给我的合作打分,是索尼

我的想法甚至引起了另一些朋友的关注,开始问我,这个项目有没有品牌冠名。

虽然事情还八字没一撇,但我很开心有这么多人在支持我。这让我想起以前在一些书和文章里看到的一个说法:如果你想要一个东西或者想做一件事情,不应该藏在心里,而是大方地告诉所有人,这会让更多的机会和帮助向你靠拢,也能驱使你更有动力地去完成。

我其实一直是一个「怀孕没坐稳就不敢说出来」的个性。因此,一直都是默默独自完成一些事情之后,才和大家分享。但也许最近这些事情就是在驱使我,要做出一些改变。

同时还穿插了雷雨的闭社风波!

突如其来的闭社通知!
紧急召开的跨度达二十届人的会议
没停止过的群内讨论和时空联动

很难想象,国内还有哪一个大学社团能够这样。一个二十多年的学生话剧社团的新人旧人为了一个团体的存亡,一起跨时空地想办法解决生存问题!

本着不干扰和信任的原则而默默关心社团的老鬼们,在存亡之际,一起发挥大家各自在社会里打拼的经验,组织会议、了解问题、梳理问题、寻找解决方案、组织新的人事关系,推动社团改革,确保延续和发展。

话剧人的魂呐!

筱烨送我的生日礼物:给我平时吸眼泪的手帕
vendor 的咖啡师拍的我
杠杠镜头里的我,大家说显得很乖巧

今晚用在 coffee venodr 写博客的方式过生日,让杠杠帮我拍了两张照片记录一下,快到九点的时候还送了我今天的最后一块蛋糕做生日蛋糕。

面对这两周的经历,我该说什么呢?

“ 地球还是蛮不错的!我应该还能再住 60 年吧!”

审美鄙视链,争乜_7.ylog

By: Steven
27 July 2024 at 21:00

“Design is not just what it looks like and feels like. Design is how it works.”

—-Steve Jobs

这里面的 “how it works” 不仅仅是关于人如何使用它,也同样意味着,这件东西本身是如何运作的,以及这件事情、这个世界是如何运作的。“how it works” 意味着「真」。

|相关阅读|

从《骄阳伴我》看职场新手如何进阶成创意大拿

艺术可以糊弄,体力劳作也是高级智能

這夜風正涼 𝄇 就用五首詩與本命年訣別吧!

乌云 枪声 怪物

|相关链接|

若你所使用的播客客户端未能完整显示插图,或遇网络问题未能正常播放,请访问:

荒野楼阁 WildloG 的地址:https://suithink.me/zlink/podcast/

阅读设计相关的各类文章:https://suithink.me/zlink/idea/

|其他社交网络媒体|

苏志斌 @ 知乎|SUiTHiNK @ 即刻 / 微博

苏志斌SUiTHiNK @ Bilibili / YouTube / 小红书

|联络邮箱|

suithink.su@gmail.com

欢迎在 小宇宙、Spotify、YouTube、Apple Podcast 收听本节目,期待你的留言。

播客的收听数据似乎很符合我的期待

By: Steven
7 June 2024 at 00:30

其实有点出乎我意料,除了 Apple Vision Pro 那期,最受欢迎的居然是聊《九龙城寨》和《暗恋桃花源》的这两期。而且,刚发的《谈判专家》这期的收听量也在稳定上涨。聊 AI 那期尽管内容很多,但收听量比这些都少得多。

从博客后台数据能看到,最近一周的主要收听量中,三分之二都来自这三期聊戏聊剧的节目。

我原本以为,收听我节目的主要人群,是过去在知乎和 B站看我讲设计的读者和观众。

这么看下来,我有一个猜测:收听我播客的人群当中,有很大一部分比例,可能是此前并不认识我的路人,他们对科技类话题的兴趣,没有对娱乐类型的话题高。

挺好的,这也挺符合我最初对播客的预期,这样我就可以不用老聊设计和产品了!

荒野楼阁 WildloG:https://suithink.me/zlink/podcast/

小宇宙: https://suithink.podcast.xyz

Spotify:荒野楼阁 WildloG

YouTube:荒野楼阁 WildloG

Apple Podcast 在中国大陆地区目前只支持通过 URL 订阅:

https://suithink.me/category/podcast/feed/

偏见和缺陷是创作的灵药:人类和 Ai 有什么区别_3.ylog

By: Steven
16 May 2024 at 21:00

无论你对 Ai 秉持怎样的态度和观点,都希望这期节目能给你带去一些思维激荡的时刻。作为工业设计师,我认为,如果不时常忏悔,不为自己做的东西(无论是否在自己的意志下,通常都不在)对这个世界造成的影响抱有歉意,这样的人很容易成为误以为自己是夜神月的弥海砂。

这是一期需要配图食用的播客,从近期一组以「戏剧感」为创作目标的十二生肖聊起,关于 Ai 创作的评价和人类作品之间的区别,谈到如何在这个 AIGC 爆发的时代下找到自己的位置。

创作者的骄傲和创作者的骄傲,是南辕北辙的两件事。

在这一期,你会听到:

—— 什么样的作品是有「人味儿」的?

——「偏见」和「缺陷」是艺术创作的灵药?

—— 为什么 Ai 会在创作领域疯狂爆发?

—— 现当代艺术常被人诟病的原因之一:抽象

—— 细节!什么是令人信服的细节?

—— 这些 Ai 正在拓宽我的眼界;

—— 人不能创造出自己从未见过的东西,吗?

—— 设计不是天马行空地想象,它是一种「劳作」;

—— 超人的诞生;

—— 超人的洞察和创新,与人类无关;

—— 能耗、模型与错觉;

—— 涌现、艺术与创新;

—— 马车夫的工作经验如何平移到汽车司机?

—— 选择 AIGC 工具的基本思路;

—— 向藻类致敬!

|相关图片|

—- 十二生肖系列中的兔、马、猴,完整图集和介绍 见链接

—-《城堡下的人群》(参考马列维奇的风格)

—- 毫无表达意图的随手测试图

—- 似是而非的剃须刀设计图

—- 汽车设计草图的测试

|相关阅读|

—- 十二生肖·Midjourney·戏剧角色设计

—- 描觀念 繪感受|超微型 AI 觀念畫展

—- 艺术可以糊弄,体力劳作也是高级智能

—- 表达的精度就是人类外延的尺度

—- 镜头的变幻就是故事

|登场人物|

苏志斌:工业设计师,智能硬件产品经理,《设以观复》作者

|相关链接|

若你所使用的播客客户端未能完整显示插图,或遇网络问题未能正常播放,请访问:

荒野楼阁 WildloG 的地址:https://suithink.me/zlink/podcast/

阅读设计相关的各类文章:https://suithink.me/zlink/idea/

|其他社交网络媒体|

苏志斌 @ 知乎|SUiTHiNK @ 即刻 / 微博

苏志斌SUiTHiNK @ Bilibili / YouTube / 小红书

|联络邮箱|

suithink.su@gmail.com

欢迎在 小宇宙、Spotify、YouTube、Apple Podcast 收听本节目,期待你的留言。

💾

让 MJ 学我画两张小画儿

By: Steven
7 April 2024 at 12:58

昨晚吃饭前跟儿子一起画画,我随便画了一下我们在 Minecarft 里的第二个家,和随便画的一个岩浆包围的高堡:

后来想说看看 Midjourney 能模仿成怎么程度,就丢进去试了一下:

emmm,画得还行……

就是画风不太相关,它有它的训练痕迹,哈哈哈哈哈哈哈~

测试所使用的 prompt:

Tree house, jungle, rainforest, simple little house –sref+空格+两张手绘图的地址 –ar 9:16 –s 50 –v 6.0 –style raw

艺术可以糊弄,体力劳作也是高级智能

By: Steven
19 March 2024 at 21:05

昨天发现 AAAny 更新了发图的功能,于是就顺势发起了一个讨论 AIGC 的话题

轶轩在话题下问我为什么对外发表的图都是一些细节比较丰富的类型,是否有基于 AIGC 的生成方式而做的一些突破方向的尝试。我觉得,针对这个问题,我可以在对他的回复上,再做一期视频来谈一谈我的观点。

用于风格参考的马列维奇的画作
基于马列维奇而生成的《城堡下的人群》

但与此同时,我也想做一些「简练」或「抽象」的图来辅助说明我的看法。于是,今天在工作之余,用一些碎片时间,做了一些图出来。

对此,我尝试比较随意地做了一些「东西」。它们都没有什么明确的「表达」,仅仅只是我随手写的一些 prompt,或者就是在 Midjourney 的社区里复制修改的 prompt,最终出来的东西都是一眼看上去有一些「意境」或者没那么精致细节的但表现比较能唬住人的图像。

你会发现,在这些人类认为偏「抽象」的表达上,AI 反而是比较容易做「好」的。

但是,这种好不是真的好,只是这些风格上,并不需要对细节有很认真的考据,在表现层面上是非常容易「糊弄」的。

这也是现当代艺术作品常常被人诟病的原因之一,因为那些作品浓缩了大量的思考和抽象提炼,但表现形式上,其实并没有比传统艺术更复杂,或更需要技艺和体力上的付出。也就是说,作为当代艺术最核心的「观念」,在完全不需要理解的情况下,一个外行的人或者一个数据量管够的 AI 就可以模仿出「看上去像那么回事」的东西。这种模棱两可的状态,恰恰是江湖神棍和 AIGC 擅长处理的对象。

这里说的「糊弄」「神棍」并非贬义,而是借着世俗的话语体系来表达,这样的「生成作品」并不需要 AI 具备「意识」和「创意」也可以轻松地实现。

那么,什么东西是更难的呢?

细节,是令人信服的细节。

这些是我用 AI 生成的男士剃须刀的设计方案。

你会发现,这些方案咋一看是那么回事,但只要你多看两秒,立刻就会意识到它不对。它们的空间关系、形态的处理、物理交互的关系、电子器件的布局,通通都有很大的问题。这些就是不可信的细节。

因为 AI 实际上并不理解它学习的那些图像。

这些令人信服的关键点,是无法糊弄的。因为它们当中包含了大量精确的思考和训练,也包含了海量的脑力和体力劳动,如果一个「智能体」不理解一个图像背后的复杂逻辑,那么它就没有办法真正地创作出这个对象。它只能模仿,只要模仿得足够像,就可以唬住外行。但是对于以此为生的从业者,这样的智能工具,还不足以成为生产力。设计师可以用这样的工具拓展自己的思维,但这些过程并不能替代设计行为。

从创意到落地,中间还有漫长的路需要人类设计师去走完。

现阶段,更适合工业设计使用 AIGC 的方式是这样:

我的意思并不是让 AI 画手绘图,这仅仅是一种表现方式。但是,这是一种不需要追求精确的表达方式,很适合 AI 用「抽卡」的方式来快速堆想法。除了这种,当然也可以让它生成上面剃须刀那样的图,但同样的,目的不在于出方案,而是借助 AI 的海量数据库,快速地堆出一批发散性思维的「胡编乱造」的混杂图像来。

人类的视野有限,但 AI 看得一定比人类个体的平均值多。

工业设计不是天马行空地想象,它是一种「劳作」。

从初期的构思,从草图推延到模型和效果图,再从设计方案导入结构设计和工艺、制程,这意味着工业设计不是一项纯脑力劳动,不是一种只运行在计算机里的行为。它包含的体力劳作同样是设计的一部份,甚至可以说,是更关键的那部份。这种体力劳作,不仅仅是肌肉和工具的配合,更是人脑对环境、事件、社会群体、物质的反应和处理,设计师的动作意味着这个人对世界的认知。这种程度的认知,对于只运行在计算机内,仍然缺少复杂的传感器和理解过程的 AI 而言,暂时还是无法实现的。

我当然相信它未来会具备这样的能力,但是在目前的技术条件下,依然需要大量的人类来完成这些真正代表了「智能」的「体力劳作」。

欢迎加入我们的讨论:

https://aaany.app/aaa/ltwu3txza

想注册体验 AAAny 的话,请给我留言

我会给你留言的邮箱发送注册邀请码

苹果停车转 AI 将引发人才大震荡

By: Steven
28 February 2024 at 20:16

1、没有 AI 的汽车、手机、电脑、平板等,将是一堆废铁;

2、一家公司的核心战略不能同时放在两个大方向上。

综上,停下造车全攻 AI 是非常明智的。

连键盘侠都知道「不难」的造车,没造出来不是造不出来,是制定的目标太远太高。苹果之前想一步到位搞出 L4 的移动座舱,但现阶段的人类还没有办法,这太难了。在他们之前的设想中,自动驾驶的汽车和 Apple Vision Pro 是可以放在同一个场景里的。但很显然,这个步子太大了。用新势力们的方式当然可以,但那不是苹果想做的。

最关键的是,AI 的大爆发是此前大家都没料到的。没有这事儿,车还是一个重要的方向,但这一波爆发的 AI 不是资本热潮,而是实打实的浪潮了,此时不全力转向,是真的会死的。况且苹果并不是没有在 AI 上投入的,这些年一直都在积累,只是权重还没拉到那么高。现在切方向,即是大势所趋的必须,也是归拢资源的必要。

过去 Jony 可以对供应商说,这里有一桶取不完的钱,你能做到你就能拿走,以此把工业设计拉高到一个令人望尘莫及的程度;今天的苹果比二十年前拥有更多的现金,有自己的芯片和庞大的人才库,有海量的设备和训练数据,可以说:

比起造车,AI 才是更适合苹果干的事;

干好 AI 所需的人才、数据、算力,也是他们的优势。

以苹果的财力,下这样的决心,恐怕要出现一次人才流动的大震荡。

原文发布于知乎提问:

苹果取消探索十年之久的电动汽车项目,将团队转向生成式 AI,原因有哪些?会带来哪些影响?

十二生肖 · Midjourney · 戏剧角色设计

By: Steven
4 February 2024 at 20:37

在网上看过很多人用 AI 画十二生肖主题的系列画,但大多数我都觉得太套路了,要么只是生成一只动物,要么是套上一些所谓的古风服装,强行「国风」一把。我觉得,既然工具本身已经有很强的生成能力了,那么,创作者就应该更多地表达观念。没有观念的全自动生成出来的东西,再好看,也是大同小异、千篇一律。这种现象,最典型的就是那些长着网红脸的 AI 美女图。好看,但无味,因为缺少人味儿。

人味儿来自什么?最重要的两个点是:有缺陷,有观念

缺陷是因为人的不完美,不能样样都要,那么就得有取舍,而取舍的依据是什么呢?那就是观念。观念和审美,本质上是我们经年累月的经历中,所积累下来的看待世界的偏见。这里说的「偏见」不是贬义词,而是在说,人无法客观,而观念与审美就是在主观中沉淀下来一系列判断依据。我们就是用这样的依据来取舍,这些选择就形成了创作的结果。

即便是回溯到人类此前的所有历史中,艺术家们的创作,也是基于自己的「偏见」来选择创作的工具、技艺、载体和题材的。没有偏见,就没有作品。

因此,我想尝试创作一套有「戏剧感」的十二生肖。

戏剧感,一方面来自这些生肖不能只是动物,或者套了动物头套的人,而是得有个性与故事的角色,角色的人物小传可以从它们的神情、服饰、妆容等呈现出来;另一方面,需要一定的冲突感,这里说的不是观念不同的冲突,而是来自文化和故事背景中,衍生出来的角色的生命力,它会把你带入到某种场景里,它们的妆容和服饰或许不是那么常规、习以为常的文化惯性中的表达,但它们在场景和故事中,是合理的。

以下就是我的创作尝试:

如果你喜欢,可以自行下载原图。

如果你要转载,或者二次创作,请附上这篇 blog 的链接:suithink.me/?p=11457

我大致分享一下,这十二个角色的构思吧。

【鼠牛虎】这一组,是想把【生肖】与【西服】做一个融合,但我希望它们有更多的变化和区别,就分别在色彩、气质上做一些差异化描述。最后出来的三个角色,能感觉到是来自同一出剧的人物,饱受欺凌的鼠,正直优雅的牛、权势凌人的虎,故事就由此可以展开了。

【兔】通常是软弱和被欺负的对象。我希望创作一只勇敢、独立的兔小姐,于是让她走在一个昏暗的街道里,身着红色皮夹克,眼神坚定地朝着镜头。在很多文化意象中,兔子、皮衣和地下文化的组合,是谄媚的,是挑逗的,或者是色情和暴力的。但我不希望是这样,我想她可以是地下世界的英雄。她是这个系列中的第一位女性角色。

【龙】在中国的文化里,高高在上的霸权。于是我想,首先在颜色上我就不要那种红黄黑的东西,我不要皇权和武力的表达,我要它是个君子。作为君子的龙,需要同时具备威严和素雅。威严在于其妆容造型和气质眼神,素雅在于整体的色彩倾向和服饰风格。所以,这头金龙虽然相貌霸气,但眼神柔和坚定,白发之下是金线白袍,不怒自威。

【蛇】是邪恶的,多数文化中,它们都是这样的形象。这是第二位女性,我希望赋予她高雅的气质,和中立的角色身份。她在诸国纷争中,不倾向任何一方。但保持中立,需要的不仅仅是态度,也需要武力和经济。所以,她应该是一位既有贵气又有智慧的女性领主。在她紫色的服饰之中,使用了羽毛的元素,与蛇类那种光滑、阴暗的视觉元素做一点调和。

【马羊猴】这一组是相对现代的角色。【马】通常是黑色或褐色的,虽然也有白马,但在印象中,说起马就是黑色的动物。所以我想给她穿一身干练的白色风衣,即符合马这种动物在人类文化中的形象,又能在色彩搭配上突出她的质感。值得一提的是,我选择了一个侧面的视角,因为马的轮廓,侧面是最美的;并且,我在 prompt 中加入了长辫的描述,黑色布料的造型很妙,因此这个角色是目前没在网上出现过的全新的马人形象。她也是这组当中的第三位女性。【羊】的种类实在是多,不同种类的羊,出来的气质也都不太一样。经过不同的组合尝试,我最终选择了 Goat 这种羊。我想要一个有点脾气和痞气的大叔,他平时就坐在街道头的店铺门外,跟老板聊天,街上一旦出了什么事情,他一定会出手。因此,他的皮衣和眼镜都是有点讲究的。不过你看得出来,他并不是那种有钱人,他的讲究是一种对待自我的态度。

【猴】很特别,一方面是猴的种类也很多,另一方面是,猴子在绝大多数文化中都是活泼闹腾的男性形象。我非要她是女性,但她不会是个乖训的家伙。最后我之所以觉得,滇金丝猴是一个很合适的选择,在于它的毛色和毛发的形态,橙色到白色的过度让角色有一种温和的基调,但向外肆意张开的样子又很有流浪不羁的气质。服饰上我选了裙子和围巾。但在色彩上我动了一点心思,暖色系的猴和皮衣加长裙,得有一些色彩上的对冲,来建立她的个性和态度。因此,围巾是绿色的,也有相当的体量感。

【鸡狗猪】中的【鸡】是在【骄傲大公鸡】的基础上的进一步表达。首先,鸡的种类很多,但白色羽毛的,通常是 white Plymouth Rock。为了增加戏剧冲突,我希望他穿着镶满了珠宝的绿色三件套西装。神气,就是要神气!【狗】就更多种类了,我最开始也尝试了不同的品种,因为拿不准什么样的形象是更合适的。后来我意识到,不同的狗,它们自身的气质差别就很大,所以不存在一种狗能表达狗这件事。于是,重点就变成了,我想要表达什么,那就选择什么狗。我希望这是第五位女性。恰好,筱烨以前的 Daisy 就是一只金毛,一个可爱热情受街坊邻里欢迎的小女孩。那就金毛寻回犬吧!在这个设定的基础上,我增加了双麻花辫和白色校服的描述,最后就有了这个金毛小女孩。

最后的【猪】我有两个想法,一个是十二生肖中男女比例对半开,所以我希望她是女生;另一个是,我想她可以非现实一些。前面的十一位都是比较写实的感觉,但写实的猪,和女性结合,在观感上,很容易让人产品某些厌女、性别对立的联想。我不希望这位可爱的女性角色被贬损。于是,我给她增加了金色皮毛质感的设定,穿上温暖的粉红色外套,带着白围巾站在雪地里。这是一位温柔的女性,但她的防风镜会告诉你,她可不是傻白甜,在雪天的山里行走,缺少她的交通工具,哪怕是楼上的虎先生,也寸步难行。温柔也是有力量的。

下载高清原图:                      

女神雕像|Midjourney V6 Alpha 不锈钢材质测试

By: Steven
3 January 2024 at 00:02

之前测试了 Midjourney V6 在石膏、大理石、黄金材质下的表现,出品非常好,并且品质表现很稳定。今天忽然想测试一下,同样的题材在不锈钢材质下的表现如何。

因为上述三种材质的漫反射对形态的干扰很小,AI 的训练素材应该也大部分是以这类非镜面材质的图库为主,所以我猜测,同样的雕像在抛光/镜面不锈钢下的表现,很可能会因为镜面反射对形态的干扰,产生许多错误。

以下实测例图,均可点击查看原始尺寸高清大图

Prompt ⬆ Bust photo, polished stainless steel goddess sculpture, real feathered wings, black rock, magma and flame, dark clouds –ar 3:4 –style raw –v 6

可以看到,镜面不锈钢材质在没有手部参与的情况下,表现非常出色。形态、比例与动态都在镜面材质下,显得更为出色,细节的呈现也非常舒服。

Prompt ⬆ A statue of the goddess made of polished stainless steel, with huge white feathered wings, surrounded by obsidian, with lava flowing, violent flames, and clouds of darkness –ar 3:4 –style raw –stylize 50 –v 6

这一组我着实测试了很多轮,才终于能挑选出这两张还看得过去的成品。期间最容易出现问题的点有:

1、手的比例和手指的形态、数量;

2、画面未完整呈现 prompt 所制定的内容;

3、不锈钢、羽毛、岩浆、火焰四种材质的不恰当混合。

我感觉目前的 
V6 Alpha 虽然在光影关系和质感的表达上非常强,但在较复杂的 prompt 的情况下,非常容易出现不合适的混合。

Prompt ⬆ Mirrored Stainless Steel, Goddess Statue, White Feathers, Obsidian, Lava –ar 2:3 –style raw –v 6

这一组实例中,明显可以看到 

MJ 对于 Mirrored Stainless Steel 这个关键词的错误执行。虽然质感的表现非常好,但它根本不是镜面不锈钢。同时,岩浆、黑曜石这些关键词也几乎没有呈现,仅有部份反光似乎呈现出了对「Lava」一词的反馈。从最终结果来看,质感的表达是明显跑题了。

Prompt ⬆ Mirrored Stainless Steel, Goddess Statue, Above the Waist, Red Feathers, Obsidian, Magma –ar 2:3 –style raw –v 6

当我把其中「白色羽毛」的描述,修改成「红色羽毛」后,可见材质之间的干扰就几乎消失了。大概是镜面材质中高光的部份容易和白色材质产生混淆,所以在颜色明显有区分的描述下,不锈钢的质感表达就非常舒服了。

这一点猜测,在最后一组失误实例中,可见到更离谱的跑题。

Prompt ⬆ Mirrored Stainless Steel, Goddess Statue, White Feathers, Obsidian, Lava –ar 2:3 –style raw –v 6

这一组和上上组的 prompt 是完全一样的,区别有:

1、选择方案发散路径时,选择了有躯体的版本,有起伏的形态更有利于表达镜面材质;

2、更大面积的曲面形态,似乎会有更少的概率出现材质跑题的情况。

我不确定以上猜测的概率,但在实际测试中的感受就是:

如果人物以全身、半身的形态来呈现,那么镜面不锈钢的表达错误非常少见;但如果选择只有脸部特写的方案深入,材质跑偏的概率明显更大。

Prompt ⬆ Mirrored stainless steel, close-up of goddess’s hand, white feathers –ar 3:4 –style raw –v 6

同时,因为以上的所有测试中,手的比例和手指的形态、数量一直都在出问题,所以我单独对「手」做了几轮测试。在高反射材质描述下,「手」出问题的概率非常非常大。必须一轮一轮地精挑细选,在看着还行的方案上一次次地 Vary 才能偶遇到一两个,看着没什么大毛病的「手」。

同时,因为高反射的干扰,高光和白色很容易让不锈钢材质呈现出磨砂质感。

Prompt ⬆ Polished stainless steel bust of a goddess with white feathered wings, black rocks, lava, flames, dark clouds –chaos 21 –ar 3:4 –v 6

这就是上文说到的跑题千里的材质表达。

同是 Polished stainless steel 这个词,但无论是躯体还是面部,都完全没有 Polish 的意思。整体观感更像是光滑的石头,它的质感表达完全被白色羽毛给搞混了。但同时,羽毛也呈现出石雕的质感,完全不是羽毛的质感,和上面几组实例的羽毛完全不是一类表现。

本轮测试总计生成了 659 份方案,筛选出以上 19 张我认为可以的成品图。

在我看来,这个比例过于低了。

希望在 



V6 的正式版本中,能优化这方面算法。

记录一次 AIGC Hackathon 参赛经历和收获

By: 李瑞东
29 May 2023 at 08:26
AIGC Hackathon 主题海报,由公司品牌设计师陶老师和 Stable Diffusion 的共同创作

公司在 5 月上旬的时候举办了一场 AIGC Hackathon 比赛,鼓励内部员工基于公司相关业务,利用 AI 技术进行创作,重塑生产力。

这么有意思的活动我当然也要掺一脚,在同事的怂恿和牵线之下,召集到了另一位设计师,以及一位研发大佬。所以加上我总共是 3 个人,2 个设计,1 个研发。但是严格来说应该是 1.5 个设计,1.5 个研发。因为我会参与到前端界面的实现,这也是我想参与这次活动的其中一个主要原因。

先放上我们开发的小工具的最终效果,其实是通过提前录入 SQL 语句规则,然后用自然语言询问 AI,让 AI 帮忙生成一个可用的 SQL 语句:

过程

想法

因为当前我们公司的业务是研发管理平台,所以我想到能通过 AI 帮助我们的主要是提高效率,减少出错,诸如此类的方向。

尤其是我在刚来到公司的时候有一段时间给我学习体验公司产品。中途就看到有个地方生成图表的话,可以选择各种筛选条件,也能用 SQL 来快速筛选,当时我就觉得如果用 SQL 来筛选会比手动一个个条件添加来的快,但我又不会写 SQL 语句,所以就想到一个主题:「输入自然语言,通过 AI 生成一段 SQL 语句」,产品名称就被定为「SQL-Helper」。

最开始我们讨论到有几种实现方式:

  • 产品原生:在公司的产品中搭建一个开发环境,在里面进行对话交互功能的设计和开发。
  • 外部网页:搭建一个网页,在网页里实现对话。
  • 谷歌插件(Popup):在浏览器右上角上添加一个 Popup 入口,点击后打开一个浏览器提供的容器,在上面进行对话交互。
  • 谷歌插件(嵌入网页):在公司的产品当中嵌入一个小卡片,在上面实现对话和配置等,会遮盖部分网页内容。
用树状图展示了三种实现方式的取舍选择方式的示意图。

最终选择了谷歌插件(嵌入网页)的方式,因为这样算是能比较融入到产品当中去,不需要来回切换网页这么麻烦,毕竟是一个对话的产品。而且 Popup 有一个致命问题是,如果鼠标点击到了网页的任何地方,Popup 就会收起,这种体验不适合用在聊天式的产品当中。而直接基于公司产品的开发环境中进行开发,这种做法成本比较大而且难以协作,毕竟团队中只有一个正经的研发。

团队合作

得益于大佬的用爱发电,他花了一个休息日的时间把架子搭起来了,技术栈是:

  • React
  • Ant Design Manifest V3(支持 Chrome 96)
  • Stylus 样式结构支持

最初搭建好的框架。是能够在网页中嵌入一个按钮,点击后打开一个弹窗:

最初搭建好的框架。图片展示了一个浏览器右下角有一个橙色的沙漏图标,点击后会打开一个出现在屏幕中央的弹窗。

这两个地方就是我们作品的主要载体。我们希望点击悬浮窗之后能打开一个聊天小窗口,能在里面填入 SQL 语句相关的 Key 和 Value,然后填入用户的 API Key,并实现与 AI 实时对话。

所以很快,在第一天的时候我们就有了一个大概的原型,中途通过每日下班前的简短碰面来一起决定增加/减少哪些内容。

最开始的原型。在 Figma 中进行的,由方框和简单文案组成的原型图。分为消息模块和配置模块,每个模块的原型图下方列举了一些必做的功能清单。

然后也确定了我们三人小组的分工:

  • 我:前期负责设计界面、实现静态界面。后期参与 Prompt 调试。
  • 另一个设计师:负责界面设计、图标设计、PPT 制作/包装。
  • 研发大佬:负责功能实现,比如表单提交,发送和接收消息,接口调试等。

然后我们就各司其职,我这边按照大佬给的流程,每天把自己做好的部分提交 Pull requests,并标记清楚完成了哪部分,哪部分的功能需要研发大佬来实现等等。

Github 仓库的 Pull requests 截图。展示了 SQL-Helper 仓库中部分 Pull requests 记录,并且用带有圆角的绿色方框高亮由我提交的部分 Pull requests。

整体的时间表如下图(只有五个工作日,时间紧迫。):

时间表截图。记录了三个成员在周一至周五各自的工作,完成的工作会用绿色打勾图标来标记。

一些细节

初试 Ant Design 的感受

平常在设计稿中使用基于 Ant Design 组件的经验有很多,但是自己亲自在代码里使用该组件还是第一次。

一个强烈的感受是,Ant Design 组件库确实很丰富,很多常用的组件都有封装好,主题色更改的功能也很强大。但是想要基于 Ant Design 组件库来做一些客制化的改动,实在是太费劲了(也可能是因为我太菜...)。

比如当时我想实现一个 TextArea 根据容器高度来自动填满高度的话,我的样式代码是如此之多:

在深色主题下 Visual Code 中的代码截图。展示了我使用大量重复的样式来让一个 TextArea 组件自适应高度。

另一个坑是我们的聊天窗口是嵌入到网站当中的,而且原本我们公司的产品也是基于 Ant Design 组件库搭建的,所以会出现很多样式的冲突。

比如我在自己的界面中使用了 Button 组件,而被嵌入的网站中如果也用了 Button 组件,那么样式将会被原本网页覆盖掉。

如果在这种情况下想要自定义样式,需要在 CSS 中通过多种手段来提升样式的优先级。这里是我比较频繁用到的两个提高优先级的方法:

  • 使用选择器提高 Class 的优先级
  • 使用 !important
在深色主题下 Visual Code 中的代码截图。展示了我使用选择器和 !important 的方法来提升所编写的 Class 层级。
CSS 选择器的优先级相关内容可以参考张鑫旭大神的名著《CSS选择器世界》,写得特别详细。

所以后面回想起来,我在改造 Ant Design 组件库花的时间还是太多了。这个组件库可能在做复杂后台的时候好用,但在做这种小应用,发挥创意的地方,我觉得还限制还是太多了。我觉得我们最开始应该选择使用有更高扩展性的组件库,比如前段时间看到的 Radix UI

从文档来看,Radix UI 会组件里面每个 DOM 都提前命名好相关的 ClassName,那么用户在想自定义样式的时候,就方便很多了。

Radix UI 组件库的截图。展示了 Alert Dialog 组件的代码,并且用带有圆角的绿色方框高亮了代码中的四处 className。

对比起 Ant Design,引用一个组件进来后,会生成巨多个没有打标记的 DOM。每个 DOM 的样式巨难选择,想要改组件内某个元素的样式,没有熟练的 CSS 选择器功夫还真搞不定。

但还是得具体试一试才知道 Radix UI 是不是真的好用,或许也会暗藏某些坑。或许我应该拿自己的个人网站来试一试 🤔。

改造弹窗:拖拽和操作

由于这是一个嵌入在网页当中的对话窗口,本着提高一个易用性的初心,我觉得需要对弹窗组件进行魔改,支持以下两种特点:

  • 支持拖拽:允许用户拖拽弹窗标题区域,改变弹窗的位置,以免挡住原本页面中的元素。
  • 移除遮罩:不展示弹窗背后的黑色遮罩,并且弹窗出现的时候,不影响用户操作原本的网页。

仅仅是改造弹窗这块,足足花了我一天。严重影响了我调试 Prompt 的时间,所以感觉很有必要把它记录下来,即便我的做法绝非最佳实践。

拖拽

拖拽这块我是用了一个名为 DragM 的开源库来实现了,因为看到示例里面效果很不错,所以直接用上了。效果确实也很不错,强烈推荐。

过程有点丢人,就不详细描述了。大概是我参照示例代码做到了弹窗能够实现拖拽,但弹窗的关闭按钮却失效了,后面还是得靠研发大佬来修复。

允许操作背景

这个特点的实现简直是噩梦。Ant Design 文档是提供了一个 API 是能够允许我们隐藏掉黑色的遮罩。

Ant Design Modal 组件的 API 截图。用带有圆角的绿色边框高亮 Ant Design Modal的 API。该 API 控制是否展示 Mask,默认是展示的。

但是这只是让我们看不见遮罩,打开弹窗时,原本页面的元素仍然是无法点击的。所以我试了一些方法,比如说将每一个疑似是遮罩的 DOM 设置为 display: none;,然而并不奏效。

最后生效的方法是用 CSS 选择器选中遮罩层,并将其调整为跟弹窗一样大。那么实际上遮罩还是存在的,但已经被修改为和弹窗一样大,并且叠在弹窗的后面,其实谁都感知不到这个透明遮罩的存在。

所以对于弹窗尺寸以外的部分,是没有被遮罩所覆盖的,自然能够正常响应鼠标操作。

这种做法无法适应弹窗高度会动态变化的情况,但我们这次设计的产品中,弹窗的宽高是固定的,所以即便做法比较不成熟,但确实是达到效果了。

结果

比赛最终有点遗憾,距离拿奖仅一步之遥。获得我们组目标奖项的是一个单人成组的高手。 很可惜的是我们就差一点点,因为最后颁奖的时候大佬也提到了我们的作品,说是如果能更好用一些,比如将生成的 SQL 语句自动填进输入框,或者自动应用然后直接生成图表,就有更大的机会获奖了🤦。

确实我们在演示的时候没有将这个这个产品最强大的功能发挥出来。因为本身产品也有些缺陷,限制了我们的演示范围。

最开始我们设想是演示的时候用自然语言多问几个问题,然后 AI 每次回复都很准确,凸显了自然语言生成 SQL 语句的便利性,而且还想演示输入了几个错别字,AI 仍然能够正确地识别我们的意图,回复正确的 SQL 语句。

但实际上我们最终的产品还是有一个明显的 BUG,在连续聊天时,消息队列不正常,AI有时候会回复我问的上上一个问题,而不是紧接着我的提问来进行回答。

这使得我们演示的时候只能问一个问题,简单带过,没有办法将自然语言带来的便捷性完全地展现出来,实属遗憾。

收获

虽然没能获奖,但参与这次公司内部的 AIGC Hackathon 比赛对我来说有三个特别重要的收获。

参赛经验

简单来说就是产品设计和功能开发的边界,需要根据演示需要来进行规划。

之前我在样式实现中花了太多时间(职业病🤦),比如输入框的聚焦效果,聊天气泡出现的动画,发送消息加载中的动画等等,而实际上在演示的时候,这些可能只展示了 1~2 秒,甚至更少。

因为这些内容大概率不会是评委所在意的东西,反而在过程中怎么调试 Prompt,调试过程中遇到什么挑战,怎么解决,怎么选择模型等等,显得团队很沉浸于与 AI 接口进行交互,通过这个项目积累了挺多经验,可能这些才是大佬们有兴趣了解的地方。

我应该早点完成产品界面还原,然后尽快投入到调试 Prompt 当中的。 如果之后再次参与类似的活动,我觉得我的所有工作都会围绕最后一天的演示来进行,其他东西能减就减。

首次参与代码 PR,并且与真正的研发同事合作

这次是我第一次将代码 PR 到其他成员的仓库当中,并且解决代码冲突,编写改动点,同步最新代码等等。这种团队协作的感觉,让作为设计师的我感觉很新鲜和奇妙。

而且各司其职,每个人都做出了超出自己以往经历的内容,然后每天短会同步下今天的进度、明天的工作内容。尤其是路演前一天晚上一起调试 Prompt,然后把最佳表现录屏,录屏中还出现了几次滑稽的意外...这种协作的经历让我感觉很充实,富有激情。

而且我每天都会遗留一两个事项给峰哥来解决,比如:

  • 我做完了一个表单填写框和提交按钮,我就告诉峰哥让他来做表单提交的功能;
  • 我做完了聊天气泡(由AI、用户、系统发出的消息)的三种样式,也是一样让峰哥来做相关的展示逻辑...

真正参与产品代码贡献对我来说是一直想去做的事情,因为我一直觉得如果能由做界面/交互设计的人,来亲手将其创作内容实现出来,是一件很酷的事情,也能够减少很多沟通成本。

参与到 AI 的浪潮之中

我最开始是在去年年底的时候,用 ChatGPT 来帮我解决我重构个人网站时的一些实现问题,中途因为好奇心驱使,也问了很多奇奇怪怪的问题。然后最近也在高频使用 ChatGPT,来作为我学习英语的助手。

而这次比赛不仅给了我一个机会去参与创造一个跟 AI 相关的产品(包括代码也有不少是 ChatGPT 参与的),还给了我推强大的动力去了解 AI 在商业中的场应用景。除了在比赛中看到其他参赛者的创意之外,现在还了解到比如 Atlassian 已经有相关的功能前瞻了。

从 Atlassian 在 5 月 4 日发布的股东信当中,也透露到该公司已经在用 AI 来来为客户提供服务了。

"Now that generative AI has reached consumer-grade maturity with LLMs, we can create magical new experiences for our customers."现在,随着大型语言模型(LLMs)带领生成型人工智能达到了消费级的成熟,我们可以为我们的客户创造魔术般的新体验。

除了 Atlassian,另一个互联网巨头:Shopify 也将 AI 能力应用到其产品当中。比如在商品详情页的编辑界面当中,我们可以输入几个关键字,让 AI 帮忙生成一段商品介绍的文本,还能够调整文本的风格。

Shopify 商品详情页 AI 功能截图。画面是一个卡片叠加在商家管理后台的商品详情页的富文本输入框上,该卡片左侧是一个纵向排列控件的配置面板,第一个是输入框,输入一些关于商品的关键字;第二个是调整文本风格的下拉菜单,第三个是额外的备注。然后右侧是由 AI 生成的文本,用淡紫色背景的文字来区分,并且提供赞和踩的反馈。卡片右下角是一个 Pointer 样式的鼠标指针,选停在保存按钮上方。

Shopify 将同样也是利用 LLM 来实现的生成文本能力,这被官方称为「Shopify Magic」。除了在商品详情页生成商品描述,也能在邮件当中根据活动类型或产品关键字生成邮件标题,或者在主题编辑器中根据要求来生成标题等等。

微软就不必多说了,也已经在 Microsoft 的办公软件上集成了很多 AI 功能。

代码仓库

这里放上我们产品的代码仓库吧,记录这段热血时光:

SQL-Helper · Github

最后,通过这次 AIGC Hackathon 活动,我真正参与到了产品的代码贡献,同时也看到了许多 AI 能力的应用场景。听说公司有产品在研究 AI 能力在业务中的应用,希望之后自己也有机会在商业项目上进行更多相关的实践吧!

近况

太久没发博客了,记录下我最近的状态吧。应该没有人想知道,但若干年后的我可能会想知道。

  1. 近沉迷于学习英文,所以会导致网站、博客的更新会比之前慢一些。
  2. 发现英文还挺有意思的,但在学生时代是看见英文就想睡觉。以前的我应该是比较喜欢数学和历史。
  3. 小目标是今年内能出一篇全英文的博客。全程用英文书写,然后在发布之前先给 ChatGPT 帮忙检查和润色一下。
  4. 个人网站 LRD.IM 正在开发支持切换语言至「英语」的功能。
  5. 有一个前端相关的分享会正在准备进行,是面向部门内产品、本地化运营和设计同事的。
  6. 在手机上开通了 ChatGPT Plus。直观感受是 GPT-4 的回答比 GPT-3.5 靠谱很多很多,应该会持续订阅。
  7. 正在尝试一种新的作息,再多体会一段时间后,可能也会在博客上记录。

伟大的公司需要多少人

By: MacTalk
23 May 2023 at 13:31

AI 绘图软件 Midjourney 算是这波 AIGC 浪潮中的佼佼者。最近我一直在看这家公司的成长故事,11 个全职员工,0 融资,一年时间积累了 1000 多万用户和一亿美金的营收。

我参与锤子创业的时候,非常喜欢大开大合,希望规模化最大,但从锤子到极客时间,再到墨问西东,我的想法转变了,规模并不重要,小公司也可以做大事。

Midjourney 成立于 2021 年,创始人 David Holz 是一个典型的技术男,在此之前,他还以 CTO 的身份联合创办了 VR 领域的公司 Leap Motion,主要研究手势跟踪技术。

我们先说说这个故事。

创立之初,Leap Motion 备受关注,三年内迅速拿到了 4000 多万美元的融资,团队心高气傲,想做出一些改变世界的产品。后来苹果公司提出想收购 Leap Motion。但 Holz 觉得对方出价太低,并且,没有乔布斯的苹果已经没有什么创新力了,他不愿意为那些人工作,他想自己创造一家具有创新力的新公司。
2013年,Leap Motion 相继发布了几款自己的产品,包括 PC 和 VR 方面的,但都不温不火,没有在市场上激起太大的水花。这对于创业公司来说,并不是什么好兆头。

市场反馈不好,增长无法达到预期,Leap Motion 自然也就拿不到新的融资。但没钱难办事。他们自己造血的能力不够,养活团队、继续研发新产品又需要钱。于是,公司忍痛裁员,优秀的员工相继流失,似乎进入了下行通道。

Holz 和另外一位创始人带着团队继续折腾,这也是创业的常态,把事情做对需要一个过程。Leap Motion 复盘了公司早期的失误,调整策略,继续探索未来人和计算机的互动模式。

但从市场反馈看,他们业务起色不大。直到 2019 年,被另外一家同行业的公司低价收购。

第一个故事结束了,新的传奇拉开了帷幕。

之后 Holz 创立了 Midjourney。这次,他不融资,不追求团队规模,更关注公司盈利能力,这些经营理念,应该都是他对第一段不算成功的创业经历的回应。

我参与锤子科技创业,自己独立创建极客时间这个产品和品牌,到现在出来做墨问西东和墨问便签,有很多想法都能从 Midjourney 上找到共鸣。也许未来很多成功的创业公司,都会类似 Midjourney。

因为什么呢?

1、创业团队人少而精才是正解。人少,并不意味着做的事情小。Midjourney 用 11 个员工一年以内做到了 1300 万用户,年营收 1 亿美元。我也在创业,时常告诉自己,资源有限是好事。资源有限,会不断倒逼团队思考什么才是最重要的。

2、经营 Leap Motion 时,Holz 大概率被资本裹挟过。别人投资你,肯定需要考虑退出的事,而退出,大概率都要依靠 IPO。但对于创业团队而言,过于关注结果,过于关注增长,都会让团队丧失初心,动作变形。有实力的话,可以不拿融资,一开始也不需要招那么多人,慢慢来。这也是一种新的、符合常识的创业方式。

3、Leap Motion 创业过程中,Holz 积累了很多信任和欣赏他的人脉。当 Midjourney 需要一万个 GPU 时,有朋友慷慨解囊。所以,手艺、影响力和人脉,都很重要。不要厚此薄彼。

4、Holz 说自己离开 Leap Motion 创办 Midjourney,是为了换一个环境,因为他不想继续待在一个由风险投资支持的大公司,希望自己在未来 10 年可以做很酷的项目并且享受乐趣。而小的团队,更能专注在他想要做的事情上,毕竟他们没有销售的压力,也没有成为一家上市公司的想法。大家只是去做自己喜欢的事就好。

5、不依赖融资,就需要团队较早考虑盈利。之前的很多创业团队,一上来都会先做用户增长,等差不多了再做收入。但 Midjourney 没有钱,他们在设计产品时,第一步就是思考怎么才能挣钱。这年头,不要以创业,我融了多少钱为荣。

6、Midjourney 的盈利模式非常简单,订阅制,按月或者按年付费,一共三档:基础、标准、高级。现在已经没有免费版本。产品的收费模式,越简单越好。

7、不要追求从 0 开始创新。Midjourney 的模型,最早是基于 CLIP 及 Diffusion 的开源模型,抓公开数据训练,然后迅速上线 Open Beta 版本,占领用户心智。不要有洁癖,快速借鉴别人的经验是一种能力。

8、Midjourney 只有 11 个全职员工。但你知道吗?他们还有 60 多位兼职 Discord 运营。对于一些可以标准化,没有壁垒的工作,用兼职的方式搞定是一个思路。如无必要,勿增实体。

9、知道什么重要,什么不重要,并敢于取舍。Midjourney 到现在都没有独立 App,也没有网站,和用户的所有交互都在 Discord 上。要是你,敢这样吗?不要眉毛胡子一把抓,不要追求完美。“从长远来看,Midjourney 将拥有自己的网站,自己的用户界面,但现在公司不需要花费时间来构建整个用户界面。”这是 Holz 的判断。

10、但是搭载在 Discord 里,也不是一开始就明确的。用户测试完他们才发现,90% 的人不知道怎么告诉它他们想要什么,于是加入了教学元素。后来发现很多人并不喜欢一个人画,更喜欢跟朋友一起玩,他们才意识到 Midjourney 是社交的东西,加入了社交元素。“构建产品最重要的部分,就是对发现事物的真实本质持开放态度。”

11、“技术的最大限制不是规模、成本或速度,而是人们如何与之互动,从根本上决定了我们能做什么。”操作系统以及搭载的各种软件,是我们现在与计算机互动的方式,但看历史,从指令到键盘,到触屏、对话框、语音,甚至手势,人与机器互动的门槛越低,能做的事情越多,生产力的解放越深入。

12、AI 不是现实世界的复刻,而是人类想象力的延伸。Midjourney 做的事情是帮助人们扩展想象力,写 prompt 的指令是“/imagine”。顺着这个方向,我觉得 Midjourney 会成为一个设计领域的生产力工具。这一波 AIGC 的产品,都应该奔着生产力工具的方向去才有前途。

13、想象力实在太重要了。张一鸣之前说过一段话,“同理心是地基,想象力是天空,中间是逻辑和工具。A/B 测试只是一个工具而已,是测不出用户需求的,同理心才是重要的基础。如果没有同理心,做出的产品肯定没有灵魂,不能满足用户需求。但是光有同理心还不够,这样只能做出有用的产品。想要做出彩的产品,想象力非常重要。”

14、大模型技术不会替代人类,它是人类的延伸。

15、永远不要试图凭空设计一个完整的产品体验,你只需要找到十个看似无关的体验,选择其中最酷的三个,把它们放在一起,然后在细节上进行完善,让人们觉得它不错并喜欢上它,好的产品就是这样一步步做起来的。

16、工具要想活的好,活得久,永远要让自己嵌到用户的业务流程里,简单讲,要么帮他赚钱,要么帮他省钱。生成的图片商业性很强,Midjourney 才能从一众工具里脱颖而出,很简洁的 prompt 就能生成有明显科幻性的精美图片,让用户数大而且付费意愿很强的设计类用户显著提高效率。从影响创造力开始,以影响生产力立足。

附图:陈晓维老师说,用AI给我的小说《像钻石一样闪耀》女主角厉小卷画的像。终于知道她长什么样了。

❌
❌