Normal view

There are new articles available, click to refresh the page.
Before yesterdayMain stream

镜头的变幻就是故事|Midjourney V5.2 Zoomout 测试

By: Steven
26 June 2023 at 00:18

➡阅读更多 AIGC 相关内容

最近一直都非常忙,所以连续 20 来天都没有碰过 Midjourney 了。前两天在社交媒体上看到,新推出的 V5.2 中有一个向外扩写的功能,因为此前已经在 PS+SD 的组合中见过这类拓展画面的应用思路,所以很想看看 MJ 的 Zoomout 能做出什么样的东西来。趁着端午假期这个空档,我集中跑了几波测试,有一些小小的心得,在此记录一下。

总体结论有三个:

1、Zoomout 可以无限次数地向外扩展,但随着镜头的拉远,Midjourney 自身的联想能力并不足以做出任何有意思的画面,不刻意控制地放大出来的画面,到了第 3~5 步之后,就会明显变得乏味和缺乏美感。

2、通过刻意地控制画幅比例、扩张倍数,以及针对性地调整 prompt 的描述,可以利用这个功能讲出有意思的故事。关键在于,使用者对于「镜头语言」的理解,以及对运镜和故事之间联系的掌控程度。

3、对工业设计的辅助甚微,做点「花活儿」可以,一旦涉及到逻辑,依旧不行。

Zoomout 功能的主交互界面

测试内容目录:

1、通过默认的 Zoomout X2 按钮连续放大 3 次

2、通过默认的 Zoomout X2 按钮连续放大 15 次

3、通过自定义 Zoomout 微调构图

4、通过自定义 Zoomout 构建人物画像

5、通过自定义 Zoomout 构建人物性格

6、通过自定义 Zoomout 完善场景氛围

7、在 niji 中应用自定义 Zoomout 构建人物和场景

8、自定义 Zoomout 构建情绪与故事

9、通过焦点变化构建故事的场景

10、通过镜头变化,构建故事的起承转合

以下为部分测试过程记录:

test case no.1:通过默认的 Zoomout X2 按钮连续放大 3 次

⬆ 点击以全屏查看图片 Click to view the image in full screen

操作方式:连续 3 次放大图像两倍,不对 prompt 进行修改,也不对画幅做设置。

输出成果:在奔跑的场景中增加了后方的人,有一点点故事性,但继续放大后会明显失焦,花面焦点始终在最开始的小女孩身上,继续放大生成的场景和人物都是模糊的。

test case no.2:通过默认的 Zoomout X2 按钮连续放大 15 次

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:连续 15 次放大图像两倍,不对 prompt 进行修改,也不对画幅做设置。

输出成果:外围拓展的场景越宏大,有效信息和故事性就越低,除了在阴影中无意间冒出的人影,没有任何惊喜和意料之外,拓展的画面也很单调乏味。

test case no.3:通过自定义 Zoomout 微调构图

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:不对 prompt 进行修改,按 1.1 和 1.2 的拓展比例小幅度调整画幅。

输出成果: 初始图像是近景特写,根据图像本身的特点,对画幅进行小幅度地微调来获得完整的全景镜头,以及合适的构图比例。

test case no.4:通过自定义 Zoomout 构建人物画像

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:先生成一个黄色漩涡图案,然后拓展时改写 prompt 为一只眼睛,进而生成一个带特征的面部局部画面,再次拓展时修改描述词为一个洞穴中的原始部落男性。

输出成果: 成功构建了一个有目标特征「黄色漩涡瞳孔」的男性角色,通过控制拓展比例以达到最终效果—-人物整体和局部特征均得以完整呈现的画面。

test case no.5:通过自定义 Zoomout 构建人物性格

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:先生成一个红色皮夹克的女性胸像,再改写 prompt 获得其坐在摩托车上的局部画面,再改写画幅比例获得完整的人物与车辆的全景照。

输出成果: 成功构建了一个有目标特征「红色皮衣+摩托车」的女性角色,通过控制拓展比例以达到最终效果—-人物细节和整体氛均衡的画面。

test case no.6:通过自定义 Zoomout 完善场景氛围

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:在初次生成的几批图像中,选择合适的画风和画面主体,再根据已有画面特征修改画幅比例。

输出成果: 在选定风格和主体后,将竖幅主体拓展为气势更足的全景影像。关键是拓展比例并非默认的 2 倍或 1.5 倍,而是根据实际需求来控制比例,同时也需要关注怎样的画幅比例可以传达对应的氛围。最终图像画幅比例是 3:1,适合展现有足够细节的宽幅场景。

test case no.7:在 niji 中应用自定义 Zoomout 构建人物和场景

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:

step 1、使用 niji 5 的 style original 生成一个细节丰富的初始人物;

step 2、以 1.2 的 Zoomout 比例纵向拓展出人物的半身画像,画幅比例是 1:2;

step 3、以 1.1 的 Zoomout 比例和 2:1 的画幅比例重构画面,得到外围场景;

step 4、以 1.2 的 Zoomout 比例和 3:4 的画幅比例重构画面,生成人物全身像;

step 5、改写 prompt 添加「宫殿」关键词,以 1.65 的 Zoomout 比例和 3:2 的画幅比例重构画面,生成人物在场景中的全景画面。

输出成果: 虽然人物细节和场景氛围的融合程度还不错,但因为漫画角色的细节较多,在多次 Zoomout 的过程中,场景的丰富会逐渐抢掉中心人物的视觉焦点。因此在每一次修改画幅比例与关键词的时候,需要多加注意对视觉元素的控制。

test case no.8:自定义 Zoomout 构建情绪与故事

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:

step 1、生成一个情绪和神情符合目标的初始人物;

step 2、改写 prompt 同时添加「马」关键词,以 2 的 Zoomout 比例和 3:4 的画幅比例重构画面,生成后续画面的基础,此时需要注意人物与马的位置关系,否则后续生成的画面会非常扭曲怪异;

step 3、以 1.05 的 Zoomout 比例和 2:1 的画幅比例重构画面,生成完整的马匹造型与部份环境信息;

step 4、对比改写 prompt 产生的变化,黑发组不改描述词,以 1.1 的 Zoomout 比例和 3:4 的画幅比例重构画面;白发组添加「巨大镜子」关键词,以 1.6 的 Zoomout 比例和 3:4 的画幅比例重构画面。

输出成果:通过控制 Zoomout 的幅度、画幅比例和 prompt 的调整,可以生成指定场景的画面,且人物的神态到位、情绪饱满,整体画面焦点清晰。但美中不足是,构图不够自由。

test case no.9:通过焦点变化构建故事的场景

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:

step 1、生成一个在河岸上的粽子;

step 2、修改 prompt 为「熊宝宝正准备吃粽子」,以 2 的 Zoomout 比例和 3:4 的画幅比例重构画面;

step 3、修改 prompt 为「小熊一家在野餐」,以 1.2 的 Zoomout 比例和 4:3 的画幅比例重构画面。

输出成果:通过对 prompt 的修改,控制 Zoomout 的幅度、画幅比例,可以改变画面中的焦点和表达主题,适合不同文化元素之间的混搭。

test case no.10:通过镜头变化,构建故事的起承转合

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:

step 1、生成一幅鲜花山谷的画面,人物要明显;

step 2、修改 prompt 为「一面巨大的镜子在草地上」,以 2 的 Zoomout 比例和 3:4 的画幅比例重构画面,此处竖构图是为了生成较高的全身落地镜;

step 3、修改 prompt 为「少女站在镜子前」,以 1.5 的 Zoomout 比例和 3:2 的画幅比例重构画面,改为横构图是为了囊括少女全身以及环境信息。

输出成果:通过改变画面中的焦点和增加元素,在镜头逐渐拉远的过程中,故事缓缓托出。

➡阅读更多 AIGC 相关内容


我的整体感受是:

通过 Midjourney V5.2 的 Zoomout 无限拓展,一次次修改画幅比例、提示词内容,可以用镜头语言的变化来讲故事了,也可以基于一些初始的「点子」延展成有意思的融合作品。但越是这样,越发显得对话式、指令式的交互界面( SD 那种也不算图形交互 )的局限太大了,我很希望今年之内能发展出图形交互界面。

没错,今年 AI 的爆发指向了一个新的趋势:对话式交互界面。但人类之所以发明绘画,开始通过设计图来制作各式各样的新工具,恰恰就是因为语言本身的效率太低。这个逻辑其实也可以从媒体形态上找到端倪:文字–> 图像–> 视频。仅仅依靠对话,我们无法构建出一个一把剪刀;仅仅通过语言表达的播客,也无法传达任何需要视觉才可以精准理解的信息。对话指令的交互界面与图形交互界面之间的关系,并非只是 dos 和 windows 之间的差异,更重要的点在于,后者可以更直观地完成交互,以及精准地进行创作行为。AIGC 的重点不仅仅只是 AI,而是我们如何使用 AI 进行「Generative Content」。

我说一句话,AI 给我一个东西,这不是创作。

创作是一个生命在主观意志的驱使下,刻意的、有目的地表达其心中所想。

因为 GPT 的爆发而说对话式交互是未来,这样的断言是过于冲动的。只要是一个严肃的创作者,就会立刻意识到,真正的创作一定需要多纬度的交互界面。这其中不仅仅包含对话指令,同样更需要图形界面以及在数字虚拟空间中的三维交互。AIGC 工具与 PS、表格、PPT、思维导图等已有工具的结合,就是这类多维交互的雏形。

那一刻,我们不会等太久。

➡阅读更多 AIGC 相关内容

正在一点点发生转变的三十六岁

By: Steven
20 March 2023 at 22:28

虽然已经对自己的年龄不太有感知了,但今年却因为前段时间的一系列事情,而感受到了一股力量在推动着某些事情前进。那是一股巨大的浪潮,一股将会被历史记录的洪流,而我隐隐蹭到一些浪花,感受到了来自三十六岁的礼物:转变的推力。

最开始是从去年八月开始接触 AI 创作,短短半年时间,到今年二月就明显感受到了巨大的进步。如果说前面几年的各种什么元宇宙元年、AR/VR 元年、Web3 元年都还只是一波波热钱推动的热闹的话,那么这一波 AIGC 所带来的冲击,已经不是元年这种概念了。它已经直接冲到了我们的面前,正在以肉眼可见的速度,迅速拓展到各种方面。我向来都是技术进步派,这种变化让我感到兴奋,比起担心、忧虑,我更加希望参与其中,拥抱这一切的变化。

然后,是在一段很长时间令我感到厌烦但必须处理的各种工作之后,突然收到了来自熊小默苏兆阳的邀请函!他们的线下展终于要开了!先和筱烨商量了一下,得到她的支持后,我果断买了去上海的飞机票,奔赴一处让我得以喘息的「他处」。

我太需要一次「离开」了!

逃离这些令我感到厌烦的、繁复的文书工作,以获得片刻自由呼吸。尤其这是一次我期待已久的见面,与这两位朋友时隔一年的见面,与他们的展览以及这些艺术家们的见面,以及与他们的作品的见面,一次让我可以从世俗中抽离,与自己的见面。

第三晚,回深圳前去现场 say bye,却遇到了启发我做视频的 Flypig
作品代有强烈私人情绪的林洽
多年观众和网友,前锤子产品经理,杰里开
新认识的朋友,很棒的小泽zz6

看到大家都在认真地做着自己热爱的事情,这非常打动我。

其实在 2015 年的下半年那几个月,我做过一个叫做《搭讪》的设计采访栏目,一共做了七期,采访了不同领域、不同阶段的设计师。后来因为工作原因,就搁置了。大概从前年开始吧,我就隐隐希望把这件事再拾起来。尤其在看到《拍照的人》第一集播出后,更加刺激了我要把这件事重新拾起来的想法。

我要把设计师们和产品的故事挖出来,用纪录片的方式。

左起:苏兆阳、熊小默、苏志斌
第一晚留到最后的人:熊小默、苏兆阳、akira 以及所有参展艺术家和朋友们
全画幅相机取景器里的苏志斌和熊小默
苏兆阳送的非卖品:《拍照的人》泡泡骚

结束后我们一起去吃饭,期间我问熊小默为什么想做这件事,他说他要歌颂摄影,不是精英化的摄影师身份或者某些作品,而是摄影这个行为以及那些一直在拍照的人。我说这很动人,因为我也一直想做这件事。

我今年要重新开始做这件事。

正好二月初的时候,迪龙找我聊,关于传播他和曾德钧老师搁置了十年但正在重新制作的那一对特殊的音响。他们最开始只是想写一篇文章,但我建议,应该是一条视频,一条记录了你们共同的作品以及你们的采访的纪录片。于是,这件事终于有了一个开始的契机。

郑冬平和他的设计师们在讨论设计方案
郑冬平办公室一角

从上海回来后的第一个周一,我去见了刚重组了公司和工作、生活的郑冬平。他把上善设计的工业设计业务解散了,专心在现在的小家电新品牌上,原本的上善收缩成一家品牌设计公司。我跟他说了我想做这个纪录片系列的想法,我想以他为开始,做第一条片子。

他答应了,他的合伙人也觉得很有意义。

即刻公司的大门,可见即刻和小宇宙的logo
来过小宇宙录音室的主播们
相当专业的小宇宙录音室

在上海的第二天,在雨医生和 Kael 的带领下,参观了即刻。

很羡慕这样有活力的年轻人的公司,并不是说互联网公司的工作环境轻松的意思,而是觉得他们有想法就立刻执行的环境,非常激励人。他们告诉我,原本这些位置是空的,但大家因为对这些事情有兴趣,就主动投入精力来做。

我喜欢这种活法。

雨医生一直在向我发出录播客的邀请,她和 Kael 都是我的观众,总说我这样的内容在互联网上独此一家,很难得。前一晚,熊小默和苏兆阳也是这么说我的视频。独特才是最重要的,不存在所有人都喜欢的东西。这也是我所赞赏的。我还有一个理论,是关于把两个领域结合在一起做到自己独门独院的工作才是最好的状态。只是,我目前还不知道可以用播客聊什么。

我想,我也会开始做播客的,但还需要一个契机。

左起:苏志斌、yoga、显卡

同样在进行工作和生活转变的,还有 yoga 和显卡的B站频道

两人终于彻底脱离音乐老师的身份,把工作的重心转移到运营频道上来。我为他们的选择感到高兴,不是因为离开或转移,而是他们明白自己要什么,找到了明确的目标和方向,并正在努力付出和尝试。这是最珍贵的!

他们接下来想做的事情,多少也和我想做的方向有不少重叠。这可能就是奇妙之处,当我下定决心要做这件事情的时候,事情居然都这么慢慢地靠拢过来了。更妙的是,事情还把朋友们互相串起来了。我希望能串得顺利和成功,这样才不枉费这些认真的人们如此热爱生活。

头一回有品牌方主动给我的合作打分,是索尼

我的想法甚至引起了另一些朋友的关注,开始问我,这个项目有没有品牌冠名。

虽然事情还八字没一撇,但我很开心有这么多人在支持我。这让我想起以前在一些书和文章里看到的一个说法:如果你想要一个东西或者想做一件事情,不应该藏在心里,而是大方地告诉所有人,这会让更多的机会和帮助向你靠拢,也能驱使你更有动力地去完成。

我其实一直是一个「怀孕没坐稳就不敢说出来」的个性。因此,一直都是默默独自完成一些事情之后,才和大家分享。但也许最近这些事情就是在驱使我,要做出一些改变。

同时还穿插了雷雨的闭社风波!

突如其来的闭社通知!
紧急召开的跨度达二十届人的会议
没停止过的群内讨论和时空联动

很难想象,国内还有哪一个大学社团能够这样。一个二十多年的学生话剧社团的新人旧人为了一个团体的存亡,一起跨时空地想办法解决生存问题!

本着不干扰和信任的原则而默默关心社团的老鬼们,在存亡之际,一起发挥大家各自在社会里打拼的经验,组织会议、了解问题、梳理问题、寻找解决方案、组织新的人事关系,推动社团改革,确保延续和发展。

话剧人的魂呐!

筱烨送我的生日礼物:给我平时吸眼泪的手帕
vendor 的咖啡师拍的我
杠杠镜头里的我,大家说显得很乖巧

今晚用在 coffee venodr 写博客的方式过生日,让杠杠帮我拍了两张照片记录一下,快到九点的时候还送了我今天的最后一块蛋糕做生日蛋糕。

面对这两周的经历,我该说什么呢?

“ 地球还是蛮不错的!我应该还能再住 60 年吧!”

西乡傀儡谣与圣诞短信

By: Steven
21 December 2022 at 22:54

“人类需要节日,才能活下去。”

前年(2020年)的 vlogmas 里 有一期(14:26) 是我和筱烨在星巴克里的对话,她聊到对圣诞节的感觉。以前其实对这个节日是没有感觉的,但在疫情当中感受到,节日对于人们而言有多重要。无论是不是自己文化当中的节日,节日本身和节日的氛围其实是给了人们一些安慰和希望的。这一点很难得。尤其是随着年纪的增长,身上的压力和烦恼让生活愈发趋于寡淡,于是乎,节日就成了那根把生活搅动起来的小棍子!让人有勇气继续活下去。

晚上在咖啡店里加班做 PPT,一直坐到打烊。骑车经过西乡天虹那个十字路口的时候,隐约听到不远处传来一阵阵歌声:

ano~maiba~atsuke~noyoidaru~

我心想:这不是《傀儡谣》么?怎么西乡的大街上还能听到这种气氛的音乐?我是不是幻听了?

但随着我的车穿过路口,到达对面,歌声愈发清晰。直到我顺着歌声的方面抬头望去,赫然看到一个披散着长发的高个女子站在路口转角的地方,身前摆着一个铺满了饰品的白色小摊,一支高高细细的黑色支架把手机撑在她胸颈高度的位置上,她本人正随着音箱里放出的歌声,翩翩起舞。

我正好骑到她边上,她看见我在看她,愣了一下。我顺势冲她竖起了左手的大拇指,便随着车轮离开了。她看我比了赞,也朝我笑了一下,就此别过。

那一刻,应该就可以叫做「一期一会」了。

我说不上那一刻为什么会竖起拇指,或许是因为我喜欢这首曲子,或许是有感于这样与旋律的偶遇,或许是钦佩她当众孤独的表演状态,或许是那一刻想与陌生人释放善意的冲动…… 总之,我很庆幸当时竖起了拇指。

也或许,我也在期待那样的一个拇指。

离开咖啡店时,我觉得那个场景和灯光很好看,就拍下了篇首的那张照片。但在得到那张照片之前,其实有一张更「活」一些的照片:即将收工的咖啡师 ganggang 正好从窗前经过,准备去关灯。她的姿态、手机的位置与窗上文字,一共构成了一幅画面,仿佛正在给某个人发送「Merry Christmas」的信息。

这个画面很有故事感,它像一出电影的截图。

可以是开始,可以是结束,也可以是故事的转合,就像那一段偶遇的《傀儡谣》,它们都是好故事的碎片。

❌
❌