Reading view

There are new articles available, click to refresh the page.

镜头的变幻就是故事｜Midjourney V5.2 Zoomout 测试

26 June 2023 at 00:18

最近一直都非常忙，所以连续 20 来天都没有碰过 Midjourney 了。前两天在社交媒体上看到，新推出的 V5.2 中有一个向外扩写的功能，因为此前已经在 PS+SD 的组合中见过这类拓展画面的应用思路，所以很想看看 MJ 的 Zoomout 能做出什么样的东西来。趁着端午假期这个空档，我集中跑了几波测试，有一些小小的心得，在此记录一下。

总体结论有三个：

1、Zoomout 可以无限次数地向外扩展，但随着镜头的拉远，Midjourney 自身的联想能力并不足以做出任何有意思的画面，不刻意控制地放大出来的画面，到了第 3～5 步之后，就会明显变得乏味和缺乏美感。

2、通过刻意地控制画幅比例、扩张倍数，以及针对性地调整 prompt 的描述，可以利用这个功能讲出有意思的故事。关键在于，使用者对于「镜头语言」的理解，以及对运镜和故事之间联系的掌控程度。

3、对工业设计的辅助甚微，做点「花活儿」可以，一旦涉及到逻辑，依旧不行。

测试内容目录：

1、通过默认的 Zoomout X2 按钮连续放大 3 次

2、通过默认的 Zoomout X2 按钮连续放大 15 次

3、通过自定义 Zoomout 微调构图

4、通过自定义 Zoomout 构建人物画像

5、通过自定义 Zoomout 构建人物性格

6、通过自定义 Zoomout 完善场景氛围

7、在 niji 中应用自定义 Zoomout 构建人物和场景

8、自定义 Zoomout 构建情绪与故事

9、通过焦点变化构建故事的场景

10、通过镜头变化，构建故事的起承转合

以下为部分测试过程记录：

test case no.1：通过默认的 Zoomout X2 按钮连续放大 3 次

点击以全屏查看图片 Click to view the image in full screen

操作方式：连续 3 次放大图像两倍，不对 prompt 进行修改，也不对画幅做设置。

输出成果：在奔跑的场景中增加了后方的人，有一点点故事性，但继续放大后会明显失焦，花面焦点始终在最开始的小女孩身上，继续放大生成的场景和人物都是模糊的。

test case no.2：通过默认的 Zoomout X2 按钮连续放大 15 次

点击以全屏查看图片 Click to view the image in full screen

操作方式：连续 15 次放大图像两倍，不对 prompt 进行修改，也不对画幅做设置。

输出成果：外围拓展的场景越宏大，有效信息和故事性就越低，除了在阴影中无意间冒出的人影，没有任何惊喜和意料之外，拓展的画面也很单调乏味。

test case no.3：通过自定义 Zoomout 微调构图

点击以全屏查看图片 Click to view the image in full screen

操作方式：不对 prompt 进行修改，按 1.1 和 1.2 的拓展比例小幅度调整画幅。

输出成果：初始图像是近景特写，根据图像本身的特点，对画幅进行小幅度地微调来获得完整的全景镜头，以及合适的构图比例。

test case no.4：通过自定义 Zoomout 构建人物画像

点击以全屏查看图片 Click to view the image in full screen

操作方式：先生成一个黄色漩涡图案，然后拓展时改写 prompt 为一只眼睛，进而生成一个带特征的面部局部画面，再次拓展时修改描述词为一个洞穴中的原始部落男性。

输出成果：成功构建了一个有目标特征「黄色漩涡瞳孔」的男性角色，通过控制拓展比例以达到最终效果—-人物整体和局部特征均得以完整呈现的画面。

test case no.5：通过自定义 Zoomout 构建人物性格

点击以全屏查看图片 Click to view the image in full screen

操作方式：先生成一个红色皮夹克的女性胸像，再改写 prompt 获得其坐在摩托车上的局部画面，再改写画幅比例获得完整的人物与车辆的全景照。

输出成果：成功构建了一个有目标特征「红色皮衣+摩托车」的女性角色，通过控制拓展比例以达到最终效果—-人物细节和整体氛均衡的画面。

test case no.6：通过自定义 Zoomout 完善场景氛围

点击以全屏查看图片 Click to view the image in full screen

操作方式：在初次生成的几批图像中，选择合适的画风和画面主体，再根据已有画面特征修改画幅比例。

输出成果：在选定风格和主体后，将竖幅主体拓展为气势更足的全景影像。关键是拓展比例并非默认的 2 倍或 1.5 倍，而是根据实际需求来控制比例，同时也需要关注怎样的画幅比例可以传达对应的氛围。最终图像画幅比例是 3:1，适合展现有足够细节的宽幅场景。

test case no.7：在 niji 中应用自定义 Zoomout 构建人物和场景

点击以全屏查看图片 Click to view the image in full screen

操作方式：

step 1、使用 niji 5 的 style original 生成一个细节丰富的初始人物；

step 2、以 1.2 的 Zoomout 比例纵向拓展出人物的半身画像，画幅比例是 1:2；

step 3、以 1.1 的 Zoomout 比例和 2:1 的画幅比例重构画面，得到外围场景；

step 4、以 1.2 的 Zoomout 比例和 3:4 的画幅比例重构画面，生成人物全身像；

step 5、改写 prompt 添加「宫殿」关键词，以 1.65 的 Zoomout 比例和 3:2 的画幅比例重构画面，生成人物在场景中的全景画面。

输出成果：虽然人物细节和场景氛围的融合程度还不错，但因为漫画角色的细节较多，在多次 Zoomout 的过程中，场景的丰富会逐渐抢掉中心人物的视觉焦点。因此在每一次修改画幅比例与关键词的时候，需要多加注意对视觉元素的控制。

test case no.8：自定义 Zoomout 构建情绪与故事

点击以全屏查看图片 Click to view the image in full screen

操作方式：

step 1、生成一个情绪和神情符合目标的初始人物；

step 2、改写 prompt 同时添加「马」关键词，以 2 的 Zoomout 比例和 3:4 的画幅比例重构画面，生成后续画面的基础，此时需要注意人物与马的位置关系，否则后续生成的画面会非常扭曲怪异；

step 3、以 1.05 的 Zoomout 比例和 2:1 的画幅比例重构画面，生成完整的马匹造型与部份环境信息；

step 4、对比改写 prompt 产生的变化，黑发组不改描述词，以 1.1 的 Zoomout 比例和 3:4 的画幅比例重构画面；白发组添加「巨大镜子」关键词，以 1.6 的 Zoomout 比例和 3:4 的画幅比例重构画面。

输出成果：通过控制 Zoomout 的幅度、画幅比例和 prompt 的调整，可以生成指定场景的画面，且人物的神态到位、情绪饱满，整体画面焦点清晰。但美中不足是，构图不够自由。

test case no.9：通过焦点变化构建故事的场景

点击以全屏查看图片 Click to view the image in full screen

操作方式：

step 1、生成一个在河岸上的粽子；

step 2、修改 prompt 为「熊宝宝正准备吃粽子」，以 2 的 Zoomout 比例和 3:4 的画幅比例重构画面；

step 3、修改 prompt 为「小熊一家在野餐」，以 1.2 的 Zoomout 比例和 4:3 的画幅比例重构画面。

输出成果：通过对 prompt 的修改，控制 Zoomout 的幅度、画幅比例，可以改变画面中的焦点和表达主题，适合不同文化元素之间的混搭。

test case no.10：通过镜头变化，构建故事的起承转合

点击以全屏查看图片 Click to view the image in full screen

操作方式：

step 1、生成一幅鲜花山谷的画面，人物要明显；

step 2、修改 prompt 为「一面巨大的镜子在草地上」，以 2 的 Zoomout 比例和 3:4 的画幅比例重构画面，此处竖构图是为了生成较高的全身落地镜；

step 3、修改 prompt 为「少女站在镜子前」，以 1.5 的 Zoomout 比例和 3:2 的画幅比例重构画面，改为横构图是为了囊括少女全身以及环境信息。

输出成果：通过改变画面中的焦点和增加元素，在镜头逐渐拉远的过程中，故事缓缓托出。

阅读更多 AIGC 相关内容

我的整体感受是：

通过 Midjourney V5.2 的 Zoomout 无限拓展，一次次修改画幅比例、提示词内容，可以用镜头语言的变化来讲故事了，也可以基于一些初始的「点子」延展成有意思的融合作品。但越是这样，越发显得对话式、指令式的交互界面（ SD 那种也不算图形交互）的局限太大了，我很希望今年之内能发展出图形交互界面。

没错，今年 AI 的爆发指向了一个新的趋势：对话式交互界面。但人类之所以发明绘画，开始通过设计图来制作各式各样的新工具，恰恰就是因为语言本身的效率太低。这个逻辑其实也可以从媒体形态上找到端倪：文字–> 图像–> 视频。仅仅依靠对话，我们无法构建出一个一把剪刀；仅仅通过语言表达的播客，也无法传达任何需要视觉才可以精准理解的信息。对话指令的交互界面与图形交互界面之间的关系，并非只是 dos 和 windows 之间的差异，更重要的点在于，后者可以更直观地完成交互，以及精准地进行创作行为。AIGC 的重点不仅仅只是 AI，而是我们如何使用 AI 进行「Generative Content」。

我说一句话，AI 给我一个东西，这不是创作。

创作是一个生命在主观意志的驱使下，刻意的、有目的地表达其心中所想。

因为 GPT 的爆发而说对话式交互是未来，这样的断言是过于冲动的。只要是一个严肃的创作者，就会立刻意识到，真正的创作一定需要多纬度的交互界面。这其中不仅仅包含对话指令，同样更需要图形界面以及在数字虚拟空间中的三维交互。AIGC 工具与 PS、表格、PPT、思维导图等已有工具的结合，就是这类多维交互的雏形。

那一刻，我们不会等太久。

阅读更多 AIGC 相关内容

借行业科普聊了一次 AI 与设计师的关系

SUiTHiNK

Steven

5 April 2023 at 14:53

在上个月去上海之前，@取景框看世界在微信上邀请我一起做一期关于设计行业的科普视频，面向学生群体做一次对行业整体状况的分享。这次是 B站向他发起的约稿，也是他频道的主要内容类型之一。答应他后，从上海回来我就根据自己这么些年的体会和反思，录了一期比较掏心窝的内容。由于参与的人比较多，直到前天，节目才终于上线。

因为参与的人数比较多，我说的话也比较多，所以在汇总的成片里需要剪掉一些。但我又觉得难得录一期视频（从去年11月到现在都没有更过视频了），为了保证表达的完整性，我还是得有一个自己的版本。但因为实在忙得顾不过来，于是麻烦 @小雨帮我把这条视频剪了出来。

毕竟是 @怪物尚志的御用摄影/后期，有他的帮忙，我的视频里头一回多了许多配合文案的动画，比我一个人在镜头前单口相声好看多了。这一期花絮，也在昨天发了出来，跟正片错开一天。

这期视频的封面是我昨晚用 midjourney 画的。

在这条视频里，除了科普工业设计的一些基本概念和行业现状，我也特别聊了一下 AIGC 和设计师之间的关系。前两个月虽然一直很忙，但我也一直在关注 AIGC 的动向。这两个月的变化实在是过于惊人了！

以下是我去年八九月用 midjourney 画的一些东西：

然而在这短短半年内，版本已经从当时的 v3 发展到了现在的 v5。ChatGPT 也从 GPT-3 发展到了 GPT-4，坊间传言 GPT-5 的研发已经完成且爬完了全网所有视频，可以直指某一条视频中的某一段话，只是还没发布。可以说开年后的这两个月内，AIGC 的发展速度已经大大超乎了预料，甚至正处于失控的边缘，它们正在开始颠覆一些东西。将来会发生什么，无法预料，但一定有什么事情已经在发生了。

所以我觉得，无论如何，再忙也得重新用起来。光是跟进各种新闻和消息是不行的，midjourney 前两天刚发布了由图片转译成 prompt 的新功能，多模态的 AI 已经不远了，这会更进一步推动人和 AI 之间的交互。我觉得，自己还是得保持使用状态才行。所以前两天我又重新充了值，开始体验它的新版本。

我先试着画了一些机甲的东西，例如这样的：

上面的两张的用 prompt 直接生成的，但下面的两张，是用 /remix 命令修改了部分描述词后的新图。可以看到下面的图和上面的图保持了相关性，于是我想试试，如果用这个命令替换背景会是什么效果，于是有了这组车的图：

上面的两张图是用 prompt 直接生成的，当我用 /remix 替换了背景描述的 prompt 之后，就生成了下面的两张。更换环境之后，车辆的姿态和镜头视角几乎没有变化，车身的反光与环境之间的关系也很自然，这个效果已经可以说非常惊人了！

然后，我随便画了一些白色的机器人站在燃烧废墟上的场景：

用 /remix 替换了机器人配色部分的描述词后，生成了下面这样的图：

对 /remix 有了基本的体感之后，我开始尝试用 /blend 命令来做一些融合的实验。

首先，我随便描述了一个赛博少女，得到一些随机的图：

接着，我再随便生成一个红发少女：

材料准备好之后，开始把它们进行组合。

第一次先尝试融合两张图，一个是游戏画风的机甲人，一个是二次元的赛博少女。

它们俩合成后，得到了以下这个人物：

新角色具备其中一张图里人物的长相特征与体态，也有另一张图的配色和机甲特点。虽然得到的结果具有随机性，但既然可以这样融合，那么应该也可以通过 /blend 命令来得到一些更有目的性的创作。

有了第一次的体验后，第二次我用三张图片进行合成：

图一是现画的半透明金属机器人，图二是上面准备好的红发少女，图三是现画的骑士。

这三个合成出来的新角色，同时具备了细碎的金色细节、波浪红发、银白色盔甲：

但这不是我想要的，我想试试加大红发少女的比例。在垫图的方式下，可以通过 –iw 命令来分配各个图片之间的权重占比，但是在 /blend 中不能这么操作。于是，我想通过把合成的新图作为素材，再一次与红发少女进行融合，并加入机甲的元素来强化她身上盔甲的质感。

二次合成使用的图，如下：

合成出来的新角色我非常满意！

她既有红发少女面部和眼神的特征，又把两副银白外甲融合得非常优雅，也保留了初始半透明金属机器人遗传下来的金色金属关节的特征，又做出了图三机甲的坚硬感和图一外甲的银白光泽。这一次的融合很成功。

但如果 /remix 可以局部替换特征，那么这些没有写 prompt 而是通过 /blend 直接合成的图，能否通过 /remix 加入新的 prompt 来修改已有的特征呢？

为了让实验效果明显一些，我想让盔甲的白色部分比例缩小，增加金属部分的比例，于是就先把这批图重新刷了几遍，直到出现肩甲是金色的变异版本：

然后不断在此基础上进一步变异，强化金色肩甲的特征：

准备好之后，我在 /remix 中添加新的 prompt：pink armor

以下是修改特征后的结果：

整体的效果我还是挺满意的。一来，新生成的人物很好地保持了最初红发少女的眼神和神态；二来，金色金属被替换成粉色金属后，金属质感的表达是正确的。虽然头发也一起变成了粉色，这确实是没完全理解指令，但原有的发色搭配新的粉色盔甲也确实不是很和谐。

到此，重新开始用 AIGC 工具的热身完毕，找回一些感觉了。

至于这期视频封面里用到的车图，是我昨晚用 Maserati 和 Ferrari 以及 Apple 和 Tesla 分别杂糅出来的缝合怪。虽然乍一看好像没什么新奇的，但是如果我把去年八月底用 midjourney 画的汽车拿出来对比，就会意识到这是多么疯狂的进化速度了：

上面三个是去年八月用 v3 画的车；

下面这些是昨晚用 v5 画的车：

虽然工业设计有大量的细化和落地工作是 AI 无法干的，但从目前来看，无论是 midjourney 还是 Stable Diffusion + controlNET 都已经可以很好地帮助设计师完成概念发散和快速枚举了。这样的图像质量，通过垫图、remix 和 blend 的组合使用，完全可以在创意初期快速拉出一批高质量的「草图」，设计师可以把更多的精力放在对方案思路的推敲、对细节的考据以及各个环节的沟通协调上。

从今年二三月开始到往后的十一二年，人类社会将迎来一场以破坏为开端的变革和创新。

无论我们是否愿意，都将一起进入新的世界。

女神雕像｜Midjourney V6 Alpha 不锈钢材质测试

SUiTHiNK

Steven

3 January 2024 at 00:02

之前测试了 Midjourney V6 在石膏、大理石、黄金材质下的表现，出品非常好，并且品质表现很稳定。今天忽然想测试一下，同样的题材在不锈钢材质下的表现如何。

因为上述三种材质的漫反射对形态的干扰很小，AI 的训练素材应该也大部分是以这类非镜面材质的图库为主，所以我猜测，同样的雕像在抛光/镜面不锈钢下的表现，很可能会因为镜面反射对形态的干扰，产生许多错误。

以下实测例图，均可点击查看原始尺寸高清大图。

Prompt Bust photo, polished stainless steel goddess sculpture, real feathered wings, black rock, magma and flame, dark clouds –ar 3:4 –style raw –v 6

可以看到，镜面不锈钢材质在没有手部参与的情况下，表现非常出色。形态、比例与动态都在镜面材质下，显得更为出色，细节的呈现也非常舒服。

Prompt A statue of the goddess made of polished stainless steel, with huge white feathered wings, surrounded by obsidian, with lava flowing, violent flames, and clouds of darkness –ar 3:4 –style raw –stylize 50 –v 6

这一组我着实测试了很多轮，才终于能挑选出这两张还看得过去的成品。期间最容易出现问题的点有：

1、手的比例和手指的形态、数量；

2、画面未完整呈现 prompt 所制定的内容；

3、不锈钢、羽毛、岩浆、火焰四种材质的不恰当混合。

我感觉目前的  V6 Alpha 虽然在光影关系和质感的表达上非常强，但在较复杂的 prompt 的情况下，非常容易出现不合适的混合。

Prompt Mirrored Stainless Steel, Goddess Statue, White Feathers, Obsidian, Lava –ar 2:3 –style raw –v 6

这一组实例中，明显可以看到   MJ 对于 Mirrored Stainless Steel 这个关键词的错误执行。虽然质感的表现非常好，但它根本不是镜面不锈钢。同时，岩浆、黑曜石这些关键词也几乎没有呈现，仅有部份反光似乎呈现出了对「Lava」一词的反馈。从最终结果来看，质感的表达是明显跑题了。

Prompt Mirrored Stainless Steel, Goddess Statue, Above the Waist, Red Feathers, Obsidian, Magma –ar 2:3 –style raw –v 6

当我把其中「白色羽毛」的描述，修改成「红色羽毛」后，可见材质之间的干扰就几乎消失了。大概是镜面材质中高光的部份容易和白色材质产生混淆，所以在颜色明显有区分的描述下，不锈钢的质感表达就非常舒服了。

这一点猜测，在最后一组失误实例中，可见到更离谱的跑题。

Prompt Mirrored Stainless Steel, Goddess Statue, White Feathers, Obsidian, Lava –ar 2:3 –style raw –v 6

这一组和上上组的 prompt 是完全一样的，区别有：

1、选择方案发散路径时，选择了有躯体的版本，有起伏的形态更有利于表达镜面材质；

2、更大面积的曲面形态，似乎会有更少的概率出现材质跑题的情况。

我不确定以上猜测的概率，但在实际测试中的感受就是：

如果人物以全身、半身的形态来呈现，那么镜面不锈钢的表达错误非常少见；但如果选择只有脸部特写的方案深入，材质跑偏的概率明显更大。

Prompt Mirrored stainless steel, close-up of goddess’s hand, white feathers –ar 3:4 –style raw –v 6

同时，因为以上的所有测试中，手的比例和手指的形态、数量一直都在出问题，所以我单独对「手」做了几轮测试。在高反射材质描述下，「手」出问题的概率非常非常大。必须一轮一轮地精挑细选，在看着还行的方案上一次次地 Vary 才能偶遇到一两个，看着没什么大毛病的「手」。

同时，因为高反射的干扰，高光和白色很容易让不锈钢材质呈现出磨砂质感。

Prompt Polished stainless steel bust of a goddess with white feathered wings, black rocks, lava, flames, dark clouds –chaos 21 –ar 3:4 –v 6

这就是上文说到的跑题千里的材质表达。

同是 Polished stainless steel 这个词，但无论是躯体还是面部，都完全没有 Polish 的意思。整体观感更像是光滑的石头，它的质感表达完全被白色羽毛给搞混了。但同时，羽毛也呈现出石雕的质感，完全不是羽毛的质感，和上面几组实例的羽毛完全不是一类表现。

本轮测试总计生成了 659 份方案，筛选出以上 19 张我认为可以的成品图。

在我看来，这个比例过于低了。

希望在     V6 的正式版本中，能优化这方面算法。