镜头的变幻就是故事｜Midjourney V5.2 Zoomout 测试

By: Steven

26 June 2023 at 00:18

最近一直都非常忙，所以连续 20 来天都没有碰过 Midjourney 了。前两天在社交媒体上看到，新推出的 V5.2 中有一个向外扩写的功能，因为此前已经在 PS+SD 的组合中见过这类拓展画面的应用思路，所以很想看看 MJ 的 Zoomout 能做出什么样的东西来。趁着端午假期这个空档，我集中跑了几波测试，有一些小小的心得，在此记录一下。

总体结论有三个：

1、Zoomout 可以无限次数地向外扩展，但随着镜头的拉远，Midjourney 自身的联想能力并不足以做出任何有意思的画面，不刻意控制地放大出来的画面，到了第 3～5 步之后，就会明显变得乏味和缺乏美感。

2、通过刻意地控制画幅比例、扩张倍数，以及针对性地调整 prompt 的描述，可以利用这个功能讲出有意思的故事。关键在于，使用者对于「镜头语言」的理解，以及对运镜和故事之间联系的掌控程度。

3、对工业设计的辅助甚微，做点「花活儿」可以，一旦涉及到逻辑，依旧不行。

测试内容目录：

1、通过默认的 Zoomout X2 按钮连续放大 3 次

2、通过默认的 Zoomout X2 按钮连续放大 15 次

3、通过自定义 Zoomout 微调构图

4、通过自定义 Zoomout 构建人物画像

5、通过自定义 Zoomout 构建人物性格

6、通过自定义 Zoomout 完善场景氛围

7、在 niji 中应用自定义 Zoomout 构建人物和场景

8、自定义 Zoomout 构建情绪与故事

9、通过焦点变化构建故事的场景

10、通过镜头变化，构建故事的起承转合

以下为部分测试过程记录：

test case no.1：通过默认的 Zoomout X2 按钮连续放大 3 次

点击以全屏查看图片 Click to view the image in full screen

操作方式：连续 3 次放大图像两倍，不对 prompt 进行修改，也不对画幅做设置。

输出成果：在奔跑的场景中增加了后方的人，有一点点故事性，但继续放大后会明显失焦，花面焦点始终在最开始的小女孩身上，继续放大生成的场景和人物都是模糊的。

test case no.2：通过默认的 Zoomout X2 按钮连续放大 15 次

点击以全屏查看图片 Click to view the image in full screen

操作方式：连续 15 次放大图像两倍，不对 prompt 进行修改，也不对画幅做设置。

输出成果：外围拓展的场景越宏大，有效信息和故事性就越低，除了在阴影中无意间冒出的人影，没有任何惊喜和意料之外，拓展的画面也很单调乏味。

test case no.3：通过自定义 Zoomout 微调构图

点击以全屏查看图片 Click to view the image in full screen

操作方式：不对 prompt 进行修改，按 1.1 和 1.2 的拓展比例小幅度调整画幅。

输出成果：初始图像是近景特写，根据图像本身的特点，对画幅进行小幅度地微调来获得完整的全景镜头，以及合适的构图比例。

test case no.4：通过自定义 Zoomout 构建人物画像

点击以全屏查看图片 Click to view the image in full screen

操作方式：先生成一个黄色漩涡图案，然后拓展时改写 prompt 为一只眼睛，进而生成一个带特征的面部局部画面，再次拓展时修改描述词为一个洞穴中的原始部落男性。

输出成果：成功构建了一个有目标特征「黄色漩涡瞳孔」的男性角色，通过控制拓展比例以达到最终效果—-人物整体和局部特征均得以完整呈现的画面。

test case no.5：通过自定义 Zoomout 构建人物性格

点击以全屏查看图片 Click to view the image in full screen

操作方式：先生成一个红色皮夹克的女性胸像，再改写 prompt 获得其坐在摩托车上的局部画面，再改写画幅比例获得完整的人物与车辆的全景照。

输出成果：成功构建了一个有目标特征「红色皮衣+摩托车」的女性角色，通过控制拓展比例以达到最终效果—-人物细节和整体氛均衡的画面。

test case no.6：通过自定义 Zoomout 完善场景氛围

点击以全屏查看图片 Click to view the image in full screen

操作方式：在初次生成的几批图像中，选择合适的画风和画面主体，再根据已有画面特征修改画幅比例。

输出成果：在选定风格和主体后，将竖幅主体拓展为气势更足的全景影像。关键是拓展比例并非默认的 2 倍或 1.5 倍，而是根据实际需求来控制比例，同时也需要关注怎样的画幅比例可以传达对应的氛围。最终图像画幅比例是 3:1，适合展现有足够细节的宽幅场景。

test case no.7：在 niji 中应用自定义 Zoomout 构建人物和场景

点击以全屏查看图片 Click to view the image in full screen

操作方式：

step 1、使用 niji 5 的 style original 生成一个细节丰富的初始人物；

step 2、以 1.2 的 Zoomout 比例纵向拓展出人物的半身画像，画幅比例是 1:2；

step 3、以 1.1 的 Zoomout 比例和 2:1 的画幅比例重构画面，得到外围场景；

step 4、以 1.2 的 Zoomout 比例和 3:4 的画幅比例重构画面，生成人物全身像；

step 5、改写 prompt 添加「宫殿」关键词，以 1.65 的 Zoomout 比例和 3:2 的画幅比例重构画面，生成人物在场景中的全景画面。

输出成果：虽然人物细节和场景氛围的融合程度还不错，但因为漫画角色的细节较多，在多次 Zoomout 的过程中，场景的丰富会逐渐抢掉中心人物的视觉焦点。因此在每一次修改画幅比例与关键词的时候，需要多加注意对视觉元素的控制。

test case no.8：自定义 Zoomout 构建情绪与故事

点击以全屏查看图片 Click to view the image in full screen

操作方式：

step 1、生成一个情绪和神情符合目标的初始人物；

step 2、改写 prompt 同时添加「马」关键词，以 2 的 Zoomout 比例和 3:4 的画幅比例重构画面，生成后续画面的基础，此时需要注意人物与马的位置关系，否则后续生成的画面会非常扭曲怪异；

step 3、以 1.05 的 Zoomout 比例和 2:1 的画幅比例重构画面，生成完整的马匹造型与部份环境信息；

step 4、对比改写 prompt 产生的变化，黑发组不改描述词，以 1.1 的 Zoomout 比例和 3:4 的画幅比例重构画面；白发组添加「巨大镜子」关键词，以 1.6 的 Zoomout 比例和 3:4 的画幅比例重构画面。

输出成果：通过控制 Zoomout 的幅度、画幅比例和 prompt 的调整，可以生成指定场景的画面，且人物的神态到位、情绪饱满，整体画面焦点清晰。但美中不足是，构图不够自由。

test case no.9：通过焦点变化构建故事的场景

点击以全屏查看图片 Click to view the image in full screen

操作方式：

step 1、生成一个在河岸上的粽子；

step 2、修改 prompt 为「熊宝宝正准备吃粽子」，以 2 的 Zoomout 比例和 3:4 的画幅比例重构画面；

step 3、修改 prompt 为「小熊一家在野餐」，以 1.2 的 Zoomout 比例和 4:3 的画幅比例重构画面。

输出成果：通过对 prompt 的修改，控制 Zoomout 的幅度、画幅比例，可以改变画面中的焦点和表达主题，适合不同文化元素之间的混搭。

test case no.10：通过镜头变化，构建故事的起承转合

点击以全屏查看图片 Click to view the image in full screen

操作方式：

step 1、生成一幅鲜花山谷的画面，人物要明显；

step 2、修改 prompt 为「一面巨大的镜子在草地上」，以 2 的 Zoomout 比例和 3:4 的画幅比例重构画面，此处竖构图是为了生成较高的全身落地镜；

step 3、修改 prompt 为「少女站在镜子前」，以 1.5 的 Zoomout 比例和 3:2 的画幅比例重构画面，改为横构图是为了囊括少女全身以及环境信息。

输出成果：通过改变画面中的焦点和增加元素，在镜头逐渐拉远的过程中，故事缓缓托出。

阅读更多 AIGC 相关内容

我的整体感受是：

通过 Midjourney V5.2 的 Zoomout 无限拓展，一次次修改画幅比例、提示词内容，可以用镜头语言的变化来讲故事了，也可以基于一些初始的「点子」延展成有意思的融合作品。但越是这样，越发显得对话式、指令式的交互界面（ SD 那种也不算图形交互）的局限太大了，我很希望今年之内能发展出图形交互界面。

没错，今年 AI 的爆发指向了一个新的趋势：对话式交互界面。但人类之所以发明绘画，开始通过设计图来制作各式各样的新工具，恰恰就是因为语言本身的效率太低。这个逻辑其实也可以从媒体形态上找到端倪：文字–> 图像–> 视频。仅仅依靠对话，我们无法构建出一个一把剪刀；仅仅通过语言表达的播客，也无法传达任何需要视觉才可以精准理解的信息。对话指令的交互界面与图形交互界面之间的关系，并非只是 dos 和 windows 之间的差异，更重要的点在于，后者可以更直观地完成交互，以及精准地进行创作行为。AIGC 的重点不仅仅只是 AI，而是我们如何使用 AI 进行「Generative Content」。

我说一句话，AI 给我一个东西，这不是创作。

创作是一个生命在主观意志的驱使下，刻意的、有目的地表达其心中所想。

因为 GPT 的爆发而说对话式交互是未来，这样的断言是过于冲动的。只要是一个严肃的创作者，就会立刻意识到，真正的创作一定需要多纬度的交互界面。这其中不仅仅包含对话指令，同样更需要图形界面以及在数字虚拟空间中的三维交互。AIGC 工具与 PS、表格、PPT、思维导图等已有工具的结合，就是这类多维交互的雏形。

那一刻，我们不会等太久。

阅读更多 AIGC 相关内容

Ai 绘画将从何处开始进入日常生活？

SUiTHiNK

By: Steven

10 January 2023 at 21:30

最近几个月 Ai 绘画这个话题很火，但基本上大家都只是看个热闹，跟普通人的生活没多大关系。或者说，大家感觉不到它和自己有什么关系。只有相关从业者，感受到了巨大的生存压力和身份危机。

但和当年支付大战的春晚红包类似，能让普通人都参与进来、玩起来的场景可能才能让大家感受到：Ai 绘画意味着什么，能做什么。

尽管众多以文生图的 Ai 工具已经大幅度降低了创作门槛，但是在那之前，各种咒术、法门终究是拦住不少普通人接触 Ai 绘画的一块巨石。我自己也曾在用过某些 Ai 工具后，在一条展示初次接触的创作成果的视频里提醒大家，不要忽视它，但也不要过分害怕它。它一定会给我们的生活带来巨大的变化，只是目前还没积累到那一刻，仅此而已。

如果说有什么场景，类似发红包那样简单明了，人人都可以参与，我觉得有一个非常合适的应用场景，那就是用 Ai 生成定制头像。对于不具备绘画能力、不懂念咒语、不会使用绘图软件的大多数人而言，Ai 画头像就是各类修图美容软件一级的场景，既有尝新和娱乐，也有充分的社交属性，和红包非常相似。

最近试用了一下漫镜，一个感觉是，神情抓得不错，风格也足够多，用它来探索自己不同造型的可能性，还是挺有启发的！因此中途我想到一件事，如果这类产品的效率再高一些，跟各大连锁发型屋合作，预约时就上传几张照片，生成几套发型方案，人到了现场就让托尼老师根据效果图来剪，这不是非常好的体验升级么？谁说 Ai 必然逼得人失业呢？还得是看人怎么用。

除了头像，你觉得还有哪些场景，适合普通人体验 Ai 绘画呢？

十二生肖 · Midjourney · 戏剧角色设计

SUiTHiNK

By: Steven

4 February 2024 at 20:37

在网上看过很多人用 AI 画十二生肖主题的系列画，但大多数我都觉得太套路了，要么只是生成一只动物，要么是套上一些所谓的古风服装，强行「国风」一把。我觉得，既然工具本身已经有很强的生成能力了，那么，创作者就应该更多地表达观念。没有观念的全自动生成出来的东西，再好看，也是大同小异、千篇一律。这种现象，最典型的就是那些长着网红脸的 AI 美女图。好看，但无味，因为缺少人味儿。

人味儿来自什么？最重要的两个点是：有缺陷，有观念

缺陷是因为人的不完美，不能样样都要，那么就得有取舍，而取舍的依据是什么呢？那就是观念。观念和审美，本质上是我们经年累月的经历中，所积累下来的看待世界的偏见。这里说的「偏见」不是贬义词，而是在说，人无法客观，而观念与审美就是在主观中沉淀下来一系列判断依据。我们就是用这样的依据来取舍，这些选择就形成了创作的结果。

即便是回溯到人类此前的所有历史中，艺术家们的创作，也是基于自己的「偏见」来选择创作的工具、技艺、载体和题材的。没有偏见，就没有作品。

因此，我想尝试创作一套有「戏剧感」的十二生肖。

戏剧感，一方面来自这些生肖不能只是动物，或者套了动物头套的人，而是得有个性与故事的角色，角色的人物小传可以从它们的神情、服饰、妆容等呈现出来；另一方面，需要一定的冲突感，这里说的不是观念不同的冲突，而是来自文化和故事背景中，衍生出来的角色的生命力，它会把你带入到某种场景里，它们的妆容和服饰或许不是那么常规、习以为常的文化惯性中的表达，但它们在场景和故事中，是合理的。

以下就是我的创作尝试：

如果你喜欢，可以自行下载原图。

如果你要转载，或者二次创作，请附上这篇 blog 的链接：suithink.me/?p=11457

我大致分享一下，这十二个角色的构思吧。

【鼠牛虎】这一组，是想把【生肖】与【西服】做一个融合，但我希望它们有更多的变化和区别，就分别在色彩、气质上做一些差异化描述。最后出来的三个角色，能感觉到是来自同一出剧的人物，饱受欺凌的鼠，正直优雅的牛、权势凌人的虎，故事就由此可以展开了。

【兔】通常是软弱和被欺负的对象。我希望创作一只勇敢、独立的兔小姐，于是让她走在一个昏暗的街道里，身着红色皮夹克，眼神坚定地朝着镜头。在很多文化意象中，兔子、皮衣和地下文化的组合，是谄媚的，是挑逗的，或者是色情和暴力的。但我不希望是这样，我想她可以是地下世界的英雄。她是这个系列中的第一位女性角色。

【龙】在中国的文化里，高高在上的霸权。于是我想，首先在颜色上我就不要那种红黄黑的东西，我不要皇权和武力的表达，我要它是个君子。作为君子的龙，需要同时具备威严和素雅。威严在于其妆容造型和气质眼神，素雅在于整体的色彩倾向和服饰风格。所以，这头金龙虽然相貌霸气，但眼神柔和坚定，白发之下是金线白袍，不怒自威。

【蛇】是邪恶的，多数文化中，它们都是这样的形象。这是第二位女性，我希望赋予她高雅的气质，和中立的角色身份。她在诸国纷争中，不倾向任何一方。但保持中立，需要的不仅仅是态度，也需要武力和经济。所以，她应该是一位既有贵气又有智慧的女性领主。在她紫色的服饰之中，使用了羽毛的元素，与蛇类那种光滑、阴暗的视觉元素做一点调和。

【马羊猴】这一组是相对现代的角色。【马】通常是黑色或褐色的，虽然也有白马，但在印象中，说起马就是黑色的动物。所以我想给她穿一身干练的白色风衣，即符合马这种动物在人类文化中的形象，又能在色彩搭配上突出她的质感。值得一提的是，我选择了一个侧面的视角，因为马的轮廓，侧面是最美的；并且，我在 prompt 中加入了长辫的描述，黑色布料的造型很妙，因此这个角色是目前没在网上出现过的全新的马人形象。她也是这组当中的第三位女性。【羊】的种类实在是多，不同种类的羊，出来的气质也都不太一样。经过不同的组合尝试，我最终选择了 Goat 这种羊。我想要一个有点脾气和痞气的大叔，他平时就坐在街道头的店铺门外，跟老板聊天，街上一旦出了什么事情，他一定会出手。因此，他的皮衣和眼镜都是有点讲究的。不过你看得出来，他并不是那种有钱人，他的讲究是一种对待自我的态度。

【猴】很特别，一方面是猴的种类也很多，另一方面是，猴子在绝大多数文化中都是活泼闹腾的男性形象。我非要她是女性，但她不会是个乖训的家伙。最后我之所以觉得，滇金丝猴是一个很合适的选择，在于它的毛色和毛发的形态，橙色到白色的过度让角色有一种温和的基调，但向外肆意张开的样子又很有流浪不羁的气质。服饰上我选了裙子和围巾。但在色彩上我动了一点心思，暖色系的猴和皮衣加长裙，得有一些色彩上的对冲，来建立她的个性和态度。因此，围巾是绿色的，也有相当的体量感。

【鸡狗猪】中的【鸡】是在【骄傲大公鸡】的基础上的进一步表达。首先，鸡的种类很多，但白色羽毛的，通常是 white Plymouth Rock。为了增加戏剧冲突，我希望他穿着镶满了珠宝的绿色三件套西装。神气，就是要神气！【狗】就更多种类了，我最开始也尝试了不同的品种，因为拿不准什么样的形象是更合适的。后来我意识到，不同的狗，它们自身的气质差别就很大，所以不存在一种狗能表达狗这件事。于是，重点就变成了，我想要表达什么，那就选择什么狗。我希望这是第五位女性。恰好，筱烨以前的 Daisy 就是一只金毛，一个可爱热情受街坊邻里欢迎的小女孩。那就金毛寻回犬吧！在这个设定的基础上，我增加了双麻花辫和白色校服的描述，最后就有了这个金毛小女孩。

最后的【猪】我有两个想法，一个是十二生肖中男女比例对半开，所以我希望她是女生；另一个是，我想她可以非现实一些。前面的十一位都是比较写实的感觉，但写实的猪，和女性结合，在观感上，很容易让人产品某些厌女、性别对立的联想。我不希望这位可爱的女性角色被贬损。于是，我给她增加了金色皮毛质感的设定，穿上温暖的粉红色外套，带着白围巾站在雪地里。这是一位温柔的女性，但她的防风镜会告诉你，她可不是傻白甜，在雪天的山里行走，缺少她的交通工具，哪怕是楼上的虎先生，也寸步难行。温柔也是有力量的。

下载高清原图：鼠牛虎兔龙蛇马羊猴鸡狗猪

2025 款五菱星跃 Safari EV 四驱四座

SUiTHiNK

By: Steven

16 November 2023 at 21:36

这是一个玩笑。

这其实是我使用 Midjourney 画的一款概念车。初始的构思是，一款小型电动越野车，比一般的 K-Car 稍微大一些，但得有越野车的强壮感，同时要贴合当代审美的流畅线条。

为了测试大家对它的反应，我把五菱的标志合成到了我最终在 MJ 上输出的图上，并虚构了这个型号，没有任何多余解释，直接发出来。我会观察一阵子，看看会发生什么。

在这张图里，我所使用的描述词：

正在行驶在路上的四轮微型车，小巧的车身，简洁和硬朗的造型，硬朗和锋利的车灯造型，黄色车身，光洁的表面，流畅的曲线，越野设计风格，背景是黑色的玄武岩山脉，3D模型，虚幻引擎渲染

prompt：

Four-wheeled miniature car driving on the road, compact body, clean and hard styling, hard and sharp lamps styling, yellow body, glossy surfaces, smooth curves, off-road design style, black basalt mountain range in the background, 3D model, Unreal engine rendering

用 MJ 画一辆车非常简单，但想要看上去能骗到人，还是得在细节上多做调整。所以我除了调整描述词外，最主要的尝试，是不断用 Vary(Region) 这个功能来调整局部，以使其达到我想要的效果。包括但不限于车身轮廓、车灯造型、C柱与尾部的衔接、防护栏造型与车身的衔接、轮毂、远山等。

同时也保留了一些 bug，来确保有人可以发现其非真实性，例如被我抹掉的 A 柱和门把手，被抹掉的前舱盖的缝之类的。

以下是未经处理的大尺寸原图：

你可以拿去玩，把你喜欢的或你认为适合的品牌标识合成上去，拿到任何地方发表，不需要经过我同意。祝你玩得开心！

Normal view