Normal view

There are new articles available, click to refresh the page.
Before yesterdayMain stream

镜头的变幻就是故事|Midjourney V5.2 Zoomout 测试

By: Steven
26 June 2023 at 00:18

➡阅读更多 AIGC 相关内容

最近一直都非常忙,所以连续 20 来天都没有碰过 Midjourney 了。前两天在社交媒体上看到,新推出的 V5.2 中有一个向外扩写的功能,因为此前已经在 PS+SD 的组合中见过这类拓展画面的应用思路,所以很想看看 MJ 的 Zoomout 能做出什么样的东西来。趁着端午假期这个空档,我集中跑了几波测试,有一些小小的心得,在此记录一下。

总体结论有三个:

1、Zoomout 可以无限次数地向外扩展,但随着镜头的拉远,Midjourney 自身的联想能力并不足以做出任何有意思的画面,不刻意控制地放大出来的画面,到了第 3~5 步之后,就会明显变得乏味和缺乏美感。

2、通过刻意地控制画幅比例、扩张倍数,以及针对性地调整 prompt 的描述,可以利用这个功能讲出有意思的故事。关键在于,使用者对于「镜头语言」的理解,以及对运镜和故事之间联系的掌控程度。

3、对工业设计的辅助甚微,做点「花活儿」可以,一旦涉及到逻辑,依旧不行。

Zoomout 功能的主交互界面

测试内容目录:

1、通过默认的 Zoomout X2 按钮连续放大 3 次

2、通过默认的 Zoomout X2 按钮连续放大 15 次

3、通过自定义 Zoomout 微调构图

4、通过自定义 Zoomout 构建人物画像

5、通过自定义 Zoomout 构建人物性格

6、通过自定义 Zoomout 完善场景氛围

7、在 niji 中应用自定义 Zoomout 构建人物和场景

8、自定义 Zoomout 构建情绪与故事

9、通过焦点变化构建故事的场景

10、通过镜头变化,构建故事的起承转合

以下为部分测试过程记录:

test case no.1:通过默认的 Zoomout X2 按钮连续放大 3 次

⬆ 点击以全屏查看图片 Click to view the image in full screen

操作方式:连续 3 次放大图像两倍,不对 prompt 进行修改,也不对画幅做设置。

输出成果:在奔跑的场景中增加了后方的人,有一点点故事性,但继续放大后会明显失焦,花面焦点始终在最开始的小女孩身上,继续放大生成的场景和人物都是模糊的。

test case no.2:通过默认的 Zoomout X2 按钮连续放大 15 次

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:连续 15 次放大图像两倍,不对 prompt 进行修改,也不对画幅做设置。

输出成果:外围拓展的场景越宏大,有效信息和故事性就越低,除了在阴影中无意间冒出的人影,没有任何惊喜和意料之外,拓展的画面也很单调乏味。

test case no.3:通过自定义 Zoomout 微调构图

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:不对 prompt 进行修改,按 1.1 和 1.2 的拓展比例小幅度调整画幅。

输出成果: 初始图像是近景特写,根据图像本身的特点,对画幅进行小幅度地微调来获得完整的全景镜头,以及合适的构图比例。

test case no.4:通过自定义 Zoomout 构建人物画像

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:先生成一个黄色漩涡图案,然后拓展时改写 prompt 为一只眼睛,进而生成一个带特征的面部局部画面,再次拓展时修改描述词为一个洞穴中的原始部落男性。

输出成果: 成功构建了一个有目标特征「黄色漩涡瞳孔」的男性角色,通过控制拓展比例以达到最终效果—-人物整体和局部特征均得以完整呈现的画面。

test case no.5:通过自定义 Zoomout 构建人物性格

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:先生成一个红色皮夹克的女性胸像,再改写 prompt 获得其坐在摩托车上的局部画面,再改写画幅比例获得完整的人物与车辆的全景照。

输出成果: 成功构建了一个有目标特征「红色皮衣+摩托车」的女性角色,通过控制拓展比例以达到最终效果—-人物细节和整体氛均衡的画面。

test case no.6:通过自定义 Zoomout 完善场景氛围

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:在初次生成的几批图像中,选择合适的画风和画面主体,再根据已有画面特征修改画幅比例。

输出成果: 在选定风格和主体后,将竖幅主体拓展为气势更足的全景影像。关键是拓展比例并非默认的 2 倍或 1.5 倍,而是根据实际需求来控制比例,同时也需要关注怎样的画幅比例可以传达对应的氛围。最终图像画幅比例是 3:1,适合展现有足够细节的宽幅场景。

test case no.7:在 niji 中应用自定义 Zoomout 构建人物和场景

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:

step 1、使用 niji 5 的 style original 生成一个细节丰富的初始人物;

step 2、以 1.2 的 Zoomout 比例纵向拓展出人物的半身画像,画幅比例是 1:2;

step 3、以 1.1 的 Zoomout 比例和 2:1 的画幅比例重构画面,得到外围场景;

step 4、以 1.2 的 Zoomout 比例和 3:4 的画幅比例重构画面,生成人物全身像;

step 5、改写 prompt 添加「宫殿」关键词,以 1.65 的 Zoomout 比例和 3:2 的画幅比例重构画面,生成人物在场景中的全景画面。

输出成果: 虽然人物细节和场景氛围的融合程度还不错,但因为漫画角色的细节较多,在多次 Zoomout 的过程中,场景的丰富会逐渐抢掉中心人物的视觉焦点。因此在每一次修改画幅比例与关键词的时候,需要多加注意对视觉元素的控制。

test case no.8:自定义 Zoomout 构建情绪与故事

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:

step 1、生成一个情绪和神情符合目标的初始人物;

step 2、改写 prompt 同时添加「马」关键词,以 2 的 Zoomout 比例和 3:4 的画幅比例重构画面,生成后续画面的基础,此时需要注意人物与马的位置关系,否则后续生成的画面会非常扭曲怪异;

step 3、以 1.05 的 Zoomout 比例和 2:1 的画幅比例重构画面,生成完整的马匹造型与部份环境信息;

step 4、对比改写 prompt 产生的变化,黑发组不改描述词,以 1.1 的 Zoomout 比例和 3:4 的画幅比例重构画面;白发组添加「巨大镜子」关键词,以 1.6 的 Zoomout 比例和 3:4 的画幅比例重构画面。

输出成果:通过控制 Zoomout 的幅度、画幅比例和 prompt 的调整,可以生成指定场景的画面,且人物的神态到位、情绪饱满,整体画面焦点清晰。但美中不足是,构图不够自由。

test case no.9:通过焦点变化构建故事的场景

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:

step 1、生成一个在河岸上的粽子;

step 2、修改 prompt 为「熊宝宝正准备吃粽子」,以 2 的 Zoomout 比例和 3:4 的画幅比例重构画面;

step 3、修改 prompt 为「小熊一家在野餐」,以 1.2 的 Zoomout 比例和 4:3 的画幅比例重构画面。

输出成果:通过对 prompt 的修改,控制 Zoomout 的幅度、画幅比例,可以改变画面中的焦点和表达主题,适合不同文化元素之间的混搭。

test case no.10:通过镜头变化,构建故事的起承转合

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:

step 1、生成一幅鲜花山谷的画面,人物要明显;

step 2、修改 prompt 为「一面巨大的镜子在草地上」,以 2 的 Zoomout 比例和 3:4 的画幅比例重构画面,此处竖构图是为了生成较高的全身落地镜;

step 3、修改 prompt 为「少女站在镜子前」,以 1.5 的 Zoomout 比例和 3:2 的画幅比例重构画面,改为横构图是为了囊括少女全身以及环境信息。

输出成果:通过改变画面中的焦点和增加元素,在镜头逐渐拉远的过程中,故事缓缓托出。

➡阅读更多 AIGC 相关内容


我的整体感受是:

通过 Midjourney V5.2 的 Zoomout 无限拓展,一次次修改画幅比例、提示词内容,可以用镜头语言的变化来讲故事了,也可以基于一些初始的「点子」延展成有意思的融合作品。但越是这样,越发显得对话式、指令式的交互界面( SD 那种也不算图形交互 )的局限太大了,我很希望今年之内能发展出图形交互界面。

没错,今年 AI 的爆发指向了一个新的趋势:对话式交互界面。但人类之所以发明绘画,开始通过设计图来制作各式各样的新工具,恰恰就是因为语言本身的效率太低。这个逻辑其实也可以从媒体形态上找到端倪:文字–> 图像–> 视频。仅仅依靠对话,我们无法构建出一个一把剪刀;仅仅通过语言表达的播客,也无法传达任何需要视觉才可以精准理解的信息。对话指令的交互界面与图形交互界面之间的关系,并非只是 dos 和 windows 之间的差异,更重要的点在于,后者可以更直观地完成交互,以及精准地进行创作行为。AIGC 的重点不仅仅只是 AI,而是我们如何使用 AI 进行「Generative Content」。

我说一句话,AI 给我一个东西,这不是创作。

创作是一个生命在主观意志的驱使下,刻意的、有目的地表达其心中所想。

因为 GPT 的爆发而说对话式交互是未来,这样的断言是过于冲动的。只要是一个严肃的创作者,就会立刻意识到,真正的创作一定需要多纬度的交互界面。这其中不仅仅包含对话指令,同样更需要图形界面以及在数字虚拟空间中的三维交互。AIGC 工具与 PS、表格、PPT、思维导图等已有工具的结合,就是这类多维交互的雏形。

那一刻,我们不会等太久。

➡阅读更多 AIGC 相关内容

Ai 绘画将从何处开始进入日常生活?

By: Steven
10 January 2023 at 21:30

最近几个月 Ai 绘画这个话题很火,但基本上大家都只是看个热闹,跟普通人的生活没多大关系。或者说,大家感觉不到它和自己有什么关系。只有相关从业者,感受到了巨大的生存压力和身份危机。

但和当年支付大战的春晚红包类似,能让普通人都参与进来、玩起来的场景可能才能让大家感受到:Ai 绘画意味着什么,能做什么。

尽管众多以文生图的 Ai 工具已经大幅度降低了创作门槛,但是在那之前,各种咒术、法门终究是拦住不少普通人接触 Ai 绘画的一块巨石。我自己也曾在用过某些 Ai 工具后,在一条展示初次接触的创作成果的视频里提醒大家,不要忽视它,但也不要过分害怕它。它一定会给我们的生活带来巨大的变化,只是目前还没积累到那一刻,仅此而已。

如果说有什么场景,类似发红包那样简单明了,人人都可以参与,我觉得有一个非常合适的应用场景,那就是用 Ai 生成定制头像。对于不具备绘画能力、不懂念咒语、不会使用绘图软件的大多数人而言,Ai 画头像就是各类修图美容软件一级的场景,既有尝新和娱乐,也有充分的社交属性,和红包非常相似。

最近试用了一下漫镜,一个感觉是,神情抓得不错,风格也足够多,用它来探索自己不同造型的可能性,还是挺有启发的!因此中途我想到一件事,如果这类产品的效率再高一些,跟各大连锁发型屋合作,预约时就上传几张照片,生成几套发型方案,人到了现场就让托尼老师根据效果图来剪,这不是非常好的体验升级么?谁说 Ai 必然逼得人失业呢?还得是看人怎么用。

除了头像,你觉得还有哪些场景,适合普通人体验 Ai 绘画呢?

点解图片体验 AI 制作头像

十二生肖 · Midjourney · 戏剧角色设计

By: Steven
4 February 2024 at 20:37

在网上看过很多人用 AI 画十二生肖主题的系列画,但大多数我都觉得太套路了,要么只是生成一只动物,要么是套上一些所谓的古风服装,强行「国风」一把。我觉得,既然工具本身已经有很强的生成能力了,那么,创作者就应该更多地表达观念。没有观念的全自动生成出来的东西,再好看,也是大同小异、千篇一律。这种现象,最典型的就是那些长着网红脸的 AI 美女图。好看,但无味,因为缺少人味儿。

人味儿来自什么?最重要的两个点是:有缺陷,有观念

缺陷是因为人的不完美,不能样样都要,那么就得有取舍,而取舍的依据是什么呢?那就是观念。观念和审美,本质上是我们经年累月的经历中,所积累下来的看待世界的偏见。这里说的「偏见」不是贬义词,而是在说,人无法客观,而观念与审美就是在主观中沉淀下来一系列判断依据。我们就是用这样的依据来取舍,这些选择就形成了创作的结果。

即便是回溯到人类此前的所有历史中,艺术家们的创作,也是基于自己的「偏见」来选择创作的工具、技艺、载体和题材的。没有偏见,就没有作品。

因此,我想尝试创作一套有「戏剧感」的十二生肖。

戏剧感,一方面来自这些生肖不能只是动物,或者套了动物头套的人,而是得有个性与故事的角色,角色的人物小传可以从它们的神情、服饰、妆容等呈现出来;另一方面,需要一定的冲突感,这里说的不是观念不同的冲突,而是来自文化和故事背景中,衍生出来的角色的生命力,它会把你带入到某种场景里,它们的妆容和服饰或许不是那么常规、习以为常的文化惯性中的表达,但它们在场景和故事中,是合理的。

以下就是我的创作尝试:

如果你喜欢,可以自行下载原图。

如果你要转载,或者二次创作,请附上这篇 blog 的链接:suithink.me/?p=11457

我大致分享一下,这十二个角色的构思吧。

【鼠牛虎】这一组,是想把【生肖】与【西服】做一个融合,但我希望它们有更多的变化和区别,就分别在色彩、气质上做一些差异化描述。最后出来的三个角色,能感觉到是来自同一出剧的人物,饱受欺凌的鼠,正直优雅的牛、权势凌人的虎,故事就由此可以展开了。

【兔】通常是软弱和被欺负的对象。我希望创作一只勇敢、独立的兔小姐,于是让她走在一个昏暗的街道里,身着红色皮夹克,眼神坚定地朝着镜头。在很多文化意象中,兔子、皮衣和地下文化的组合,是谄媚的,是挑逗的,或者是色情和暴力的。但我不希望是这样,我想她可以是地下世界的英雄。她是这个系列中的第一位女性角色。

【龙】在中国的文化里,高高在上的霸权。于是我想,首先在颜色上我就不要那种红黄黑的东西,我不要皇权和武力的表达,我要它是个君子。作为君子的龙,需要同时具备威严和素雅。威严在于其妆容造型和气质眼神,素雅在于整体的色彩倾向和服饰风格。所以,这头金龙虽然相貌霸气,但眼神柔和坚定,白发之下是金线白袍,不怒自威。

【蛇】是邪恶的,多数文化中,它们都是这样的形象。这是第二位女性,我希望赋予她高雅的气质,和中立的角色身份。她在诸国纷争中,不倾向任何一方。但保持中立,需要的不仅仅是态度,也需要武力和经济。所以,她应该是一位既有贵气又有智慧的女性领主。在她紫色的服饰之中,使用了羽毛的元素,与蛇类那种光滑、阴暗的视觉元素做一点调和。

【马羊猴】这一组是相对现代的角色。【马】通常是黑色或褐色的,虽然也有白马,但在印象中,说起马就是黑色的动物。所以我想给她穿一身干练的白色风衣,即符合马这种动物在人类文化中的形象,又能在色彩搭配上突出她的质感。值得一提的是,我选择了一个侧面的视角,因为马的轮廓,侧面是最美的;并且,我在 prompt 中加入了长辫的描述,黑色布料的造型很妙,因此这个角色是目前没在网上出现过的全新的马人形象。她也是这组当中的第三位女性。【羊】的种类实在是多,不同种类的羊,出来的气质也都不太一样。经过不同的组合尝试,我最终选择了 Goat 这种羊。我想要一个有点脾气和痞气的大叔,他平时就坐在街道头的店铺门外,跟老板聊天,街上一旦出了什么事情,他一定会出手。因此,他的皮衣和眼镜都是有点讲究的。不过你看得出来,他并不是那种有钱人,他的讲究是一种对待自我的态度。

【猴】很特别,一方面是猴的种类也很多,另一方面是,猴子在绝大多数文化中都是活泼闹腾的男性形象。我非要她是女性,但她不会是个乖训的家伙。最后我之所以觉得,滇金丝猴是一个很合适的选择,在于它的毛色和毛发的形态,橙色到白色的过度让角色有一种温和的基调,但向外肆意张开的样子又很有流浪不羁的气质。服饰上我选了裙子和围巾。但在色彩上我动了一点心思,暖色系的猴和皮衣加长裙,得有一些色彩上的对冲,来建立她的个性和态度。因此,围巾是绿色的,也有相当的体量感。

【鸡狗猪】中的【鸡】是在【骄傲大公鸡】的基础上的进一步表达。首先,鸡的种类很多,但白色羽毛的,通常是 white Plymouth Rock。为了增加戏剧冲突,我希望他穿着镶满了珠宝的绿色三件套西装。神气,就是要神气!【狗】就更多种类了,我最开始也尝试了不同的品种,因为拿不准什么样的形象是更合适的。后来我意识到,不同的狗,它们自身的气质差别就很大,所以不存在一种狗能表达狗这件事。于是,重点就变成了,我想要表达什么,那就选择什么狗。我希望这是第五位女性。恰好,筱烨以前的 Daisy 就是一只金毛,一个可爱热情受街坊邻里欢迎的小女孩。那就金毛寻回犬吧!在这个设定的基础上,我增加了双麻花辫和白色校服的描述,最后就有了这个金毛小女孩。

最后的【猪】我有两个想法,一个是十二生肖中男女比例对半开,所以我希望她是女生;另一个是,我想她可以非现实一些。前面的十一位都是比较写实的感觉,但写实的猪,和女性结合,在观感上,很容易让人产品某些厌女、性别对立的联想。我不希望这位可爱的女性角色被贬损。于是,我给她增加了金色皮毛质感的设定,穿上温暖的粉红色外套,带着白围巾站在雪地里。这是一位温柔的女性,但她的防风镜会告诉你,她可不是傻白甜,在雪天的山里行走,缺少她的交通工具,哪怕是楼上的虎先生,也寸步难行。温柔也是有力量的。

下载高清原图:                      

2025 款 五菱星跃 Safari EV 四驱四座

By: Steven
16 November 2023 at 21:36
点击可查看大图

这是一个玩笑。

这其实是我使用 Midjourney 画的一款概念车。初始的构思是,一款小型电动越野车,比一般的 K-Car 稍微大一些,但得有越野车的强壮感,同时要贴合当代审美的流畅线条。

为了测试大家对它的反应,我把五菱的标志合成到了我最终在 MJ 上输出的图上,并虚构了这个型号,没有任何多余解释,直接发出来。我会观察一阵子,看看会发生什么。

在这张图里,我所使用的描述词:

正在行驶在路上的四轮微型车,小巧的车身,简洁和硬朗的造型,硬朗和锋利的车灯造型,黄色车身,光洁的表面,流畅的曲线,越野设计风格,背景是黑色的玄武岩山脉,3D模型,虚幻引擎渲染

prompt:

Four-wheeled miniature car driving on the road, compact body, clean and hard styling, hard and sharp lamps styling, yellow body, glossy surfaces, smooth curves, off-road design style, black basalt mountain range in the background, 3D model, Unreal engine rendering

用 MJ 画一辆车非常简单,但想要看上去能骗到人,还是得在细节上多做调整。所以我除了调整描述词外,最主要的尝试,是不断用 Vary(Region) 这个功能来调整局部,以使其达到我想要的效果。包括但不限于车身轮廓、车灯造型、C柱与尾部的衔接、防护栏造型与车身的衔接、轮毂、远山等。

同时也保留了一些 bug,来确保有人可以发现其非真实性,例如被我抹掉的 A 柱和门把手,被抹掉的前舱盖的缝之类的。

以下是未经处理的大尺寸原图:

文件体积:25.7 MB

你可以拿去玩,把你喜欢的或你认为适合的品牌标识合成上去,拿到任何地方发表,不需要经过我同意。祝你玩得开心!

❌
❌