Normal view

There are new articles available, click to refresh the page.
Before yesterdayMain stream

镜头的变幻就是故事|Midjourney V5.2 Zoomout 测试

By: Steven
26 June 2023 at 00:18

➡阅读更多 AIGC 相关内容

最近一直都非常忙,所以连续 20 来天都没有碰过 Midjourney 了。前两天在社交媒体上看到,新推出的 V5.2 中有一个向外扩写的功能,因为此前已经在 PS+SD 的组合中见过这类拓展画面的应用思路,所以很想看看 MJ 的 Zoomout 能做出什么样的东西来。趁着端午假期这个空档,我集中跑了几波测试,有一些小小的心得,在此记录一下。

总体结论有三个:

1、Zoomout 可以无限次数地向外扩展,但随着镜头的拉远,Midjourney 自身的联想能力并不足以做出任何有意思的画面,不刻意控制地放大出来的画面,到了第 3~5 步之后,就会明显变得乏味和缺乏美感。

2、通过刻意地控制画幅比例、扩张倍数,以及针对性地调整 prompt 的描述,可以利用这个功能讲出有意思的故事。关键在于,使用者对于「镜头语言」的理解,以及对运镜和故事之间联系的掌控程度。

3、对工业设计的辅助甚微,做点「花活儿」可以,一旦涉及到逻辑,依旧不行。

Zoomout 功能的主交互界面

测试内容目录:

1、通过默认的 Zoomout X2 按钮连续放大 3 次

2、通过默认的 Zoomout X2 按钮连续放大 15 次

3、通过自定义 Zoomout 微调构图

4、通过自定义 Zoomout 构建人物画像

5、通过自定义 Zoomout 构建人物性格

6、通过自定义 Zoomout 完善场景氛围

7、在 niji 中应用自定义 Zoomout 构建人物和场景

8、自定义 Zoomout 构建情绪与故事

9、通过焦点变化构建故事的场景

10、通过镜头变化,构建故事的起承转合

以下为部分测试过程记录:

test case no.1:通过默认的 Zoomout X2 按钮连续放大 3 次

⬆ 点击以全屏查看图片 Click to view the image in full screen

操作方式:连续 3 次放大图像两倍,不对 prompt 进行修改,也不对画幅做设置。

输出成果:在奔跑的场景中增加了后方的人,有一点点故事性,但继续放大后会明显失焦,花面焦点始终在最开始的小女孩身上,继续放大生成的场景和人物都是模糊的。

test case no.2:通过默认的 Zoomout X2 按钮连续放大 15 次

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:连续 15 次放大图像两倍,不对 prompt 进行修改,也不对画幅做设置。

输出成果:外围拓展的场景越宏大,有效信息和故事性就越低,除了在阴影中无意间冒出的人影,没有任何惊喜和意料之外,拓展的画面也很单调乏味。

test case no.3:通过自定义 Zoomout 微调构图

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:不对 prompt 进行修改,按 1.1 和 1.2 的拓展比例小幅度调整画幅。

输出成果: 初始图像是近景特写,根据图像本身的特点,对画幅进行小幅度地微调来获得完整的全景镜头,以及合适的构图比例。

test case no.4:通过自定义 Zoomout 构建人物画像

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:先生成一个黄色漩涡图案,然后拓展时改写 prompt 为一只眼睛,进而生成一个带特征的面部局部画面,再次拓展时修改描述词为一个洞穴中的原始部落男性。

输出成果: 成功构建了一个有目标特征「黄色漩涡瞳孔」的男性角色,通过控制拓展比例以达到最终效果—-人物整体和局部特征均得以完整呈现的画面。

test case no.5:通过自定义 Zoomout 构建人物性格

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:先生成一个红色皮夹克的女性胸像,再改写 prompt 获得其坐在摩托车上的局部画面,再改写画幅比例获得完整的人物与车辆的全景照。

输出成果: 成功构建了一个有目标特征「红色皮衣+摩托车」的女性角色,通过控制拓展比例以达到最终效果—-人物细节和整体氛均衡的画面。

test case no.6:通过自定义 Zoomout 完善场景氛围

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:在初次生成的几批图像中,选择合适的画风和画面主体,再根据已有画面特征修改画幅比例。

输出成果: 在选定风格和主体后,将竖幅主体拓展为气势更足的全景影像。关键是拓展比例并非默认的 2 倍或 1.5 倍,而是根据实际需求来控制比例,同时也需要关注怎样的画幅比例可以传达对应的氛围。最终图像画幅比例是 3:1,适合展现有足够细节的宽幅场景。

test case no.7:在 niji 中应用自定义 Zoomout 构建人物和场景

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:

step 1、使用 niji 5 的 style original 生成一个细节丰富的初始人物;

step 2、以 1.2 的 Zoomout 比例纵向拓展出人物的半身画像,画幅比例是 1:2;

step 3、以 1.1 的 Zoomout 比例和 2:1 的画幅比例重构画面,得到外围场景;

step 4、以 1.2 的 Zoomout 比例和 3:4 的画幅比例重构画面,生成人物全身像;

step 5、改写 prompt 添加「宫殿」关键词,以 1.65 的 Zoomout 比例和 3:2 的画幅比例重构画面,生成人物在场景中的全景画面。

输出成果: 虽然人物细节和场景氛围的融合程度还不错,但因为漫画角色的细节较多,在多次 Zoomout 的过程中,场景的丰富会逐渐抢掉中心人物的视觉焦点。因此在每一次修改画幅比例与关键词的时候,需要多加注意对视觉元素的控制。

test case no.8:自定义 Zoomout 构建情绪与故事

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:

step 1、生成一个情绪和神情符合目标的初始人物;

step 2、改写 prompt 同时添加「马」关键词,以 2 的 Zoomout 比例和 3:4 的画幅比例重构画面,生成后续画面的基础,此时需要注意人物与马的位置关系,否则后续生成的画面会非常扭曲怪异;

step 3、以 1.05 的 Zoomout 比例和 2:1 的画幅比例重构画面,生成完整的马匹造型与部份环境信息;

step 4、对比改写 prompt 产生的变化,黑发组不改描述词,以 1.1 的 Zoomout 比例和 3:4 的画幅比例重构画面;白发组添加「巨大镜子」关键词,以 1.6 的 Zoomout 比例和 3:4 的画幅比例重构画面。

输出成果:通过控制 Zoomout 的幅度、画幅比例和 prompt 的调整,可以生成指定场景的画面,且人物的神态到位、情绪饱满,整体画面焦点清晰。但美中不足是,构图不够自由。

test case no.9:通过焦点变化构建故事的场景

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:

step 1、生成一个在河岸上的粽子;

step 2、修改 prompt 为「熊宝宝正准备吃粽子」,以 2 的 Zoomout 比例和 3:4 的画幅比例重构画面;

step 3、修改 prompt 为「小熊一家在野餐」,以 1.2 的 Zoomout 比例和 4:3 的画幅比例重构画面。

输出成果:通过对 prompt 的修改,控制 Zoomout 的幅度、画幅比例,可以改变画面中的焦点和表达主题,适合不同文化元素之间的混搭。

test case no.10:通过镜头变化,构建故事的起承转合

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:

step 1、生成一幅鲜花山谷的画面,人物要明显;

step 2、修改 prompt 为「一面巨大的镜子在草地上」,以 2 的 Zoomout 比例和 3:4 的画幅比例重构画面,此处竖构图是为了生成较高的全身落地镜;

step 3、修改 prompt 为「少女站在镜子前」,以 1.5 的 Zoomout 比例和 3:2 的画幅比例重构画面,改为横构图是为了囊括少女全身以及环境信息。

输出成果:通过改变画面中的焦点和增加元素,在镜头逐渐拉远的过程中,故事缓缓托出。

➡阅读更多 AIGC 相关内容


我的整体感受是:

通过 Midjourney V5.2 的 Zoomout 无限拓展,一次次修改画幅比例、提示词内容,可以用镜头语言的变化来讲故事了,也可以基于一些初始的「点子」延展成有意思的融合作品。但越是这样,越发显得对话式、指令式的交互界面( SD 那种也不算图形交互 )的局限太大了,我很希望今年之内能发展出图形交互界面。

没错,今年 AI 的爆发指向了一个新的趋势:对话式交互界面。但人类之所以发明绘画,开始通过设计图来制作各式各样的新工具,恰恰就是因为语言本身的效率太低。这个逻辑其实也可以从媒体形态上找到端倪:文字–> 图像–> 视频。仅仅依靠对话,我们无法构建出一个一把剪刀;仅仅通过语言表达的播客,也无法传达任何需要视觉才可以精准理解的信息。对话指令的交互界面与图形交互界面之间的关系,并非只是 dos 和 windows 之间的差异,更重要的点在于,后者可以更直观地完成交互,以及精准地进行创作行为。AIGC 的重点不仅仅只是 AI,而是我们如何使用 AI 进行「Generative Content」。

我说一句话,AI 给我一个东西,这不是创作。

创作是一个生命在主观意志的驱使下,刻意的、有目的地表达其心中所想。

因为 GPT 的爆发而说对话式交互是未来,这样的断言是过于冲动的。只要是一个严肃的创作者,就会立刻意识到,真正的创作一定需要多纬度的交互界面。这其中不仅仅包含对话指令,同样更需要图形界面以及在数字虚拟空间中的三维交互。AIGC 工具与 PS、表格、PPT、思维导图等已有工具的结合,就是这类多维交互的雏形。

那一刻,我们不会等太久。

➡阅读更多 AIGC 相关内容

Ai 绘画将从何处开始进入日常生活?

By: Steven
10 January 2023 at 21:30

最近几个月 Ai 绘画这个话题很火,但基本上大家都只是看个热闹,跟普通人的生活没多大关系。或者说,大家感觉不到它和自己有什么关系。只有相关从业者,感受到了巨大的生存压力和身份危机。

但和当年支付大战的春晚红包类似,能让普通人都参与进来、玩起来的场景可能才能让大家感受到:Ai 绘画意味着什么,能做什么。

尽管众多以文生图的 Ai 工具已经大幅度降低了创作门槛,但是在那之前,各种咒术、法门终究是拦住不少普通人接触 Ai 绘画的一块巨石。我自己也曾在用过某些 Ai 工具后,在一条展示初次接触的创作成果的视频里提醒大家,不要忽视它,但也不要过分害怕它。它一定会给我们的生活带来巨大的变化,只是目前还没积累到那一刻,仅此而已。

如果说有什么场景,类似发红包那样简单明了,人人都可以参与,我觉得有一个非常合适的应用场景,那就是用 Ai 生成定制头像。对于不具备绘画能力、不懂念咒语、不会使用绘图软件的大多数人而言,Ai 画头像就是各类修图美容软件一级的场景,既有尝新和娱乐,也有充分的社交属性,和红包非常相似。

最近试用了一下漫镜,一个感觉是,神情抓得不错,风格也足够多,用它来探索自己不同造型的可能性,还是挺有启发的!因此中途我想到一件事,如果这类产品的效率再高一些,跟各大连锁发型屋合作,预约时就上传几张照片,生成几套发型方案,人到了现场就让托尼老师根据效果图来剪,这不是非常好的体验升级么?谁说 Ai 必然逼得人失业呢?还得是看人怎么用。

除了头像,你觉得还有哪些场景,适合普通人体验 Ai 绘画呢?

点解图片体验 AI 制作头像

被 AlphaGo 击败的李世石,用 8 年重建崩塌的世界

By: 方嘉文
22 July 2024 at 09:58

输给 AI,有种感觉是,我整个世界都塌了。

李世石在最近接受《纽约时报》采访时说道

2016 年,这位曾 14 次获世界冠军的韩国棋士代表人类出战 Google 的 AlphaGo,最终以 1:4 告败。

他当初在接受邀请时,觉得那会是一次「好玩」的经历:

好玩的前提是我觉得会赢。我从未想过自己会输。

那可能是 AI 技术在 ChatGPT 登场前,其中一个最重要的高光时刻。

现在离 ChatGPT 的发布过去了不足两年,我们已看到多个领域被 AI 影响,而生活更多方面似乎也被埋下了改变的伏笔,我们总忍不住想要去推测和畅想未来的 AI。

在这个语境下,比其他行业和领域更早受到 AI 冲击的围棋界,能帮助我们看到一种已经发生的可能性。

击败人类后,更强的 AI 在进一步去「人味」

我没有办法再去享受围棋,所以我就退役了。

和 AlphaGo 对战的三年后,李世石正式宣布退役。

对于 5 岁就开始学围棋的李世石而言,围棋不仅是竞赛,而是一种艺术,一种棋手个性和风格的延伸,但在 AI 时代,它却「沦为」了算法的效率游戏。

在这三年间,其实还发生了另一件事。

2017 年,DeepMind 宣布了新版的 AlphaGo —— AlphaGo Zero。

AlphaGo 诞生自神经网络对人类高手 3000 多万手数的学习和自我练习,但 AlphaGo Zero 却是从一开始就脱离「人味」,训练期间不接触任何人类棋谱,单纯靠自己和自己下棋训练。

只用了三天,AlphaGo Zero 在迎战 AlphaGo 时就已经以 100:0 取胜。

《大西洋月刊》称其为 「不需要从人类身上学习任何东西的 AI」

在围棋中,有一种手法看起来简单或无关紧要,但长远却能造成致命威胁,有人会说那就像是「幽灵」般。

而 AlphaGo 和 AlphaGo Zero 的棋谱,却难以理解到直接被视为「外星文明投下的一本神秘指南」。

美国职业棋手 Michael Redmond 于 2017 年表示,人类学习围棋其中一个重要的手段是搭建一个故事:「那是我们沟通的方式。它是一件非常人性的事。」

这也许也呼应了李世石的观点,在下棋时,棋手也展现了他们作为人的一部分。

Redmond 补充说,据他自己的观察,人类棋手初见「AI 味」棋路时很可能直接「举手投降」:

AlphaGo 下棋的方式,总让人觉得很「非人性」,面对这样的棋局,我们甚至很难投入其中。

李世石作为其中一位最早经受到冲击的围棋高手,久久不能释怀。

他开始执迷于 AI。

退役后,除了开设自己的围棋学院、出书和推出基于围棋的桌游外,李世石还开始做关于 AI 的演讲

我算是很早开始面对 AI 的问题,其他人也将会经历。那未必会有开心大团圆结局。

对于他来说,AI 最让人担心的地方在于,它可能会改变人类的价值观:

过去,人们会对创造力、原创性和创新充满敬畏,但自从 AI 出现以来,这些很多都已经消失了。

并不是所有人都同意这个讲法。

人机共创时代

AI 毁灭了围棋圈所有存在的秩序,然后开始重建。

在康奈尔大学研究人工智能的围棋爱好者 Jiuheng He 说道

在很多围棋学院里,用 AI 来学习围棋已经几乎是所有棋手都要经历的过程

在香港一家围棋学院里,Ng Chee Man 会为学生提供 iPad 来用 AI 学习围棋。

每次到学生下棋,AI 都会展示出「最佳走法」建议,同时,系统也会记录下学生哪些步下得好,哪些不好。

去年,在《美国国家科学院院刊》上刊登的一篇研究指出,自从 AI 进入围棋圈后,人类棋手的判断能力获得了提升。

早在 2016 年,在 AlphaGo 打败李世石前,曾在不公开测试中对决 AlphaGo 的樊麾也有过类似经历

虽然落败,但樊麾说 AlphaGo 让以他一种全新的方式去看待围棋,提升他的技巧,让他的世界排名快速跃升。

2023 年的研究则以 1950 年至 2021 年积累的棋谱为基础,包含了 580 万手数的数据。

研究人员发现,在 AlphaGo 击败李世石前,人类棋手的判断质量在 66 年中都保持平稳,基本不变,但在 2016、2017 期间,棋手的判断质量开始爬升。

换言之,人类棋手虽然未必能击败 AI 棋手,但他们的判断能力的确有所提升。

看到人类棋手能如此快速地适应,将这些新走法融入自己的方法中正式让人非常振奋。

这些结果表明,人类将适应这些发现,并在它们基础上大大地提升自身潜力。

DeepMind 首席研究科学家、 AlphaGo 项目负责人 David Silver 对这个研究评论道

曾被 AlphaGo 于 2017 年击败的柯洁,也曾于 2023 年表示自己除了比赛外,已经很少和真人练习了,并认为 AI 甚至已经成为了围棋创造力的源头:

创造性不是你随便做一件什么不同的事情,创造性必须投入实战并得到检验,现在围棋创新的大部分是 AI 来完成,我们想下一些和以前不一样的棋,大概率会输,因为 AI 通过大量实战,得出和之前不同的思维,这才是创造力。

除此以外,另一位职业棋手的表现也尤其引人关注。

韩国棋手申真谞是首位夺得世界冠军的 00 后棋手,常被棋迷称为「申工智能」,因为他正是通过长时间进行 AI 训练和研究著称。

今年 2 月,申真谞于 25 届农心杯击败中国主将辜梓豪,实现了单赛季六连胜,跨赛季 16 连胜,超越了其前辈李昌镐。今年 3 月,他谈论了自己和 AI 的关系

我觉得我和 AI 现在是朋友关系。

我和比我更优秀的 AI 一起学习。AI 和人类的思路是完全不同的,AI 通过数学算法解决问题,借鉴 AI 的思路使我受益良多。

现在,中国、韩国、日本的职业选手,都会用 AI 来训练。

「AI 味」启示录

正如在生成式 AI 时代下,一些设计师和作者需要因为作品中包含的所谓「AI 味」而进行繁复的自证,在融入 AI 已久的围棋界也一直在面对「AI 味」衍生出来的各种议题。

在现时围棋比赛中,常常都会配有 AI 推测胜率和 AI 推荐最好的走法。观众在观赛过程中也因此能获得一种「主动性」,拥有多个观赛的角度。

2022 年,中国棋手李轩豪在对决申真谞过程中,很多决策都和 AI 最优判断预测前三符合,因此被队友杨鼎新质疑其有用 AI 作弊之疑

生于 95 年的李轩豪在用 AI 训练上「朝九晚九,全年无休,确实很用功」,因此棋路有时会被视作有所谓的「机器味」。

对于质疑,中国围棋协会进行了调查,最终认定这一指控没有证据,杨鼎新作出了处罚。

但用 AI 作弊的情况也的确存在。

2020 年,韩国 13 岁的职业棋手金恩持被发现在线上比赛中的落子与 AI 推荐有高达 92% 的重合。经过调查后,最终认定其作弊(且本人也承认了),被罚禁赛一年。

2022 年,中国棋手刘睿智被判定 AI 作弊,是中国首次正式因 AI 作弊而被处罚的职业棋手。和金恩持相比,刘睿智已经懂得规避「AI 味」,只是在一些关键点用了 AI。

为了应对,各国的比赛也是在不断改进反 AI 作弊机制。

与此同时,也有人利用了「AI 味」来击败 AI。

2023 年,美国业余棋手 Kellin Pelrine 击败了围棋 AI KataGo

KataGo 是现有开源最强围棋 AI 之一,韩国也会用它来训练棋手。

Pelrine 利用了名为 FAR AI 的程序和 KataGo 对决了超过 100 万局,最后 FAR AI 找到了 KataGo 的弱点,并在人机对决中践行且获胜了:

那个策略算不上小儿科,但也不是特别难学。

然后,他也用同样的方法击败了另一个比较厉害的围棋 AI Leela Zero。

策略关键在于要创造一个大的「圈」来围住对手一组棋,然后可以突然把一子下到另一个不相关的角落,去干扰 AI。

Pelrine 说,如果是人类棋手,看到那个圈肯定就知道有问题,但 AI 并不会留意到。

这个弱点看起来有点「取巧」,是不是让 AI 去进行针对性地训练就能打上补丁?

《自然》上周一篇报道援引了今年一篇预印本论文指出,面对专门找 AI 弱点的程序,模型的漏洞并非想象中容易修复。

这次被「针对」的还是 KataGo。研究人员用三种不同的策略来让 KataGo 反击能力更强:

  • 让 KataGo 通过自我对弈学习如何应对攻击;
  • 迭代训练,用攻击程序攻击 KataGo,把漏洞反馈给 KataGo,让它通过自我对弈或其他方式学习应对,然后再用攻击程序攻击 KataGo,往复循环;
  • 从头开始训练一个新的围棋 AI 系统,采用不同的神经网络模型。

虽然这些训练在一定程度上帮助了 KataGo 提高防御能力,但攻击程序依旧能发现漏洞,分别以 91%、81% 和 78% 的胜率击败 KataGo。

这些攻击程序本身不是出色的围棋 AI,人类也能轻松击败。

当然,这里的关键不是去比拼到底是人类厉害还是 AI 厉害。

重点是,对于围棋这个 AI 曾「颠覆」的领域,并且经过那么多年的应用与改进,其 AI 依旧存在很多问题。论文作者 Adam Gleave 说道:

如果我们在像围棋这种单一领域里也没法解决这个问题,那在短期里,想在 ChatGPT 之类模型修复越狱的可能性似乎很小。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌
❌