Normal view

There are new articles available, click to refresh the page.

Before yesterdayMain stream

爱范儿
OpenAI CEO 最新访谈：20 岁和 35 岁的人，用 ChatGPT 的方式完全不同
15 May 2025 at 21:00

OpenAI CEO 最新访谈：20 岁和 35 岁的人，用 ChatGPT 的方式完全不同

爱范儿

By: 徐豫

15 May 2025 at 21:00

第三届红杉资本 AI 峰会近日在美国洛杉矶落下帷幕，150 位全球顶尖 AI 创始人共话最前沿的 AGI 动向。

红杉资本合伙人 Pat Grady 认为，「下一轮 AI，卖的不是工具，而是收益。」这个观点最近也在 AI 圈内广为传播。

OpenAI 联创、CEO 萨姆·奥特曼（Sam Altman）此前因休陪产假，曾一度缺席自家公司新品发布会，终于在这场 AI 峰会上露面了。

半小时左右的现场专访中，奥特曼畅谈了 ChatGPT 的来时路，以及其如何演进成个人 AI 助手的构想；分享了他反逆向思维的公司管理理念；还透露了 OpenAI 后续涉及语音交互、编程应用场景、定制模型等方面的发展路线。

▲奥特曼接受红杉资本的专访。图片来自：YouTube

从 GPT 到 ChatGPT，只因网友太爱跟 AI 聊天

与主持人简单寒暄后，奥特曼回顾了 OpenAI 自 2015 年创办以来的发展历程，并把这 10 年拆分成了 6 个关键节点：

1.OpenAI 早期 14 人团队的第一个产品 DALL·E API（应用程序编程接口）问世；

2.该团队决定深入无监督学习领域，并由此搭建了 GPT-1、GPT-2 大模型，在此之前他们曾探索过自创游戏系统、机械手等方向的可能性；

3.大模型迭代到 GPT-3 后，他们发现如果继续烧钱升级至 GPT-4，将进入「10 亿美元模型」时代，所需资金已经远超能力范围；

4.于是 OpenAI 先后尝试通过开放 GPT-2 权重、开发 GPT-3 API，来逐步开拓营收业务，此举收获了不少硅谷创企的关注；

5.到了 GPT-3.5 时，OpenAI 的 API 已有大约 8 个应用场景；

6.受到 API 用户商业化场景的启发，OpenAI 的新产品 AI 聊天助手 ChatGPT 于 2022 年 11 月上线，其团队也持续投入到搭建「能让用户与 AI 模型对话的产品」的工作当中。

▲GPT-4o 版本的 ChatGPT。图片来自：OpenAI X 账号

时至今日，不到两年半的时间，ChatGPT 的周活跃用户数已超 5 亿人次。初步跑通 AI 聊天助手的商业模式后，OpenAI 也没有懈怠，最近半年内动作频频，推出 GPT-4.1 系列模型、GPT-4.5 模型、o3 和 o4-mini 视觉推理模型、基于 GPT-4o 能力的一系列音频模型、Deep Research 功能等。

当被问到「GPT-5 会超越人类吗」，奥特曼称，o3 已经非常聪明了，如果你认为自己的能力远超 GPT-3，那或许还需要一点时间。

奥特曼称 OpenAI 无大公司病，赶路一身轻

OpenAI 的产品之所以能保持着较快的更新频率，与其背后公司高层有意识减轻「大公司病」脱不开关系。正如奥特曼在此次专访中所说的，很多公司虽然规模越做越大，但产品上新、升级的效率反而有所下降。

奥特曼还进一步分享了他的团队管理思路，他更倾向于拥有一个「小而精」、「小而美」的团队。「自古以来就有个说法，一个好的高管，一定是一个忙碌的高管」，他说道，类似地，团队内的每个人手头都应该有很多事情做，每个人都有着高价值和高影响力，这样一家公司才能一直有所成长，而不是停滞不前。

他也毫不留情地调侃道：

否则，公司里会有很多人坐在房间里，为一些无伤大雅的产品细节开会、争吵，或高谈阔论其他事情。

▲OpenAI 关键人物。图片来自：CNN

而且，在他看来，这套理论对于当前大公司的 AI 转型困境也同样适用。

奥特曼称：「大企业在变革中总是落后，很多初创公司已经远远超越了他们。这是由于大企业通常受限于僵化的流程，比如每年才开一次安全委员会，而这种速度根本跟不上 AI 领域的变化。」他对此感到「失望」，却「不意外」。

同时他认为，不论是智能手机，还是 ChatGPT 使用方式，也有着类似的代际差异，「 20 岁左右的年轻人使用 ChatGPT 的方式，和 35 岁左右的中年人完全不同，这就像智能手机刚出现时那样」。

奥特曼进一步总结道：

年轻人通常把 ChatGPT 当作操作系统来用，将其接入各种文件、为其设置复杂的提示词，甚至在做许多重要人生决定前，会先问问 ChatGPT 的意见；而年龄大一些的用户则更多是把 ChatGPT 视作谷歌浏览器的一个替代品。

目前，OpenAI 公司内部已经让 ChatGPT 负责写一部分关键性代码。未来，OpenAI 希望 ChatGPT 最终能胜任用户私人 AI 助理这一角色。

「我们希望持续做更多的事情，搭建一个重要的互联网平台，让 AI 伴随用户一生，并在不同类型的服务中都能提供帮助。」奥特曼还围绕此透露了一些可能的执行路线：

优化 ChatGPT 的核心 AI 订阅服务，不断升级模型，同时也会提供 API 或 SDK，以帮助其他人基于该平台创造更多价值；
API 与 ChatGPT 相融合，成为用户处理各种事务的个人 AI 助手，通过类似 HTTP 的新协议，支持数据传输、认证和支付，可连接不同的工具和 Agent。

下一步，OpenAI 将持续发力语音交互和 Agent

在公开的访谈视频中，主持人和观众多次向奥特曼询问与 OpenAI「下一步将走向哪里」相关的问题。总的来看，奥特曼提到了以下 6 大趋势：

1.语音交互：语音对于 OpenAI 来说非常重要，目前 OpenAI 的语音产品还不够好，但会持续优化，未来高质量的语音模型将会带来全新的设备形态；

2.编程能力：编程能力对于 OpenAI 来说是核心，未来模型不单单支持生成文字或图片，还能直接生成完整的程序，帮助用户执行操作；

3.模型定制：理想状态是一个小模型拥有极大的上下文窗口长度，能存储用户所有的数据和历史操作，无需再训练，这是 OpenAI 的长远目标之一；

4.传感器数据收集：有人已经把这些数据接入 API，部分场景呈现出的效果很好，最新的模型已经能较好地处理这些数据，未来 OpenAI 也会更加系统地整合这些数据；

5.API 访问：OpenAI 与学术界有合作项目，为其提供模型访问服务，从而帮助社会科学和人文学科研究者探索长期未解的问题；

6.算法开发：算法突破仍然是最高杠杆的要素，数据、算力和算法是三大关键点。

▲奥特曼回答观众提问。图片来自：YouTube

3 年内，AI 有望从工具人转变为研究者，甚至自主创收

奥特曼眼中的 AI 技术路线、AI 能力变革、AI 应用方向，似乎无时无刻不处于一个快速动态变化的过程之中。

他分享道，未来一年，AI 发展将主要集中在3大方面，分别是 AI 基础设施扩展，开发更聪明的 AI 模型，以及将 AI 整合到社会中。

据奥特曼判断，2025 年会是「AI Agent 承担推理工作」的一年，也可能不止于此；2026 年有望进入 AI 做出科学发现的阶段；2027 年机器人有望从研究对象变成真正的经济创造者。

OpenAI放弃用「终点」找「路径」

当然，未来的一切都是未知且富于变化的。与采用逆向工程规划公司发展的选择不同，在奥特曼这里，通过「倒推」、「从果溯因」的方法来敲定一家公司的长期发展战略，并不是一种明智的选择。

奥特曼直言：「历史上很少有人通过这种倒推的方法实现成功。」OpenAI 不追求所谓的终极战略，而是灵活应对当下状况，不断调整策略，持续产出更好的模型和产品。换而言之，OpenAI 这艘游艇更倾向于因时而动，顺势而为。

此外，当谈及 OpenAI 计划融资 400 亿美元、公司投后估值或达 3400 亿美元的传闻时，奥特曼并没有透露更多相关内容，但也没有直接否认。

奥特曼完整访谈视频入口：

https://www.youtube.com/watch?v=ctcMA6chfDY

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

我在小红书上，发现了这些脑洞的 AI 应用 | 附产品推荐

爱范儿

By: 李超凡

24 April 2025 at 11:56

我们是小红书 Native App！

在上海的一场独立开发大赛上，「小猫补光灯」开发者蹦跳着冲上舞台。

这场开发者大会和我过去参加过的都不太一样，没有枯燥的技术演讲，没有严肃的商业计划，这些应用都在不约而同放大着生活的分辨率。

比如一款能将普通二维码变成艺术品的工具、一个 AI 帮你记住每一顿美食的应用、一个让文字流动起来的平台。甚至还能来一场「梦境社交」，记录并分享你那些千奇百怪的梦。

与这两年那些充满「震撼」和「惊艳」的 AI 发布会不同，这里没什么惊天动地的技术革新，应用的灵感大都源于开发者自身经历的细微洞察，对生活中那些被忽略角落的回应。

用 AI 放大生活的分辨率

在 2019 年的中传大学的校园里，一个刚入学的大一新生静静地观察着周围同学们为作业制作二维码的繁琐过程。他们一笔一划地手工绘制，将黑白方块变成视觉上能接受的设计，却耗费了大量时间。

为什么二维码总是这么丑？为什么不能让它们既美观又实用？

这个疑问在倪豪心中萌发。当时，这位 01 年出生的少年并不知道，这个看似简单的问题将让他走上独立开发者的道路。

一次偶然的机会，倪豪将自己的想法与朋友「你好同学」分享。在北京的一个小咖啡馆里，他们常常聊到凌晨四五点，讨论着各种天马行空的产品想法。在这些熬夜的日子里，QRBTF AI 二维码的雏形逐渐成型。

「你知道吗？每天我们扫描的那些黑白方块，其实可以变成任何样子，只要它们仍然能被机器识别。」倪豪向朋友解释着自己的设想。

从大一开始，倪豪便着手开发 QRBTF 的第一个版本——一个能够自动生成二维码的网站。当时的生成效果还相对死板，但已经展现出了不同于传统二维码的可能性。四年过去，如今已是同济大学研究生的倪豪，将 AI 技术融入到了他的项目中，升级成了现在的 QRBTF AI。

这个看似小众的工具，却解决了一个普遍存在但鲜少有人去解决的痛点：二维码的美学问题。

在商业设计中，精心设计的海报或产品包装常常因为一个黑白呆板的二维码而破坏了整体美感。QRBTF AI 允许用户上传一张图片或描述想要的风格，AI 就能生成既能被正常扫描又具有艺术效果的二维码。

「当我第一次看到用户生成的二维码图片时，我简直不敢相信。」一位使用 QRBTF AI 的设计师分享道，「它完全改变了我对二维码的认知，从一个必要的功能性元素变成了设计的亮点。」

这款工具上线后迅速走红，不仅在小红书上获得大量分享，还吸引了设计师、市场人员的广泛应用。最终，在小红书独立开发大赛中，QRBTF AI 二维码摘得「最佳 AI 项目」金奖。倪豪在现场表示：

「我希望每个普通人都能轻松创造美，让技术服务于生活的每一个角落。」

我在现场还看到很多像倪豪这样的年轻开发者，他们展现出了 AI 时代独立创作的无限可能：不再局限于传统的技术框架，勇敢地将 AI 与生活需求、美学追求相结合，创造出既解决问题又富有创意的产品。

像小红书上出圈的「胃之书 2.0」，用户只需上传照片，AI 就能识别食物并自动生成精美文案，为用户提供一本个性化的「胃之书」。

开发者赵纯想最初是为了解决自己的问题：「我是个吃货，但总是记不住自己吃过什么好吃的，想推荐给朋友时常常词穷。」

还有深受播客爱好者青睐的 Nooka，与传统有声书不同，Nooka 使用 AI 技术生成的语音更为自然，还能根据内容调整语气和情感。

更有趣的是，用户可以选择不同的「声音角色」，比如让莎士比亚的作品由「莎士比亚本人」来朗读，更有沉浸感。

「我们不只是做了一个 TTS（文字转语音）工具，而是希望重塑人与知识的关系。」Nooka 团队在获奖感言中表示，「在 AI 时代，知识获取应该更高效，也更有温度。」

AI 时代的应用开发，就像创作一条笔记

上面这种从个人生活观察到解决实际问题的路径，正是小红书独立开发社区的典型特征。

在这里，开发者们不是从技术出发，而是从真实生活需求出发，用 AI 重新审视和解决那些习以为常的问题。除此之外，应用的开发过程也在发生变化，新的独立开发生态正在形成。

在传统开发模式下，一款应用从构思到上线通常需要数月时间，涉及产品设计、前后端开发、测试等多个环节。而在 AI 的帮助下，这一周期被大幅缩短。「以前三个月才能上线的产品，现在两三周就可以上线。」一位开发者表示。

门槛的降低也让更多开发者加入，这次小红书独立开发者大赛就不乏 00 后甚至 05 后的年轻开发者，他们中的许多人并非科班出身，而是凭借兴趣和创意，借助 AI 工具实现了自己的想法。

小红书数据显示，超过 90% 的开发者一年不只开发一款应用，在参赛团队中有 55% 是「一人公司」。这些独立开发者的背景也极为多元：有产品设计师、有内容创作者、有在校学生，甚至有全职主妇。

「我上午可能在写代码，下午去学习拍摄技巧，晚上研究如何做一道新菜。」一位参赛者这样描述自己的日常，「生活中的每一个触动，都可能成为下一个应用的灵感。」

「应用开发正成为 AI 时代的内容创作新形态。」小红书科技垂类负责人散兵表示，「AI 带来的技术平权大幅降低了开发的成本与门槛，让应用开发变得和创作图文、视频笔记一样简单。」

小红书怎么成了玩 AI 最活跃的社区？

在小红书的独立开发社区中，一种名为「听劝式开发」的新模式正在流行。开发者不再闭门造车，而是主动邀请用户参与产品设计和迭代过程，形成一种集体创造的氛围。

最近我们在小红书分享了 CapWords 的 AI 拍照翻译功能，引起了不少用户，大量用户还化身野生产品经理给产品反馈意见。

在小红书的独立开发者大会上，看到不少开发者确实已经把小红书作为种子用户募集＋冷启动+迭代更新的主要平台，快速验证一个产品的可行性。

这种开发者与用户之间的直接对话，大大缩短了产品从创意到市场的路径。参赛应用「调酒笔记」的开发者在零粉丝状态下发布了第一条构想笔记，意外收获超过 3000 个赞和数百条功能建议。他将这些用户称为「云股东」，与他们一起共创产品，甚至会在产品赢利后给予「分红」。

对于像赵纯想这样的资深独立开发者来说，用户反馈甚至成为了产品迭代的核心数据来源。他分享道：「胃之书 1.0 版本允许用户对 AI 生成结果进行修改，这些修改形成了一对对宝贵的训练数据。现在我们已积累了 170 万条记录，如果达到千万甚至亿级，就可以训练出更精确的模型。」

与传统技术社区不同，小红书的用户群体更加多元，既有同行也有普通用户，这为独立开发者提供了更丰富的反馈来源。

当 GPT 刚刚走红时，很多媒体和社交平台都在讨论 AI 资讯和散播焦虑，而小红书上的用户更关注的是，AI 能帮我做什么？它能解决我生活中的哪些问题？

这种实用主义的社区氛围，使得小红书成为了独立开发者验证想法的理想土壤。

参赛项目「Focus Flight」创始人 Una 分享，因为小红书的平权流量机制能快速验证产品是否受欢迎，他们将其作为唯一经营的国内社区阵地。上线后，首条视频笔记获得 2.2 万赞和上千条评论，原本定下的一个月达到 1000 美元收入的目标只用了三天就完成了。

「关于成功，我可能有点祛魅的感觉，」知名开发者玉伯在潘乱的播客中分享时说，「我追求的是能够保持自己的简单，能够自由地生活，能够对他人有爱。无论在大厂、创业、做独立开发，还是送外卖，对我来说可能都是一样的。」

这种将技术与生活紧密连接，以自由和表达为核心的理念，正是小红书独立开发社区的精髓。在 AI 时代，技术不再高高在上，而是融入日常；创造不再遥不可及，而是唾手可得；应用不应该只崇尚工具理性，更需要充满人文关怀。

当二维码不再只是丑陋的黑白方块，当梦境也可以成为社交货币，当日记可以全方位捕捉一天的点滴，我们看到的是技术与生活的重新连接，是创造者与使用者边界的模糊，是 AI 时代个体表达的无限可能。

正如年仅 17 岁的参赛者 rpone 在开场发言中所说：「我希望更多的 00 后，甚至 10 后，把自己的作品带到这个平台上来。小红书正成为 AI 应用的 UGC 平台，这里的每一个下午都属于我们这些独立开发者。」

附录：小红书独立开发大赛获奖应用

以下是本次大赛的获奖应用，欢迎大家在留言区分享最感兴趣的应用，我们将从中选取进行体验，并对开发者进行访谈。

全场大奖
Action&Link 体感控制器 [@赛博灵客] – 用身体控制数字世界的智能硬件

宝藏 APP 赛道
金奖：雨天 [@森树 Tree] – 一款治愈系独立游戏

银奖：Podwise [@硬地骇客] – AI 辅助听播客，「看比听快」

铜奖：PeakWatch [@Alex] – 专业运动记录应用

最佳 AI 赛道
金奖：QRBTF AI 二维码 [@倪豪 Troy Ni] – 让二维码变成艺术品

银奖：Nooka [@Nooka – Bookast App] – 将文字转化为自然播客

铜奖：胃之书 2.0 [@赵纯想] – AI 美食记录与推荐

五大特别单元
最佳 00 后开发者：Dreamoo 梦境社交 [@Sidrel] – 记录并分享你的梦境

最佳创意奖：专注飞机 FocusFlight [@专注飞机 FocusFlight] – 模拟航班环境提升专注力

出海先锋奖：Crowdcore [@北美创业的阿莱克斯] – 自动搜索海外营销达人信息

浪漫主义奖：魂旅 [@Highway 海玮] – AI 小人代你旅行并即时播报

社区人气奖：小猫补光灯 [@花叔（只工作不上班版）] – 在暗光环境下拍出好看的照片

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

镜头的变幻就是故事｜Midjourney V5.2 Zoomout 测试

SUiTHiNK

By: Steven

26 June 2023 at 00:18

阅读更多 AIGC 相关内容

最近一直都非常忙，所以连续 20 来天都没有碰过 Midjourney 了。前两天在社交媒体上看到，新推出的 V5.2 中有一个向外扩写的功能，因为此前已经在 PS+SD 的组合中见过这类拓展画面的应用思路，所以很想看看 MJ 的 Zoomout 能做出什么样的东西来。趁着端午假期这个空档，我集中跑了几波测试，有一些小小的心得，在此记录一下。

总体结论有三个：

1、Zoomout 可以无限次数地向外扩展，但随着镜头的拉远，Midjourney 自身的联想能力并不足以做出任何有意思的画面，不刻意控制地放大出来的画面，到了第 3～5 步之后，就会明显变得乏味和缺乏美感。

2、通过刻意地控制画幅比例、扩张倍数，以及针对性地调整 prompt 的描述，可以利用这个功能讲出有意思的故事。关键在于，使用者对于「镜头语言」的理解，以及对运镜和故事之间联系的掌控程度。

3、对工业设计的辅助甚微，做点「花活儿」可以，一旦涉及到逻辑，依旧不行。

测试内容目录：

1、通过默认的 Zoomout X2 按钮连续放大 3 次

2、通过默认的 Zoomout X2 按钮连续放大 15 次

3、通过自定义 Zoomout 微调构图

4、通过自定义 Zoomout 构建人物画像

5、通过自定义 Zoomout 构建人物性格

6、通过自定义 Zoomout 完善场景氛围

7、在 niji 中应用自定义 Zoomout 构建人物和场景

8、自定义 Zoomout 构建情绪与故事

9、通过焦点变化构建故事的场景

10、通过镜头变化，构建故事的起承转合

以下为部分测试过程记录：

test case no.1：通过默认的 Zoomout X2 按钮连续放大 3 次

点击以全屏查看图片 Click to view the image in full screen

操作方式：连续 3 次放大图像两倍，不对 prompt 进行修改，也不对画幅做设置。

输出成果：在奔跑的场景中增加了后方的人，有一点点故事性，但继续放大后会明显失焦，花面焦点始终在最开始的小女孩身上，继续放大生成的场景和人物都是模糊的。

test case no.2：通过默认的 Zoomout X2 按钮连续放大 15 次

点击以全屏查看图片 Click to view the image in full screen

操作方式：连续 15 次放大图像两倍，不对 prompt 进行修改，也不对画幅做设置。

输出成果：外围拓展的场景越宏大，有效信息和故事性就越低，除了在阴影中无意间冒出的人影，没有任何惊喜和意料之外，拓展的画面也很单调乏味。

test case no.3：通过自定义 Zoomout 微调构图

点击以全屏查看图片 Click to view the image in full screen

操作方式：不对 prompt 进行修改，按 1.1 和 1.2 的拓展比例小幅度调整画幅。

输出成果：初始图像是近景特写，根据图像本身的特点，对画幅进行小幅度地微调来获得完整的全景镜头，以及合适的构图比例。

test case no.4：通过自定义 Zoomout 构建人物画像

点击以全屏查看图片 Click to view the image in full screen

操作方式：先生成一个黄色漩涡图案，然后拓展时改写 prompt 为一只眼睛，进而生成一个带特征的面部局部画面，再次拓展时修改描述词为一个洞穴中的原始部落男性。

输出成果：成功构建了一个有目标特征「黄色漩涡瞳孔」的男性角色，通过控制拓展比例以达到最终效果—-人物整体和局部特征均得以完整呈现的画面。

test case no.5：通过自定义 Zoomout 构建人物性格

点击以全屏查看图片 Click to view the image in full screen

操作方式：先生成一个红色皮夹克的女性胸像，再改写 prompt 获得其坐在摩托车上的局部画面，再改写画幅比例获得完整的人物与车辆的全景照。

输出成果：成功构建了一个有目标特征「红色皮衣+摩托车」的女性角色，通过控制拓展比例以达到最终效果—-人物细节和整体氛均衡的画面。

test case no.6：通过自定义 Zoomout 完善场景氛围

点击以全屏查看图片 Click to view the image in full screen

操作方式：在初次生成的几批图像中，选择合适的画风和画面主体，再根据已有画面特征修改画幅比例。

输出成果：在选定风格和主体后，将竖幅主体拓展为气势更足的全景影像。关键是拓展比例并非默认的 2 倍或 1.5 倍，而是根据实际需求来控制比例，同时也需要关注怎样的画幅比例可以传达对应的氛围。最终图像画幅比例是 3:1，适合展现有足够细节的宽幅场景。

test case no.7：在 niji 中应用自定义 Zoomout 构建人物和场景

点击以全屏查看图片 Click to view the image in full screen

操作方式：

step 1、使用 niji 5 的 style original 生成一个细节丰富的初始人物；

step 2、以 1.2 的 Zoomout 比例纵向拓展出人物的半身画像，画幅比例是 1:2；

step 3、以 1.1 的 Zoomout 比例和 2:1 的画幅比例重构画面，得到外围场景；

step 4、以 1.2 的 Zoomout 比例和 3:4 的画幅比例重构画面，生成人物全身像；

step 5、改写 prompt 添加「宫殿」关键词，以 1.65 的 Zoomout 比例和 3:2 的画幅比例重构画面，生成人物在场景中的全景画面。

输出成果：虽然人物细节和场景氛围的融合程度还不错，但因为漫画角色的细节较多，在多次 Zoomout 的过程中，场景的丰富会逐渐抢掉中心人物的视觉焦点。因此在每一次修改画幅比例与关键词的时候，需要多加注意对视觉元素的控制。

test case no.8：自定义 Zoomout 构建情绪与故事

点击以全屏查看图片 Click to view the image in full screen

操作方式：

step 1、生成一个情绪和神情符合目标的初始人物；

step 2、改写 prompt 同时添加「马」关键词，以 2 的 Zoomout 比例和 3:4 的画幅比例重构画面，生成后续画面的基础，此时需要注意人物与马的位置关系，否则后续生成的画面会非常扭曲怪异；

step 3、以 1.05 的 Zoomout 比例和 2:1 的画幅比例重构画面，生成完整的马匹造型与部份环境信息；

step 4、对比改写 prompt 产生的变化，黑发组不改描述词，以 1.1 的 Zoomout 比例和 3:4 的画幅比例重构画面；白发组添加「巨大镜子」关键词，以 1.6 的 Zoomout 比例和 3:4 的画幅比例重构画面。

输出成果：通过控制 Zoomout 的幅度、画幅比例和 prompt 的调整，可以生成指定场景的画面，且人物的神态到位、情绪饱满，整体画面焦点清晰。但美中不足是，构图不够自由。

test case no.9：通过焦点变化构建故事的场景

点击以全屏查看图片 Click to view the image in full screen

操作方式：

step 1、生成一个在河岸上的粽子；

step 2、修改 prompt 为「熊宝宝正准备吃粽子」，以 2 的 Zoomout 比例和 3:4 的画幅比例重构画面；

step 3、修改 prompt 为「小熊一家在野餐」，以 1.2 的 Zoomout 比例和 4:3 的画幅比例重构画面。

输出成果：通过对 prompt 的修改，控制 Zoomout 的幅度、画幅比例，可以改变画面中的焦点和表达主题，适合不同文化元素之间的混搭。

test case no.10：通过镜头变化，构建故事的起承转合

点击以全屏查看图片 Click to view the image in full screen

操作方式：

step 1、生成一幅鲜花山谷的画面，人物要明显；

step 2、修改 prompt 为「一面巨大的镜子在草地上」，以 2 的 Zoomout 比例和 3:4 的画幅比例重构画面，此处竖构图是为了生成较高的全身落地镜；

step 3、修改 prompt 为「少女站在镜子前」，以 1.5 的 Zoomout 比例和 3:2 的画幅比例重构画面，改为横构图是为了囊括少女全身以及环境信息。

输出成果：通过改变画面中的焦点和增加元素，在镜头逐渐拉远的过程中，故事缓缓托出。

阅读更多 AIGC 相关内容

我的整体感受是：

通过 Midjourney V5.2 的 Zoomout 无限拓展，一次次修改画幅比例、提示词内容，可以用镜头语言的变化来讲故事了，也可以基于一些初始的「点子」延展成有意思的融合作品。但越是这样，越发显得对话式、指令式的交互界面（ SD 那种也不算图形交互）的局限太大了，我很希望今年之内能发展出图形交互界面。

没错，今年 AI 的爆发指向了一个新的趋势：对话式交互界面。但人类之所以发明绘画，开始通过设计图来制作各式各样的新工具，恰恰就是因为语言本身的效率太低。这个逻辑其实也可以从媒体形态上找到端倪：文字–> 图像–> 视频。仅仅依靠对话，我们无法构建出一个一把剪刀；仅仅通过语言表达的播客，也无法传达任何需要视觉才可以精准理解的信息。对话指令的交互界面与图形交互界面之间的关系，并非只是 dos 和 windows 之间的差异，更重要的点在于，后者可以更直观地完成交互，以及精准地进行创作行为。AIGC 的重点不仅仅只是 AI，而是我们如何使用 AI 进行「Generative Content」。

我说一句话，AI 给我一个东西，这不是创作。

创作是一个生命在主观意志的驱使下，刻意的、有目的地表达其心中所想。

因为 GPT 的爆发而说对话式交互是未来，这样的断言是过于冲动的。只要是一个严肃的创作者，就会立刻意识到，真正的创作一定需要多纬度的交互界面。这其中不仅仅包含对话指令，同样更需要图形界面以及在数字虚拟空间中的三维交互。AIGC 工具与 PS、表格、PPT、思维导图等已有工具的结合，就是这类多维交互的雏形。

那一刻，我们不会等太久。

阅读更多 AIGC 相关内容