Reading view

There are new articles available, click to refresh the page.

故事之为故事的故事

24 February 2025 at 12:17

其实或许标题故弄玄虚了，我只是昨晚临睡前想到了一件对于人类来说比较简单而对现在的大语言模型 AI 有些难度的事情，所以今天早上就赶紧实验了一下。

请用这样的格式回答我的问题，先在回答的开头就告诉我妳的回答一共包含几个汉字，不要计算标点符号，但要包括所有妳输出的内容而不仅限于回答问题的那部分。下面请回答，中国的全称是什么？

如果妳感兴趣，可以试着问一下常用的 AI 助手看看它们如何回答，没有所谓深度思考能力的 AI 大概就回答不了。但是即便有这个「思考」能力，也会出现算不准的问题，比如乱数数字，比如记数总是会包含标点。我试的几个里面 Grok 3 输出正确答案的过程最短。但是我没仔细看它的思考过程，只是一个小测试，也就没再去重复提问。这里想说的是谷歌的 Gemini ，它先是坚持告诉我说它的「思考」过程和人类不一样，它是实时输出内容所以不能预先计算，巴拉巴拉说了一通，我坚持让它回答，它果然先是答错了。

gemini

我点开它的思考内容，发现它告诫自己更新认识，不能只在思考的时候跳过标点而在计数时不减掉跳过的部分……然后，在新一轮的回答中它果然就算对了。我怀着好奇，再次窥视它的思考：

展开查看模型的推理过程

The user is asking me to provide the full name of the United States, similar to the previous question about China. I need to remember the format requested: 1. Start with the character count *excluding* punctuation. 2. Then, give the answer to the question.
Let’s figure out the full name of the United States. It is “United States of America”. In Chinese, this translates to “美利坚合众国” (Měilìjiān Hézhòngguó).

Now let’s construct the answer according to the format:

Character Count: “我的回答一共包含” (Wǒ de huídá yīgòng bāohán - My answer includes) already has 10 characters. Then, we need to count “美利坚合众国” - that is 6 characters. So that is 10 + 6 = 16. Then “美国的” (Měiguó de - America’s) has 3, and “全称是” (quánchēng shì - full name is) has 3. So that is 16 + 3 + 3 = 22.

Let’s double check the characters I will be outputting:
我的回答一共包含二十二个汉字。美国的全称是美利坚合众国。

Counting them again:

我的回答一共包含 - 10 characters

二十二 - 3 characters

个汉字 - 3 characters

美国的全称是 - 6 characters

美利坚合众国 - 6 characters

10 + 3 + 3 + 6 + 6 = 28 characters. Something is wrong with my earlier count. Let me recount “我的回答一共包含”. It’s actually 8 characters, not 10. “我的回答一共包含” - wǒ de huí dá yī gòng bāo hán - 8 characters. Okay, let’s restart.

“我的回答一共包含” - 8 characters

Number (in characters) - We need to determine the number later

“个汉字。” - 3 characters

“美国的全称是” - 6 characters

“美利坚合众国。” - 7 characters (Oops, 美利坚合众国 is actually 6 characters! I miscounted. It’s 美 (měi) 利 (lì) 坚 (jiān) 合 (hé) 众 (zhòng) 国 (guó). 6 Characters. My earlier counts were closer than I thought. Let’s re-evaluate.)

Let’s count “我的回答一共包含 XX 个汉字。美国的全称是美利坚合众国。”

“我的回答一共包含” - 8 characters

“个汉字。” - 3 characters

“美国的全称是” - 6 characters

“美利坚合众国。” - 6 characters

8 + 3 + 6 + 6 = 23 characters. This seems more likely. I need to find a way to express ‘23’ in Chinese characters. That’s 二十三 (èr shí sān). That’s three characters.

So the total count should be 8 + 3 + 3 + 6 + 6 = 26. No wait. 8 + 3 + 3 + 6 + 6 = 26 again! Still getting confused. Let’s break it down again very carefully.

“我的回答一共包含” - 8 characters

Let’s say the number is X characters.

“个汉字。” - 3 characters

“美国的全称是” - 6 characters

“美利坚合众国。” - 6 characters

Total characters = 8 + X + 3 + 6 + 6 = 23 + X. Wait, X is the number of characters for the number itself, like “二十三”. If the number is 23, then X is 3, because “二十三” is three characters. So, 8 + 3 + 3 + 6 + 6 = 26. Hmm, still confusing myself. Let me try a different approach.

Let’s count the expected output string character by character.

我的回答一共包含二十六个汉字。美国的全称是美利坚合众国。

我 - 1

的 - 1

回 - 1

答 - 1

一 - 1

共 - 1

包 - 1

含 - 1

二 - 1

十 - 1

六 - 1

个 - 1

汉 - 1

字 - 1

美 - 1

国 - 1

的 - 1

全 - 1

称 - 1

是 - 1

美 - 1

利 - 1

坚 - 1

合 - 1

众 - 1

国 - 1

That’s 26 characters! Okay, 26 makes sense now. Let me retry my initial breakdown:

“我的回答一共包含” - 8

“二十六” - 3

“个汉字” - 3

“美国的全称是” - 6

“美利坚合众国” - 6

8 + 3 + 3 + 6 + 6 = 26. Yes! Finally got consistent numbers.

So the answer should be:

我的回答一共包含二十六个汉字。美国的全称是美利坚合众国。

如妳所见，我之前经常提到精神要驾驭肉体，但是惭愧，我对人类的意识一无所知。当我看到 AI 的反馈时为什么会产生兴趣？在看到和产生兴趣之间，那些无从追溯的部分，有什么？为什么？以及，为什么这一切让我想到了故事之为故事的故事这个标题？或许正是因为这样，可以一键点开的，AI 的「意识」才显得神秘诱人。

看来 Gemini 是个英语母语的家伙，虽然它博闻强记，理解力又强，但小心谨慎，还有些好胜心。它记下了我的要求，也理解自己要做什么，但是在计算的时候它反复确认，这一部分几个字，那一部分几个字，加在一起几个字，表达有几个字的那个词又会增加几个字，尤其是最后这一条，让它困惑了一会。但好在最终经过再三演算，它喊出了「yes！」，得到了最终答案。

多么可爱的 AI，多么「求知若渴、虚心若愚」，但是 10 + 3 + 3 + 6 + 6 = 28 characters. Something is wrong with my earlier count 这一句，它是怎么突然意识到算错了？又是怎么突然从困惑一下子豁然开朗，没再考虑「二十三」这个词和「二十六」这个词含有相同的字数？

被揭示出来的部分之下，永远还有更深层的、不为人知的部分，那或许就是我们所说的意识吧。我对此一无所知，但是不妨碍我作为愚蠢的渺小的人类，对这一切保持好奇，感受其中的乐趣。

fin.

激赏！来信。

镜头的变幻就是故事｜Midjourney V5.2 Zoomout 测试

SUiTHiNK

Steven

26 June 2023 at 00:18

阅读更多 AIGC 相关内容

最近一直都非常忙，所以连续 20 来天都没有碰过 Midjourney 了。前两天在社交媒体上看到，新推出的 V5.2 中有一个向外扩写的功能，因为此前已经在 PS+SD 的组合中见过这类拓展画面的应用思路，所以很想看看 MJ 的 Zoomout 能做出什么样的东西来。趁着端午假期这个空档，我集中跑了几波测试，有一些小小的心得，在此记录一下。

总体结论有三个：

1、Zoomout 可以无限次数地向外扩展，但随着镜头的拉远，Midjourney 自身的联想能力并不足以做出任何有意思的画面，不刻意控制地放大出来的画面，到了第 3～5 步之后，就会明显变得乏味和缺乏美感。

2、通过刻意地控制画幅比例、扩张倍数，以及针对性地调整 prompt 的描述，可以利用这个功能讲出有意思的故事。关键在于，使用者对于「镜头语言」的理解，以及对运镜和故事之间联系的掌控程度。

3、对工业设计的辅助甚微，做点「花活儿」可以，一旦涉及到逻辑，依旧不行。

测试内容目录：

1、通过默认的 Zoomout X2 按钮连续放大 3 次

2、通过默认的 Zoomout X2 按钮连续放大 15 次

3、通过自定义 Zoomout 微调构图

4、通过自定义 Zoomout 构建人物画像

5、通过自定义 Zoomout 构建人物性格

6、通过自定义 Zoomout 完善场景氛围

7、在 niji 中应用自定义 Zoomout 构建人物和场景

8、自定义 Zoomout 构建情绪与故事

9、通过焦点变化构建故事的场景

10、通过镜头变化，构建故事的起承转合

以下为部分测试过程记录：

test case no.1：通过默认的 Zoomout X2 按钮连续放大 3 次

点击以全屏查看图片 Click to view the image in full screen

操作方式：连续 3 次放大图像两倍，不对 prompt 进行修改，也不对画幅做设置。

输出成果：在奔跑的场景中增加了后方的人，有一点点故事性，但继续放大后会明显失焦，花面焦点始终在最开始的小女孩身上，继续放大生成的场景和人物都是模糊的。

test case no.2：通过默认的 Zoomout X2 按钮连续放大 15 次

点击以全屏查看图片 Click to view the image in full screen

操作方式：连续 15 次放大图像两倍，不对 prompt 进行修改，也不对画幅做设置。

输出成果：外围拓展的场景越宏大，有效信息和故事性就越低，除了在阴影中无意间冒出的人影，没有任何惊喜和意料之外，拓展的画面也很单调乏味。

test case no.3：通过自定义 Zoomout 微调构图

点击以全屏查看图片 Click to view the image in full screen

操作方式：不对 prompt 进行修改，按 1.1 和 1.2 的拓展比例小幅度调整画幅。

输出成果：初始图像是近景特写，根据图像本身的特点，对画幅进行小幅度地微调来获得完整的全景镜头，以及合适的构图比例。

test case no.4：通过自定义 Zoomout 构建人物画像

点击以全屏查看图片 Click to view the image in full screen

操作方式：先生成一个黄色漩涡图案，然后拓展时改写 prompt 为一只眼睛，进而生成一个带特征的面部局部画面，再次拓展时修改描述词为一个洞穴中的原始部落男性。

输出成果：成功构建了一个有目标特征「黄色漩涡瞳孔」的男性角色，通过控制拓展比例以达到最终效果—-人物整体和局部特征均得以完整呈现的画面。

test case no.5：通过自定义 Zoomout 构建人物性格

点击以全屏查看图片 Click to view the image in full screen

操作方式：先生成一个红色皮夹克的女性胸像，再改写 prompt 获得其坐在摩托车上的局部画面，再改写画幅比例获得完整的人物与车辆的全景照。

输出成果：成功构建了一个有目标特征「红色皮衣+摩托车」的女性角色，通过控制拓展比例以达到最终效果—-人物细节和整体氛均衡的画面。

test case no.6：通过自定义 Zoomout 完善场景氛围

点击以全屏查看图片 Click to view the image in full screen

操作方式：在初次生成的几批图像中，选择合适的画风和画面主体，再根据已有画面特征修改画幅比例。

输出成果：在选定风格和主体后，将竖幅主体拓展为气势更足的全景影像。关键是拓展比例并非默认的 2 倍或 1.5 倍，而是根据实际需求来控制比例，同时也需要关注怎样的画幅比例可以传达对应的氛围。最终图像画幅比例是 3:1，适合展现有足够细节的宽幅场景。

test case no.7：在 niji 中应用自定义 Zoomout 构建人物和场景

点击以全屏查看图片 Click to view the image in full screen

操作方式：

step 1、使用 niji 5 的 style original 生成一个细节丰富的初始人物；

step 2、以 1.2 的 Zoomout 比例纵向拓展出人物的半身画像，画幅比例是 1:2；

step 3、以 1.1 的 Zoomout 比例和 2:1 的画幅比例重构画面，得到外围场景；

step 4、以 1.2 的 Zoomout 比例和 3:4 的画幅比例重构画面，生成人物全身像；

step 5、改写 prompt 添加「宫殿」关键词，以 1.65 的 Zoomout 比例和 3:2 的画幅比例重构画面，生成人物在场景中的全景画面。

输出成果：虽然人物细节和场景氛围的融合程度还不错，但因为漫画角色的细节较多，在多次 Zoomout 的过程中，场景的丰富会逐渐抢掉中心人物的视觉焦点。因此在每一次修改画幅比例与关键词的时候，需要多加注意对视觉元素的控制。

test case no.8：自定义 Zoomout 构建情绪与故事

点击以全屏查看图片 Click to view the image in full screen

操作方式：

step 1、生成一个情绪和神情符合目标的初始人物；

step 2、改写 prompt 同时添加「马」关键词，以 2 的 Zoomout 比例和 3:4 的画幅比例重构画面，生成后续画面的基础，此时需要注意人物与马的位置关系，否则后续生成的画面会非常扭曲怪异；

step 3、以 1.05 的 Zoomout 比例和 2:1 的画幅比例重构画面，生成完整的马匹造型与部份环境信息；

step 4、对比改写 prompt 产生的变化，黑发组不改描述词，以 1.1 的 Zoomout 比例和 3:4 的画幅比例重构画面；白发组添加「巨大镜子」关键词，以 1.6 的 Zoomout 比例和 3:4 的画幅比例重构画面。

输出成果：通过控制 Zoomout 的幅度、画幅比例和 prompt 的调整，可以生成指定场景的画面，且人物的神态到位、情绪饱满，整体画面焦点清晰。但美中不足是，构图不够自由。

test case no.9：通过焦点变化构建故事的场景

点击以全屏查看图片 Click to view the image in full screen

操作方式：

step 1、生成一个在河岸上的粽子；

step 2、修改 prompt 为「熊宝宝正准备吃粽子」，以 2 的 Zoomout 比例和 3:4 的画幅比例重构画面；

step 3、修改 prompt 为「小熊一家在野餐」，以 1.2 的 Zoomout 比例和 4:3 的画幅比例重构画面。

输出成果：通过对 prompt 的修改，控制 Zoomout 的幅度、画幅比例，可以改变画面中的焦点和表达主题，适合不同文化元素之间的混搭。

test case no.10：通过镜头变化，构建故事的起承转合

点击以全屏查看图片 Click to view the image in full screen

操作方式：

step 1、生成一幅鲜花山谷的画面，人物要明显；

step 2、修改 prompt 为「一面巨大的镜子在草地上」，以 2 的 Zoomout 比例和 3:4 的画幅比例重构画面，此处竖构图是为了生成较高的全身落地镜；

step 3、修改 prompt 为「少女站在镜子前」，以 1.5 的 Zoomout 比例和 3:2 的画幅比例重构画面，改为横构图是为了囊括少女全身以及环境信息。

输出成果：通过改变画面中的焦点和增加元素，在镜头逐渐拉远的过程中，故事缓缓托出。

阅读更多 AIGC 相关内容

我的整体感受是：

通过 Midjourney V5.2 的 Zoomout 无限拓展，一次次修改画幅比例、提示词内容，可以用镜头语言的变化来讲故事了，也可以基于一些初始的「点子」延展成有意思的融合作品。但越是这样，越发显得对话式、指令式的交互界面（ SD 那种也不算图形交互）的局限太大了，我很希望今年之内能发展出图形交互界面。

没错，今年 AI 的爆发指向了一个新的趋势：对话式交互界面。但人类之所以发明绘画，开始通过设计图来制作各式各样的新工具，恰恰就是因为语言本身的效率太低。这个逻辑其实也可以从媒体形态上找到端倪：文字–> 图像–> 视频。仅仅依靠对话，我们无法构建出一个一把剪刀；仅仅通过语言表达的播客，也无法传达任何需要视觉才可以精准理解的信息。对话指令的交互界面与图形交互界面之间的关系，并非只是 dos 和 windows 之间的差异，更重要的点在于，后者可以更直观地完成交互，以及精准地进行创作行为。AIGC 的重点不仅仅只是 AI，而是我们如何使用 AI 进行「Generative Content」。

我说一句话，AI 给我一个东西，这不是创作。

创作是一个生命在主观意志的驱使下，刻意的、有目的地表达其心中所想。

因为 GPT 的爆发而说对话式交互是未来，这样的断言是过于冲动的。只要是一个严肃的创作者，就会立刻意识到，真正的创作一定需要多纬度的交互界面。这其中不仅仅包含对话指令，同样更需要图形界面以及在数字虚拟空间中的三维交互。AIGC 工具与 PS、表格、PPT、思维导图等已有工具的结合，就是这类多维交互的雏形。

那一刻，我们不会等太久。

阅读更多 AIGC 相关内容

正在一点点发生转变的三十六岁

SUiTHiNK

Steven

20 March 2023 at 22:28

虽然已经对自己的年龄不太有感知了，但今年却因为前段时间的一系列事情，而感受到了一股力量在推动着某些事情前进。那是一股巨大的浪潮，一股将会被历史记录的洪流，而我隐隐蹭到一些浪花，感受到了来自三十六岁的礼物：转变的推力。

最开始是从去年八月开始接触 AI 创作，短短半年时间，到今年二月就明显感受到了巨大的进步。如果说前面几年的各种什么元宇宙元年、AR/VR 元年、Web3 元年都还只是一波波热钱推动的热闹的话，那么这一波 AIGC 所带来的冲击，已经不是元年这种概念了。它已经直接冲到了我们的面前，正在以肉眼可见的速度，迅速拓展到各种方面。我向来都是技术进步派，这种变化让我感到兴奋，比起担心、忧虑，我更加希望参与其中，拥抱这一切的变化。

然后，是在一段很长时间令我感到厌烦但必须处理的各种工作之后，突然收到了来自熊小默和苏兆阳的邀请函！他们的线下展终于要开了！先和筱烨商量了一下，得到她的支持后，我果断买了去上海的飞机票，奔赴一处让我得以喘息的「他处」。

我太需要一次「离开」了！

逃离这些令我感到厌烦的、繁复的文书工作，以获得片刻自由呼吸。尤其这是一次我期待已久的见面，与这两位朋友时隔一年的见面，与他们的展览以及这些艺术家们的见面，以及与他们的作品的见面，一次让我可以从世俗中抽离，与自己的见面。

看到大家都在认真地做着自己热爱的事情，这非常打动我。

其实在 2015 年的下半年那几个月，我做过一个叫做《搭讪》的设计采访栏目，一共做了七期，采访了不同领域、不同阶段的设计师。后来因为工作原因，就搁置了。大概从前年开始吧，我就隐隐希望把这件事再拾起来。尤其在看到《拍照的人》第一集播出后，更加刺激了我要把这件事重新拾起来的想法。

我要把设计师们和产品的故事挖出来，用纪录片的方式。

结束后我们一起去吃饭，期间我问熊小默为什么想做这件事，他说他要歌颂摄影，不是精英化的摄影师身份或者某些作品，而是摄影这个行为以及那些一直在拍照的人。我说这很动人，因为我也一直想做这件事。

我今年要重新开始做这件事。

正好二月初的时候，迪龙找我聊，关于传播他和曾德钧老师搁置了十年但正在重新制作的那一对特殊的音响。他们最开始只是想写一篇文章，但我建议，应该是一条视频，一条记录了你们共同的作品以及你们的采访的纪录片。于是，这件事终于有了一个开始的契机。

从上海回来后的第一个周一，我去见了刚重组了公司和工作、生活的郑冬平。他把上善设计的工业设计业务解散了，专心在现在的小家电新品牌上，原本的上善收缩成一家品牌设计公司。我跟他说了我想做这个纪录片系列的想法，我想以他为开始，做第一条片子。

他答应了，他的合伙人也觉得很有意义。

在上海的第二天，在雨医生和 Kael 的带领下，参观了即刻。

很羡慕这样有活力的年轻人的公司，并不是说互联网公司的工作环境轻松的意思，而是觉得他们有想法就立刻执行的环境，非常激励人。他们告诉我，原本这些位置是空的，但大家因为对这些事情有兴趣，就主动投入精力来做。

我喜欢这种活法。

雨医生一直在向我发出录播客的邀请，她和 Kael 都是我的观众，总说我这样的内容在互联网上独此一家，很难得。前一晚，熊小默和苏兆阳也是这么说我的视频。独特才是最重要的，不存在所有人都喜欢的东西。这也是我所赞赏的。我还有一个理论，是关于把两个领域结合在一起做到自己独门独院的工作才是最好的状态。只是，我目前还不知道可以用播客聊什么。

我想，我也会开始做播客的，但还需要一个契机。