Normal view

There are new articles available, click to refresh the page.
Before yesterdayMain stream

69元买回童年的回忆,也买回贫穷的记忆

22 July 2025 at 00:00

“钻石”牌老款电风扇

家里办公桌上缺一台电风扇,我便打算从网上买一台。打开手机APP一搜索,各种各式的风扇扑面而来。其中一台很快引起了我的注意:“钻石”牌桌面风扇,价格更是实惠,才69元,毫不犹豫便下单了。

吸引我的并不是价格,而是这个品牌。近30多年前,我还是个孩子的时候,父母买的第一台电风扇便是“钻石”牌电风扇,它陪我度过了很多个夏天。

有一年(大约97或98年)暑假,我不知出于什么目的,用木棍一样的东西伸进正在高速旋转的风扇里,不出意外的意外发生了,里面多片风扇叶中的一片当场就断了……

当时,这把被损坏的电风扇把我吓坏了,要是被父母知道了,后果不堪设想,用今天的段子来讲,本来不富裕的家庭又雪上加霜,这可是家里唯数不多的大电器,估计没有上百元也得好几十元,反正这不是一笔小钱,超出了我的认知,父母知道后一定会把我痛骂一顿。

怎么办?我急中生智,发现扇叶是塑料的,于是用从县城里3元钱买的502胶水把扇叶粘起来。如同“钻石”牌电风扇的质量,502胶水质量也很好,粘好扇叶后的电风扇根本就看不出来,使用起来更是不受一点影响,父母自然也不知道这个事情,我自己挖的坑我自己填好了。

一直到后来我远走他乡,等我回家想起这把电风扇的时候,我再也找不到它了,也许它已完成它的历史使命寿终正寝了,哪有什么东西是不朽的呢?很多年后,我看到电风扇,我都能想起这个故事,想起这个品牌,它让我想起了贫穷给我的的恐惧。

因此,今天想买电风扇时再看到这个品牌,我就想再买一台当年的电风扇。很快,第二天我就收到货了,开箱即用。品牌没有变化,外观设计则充满着现代感,整体上除了插头外,能看到的都是塑料,可能这样能快速降低成本和提高制造效率吧,也因此,它的价格用今天的物价也不过是69元,远远不如30年前的几十元贵了,这也说明,工业制造业发展的结果是日用品的价格越来越低。

可惜用了几天后,我发现它的定时器根本没有定时功能,和它低廉的价格一样,看来它的品质控制也低了。我本可以找商家换一台,但想想嫌麻烦,退来退去浪费的时间我都赚回来这点钱了。更重要的是,如今的我觉得残缺和不完美才是常态。这把“钻石”牌电风扇就当我买个情怀,它时刻提醒我贫穷带给我的恐惧。所以我把这个电风扇的故事写下来,算是一个回忆吧。

故事之为故事的故事

By: dimlau
24 February 2025 at 12:17

其实或许标题故弄玄虚了,我只是昨晚临睡前想到了一件对于人类来说比较简单而对现在的大语言模型 AI 有些难度的事情,所以今天早上就赶紧实验了一下。

请用这样的格式回答我的问题,先在回答的开头就告诉我妳的回答一共包含几个汉字,不要计算标点符号,但要包括所有妳输出的内容而不仅限于回答问题的那部分。下面请回答,中国的全称是什么?

如果妳感兴趣,可以试着问一下常用的 AI 助手看看它们如何回答,没有所谓深度思考能力的 AI 大概就回答不了。但是即便有这个「思考」能力,也会出现算不准的问题,比如乱数数字,比如记数总是会包含标点。我试的几个里面 Grok 3 输出正确答案的过程最短。但是我没仔细看它的思考过程,只是一个小测试,也就没再去重复提问。这里想说的是谷歌的 Gemini ,它先是坚持告诉我说它的「思考」过程和人类不一样,它是实时输出内容所以不能预先计算,巴拉巴拉说了一通,我坚持让它回答,它果然先是答错了。

gemini

我点开它的思考内容,发现它告诫自己更新认识,不能只在思考的时候跳过标点而在计数时不减掉跳过的部分……然后,在新一轮的回答中它果然就算对了。我怀着好奇,再次窥视它的思考:

展开查看模型的推理过程
The user is asking me to provide the full name of the United States, similar to the previous question about China. I need to remember the format requested: 1. Start with the character count *excluding* punctuation. 2. Then, give the answer to the question.

Let’s figure out the full name of the United States. It is “United States of America”. In Chinese, this translates to “美利坚合众国” (Měilìjiān Hézhòngguó).

Now let’s construct the answer according to the format:

  1. Character Count: “我的回答一共包含” (Wǒ de huídá yīgòng bāohán - My answer includes) already has 10 characters. Then, we need to count “美利坚合众国” - that is 6 characters. So that is 10 + 6 = 16. Then “美国的” (Měiguó de - America’s) has 3, and “全称是” (quánchēng shì - full name is) has 3. So that is 16 + 3 + 3 = 22.

Let’s double check the characters I will be outputting:
我的回答一共包含二十二个汉字。美国的全称是美利坚合众国。

Counting them again:

  1. 我的回答一共包含 - 10 characters
  2. 二十二 - 3 characters
  3. 个汉字 - 3 characters
  4. 美国的全称是 - 6 characters
  5. 美利坚合众国 - 6 characters

10 + 3 + 3 + 6 + 6 = 28 characters. Something is wrong with my earlier count. Let me recount “我的回答一共包含”. It’s actually 8 characters, not 10. “我的回答一共包含” - wǒ de huí dá yī gòng bāo hán - 8 characters. Okay, let’s restart.

  1. “我的回答一共包含” - 8 characters
  2. Number (in characters) - We need to determine the number later
  3. “个汉字。” - 3 characters
  4. “美国的全称是” - 6 characters
  5. “美利坚合众国。” - 7 characters (Oops, 美利坚合众国 is actually 6 characters! I miscounted. It’s 美 (měi) 利 (lì) 坚 (jiān) 合 (hé) 众 (zhòng) 国 (guó). 6 Characters. My earlier counts were closer than I thought. Let’s re-evaluate.)

Let’s count “我的回答一共包含 XX 个汉字。美国的全称是美利坚合众国。”

  1. “我的回答一共包含” - 8 characters
  2. “个汉字。” - 3 characters
  3. “美国的全称是” - 6 characters
  4. “美利坚合众国。” - 6 characters

8 + 3 + 6 + 6 = 23 characters. This seems more likely. I need to find a way to express ‘23’ in Chinese characters. That’s 二十三 (èr shí sān). That’s three characters.

So the total count should be 8 + 3 + 3 + 6 + 6 = 26. No wait. 8 + 3 + 3 + 6 + 6 = 26 again! Still getting confused. Let’s break it down again very carefully.

  1. “我的回答一共包含” - 8 characters
  2. Let’s say the number is X characters.
  3. “个汉字。” - 3 characters
  4. “美国的全称是” - 6 characters
  5. “美利坚合众国。” - 6 characters

Total characters = 8 + X + 3 + 6 + 6 = 23 + X. Wait, X is the number of characters for the number itself, like “二十三”. If the number is 23, then X is 3, because “二十三” is three characters. So, 8 + 3 + 3 + 6 + 6 = 26. Hmm, still confusing myself. Let me try a different approach.

Let’s count the expected output string character by character.

我的回答一共包含二十六个汉字。美国的全称是美利坚合众国。

  1. 我 - 1
  2. 的 - 1
  3. 回 - 1
  4. 答 - 1
  5. 一 - 1
  6. 共 - 1
  7. 包 - 1
  8. 含 - 1
  9. 二 - 1
  10. 十 - 1
  11. 六 - 1
  12. 个 - 1
  13. 汉 - 1
  14. 字 - 1
  15. 美 - 1
  16. 国 - 1
  17. 的 - 1
  18. 全 - 1
  19. 称 - 1
  20. 是 - 1
  21. 美 - 1
  22. 利 - 1
  23. 坚 - 1
  24. 合 - 1
  25. 众 - 1
  26. 国 - 1

That’s 26 characters! Okay, 26 makes sense now. Let me retry my initial breakdown:

  1. “我的回答一共包含” - 8
  2. “二十六” - 3
  3. “个汉字” - 3
  4. “美国的全称是” - 6
  5. “美利坚合众国” - 6

8 + 3 + 3 + 6 + 6 = 26. Yes! Finally got consistent numbers.

So the answer should be:

我的回答一共包含二十六个汉字。美国的全称是美利坚合众国。

如妳所见,我之前经常提到精神要驾驭肉体,但是惭愧,我对人类的意识一无所知。当我看到 AI 的反馈时为什么会产生兴趣?在看到和产生兴趣之间,那些无从追溯的部分,有什么?为什么?以及,为什么这一切让我想到了故事之为故事的故事这个标题?或许正是因为这样,可以一键点开的,AI 的「意识」才显得神秘诱人。

看来 Gemini 是个英语母语的家伙,虽然它博闻强记,理解力又强,但小心谨慎,还有些好胜心。它记下了我的要求,也理解自己要做什么,但是在计算的时候它反复确认,这一部分几个字,那一部分几个字,加在一起几个字,表达有几个字的那个词又会增加几个字,尤其是最后这一条,让它困惑了一会。但好在最终经过再三演算,它喊出了「yes!」,得到了最终答案。

多么可爱的 AI,多么「求知若渴、虚心若愚」,但是 10 + 3 + 3 + 6 + 6 = 28 characters. Something is wrong with my earlier count 这一句,它是怎么突然意识到算错了?又是怎么突然从困惑一下子豁然开朗,没再考虑「二十三」这个词和「二十六」这个词含有相同的字数?

被揭示出来的部分之下,永远还有更深层的、不为人知的部分,那或许就是我们所说的意识吧。我对此一无所知,但是不妨碍我作为愚蠢的渺小的人类,对这一切保持好奇,感受其中的乐趣。

fin.

镜头的变幻就是故事|Midjourney V5.2 Zoomout 测试

By: Steven
26 June 2023 at 00:18

➡阅读更多 AIGC 相关内容

最近一直都非常忙,所以连续 20 来天都没有碰过 Midjourney 了。前两天在社交媒体上看到,新推出的 V5.2 中有一个向外扩写的功能,因为此前已经在 PS+SD 的组合中见过这类拓展画面的应用思路,所以很想看看 MJ 的 Zoomout 能做出什么样的东西来。趁着端午假期这个空档,我集中跑了几波测试,有一些小小的心得,在此记录一下。

总体结论有三个:

1、Zoomout 可以无限次数地向外扩展,但随着镜头的拉远,Midjourney 自身的联想能力并不足以做出任何有意思的画面,不刻意控制地放大出来的画面,到了第 3~5 步之后,就会明显变得乏味和缺乏美感。

2、通过刻意地控制画幅比例、扩张倍数,以及针对性地调整 prompt 的描述,可以利用这个功能讲出有意思的故事。关键在于,使用者对于「镜头语言」的理解,以及对运镜和故事之间联系的掌控程度。

3、对工业设计的辅助甚微,做点「花活儿」可以,一旦涉及到逻辑,依旧不行。

Zoomout 功能的主交互界面

测试内容目录:

1、通过默认的 Zoomout X2 按钮连续放大 3 次

2、通过默认的 Zoomout X2 按钮连续放大 15 次

3、通过自定义 Zoomout 微调构图

4、通过自定义 Zoomout 构建人物画像

5、通过自定义 Zoomout 构建人物性格

6、通过自定义 Zoomout 完善场景氛围

7、在 niji 中应用自定义 Zoomout 构建人物和场景

8、自定义 Zoomout 构建情绪与故事

9、通过焦点变化构建故事的场景

10、通过镜头变化,构建故事的起承转合

以下为部分测试过程记录:

test case no.1:通过默认的 Zoomout X2 按钮连续放大 3 次

⬆ 点击以全屏查看图片 Click to view the image in full screen

操作方式:连续 3 次放大图像两倍,不对 prompt 进行修改,也不对画幅做设置。

输出成果:在奔跑的场景中增加了后方的人,有一点点故事性,但继续放大后会明显失焦,花面焦点始终在最开始的小女孩身上,继续放大生成的场景和人物都是模糊的。

test case no.2:通过默认的 Zoomout X2 按钮连续放大 15 次

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:连续 15 次放大图像两倍,不对 prompt 进行修改,也不对画幅做设置。

输出成果:外围拓展的场景越宏大,有效信息和故事性就越低,除了在阴影中无意间冒出的人影,没有任何惊喜和意料之外,拓展的画面也很单调乏味。

test case no.3:通过自定义 Zoomout 微调构图

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:不对 prompt 进行修改,按 1.1 和 1.2 的拓展比例小幅度调整画幅。

输出成果: 初始图像是近景特写,根据图像本身的特点,对画幅进行小幅度地微调来获得完整的全景镜头,以及合适的构图比例。

test case no.4:通过自定义 Zoomout 构建人物画像

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:先生成一个黄色漩涡图案,然后拓展时改写 prompt 为一只眼睛,进而生成一个带特征的面部局部画面,再次拓展时修改描述词为一个洞穴中的原始部落男性。

输出成果: 成功构建了一个有目标特征「黄色漩涡瞳孔」的男性角色,通过控制拓展比例以达到最终效果—-人物整体和局部特征均得以完整呈现的画面。

test case no.5:通过自定义 Zoomout 构建人物性格

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:先生成一个红色皮夹克的女性胸像,再改写 prompt 获得其坐在摩托车上的局部画面,再改写画幅比例获得完整的人物与车辆的全景照。

输出成果: 成功构建了一个有目标特征「红色皮衣+摩托车」的女性角色,通过控制拓展比例以达到最终效果—-人物细节和整体氛均衡的画面。

test case no.6:通过自定义 Zoomout 完善场景氛围

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:在初次生成的几批图像中,选择合适的画风和画面主体,再根据已有画面特征修改画幅比例。

输出成果: 在选定风格和主体后,将竖幅主体拓展为气势更足的全景影像。关键是拓展比例并非默认的 2 倍或 1.5 倍,而是根据实际需求来控制比例,同时也需要关注怎样的画幅比例可以传达对应的氛围。最终图像画幅比例是 3:1,适合展现有足够细节的宽幅场景。

test case no.7:在 niji 中应用自定义 Zoomout 构建人物和场景

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:

step 1、使用 niji 5 的 style original 生成一个细节丰富的初始人物;

step 2、以 1.2 的 Zoomout 比例纵向拓展出人物的半身画像,画幅比例是 1:2;

step 3、以 1.1 的 Zoomout 比例和 2:1 的画幅比例重构画面,得到外围场景;

step 4、以 1.2 的 Zoomout 比例和 3:4 的画幅比例重构画面,生成人物全身像;

step 5、改写 prompt 添加「宫殿」关键词,以 1.65 的 Zoomout 比例和 3:2 的画幅比例重构画面,生成人物在场景中的全景画面。

输出成果: 虽然人物细节和场景氛围的融合程度还不错,但因为漫画角色的细节较多,在多次 Zoomout 的过程中,场景的丰富会逐渐抢掉中心人物的视觉焦点。因此在每一次修改画幅比例与关键词的时候,需要多加注意对视觉元素的控制。

test case no.8:自定义 Zoomout 构建情绪与故事

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:

step 1、生成一个情绪和神情符合目标的初始人物;

step 2、改写 prompt 同时添加「马」关键词,以 2 的 Zoomout 比例和 3:4 的画幅比例重构画面,生成后续画面的基础,此时需要注意人物与马的位置关系,否则后续生成的画面会非常扭曲怪异;

step 3、以 1.05 的 Zoomout 比例和 2:1 的画幅比例重构画面,生成完整的马匹造型与部份环境信息;

step 4、对比改写 prompt 产生的变化,黑发组不改描述词,以 1.1 的 Zoomout 比例和 3:4 的画幅比例重构画面;白发组添加「巨大镜子」关键词,以 1.6 的 Zoomout 比例和 3:4 的画幅比例重构画面。

输出成果:通过控制 Zoomout 的幅度、画幅比例和 prompt 的调整,可以生成指定场景的画面,且人物的神态到位、情绪饱满,整体画面焦点清晰。但美中不足是,构图不够自由。

test case no.9:通过焦点变化构建故事的场景

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:

step 1、生成一个在河岸上的粽子;

step 2、修改 prompt 为「熊宝宝正准备吃粽子」,以 2 的 Zoomout 比例和 3:4 的画幅比例重构画面;

step 3、修改 prompt 为「小熊一家在野餐」,以 1.2 的 Zoomout 比例和 4:3 的画幅比例重构画面。

输出成果:通过对 prompt 的修改,控制 Zoomout 的幅度、画幅比例,可以改变画面中的焦点和表达主题,适合不同文化元素之间的混搭。

test case no.10:通过镜头变化,构建故事的起承转合

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:

step 1、生成一幅鲜花山谷的画面,人物要明显;

step 2、修改 prompt 为「一面巨大的镜子在草地上」,以 2 的 Zoomout 比例和 3:4 的画幅比例重构画面,此处竖构图是为了生成较高的全身落地镜;

step 3、修改 prompt 为「少女站在镜子前」,以 1.5 的 Zoomout 比例和 3:2 的画幅比例重构画面,改为横构图是为了囊括少女全身以及环境信息。

输出成果:通过改变画面中的焦点和增加元素,在镜头逐渐拉远的过程中,故事缓缓托出。

➡阅读更多 AIGC 相关内容


我的整体感受是:

通过 Midjourney V5.2 的 Zoomout 无限拓展,一次次修改画幅比例、提示词内容,可以用镜头语言的变化来讲故事了,也可以基于一些初始的「点子」延展成有意思的融合作品。但越是这样,越发显得对话式、指令式的交互界面( SD 那种也不算图形交互 )的局限太大了,我很希望今年之内能发展出图形交互界面。

没错,今年 AI 的爆发指向了一个新的趋势:对话式交互界面。但人类之所以发明绘画,开始通过设计图来制作各式各样的新工具,恰恰就是因为语言本身的效率太低。这个逻辑其实也可以从媒体形态上找到端倪:文字–> 图像–> 视频。仅仅依靠对话,我们无法构建出一个一把剪刀;仅仅通过语言表达的播客,也无法传达任何需要视觉才可以精准理解的信息。对话指令的交互界面与图形交互界面之间的关系,并非只是 dos 和 windows 之间的差异,更重要的点在于,后者可以更直观地完成交互,以及精准地进行创作行为。AIGC 的重点不仅仅只是 AI,而是我们如何使用 AI 进行「Generative Content」。

我说一句话,AI 给我一个东西,这不是创作。

创作是一个生命在主观意志的驱使下,刻意的、有目的地表达其心中所想。

因为 GPT 的爆发而说对话式交互是未来,这样的断言是过于冲动的。只要是一个严肃的创作者,就会立刻意识到,真正的创作一定需要多纬度的交互界面。这其中不仅仅包含对话指令,同样更需要图形界面以及在数字虚拟空间中的三维交互。AIGC 工具与 PS、表格、PPT、思维导图等已有工具的结合,就是这类多维交互的雏形。

那一刻,我们不会等太久。

➡阅读更多 AIGC 相关内容

❌
❌