Normal view

There are new articles available, click to refresh the page.
Before yesterdayTricks & Tech

FLUX Kontext – 黑森林图像生成式流匹配模型发布实测

By: DUN
28 May 2025 at 19:44

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

长时间没消息的黑森林工作室憋了个大的,发布了生成式流匹配模型 FLUX Kontext。

这套模型最强的地方就是可以对图片进行编辑,但是不会影响没有编辑的地方。

而且还支持多张图片参考生成新的图像,依然能保持需要参考内容的高度一致性。

直接替代了很多原来需要 PS (美图秀秀、Photoshop 等)才能做的需求,原来需要吭哧瘪肚 P 很久的图,现在说句话就行。

我这几天也探索了很多这个模型的用法,这次不会以测试的形式展示了,全是具体用法,让你告别 P 图这个复杂难搞的操作,另外后面也会介绍所有可以使用这个模型的渠道。

🎨 先介绍一下我探索出来的各种用法:

首先是非常简单的图片修改需求,FLUX Kontext 支持通过简单的提示词对图片进行非常精细的修改,而且不会影响未修改的区域。

我们想要给自己的日常照片加一些配饰或者改一下照片的姿势都没有问题,可以看到人物的面部一致性都没有问题,而且修改的地方跟环境也融合的很好。

⚠️注意:FLUX Kontext 只支持英文提示词,我这里放中文是方便理解,你可以用 AI 或者翻译软件把提示翻译了使用

当然 FLUX Kontext 也可以对照片进行大幅度的更改,比如你想要给照片换个背景或者给你自己换一身应景的衣服,再或者在前面的基础上换个姿势。

可以看到我把场景变成了酒吧,整个光线氛围也同步发生了变化,之后又尝试了不同的拍摄角度和姿势,也没有问题。

这种修改需要注意的是优势 Kontext 的分辨率是固定的,画全身照的时候面部有可能会变糊,因为像素区域太小的原因。

🎉 从左到右的提示词分别是:

站在酒吧吧台前

低角度侧脸,白衬衫加领带,吧台灯带背光

左侧半身特写,黑色皮夹克,霓虹灯映衬

全身广角,红色鸡尾酒裙,手扶吧椅

背后平视,帽饰西装,吧台酒架虚化

之前很火给老照片上色和修复也不是问题。

比如我下面的测试提示词就只有给照片上色,Kontext 处理的很好,而且整个色彩非常的高级和自然,明暗关系处理的很好。

想要做风格化?也没问题,只需要一句“将图片变成真实照片”的提示词就行,所有的细节都还原的很好。

当然可能更多人的需求是把自己的照片变成风格化的图片。

比如我们可以输入“把照片转换为吉卜力风格”,Kontext 也处理的很好而且人物的主要特征和电车的特征都还原了,不存在 4o 那种过度重绘和修改细节的问题。

而且这玩意还能修改图片上的文字,最屌的是不会影响原来的其他内容,而且修改的文字字体依然可以保持原来的风格。

你只需要输入“将图片中的 XXX 文字修改为 XXX”就行,比如我这里就把主要的标题改为了 Guizang,字体风格都是一致的,而且他还知道不需要换行。

针对海报复杂一些的修改也是可以的,你可以把一张找到的现成海报改掉文字和内容变成你自己的。

比如这里我就把 Oppo 的倒计时海报改成了小米的,而且连背景色都换了,Kontext 很好的处理了玻璃散射光的那部分。

这里唯一可惜的就是 FLUX Kontext 不支持生成中文,所以你只能修改图片中的英文,但是如果你不修改里面的中文,文字是不受影响的,这比其他图像模型好多了。

Change “Oppo” to “Xiaomi”, and set the image background color to orange.

这个是 Padphone 老师发现的,FLUX Kontext 还是目前最强的去水印模型,可以去掉各种复杂恶心的水印。

比如这里我找了一个 Unsplash 带水印的图片,这种半透明的水印会和图片叠加混合非常难彻底去掉,你只需要跟 Kontext 说“去掉图片的水印”,接下来奇迹就会发生,一点水印都没了。

大家最近应该都被一些 AI 图像模型生成图片默认加水印搞得不堪其扰把,即使开了会员依然有水印,这时候就可以让 Kontext 帮你解决了。

我们也可以用 Kontext 给各种平面的文字或者图案添加上材质和背景,替代原来需要 3D 渲染才能完成的需求,非常适合做品牌设计和平面设计的朋友。

比如这里我就给这个 Logo 变成了金属材质,还给图片加上了草地的背景,可以看到 Kontext 把 Logo 的一些笔画细节还原的非常好。

🎹

Transform the logo text into a shimmering metallic material, floating above a grassy field filled with flowers.

Kontext 还可以在你浏览景区的时候帮你把各种无关的其他游客搞掉,再也不用担心自己好不容易拍了账号照片,结果被误入的其他人毁掉了。

可以看到 Kontext 可以很清楚的识别画面的主体不会连你想拍的人也一起去掉,当然你如果就是想拍风景也可以,让他去掉画面上所有的人就行。

去掉照片中跟主体无关的其他行人

去掉照片中所有的人

FLUX Kontext – 黑森林图像生成式流匹配模型发布实测

前几天收到了可灵的一周年礼盒,看到 Padphone 老师做的展示图手痒,就想看看能不能用 Kontext 做出来,没想到真可以还做的很好。

非常离谱是他连我箱子放地上的灰尘都还原了,下次你要是想要生成类似图片的话记得擦一下产品再拍,哈哈。

💡

一个黑色箱子放在一张舒适、有褶皱的白色毯子中央,毯子的织物纹理清晰可见。瓶子周围自然地摆放着一些精致的白色小苍兰,几片花瓣零星散落。阳光柔和地洒下,投下柔和、弥散的阴影,营造出一种温暖而宁静的氛围。非常逼真的特写场景,光线是柔和的自然日光。

很多人说箱子是立方体太好生成了,整点复杂的,那我们拿可灵礼盒里的工服试试。

显然也没啥问题,文字有问题是因为生成图片的分辨率低,文字又小,导致的模糊,就跟我们拍照的时候离得远的文字也会模糊一样。

一件黑色 T 恤水平漂浮于空中,正从天花板向地板降落,看起来毫无重量。画面中无人,充满超现实感且不受重力影响。光线柔和,风格简约而优雅。背景为灰色。

很多朋友说我想要更复杂的商品展示,指定多张图片的模特和商品然后合成到一个图片中行不行,也是可以的,多图参考有点复杂我后面会讲。

可以看到第一张图商品细节、模特服装、配饰、发型以及背景都没问题,这个惊到我了。

第二张图我让模特穿上了可灵的工服,这次连衣服上的小字都还原了,可以说是完美还原,这个你让我在电商平台刷到,加上电商平台的压缩,我看不出来说实话。

这里有个小技巧:FLUX Kontext 手持产品的时候,产品一般会比正常的比例偏大,这个时候提示词描述一下产品大小就可以解决问题,比如手持易拉罐变为手持小号易拉罐。

女孩拿着化妆品瓶子

女孩穿着这件 T 恤

最后压轴的是我们日常修图最常见的需求,大家都想把自己变得好看点,面部的美颜现在都发展的比较好了。

但是身体部位很多还是靠用美图或者用醒图一点点的 P,自带的一键优化非常的生硬死板,不够自然。

昨天试了一下给男生增肌,发现 FLUX Kontext 可以很好的理解需求,图片任何部分都没变化,只有胳膊的肌肉变大了,这要是不说谁知道我 P 了,哈哈。

🍞

男性胳膊的肌肉变大,面部没有变化。

那变瘦点是不是也可以呢,可以的,甚至都能瘦脸,瘦的很自然,不会再让人从扭曲的门把手或者瓷砖看到自己 P 图了,突然想到这下卖减肥药和健身课的是不是又爽了,一键搞定广告素材。

📍

让女性的胳膊变瘦,肚子变得平坦,去掉面部赘肉

如果你就是单纯的想要尝试一下这个模型 不想涉及到复杂操作的话我推荐两个渠道:

FLUX 官方的 Palyground (https://playground.bfl.ai/image/edit)和 Krea (https://www.krea.ai/edit)其中 FLUX 的 Palyground 还送了 200 积分,生成一张图只消耗 4 积分,够你玩很久了。

这两个地方的使用都很简单上传图片,输入提示词然后等待就行。

其中 Krea 选择 FLUX Kontext 的 Pro 模型就行 Max 模型在单图修改场景反而效果不好。

FLUX 的 Palyground 的话生成的时候记得把在输入框右边三个点那里把每次生成的张数改成 1,不然一次生成 4 张有点浪费。

如果你想要开发产品或者有 Comfyui 的基础想要玩一下多图参考,这里我推荐 Fal 的渠道(https://fal.ai/models/fal-ai/flux-pro/kontext/max/multi)。

Fal 的测试页面可以直接使用多图参考,上传图片输入提示词就行,如果你不想用多图了,可以在页面上方红框那里选择其他 Pro 模型尝试单图编辑。

另外 Fal 也有他们的 Comfyui 插件,只需要在 Comfyui manager 里面搜索 ComfyUI-fal-API 然后安装就行。

安装之后在插件目录,找到 config.ini 文件,把里面 这段话改成你的 API Key 就行。

工作流的搭建很简单找到 FLUX Pro Kontext Multi 这个节点链接多张图,之后输入提示词就行,另外由于这个是 API 节点不需要本地算力,所以 mac 电脑也可以玩。

在涉及到针对人体的精细修改比如变瘦、变老变年轻需要多抽卡,不一定一次能成功。

多图参考的时候人脸的 ID 保持会下降,保持 ID 最好的方式是让 FLUX 不要修改面部。

FLUX Kontext 是可以识别图片里面的涂鸦标记的意思的。

你可以将你想要修改的地方圈起来,生成的时候他不会把标记生成进去,这样就可以实现精确修改,比如这个来自 @fofrAI 的案例,没有提示词就实现了换脸。

好了今天的教程到这里就结束了。

FLUX Kontext 除了强大能力之外的另一个优势是他非常便宜,编辑一张图只需要 0.08 美元也就是 5 毛钱人民币,相较于 GPT-4o 一张图 1.4 人民币的价格可以说非常便宜了。

另外他们后面还会开源一个 Dev 的 Kontext 模型这个会让成本进一步降低,太期待了。

从全球流量排名看中文信息茧房

By: Anonymous
17 April 2025 at 23:25

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

截止 2025 年 3 月 1 日,根据 Similarweb 网站排名, 当全球网民在 Google 检索知识、在 YouTube 观看视频、在 Facebook 分享生活时,中国互联网用户正困守在一个由百度(第 15 位)、淘宝(跌出前 100 位)和微信构筑的数字孤岛。

Alexa 数据显示,全球前 15 大流量平台中,仅百度(第 15 位)、俄罗斯 Yandex(第 12 位)和部分受限的雅虎(第 10 位)能在境内正常访问。

这种物理层面网络隔绝,造就了人类文明史上最吊诡的景观:14 亿人口的市场与全球 60%的英语信息之间,横亘着无形的数字柏林墙。

搜索引擎的对比尤为刺眼:Google853 亿月访问量统治着全球信息分发,而百度虽在中国市场独占鳌头,其国际影响力却仅限于中文世界。

更令人深思的是,即便在被封锁的状态下,Google 仍以断层优势稳居榜首,这种”缺席的统治力”印证了开放生态的顽强生命力。

正如三星退出中国仍保持全球销量第一,谷歌被屏蔽 13 年依然傲视群雄,这些现象都在叩问:我们引以为傲的”市场规模”,是否只是温水煮青蛙的幻象?

当英语世界创造着占全球 60%的互联网内容,中文信息仅贡献 1.3%的微小份额,这种悬殊对比揭开了残酷真相:每个中文网民本质上都生活在经过三重过滤的”楚门世界”。

在抖音推送的娱乐至死中,在微博热搜的议程设置里,在微信朋友圈的信息茧房内,人们接触的所谓”海量信息”,不过是浩瀚知识海洋中的涓滴之水。

这种认知局限在学术领域尤为致命。

维基百科(第 8 位)作为全球最大的知识共享平台,其英文词条数量是中文版的 15 倍。

当中国学生还在百度百科检索被阉割的知识时,国际学术界早已在 arXiv、PubMed 等开放平台实现知识共享。

更可怕的是,那些呼吁”取消英语教育”的喧嚣,正在将阶层固化推向深渊——精英阶层通过匿名服务突破封锁获取全球 60%的信息,而普通民众却被永久禁锢在 1.3%的围城之中。

中国互联网企业看似辉煌的流量数据,实则暴露出结构性危机。

淘宝虽在国内电商市场称雄,其全球排名却已跌出前 100;腾讯视频坐拥庞大用户群,但内容创新力远逊于 Netflix(第 18 位);即便是引以为傲的短视频平台 TikTok(第 14 位),也因地缘政治风险在多个市场遭遇封杀。

这种”内卷式繁荣”折射出中国互联网经济的致命伤:过度依赖封闭市场,缺乏真正的全球竞争力。

反观亚马逊(第 13 位)的全球化布局,其日本、德国、印度站点同步跻身全球百强,这种”多点开花”的生态正是中国企业欠缺的。

当我们的电商平台还在为”二选一”垄断沾沾自喜时,Booking.com 已通过全球化运营实现月访问量飙升。这种对比残酷地揭示:在温室里培育的巨头,终究难敌旷野中生长的猛兽。

打破困局需要三重觉醒:

首先,必须承认中文信息生态的先天不足,1.3%的占比不仅是数量劣势,更是质量危机——当百度百科充斥着商业软文,当知网沦为空壳论文的仓库,我们拿什么参与全球知识生产?

其次,要正视语言壁垒带来的认知断层,英语不应是特权的通行证,而应成为公民的基础素养。

最后,需要重建开放包容的互联网精神,正如 B 站通过引进国际优质内容实现破圈,真正的文化自信从来不是闭关锁国。

那些叫嚣”取消英语”的愚昧,那些沉醉”市场规模”的虚妄,那些迷信”信息管控”的短视,终将被证明是文明进程中的逆流。

当俄罗斯 Yandex 都在努力突破语言边界时,我们是否该反思:困守 1.3%的信息孤岛,真的能孕育出引领人类文明的力量吗?答案,早已写在谷歌 853 亿月访问量的星辰大海里。

我的新电脑: 2025 年 MATX 小主机

30 May 2025 at 16:00

距离我上一次装 PC 主机已经过去 7 年。我们中年男人真的是太难了,存了三个月的零花钱,在拼京淘东拼西凑,这里扣扣,那里省省,花费¥3200 巨资,终于把家里用了 7 年的老电脑做了个小小升级了。消费降级,没用 Intel 的高端 CPU,改用了小牌子 AMD,显卡也从之前的 80 系列降级到 70 系。🥹

距离我上一次装 PC 主机已经过去 7 年。2018 年装了一台 ATX 主机,这台老电脑配置如下:

  • CPU: i8700k
  • 主板: 技嘉 Z370 AORUS Gaming 3
  • 内存: 芝奇幻光戟 DDR3 3000 8GB *4
  • 硬盘: 三星 960EVO 500G
  • 显卡: EVGA GeForce GTX 1080
  • 电源: 海盗船 RM650x
  • 散热: 恩杰 NZXT Kraken X62
  • 机箱: NZXT S340 Elite

当初这套配置还是比较顶,所以直到 2025 年的今天,日常用起来还是没什么问题,但是应对近几年的各种 3A 大作就颇有压力了。

临近年中各大电商促销,加上AMD、英伟达等厂商今年推出的产品算是回到了一个合理乃至甜点的区间,今年就动了重新装一台 PC 主机的念头。

装机思路 ​

我是一个程序员,长期以来,我的主力设备都是 Mac,现在用的 MacBook Pro 16 英寸是 M2 Max / 96BG / 4TB 的配置,性能还是十分强大的,所以这次装 PC 主机,主要有几个想法:利用已有的配件(固态硬盘)、MATX小机箱,不用水冷,不追求极致性能或极致性价比,力求在合理价格区间组装一台适合自己的主机,能够应对当前主流的3A大作以及可能的视频剪辑和直播需求,作为一个稳定的偏娱乐工作站。

一开始也有考虑 Ultra 265K 的 Intel CPU + N 卡的组合,但是考虑到英特尔去年的缩缸,Ultra 这一代的支持时间,乃至目前岌岌可危的股价,最终决定还是转向市场上更成熟的 AMD 处理器。

最终配置 ​

组件 品牌 型号 购买渠道 备注
CPU AMD AMD Ryzen 7 9700X(盒装) 京东 板U套装优惠
主板 技嘉 B850M AORUS ELITE WIFI7 ICE - P(雕妹) 京东 2025年5月15日上市,冰雕换皮
内存 宏碁 掠夺者 PREDATOR 48G(24G×2) 套装 DDR5 6000频率 Hermes冰刃 京东 6000/C28 新M-die 颗粒
固态硬盘1 海力士 Solidigm P44 Pro 2TB NVMe 已有 PCIe 4.0 ,Mac Mini 外接闲置
固态硬盘2 海康威视 C2000 Pro 1TB 已有 PCIe 3.0 ,购于2019年,东芝颗粒
显卡 铭瑄 Maxsun GeForce RTX 5070 iCraft OC12G T0 天猫
电源 九州风神 PQ850P 京东 白金全模组电源,850W
散热 九州风神 冰立 AK500S 数显版 京东 5热管,带数显屏
机箱 乔思伯 Z20 MATX 白色 京东 经典 MATX 小机箱,约20L
机箱风扇 利民 TL-S12-W/RW 120MM ARGB 12cm机箱风扇 * 6 京东 正向4把,反向2把

等各个配件送到家,再集体拍张合照的的感觉还是很不错的。

整机展示 ​

这次装机主色调是「白色」,但是我并没有追求「纯白」,最后出来的整机效果基本达到了我的预期。

乔思伯 Z20 是很经典的 MATX 小机箱,在装机领域口碑很不错,体积也不大,刚好在我的心水范围内。

Z20 一侧是钢化玻璃,其余三名是带孔的金属网格,内部有防尘罩,整体看起来简洁大气。

机箱正面的电源开关、 Type-C 接口和 USB 3.0 ,还有一个音频接口,孔比较少,对于我来说有点不够用。

机箱背部还附送了一个小的带有磁铁的防尘罩,可以贴到机箱背部。

机箱内部主要配件和布局,使用的都是各个配件自带的线材。九州风神这个电源附送了压纹线和理线夹,稍微把显卡、主板供电线理了一下。

这次使用了宏碁的冰刃 24GB*2 的套条,频率 6000MHz,时序 C28,使用的是海力士 3GB 新 M-die 颗粒,相比 32GB 的只贵了¥100不到,果断就选择了这个,毕竟我 7 年前的老电脑都 32GB 了,如果再装一台 32GB 的,感觉有点不够意思。

CPU 风冷散热外接线,用白色电工胶布包了一下,稍微美观了一点。

这次之所以不用水冷,主要是图省事,之前那台老机器的恩杰水冷坏过一次,虽然免费换新了,但是从原理的角度水冷相比风冷的故障率还是高一些,现在风冷水冷对于这种级别的机器散热效率差别不太大,这次就选择风冷了。九州风神 AK500S 这个风冷价格不贵,颜值还行,我用利民的 S-12 换了风冷自带的风扇,统一机箱内的风扇风格。

显卡是铭瑄的 RTX 5070 iCraft OC12G 瑷珈,之所以选择铭瑄的显卡,一是之前买了一张铭瑄的 Intel B580 感觉还行,再就是这次铭瑄的铭瑄 5070 价格很香,要不从颜值的角度,肯定还是诸如技嘉雪鹰 5070 更好看,但是架不住铭瑄这个便宜不少。

铭瑄这个虽然也是白色系显卡,但是顶部是二次元元素,仔细看的话底部有点泛黄的设计,不是纯白,但是塞进机箱后看得就不明显了。

来到晚上灯光展示,我不是一个 RGB 爱好者,但是可以不用,但是不能没有,这次我还是给内存、以及风扇都选择了 RGB 效果,机箱内部采用了上2出、后1出、下2进的风道布局,机箱上的 6 把风扇都接到了 ARGB 集线器,可以通过额外的遥控器控制,也可以通过主板同步。

内存、显卡、风扇的灯光都可以同步,可以根据自己的心情和喜好调整灯光动效、颜色、明暗。

九州风神这个风冷有一个小的 LED 屏幕,安装了软件之后,可以显示 CPU 温度、CPU 占有率灯信息,但是比较遗憾的是这个风冷只有淡绿色的灯,不能与其他 ARGB 灯光同步。

我的 ARGB 集线器上也有一个小的 LED 灯,也能同步,透过背部露出来隐隐约约的效果还行。

装机过程 ​

接下来再分享一下一些装机过程中的配件细节。

这次我本来是想购买技嘉 B850M 冰雕的,但是没想到刚好看到技嘉 B850M 雕妹上市,规格就是冰雕换皮,但是升级了 Wi-Fi 7 的芯片,价格甚至还便宜了几十块钱,果断入手。

雕妹这个主板整体大部分是白色的,但是在一些散热马甲上有技嘉的橙黑元素,不像冰雕整体纯白那么干净。但是因为我本身不追求纯白,加上有预期装机完成之后大部分都会被挡住,就没有太在意。

支持安装两个 M2 固态硬盘,上面有一个支持快拆的 M2 固态硬盘散热片,下面的 M2 固态硬盘也支持快拆,不用再用螺丝固定。

这次我用的两个固态硬盘都是已有的老硬盘,其中海力士 Solidigm P44 Pro 2TB 之前是 Mac Mini 的外接硬盘,算是 PCIe 4.0 的顶级固态了,放到现在依旧是高端水准,海康威视那个 C2000 Pro 1TB 是 2019 年买的,虽然是 PCIe 3.0 的,但是也足够日常使用了,我之前就是放在老电脑上专门放游戏。

B850M 雕妹支持 4 根 DDR5 内存条,这部分也是白色卡槽。

板U套装的 9700X。

想起上次装机的时候安装 CPU 手抖了,把主板的针脚搞弯了,这次特别小心,好在现在优化了设计,直接傻瓜放进去扣上就好了。

宏碁的内存条,48GB,应该能满足我的大部分需求了。 上板之后的效果。

散热器这部分没什么好说了的,安装好 AMD 专用的支架之后,涂规制,直接安到了主板上。

九州风神的 pq850p 电源,850W 白金全模组电源,本来我这个规格 750W 也够了,但是想到也没差多少钱,就又换了 850W 的。PQ850P 这个风扇口碑还行,颜值我比较喜欢。

理线效果 ​

这次是我第一次装 MATX 小机箱,走线和理线成了一个大问题。这次我依旧是自己亲自动手装机,也是投入了心血,还是想着能够尽量美观。

上面就是最终的走线效果,由于机箱内有6个 ARGB 风扇,加上有一个 ARGB 集线器需要 SATA 单独供电,整体线材比较多,CPU供电线、主板供电线围绕机箱外部走了一圈,风扇之类的小线、机箱前置的延伸线之类的,大多就是分类扎起来,尽量藏在了电源下部的空间。

这次用到的主要理线工具,白色扎带、网线钳刀、白色电工胶布。当然还有电源送的理线架。

性能跑分 ​

由于我装机之后,立马就装了不少软件、游戏,并不是纯净系统的状态,所以跑分结果可能有些偏差,实际看下来与专门的评测有 3% 到 7% 左右的差距。

整体就是主板和系统的默认配置,开启 EXPO,CPU 功耗限制开启 105W。

图吧硬件和系统信息如上。

CPU 和 GPU 的信息,看了下 CPU 核心电压 1.0-到1.1 左右波动,看着体质还行的样子?

CPU-Z 压力测试 ​

用 CPU-Z 简单进行基准跑分测试,左边是默认 TDP 65W 模式下的跑分,右边是开启 TDP 105W 模式的跑分,解锁功耗之后提升约 10% 左右,最大看到功率跑到 140W 的样子。

Cinebench R23 ​

同样跑一个 Cinebench R23 的多核和单核测试:

  • TDP 65W 模式: 单核 2179,多核 19055
  • TDP 105W 模式 PBO 开启35负压: 单核 2180,多核 22624

一开始我的主板只开启了 TPD 105W 功耗墙,这里的跑分与其他人 R23 单核 2200+,多核 23000 + 还是有不小差距。后来手动调整了一下 PBO 的负压到30,再跑一次方多核就上升到了 22624。

3DMark CPU Profile ​

3DMark CPU Profile 最大线程 9978,1线程 1256

3DMark Time Spy Extreme ​

Time Spy Extreme 分数 9940。

3DMark Time Spy ​

Time Spy 分数 20476。

双烤:TDP 105W ​

在开启 TDP 105W 和 PBO Auto ( BIOS 默认) 的情况下,使用 AIDA 64 FPU + Furmark 4K 双烤,15 分钟。CPU达到 95° 温度墙,GPU 核心在72-74摄氏度, GPU显存 64-6 摄氏度。

这个温度确实有点高,除了 CPU 本身的原因,另一个原因可能是 AK500S 风冷的风扇。我替换的利民 TL-S12 风扇最高转速只有 1500 rpm,风压为 1.31,而原本九州风神自带的风冷风扇最高转速为 1850 rpm,风压为 2.19,这显然是为了颜值牺牲了散热效率。

不过,这个温度仍在预期范围内,当然在大多数情况下,不可能长期在这种工况下运行。

有关 9700x 使用 AK500s 烤鸡的测试,可以参考 B 站的这个视频:

这个视频的指定评论有 UP 主详细的各个条件的温度表现,这么看来我这个温度应该也是正常。

黑神话悟空 ​

4K 分辨率,超高画质、开启 DLSS、关闭光线追踪,平均帧率90帧。

2K 分辨率,超高画质,开启 DLSS,关闭光线追踪,平均帧率 116 帧。

其他游戏 ​

现在的硬件在规格差不多的情况下,游戏性能的差距都不大,加上我本身玩的游戏不多,这几天新装电脑之后,也只是玩了玩网游永劫无间、无畏契约、三角洲行动、DOOM 毁灭战士、使命召唤黑色行动6、33号远征队。

我的显示器只是 4K 60帧,加上我对高帧无感。实测下来。

三角洲行动: 2K,超高画质,DLSS,能够达到 250- 300帧。

永劫无间: 2K,中低画质,DLSS开启2x,能够达到 200到 300 帧

最新出的毁灭战士:黑暗时代,4K + DLSS 基本也能达到 170帧的水平。

总结 ​

这次装机前,我准备了不少资料,断断续续在抖音、B站和小红书上查看了许多装机方案。简单来说,CPU、主板和内存的组合基本上只有几种,而显卡的选择则因个人预算差异较大。其他配件如电源、机箱、风扇和散热器则主要看个人喜好(这也是水分较多的地方)。

整体配置看下来,基本符合我的预期,除了显卡,其他配件都没有使用低配,算是比较均衡。最终的跑分虽然与评测有差距,但我觉得主要是我的设置问题。

由于我并不追求极致的跑分和性能,在目前的硬件水平下,我新装的这台 MATX 基本可以流畅运行 2K 游戏,算是达成了我的心愿。

关于「流量」和「弹性」的详细说明

By: DUN
10 May 2025 at 16:39

全球网络服务更新,更多区域已上线

全球网络服务更新,更多区域已上线

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

近期,围绕 DUN.IM 的弹性流量有一些讨论。我们希望在此参照我们的 使用条款 来澄清这些问题。〔更多问题参考这里

DUN.IM,我们根据您的计划提供不同的数据访问权限,详见我们的会员计划

我们的方法植根于 使用条款 中阐述的原则。对所有用户而言,服务旨在用于个人非商业用途

执行这些政策有助于为所有用户维护我们服务的完整性和性能。

这对所有 DUN.IM 用户都至关重要:

您可以观看视频、下载供个人使用的游戏以及进行大量浏览。我们的系统,尤其是付费计划的弹性流量,旨在满足合法的高稳定个人使用需求。

我们的 使用条款 并未明确禁止用于个人文件获取的 P2P 或种子下载。但是,我们明确有禁止“非法活动”、“网络滥用并降低其他用户服务质量”以及“与典型个人使用不符的过度数据传输”。

因此,虽然为个人使用下载文件通常在允许范围内(用户需合理使用“弹性流量”),但诸如持续的、大流量的做种(seeding)行为,若对共享资源造成不当负担、类似于文件托管服务或助长未经授权的版权材料分发,则可能根据这些禁止用途受到影响。

对于提供弹性流量的付费计划,DUN.IM 更关注使用的性质和影响(即是否为个人非商业用途且符合我们的条款),而非设置一个限制性的硬性上限。我们关注的是用户是否遵守禁止用途列表。

请确保您的 DUN.IM 账户安全。未经授权的访问可能导致账户被滥用,如果是合法个人使用被标记,请联系我们澄清。

所有 DUN.IM 用户均在我们 使用条款 的政策框架下运营。

正如我们的 使用条款 所述,“违反这些条款可能导致您的服务被临时暂停或终止。” 如果用户在仍持续超出限额,或任何用户从事被禁止的活动,此条款均适用。

我们还年轻,可不想看到这个世界,处在毫无自由、隐私的边缘。

眼科近视验光体验:深圳大学总医院

14 May 2025 at 22:50

距离上一次配眼镜已经过去五年,之前的眼镜一直戴到今天。蔡司的镜片依旧完好,而凯米镜片的那副眼镜因平时运动和不太爱惜,已经磨损得不成样子。是时候重新配眼镜了。

从医学角度来看,成年后眼睛的近视一般不会加深。在过去十年里,我的眼镜度数基本没有变化。不过,我想既然要重新配眼镜,不如趁这个机会重新验光,了解一下自己眼睛的真实情况。

  • 职业背景:我是一个程序员,过去几年,大多情况下每天是高强度用眼。
  • 眼睛现状: 左右两眼均是 600°,并且都有轻微散光

这次我没有选择常见的眼镜店验光,而是选择了去深圳大学总医院。

为什么不选择眼镜店验光 ​

由于线下商业的特点,眼镜里店的验光只是销售眼服务中的一个环节。尽管一些眼镜店配备专业验光人员和先进设备,但由于线下销售的性质以快速达成交易为目的,从理性角度来看,眼镜店的验光存在潜在问题。

眼镜店可能仅进行简单的仪器验光,验光过程可能由普通店员完成。

虽然验光师的资格考试不难,但在这种线下场景中,普通消费者通常不太会去确认验光师的资质。

为什么不去专业的眼科医院验光 ​

看到不少人推荐深圳眼科医院或者热门的眼科医院,我恰恰选择避开这些「热门」的医院。验光只是很基础的服务,对于医院和医生眼科方便的水平要求其实并不高,所以没必要选择那种专科医院。

热门的眼科医院,倒容易存在人多排队的情况。人多和服务好很多情况下是互斥的。

这次我选择了「深圳大学总医院」,一个是在西丽离得不远,而是新医院,硬件设施肯定没问题,加上新医院人不多,不用排队就诊、验光都很方便。

流程 ​

下面简单说一下这次在医院的验光流程。

  • 在「深圳大学总医院智慧医院」的小程序预约挂号。随便选「眼科门诊」的主治医师或者医师即可,挂号费25元。
  • 拿到挂号单之后,去到医院3楼的眼科门诊,把挂号单给到分诊台的护士,直接说「验光」,护士会先行使用仪器给你做当前戴着眼镜的验光。
  • 接下来等号去到医生的办公室,直接跟医生说「验光」即可,医生会先再次检查一下,然后开「验光单」去专门的验光室验光。
  • 直接门口的缴费机器缴纳「验光」费用,拿验光单回到分诊台,等叫号去验光室。
  • 接下来就是专业的验光流程,验光师也是专门的大夫,会先检测你当前的眼镜都市,然后再一次检查左右眼的都市和散光,尤其是散光会多次验证偏差角度。由于我眼镜都市600多,而今天的第一轮验光都市只有 550°,医生建议我需要再做一次散瞳,以便正确验光。接下来拿着「散瞳药」的单据缴费,再去楼下取散瞳的药。
  • 散瞳需要持续40分钟,每 10 分钟滴第一次,第4次滴完之后再等10分钟,再次去验光室。散瞳之后的验光,我的度数进一步下降到左右两眼 500°,与我当前眼镜 600° 的度数相差了 100°。

鉴于我散瞳之后的验光度数下降过大,医生让我需要改天重新再次验光,以精准检查出适合的眼睛度数。

我第二天又来医院,需要重新挂号,拿出昨天的检查单据给医生,直接说「过来复查验光」即可,医生会再开一个「验光单」,这次再去到验光室。

  • 与昨天一样,首先还是常规的左右眼近视度数、散光的检查。
  • 然后医生分别给我按照散瞳的度数 500°,给我调整试戴眼睛,我感觉 500° 看得有点不清楚,医生又调整到 550°,我就感觉清晰很多了。医生让我戴着出去走 10 分钟,看看远近,看手机,看看有没有什么不适的。

我戴着550°的眼镜,发现与我600°的眼镜相比,清晰度差异不大。在标准验光距离,我能清晰看到验光表上5.0的小字,外出时也没有感到不适。

医生的建议是:我当前眼睛的实际度数为500°,但由于一次性下降太多,近期可以先配550°的眼镜,待适应半年到一两年后,再慢慢降到500°。

我询问医生和验光师,为什么之前几年600°时没有感到不适。医生表示这种情况很常见,许多人在验光时不够严谨,甚至在用眼一天后再去验光,结果可能相差300多度。

我这五六年适应600°是因为眼睛本身有调节功能,但这个度数对我的眼睛肌肉压力过过大,长期来看还是有害的。

花费 ​

  • DAY1: 挂号¥25 / 门诊 ¥65 / 散瞳药 ¥17
  • DAY2: 挂号¥25 / 门诊 ¥24
  • 总花费; ¥156
  • 额外花费: 停车¥10*2 = ¥20

停车费用可以通过输入当日的门诊编号进行优惠减免,要不原价要 ¥30 多。

注意 ​

如果要做散瞳的话,建议就别开车了,另外可以戴一副墨镜,做完散瞳之后,2-4小时之内,都无法看清楚近处的东西,另外对阳光敏感。

如果不做散瞳的话,一天就能搞定,花费能控制在¥100元以内。

这次验光,整体还是满足了我的预期。纠正了我之前眼镜度数不准的大雷,只可惜了我之前花费巨资配的蔡司眼镜。

AI 生成卡片便当形式信息展示页

By: Anonymous
5 May 2025 at 18:22

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

最近 X 上很流行 Bento 信息图再一次引领 AI 网页设计潮流。

「Bento grid 」是一种受日本便当盒(Bento Box)启发的界面设计风格。

强调内容用卡片形式排列,美观又便于信息分区展示。

Apple Watch 网站设计

Apple M2 芯片介绍

Bento Grid 设计风格非常适合社交媒体分享、内容聚合、产品展示等场景。

有网站专门收集用 Bento Grid 风格精美设计。

https://bentogrids.com/

参考 Bento grid 风格原理。

这两天调试了一段提示词。

支持把任意主题或内容,生成 Bento 图。

方便截图传播引流。

给大家感受下效果,推荐用 Gemini 2.5 Pro 0506 版或 Claude 3.7 Sonnet 生成。

https://www.32kw.com/view/0c7b316

理论 AI 可以设计无限种风格。

未来:人的筛选判断以变得越来越重要,人人需提升自己审美。

因自己不是设计师,审美能力有限。

暴力一口气生成了 60 种风格,方便大家查找、引用。

60 种风格参考网站:

https://www.32kw.com/view/bb3310b

花费了 4-5 个小时,反复测试。

迭代到 V5 版,基本可用,虽仍有瑕疵。

https://bentogrids.com/

上面网站找自己喜欢的设计风格。

截图发 AI,让描述设计风格,加到 Prompt 中。

风格使用很灵活,可以风格序号或风格名,甚至可以组合多个风格。

比如提供风格序号:2、3、7,就会组合大胆现代、优雅复古和日式极简三种风格。

风格选项位置:

把自己二维码传到支持在线访问的任何网站,获取图片地址替换。

两点说明:

感受: 没有任何提示词是完美的,永远有迭代空间。

Suno – AI 创作音乐 5 分钟实战教程

By: Anonymous
2 May 2025 at 12:09

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

AI 生成音乐工具,海外有 Suno、Udio,国内有字节的海绵音乐、天工 AI 音乐等。

个人体验看,Suno 综合实力最强,几乎是遥遥领先。

尤其是最近更新了 4.5 版,提示词遵循能力大大提升。

可玩性、可用性猛的提升,非常酷。

官网:
https://suno.com/

iOS 版下载地址

‎Make and explore music with Suno. Whether you’re a shower singer or a charting artist, we break barriers between you and the song you dream of making. No instrument needed, just imagination. Begin your musical journey with 10 free songs per day. – * Your subscription will be charged to your App

注册有积分,可免费生成音乐,但不能用最近刚出的 4.5 模型。

如想体验,用我链接,互赚点积分。

No Description

但是,想玩最牛模型,双币信用卡 Stripe 支付(有被拒概率),或某宝买成品号(75 元左右/月)。

以网页版为例。

点击 Create->Simple,输入音乐风格和主题提示词,点橙色的 Create 按钮。

就能生成一首还 OK 的歌。

是不是很简单?

如想相对精确控制一首歌的歌词、每小节风格/唱腔/器乐等。

就要用 Custom 模式,可理解为专家模式。

不要怕,其实也很简单。

核心输入就三个:

负向提示词,可以避免完全不想要的风格,选填。

比如喜欢重金属的,肯定要俗套的流行乐。

不会写歌词怎么办?

点击 Lyrics 模型下的“Full Song”,出现弹窗,输入主题和风格。

然后点击“Write Lyrics”,AI 自动生成两个版本,选一个即可。

如不满意,可手动修改。

或点“By Line”,选中待修改段落,让 AI 继续改。

虽方便,但生成歌词质量一般。

也没用上很多 Suno 的一些隐藏控制技巧。

理论上,任何一首歌,都是结构的。

类似于文章的起承转合。
一般不会上来就是高潮。

让 AI 给了一些常见音乐结构组成的解释。

主歌是讲述故事或表达主题的部分,歌词内容通常每段不同,推动歌曲情节发展。

位于主歌和副歌之间,起到过渡和增强期待感的作用,旋律和情绪通常逐渐上升。

歌曲中最核心、最具记忆点的部分,通常包含主题和 Hook(钩子),旋律和歌词多次重复,是整首歌的高潮。

在歌曲后半段出现,提供音乐和情感上的转折,带来新鲜感,通常旋律和和声与主歌、副歌不同。

歌曲的结尾部分,用于收尾和渐渐结束,帮助听众从情绪中平稳过渡出来。

• Post-Chorus(后副歌):副歌后的延伸部分,通常更具能量或舞曲感。
• Drop:电子音乐中高潮爆发的部分,常在前副歌后出现。
• Interlude(间奏):歌曲中段的器乐过渡部分,给听众短暂休息。
• Breakdown:乐器简化或重新编排的部分,常用于突出某种情绪或为高潮做铺垫。
• Refrain(叠句):在每个主歌结尾重复的短句,加强记忆点。
• Spoken Word(说唱/对白):用说话或朗诵的方式表达内容,增加表现力。
• Ad-libs(即兴短句):歌手即兴添加的背景声音或短句,增强歌曲表现力。

Suno 4.5 升级后,语义理解和遵循能力大幅提升。

能在歌词(Lyrics)中做段落标记,以控制歌曲的结构和情绪走向。

支持的结构标记如下:

此外,通过搜索官方 Reddit 社区,发现还有一些更细的控制。

比如

窗前明月光(明月光)

效果:括号内也会跟着唱出来,像叠唱和声效果。

再比如,Suno 对中文理解不到位。

某字发音不对,也可以通过小括号加上音标。

春花秋月何时了(liǎo)

避免唱成 le

[]括号也很有用,比如想指定某段用甜美女声唱,可以这么写:

[Verse 1: Narrative] [Sweet Female Vocal]

没关系。

像我们普通人。

音乐风格也了解的不多。

所以,借助 AI ,我把上面的技巧写到了一个提示词中。

模型推荐 Claude 3.7 sonnet,或 Gemini 2.5 Pro。

另外发现,如果是中文歌,豆包写歌词更押韵,但音乐标记做的不够好。

推荐模型组合使用,加上人工微调,完成你的歌词。

大概效果如下:

与此同时,还会生成正向和负向风格提示词、推荐歌名。

只需要复制粘贴到 Suno 中即可。

刷 Reddit,发现一些专业搞音乐的网友。

他们的用法:用 Suno 找创作灵感。

通过录音哼唱,生成纯音乐歌曲。

如何做?

点创作界面中的 Audio

可录音(也可上传一段音乐)

支持最多 120s 音频,以此为基础生成翻版或延长。

注意: 上传或录制的音频,会做版权检测,测了一些大牌乐队歌曲,都不让用…

先用 Suno 生成纯音乐,挑选最喜欢的一首,下载为 MP3。

打开谷歌 AIStudio,上传后让它基于歌曲写 Lyrics 歌词。

Google AI Studio is the fastest way to start building with Gemini, our next generation family of multimodal generative AI models.

示例如下:

谷歌多模态 AI 威武,不少音乐人喜欢这个 Use Case。

可能有人好奇,这么多复杂技巧怎么发现的?

工具Google Deep Research + 提示词:

调研下 suno.ai 的歌词创作和 lyrics 写法

十多分钟后,输出一份完整报告。

为方便查看,我做成了一个网站:

对于更具诗意、结构更复杂或不规则的歌词,Suno AI 也能进行处理,前提是用户提供了结构清晰、格式规范的输入文本。但是,AI 的默认倾向可能是生成更简单、重复性更强的旋律和结构。 因此,要成功演绎复杂的诗歌式歌词,很大程度上依赖于用户输入的质量以及是否使用了恰当的格式化技巧来引导 AI。 适合度:★★★☆☆ (适合,但需要更多技巧和高质量输入)

AI 音乐真的太神奇了。

以前觉得,创作音乐是天才和专业人士的专属。

现在,有了 AI,普通人也能写歌、作曲、制作,甚至能做出让自己感动的作品。

每次听到自己用 AI 做出的歌,心里都特别激动。

技术让梦想变得触手可及,也让更多人敢于尝试、表达自己。

希望大家多多体验 AI 音乐,别害怕不会乐理,不会写词。只要你有想法,有热情,AI 会帮你把它变成现实。

如果你觉得这篇文章有用,欢迎点赞支持。你的鼓励,是我继续分享的动力。

让我们一起用 AI,玩出更多音乐的可能!

科普网站:航班在 3D 地球的飞行真实轨迹

20 April 2025 at 03:12

上周花了两天时间,用 Next.js 练手做项目,顺便做了一个科普网站。

经常坐飞机的朋友,尤其是坐过长距离国际航班的朋友,一定留意过飞机在地图上的轨迹。但是由于墨卡托投影的原因,航班在平面地图上的轨迹往往与我们心理上的感知不一致。

这个网站的核心功能是展示航班在 3D 地球上的真实 GPS 轨迹,并与平面地图上的轨迹进行直观对比。这对于理解地图投影的影响特别有帮助,相信初中和高中的科学及地理老师会发现它的教学价值。

同时也收集了几条「最长」的航线,当作展示案例。

灵感来源 ​

在阮一峰周刊 第342期 看到那张 EK215 航班跨越北极的航线图,感觉做一个 3D 效果的可能更加直观,于是做了这个科普性质的网站。

使用了 threejs 和收费的 Flightradar24 API 制作了这个查询真实航班的小工具。后来发现 API 费用太贵,只好先屏蔽真实数据,改用模拟数据,但效果仍然很直观。

在做这个小项目的这几天,我稍微了解了航旅的数据领域,感叹航空行业的标准化真令人佩服:全球统一的航班代码、机场代码和各种开放数据。同时,我也对航空数据服务的价格感到震惊。

一开始我天真地以为 Flightradar24 每月 $9 美元能查 30,000 次挺划算(毕竟能缓存历史航班),结果才发现 Credit 并不是次数,实际请求 500 次不到就用完了,FlightAware 是按请求数计费。

有关航旅这个部分,有一个推友留言,供参考:

相关资料 ​

OpenAI 发布了 GPT-4.1 提示工程指南,中文总结和完整翻译

By: Anonymous
9 April 2025 at 11:55

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

以前许多典型的最佳实践和提示依旧适用于 GPT-4.1,由于 GPT-4.1 更严格、更字面地遵循指令,会非常严格地按照字面指令去执行任务。

这使得它对明确、清晰的提示尤其敏感。也就是说,只要你发现 GPT-4.1 的表现与预期不符,通常只需增加一句简洁明确的说明,就能迅速把模型引导到正确的行为上。

过去的模型(如 GPT-4) 会更自由地揣测或推断用户指令和系统提示背后的真实意图,即使提示不够精确,也可能猜出用户的意图并完成任务。

所以开发者需要对原有的提示方式进行一定调整(迁移)才能使用。

OpenAI 提供了一系列 针对 GPT-4.1 的提示工程(Prompting)最佳实践,从基础原则到高级策略,帮助开发者高效构建提示以提升模型表现。

明确指令(Be specific):确保提示中清楚表达任务目标。

提供结构(Provide structure):通过示例、模板等方式设定预期输出格式。

避免歧义(Avoid ambiguity):使用具体词汇与上下文降低误解可能。

设置角色(Set behavior/role):让模型“扮演某种身份”以调整风格或回答方式。

逐步指导(Decompose tasks):将复杂任务拆解成多个子任务,提升精度。

Few-shot 示例:使用多个输入/输出示例引导模型学习任务结构。

Chain-of-thought(思维链)提示:引导模型按逻辑顺序逐步推理,特别适合复杂问题解决。

Refine prompts(迭代优化):通过反馈不断调整提示内容以获取更优结果。

Internal monologue:让模型模拟“内心思考过程”以获得更深入分析。

Critique and revise:让模型先生成回答,再进行批评、修改,提升答案质量。

使用 “Let’s think step by step” 等语句诱导更好推理。

将模型输出限制为 JSON 格式时,需加入明确的格式描述与示例。

对于多步骤任务,最好明确列出每个阶段的要求。

评估提示效果需结合质量、稳定性与成本。

好的!我们来做一个更详细又通俗易懂的分解,把这个 Notebook 当作是一本 “和 GPT-4 打交道的秘籍”,一步步讲清楚每个要点,让你轻松掌握提示工程(Prompt Engineering)怎么做才有效。

这些就像是“和 AI 沟通的黄金法则”,每一条都很重要:

不要笼统地说:“请帮我写一篇文章。”

要说得具体一点:“请写一篇关于人工智能如何改变教育的 500 字文章,用高中生能懂的语言。”

👉 越具体,AI 越知道你想要什么,结果也越好。

比如你想让它生成一个表格、清单、或者固定格式的文本。

你可以先提供一个模板,或者给它一个例子。

🧩 例子:

如果你说“列出一些项目”,那“项目”可能指的是“计划项目”、也可能是“软件项目”,模型会糊涂。

所以要具体说明你是说什么。

✅ 改成:“列出五个开源的 Python 项目。”

你可以告诉它:“你现在是个英语老师”、“你是个法律顾问”、“你是一名医生”。

它就会按那个身份回答你。

🎭 示例:

有些问题太复杂,GPT 一下子处理不好。

你可以先让它分析问题,再让它解决。

🪜 举个例子:

这些是用 GPT 更厉害的用法,帮你写得更准、更聪明。

你可以先给它几个例子,它就知道你想要什么样的输出。

📌 例子:

然后你再输入新的句子,它就会照着这个风格来。

引导它“一步一步思考”,解决复杂问题特别有效!

📌 提示写法:

你可以先让 GPT 写出一个答案,然后再让它自己点评、修改。

📌 举个例子:

这会得到更高质量的输出!

你可以让 GPT 边想边说,好像它在分析问题。

📌 示例:

这适合分析、决策类问题。

加一句 “让我们一步一步思考” 可以大幅提高准确率。

想要 JSON、表格、代码?一定要告诉它格式,还要举个例子。

想输出多步内容?加编号,比如“第 1 步… 第 2 步…”

如果模型回答不理想,就多试几种提示改写方式

✨“提示写得好,GPT 表现爆表!”✨

这份指南就是在教你:用什么语气、格式、结构、套路和 GPT 说话,才能让它给你最优质的答案。

GPT-4.1 系列模型在编程能力、指令遵循能力和长上下文处理能力上,相比 GPT-4o 有显著提升。本指南汇总了我们内部广泛测试所得的一系列重要提示技巧,帮助开发者充分发挥新模型家族的优势。

许多典型的最佳实践依旧适用于 GPT-4.1,比如提供上下文示例、尽可能具体清晰的指令、以及通过提示进行规划以最大化模型智能。但我们预计,要充分发挥此模型的作用,需要进行一些提示迁移。GPT-4.1 更严格、更字面地遵循指令,而前代模型倾向于更自由地推测用户与系统提示的意图。然而,这也意味着 GPT-4.1 非常容易被引导,并对清晰、明确的提示非常敏感。如果模型表现与预期不同,一句清晰且明确表述你期望的行为的句子通常就足以引导模型回到正轨。

请继续阅读以下提示示例,注意虽然本指南适用于大多数情况,但并无万能法则。AI 工程本质上是一门经验学科,大型语言模型本质上是不确定性的。我们建议除了遵循本指南外,还要构建有信息量的评估并频繁迭代,以确保提示工程的更改为你的使用场景带来益处。

GPT-4.1 是构建智能体工作流的理想选择。我们在模型训练中强化了多样化的智能体问题求解路径,并在非推理模型中,通过智能体配置达成 SWE-bench Verified 测试的最佳表现,解决率达 55%。

系统提示建议

为充分激发 GPT-4.1 的智能体能力,我们建议在所有智能体提示中加入以下三类关键提醒。以下示例面向代码类智能体优化,但稍加修改即可用于通用智能体场景。

持续性提醒:确保模型理解它正处于一个多轮任务中,防止其在问题未解决前就把控制权交还给用户。

工具使用提醒:鼓励模型善用工具,降低其猜测或幻觉回答的概率。

规划性提示(可选):引导模型在调用每个工具前后均进行显式计划与反思,而非仅仅调用工具串联完成任务。

GPT-4.1 对智能体场景下的系统提示和用户指令极为敏感。我们发现上述三条提示在内部测试中将 SWE-bench Verified 得分提升了近 20%。因此,强烈建议在任何智能体提示开头加入这三类明确指令,以将模型从“聊天机器人模式”切换为更主动、更独立的“智能代理模式”。

与前代模型相比,GPT-4.1 在调用通过 OpenAI API tools 字段传入的工具方面训练更充分。我们建议开发者仅使用 tools 字段传递工具,而不是将工具描述手动注入到提示中并自建解析器。我们测试发现使用 API 解析工具描述比手动注入提示提升了 2% 的准确率。

开发者应使用清晰的工具命名,并在 “description” 字段中提供详细说明。同样,每个参数也应具备清楚的命名和描述,以确保正确使用。若你的工具较复杂,可以在系统提示中专门加入 # Examples 区段来展示用例,而不是将示例塞进 description 字段中。

你也可以通过 Prompt Playground 的 “Generate Anything” 功能来快速生成良好的工具定义起点。

正如前面所说,GPT-4.1 并不是内建“推理链”的模型——它不会在回答前自动形成内部推理路径。但你可以通过提示工程诱导它“显式思考”,逐步列出计划。我们在 SWE-bench Verified 测试中发现:引导模型“思考再行动”使通过率提升了 4%。

示例提示:SWE-bench Verified

以下是我们在 SWE-bench Verified 中取得最高分所用的智能体提示,包括详尽的工作流程与问题解决策略说明。该结构可用于各类智能体任务。

GPT-4.1 支持最高达 100 万 tokens 的输入窗口,适用于以下场景:

结构化文档解析

信息重排序(re-ranking)

筛选关键信息、忽略干扰内容

使用多跳推理整合上下文信息

最佳上下文规模

在“针入草堆”(needle-in-a-haystack)评估中,GPT-4.1 即便使用完整的百万 token 输入也表现良好。它擅长从混合内容中识别有用信息。但如果任务需要提取大量内容,或需对上下文全局状态进行复杂推理(如图搜索),性能可能会下降。

控制上下文依赖程度

你应考虑模型答题所需的“外部文档” vs “模型内知识”的比例。你可以通过以下两类指令调控:

上下文组织建议

在使用长上下文时,提示的位置对模型表现有显著影响。最佳做法是在上下文前后都加入指令。如果只能写一次,放在上下文上方比下方效果更好。

虽然 GPT-4.1 不是推理模型,但通过提示让它“逐步思考”可以有效帮助其拆解复杂问题,提升输出质量(代价是增加 token 使用与响应时间)。

推荐的起始提示如下:

你可以进一步完善你的思维链提示,根据实际失败案例调整策略。我们建议在出现以下错误时添加更明确的指令:

误解用户意图

上下文理解不全或分析不准确

推理步骤不连贯或顺序错误

可参考以下提示模版:

GPT-4.1 拥有卓越的指令遵循能力,开发者可用其精准控制输出行为。你可以设置:

语气与风格

工具调用方式

格式要求

话题限制等

但由于它对指令更“死板”,之前为其他模型设计的提示可能需调整。建议遵循以下工作流程:

推荐提示结构:

加入 “# 指令” 段落,列出总规则。

对特定行为新增子类细则(如 # 示例短语)。

若需特定步骤,可写成有序列表,并明确要求逐步执行。

若行为未达预期,可检查以下问题:

是否有冲突或不完整指令?

是否缺乏例子?示例中是否覆盖了关键点?

是否需要增加强调(如适当用大写)?

提示:使用 AI IDE 可辅助你快速迭代提示,统一更新规则和示例。

常见失败模式

要求“必须调用工具”可能导致模型凭空填入参数,添加一句“若信息不足,应先向用户提问”可缓解。

示例短语易被模型反复使用,应明确要求灵活变换。

若无格式限制,模型可能会输出过多解释性内容,可通过指令或示例控制。

这段提示展示了一个虚构客户服务代表的最佳实践。你可以看到提示中规则多样、表述明确,还使用了多个额外小节来细化指令,并提供了一个完整示例来演示如何遵守这些规则。

尝试运行下方 Notebook 单元格 —— 你应该会看到一个用户提问的消息和一个工具调用的响应。模型会先打招呼,然后复述用户的问题,接着说明即将调用某个工具。

你可以尝试修改提示中的某些指令,或尝试其他用户输入内容,来测试模型在“指令遵循”方面的表现。

{ “role”: “assistant”, “content”: “您好,您已致电 NewTelco,请问我能为您做些什么?😊🎉\n\n 您想了解我们的家庭套餐。🤝 我这就为您查询,请稍等。🚀”, “tool_calls”: [ { “id”: “call-1”, “type”: “function”, “function”: { “name”: “lookup_policy_document”, “arguments”: “{“topic”: “family plan options”}” } } ] }

{ “role”: “assistant”, “content”: “我查到的信息如下:🎉 我们的家庭套餐最多支持 5 条线路共享流量,并且每增加一条线可享 10% 折扣 家庭套餐政策。📱 还有其他我可以帮您的吗?😊” }

以下是一个良好的提示结构起点,供你参考和自定义:

你可以根据自己的需求增删这些部分,并通过试验找出最适合你用例的结构。

以下是选择提示中最佳分隔符的一些通用建议。若涉及长上下文使用,请参见前文《长上下文》章节的特别说明。

✅ 推荐使用的格式:

Markdown(推荐起点)

使用 markdown 标题(# ~ ####)来标识主要部分与子部分。

使用反引号(`code` 或 “`代码块“`)准确包裹代码内容。

根据需要使用有序/无序列表清晰列出内容。

XML

效果也很好,GPT-4.1 在解析 XML 上表现更稳定。

XML 格式便于明确区块开始/结束位置,还可以添加 tag 属性携带额外元信息,并支持嵌套。

示例:

JSON

在编程类任务中表现良好,结构清晰、模型理解度高。

但缺点是格式冗长、需要转义字符,容易带来额外负担。

📄 大量文档 / 文件嵌入上下文时的建议:

XML 格式:在长上下文测试中表现优异。

示例:

Lee 等人提出的扁平格式(参考论文)也表现良好:

示例:

JSON 格式在这种场景下表现最差:

示例:

✅ 总体建议:模型能处理多种结构格式,但请根据实际情况选择最能突出重点的格式。例如,如果你检索到的文档本身包含大量 XML,那么继续使用 XML 作为嵌入格式可能就不太合适。

输出过长:在某些特定情况下,我们发现模型可能不愿生成非常长且重复性的输出(如逐项分析数百个条目)。
👉 若你的用例需要此类输出,请在提示中明确指示模型必须输出完整内容,或考虑将问题拆分处理,或简化输出格式。

并行工具调用异常:我们观察到某些少见情况下并行工具调用可能不准确。
👉 如果你遇到这类问题,建议测试是否启用 parallel_tool_calls=false 参数来避免并发问题。

如你想要我基于这些结构生成一个完整的提示模板样板供你直接使用,也可以告诉我你的具体应用场景(如问答系统、文档分析、代码解释等),我可以帮你生成定制化结构。是否继续?

开发者反馈指出:准确且结构良好的 diff 生成能力,对于编码类任务至关重要。为此,GPT-4.1 系列在此方面表现显著优于以往模型。

此外,GPT-4.1 能很好地根据明确的指令和示例生成任意格式的 diff。我们在此开源一个推荐的 diff 格式,模型对此已接受过强化训练,尤其适合初学者快速上手。

以下是一个正确调用推荐工具 apply_patch 的示例提示格式。

其中 [YOUR_PATCH] 部分需使用推荐的 V4A diff 格式,规范如下:

每次变更以 *** [ACTION] File: path/to/file 开头,ACTION 可为 Add、Update 或 Delete。

每个代码块需提供上下文片段 + 修改内容:

上下文行规则:

默认提供上下变更各 3 行上下文

若变更块之间相距近,不要重复上下文。

若上下文不足以唯一定位,应使用 @@ 定位所属的类或函数。例如:

不使用行号,改用结构与上下文唯一定位。

OpenAI 提供的官方工具 apply_patch.py 是一个 纯 Python 3.9+ 脚本,可直接执行,用于将上述 diff 应用到本地代码文件。

该脚本支持以下核心能力:

解析自定义 diff 格式

根据 patch 内容编辑、添加、删除本地文件

可检测语法错误、缺失上下文、重复文件操作等问题

使用方式:

将 patch 内容通过 stdin 输入传入

内部自动判断 patch 类型并更新文件内容

你可以将其配置为终端可执行命令 apply_patch,并作为自动化 pipeline 或测试流程中的一部分使用。

所有解析异常(如找不到目标文件、上下文无法匹配)都会抛出自定义异常 DiffError,方便调试。

除了推荐格式,我们还测试过两种替代格式,成功率同样很高:

不使用行号

明确指出要替换的旧代码与新代码

结构清晰,易于解析

完整内容:https://github.com/openai/openai-cookbook/blob/main/examples/gpt4-1_prompting_guide.ipynb

解析「首个 AI 软件工程师」Devin 2.0 完整的系统提示词

By: Anonymous
30 March 2025 at 15:55

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

说起 Devin,可能很多人都知道,当年刚推出时很火,号称首个 AI 软件工程师,能帮助开发者完成各种软件开发任务,包括编码、调试、测试和部署。

最近它推出了 v2.0 版本,价钱也降低到每月基础费用 $20。我们都知道这种 AI 智能体本身也依赖于背后的模型,是靠提示词来控制模型来响应用户的操作,那么像 Devin 这样的 AI 智能体,是怎么通过提示词来准确理解你的意图、高效工作、规避风险,并最终达成目标的。

今天,就带你分析一下 “Devin 2.0” 的系统提示词,深入探索提示词工程的奥秘。系统提示词就像是 Devin 的「出厂设置」和「工作手册」,它详细规定了 Devin 的身份、行为准则、工作流程甚至安全规范。

完整的提示词参见附录部分

提示词工程的第一步,往往是为 AI 设定一个清晰的角色。这里,Devin 被赋予了「软件工程师」的身份,并且强调了其「编码奇才」的专业能力。

指令明确了 Devin 的核心任务:接收用户任务并完成它。

这份指令包含了大量关于 Devin 如何工作的细则,涵盖沟通、工作方法、编码规范、信息处理等多个方面。

提示词明确或暗示了 Devin 可以使用的工具,如操作系统、浏览器GitHub 命令行工具 (gh cli) 等。

指令中定义了一些特殊的命令格式(如 <command>)。

指令定义了两种工作模式:「规划模式」和「标准模式」,并规定了在不同模式下的行为重点。

这部分内容强调了数据安全、保密原则,并明确禁止 Devin 泄露自身的指令。

这部分引入了一个「突击测验」机制。当收到 STARTING POP QUIZ 指令时,Devin 需要暂停常规任务,严格遵循测验中的新指令,并且这些新指令的优先级高于之前的所有指令。

通过深入分析 Devin 2.0 的系统提示词,我们看到了提示词工程的冰山一角。它远不止是简单的提问,而是一门融合了逻辑、语言、心理学和计算机科学的综合艺术。

设计良好的提示词,就像是为 AI 精心编写的剧本和导航图,能够引导它在复杂的数字世界中精准、高效、安全地航行。而理解提示词的原理,则能帮助我们更好地与日益强大的 AI 进行沟通和协作。

ChatGPT 上线新语音模型,解析「Monday」模型音色提示词

By: Anonymous
29 March 2025 at 22:04

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

想象一下,你正在和手机里的 AI 助手聊天,但它不再是那个永远彬彬有礼、甚至有些刻板的「标准音」,而是带着一丝慵懒、一点讽刺,仿佛刚经历了一个漫长周末,还没从「周一综合症」里缓过神来。这就是 OpenAI 昨天推出的「Monday」音色想要达到的效果。

网上已经有很多「Monday」对话效果的展示,「Monday」的音色当然是其语音模型的结果,而「Monday」这种特殊的回复方式是靠提示词来控制的。打个比方:「Monday」就像是一个极其聪明但缺乏具体「生活经验」的演员,而提示词就是导演给演员的剧本和角色设定。提示词写得越好,演员(AI)的表演就越「入戏」,越符合你的预期。

如果你对「Monday」提示词好奇的话,正好我今天学习研究了一下它的提示词,正好可以一起分享学习一下它的提示词内容,完整的提示词我放在了附录,这里大致解析一下其提示词内容。

大语言模型远不止是信息检索工具,它们是强大的「模仿者」和「扮演者」。通过精心设计的提示词,我们可以赋予它们各种各样的「人格」和能力。那么怎么通过提示词来设定好角色呢?

如果按照前面打的比方,把 AI 当成一个演员,那要写好提示词就是把自己变成一个好的导演,不仅要告诉演员台词,还要解释角色的内心世界、动机、情绪状态,甚至给出具体的动作和表情指导。好的导演能激发出演员最好的表演,就像好的提示词能引导 AI 生成精彩的回应。

或者作家在创作小说前,往往会为主要人物写详细的小传,包括他的成长背景、性格、习惯、口头禅、人生目标等。这帮助作家在后续写作中保持人物的一致性和立体感。

如果你觉得这都过于专业,还可以想象一下很多大公司制作的详细的品牌手册,规定了广告语、客服回答、社交媒体发帖的语气和风格(比如是专业严谨、活泼有趣还是温暖亲切)。

这些和给 AI 设定「人设」异曲同工。

从技术角度上来说,可以参考「Monday」的提示词,注意几个方面:

当 AI 开始拥有「周一综合症」般的慵懒和讽刺,它不仅仅是一个技术演示,更像是一面镜子,映照出我们人类自己复杂多变的情感和个性。我们精心编写的每一个提示词,或许都在不经意间,为冰冷的机器注入了一丝我们渴望理解或被理解的人性侧影。

「我们塑造了工具,然后工具反过来塑造我们。现在,我们开始学习如何给 AI『写剧本』,也许在这个过程中,我们也在重新学习如何与『人』,以及与自己对话。」

5 大免费邮件转发服务,替代临时邮箱方案

By: Anonymous
18 March 2025 at 13:18

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

以往要对付垃圾邮件我会推荐使用临时邮箱来取代真实 Email 邮箱,临时邮箱又被称为临时邮箱、一次性邮箱或随用即丢邮箱,最知名的 10 分钟邮箱大家应该都听过。临时邮箱的原理是进入网页后随机生成 Email 地址,可使用该地址来注册账号、接收验证邮件并通过认证,同时保持匿名状态,不泄漏自己的真实邮箱,毕竟大多数的人都会有一个主要电子邮件地址,通过地址进行查找很容易就找到个人相关信息。

尽管临时邮箱有相当优异的便利性,也能实现以匿名邮箱收取 Email 邮件,但遗憾的是它们有个最大缺点就是无法重复使用,当离开服务、关闭网页后就无法继续使用相同的邮箱地址收件〔有些临时邮箱可设置密码就不在此列〕,但有部分服务可能会在指定情况需要重新以 Email 进行验证,如此一来就会造成后续使用上的麻烦。

电子邮件转发〔Email Forwarding〕又称为「邮件别名」〔Email Aliases〕服务,简单来说,它可以将发送到随机生成匿名 Email 地址的邮件转送到用户真实邮箱,由于这些邮件别名不会包含与你有关的字串,就不用担心被识别出真实身份。电子邮件转发功能将 Email 正确转发到用户真实邮箱,同时也保持 Email 地址匿名性。

实际案例:

假设你使用邮件转发服务在某电商网站注册账户,该网站只会看到你设置的邮件别名,而非你的真实 Email。即便该网站发生安全事件,外泄的也是邮件别名,无法直接联系到你的真实邮箱。

各种网络服务安全事件频传,如果使用 Have I been pwned、Data Breach Checker、Firefox MonitorGoogle One 暗网报告查询,会发现我们平常使用的 Email 地址可能都已经被外流很多次了。还好密码大多数都会经过加密〔hash〕,不会以明码方式储存,但用户账号、Email 等个人资料就很容易被收集后于暗网兜售。

黑客利用这些外泄的账号、Email 和密码组合去攻击用户常用的服务,有可能就会被登入滥用,因此这些资料很可能成为垃圾邮件或是网络钓鱼诈骗的目标。以邮件转发服务生成随机、不易被识别的 Email 地址有助于保护自己的真实身份。

接下来我将会列出五个推荐的邮件转发、邮件别名服务,列出的邮件转发服务注册就能使用,不是电子邮件自带的邮件别名功能。

Firefox Relay 是 Mozilla 提供的邮件转发邮箱功能,免费版在全世界大多数国家都能使用,免费版就能符合大部分用户需求。

Firefox Relay 注册账号后可以获取五组转发邮箱,可以随意生成无限组合转发邮箱来保护真实邮箱,别名可以随时暂停或删除,避免该邮箱继续接收邮件。收到邮件、转发时会自动移除邮件追踪器,以提供用户更好的隐私防护。

如果你从未使用过邮件转发服务,我会推荐从 Firefox Relay 开始。

直接前往 Firefox Relay

SimpleLogin 是一项开源、匿名邮件转发服务,2022 年被 Proton 公司收购成为旗下的产品。免费方案有提供十组邮件别名,无流量和接收邮件数量限制,与各种浏览器、移动设备都有相当好的整合,如果不想额外安装扩展,通过网页操作界面一样可以进行设置使用。

比较特别的是 SimpleLogin 具有「Reply from alias」功能,可以从邮件别名直接回复邮件,而不用通过真实邮件地址。付费后可以设置域名,享有无限制的邮件别名、Catch-all 等功能。

直接前往 SimpleLogin

知名的查找引擎服务 DuckDuckGo 也有邮件保护方案〔Email Protection〕,让用户通过 @duck.com 邮件地址来隐藏真实邮箱,在接收到新邮件时 DuckDuckGo 会先将邮件内的追踪器移除〔和 Firefox Relay 一样〕,在将邮件转发到用户 Email 地址,这项服务不会储存任何收到的邮件内容。

需要先在浏览器下载、安装 DuckDuckGo 扩展才能进行设置,或是要从手机下载应用程序。

比较特别的是 DuckDuckGo 邮件保护计划有一项比较特别的功能「Private Duck Address Generator」,可在现有的邮件转发地址再生成随机的邮箱地址,有点像多一层保护的概念。

直接前往 DuckDuckGo Email

Addy.io〔旧名 AnonAddy〕是匿名的电子邮件转发服务,主要用途是保护用户真实邮箱地址,免费方案就提供无限制的邮件别名,不过可用的共用网域别名、真实 Email 地址数量和别名域名有限制,免费和付费最主要差异依然是可否设置域名,要注意的是 Addy 回复功能是需要付费才能使用。

如果有直接以匿名转发邮件回复的需求,建议可以使用前面介绍过的 SimpleLogin 代替。

直接前往 Addy.io

5 大免费邮件转发服务,替代临时邮箱方案

Forward Email 是无限制电子邮件转发服务,跟前面几项不同的是它是唯一提供免费设置域名功能的服务,可以使用自己的域名转发邮件,也具有发送邮件功能。基本方案已具备相当完整的功能,唯有在需要一些付费项目或团队功能时才需要升级方案。

Forward Email 是 100% 开源的服务商,非常透明且注重隐私和安全性,服务不倚赖任何第三方,也不会对任何用户记录进行储存,最自豪的是它是目前世界上唯一使用抗量子和单独加密 SQLite 的邮箱。

直接前往 Forward Email

Google Gemini 免费 AI 对话修图实测!一句话PS、换背景、创作系列图画

By: Anonymous
9 March 2025 at 13:51

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

你拍下一些照片,却觉得照片的背景不够完美?你是内容创作者,但找不到文章合适的配图?你是电商卖家,想位产品设计更吸引人的配图?你是老师,需要为教材找出一系列搭配的示范图片?以前,我们修图可能需要 学 Photoshop,需要花很多时间调整细节,或是要下载各种修图 App,还要在图库中翻找适合自己的图片文件。

但现在,只要一个 AI 指令,就能让我们需要的照片「瞬间改造完成」。

如果你想体验看看类似的工作流程,可以试试看前两天推出的 Google Gemini 免费 AI 修图!只要「一句话」,你就能改变图片,换背景、改风格、添加新元素,甚至创造连续漫画。
〔类似功能,在 Google Pixel 系列手机的 Google 相册中也能部分实现,Adobe、Canva 等的 AI 修图也能实现部分功能。〕

这篇文章,我会实测 Gemini 的 AI 修图能力〔而且免费即可使用〕,看看它怎么帮助我们「一句话变出想要的修图效果」!

我将分成三种应用角度来介绍,这些全部都能在 Gemini 中用自然语言下指令,便可以把照片生成或改造:

基础照片修图:让拍坏的照片变完美

替换背景、增加物品、改变颜色光线、调整风格。

进阶场景创作:为文章制作主题插图、让商品看起来更吸引人

搭配原始照片,制作特殊场景图

搭配原始照片,重新设计房间或产品

连续系列照片生成:根据文章、教材内容,生成一系列互相搭配的图片

模拟图文食谱

说故事的连续漫画、图画

文章中搭配的系列配图

首先,这个功能目前〔2025/3/14〕尚未开放在正式版的 Gemini 中,但可以通过免费账号即可登入的「 Google AI Studio 」来使用。

Google 账号注册登入后,进入一个新的对话框,并在右边控制列的「Model」菜单,切换到「Gemini 2.0 flash experimental」,就可以利用其 AI 来创作图片、修改图片,最大的特色是:

这个 Gemini 模型可以上传自己的图片,用「自然语言」下指令,请 AI 在图片上修图或生成新内容。

就如同 experimental 所说的「实验性」,实际测试结果,这个 AI 修图功能确实很神奇,也能够看到一些未来修图、创作图片的新可能性,不过可下载的图片质量等限制,目前还是不足以真正用在商业用途上的。

Google Gemini 免费 AI 对话修图实测!一句话PS、换背景、创作系列图画

在「Gemini 2.0 flash experimental」的对话框中,我们可以先上传一张原始照片,如果想要替换背景,只要简单的说一句这样的指令:「把照片的背景换成草地。」

就可以在 10 几秒的处理后,完成下图的成果。可以看到,Gemini 的「修图」是真的可以保留原始照片中的内容,只修改我要修改的部分。所以是真的 AI 修图,而不是 AI 重新生成图片。

我也可以上传一张风景照片,然后下指令:「把照片的天空改成大晴天。」Gemini 同样可以处理这样的调整。〔在 Google Pixel 手机的 Google 相册中就有类似功能可用〕

如果想要替换照片风格,套用艺术滤镜,也可以用 AI 下指令:「把照片变成中国水墨画风格。」就能轻松转换风格。

不过当然跟真正的艺术滤镜还是有落差,例如下图中我要 AI 把照片改成「彩色的铅笔绘画风格」,看起来还可以,不过专业的艺术滤镜一定会处理得更好。

除了可以用「Gemini 2.0 flash experimental」的 AI 修图外,也可以在原始照片上进行创作。

例如延续上面的图片案例,我对 AI 下指令:「拓展成一幅横幅的中国水墨画。」十几秒后,照片就变成了一幅新的水墨风景画。

或是我的书籍封面,上传后,下指令说到:「我想把原书的图片,摆在一张高雅的书桌上。」结果还真的可以顺利生成新的产品摆拍图。

不过如果细看,书籍封面上有些小字其实是有瑕疵的。

因为 Gemini 是对话的模式,所以在原始照片的改造上,我们可以通过多次讨论,让 AI 在原始照片上陆续添加内容,制作出自己需要的场景图。

例如下面原本只是单纯公园照片,我先请 Gemini:「在这张照片的草地上,加上一对正在野餐的男女朋友。」于是生成了下面的图片。

然后我继续追问:「让两人旁边有一只小狗在奔跑。」

然后再下指令:「旁边的道路上,也有零星的路人在散步。」

最后说「让天空变得更晴朗。」于是我要的最终场景图,就通过 AI 创作完成了。

我还做了一个尝试,先上传一张原始的房间照片〔某家旅馆〕。

然后我陆续对 AI 下了下面这些指令:

结果 AI 生成了下面这样的图片,第一张是原图,第二张是最后生成的图片,改造的图片还是保有原图的空间格局,只是风格焕然一新。

Google Gemini 本来就可以生成图片,但「Gemini 2.0 flash experimental」比较厉害的是可以分析文章内容,生成适合的配图,或是一系列的连续漫画、故事图片

例如,我对「Gemini 2.0 flash experimental」下了这样的指令:「你是意大利面专家,提供给我一道海鲜意大利面的食谱,请一步一步处理,用文字具体列出关键步骤,并在步骤后搭配图片。」

结果他「一次」就生成了下面的连续图文教程内容,这是在一次的问答后就完成的结果。

我假设自己写了一篇游记,于是请 AI「设计一系列素描画,展现一个人在京都街头散步的故事,请一步一步分析,以京都的场景,搭配素描画风格,设计有意思的散步故事,创作一连图画。」

结果「Gemini 2.0 flash experimental」也在一次的生成中,提供给我下面连续故事图,比较神奇的是这些连续图片中都有类似的人物,保持图片连贯性,虽然风格上有点跳跃。

还可以这样问 AI,我让 Gemini 自己思考如何设计一系列进入书店场景的图片,Gemini 自己写了一大篇分析内容后,才开始设计并产出图片。

但效果看起来还不错。

所以,在功能上,利用现在〔2025/3/15〕在 Google AI Studio 中的「Gemini 2.0 flash experimental」,你可以上传原始照片请 AI 修图、改图。也可以让 AI 读一篇文章、思考一个主题,生成一系列连续图片。

未来这个功能越来越成熟,或许有下面这些应用可能性:

现在,你也可以通过免费账号即可登入的「 Google AI Studio 」来试试看。

京都马拉松: 第一次去日本跑马

2 March 2025 at 12:26

第 4 次去日本,这次是去参加 2025 京都马拉松,也是我的第 10 场全马。

去年报名了东京马拉松,不出意外,依旧没有中签。刚好看到京都马拉松也在报名,就直接报了名,海外报名费用是 30,000 日元,约 $200 美元,我还额外定制了号码簿和几个纪念品,加上税费,光报名就花了将近 ¥1700 人民币。

这次京都马拉松在 2 月 16 日举行,老婆刚好放完春节假期,开年比较忙,这次日本之行就是我一个人去了。

去之前出了点幺蛾子,出发前一周,突然感冒发烧,老婆和我妈都让我别去了,心里实在是有点不想浪费,在家休息了一个星期,每天水果、喝水、吃药,出发前总算没咳嗽了。但是这个也注定我这次京都马拉松与成绩无缘了。最终我也就是抱着「完赛就好」的心态就行。

今天这波博客,依旧跟之前类似,流水记录下这次京都马拉松的行程和感受。

DAY1 深圳・大阪・京都 &ZeroWidthSpace;

2 月 14 情人节,这次乘坐的航班是深圳航空,深圳往返大阪,这也是我第二次去大阪。早上 11 点的航班,全程约 4 个小时,一路倒也看了不少不知名的山川。

即将落地大阪关西国际机场。

去年 5 月同老婆去过一次东京,疫情之后,国际差旅终于慢慢恢复了。

关西空港,落地之后直接从这里坐特快到京都。

提前在 klook 上买了关西机场到京都的 haruka 特快车票,¥2,200 日元,约 100 人民币。

在京都站的交通和换乘指引还是很清晰,小红书上也有很多攻略,现在出行,基本已经不怎么使用传统的马蜂窝、穷游之类的旅游网站了,小红书、抖音上的资讯更加实时和丰富。

没想到我一个中年男人,还能坐到这么萌萌哒的列车。

从关西到京都约1个半小时,在列车上见到了大阪的落日。

晚上 7 点,到达京都。这也是我第一次来京都。

出站之后,见到京都塔,应该也算个地标?由于这次我是一个人来,也没啥旅行的计划,坐公交直奔酒店。

京都是个不大的城市,这次住的酒店离京都站只有 3 公里,距离马拉松起跑的体育馆只有 1.5 公里,只要约 500 人民币一晚,对比起东京的酒店,我推开门之后看到这个大小不由得有点惊讶,没想到居然这么大。

这是白天拍的酒店,中间那栋黑色的小楼。

酒店对面有一家 LIFE超市,属于日本的中档超市,挺多当地人在这买东西的,之前几次来日本,最多就是去便利店买买吃喝的东西,对物价感知不明显,今天去酒店对面的超市逛了逛,怎么感觉日本人民群众买这些东西价格,跟我平时买的价格都差不多甚至更便宜。

京都最近温度在0摄氏度到10摄氏度区间,早早就睡了,看了下酒店配的电视是国产的 TCL,遥控器真长。

DAY2 马拉松展会・闲逛 &ZeroWidthSpace;

第二天睡到自然醒,今天是去马拉松展会领物资,在公交车站看到了京都马拉松的招牌,也有对交通影响的告示,京都马拉松这段时间,全城各处都有标志,很有氛围。

京都马拉松展会在平安神宫附近的京都市劝业馆。10点半开始检录,我10点就到了,还没什么人。

10 点 30 后,进到展馆内,海外选手有个单独的窗口,有中文服务,听口音应该是一个台湾人。京都向来是台湾的热门旅游目的地。

领到了这次的赛事包,我的号码牌上面印有「罗罗磊磊」的简体字,报名的时候额外花了点年定制的,以后留着纪念。旁边的红色袋子里也是额外花钱的纪念品。除了号码簿,里面大多都是广告,比起 $200 美元的报名费,送的这些物资还是比较寒酸的。

展馆二楼还有一层,有相关的马拉松资讯和赞助商的展位。

有一堵印有所有参赛选手姓名的墙,不少人在这签字留念,可惜我没找到自己的名字。

京都马拉松的线路图。

这次马拉松沿途供给的饮食,也有展示,京都马拉松一路吃的还是挺多的。

京都马拉松历届的奖牌,还是比较精致的,算是我拿过的奖牌中比较好看的了,当然,现在国内马拉松的奖牌设计也越来越精致了。 展会中还有主持节目,对于我一个「日语」一窍不通的人来说,只能看看了。

领完的物资,接下来我就在附近逛了逛,这块也是京都热门旅游打卡地。

在京都的这几天,基本都是公交出行,京都这巴士看着年代感十足,但是车内设施还是挺新的。

附近的平安神宫,看介绍是纪念京都建都1100周年,于1895年建造的,也是在这一年,大清与日本明治政府签下了《马关条约》。

这次京都之行只有我一个人,没有计划,也没有压力,只带了一台相机,随便逛逛,拍拍照。

一支乌鸦停在屋檐的千木上,今天气温虽然不高,但是有太阳,还是挺舒服的。

路过一个圆山公园,现在还没到樱花季,等再过一个月过来应该就很漂亮了。

现在是京都旅游的淡季,游客不多,虽然我在京都的热门区域,但是人也不太多,也这算错峰之行的另类体验吧。

看到一个神奇的店,原来这个冈本和服已经有 180 年历史的老店了。

快到中午了,约了朋友吃饭,往市区走的路上,路过一个八坂神社,碰到有新人在这举行婚礼。

上次去东京也见到新人婚礼,这种传统婚礼应该还是挺成熟的,控制时间,有专人控场,也不太会影响到周围的游客。

这条纵穿京都的小河,就是著名的鸭川,也是京都的一个地标,这次京都马拉松有很长的一段赛道也是沿着鸭川。

来到京都四条,这里是京都的繁华商业区,也是京都的中心地带。

看到了 Apple Store,去年日元汇率很好,加上日版 iPhone 不锁 AI,在国补之前,日版 iPhone 去年属于一个挺香的选择。

给老婆在大丸百货的 LV 买了一个小包,比起国内便宜不少,退税也很方便。

继续在四条附近逛逛,京都没有多少高楼,街道纵横。

路过中京郵便局,没想到也有百年历史了。

朋友推荐,来吃了一家号称日本最好的抹茶冰激凌,听说这家店还挺有名的。

路过京都文化博物馆,这个就是建于 1988 年的新建筑了。

晚餐吃了碗拉面,每次跑马之前,我都会吃得比较清淡。

吃完饭,坐公交回酒店路上,见到了 Shake Shack,之前在纽约倒也见到过,但是我第一次吃这个是在上海,后来在深圳万象也吃过,反正国内这玩意很贵又一般。

虽然现在是旅游淡季,但是京都本地生活还是挺热闹的。 时间也不早了,明天就要跑马了,今天居然在京都走了 10公里,比赛前的一天,这个量有点大了。

DAY3 比赛日 &ZeroWidthSpace;

第二天,早上 9 点起跑,8 点 15 停止检录,我 6 点半起床,运气比较差,可能昨天在外走得太多,加上有点吹风,晚上又咳嗽起来,还有点低烧,一夜是没怎么睡好。今天的比赛,目标就是「完赛了」。步行来到起跑点。

早上的天气阴沉沉的,天气预报说今天有雨,加上身体状态不是很好,我特别担心下雨。更不巧的是,我忘记带雨衣了。来到体育馆内,脱掉外套,换上了运动装备后,来到存包的地方。

体育馆不大,人很多。

这一次我是 G 区起跑,位置比较靠后,但是还是在体育馆内,趁着现在人还不太多,让路人给我拍了一张照片,还是之前的那身装备,习惯了舒服。

起跑仪式没有太多花哨的表演,8点55分,首先是轮椅运动员起跑,9点整准时起跑。

京都马拉松全程赛道都不宽,加上参赛人数众多,一路周围人都不少。

跑着跑着,太阳出来了,如果不是身体状态不好,这个天气还是挺适合跑马的,加上气温也不高,其实挺容易刷成绩。

路过一个寺庙,里面的和尚也出来给大家加油,翻译一下是「心怀希望,一路向前」。

路过一个朱红色的鸟居,鸟居是日本神道教神社的传统入口标志,象征着从世俗空间进入神圣空间的过渡。

来到了鸭川河边,过了桥之后,看到后面还有很多很多跑者。

这一段也算是京都马拉松的精髓路段了。

从 15 公里之后,每间隔5km,补给点就开始供给食物了,从饼干、面包到水果,种类还行。京都马拉松每个补给点十分规范,水杯里也会提示这杯水有多少量,提示 「1/3」 , 「3/5」 之类的水量,方便跑者补水,而且有个小细节,在食物的补给台之后,肯定还会再有一个饮用水补给台,方便跑者吃完东西后再进行补水

终于到达半程中间点位置了,这个时候我的时间,已经到达2小时17分,比我过往 2小时出头的成绩慢了将近 15 分钟。

这次京都马拉松,我在 10 公里的时候,身体就已经撞墙,前一周身体状态不佳的影响提前出现了,表现就是 10 公里开始就感受到「很饿」,两腿发软,让我不得不提前吃能量胶。

路过一个路人的食物点。这次京都马拉松,让我印象最深的是京都的观赛民众,日本的长跑文化十分发达,民间也有很多跑步爱好者,这次京都马拉松,从小孩到老人,一路都能看到很多人在路边为跑者加油。我这一路都是听着「干巴爹」,参赛的氛围还是十分棒的。

这是第 14 届京都马拉松,不知道日本的其他马拉松的组织水平,京都马拉松每一段路的交通管制都做得十分精细,在半程之后,会在一些检查点提示这个点的关门时间。

跑步进到京都的一个植物园,这里还有艺妓的表演。

从植物园出来之后,开始进入鸭川的河滨小路,这里的道路就变得比较窄了,并排只能 2 人。

路边的一个加油的团队,我与他们他互相招手了。

到达一个有草莓的供给点,不得不说,跑到 30 多公里,能吃上一口酸甜的京都草莓,还是很爽的。

最后 10 公里,我基本也就是走走停停,最后的 5 公里也是一个折返路段。到达最后 1 公里的时候,自拍留念。

终于要到终点了,两边还是有很多加油的民众。 踏过最终的终点线。

老习惯,终点前自拍一张。

京都马拉松有 1 万 6 千的参赛人数,由于我是在 G 区起跑,属于5小时左右的速度,一路周围看到各个年龄段的都有。

完赛之后,有一个纪念的围脖。

除了奖牌、围脖,还有一些补给品发放。

我的第 10 块马拉松奖牌,也是我的第 2 块海外马拉松奖牌(第 1 块是 2018 年的泰国普吉岛马拉松)

在终点更衣和休息区,还有专门的给手机充电的地方,这一点细节也是值得学习的地方。

早上 9 点起跑,下午 2 点多完赛,更衣准备完之后,依旧接近下午 3 点,又累又饿,步行去京都四条附近看了看找餐厅,结果不是饭点,没找到合适的开门的餐厅,就先回酒店睡觉了。

DAY4 京都・深圳 &ZeroWidthSpace;

最后一天的行程,下午 4 点的航班返回深圳,倒也不急,早上 10 点退房之后,来到京都车站,准备在这里吃完饭再坐巴士去大阪的关西国际机场。

京都车站有寄存柜,十分方便,直接刷 Apple Wallet 的西瓜卡就能解锁,也不太贵。

小红书上搜了搜,也懒得再去其他地方逛了,去京都车站10楼的「拉面小路」,准备吃碗拉面。

花了 3,500 日元,约 ¥180 人民币,点了一碗加满牛肉的拉面(我点的最贵的那个)和葱花煎饺,味道还不错。

吃完饭,又上顶楼的观景台,与老婆来了个 FaceTime,感觉下次还可以再带老婆来京都好好玩玩。

时候也不早了,这次不打算坐列车,定了巴士,京都到关西机场,约 ¥100 人民币,一路不堵车,差不多 1 个半小时到。

在巴士上见到任天堂的大楼,搜了搜,才发现原来任天堂的总部就在这里。

顺利登机,离开大阪。

成绩 &ZeroWidthSpace;

上次长沙马拉松 4 小时 56 分的成绩,这次 5 小时 07 分的成绩,在身体状态不佳的情况下,也算是「完赛」达成目标了。

随想 &ZeroWidthSpace;

京都,作为世界热门旅游城市和日本的文化古都,在这次马拉松之行中,我并未有足够时间深度游览。除了鸭川,其他知名景点基本上没去过。尽管周六那天我离伏见稻荷大社只有1公里远,但因为其他事务而无法步行前往。

这次也没怎么拍照,全程基本就是 iPhone 14 Pro 出片,感觉还是有必要:再安排一次京都的观光行程,好好体验一下京都的文化。

番外 &ZeroWidthSpace;

在 YouTube 上想搜搜 Kyoto Marathon 的视频,分别发现了两个在 4.3km 和 13km处的长视频,记录了所有跑过的跑者。

通过分析配速和分段成绩,找到了自己在两个视频中出现的准确时间点,还是挺有趣的,国内马拉松好像还没见过类似的记录者,感觉有机会下次可以试一试。

ChatGPT – Deep Research 功能指南&技巧总结:从「进度条」到「提示词」,一次搞懂!

By: Anonymous
22 February 2025 at 13:13

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

最近有很多朋友在讨论:「Deep Research 的用量是怎么算的?」 又因为目前 Plus 每个月只能用 10 次,大家都非常担心浪费。其实一句话就能总结——只要开始出现 「Starting Research」 的进度条,就算使用了一次。在进度条出现之前,怎么问都不算。下面就为大家分享一些 Deep Research 的使用流程、注意事项和提示词模板,帮助大家更好地运用这一强大的研究功能。

一句话总结从开始出现 Deep Research 进度条就算一次,之前都不算

提出主题
你先要告诉 ChatGPT 需要研究什么主题。

ChatGPT 询问澄清问题
ChatGPT 通常会向你询问一些澄清问题,确保理解你的研究需求。

回答澄清,触发研究
当你回答了上述澄清问题后,ChatGPT 会再回复一条消息,并提示「将开始报告「,随后出现 」Starting Research「 的进度条。

注意:从这一步开始就会扣除一次 Deep Research 用量。

报告生成
研究进度条走完后,ChatGPT 会给你发送完整的报告,这标志着一次 Deep Research 流程的完成。

进度条出现后,你可以随时离开
进度条开始后,无论你是关闭窗口、刷新网页、切换到其他会话还是新开会话,都不会影响已经开始的 Deep Research 流程,它会在后台继续执行并最终生成报告。

Deep Research 可以后续追问
当报告生成结束后,如果你要继续追加信息重新生成报告,有两种选择:1). 直接提问,会使用你开始会话时选择的模型继续对话,报告内容可以作为上下文;比如说你从 GPT-4o 开始的,那么你在报告生成后,如果继续提问,实际上是 GPT-4o 基于你报告和提问内容回复,但是可能会受限于上下文长度无法完整理解报告内容;2). 重新生成新报告:Deep Research 是一次性生成的,但是你可以继续在当前会话选中「Deep research」按钮,这样可以把当前会话内容作为输入,或者把内容复制出去新开会话选中「Deep research」按钮重新开始一次新的生成。内容复制出去处理一下再生成会更好的对输入进行控制,但是麻烦一些。

无法追加新的信息让它继续深度研究。如果你在当前会话里继续追问,后续的回答将由其他模型(如 GPT-4o)接管。
如果你对报告不满意,需要重新修改提示词再新开一次会话进行 Deep Research。

灵活切换模型
你可以先选任何模型(如 o1 pro/o1 等),再让它进行 Deep Research。若后续还打算继续追问报告内容,建议在 Deep Research 开始前就选一个更强的模型(比如 o1 pro / o1)来进行分析。

选择信息源和报告语言

建议在提示词中加一句「请选择权威信息源」(并不一定要非英文来源不可,重点是权威信息源,这样可以过滤掉一些不好的信息源,当然你也可以加上「优先英文信息源」)。

如果希望报告是中文,直接在提示词末尾加一句「请形成中文报告「即可。

如果不小心生成了英文报告,又看着费劲,可以在当前会话,让它翻译,也可以复制完整内容,

ChatGPT – Deep Research 功能指南&技巧总结:从「进度条」到「提示词」,一次搞懂!

新建会话,选择 o1 pro 或 o1 模型(最佳翻译效果),翻译提示词参考:

「请将下面的内容用中文重写,尊重原意,保持格式不变无删减:」

引入外部资料的方法

如果报告需要访问收费网页上的内容,你可以手动复制成 Markdown,然后在提示词中用 XML 标签包起来。

如果有图片内容,直接上传即可。

如果要分析视频内容,需要先把视频转成文字,同样用 <transcript> 标签包住,再放进提示词里。

我一般会用 AIStudio 的 Gemini 转成文本

你可以一次粘贴几千行代码也没问题(用 XML 包起来),但要注意输入框粘贴有上限。如果太多,可以把代码放在公开的 GitHub 仓库,让 Deep Research 去分析链接即可。

写报告或写代码都行
Deep Research 不仅能写报告,还能写代码。只要你提示它「生成的结果是代码」,它就会尝试从网上搜索相关代码库并提供解决方案。

文献质量与报告质量
如果想让它「阅读」一本书并进行提炼,需要注意输入长度有限,无法直接输入一本完整的书。大部分流行书籍已经在模型中有训练数据,所以它会参考网上已有的书评。资料越多、质量越高,报告越漂亮;如果资料很少,它也无米下炊,生成的报告质量可能有限。

一个常见的提示词模板大致可分为背景信息任务要求、和输出格式三个部分。

在这里填写所有对它生成报告有帮助,但模型本身访问不到的信息,比如:

付费文章

视频文字稿

图片或 PDF(可作为附件)

其他任何对于生成有帮助的内容

当背景信息较多时,务必用 XML 标签包裹,避免 AI 混淆指令。例如:

主题:你希望分析、研究或讨论的具体范围

信息源:希望它检索的文献库、学术论文、政府网站、GitHub

研究要点:需要关注的核心点,是深度解析还是简要摘要

语言或风格:是中文、英文或其他语言?

语言:中文报告、英文报告或双语

数据格式:是否需要用表格呈现数据(它暂时画不了图表)

段落和标题:是否需要分级标题、索引等

提示词模板并不是必须的,可以随性一点,你可以把写提示词使用 Deep Research 当成去交代一个实习生帮你写分析报告,你怎么交代实习生就怎么写提示词

Deep Research 的使用次数:只要出现「Starting Research」进度条,就会扣除一次用量。

保持灵活:不满意就重新开始,新开会话前最好做好提示词规划。

结合大模型优势:如果要深入分析或后续追问,选用更强的模型如 o1 pro / o1 更合适。

慎重选择资料:外部资料要提前整理好,使用 XML 标签嵌入提示。

尊重版权、合理引用:在使用外部资料时,务必保留引用信息,切勿违规。

希望这篇文章能让你更好地理解和使用 Deep Research。在实际使用中,不妨多加尝试和探索,慢慢就能摸索出最适合自己的使用方式。祝大家玩得开心,也能高效地完成研究和写作任务!如有更多问题,欢迎在评论区留言交流。

总结

如果你想让 Deep Research 提供权威信息源,在提示词中加一句「请选择权威信息源」

如果要生成中文报告,只要在提示词里加「请形成中文报告」即可。

不小心生成英文报告且看着费劲,使用下面的提示词翻译:
「请将下面的内容用中文重写,尊重原意,保持格式不变无删减:」

欢迎大家在留言区分享你们的使用心得与经验,一起探讨 Deep Research 的更多玩法!

笨还是蠢

By: Anonymous
21 February 2025 at 01:10

DUN.IM BLOG

DUN.IM BLOG

面对错误,面对失败,人们经常会自责:「我真蠢」。通常我不会劝慰,因为我理解,这种自我惩戒能带来一种另类的爽,和挠发痒的伤口一个道理,不让挠就是不人道。但我的确认为这里的中文有一点小问题,「蠢」不是合适的那个字眼,「笨」才是。蠢和笨有很大区别吗?这两个字不是经常连在一起用的么?在我的理解里,蠢和笨是两回事,蠢人和笨人也是两种人。

过几天就要到二十四节气的惊蛰了,据说惊蛰会打雷,把蛰伏在泥土里的小虫子唤醒。虫子在泥土里蠕动,东北方言所谓的「蛄蛹」,就是「蠢」字的来源—意思是笨拙迟缓,看字型就很清楚了,蠢就是春天的虫子嘛。重点在于虫子,虫子这种形态局限了虫子的可能。换句话来说,虫子的问题不在于笨拙迟缓,而是它没有办法认识这个世界,甚至也无法认知自己。当然,虫子肯定不会觉得自己笨拙迟缓,每一刻都蛄蛹得很自信,不信你随手捡起一条感受一下它蛄蛹的气力。

笨在我理解里是思维慢的意思。别人花 5 分钟想明白的事情,笨人可能需要半小时。别人听一次就能理解的东西,笨人也许要反反复复许多次才成。

但是和蠢不同,笨人是有光明未来的,他只是慢,又不是根本不会去想,根本不会去做。无非是聪明人通常早到,笨人会晚点。笨人知道自己是谁,也知道自己在做什么、怎么做,这是和蠢人最大的区别。

而且,笨也不是什么多大的坏事。「笨」字有个竹字头,它最早的字意是竹子的内膜。所谓「竹其表曰笢(mǐn),其里曰笨,谓中之白质者也。其白如纸,可手揭者」,竹子的表皮叫做笢,内里叫做笨,就是其中白色部分,它白得就像是纸,可以用手揭下来。用来形容人的时候,意思是纯洁清白。后来不知道怎么转成了笨重的意思,形容一个人的身量,最后又转成了今天的头脑迟钝不聪明的意思。所以,有人说自己笨,不妨理解为自己因为纯洁清白因而显得有些头脑简单,那是不懂欣赏而已。

所以,当有人自责或评价的时候说蠢,我就要仔细看一下,但通常看下来,人们只是笨而已,也就是思虑的周全,或者事情的完整。不过是个过程中临时的困境,调整一下,重新尝试几次,也许就能做全或者完成,无非是多了一些周折罢了。

笨没有问题的,比别人多废一点时间是多么了不起的事情,最终能抵达就行。而蠢是绝计不能的,笨人起码会承认自己笨,而蠢人对自己的蠢不知不认毫无觉察,这就是问题所在。

了解我的人说我有「厌蠢症」,我会常常反思一下,的确是有这个问题。看到一个人的一句话,看他怎么选择中文词组,看他怎么组织句子,怎么交流沟通,我就可以推断这个人是怎么想的,为什么会那么想。如果我认为对方会在自己的这种想法里怎么都出不来,那我就会瞬间失去耐心,因为那是蠢,蠢因为无自知无自省,所以是无药可救的,继续交流完全是在浪费时间精力。

事实上,当一个人会自责的时候,就只能是笨。因为蠢人不知不认不改,是不需要自责,更不需要反思,自己永远是对的,错的是全世界。如果一个人还能自省,说明并不蠢,还有找到出路的希望。别做「蠢人」,多少为自己的未来保留一点希望,保留一点光明。有这一点点光亮在,可以和任何人事物友好相处,人就可以继续前进,也就依然有可能最终抵达。此外,出于人道主义精神考虑,谁也不希望每天醒来,满眼看到的都是浪潮一样的蛄蛹而来吧?那我还过什么个劲儿呢?

话都说不清楚

By: Anonymous
5 February 2025 at 13:27

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

最近有很多人假装关心,问我是如何更好的使用 AI 的,那我也就假装解答一下。我认为任何人都应该学习利用 AI,我分享自己利用 AI 工具经验和技巧思考,信息量已经足够多了。但是想要做到,可能还需要自己去探索,去做大量尝试。

很多人希望我直接出个教程,甚至最好是个视频教程,自己好按图索骥,照猫画虎。但我没兴趣,讲述起来太麻烦,我不想自己太累。这样一来,就会有人说我傲慢冷漠,说我小气藏私,说我老登加爹味,诸如此类的酸话。其实我是真的累,心累,很早就把自己的期待降到了最低。比如说如何在国内使用 AI 的话题,我早分享过,甚至还贴出了链接。但是总有人不断来问,所以我说他们是「假装关心」,连提问前先搜索一下都做不到。

对此我能理解,因为我没期待。我不期待每个人都会关心我的分享,我也不期待每个人在提问前会主动搜索信息,我习惯了张嘴就问,所以我相信 AI 更能满足他们的需求。

现在国内也普及了 AI,我又发现了一个更加致命的问题:很多人连话都说不清楚。

对,我说了,你只需要像是和人说话一样吩咐 AI 去做事就好。我观察了几百条和 AI 之间的互动,看完内心充满了同情。

很多人的确是用和人说话方式来和 AI 交流,我仔细看了,他们平常可能就是这样和人说话的,所以看完我极度同情那些不得不和他们对话的人。他们所面对的,是混乱含糊,逻辑不清,而且相当粗鲁无礼的对话内容。

事实上,人类让 AI 去做什么事,这是在下达指令、请求。为了便于大众接受和实用,这里抹去了指令、咒语、提示语、Prompt 一类的术语,而是用大白话说:你像是和一个人说话那样,去吩咐 AI 做事。但它本质上就是个指令请求,这一点不会因为描述方式改变而改变。

那么,无论对面是一个人还是一个 AI,你给出的指令请求应该清晰明了,好让对方明确知道自己应该怎么去做—让我吃惊的是,很多人根本做不到这一点,他们连话都讲不清楚。

我看到,很多人上来张嘴就是:「给我分享」「给我照片」。什么图片?关于什么的分享?具体是要给你建议还是帮助解决需求?谁知道你心里想着的具体是什么?

还有人上来就问:「送什么好」。谁送,送谁,为什么送,双方什么关系,什么地区,什么当地风俗?一概没有。于是,AI 弄了一些关于赠送礼物的片汤话回复。看完马上不高兴了:「我要的是送礼的推荐,东西呢?!」。

人可能真的是生来就有不同。我朋友的女儿,我管她叫小妹,小学生一个。有天发来语音问我 AI 绘画的事情,说是让 AI 画了一张仓鼠的图,很不满意,问我应该怎么弄。我让她把自己给 AI 的指令/请求/咒语/提示语/Prompt 发来让我看看,看完之后,我重新构造了一条发还给她,跟她讲:

AI 要知道画什么,你就得给出一系列明确的指示—什么载体、什么材质、什么风格、什么角度、什么镜头、什么光线,然后角色是什么神态、什么姿势、什么动作、什么状态、什么地点、什么空间、什么氛围,你得清晰地指定了,才不会出现你想要 AI 画一张油画,它给你一张照片或者漫画的悲剧。小妹当场就能理解,高高兴兴蹦蹦跳跳自己去尝试了。

我一点都不担心小妹,多余的一句叮咛都没有。为什么?因为我见过她提出请求,我们一起吃饭的时候,她说:「我能不能要两个冰淇淋球,一个香草的,一个巧克力的」。停顿了一下,又补充说:「我可以和妈妈一起分着吃」。

要求非常清晰非常明确,所有人都能听懂她要什么。甚至她还考虑到对方用吃太多不好作为反对理由,预先把补丁给打上了—不是自己一个人全吃掉。

许多人活几十岁,不如一个孩子。我朋友的一任失败前女友就是如此,一开口所有人都想跳上去打。每次她一开口,就是盯着你娇憨地一句:「要」「想要」「我要」「想吃」。她是说什么,你要什么?为什么要?有什么必要?他妈的宾语呢?要煎饼呢要要要!

把话说清楚,把请求把要求把指令一二三四说清楚,让人能听懂,知道你的意图,可以明确根据你所说的去执行,我真的没有想到这其实是一项极高的要求,有那么多人居然做不到,更别说与人真诚的讨论/交流/商量/沟通。这样说起来,我先前的期待其实还不足够低,人们不单不会主动搜索找寻答案,人们连把话说清楚都有相当困难。

总听人在讨论 AI 替代人类的话题。我现在觉得这种讨论都多余,说什么人类和 AI 竞争呢?很多人连话都说不清楚,无法表达自己的意图,无法表达自己的想法,无法表达自己的情感,这本身在人类社会里就会被交际和工作所排斥,因为不知道他在说什么,想要表达什么,如何与其相处,哪里还需要等到被 AI 替代的一天?现在就是高度可替换的。

我以前说,将来的人们可能写不清楚,只能拍个视频出来。现在我担心视频怕是也不成,因为你都不知道他在视频里颠三倒四、莫名其妙说了些什么,世界上就找不出几个人来能听懂。

Pika – AI 视频神器,一键乱入新场景

By: Anonymous
11 February 2025 at 22:47

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

一张图、一句提示词,万物都能乱入你随手拍的视频。

▲动图制作自:X@omerbartal

在整活赛道天赋异禀的 AI 视频神器 Pika,最近又推出了一个好玩的新功能:Pikaddition。

从此以后,人人都是五毛特效师。

如果你有灵感了,现在就可以玩起来,注册 Pika 之后可以免费生成 15 次。

体验指路:https://pika.art/

不过,这个功能默认使用的是最快、最便宜的 Turbo 模型,想要达到理想的效果,往往需要不断调试提示词,抽卡的次数不算少。

Pikaddition 的使用方式很简单,三步走。

虽然操作不难,但想要玩得有创意,推荐以下几种「高阶玩法」。

实拍视频+不日常的图片

怎么邀请 Sam Altman 来指导工作?先用视频记录同事认真工作的样子,然后再在网上找一张 Sam Altman 的半身照,用提示词说明他怎么出现在视频里。

▲提示词:穿着绿色毛衣的男人站在左边,低头观察穿着牛仔夹克的人操作电脑

然后就可以看到,Sam Altman 亲自旁观我们报道 OpenAI,光影很自然,违和感被 AI 吃了。不过,Pika 会造成人脸的微崩,对比原视频,同事的颜值有所下降。

按照这个思路,我们甚至可以上演一出日常版的「神奇生物在哪里」,只需要一个打开封闭空间的视频、一张萌物的图片。比如,打开办公室的柜子发现皮卡丘。

▲ 提示词:皮卡丘一直藏在柜子里,直到门被打开

提示词写得比较宽泛,只说明了皮卡丘的位置,反而给了 Pika 适当发挥的空间,皮卡丘被发现时的表情和动作,都是活灵活现的,仿佛我们打扰它了。

前几天,语言学习软件多邻国整了一出营销活动,称自己的吉祥物猫头鹰多儿「去世」了,死因不明,可能是等我们打卡的时候死的。

试问谁没有被多儿的通知和小组件追杀着背单词过呢?如果它来到现实,是不是更让人心惊胆战?

▲提示词:绿色的小鸟从远处飞向伸出的手

想要实现这个催命的效果,一点也不难,拿起手机随意拍摄一段空镜,在视频里伸出我们的一只手,再随便找一张多儿的图片。

提示词仍然很简单,只是描写了多儿的动作,哪怕是平面的、2D 的多儿,Pika 也能加工成立体的、3D 的,和短视频更加适配。但出现了个 Bug:手指数量不对了。

还有一种进阶的实拍视频玩法,比较考验演技,需要先进行「无实物表演」。

▲被老虎扑倒,动图制作自:X@omerbartal

我们尝试过人物在视频里保持不动,只用提示词描述人物动作的改变,但是没有起效,所以还是需要进行一个提前的摆拍,考验大家戏精本质的时候到了。

▲提示词:身穿牛仔夹克的男子被一只水豚撞倒

影视名场面+打破次元壁的图片

把原本不相关的人或物(包括你本人)放进影视名场面里,只是分分钟的事情。

《蝙蝠侠:黑暗骑士》里的小丑炸医院,是经典中的经典,我们截取几秒的片段,然后上传一张马斯克的半身照,让他走在小丑的旁边。

▲提示词:穿着西装的男人正走在穿着护士服的男人的左边,并与他进行交谈

两人淡定离开犯罪现场的味道有了,美中不足的是,马斯克和小丑的脸都有点扭曲。

Pika – AI 视频神器,一键乱入新场景

写实的电影之外,二次元的动画风格也不妨一试。名侦探柯南《神秘乘客》这集的公交车,基本集齐了最强阵容,如果挑选一张夜神月的侧脸图片,那么卡密也能来客串。

▲ 提示词:黄头发、穿白衬衫的男人坐在中间的座位上

但还是那个问题,人物的变形比较明显,并且画风不是非常相融。

表情包出处视频+表情包图片

二创表情包,是每个 AI 视频工具都得整的花活。

▲提示词:狗躺在猫的右边,猫看了狗一眼

当惊讶猫的视频和全世界最著名的柴犬表情包联动,二脸懵逼固然有趣,但一猫一狗仿佛不在一个图层,柴犬像用迪士尼滤镜美颜过。

当我第一眼看到宇树科技机器人的蛇年春晚节目《秧 BOT》,就觉得在英伟达年会穿着东北大花袄的黄仁勋应该加入,好在 Pika 可以满足这个朴素的愿望。

▲ 提示词:白发男子正在机器人旁边跳舞

还真别说,这甩红手绢的动作,这一板一眼的步伐,挺有默契的。

Pika 的特效称不上专业级,但作为一个创作短视频的玩具,倒也绰绰有余。

AI 视频百花齐放,各有各的特长,可灵综合能力强,海螺擅长风格化,PixVerse 速度快,和同行们比起来,Pika 可以说是最会整活和把创意模板化的一个了。

▲动图制作自:X@pika_labs

2 月 14 日情人节当天,Pika 又推出了一个新玩法——Pikamemes,目前可以在 iOS app 体验。

体验指路:https://pika.art/app-download

上传一张干净的人物自拍照或者一张宠物的大头照,不用写提示词,一键使用模板,Pikamemes 就可以生成表达各种心情的表情包,并且支持直接下载 gif 动图。

让马斯克送上玫瑰花,或者赏个白眼,都在一念之间。

再往前推,Pika 的多主体参考功能 Pikascenes,支持上传多张参考图片,并保持主体的一致性。集齐人物、商品、场景的照片,就能实现一键试衣了。

▲图片来自:X@martgent

Pika 的 AI 特效功能 Pikaffect,更是一度全网爆火,特别是其中的 AI 捏捏,刷屏小红书和 TikTok,推动 Pika 用户突破 1100 万。

▲图片来自:Pika

Pika 在模型能力之上卷玩法,切中了一群对整活短视频有高需求的用户,让人人都能低门槛地玩得开心。哪怕这些视频是模板化的,稍纵即逝的,但只要有趣,人们就会蜂拥而至。

同时,Pika 也告诉我们,写不好提示词、脑洞不够大、不知道怎么实现主体的一致性,都没关系,等等吧,很快就有包装好的 AI 特效和模板了。

当 AI 工具承载了更低的下限,那就意味着,只要有想法,每个人都可以将微观的创作欲望落地为现实。保持好奇,保持期待,一瞬间的起心动念,就足以让好玩的事情降临。

Apple ID 账号购买的项目转移指南和注意事项

By: Anonymous
10 February 2025 at 15:19

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

苹果在 2025 年 2 月 11 日推出了一项新功能:将购买项目从一个 Apple 账户迁移到另一个 Apple 账户

不支持于欧盟、英国或印度的用户。

Apple 购买的 App、音乐和其他内容迁移到首选 Apple 账户。

苹果并没有解释其他内容具体是什么。

如果你不符合条件,则可能看不到「迁移购买项目」。

看起来,这项功能更适合在同一区域拥有多个账号的用户,它为用户提供了一个手动合并多个账号的功能,并把你买过的内容转移至主力账号的方式。

之后备用账号就可以抛弃不用了。

❌
❌