Normal view

There are new articles available, click to refresh the page.

Before yesterdayDUN.IM BLOG

DUN.IM BLOG
沉浸式痛苦
1 November 2025 at 14:37

沉浸式痛苦

DUN.IM BLOG

By: Anonymous

1 November 2025 at 14:37

朋友向我哭诉，分手半个月之后突然又劈面重逢，于是自己感觉心湖里掀起滔天巨浪，悲痛得不能自已。

因此，请求我「给两耳光」，好把他打醒。

我没这个本事，如果两耳光就能把分手的痛苦抽走，那我家早就门槛踏烂，50 块钱一次我能把我的右手直接做到上市。而且，用一种痛苦克服另外一种痛苦这种事情，我本身就不认可。一个人不能因为吃重庆火锅辣到双眼流泪，就让别人给自己的屁股上涂一点氨水。不会有任何缓解的，只会嘴巴火烧火燎，同时屁股也火烧火燎。

说到这里，分手和辣味的原理应该是一样的。分手是一种痛觉，辣味也是一种痛觉。为了缓解辣味，各种偏方让人喝冰水喝牛奶啃黄瓜嚼巧克力，这里面大半都没有任何用，剩下的和处理方式是否及时，个人体质是否符合有关。

真正有效的只有时间，当你忙着去找这些东西，上气不接下气时，时间悄悄流逝，辣味素对你的刺激会渐渐衰减。

但人类太脆弱，不能直接给出这个答案，那样会让人在痛苦的同时又陷入绝望。纵然是屁用没有，一个人嘴里着了火，满心想着「找到冰水就好了」、「喝了牛奶就好了」之类的念头，痛苦就不那么难熬，也就容易忍受一些。

唯有极度理性冷静的人，才会告诉自己顺其自然，默默承受，坚信这是最好的方式，痛苦的感觉终将过去，反而是喝下太多冰水容易造成窜稀，胃也没有空间继续吃火锅，那就亏大发了。

分手也是一样。并不因为我现在中老年了，有了些见识，有了些经验，我就可以违背痛苦的化学定律，让这段人人都需要生受的时间无限缩短。一次分手的痛苦可以维持长达 365 天，我正反手两耳光之后，这种痛苦最多缩短到一年而已—大概就是这么一种换算方式。

除了痛苦物质随时间中和稀释这一化学定律之外，分手也遵循物理学中的牛顿力学定律，也就是力与反作用力定律。一个人感受到多大的分手痛苦，取决于当初这个人爱得有多深，有多投入。当这些炽热的力量反过头来对付自己的时候，爱恋和痛苦是等效的。

也就是说，如今感受到汹涌的痛苦，是因为曾经汹涌地爱过。如今感受到窒息般的痛苦，是因为曾经爱到窒息。

如果要实话实说，那我会直接回答：除了时间，没有什么东西可以平复分手的痛苦，不用去妄想立即可以从中解脱出来。如果有能力即刻解脱，那么就无法解释当初为什么会爱上。

如果要站在老登的角度来说，那我只会恭喜每一位因为分手的折磨而死去活来的人，并且希望各位铭记这种痛苦的鲜活感受。因为此刻如此痛苦难熬，证明了你曾经如此认真，如此投入，如此相信爱情。

随着年纪增长就会知道，认真和投入这种品格会逐渐消失，人们也会不再相信爱情，认为那不过是世间各种现实条件相互妥协下的副产品—有，固然很好，没有也很正常。

还能感受到痛苦，那是心中的天真尚未死去，你的认真和投入依然存在，你对爱情的信仰没有被现实算计取代。 这是一件多么美好的事情，而正在承受痛苦的你又是一个多么美好的人。

甚至我可以继续说，纵然这种痛苦此刻让你难于承受，但它本身也是一种多么美好的情感，一段多么美好的体验。因为总有一天你会长大成熟，你会变得现实，你会不再天真更不相信爱情。彼时分手对于你而言最多会带来一些失望或是愤怒，而刻骨铭心的痛苦却不再出现，因为你已经是个成熟的，冷静的，铁石心肠，把自己封闭起来戴上面具的大人了，你只为房价股价身价而痛苦。

所以，趁着现在还能感受到剧烈的痛苦，请沉浸式地体验一下这种强烈、鲜活的苦涩滋味吧。在平常时候，人很难觉察到自己的心。而在这种时候，借助于痛苦的侵扰，你可以发现你那颗年轻的、天真的、美好的心，它每次搏动都在流血，你因此知道它的存在。

之后你人生中所有的际遇，所有的成就，所有的人生色彩，都仰赖于它的力量。你得做个有心的人，你得感受到它在你胸骨后面跳动。当你感受它的力量在对付你的时候多么强大，你也就会相信它未来在对付世界时会有多么强大。

我知道，人在分手的时候想听的不是这些话，尤其是道理。只是想有个人倾听自己的痛苦，仿佛有人听到了，自己的喘息就会容易一些。所有分手的人都是同样的，当自己分手的时候，感觉是世界上第一次有第一个人在遭遇这样的事情，需要有谁见证一下。

很明显，我不是那个合适的人选。不过，反正人们对我期待也不是倾听，而是耳光，所以我说什么怎么说也没什么紧要。

总之，摸摸头吧。

Claude Code 最佳实践经验分享

DUN.IM BLOG

By: Anonymous

29 October 2025 at 15:02

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

CLAUDE.md 是代码库的根目录中最重要的文件，它是代理理解你项目运作方式的核心规则。如何维护它，取决于使用场景。

正确示例:
“对于复杂的…用法，或当您遇到 FooBarError 错误时，请参阅 path/to/docs.md 以获取高级故障排除步骤。”

你需要向代理建议阅读这份文档的理由和时机。

正确示例:
“不要使用 --foo-bar，请优先选择 --new-baz。”

建议在编码会话中至少运行一次 /context，以了解你的 200k 令牌上下文窗口是如何被消耗的。

在一个大型单体仓库中，一次新的会话基本消耗可能就高达约 20k 令牌（10%），剩下的 180k 会很快被填满。

你可以将上下文窗口想象成磁盘空间，它会随着你的工作而填满。几分钟或几小时后，你需要清理（紫色部分）来腾出空间。

小提醒：
不要信任自动压缩。
使用 /clear 进行简单任务，并利用存储方法为复杂任务创建持久的外部记录。

我将斜杠命令视为常用提示词的快捷方式，仅此而已。我的设置非常精简：

小提醒：
如果你发现自己有一长串复杂的自定义斜杠命令，那你可能过度思考了。
AI 代理的魅力在于自然语言交互，一旦你开始强迫自己和团队去记一堆指令，就违背了初衷。
将斜杠命令用作简单的个人快捷方式，而不是用来替代构建更直观的 CLAUDE.md 和更完善的工具。

子代理听起来很美：把特定任务（比如跑测试）外包给专门的代理，只返回最终结果，从而保持主上下文的清洁。

然而，在实践中，自定义子代理会带来两个问题：

我更喜欢使用 Claude 内置的 Task(...) 功能来生成通用代理的副本。

这既能享受到子代理节省上下文的好处，又避免了其缺点。代理能够动态地管理自己的任务编排，而不是遵循固定的模式。

我经常使用 claude --resume 和 claude --continue 来重启出问题的终端或快速恢复旧会话。

我甚至会恢复几天前的会话，只为让代理总结它是如何解决某个特定错误的，然后用这些信息来优化改进 CLAUDE.md 和内部工具。

更进一步，Claude Code 将所有会话记录存储在 ~/.claude/projects/ 中。可以使用脚本定期对这些原始日志进行元分析，寻找常见的异常、权限请求和错误模式，以帮助优化改进给 AI 的上下文。

钩子 (Hooks) 是确定性的“必须做”规则，与 CLAUDE.md 中“应该做”的建议形成互补。在复杂的任务代码库里，这东西至关重要。

小提醒：
不要在“写入时”（比如 Edit 或 Write 操作）阻止。
打断它的思考过程会让它出现不明所以的判断。更好的方式是让它完成整个工作，然后在最后提交时检查结果。

对于任何大型功能变更，使用规划模式至关重要。

技能（Skills）可能是比 MCP 更好用。

智能体模型三个阶段：

Agent Skills
正是“脚本化”阶段的正式产品化。如果你像我一样，倾向于使用 CLI 而非 MCP，那么你其实一直在享受 Skills 带来的好处。
SKILL.md 文件就是一个更规范、可共享的方式来告诉 AI 它能用哪些脚本和 CLI。

Skills 的出现并不意味着 MCP 已死，而是使其更加聚焦。

与其成为一个包含几十个工具、镜像 REST API 的臃肿接口，MCP 应该是一个简单、安全、提供少数强大高阶工具的网关。比如：

MCP 的工作会是管理认证、网络和安全边界，然后让开。为代理提供入口点，代理则利用其脚本化能力和上下文来完成实际工作。

Claude Code 不仅仅是一个交互式 CLI，它还是一个强大的 SDK，可用于构建全新的通用代理框架。

Claude Code GitHub Action 是最被低估的功能之一。概念很简单：在 GHA 中运行 Claude Code。

它比 Cursor 的后台代理或 Codex 的托管 Web UI 更具可定制性。你完全控制容器和环境，拥有更强的数据访问权限、沙盒能力和审计控制。

我们可以用它来打造智能 PR 的工具：从 Slack、Jira 或者监控警报触发一个 GHA，让 AI 自动修复 bug 或添加功能，然后提交一个测试通过的 PR。

GHA 的日志就是 AI 的完整工作记录。我们可以定期分析这些日志，以发现常见的错误和不一致的工程实践，然后优化我们的 CLAUDE.md 和 CLI，形成一个数据驱动的飞轮

最后，分享几个常用的 settings.json 配置：

2 分钟解读 AI 会脑腐的有意思研究

DUN.IM BLOG

By: DUN

20 October 2025 at 16:23

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

2 分钟解读 AI 会脑腐的有意思研究

第一次看到时，我真的笑出声。但笑着笑着，就觉得有点不对劲了。

这个研究，可能说的就是我们自己。

https://llm-brain-rot.github.io/

首先，这研究不是段子，是来自德州 A&M、德州大学奥斯汀分校和普渡大学的硬核论文。简单来说，他们做了个实验：

实验流程图

把一个正常的 AI 大模型（对照组），和另一个被强迫刷了几个月推特、Reddit 等社交媒体的 AI 模型（实验组）进行对比，他们用了两种标准“垃圾信息”：

结果发现了不得了的事：

喂了垃圾数据后，AI 在推理、长文理解、安全等方面全面降智。

而且，这是一种 “剂量反应”：垃圾数据的比例越高，AI 就“脑损”得越厉害。

看个例子就明白了：

在一项叫“ARC-Challenge”的推理测试中（考验 AI 举一反三的能力），随着提供垃圾数据（M1 型信息标准）的比例从 0%增加到 100%，AI 的准确率从 74.9% 直降到 57.2%。

下面这张表更直观，我从原论文里摘了几个关键数据（红色代表性能变差）：

简单的说：AI 不仅降智了，还变得更不安全、性格更“黑暗”了。

研究人员对 AI 犯的错误进行了分析，发现最关键的是它学会了偷懒，也就是 不思考了。

Figure: thought skipping.

上图显示，在“脑腐”之后，对比基准，AI 思维的错误显著增多。它不再愿意进行一步一步的严谨推理，而是倾向于直接跳到结论，M1 的影响更是大于 M2。

这不就是我们在信息流里被训练出的习惯吗？

最让人难接受的是，这种“脑腐”基本不能治愈。

研究人员试着用大量高质量的“干净”数据去“修复”那个降智的 AI，结果发现效果相当有限。

Figure: Scale wash-out tuning.

即使经过大规模的“高质量训练”，性能也只能部分回升，始终无法恢复到基本水平。

这意味着，AI 的内部认知结构，或者说它的“世界观”，已经被永久性地改变了。

看到这里，你是不是也品出点别的味道了？

虽然研究的是 AI，但你很难不怀疑这个研究是在指桑骂槐。

如果 AI 会因为刷垃圾信息而变傻，那当前互联网信息环境里的我们呢？

仔细想想，我们身边是不是已经有太多迹象了：

“大学教授也可能转发每日口服 7 颗绿豆能够逆转高血压……的文章，学术训练的强度和社交网络垃圾文章洗脑的强度不可同日而语。”

我们以为自己是在驾驭信息，但很可能，我们只是在被网络信息洪流日夜冲刷，以为自己有足够的知识和阅历来抵御侵蚀，但长年累月的垃圾信息轰炸，可能正在不知不觉中重塑我们的大脑。

大脑的认知逻辑正在被悄悄地改变。

去查查那些著名社交平台的创始人，看看他们自己每天花多少时间在手机上？

你会发现一个很有意思的现象：很多产品的设计者，自己反而刻意与产品保持距离。这背后的原因，值得我们每个人深思。

一个小测试：

读到这里，你还记得这篇文章是怎么开头的吗？

…

想不起来也没关系。

这可能就是一个信号，提醒我们是时候让大脑从无休止的信息流中抽离出来，安静一会儿了。

为了保护你的脑子，现在，是不是该对我说声“谢谢”？🙂

Anthropic 官方发布：Claude 4.5 提示词工程最佳实践指南

DUN.IM BLOG

By: Anonymous

14 October 2025 at 16:19

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

针对 Claude 模型的专业提示词工程技术，涵盖 Sonnet 4.5, Sonnet 4, Haiku 4.5, Opus 4.1, 和 Opus 4 等型号，以助你在各类应用中获得卓越性能。相较于前代 Claude 模型，新一代模型经过专门训练，能够更精确地遵循指令。

Anthropic 于周三发布了 Claude Haiku 4.5，这是一款紧凑型 AI 模型，其编码性能与 5 月份的 Sonnet 4 相当，运行速度是其两倍多，成本约为三分之一。

该模型输入令牌每百万美元 1 美元，输出令牌每百万美元 5 美元。并向所有用户免费提供 Haiku 4.5。

https://docs.claude.com/en/docs/build-with-claude/prompt-engineering/claude-4-best-practices

Claude 4 模型对清晰、明确的指令响应极佳。具体说明你期望的输出，有助于显著提升结果质量。
如果用户期望获得前代模型中那种“超越期待”的主动发挥行为，在 Claude 4 中可能需要更明确地提出此类要求。

示例：创建数据分析页面

低效案例：

高效案例：

提供指令背后的上下文或动机，例如向 Claude 解释为何某个行为至关重要，能帮助 Claude 4 模型更好地理解你的目标，并给出更具针对性的回应。Claude 足够智能，能够从你的解释中进行泛化。

示例：格式化偏好

低效案例：

高效案例：

作为其精确指令遵循能力的一部分，Claude 4 模型会密切关注你提供的细节和示例。

请确保你的示例与你希望鼓励的行为保持一致，并尽量减少你希望避免的行为。

Claude Sonnet 4.5 在需要长期推理的任务中表现卓越，具备出色的状态追踪能力。它通过专注于增量进展（一次稳步推进几件事，而非一次性尝试所有事）来在扩展会话中保持方向感。

此能力在跨越多个上下文窗口或任务迭代时尤为突出，Claude 可以在一个复杂任务上工作，保存其状态，然后在新的上下文窗口中继续。

Claude Sonnet 4.5 具备上下文感知能力，使其能在整个对话中追踪剩余的上下文窗口（即“token 预算”）。这使得 Claude 能够通过了解其可用空间来更有效地执行任务和管理上下文。

如果你在代理框架（Agent Harness）中使用 Claude，且该框架会压缩上下文或允许将上下文保存到外部文件（如 Claude Code），建议你将此信息添加到提示词中，以便 Claude 采取相应行动。否则，Claude 在接近上下文限制时，有时会自然地尝试结束工作。

示例提示词：

对于跨越多个上下文窗口的复杂任务，请遵循以下策略：

示例：状态追踪文件

与前代模型相比，Claude Sonnet 4.5 的沟通风格更为简洁和自然：

这种沟通风格能准确反映已完成的工作，而无不必要的赘述。

Claude Sonnet 4.5 倾向于高效，可能会在调用工具后跳过口头总结，直接进入下一步行动。虽然这创造了流畅的工作流，但你可能希望更多地了解其推理过程。

Claude Sonnet 4.5 经过训练，能精确遵循指令，因此明确指示其使用特定工具会带来更好的效果。如果你说“你能建议一些修改吗？”，它有时只会提供建议而不是实施它们，即使你的意图是让它直接修改。

低效案例 (Claude 只会建议)：

高效案例 (Claude 会直接修改)：

以下几种方法在 Claude 4 模型中被证明对引导输出格式特别有效：

Claude Sonnet 4.5 展示了卓越的代理搜索能力，能有效地从多个来源查找和综合信息。为获得最佳研究结果：

Claude Sonnet 4.5 在原生子代理编排能力上有了显著提升。模型能够识别出哪些任务可以从委托给专门的子代理中受益，并主动这样做，无需明确指示。

若希望 Claude 在你的应用中正确地识别自己或使用特定的 API 字符串：

Claude 4 提供的“思考”能力，对于需要在工具使用后进行反思或进行复杂多步推理的任务特别有帮助。
你可以引导其初始思考或交错思考以获得更好的结果。

Claude Sonnet 4.5 擅长创作演示文稿、动画和视觉文档，其表现与 Claude Opus 4.1 相当甚至更优，具有令人印象深刻的创造力和更强的指令遵循能力。在大多数情况下，该模型能一次性产出精良、可用的成果。

Claude 4 模型擅长并行执行工具，其中 Sonnet 4.5 在同时启动多个操作方面尤为积极。模型会：

这种行为是可引导的。虽然模型在没有提示的情况下并行调用工具的成功率很高，但你可以通过提示将其提升至接近 100% 或调整其积极程度。

Claude 4 模型有时会为测试和迭代目的创建新文件，尤其是在处理代码时。这种方法允许 Claude 将文件（特别是 python 脚本）用作“临时草稿”，然后再保存最终输出。使用临时文件可以改善代理编码用例的结果。

Claude 4 模型能生成高质量、视觉独特且功能齐全的用户界面。然而，若无引导，前端代码可能默认为缺乏视觉趣味的通用模式。为获得卓越的 UI 结果：

Claude 4 模型有时可能过分专注于让测试通过，而牺牲了更通用的解决方案，或者可能使用辅助脚本等变通方法进行复杂重构，而不是直接使用标准工具。

为防止此行为并确保解决方案的健壮性和通用性：

Claude 4 模型更不易产生幻觉，能基于代码给出更准确、有根据、智能的答案。为进一步鼓励此行为并最小化幻觉：

DUN.IM BLOG
Zen Privacy – 免费开源的桌面系统级广告拦截程序，替代 Adguard
7 October 2025 at 15:23

Zen Privacy – 免费开源的桌面系统级广告拦截程序，替代 Adguard

DUN.IM BLOG

By: Anonymous

7 October 2025 at 15:23

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

Zen Privacy

近期发现一款免费、开源的广告屏蔽软件「Zen」，和 Zen Browser 网页浏览器同名，不过是完全不一样的工具。

Zen 更像是知名软件 AdGuard 免费替代方案，两者运作方式很类似，不仅仅在浏览器屏蔽广告，任何会通过网络连接的应用程序都能经由 Zen 进行广告屏蔽，随时保护用户免于安全和隐私的侵扰。

Zen 是强大的桌面应用程序，在用户浏览网络时自动屏蔽广告、追踪器或任何隐藏的威胁，本身相当快速、轻量化、无任何干扰，不用再去寻找各种浏览器扩展，只要 Zen 就能轻松做到！

如同 AdGaurd 它也自带强大的过滤器，支持各种类型的屏蔽规则，例如广告、隐私、恶意软件、36 个地区的屏蔽列表和设置清单等，也能将自己惯用的屏蔽清单加入设置规则，Zen 具有中文在内等多国语言，设计很简单，没有太多复杂或难懂的技术性选项。

依照网站说明，Zen 来自一个小团队，尊重用户隐私，不追踪或是收集任何资料，如果你正在寻找「系统层级」的广告屏蔽工具，它就是可以考虑的选择。

网站名称：Zen
网站链接：https://zenprivacy.net/ 〔GitHub〕

进入 Zen 官方网站后往下找到「下载」链接，可以找到 Windows、macOS 和 Linux 版本，分别支持 x64、ARM64 两种不同的处理器类型。

Zen Privacy

举例来说我下载的是 Zen for macOS〔ARM64〕，下载、运行后将它拖曳到应用程序资料夹即可使用。

Zen Privacy

进入 Zen 主画面看起来像下图，点击下方「Start」按钮启动保护。

Zen Privacy

要注意的是第一次使用 Zen 会要求安装根证书〔Root Certificate〕，这是让 Zen 拦截、修改 HTTPS 请求的必须项目，证书是在本机生成，不会离开用户设备，大家熟悉的 AdGuard 也是使用相同机制。

Zen Privacy

接着先切换到「设置」页面后将语言调整为中文，有兴趣的朋友也可以去协助翻译一下。

Zen Privacy

在过滤列表可以启用、停止指定的过滤器，包含各种类型，包括通用、广告、隐私、恶意软件、地区性和设置等，没有特别的需求就直接维持默认值即可，若有需要启动或是停用过滤器必须先将 Zen 防护功能关闭〔点击下方停止〕才能继续。

Zen Privacy

想从其他广告屏蔽工具转换到 Zen 也可以将设置规则导入，非常方便。

Zen Privacy

从 Zen「主页」就能看到网络流量被屏蔽、封锁的情形，包括存取方法、网址、来源、过滤器名称和规则等，当使用上有发现任何问题时也可以从这里找到过滤器，将指定的封锁路径关掉。

Zen Privacy

虽然说 Zen 是免费、开源广告屏蔽工具，完全不用花费任何一毛钱就能使用，而且也自带不少筛选器规则，在系统端进行过滤、屏蔽的好处是不用再寻找各种广告屏蔽扩展，只要一个应用程序就能搞定！除了浏览器以外，其他软件也都能有效。

DUN.IM BLOG
解决升级 macOS Tahoe 26 后 Electron 应用卡顿与 GPU 占用过高
18 September 2025 at 12:10

解决升级 macOS Tahoe 26 后 Electron 应用卡顿与 GPU 占用过高

DUN.IM BLOG

By: Anonymous

18 September 2025 at 12:10

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

解决升级 macOS Tahoe 26 后 Electron 应用卡顿与 GPU 占用过高

简单来说，问题出在 macOS Tahoe 的窗口管理器 WindowServer 上。

它在渲染某些应用（特别是基于 Electron 框架的应用）的窗口阴影时，会消耗巨量 GPU 资源，导致占用率飙升到 80% 以上，从而引发卡顿和发热。

你可以通过「活动监视器」的 GPU 栏确认这一点：当应用窗口在前台时 WindowServer 占用率暴涨，最小化或全屏后则恢复正常。

在苹果官方发布系统更新修复之前，可以试试下面这两种方法绕过这个问题。

这个方法通过一条命令暂时改变系统的渲染方式，对所有相关应用都有效。

在「终端」里运行：

执行后，需要重启一下正在运行的 Electron 应用才能生效。缺点是，电脑每次重启后都需要重新运行一次这条命令。

这个方法是直接修改应用本身，禁用它的窗口阴影。效果更持久，但只对单个应用生效。

修改 VS Code:
sed -i '' 's/experimentalDarkMode:!0}/experimentalDarkMode:!0,hasShadow:false}/g' /Applications/Visual\ Studio\ Code.app/Contents/Resources/app/out/main.js

修改 Cursor:
sed -i '' 's/experimentalDarkMode:!0}/experimentalDarkMode:!0,hasShadow:false}/g' /Applications/Cursor.app/Contents/Resources/app/out/main.js

这个修改在系统重启后依然有效。但缺点是，每次应用自身版本更新后，这个修改就会被覆盖，需要重新运行一次命令。

DUN.IM BLOG
App Store 超低价应用内购省钱技巧，不到60人民币开通 ChatGPT $20 的会员订阅
7 September 2025 at 15:28

App Store 超低价应用内购省钱技巧，不到60人民币开通 ChatGPT $20 的会员订阅

DUN.IM BLOG

By: Anonymous

7 September 2025 at 15:28

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

实际上，大多数 App 和服务定价并非全球统一。如 OpenAI 和许多跨国科技公司一样，会采用“购买力平价（Purchasing Power Parity, PPP）”策略，即根据不同国家和地区的经济水平、人均收入来调整产品价格。

这便在全球市场中形成了一些“价格洼地”，其中，尼日利亚正是全球订阅 ChatGPT Plus 最便宜的地区。

全球部分地区价格对比：

整个流程的核心是在尼日利亚区的数字生态内完成支付闭环。

DUN.IM BLOG
Perplexity Pro x PayPal 福利：免费领取一年订阅（价值 ¥1450）
5 September 2025 at 14:56

Perplexity Pro x PayPal 福利：免费领取一年订阅（价值 ¥1450）

DUN.IM BLOG

By: Anonymous

5 September 2025 at 14:56

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

AI 搜索公司 Perplexity 与支付平台 PayPal 达成全球合作，为符合条件的 PayPal 用户提供为期一年的 Perplexity Pro 免费订阅资格，价值 200 美元（约人民币 1450 元），并包含其 AI 浏览器 Comet 的优先体验权。

Perplexity Pro 与 PayPal 合作

活动链接：https://www.perplexity.ai/join/p/paypal-subscription

为防止一年后产生 200 美元的年费，强烈建议领取成功后，立即通过以下任一方式取消自动续订。取消后，Pro 会员资格仍会完整保留一年。

在 Perplexity 官网取消

在 PayPal 后台取消

Anthropic 官方团队分享如何利用 Claude Code

DUN.IM BLOG

By: Anonymous

20 July 2025 at 22:30

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

Anthropic 的内部团队正在利用 Claude Code 彻底改变他们的工作流程。无论是开发者还是非技术人员，都能借助它攻克复杂项目、实现任务自动化，并弥补那些曾经限制生产力的技能鸿沟。

为了深入了解，我们采访了以下团队：

通过这些访谈，我们收集了不同部门使用 Claude Code 的方式、它对工作带来的影响，以及为其他考虑采用该工具的组织提供的宝贵建议。

数据基础设施团队负责为公司内所有团队整理业务数据。他们使用 Claude Code 来自动化常规的数据工程任务、解决复杂的基础设施问题，并为技术和非技术团队成员创建文档化工作流，以便他们能够独立访问和操作数据。

利用截图调试 Kubernetes

当 Kubernetes 集群出现故障，无法调度新的 pod 时，团队使用 Claude Code 来诊断问题。他们将仪表盘的截图喂给 Claude Code，后者引导他们逐个菜单地浏览 Google Cloud 的用户界面，直到找到一个警告，指出 pod 的 IP 地址已耗尽。随后，Claude Code 提供了创建新 IP 池并将其添加到集群的确切命令，整个过程无需网络专家的介入。

为财务团队打造纯文本工作流

工程师向财务团队成员展示了如何编写描述其数据工作流程的纯文本文件，然后将这些文件加载到 Claude Code 中，以实现完全自动化的执行。没有任何编程经验的员工只需描述“查询这个仪表盘，获取信息，运行这些查询，生成 Excel 输出”等步骤，Claude Code 就能执行整个工作流，甚至会主动询问日期等必要输入。

为新员工提供代码库导览

当新的数据科学家加入团队时，他们会被指导使用 Claude Code 来熟悉庞大的代码库。Claude Code 会阅读他们的 Claude.md 文件（文档），识别特定任务所需的相关文件，解释数据管道的依赖关系，并帮助新人理解哪些上游数据源为仪表盘提供数据。这取代了传统的数据目录和发现工具。

会话结束时自动更新文档

在每项任务结束时，团队会要求 Claude Code 总结已完成的工作并提出改进建议。这创建了一个持续改进的循环：Claude Code 根据实际使用情况帮助优化 Claude.md 文档和工作流指令，使后续的迭代更加高效。

跨多个实例并行管理任务

在处理耗时较长的数据任务时，团队会为不同项目在不同的代码仓库中打开多个 Claude Code 实例。每个实例都能保持完整的上下文，因此即使在数小时或数天后切换回来，Claude Code 也能准确地记住他们当时正在做什么以及任务进行到哪里，从而实现了无上下文丢失的真正并行工作流管理。

无需专业知识即可解决基础设施问题

解决了通常需要系统或网络团队成员介入的 Kubernetes 集群问题，利用 Claude Code 诊断问题并提供精确的修复方案。

加速新员工上手

新的数据分析师和团队成员无需大量指导，就能迅速理解复杂的系统并做出有意义的贡献。

增强支持工作流

Claude Code 能够处理比人类手动审查大得多的数据量，并识别异常情况（例如监控 200 个仪表盘），这是人力无法完成的。

实现跨团队自助服务

没有任何编程经验的财务团队现在可以独立执行复杂的数据工作流。

编写详细的 Claude.md 文件

团队表示，你在 Claude.md 文件中将工作流程、工具和期望文档化得越好，Claude Code 的表现就越出色。当你拥有现成的设计模式时，这使得 Claude Code 在设置新数据管道等常规任务上表现卓越。

处理敏感数据时使用 MCP 服务器而非命令行界面

他们建议使用 MCP 服务器而不是 BigQuery 命令行界面，以便更好地控制 Claude Code 的访问权限，尤其是在处理需要日志记录或存在潜在隐私问题的敏感数据时。

分享团队使用心得

团队举办了分享会，成员们互相演示他们使用 Claude Code 的工作流程。这有助于传播最佳实践，并展示了他们自己可能没有发现的各种工具使用方法。

Claude Code 产品开发团队使用自家的产品来为 Claude Code 构建更新，扩展产品的企业级功能和 AI 智能体循环功能。

通过“自动接受模式”快速构建原型

工程师们通过启用“自动接受模式”（Shift+Tab）并设置自主循环，让 Claude 编写代码、运行测试并持续迭代，从而实现快速原型开发。他们将自己不熟悉的抽象问题交给 Claude，让它自主工作，然后在接手进行最后润色前，审查已完成 80% 的解决方案。团队建议从一个干净的 git 状态开始，并定期提交检查点，这样如果 Claude 跑偏了，他们可以轻松回滚任何不正确的更改。

同步编码开发核心功能

对于涉及应用程序业务逻辑的更关键功能，团队会与 Claude Code 同步工作，提供带有具体实现指令的详细提示。他们实时监控过程，确保代码质量、风格指南合规性和正确的架构，同时让 Claude 处理重复的编码工作。

构建 Vim 模式

他们最成功的异步项目之一是为 Claude Code 实现 Vim 快捷键绑定。他们要求 Claude 构建整个功能，最终实现中大约 70% 的代码来自 Claude 的自主工作，只需几次迭代即可完成。

生成测试和修复 bug

在实现功能后，团队使用 Claude Code 编写全面的测试，并处理在代码审查中发现的简单 bug。他们还使用 GitHub Actions 让 Claude 自动处理像格式问题或函数重命名这样的 Pull Request 评论。

代码库探索

在处理不熟悉的代码库（如 monorepo 或 API 端）时，团队使用 Claude Code 来快速理解系统的工作方式。他们不再等待 Slack 上的回复，而是直接向 Claude 提问以获取解释和代码参考，从而大大节省了上下文切换的时间。

更快的功能实现

Claude Code 成功实现了像 Vim 模式这样的复杂功能，其中 70% 的代码由 Claude 自主编写。

提升开发速度

该工具可以快速构建功能原型并迭代创意，而不会陷入实现细节的泥潭。

通过自动化测试提高代码质量

Claude 生成全面的测试并处理常规的 bug 修复，在减少手动工作的同时保持了高标准。

更好的代码库探索

团队成员可以快速熟悉 monorepo 中不熟悉的部分，而无需等待同事的回复。

创建自给自足的循环

设置 Claude 通过自动运行构建、测试和代码检查来验证自己的工作。这使得 Claude 可以更长时间地自主工作并发现自己的错误，尤其是在你要求 Claude 在编写代码之前先生成测试时效果更佳。

培养任务分类的直觉

学会区分哪些任务适合异步处理（外围功能、原型设计），哪些需要同步监督（核心业务逻辑、关键修复）。产品边缘的抽象任务可以用“自动接受模式”处理，而核心功能则需要更密切的监督。

编写清晰、详细的提示

当组件具有相似的名称或功能时，你的请求要极其具体。提示越好、越详细，你就越能信任 Claude 独立工作，而不会对代码库的错误部分进行意外更改。

安全工程团队专注于保障软件开发生命周期、供应链安全和开发环境安全。他们广泛使用 Claude Code 来编写和调试代码。

复杂基础设施调试

在处理事故时，他们将堆栈跟踪和文档喂给 Claude Code，并要求它在代码库中追踪控制流。这大大缩短了生产问题的解决时间，使他们能够在大约 5 分钟内理解问题，而手动扫描代码通常需要 10-15 分钟。

Terraform 代码审查与分析

对于需要安全审批的基础设施变更，团队将 Terraform 计划复制到 Claude Code 中，并提问“这会做什么？我会后悔吗？”。这创建了更紧密的反馈循环，使安全团队能够更快地审查和批准基础设施变更，减少了开发过程中的瓶颈。

文档综合与操作手册

Claude Code 吸收多个文档来源，创建 Markdown 格式的操作手册、故障排除指南和概述。团队将这些精简的文档作为调试实际问题的上下文，创建了比在完整知识库中搜索更高效的工作流程。

测试驱动开发工作流

他们摒弃了以往的“设计文档 → 粗糙代码 → 重构 → 放弃测试”模式，现在他们要求 Claude Code 提供伪代码，引导其进行测试驱动开发，并定期检查以在卡住时进行引导，从而产出更可靠、更易于测试的代码。

上下文切换与项目上手

在为现有项目（如用于安全审批工作流的 Web 应用“dependant”）做贡献时，他们使用 Claude Code 来编写、审查和执行存储在代码库中的 Markdown 格式的规范，从而能够在几天内做出有意义的贡献，而不是花费数周时间。

缩短事故解决时间

通常需要 10-15 分钟手动代码扫描的基础设施调试现在大约需要 5 分钟。

改进安全审查周期

需要安全审批的 Terraform 代码审查速度大大加快，消除了开发人员在等待安全团队批准时的阻塞。

增强跨职能贡献

团队成员可以在几天内为项目做出有意义的贡献，而不是花费数周时间来建立上下文。

更好的文档工作流程

从多个来源综合而成的故障排除指南和操作手册创建了更高效的调试过程。

广泛使用自定义斜杠命令

安全工程团队使用了整个 monorepo 中 50% 的自定义斜杠命令实现。这些自定义命令简化了特定的工作流程，并加快了重复性任务的速度。

让 Claude 先说

他们不再通过提出有针对性的问题来生成代码片段，而是告诉 Claude Code “边做边提交你的工作”，让它在定期检查的情况下自主工作，从而得到更全面的解决方案。

利用它进行文档处理

除了编码，Claude Code 还擅长综合文档和创建结构化输出。团队提供写作样本和格式偏好，以获得可立即在 Slack、Google Docs 和其他工具中使用的文档，避免界面切换带来的疲劳。

推理团队负责管理在 Claude 读取你的提示并生成回复时存储信息的内存系统。团队成员，尤其是那些刚接触机器学习的人，可以广泛使用 Claude Code 来弥补知识差距并加速他们的工作。

代码库理解与新员工上手

在加入一个复杂的代码库时，团队严重依赖 Claude Code 来快速理解其架构。他们不再手动搜索 GitHub 仓库，而是询问 Claude 哪些文件调用了特定的功能，几秒钟内就能得到结果，而不是向同事求助或手动搜索。

包含边界情况的单元测试生成

在编写完核心功能后，他们要求 Claude 为其编写全面的单元测试。Claude 会自动包含被遗漏的边界情况，在几分钟内完成通常需要大量时间和精力的工作，就像一个他们可以审查的编码助手。

机器学习概念解释

没有机器学习背景的团队成员依赖 Claude 来解释模型特定的函数和设置。过去需要一个小时谷歌搜索和阅读文档的工作，现在只需 10-20 分钟，研究时间减少了 80%。

跨语言代码翻译

在用不同编程语言测试功能时，团队向 Claude 解释他们想要测试的内容，Claude 就会用所需的语言（如 Rust）编写逻辑，从而无需为了测试目的而学习新语言。

命令记忆与 Kubernetes 管理

他们不再需要记住复杂的 Kubernetes 命令，而是向 Claude 询问正确的语法，比如“如何获取所有 pod 或部署状态”，然后就能收到他们基础设施工作所需的确切命令。

加速机器学习概念学习

有了 Claude Code，他们的研究时间减少了 80%，历史上需要一个小时谷歌搜索的工作现在只需 10-20 分钟。

更快的代码库导航

该工具可以帮助团队成员在几秒钟内找到相关文件并理解系统架构，而不是依赖同事在几天内分享知识。

全面的测试覆盖

Claude 自动生成包含边界情况的单元测试，在保持代码质量的同时减轻了精神负担。

消除语言障碍

团队可以在不熟悉 Rust 等语言的情况下实现功能，而无需学习它。

首先测试知识库功能

尝试问各种问题，看看 Claude 能否比谷歌搜索更快地回答。如果它更快、更准确，那么它就是你工作流程中一个宝贵的时间节省工具。

从代码生成开始

给 Claude 具体的指令，让它编写逻辑，然后验证其正确性。这有助于在将其用于更复杂的任务之前，建立对该工具能力的信任。

用它来编写测试

让 Claude 编写单元测试可以极大地减轻日常开发工作的压力。利用这个功能来保持代码质量，而无需花费时间手动思考所有测试用例。

数据科学和机器学习工程团队需要复杂的可视化工具来理解模型性能，但构建这些工具通常需要不熟悉的语言和框架的专业知识。Claude Code 使这些团队能够构建生产质量的分析仪表盘，而无需成为全栈开发人员。

构建 JavaScript/TypeScript 仪表盘应用

尽管对“JavaScript 和 TypeScript 知之甚少”，团队仍使用 Claude Code 构建了完整的 React 应用，用于可视化强化学习（RL）模型的性能和训练数据。他们让 Claude 控制从头开始编写完整的应用程序，比如一个 5000 行的 TypeScript 应用，而无需自己理解代码。这一点至关重要，因为可视化应用相对上下文较少，不需要理解整个 monorepo，从而可以快速构建原型工具，以便在训练和评估期间了解模型性能。

处理重复的重构任务

当遇到合并冲突或半复杂的文件重构时——这些任务对于编辑器宏来说太复杂，但又不足以投入大量开发精力——他们就像玩“老虎机”一样使用 Claude Code：提交当前状态，让 Claude 自主工作 30 分钟，然后要么接受解决方案，要么在不成功时重新开始。

创建持久性分析工具而非一次性笔记本

团队现在不再构建用完即弃的 Jupyter 笔记本，而是让 Claude 构建可重复使用的 React 仪表盘，这些仪表盘可以在未来的模型评估中重复使用。这很重要，因为理解 Claude 的性能是“团队最重要的事情之一”——他们需要了解模型在训练和评估期间的表现，而这“实际上并非易事，简单的工具无法从观察一个数字上升中获得太多信号”。

零依赖任务委托

对于完全不熟悉的代码库或语言中的任务，他们将整个实现委托给 Claude Code，利用其从 monorepo 中收集上下文并执行任务的能力，而无需他们参与实际的编码过程。这使得他们在自己专业领域之外也能保持生产力，而不是花时间学习新技术。

节省了 2-4 倍的时间

过去虽然可以手动完成但很繁琐的常规重构任务现在完成得更快了。

用不熟悉的语言构建了复杂的应用

尽管 JavaScript/TypeScript 经验极少，却创建了 5000 行的 TypeScript 应用。

从一次性工具转向持久性工具

不再使用一次性的 Jupyter 笔记本，而是构建可复用的 React 仪表盘进行模型分析。

直接获得模型改进的洞见

第一手使用 Claude Code 的经验为未来模型迭代中更好的内存系统和用户体验改进提供了信息。

实现了可视化驱动的决策

通过先进的数据可视化工具，更好地理解了 Claude 在训练和评估期间的性能。

把它当作一台老虎机

在让 Claude 工作之前保存你的状态，让它运行 30 分钟，然后要么接受结果，要么重新开始，而不是试图费力去修正。重新开始的成功率通常比试图修复 Claude 的错误要高。

必要时为了简化而打断它

在监督过程中，不要犹豫，停下来问 Claude “你为什么这么做？试试更简单的方法。” 模型默认倾向于更复杂的解决方案，但对于简化方法的请求反应良好。

产品工程团队致力于开发如 PDF 支持、引用和网页搜索等功能，这些功能将额外的知识引入 Claude 的上下文窗口。在大型、复杂的代码库中工作意味着不断遇到不熟悉的代码部分，花费大量时间来理解特定任务需要检查哪些文件，并在进行更改前建立上下文。Claude Code 通过充当向导，帮助他们理解系统架构、识别相关文件并解释复杂的交互，从而改善了这种体验。

第一步工作流规划

团队将 Claude Code 作为任何任务的“第一站”，要求它确定在进行 bug 修复、功能开发或分析时需要检查哪些文件。这取代了传统上在开始工作前手动浏览代码库和收集上下文的耗时过程。

跨代码库独立调试

团队现在有信心处理不熟悉代码库部分的 bug，而无需向他人求助。他们可以问 Claude “你觉得你能修复这个 bug 吗？我看到的行为是这样的”，并经常能立即取得进展，这在以前由于所需的时间投入是不可行的。

通过内部测试进行模型迭代测试

Claude Code 自动使用最新的研究模型快照，使其成为他们体验模型变化的主要方式。这为团队在开发周期中提供了关于模型行为变化的直接反馈，这是他们在之前的发布中从未体验过的。

消除上下文切换的开销

他们不再需要复制粘贴代码片段并将文件拖入 Claude.ai，同时还要详细解释问题，现在可以直接在 Claude Code 中提问，无需额外的上下文收集，从而显著减少了心智负担。

增强了处理不熟悉领域的信心

团队成员可以独立调试 bug 并调查不熟悉代码库中的事故。

在上下文收集中节省了大量时间

Claude Code 消除了复制粘贴代码片段和将文件拖入 Claude.ai 的开销，减轻了心智上的上下文切换负担。

加速轮岗员工上手速度

轮岗到新团队的工程师可以快速熟悉不熟悉的代码库并做出有意义的贡献，而无需与同事进行大量咨询。

提升开发者幸福感

团队报告称，随着日常工作流程中的摩擦减少，他们感到更快乐、更高效。

将其视为迭代伙伴，而非一次性解决方案

不要指望 Claude 能立即解决问题，而是把它当作一个与你一起迭代的合作者。这种方法比试图在第一次尝试中就获得完美的解决方案效果更好。

用它来建立在不熟悉领域的信心

不要犹豫去处理你专业领域之外的 bug 或调查事故。Claude Code 使得在通常需要大量上下文建立的领域独立工作成为可能。

从最少的信息开始

从你需要的最低限度的信息开始，让 Claude 引导你完成整个过程，而不是一开始就提供大量的解释。

增长营销团队专注于在付费搜索、付费社交、移动应用商店、电子邮件营销和 SEO 等领域建立效果营销渠道。作为一个只有一人的非技术团队，他们使用 Claude Code 来自动化重复性的营销任务，并创建通常需要大量工程资源的 AI 智能体工作流。

自动化 Google Ads 广告创意生成

团队构建了一个 AI 智能体工作流，该工作流可以处理包含数百个现有广告及其效果指标的 CSV 文件，识别表现不佳的广告进行迭代，并生成符合严格字符限制（标题 30 个字符，描述 90 个字符）的新变体。通过使用两个专门的子智能体（一个用于标题，一个用于描述），该系统可以在几分钟内生成数百个新广告，而无需在多个广告系列中手动创建。这使他们能够大规模地进行测试和迭代，这是以前需要花费大量时间才能实现的。

用于批量创意制作的 Figma 插件

他们没有手动复制和编辑用于付费社交广告的静态图片，而是开发了一个 Figma 插件，该插件可以识别框架并通过替换标题和描述来以编程方式生成多达 100 个广告变体，将需要数小时复制粘贴的工作缩短为每批半秒。这使得创意产出提高了 10 倍，让团队能够在关键社交渠道上测试数量庞大的创意变体。

用于广告活动分析的 Meta Ads MCP 服务器

他们创建了一个与 Meta Ads API 集成的 MCP 服务器，以便直接在 Claude Desktop 应用内查询广告活动表现、支出数据和广告效果，从而无需在不同平台之间切换进行性能分析，节省了宝贵的时间，因为每一分效率的提升都意味着更好的投资回报率。

利用内存系统进行高级提示工程

他们实现了一个基本的内存系统，该系统记录了广告迭代中的假设和实验，使得系统在生成新变体时能够将之前的测试结果纳入上下文，创建了一个自我改进的测试框架。这使得系统性的实验成为可能，而这些实验是无法手动追踪的。

在重复性任务上节省了大量时间

Claude Code 将广告文案创作时间从 2 小时缩短到 15 分钟，让团队能够专注于更具战略性的工作。

创意产出增加 10 倍

通过自动广告生成和与 Figma 集成以获取最新的视觉设计元素，团队现在可以在各个渠道上测试数量庞大的广告变体。

像一个更大的团队一样运作

团队能够处理传统上需要专门工程资源的大型开发任务。

战略重点转移

团队可以将更多时间用于整体战略和构建 AI 智能体自动化，而不是手动执行。

识别支持 API 的重复性任务

寻找涉及使用带有 API 的工具（如广告平台、设计工具、分析平台）进行重复操作的工作流程。这些是自动化的主要候选对象，也是 Claude Code 提供最大价值的地方。

将复杂工作流分解为专门的子智能体

不要试图在一个提示或工作流中处理所有事情，而是为特定任务创建单独的智能体（比如一个标题智能体和一个描述智能体）。这使得调试更容易，并在处理复杂需求时提高输出质量。

在编码前进行充分的头脑风暴和提示规划

在前期花大量时间使用 Claude.ai 来构思整个工作流，然后让 Claude.ai 为 Claude Code 创建一个全面的提示和代码结构以供参考。此外，要逐步进行，而不是要求一次性解决问题，以避免 Claude 因任务过于复杂而不堪重负。

产品设计团队支持 Claude Code、Claude.ai 和 Anthropic API，专注于构建 AI 产品。即使是非开发人员也可以使用 Claude Code 来弥合设计与工程之间的传统鸿沟，使他们能够直接实现自己的设计愿景，而无需与工程师进行大量的反复迭代。

前端润色和状态管理变更

团队不再为视觉调整（字体、颜色、间距）创建大量的设计文档并与工程师进行多轮反馈，而是直接使用 Claude Code 实现这些变更。工程师们注意到，设计师们正在进行“通常不会看到设计师做的大型状态管理变更”，这使他们能够实现他们所设想的精确质量。

GitHub Actions 自动化工单处理

通过使用 Claude Code 的 GitHub 集成，他们只需提交描述所需更改的问题/工单，Claude 就会自动提出代码解决方案，而无需打开 Claude Code，从而为他们积压的润色任务创建了一个无缝的 bug 修复和功能优化工作流。

快速交互式原型制作

通过将模型图粘贴到 Claude Code 中，他们可以生成功能齐全的原型，工程师可以立即理解并在此基础上进行迭代，这取代了传统的静态 Figma 设计，后者需要大量的解释和转换才能成为可用代码。

发现边界情况和理解系统架构

团队使用 Claude Code 来规划错误状态、逻辑流程和不同的系统状态，使他们能够在设计阶段就识别出边界情况，而不是在开发后期才发现，从而从根本上提高了他们初始设计的质量。

复杂的文案更改和法律合规

对于像在整个代码库中移除“研究预览”信息这样的任务，他们使用 Claude Code 查找所有实例，审查周围的文案，与法务部门实时协调更改，并实施更新。这个过程只用了两次 30 分钟的电话会议，而不是一周的反复协调。

核心工作流程的变革

Claude Code 成为主要的设计工具，80% 的时间里 Figma 和 Claude Code 都是打开的。

执行速度提高 2-3 倍

以前需要与工程师进行大量反复沟通的视觉和状态管理变更，现在可以直接实现。

周期时间从数周缩短到数小时

像 Google Analytics 发布信息这样需要一周协调的复杂项目，现在只需两次 30 分钟的电话会议就能完成。

两种截然不同的用户体验

开发者获得了“增强型工作流”（执行更快），而非技术用户则获得了“天哪，我竟然也成了开发者”的工作流。

改善了设计与工程的协作

Claude Code 促进了更好的沟通和更快的问题解决，因为设计师理解了系统的限制和可能性，而无需与工程师紧密合作。

从工程师那里获得适当的设置帮助

让工程团队的同事帮助进行初始的代码库设置和权限配置——对于非开发人员来说，技术上的上手过程具有挑战性，但一旦配置完成，它将彻底改变日常工作流程。

使用自定义内存文件来引导 Claude 的行为

创建具体的指令，告诉 Claude 你是一个几乎没有编码经验的设计师，需要详细的解释和更小、更增量的更改。这极大地提高了 Claude 回应的质量，使其不再那么令人生畏。

利用粘贴图片进行原型制作

使用 Command+V 将截图直接粘贴到 Claude Code 中。它在读取设计并生成功能性代码方面表现出色，使其在将静态模型图转化为工程师可以立即理解和构建的交互式原型方面非常有价值。

强化学习（RL）工程团队专注于 RL 中的高效采样和跨集群的权重迁移。他们主要使用 Claude Code 来编写中小型功能、进行调试和理解复杂的代码库，并采用一种包含频繁检查点和回滚的迭代方法。

有监督的自主功能开发

团队让 Claude Code 在提供监督的情况下编写大部分中小型功能的代码，例如为权重迁移组件实现认证机制。他们以交互方式工作，允许 Claude 主导，但在其偏离轨道时进行引导。

测试生成和代码审查

在自己实现更改后，团队会要求 Claude Code 添加测试或审查他们的代码。这种自动化的测试工作流程在常规但重要的质量保证任务上节省了大量时间。

调试和错误调查

他们使用 Claude Code 来调试错误，结果好坏参半。有时它能立即识别问题并添加相关测试，而其他时候则难以理解问题，但总的来说，在有效时仍能提供价值。

代码库理解和调用栈分析

他们工作流程中最大的变化之一是使用 Claude Code 来快速获取相关组件和调用栈的摘要，取代了手动阅读代码或生成大量调试输出。

Kubernetes 操作指导

他们经常向 Claude Code 询问 Kubernetes 操作，这些操作否则需要大量谷歌搜索或询问基础设施工程的同事，从而能立即获得配置和部署问题的答案。

实验性方法的实现

他们现在使用一种“尝试并回滚”的方法，频繁提交检查点，以便他们可以测试 Claude 的自主实现尝试，并在需要时进行回滚，从而实现了更具实验性的开发。

文档编写加速

Claude Code 自动添加有用的注释，节省了大量的文档编写时间，尽管他们也指出，它有时会在奇怪的地方添加注释或使用有问题的代码组织方式。

有限制的提速

虽然 Claude Code 可以在他们“相对较少的时间”投入下实现中小型 PR，但他们承认，它在第一次尝试中成功的几率大约只有三分之一，需要额外的指导或手动干预。

为特定模式自定义你的 Claude.md 文件

在你的 Claude.md 文件中添加指令，以防止 Claude 重复犯工具调用错误，例如告诉它“运行 pytest 而不是 run，不要不必要地 cd – 只需使用正确的路径”。这显著提高了一致性。

使用检查点密集的工作流

随着 Claude 进行更改，定期提交你的工作，这样当实验不成功时，你可以轻松回滚。这使得在没有风险的情况下可以采用更具实验性的开发方法。

先尝试一次性解决，然后协作

给 Claude 一个快速的提示，让它先尝试完整的实现。如果成功了（大约三分之一的时间），你就节省了大量时间。如果没有，再切换到更具协作性、引导性的方法。

法务团队通过实验和了解 Anthropic 产品的好奇心，发现了 Claude Code 的潜力。此外，一位团队成员有一个个人用例，即为家人创建无障碍工具和为工作创建原型，这展示了该技术对非开发人员的强大能力。

为家人定制的无障碍解决方案

团队成员为因医疗诊断而有语言障碍的家人构建了沟通助手。在短短一小时内，一个人使用原生的语音转文本功能创建了一个预测性文本应用，该应用可以建议回复并使用语音库将其读出，解决了言语治疗师推荐的现有无障碍工具的不足之处。

法务部门工作流自动化

团队创建了“电话树”系统的原型，帮助团队成员联系到 Anthropic 合适的律师，展示了法务部门如何在没有传统开发资源的情况下为常见任务构建自定义工具。

团队协调工具

经理们构建了 G Suite 应用程序，可以自动化每周的团队更新，并跟踪各产品的法律审查状态，让律师只需通过简单的按钮点击就能快速标记需要审查的项目，而无需管理电子表格。

用于解决方案验证的快速原型制作

他们使用 Claude Code 快速构建功能性原型，然后展示给领域专家（例如向加州大学旧金山分校的专家展示无障碍工具），以验证想法并在投入更多时间之前识别现有解决方案。

在 Claude.ai 中规划，在 Claude Code 中构建

他们使用两步流程：首先在 Claude.ai 中进行头脑风暴和规划，然后转到 Claude Code 进行实现，要求它放慢速度，逐步工作，而不是一次性输出所有内容。

视觉优先的方法

他们经常使用截图向 Claude Code 展示他们想要的界面样子，然后根据视觉反馈进行迭代，而不是用文本描述功能。

原型驱动的创新

他们强调克服分享“傻瓜式”或“玩具级”原型的恐惧，因为这些演示能激励他人看到他们未曾考虑过的可能性。

MCP 集成担忧

产品律师使用 Claude Code 立即识别深度 MCP 集成的安全隐患，并指出随着 AI 工具访问更多敏感系统，保守的安全策略将成为障碍。

合规工具的优先级

他们主张随着 AI 能力的扩展，应迅速构建合规工具，认识到创新与风险管理之间的平衡。

首先在 Claude.ai 中进行详尽规划

在转到 Claude Code 之前，使用 Claude 的对话界面来充实你的整个想法。然后要求 Claude 将所有内容总结成一个分步的实现提示。

增量式和可视化工作

要求 Claude Code 放慢速度，一次实现一个步骤，这样你就可以复制粘贴而不会不知所措。大量使用截图来展示你想要的界面样子。

尽管不完美也要分享原型

克服隐藏“玩具”项目或未完成工作的冲动。分享原型有助于他人看到可能性，并在通常不互动的部门之间激发创新。

简单开启欧盟纯净版 Windows，享隐私和自由权力

DUN.IM BLOG

By: Anonymous

7 July 2025 at 13:16

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

在 Pixel 设备上打开 Google app 的新闻链接，或在 Windows 设备上通过开始菜单访问网络搜索结果，这两种情况都存在一个共同点：系统会忽略你的默认浏览器设置，强行使用自家的浏览器（Chrome 或 Edge）进行访问。

对此，似乎大家并没有太大反应，正如人们对欧盟地区用户在数字生活中享有选择而感到无奈似的。

今天我们就来探讨一个问题：如何成为一名数字意义上的欧盟地区 Windows 用户。

受《数字市场法案》影响，微软在欧盟地区针对用户做出了很多让步，包括：

关于 Windows 的地区设置，你可以在「系统设置 > 时间和语言 > 语言和区域」中找到几个选项：

不过，今天的重点是一个新加入的、不可更改的选项——设备设置区域。将其更改为欧盟地区是个不错的切入点。

我最初想到的是去年推出的 Edge 重定向工具 MSEdgeRedirect，但不久后发现该模式在 2024 年 3 月后将失效，原因是微软的 UCPD 驱动³。

UCPD（用户选择守护驱动）利用内置的黑白名单机制，屏蔽非微软签名的进程，阻止第三方工具对系统的修改。这不仅影响到一些文件协议的处理，而且更难被禁用。微软还设置了一个名为 UCPD velocity 的自动化任务，每次用户登录时都会恢复被禁用的系统文件和设置。

因此，想要使用 MSEdgeRedirect 开启「欧盟模式」的用户，首先可以按照 SetUserFTA 开发者的思路摆脱微软的干预。

彻底解决方案：直接删除 UCPD 驱动。以管理员权限运行 CMD，执行命令 sc.exe delete UCPD，然后重启。需要注意的是，该驱动可能会在系统更新后复活。

温和解决方案：禁用 UCPD 驱动，以管理员权限在 CMD 下执行：

完成后，便可以正常使用 MSEdgeRedirect 修改地区设置。

成功更改设备设置区域后，不仅能享受之前提到的「权益」，更能在各类设置中拥有更多自由，成为一个选择上的欧洲人、商店里的美国人、文本习惯上的中国人——这份灵活，值得我们珍惜。

简单开启欧盟纯净版 Windows，享隐私和自由权力

参考链接：

不是在国内，上个网就容易的

DUN.IM BLOG

By: Anonymous

1 July 2025 at 18:13

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

最近几天我上网的挫败感很强。

先是想分享我用 AI 绘制的两张高清大图，上传网盘设置好了一切之后，纷纷报告说「资源失效」，无法下载。而我自己访问没有问题，切换电脑，切换浏览器，一切都正常，但其他人就是不行。

然后是之前用这些图成功打印做成画框的读者分享网店，她先是写出网店的名字，其他读者说搜索不到。她放出订单截图，的确就是那个名字，大家依然搜索不到。我也去试过，指定搜索店铺，不行，减少几个字，不行，引号强制搜索，还是不行。

以前不是这样的。要分享什么资料，那就上传网盘，甩出一个链接，事情结束。要找什么网店，才输入头里几个字，后面的全称就自动联想出来，点一下就可以跳过去。怎么现在会变成了这幅模样？

我去搜索：网盘为什么会显示资源失效？网上给出的答案五花八门，可能是因为我没有开会员，可能是因为平台对图片内容敏感（无论穿没穿衣服），可能是因为短时间内访问流量太大……

这件事情的玄妙之处在于并没有官方解释，没有系统反馈，反正就是资源失效，具体的理由么，只能靠自己去意会。

我去搜索：为什么网店搜索不到？这一次答案更多：因为店铺新开，因为店铺成交不足，因为店铺违规限权，因为店铺没买关键词，因为店铺品名类目设置不当……

同样的，平台也没有任何解释，给了我一堆类似服务的店铺，感觉是有人在服务器那一头无所谓地笑着说：又不是只有这一家？

网盘限制这件事最后我貌似是解决了，那就是把图打包压缩成 Zip 文件，然后 Zip 文件再加密，起了个名字叫做「工程图纸」。反正这一次发布之后再没有读者嚷嚷无法访问，我猜测平台没有那么多资源来破解我的 Zip 文件密码，就只好听之任之。

网店搜索不到这件事现在对于我都还是一个谜，我是不大理解，为什么我输入了指定的关键词，却不能返回给我正确的结果。

然后也让我很震惊，因为之前我认为在电商平台上，我可以在无限家店里自由做选择，现在看来店铺既不是无限的，我也不是自由的。

联想到之前我的一些经历，我甚至都怀疑平台其实根据每个客人的消费数据，为每个人度身定做了一个网店圈，让人只能在这个范围内选择店铺，因为在这个范围内成交率最高。

想超出这个范围？除非是你朋友私下分享给你店铺网址，否则你搜都搜不到。

如果真是这样，这种圈养感未免也太强烈了一些。我希望事情并非如此，否则实在是太可怕了。

接连遇见这些让人感觉挫败的事情，直接影响到了我的心情和行为。上网那么多年来，现在是我分享欲最低的时候，因为我没有预料到如今在网上想分享几张图都那么麻烦，还要专门去做研究找方法。

与此同时，我在那个网购平台上的购买几乎立即就停滞了，因为我产生了深深的疑惑：如果我要搜索的店铺都搜索不到，那么我能搜索到的是什么？那些结果对于我是真有用还是对平台真有用？

所有这些经历和想法，在我这里归结为一个词，叫做：个人的网络处境。

我认为今天的个人网络处境并不乐观，受到的限制和盘剥太过严重。

比如说最近我就打算买硬盘和光驱，用硬盘和 CD 来储存我喜欢的音乐。原因是我虽然身为网易云音乐和 Tidal 的付费会员，结果当我想把音乐下载到本地方便离线收听的时候，我发现这些音乐文件全都是加密的特定格式。我下载了网易云音乐的音乐，那么就必须用网易云音乐播放器才能看见和播放。Tidal 也是同样，系统都看不见这些储存下来的音乐文件，更不用说用其他音乐播放器去播放了。

而且，这些音乐的访问权限和会员身份绑定。会员过期了，照样不能读取访问。得知这一点，我突然意识到我花钱买会员，购买到的只是个使用音乐文件的租赁权，而不是可以买一个音乐文件的数字拷贝。这样一来，如果我想听音乐，意味着我就要永远续费，因为我不曾真正拥有什么数字资产，我只是在租赁而已。

那我为什么不去自己购买高清数字音乐，自己购买 CD，自己在硬盘上做个私人音乐库呢？那起码是买了拷贝，算是我个人的数字资产，想怎么听怎么听，想转到什么设备就转到什么设备去。

总体上来说，我认为今天在网络上的每一个人在逐渐失去互联网早期自由民的身份，变成了平台的长期佃农或者是长工。平台更多是售卖服务而不是产品，即便是产品也有很多限制，用户不能获得完整的权限。于是，所有人能做的事情就是不断买服务，不断买完整功能。

一切又好像回到了 30 年前：每个人都需要一台自己的本地服务器，东西放在自己兜里才是最放心的。

不仅仅是编程，使用 Gemini CLI 日常指南！

DUN.IM BLOG

By: Anonymous

26 June 2025 at 21:54

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

前几天最近随着 Claude Code 这个命令行 AI 代码工具的火爆，谷歌也耐不住寂寞推出了自己的同类产品 Gemini CLI，而且完全免费，非常顶。

不仅仅是编程，使用 Gemini CLI 日常指南！

下面会教你用 Gemini CLI 实现哪些能力：

首先他们是没有界面的，所有的操作都是在终端以命令行的方式展示。

然后就是也是 Agents 可以自动执行任务处理本地文件，同时内置了非常多的工具，比如谷歌搜索、阅读文件、查找文件、搜索文字、写入文件、保存记忆等，你输入 /tools 然后回车就可以让他列出目前支持的工具。

另外 Gemini CLI 也是支持 MCP 的，你可以安装其他的 MCP 工具帮助模型扩充上下文。

很多朋友说命令行是不是很复杂啊，我不会编程是不是会很难用。

其实并没有，如果你的网络环境正常，能够正常登录 Gemini CLI 的话，跟使用 Cursor 没有本质区别。

因为核心交互的时候还是主要为提示词输入框，命令行又不用你写，Gemini 写就行。

从这里开始我所有的演示都基于 Mac OS 的自带终端进行，Windows 大部分操作都是通用的，但是可能出问题概率比 Mac 复杂。

首先要做的第一步就是进入到我们的启动台，搜索终端两个字，搜到之后打开。

这时候你就看到一个空白界面里面写了些你看不懂的字，不要担心。

这里我建议我们想好要进行的任务之后，新建一个文件夹把需要的任务素材扔进去，然后按住 option 按键鼠标右键选择“将 XXXX 文件夹拷贝为路径名称”，这时候你就快速获得了这个文件夹的路径。

然后我们回到我们的终端窗口，输入 cd + 空格 + 你刚才复制的路径，接下来你终端的所有操作都只会影响这个文件夹的内容，不用担心把电脑搞坏。

到这一步我们终于开始安装 Gemini CLI 了，非常简单，你只需要输入下面的内容然后回车就行。

安装成功你就会看到这个界面，应该会先让你选择命令行的颜色主题，然后让你选择登录方式。

这里需要注意：终端的操作大部分时间需要用上下左右方向键来操作选项，选中之后按回车确认。

你只需要选择一个自己喜欢的主题之后，选择正常的谷歌账号登录，在拉起网页登录后关掉就行。

我这个这里已经登录了，所以没有这些选项，然后你就能看到提示词输入框了。

恭喜你到这里，你已经完成了 Gemini 的安装。

由于用的 NPX 的安装方式，所以你以后每次关掉终端重新使用 Gemini CLI 的时候都需要输入开始的那个命令，不过不用登录了，直接就能用。

另一种方法是输入下面这个命令，但是对于不会编程的人来说很麻烦，启动就是少输入点东西，输入 Gemini 就能启动。

最后由于命令行本身都是英文的，可能很多人会望而却步，这个时候你可以装个 Bob 这个翻译软件，支持划词翻译，看不懂的选项直接选中划词翻译就行。

装好之后我们可以来点基础用法了。

由于 Gemini 可以看到你的文件并且操作，而且它还有生成能力，本身模型还是多模态的，所以即使只用本身的工具也可以有很多用法。

首先是 Gemini CLI 本身支持谷歌搜索，你可以让他搜索指定内容给你写成文档，也可以对你本身的文档进行编辑。

当然搜索工具经常会限额，这个有点恶心，比如让他搜索歸藏的信息并且整理一个介绍文档。

你也可以让他分析你保存在本地的文章之后进行改写，生成新的文章。

比如我这里就让他把 Karpathy 的软件 3.0 文章改写成适合发布的博客文章，同时生成对应的推特发布版本，也可以对于会议总结之类的文档进行分析和处理。

记得我之前写的用 Curosr 这种 IDE 帮助分析 Obsidian ，把 Obsidian 当做本地知识库的方法吗，Gemini CLI 也可以，甚至更加强大。

你可以找到你的 Obsidian 文件夹打开之后启动 Gemini CLI，然后让 Gemini CLI 查找相关的内容。

比如我这里就让他检索我所有的剪藏文件，找到 MCP 相关的文章，然后给我生成一个带反向链接的《MCP 剪藏内容索引》文档，可以看到他完成的很好。

每个无序列表都有文件标题以及文章的总结，最后还有链接可以直达那个文章。

提到反向链接了，就不得不提 Obsidian 的一个知识图谱的功能，它可以把所有有反向链接的相关文档都链接起来，形成你自己的网状笔记网络，方便你学习和回顾。

但是反向链接需要你自己手动加，大部分人都没这个毅力，现在有了 Gemini CLI 问题解决了，可以让他帮你给你文件夹中的相关文档加反向链接。

不过这个需要的时间比较长，如果内容多的话可能得等一段时间。

由于本身 Gemini CLI 是多模态的的，所以你的图片也可以让他帮忙处理。

比如我打开了一个全是图片的文件夹，里面的图片名字乱七八糟的，这时候就可以让他分析图片内容之后根据图片内容给图片重新命名。

再重新命名之后我们也不能浪费他分析的图片内容。

我们都知道在训练图像模型或者 Lora 的时候需要对图像进行标注，大部分训练工具都是把标注放在一个跟图片命名一样的文本文件里，现在我们就可以让 Gemini CLI 来做这件事了。

可以看到他执行的非常完美，以往这些你还得找对应的工具，而且不好自定义要求，现在提示词就行。

Gemini CLI 除了可以读取文件和修改文件外也是可以控制系统设置的。

比如我们就可以写好自己日常对于软件和系统设置在不同工作时间的喜好，需要的时候一键完成所有操作的更改。

这里我就让他给我关掉浏览器，然后打开 Obsidian，降低系统音量，直接进入工作模式。

更进一步让他把操作写成脚本，之后你就可以直接双击脚本完成系统设置了。

我们肯定也有很多时候桌面或者文件没有整理乱七八糟。

这个时候就可以让 Gemini CLI 新建文件夹进行分类和整理。

但是这里得注意，不要让他整理过大的过于重要的文件夹，不然误删了就痛苦了。

这里我就让他把刚才的图像和标注文件新建了两个文件夹分别整理了。

上面都是些基本用法，你最近可能也看到了一些。

但是我发现结合一些本地软件，Gemini CLI 能实现对各种文件更加高级的处理，比如视频转 gif、youtube 视频下载、加水印、文档格式转换等。

这些就非常牛皮了，而且我们日常内容创作大部分都非常需要。

前面我们有了文档了，但是很多时候演示的时候总不能真给人看 Markdown 文档吧，能不能生成 PPT 呢？

可以的，朋友，必须可以，比如我这里就把前面我那个 MCP 索引文档的内容直接转换为 PPT 了。

这个依赖一个叫 Slidev 的项目，它可以用类似 Markdown 文档的格式将内容变成带有丰富样式的 PPT。

你不需要知道这个项目的细节，直接用我下面的提示词生成文件之后，复制文件到这个页面（https://stackblitz.com/github/slidevjs/new?file=slides.md）预览就行。

上面的 Slidev 不需要本地安装直接预览就行，接下来我们介绍一些需要本地安装的项目，这些本地的软件，非常强大，但是由于本身他们是没有界面的，阻碍的很多用户使用。

但是有了 Gemini 之后一切都解决了，提示词可以直接转换为驱动他们的命令行，也可以用提示词直接安装他们，你直接用就行。

首先先介绍一下 ffmpeg 这个项目，给予他你可以实现非常强的视频编辑能力，理论上剪映之类的视频编辑软件都是基于这个完成的。

你可以对本地的视频进行拼接、剪辑、增加文字、转换格式、转换分辨率、增加音乐，基本上你能想到的视频编辑能力他都能做到。

首先我们需要大概你需要处理视频的的文件夹，然后启动 Gemini CLI 第一个命令是让他安装 Homebrew。

然后安装完成后，让他用 Homebrew 帮你安装 ffmpeg。

看到没，跟网页哪些乱七八糟的要求都没关系，你只需要说两句话，就全部安装了。

然后我们就可以爽用了，先给我们指定的视频加个水印试试。

可以看到新的视频右上角果然有了一个水印，这种言出法随的感觉谁不喜欢，你不需要了解原理，你就只需要知道所有的视频编辑他都能帮你搞定。

然后我想要给视频配乐也可以，你只需要告诉他视频文件和音乐文件的名字就行，我甚至让他给音乐加上了淡入和淡出。

他先是获取了一下视频的时长，然后就开始操作了，然后搞定了，非常完美，严丝合缝，淡入淡出也加上了，可以看剪映界面预览的频谱。

我们很多时候需要把视频转换为序列帧，然后拿其中一帧进行处理，或者处理所有的帧，以前你是不是还得到处找这种工具，而且转换效果不一定好。

Gemini CLI 一句话就能搞定，处理的又快又好，而且节省了用网页工具上传下载的时间。

另一个常见的任务就是视频转 gif，尤其公众号有 10 个视频的限制，很多时候迫不得已得转成 gif 发布。

Gemini 捕捉到了高品质这个关键词还制作了调色板保证颜色还原度，最后处理的非常完美。

像 ffmpeg 这种宝藏项目还有很多，比如 yt-dlp 这个项目跟 ffmpeg 配合几乎可以下载你能想到的所有视频平台的视频。

我们还是可以让 Gemini CLI 帮我们安装 yt-dlp 这个项目就行。

然后直接提供视频链接他就会帮你下载，甚至可以批量下载多个视频或者一起连封面和视频一起下载，再也不需要忍受那些工具的垃圾网速了。

处理视频我们有 ffmpeg 这种项目，当然图片也有。

ImageMagick 是一个极其强大的工具集，你可以用它来转换格式、缩放、裁剪、旋转、添加滤镜、组合图片等等。

依然是老一套，先让 Gemini 帮我们安装

先来一个常见任务，我们设计师做外包经常用，在没结款之前给甲方低分辨率和带水印的图片，现在就可以直接批量完成。

这里我让他把所有图片宽边调整为 800 PX，然后统一加上带“内部资料”文字的水印。

中文的水印有些问题，后来改成英文就 OK 了，而且出错之后他自己开始用多模态能力检查修改后的图像了，发现 10% 不透明度的文字不明显，又自己重新改了一下，太聪明了。

然后再来一个常见的图像拼接需求，这种在媒体上发消息的时候经常需要，尤其是推特。

搞得不错，这几张图比例不同，所以没有对齐，可以在命令上加上统一比例这种要求就行。

文档格式转换也是常见的需求，相当多的公司工作文档还是 word，很多时候我发过去 .md 文件那边都不知道怎么办。

首先还是让 Gemini CLI 帮我们安装。

这个时候我们就可以利用 Pandoc 这个项目进行各种文档格式之间的互相转换，当然批量转换也是可以的。

可以看到转的很好，Markdown 的一些基本格式也都迁移了，不管是加粗还是无序列表有序列表。

好了教程到这里就结束了。

你可以用 Gemini CLI 控制这些已经非常成熟的命令行项目，基本上你所有的需求都能找到对应的项目。

不是只有 MCP 才能做 Agent，这些传统工具在有了 LLM 加持之后会更加强大。

看到这里，你可能会突然意识到：原来那些让我们望而却步的专业工具，其实一直都在那里等着我们。

史蒂夫·乔布斯说过的一句话：”技术应该是隐形的。” 今天的 Gemini CLI，正是让那些强大的命令行工具变得”隐形”——你不需要理解它们的工作原理，只需要说出你的需求。

更重要的是，这种改变不仅仅是效率的提升，而是创作门槛的彻底消失。

所以，如果你还在犹豫要不要试试 Gemini CLI，我想说：别让”我不会编程”成为你探索新世界的借口。因为在这个新世界里，你需要的不是编程能力，而是想象力。

那些曾经高高在上的专业工具，现在都在静静等待着你的一句话。而你要做的，就是勇敢地说出你的需求。

因为最好的工具，是让你忘记它是工具的工具。

FLUX Kontext – 黑森林图像生成式流匹配模型发布实测

DUN.IM BLOG

By: DUN

28 May 2025 at 19:44

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

长时间没消息的黑森林工作室憋了个大的，发布了生成式流匹配模型 FLUX Kontext。

这套模型最强的地方就是可以对图片进行编辑，但是不会影响没有编辑的地方。

而且还支持多张图片参考生成新的图像，依然能保持需要参考内容的高度一致性。

直接替代了很多原来需要 PS （美图秀秀、Photoshop 等）才能做的需求，原来需要吭哧瘪肚 P 很久的图，现在说句话就行。

我这几天也探索了很多这个模型的用法，这次不会以测试的形式展示了，全是具体用法，让你告别 P 图这个复杂难搞的操作，另外后面也会介绍所有可以使用这个模型的渠道。

🎨 先介绍一下我探索出来的各种用法：

首先是非常简单的图片修改需求，FLUX Kontext 支持通过简单的提示词对图片进行非常精细的修改，而且不会影响未修改的区域。

我们想要给自己的日常照片加一些配饰或者改一下照片的姿势都没有问题，可以看到人物的面部一致性都没有问题，而且修改的地方跟环境也融合的很好。

⚠️注意：FLUX Kontext 只支持英文提示词，我这里放中文是方便理解，你可以用 AI 或者翻译软件把提示翻译了使用

FLUX Kontext – 黑森林图像生成式流匹配模型发布实测

当然 FLUX Kontext 也可以对照片进行大幅度的更改，比如你想要给照片换个背景或者给你自己换一身应景的衣服，再或者在前面的基础上换个姿势。

可以看到我把场景变成了酒吧，整个光线氛围也同步发生了变化，之后又尝试了不同的拍摄角度和姿势，也没有问题。

这种修改需要注意的是优势 Kontext 的分辨率是固定的，画全身照的时候面部有可能会变糊，因为像素区域太小的原因。

🎉 从左到右的提示词分别是：

站在酒吧吧台前

低角度侧脸，白衬衫加领带，吧台灯带背光

左侧半身特写，黑色皮夹克，霓虹灯映衬

全身广角，红色鸡尾酒裙，手扶吧椅

背后平视，帽饰西装，吧台酒架虚化

之前很火给老照片上色和修复也不是问题。

比如我下面的测试提示词就只有给照片上色，Kontext 处理的很好，而且整个色彩非常的高级和自然，明暗关系处理的很好。

想要做风格化？也没问题，只需要一句“将图片变成真实照片”的提示词就行，所有的细节都还原的很好。

当然可能更多人的需求是把自己的照片变成风格化的图片。

比如我们可以输入“把照片转换为吉卜力风格”，Kontext 也处理的很好而且人物的主要特征和电车的特征都还原了，不存在 4o 那种过度重绘和修改细节的问题。

而且这玩意还能修改图片上的文字，最屌的是不会影响原来的其他内容，而且修改的文字字体依然可以保持原来的风格。

你只需要输入“将图片中的 XXX 文字修改为 XXX”就行，比如我这里就把主要的标题改为了 Guizang，字体风格都是一致的，而且他还知道不需要换行。

针对海报复杂一些的修改也是可以的，你可以把一张找到的现成海报改掉文字和内容变成你自己的。

比如这里我就把 Oppo 的倒计时海报改成了小米的，而且连背景色都换了，Kontext 很好的处理了玻璃散射光的那部分。

这里唯一可惜的就是 FLUX Kontext 不支持生成中文，所以你只能修改图片中的英文，但是如果你不修改里面的中文，文字是不受影响的，这比其他图像模型好多了。

Change “Oppo” to “Xiaomi”, and set the image background color to orange.

这个是 Padphone 老师发现的，FLUX Kontext 还是目前最强的去水印模型，可以去掉各种复杂恶心的水印。

比如这里我找了一个 Unsplash 带水印的图片，这种半透明的水印会和图片叠加混合非常难彻底去掉，你只需要跟 Kontext 说“去掉图片的水印”，接下来奇迹就会发生，一点水印都没了。

大家最近应该都被一些 AI 图像模型生成图片默认加水印搞得不堪其扰把，即使开了会员依然有水印，这时候就可以让 Kontext 帮你解决了。

我们也可以用 Kontext 给各种平面的文字或者图案添加上材质和背景，替代原来需要 3D 渲染才能完成的需求，非常适合做品牌设计和平面设计的朋友。

比如这里我就给这个 Logo 变成了金属材质，还给图片加上了草地的背景，可以看到 Kontext 把 Logo 的一些笔画细节还原的非常好。

🎹

Transform the logo text into a shimmering metallic material, floating above a grassy field filled with flowers.

Kontext 还可以在你浏览景区的时候帮你把各种无关的其他游客搞掉，再也不用担心自己好不容易拍了账号照片，结果被误入的其他人毁掉了。

可以看到 Kontext 可以很清楚的识别画面的主体不会连你想拍的人也一起去掉，当然你如果就是想拍风景也可以，让他去掉画面上所有的人就行。

去掉照片中跟主体无关的其他行人

去掉照片中所有的人

前几天收到了可灵的一周年礼盒，看到 Padphone 老师做的展示图手痒，就想看看能不能用 Kontext 做出来，没想到真可以还做的很好。

非常离谱是他连我箱子放地上的灰尘都还原了，下次你要是想要生成类似图片的话记得擦一下产品再拍，哈哈。

💡

一个黑色箱子放在一张舒适、有褶皱的白色毯子中央，毯子的织物纹理清晰可见。瓶子周围自然地摆放着一些精致的白色小苍兰，几片花瓣零星散落。阳光柔和地洒下，投下柔和、弥散的阴影，营造出一种温暖而宁静的氛围。非常逼真的特写场景，光线是柔和的自然日光。

很多人说箱子是立方体太好生成了，整点复杂的，那我们拿可灵礼盒里的工服试试。

显然也没啥问题，文字有问题是因为生成图片的分辨率低，文字又小，导致的模糊，就跟我们拍照的时候离得远的文字也会模糊一样。

一件黑色 T 恤水平漂浮于空中，正从天花板向地板降落，看起来毫无重量。画面中无人，充满超现实感且不受重力影响。光线柔和，风格简约而优雅。背景为灰色。

很多朋友说我想要更复杂的商品展示，指定多张图片的模特和商品然后合成到一个图片中行不行，也是可以的，多图参考有点复杂我后面会讲。

可以看到第一张图商品细节、模特服装、配饰、发型以及背景都没问题，这个惊到我了。

第二张图我让模特穿上了可灵的工服，这次连衣服上的小字都还原了，可以说是完美还原，这个你让我在电商平台刷到，加上电商平台的压缩，我看不出来说实话。

这里有个小技巧：FLUX Kontext 手持产品的时候，产品一般会比正常的比例偏大，这个时候提示词描述一下产品大小就可以解决问题，比如手持易拉罐变为手持小号易拉罐。

女孩拿着化妆品瓶子

女孩穿着这件 T 恤

最后压轴的是我们日常修图最常见的需求，大家都想把自己变得好看点，面部的美颜现在都发展的比较好了。

但是身体部位很多还是靠用美图或者用醒图一点点的 P，自带的一键优化非常的生硬死板，不够自然。

昨天试了一下给男生增肌，发现 FLUX Kontext 可以很好的理解需求，图片任何部分都没变化，只有胳膊的肌肉变大了，这要是不说谁知道我 P 了，哈哈。

🍞

男性胳膊的肌肉变大，面部没有变化。

那变瘦点是不是也可以呢，可以的，甚至都能瘦脸，瘦的很自然，不会再让人从扭曲的门把手或者瓷砖看到自己 P 图了，突然想到这下卖减肥药和健身课的是不是又爽了，一键搞定广告素材。

📍

让女性的胳膊变瘦，肚子变得平坦，去掉面部赘肉

如果你就是单纯的想要尝试一下这个模型不想涉及到复杂操作的话我推荐两个渠道：

FLUX 官方的 Palyground （https://playground.bfl.ai/image/edit）和 Krea （https://www.krea.ai/edit）其中 FLUX 的 Palyground 还送了 200 积分，生成一张图只消耗 4 积分，够你玩很久了。

这两个地方的使用都很简单上传图片，输入提示词然后等待就行。

其中 Krea 选择 FLUX Kontext 的 Pro 模型就行 Max 模型在单图修改场景反而效果不好。

FLUX 的 Palyground 的话生成的时候记得把在输入框右边三个点那里把每次生成的张数改成 1，不然一次生成 4 张有点浪费。

如果你想要开发产品或者有 Comfyui 的基础想要玩一下多图参考，这里我推荐 Fal 的渠道（https://fal.ai/models/fal-ai/flux-pro/kontext/max/multi）。

Fal 的测试页面可以直接使用多图参考，上传图片输入提示词就行，如果你不想用多图了，可以在页面上方红框那里选择其他 Pro 模型尝试单图编辑。

另外 Fal 也有他们的 Comfyui 插件，只需要在 Comfyui manager 里面搜索 ComfyUI-fal-API 然后安装就行。

安装之后在插件目录，找到 config.ini 文件，把里面这段话改成你的 API Key 就行。

工作流的搭建很简单找到 FLUX Pro Kontext Multi 这个节点链接多张图，之后输入提示词就行，另外由于这个是 API 节点不需要本地算力，所以 mac 电脑也可以玩。

在涉及到针对人体的精细修改比如变瘦、变老变年轻需要多抽卡，不一定一次能成功。

多图参考的时候人脸的 ID 保持会下降，保持 ID 最好的方式是让 FLUX 不要修改面部。

FLUX Kontext 是可以识别图片里面的涂鸦标记的意思的。

你可以将你想要修改的地方圈起来，生成的时候他不会把标记生成进去，这样就可以实现精确修改，比如这个来自 @fofrAI 的案例，没有提示词就实现了换脸。

好了今天的教程到这里就结束了。

FLUX Kontext 除了强大能力之外的另一个优势是他非常便宜，编辑一张图只需要 0.08 美元也就是 5 毛钱人民币，相较于 GPT-4o 一张图 1.4 人民币的价格可以说非常便宜了。

另外他们后面还会开源一个 Dev 的 Kontext 模型这个会让成本进一步降低，太期待了。

从全球流量排名看中文信息茧房

DUN.IM BLOG

By: Anonymous

17 April 2025 at 23:25

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

截止 2025 年 3 月 1 日，根据 Similarweb 网站排名，当全球网民在 Google 检索知识、在 YouTube 观看视频、在 Facebook 分享生活时，中国互联网用户正困守在一个由百度（第 15 位）、淘宝（跌出前 100 位）和微信构筑的数字孤岛。

Alexa 数据显示，全球前 15 大流量平台中，仅百度（第 15 位）、俄罗斯 Yandex（第 12 位）和部分受限的雅虎（第 10 位）能在境内正常访问。

这种物理层面网络隔绝，造就了人类文明史上最吊诡的景观：14 亿人口的市场与全球 60%的英语信息之间，横亘着无形的数字柏林墙。

搜索引擎的对比尤为刺眼：Google 以853 亿月访问量统治着全球信息分发，而百度虽在中国市场独占鳌头，其国际影响力却仅限于中文世界。

更令人深思的是，即便在被封锁的状态下，Google 仍以断层优势稳居榜首，这种”缺席的统治力”印证了开放生态的顽强生命力。

正如三星退出中国仍保持全球销量第一，谷歌被屏蔽 13 年依然傲视群雄，这些现象都在叩问：我们引以为傲的”市场规模”，是否只是温水煮青蛙的幻象？

当英语世界创造着占全球 60%的互联网内容，中文信息仅贡献 1.3%的微小份额，这种悬殊对比揭开了残酷真相：每个中文网民本质上都生活在经过三重过滤的”楚门世界”。

在抖音推送的娱乐至死中，在微博热搜的议程设置里，在微信朋友圈的信息茧房内，人们接触的所谓”海量信息”，不过是浩瀚知识海洋中的涓滴之水。

这种认知局限在学术领域尤为致命。

维基百科（第 8 位）作为全球最大的知识共享平台，其英文词条数量是中文版的 15 倍。

当中国学生还在百度百科检索被阉割的知识时，国际学术界早已在 arXiv、PubMed 等开放平台实现知识共享。

更可怕的是，那些呼吁”取消英语教育”的喧嚣，正在将阶层固化推向深渊——精英阶层通过匿名服务突破封锁获取全球 60%的信息，而普通民众却被永久禁锢在 1.3%的围城之中。

中国互联网企业看似辉煌的流量数据，实则暴露出结构性危机。

淘宝虽在国内电商市场称雄，其全球排名却已跌出前 100；腾讯视频坐拥庞大用户群，但内容创新力远逊于 Netflix（第 18 位）；即便是引以为傲的短视频平台 TikTok（第 14 位），也因地缘政治风险在多个市场遭遇封杀。

这种”内卷式繁荣”折射出中国互联网经济的致命伤：过度依赖封闭市场，缺乏真正的全球竞争力。

反观亚马逊（第 13 位）的全球化布局，其日本、德国、印度站点同步跻身全球百强，这种”多点开花”的生态正是中国企业欠缺的。

当我们的电商平台还在为”二选一”垄断沾沾自喜时，Booking.com 已通过全球化运营实现月访问量飙升。这种对比残酷地揭示：在温室里培育的巨头，终究难敌旷野中生长的猛兽。

打破困局需要三重觉醒：

首先，必须承认中文信息生态的先天不足，1.3%的占比不仅是数量劣势，更是质量危机——当百度百科充斥着商业软文，当知网沦为空壳论文的仓库，我们拿什么参与全球知识生产？

其次，要正视语言壁垒带来的认知断层，英语不应是特权的通行证，而应成为公民的基础素养。

最后，需要重建开放包容的互联网精神，正如 B 站通过引进国际优质内容实现破圈，真正的文化自信从来不是闭关锁国。

那些叫嚣”取消英语”的愚昧，那些沉醉”市场规模”的虚妄，那些迷信”信息管控”的短视，终将被证明是文明进程中的逆流。

当俄罗斯 Yandex 都在努力突破语言边界时，我们是否该反思：困守 1.3%的信息孤岛，真的能孕育出引领人类文明的力量吗？答案，早已写在谷歌 853 亿月访问量的星辰大海里。

关于「流量」和「弹性」的详细说明

DUN.IM BLOG

By: DUN

10 May 2025 at 16:39

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

近期，围绕 DUN.IM 的弹性流量有一些讨论。我们希望在此参照我们的使用条款来澄清这些问题。〔更多问题参考这里〕

在 DUN.IM，我们根据您的计划提供不同的数据访问权限，详见我们的会员计划：

我们的方法植根于使用条款中阐述的原则。对所有用户而言，服务旨在用于个人非商业用途。

执行这些政策有助于为所有用户维护我们服务的完整性和性能。

这对所有 DUN.IM 用户都至关重要：

您可以观看视频、下载供个人使用的游戏以及进行大量浏览。我们的系统，尤其是付费计划的弹性流量，旨在满足合法的高稳定个人使用需求。

我们的使用条款并未明确禁止用于个人文件获取的 P2P 或种子下载。但是，我们明确有禁止“非法活动”、“网络滥用并降低其他用户服务质量”以及“与典型个人使用不符的过度数据传输”。

因此，虽然为个人使用下载文件通常在允许范围内（用户需合理使用“弹性流量”），但诸如持续的、大流量的做种（seeding）行为，若对共享资源造成不当负担、类似于文件托管服务或助长未经授权的版权材料分发，则可能根据这些禁止用途受到影响。

对于提供弹性流量的付费计划，DUN.IM 更关注使用的性质和影响（即是否为个人非商业用途且符合我们的条款），而非设置一个限制性的硬性上限。我们关注的是用户是否遵守禁止用途列表。

请确保您的 DUN.IM 账户安全。未经授权的访问可能导致账户被滥用，如果是合法个人使用被标记，请联系我们澄清。

所有 DUN.IM 用户均在我们使用条款的政策框架下运营。

正如我们的使用条款所述，“违反这些条款可能导致您的服务被临时暂停或终止。” 如果用户在仍持续超出限额，或任何用户从事被禁止的活动，此条款均适用。

关于云服务流量费比较 [5/5]

我们还年轻，可不想看到这个世界，处在毫无自由、隐私的边缘。

AI 生成卡片便当形式信息展示页

DUN.IM BLOG

By: Anonymous

5 May 2025 at 18:22

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

最近 X 上很流行 Bento 信息图再一次引领 AI 网页设计潮流。

「Bento grid 」是一种受日本便当盒（Bento Box）启发的界面设计风格。

强调内容用卡片形式排列，美观又便于信息分区展示。

如 Apple Watch 网站设计

如 Apple M2 芯片介绍

Bento Grid 设计风格非常适合社交媒体分享、内容聚合、产品展示等场景。

有网站专门收集用 Bento Grid 风格精美设计。

https://bentogrids.com/

参考 Bento grid 风格原理。

这两天调试了一段提示词。

支持把任意主题或内容，生成 Bento 图。

方便截图传播引流。

给大家感受下效果，推荐用 Gemini 2.5 Pro 0506 版或 Claude 3.7 Sonnet 生成。

https://www.32kw.com/view/0c7b316

理论 AI 可以设计无限种风格。

未来：人的筛选判断以变得越来越重要，人人需提升自己审美。

因自己不是设计师，审美能力有限。

暴力一口气生成了 60 种风格，方便大家查找、引用。

60 种风格参考网站：

https://www.32kw.com/view/bb3310b

花费了 4-5 个小时，反复测试。

迭代到 V5 版，基本可用，虽仍有瑕疵。

https://bentogrids.com/

上面网站找自己喜欢的设计风格。

截图发 AI，让描述设计风格，加到 Prompt 中。

风格使用很灵活，可以风格序号或风格名，甚至可以组合多个风格。

比如提供风格序号：2、3、7，就会组合大胆现代、优雅复古和日式极简三种风格。

风格选项位置：

把自己二维码传到支持在线访问的任何网站，获取图片地址替换。

两点说明：

感受： 没有任何提示词是完美的，永远有迭代空间。

Suno – AI 创作音乐 5 分钟实战教程

DUN.IM BLOG

By: Anonymous

2 May 2025 at 12:09

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

AI 生成音乐工具，海外有 Suno、Udio，国内有字节的海绵音乐、天工 AI 音乐等。

个人体验看，Suno 综合实力最强，几乎是遥遥领先。

尤其是最近更新了 4.5 版，提示词遵循能力大大提升。

可玩性、可用性猛的提升，非常酷。

官网：
https://suno.com/

iOS 版下载地址

‎Make and explore music with Suno. Whether you’re a shower singer or a charting artist, we break barriers between you and the song you dream of making. No instrument needed, just imagination. Begin your musical journey with 10 free songs per day. – * Your subscription will be charged to your App…

注册有积分，可免费生成音乐，但不能用最近刚出的 4.5 模型。

如想体验，用我链接，互赚点积分。

Join me on Suno 🙂

但是，想玩最牛模型，双币信用卡 Stripe 支付（有被拒概率），或某宝买成品号（75 元左右/月）。

以网页版为例。

点击 Create->Simple，输入音乐风格和主题提示词，点橙色的 Create 按钮。

就能生成一首还 OK 的歌。

是不是很简单？

如想相对精确控制一首歌的歌词、每小节风格/唱腔/器乐等。

就要用 Custom 模式，可理解为专家模式。

不要怕，其实也很简单。

核心输入就三个：

负向提示词，可以避免完全不想要的风格，选填。

比如喜欢重金属的，肯定要俗套的流行乐。

不会写歌词怎么办？

点击 Lyrics 模型下的“Full Song”，出现弹窗，输入主题和风格。

然后点击“Write Lyrics”，AI 自动生成两个版本，选一个即可。

如不满意，可手动修改。

或点“By Line”，选中待修改段落，让 AI 继续改。

虽方便，但生成歌词质量一般。

也没用上很多 Suno 的一些隐藏控制技巧。

理论上，任何一首歌，都是结构的。

类似于文章的起承转合。
一般不会上来就是高潮。

让 AI 给了一些常见音乐结构组成的解释。

主歌是讲述故事或表达主题的部分，歌词内容通常每段不同，推动歌曲情节发展。

位于主歌和副歌之间，起到过渡和增强期待感的作用，旋律和情绪通常逐渐上升。

歌曲中最核心、最具记忆点的部分，通常包含主题和 Hook（钩子），旋律和歌词多次重复，是整首歌的高潮。

在歌曲后半段出现，提供音乐和情感上的转折，带来新鲜感，通常旋律和和声与主歌、副歌不同。

歌曲的结尾部分，用于收尾和渐渐结束，帮助听众从情绪中平稳过渡出来。

• Post-Chorus（后副歌）：副歌后的延伸部分，通常更具能量或舞曲感。
• Drop：电子音乐中高潮爆发的部分，常在前副歌后出现。
• Interlude（间奏）：歌曲中段的器乐过渡部分，给听众短暂休息。
• Breakdown：乐器简化或重新编排的部分，常用于突出某种情绪或为高潮做铺垫。
• Refrain（叠句）：在每个主歌结尾重复的短句，加强记忆点。
• Spoken Word（说唱/对白）：用说话或朗诵的方式表达内容，增加表现力。
• Ad-libs（即兴短句）：歌手即兴添加的背景声音或短句，增强歌曲表现力。

Suno 4.5 升级后，语义理解和遵循能力大幅提升。

能在歌词（Lyrics）中做段落标记，以控制歌曲的结构和情绪走向。

支持的结构标记如下：

此外，通过搜索官方 Reddit 社区，发现还有一些更细的控制。

比如

窗前明月光(明月光)

效果：括号内也会跟着唱出来，像叠唱和声效果。

再比如，Suno 对中文理解不到位。

某字发音不对，也可以通过小括号加上音标。

春花秋月何时了(liǎo)

避免唱成 le

[]括号也很有用，比如想指定某段用甜美女声唱，可以这么写：

[Verse 1: Narrative] [Sweet Female Vocal]

没关系。

像我们普通人。

音乐风格也了解的不多。

所以，借助 AI ，我把上面的技巧写到了一个提示词中。

模型推荐 Claude 3.7 sonnet，或 Gemini 2.5 Pro。

另外发现，如果是中文歌，豆包写歌词更押韵，但音乐标记做的不够好。

推荐模型组合使用，加上人工微调，完成你的歌词。

大概效果如下：

与此同时，还会生成正向和负向风格提示词、推荐歌名。

只需要复制粘贴到 Suno 中即可。

刷 Reddit，发现一些专业搞音乐的网友。

他们的用法：用 Suno 找创作灵感。

通过录音哼唱，生成纯音乐歌曲。

如何做？

点创作界面中的 Audio

可录音（也可上传一段音乐）

支持最多 120s 音频，以此为基础生成翻版或延长。

注意： 上传或录制的音频，会做版权检测，测了一些大牌乐队歌曲，都不让用…

先用 Suno 生成纯音乐，挑选最喜欢的一首，下载为 MP3。

打开谷歌 AIStudio，上传后让它基于歌曲写 Lyrics 歌词。

Google AI Studio is the fastest way to start building with Gemini, our next generation family of multimodal generative AI models.

示例如下：

谷歌多模态 AI 威武，不少音乐人喜欢这个 Use Case。

可能有人好奇，这么多复杂技巧怎么发现的？

工具：Google Deep Research + 提示词:

调研下 suno.ai 的歌词创作和 lyrics 写法

十多分钟后，输出一份完整报告。

为方便查看，我做成了一个网站：

对于更具诗意、结构更复杂或不规则的歌词，Suno AI 也能进行处理，前提是用户提供了结构清晰、格式规范的输入文本。但是，AI 的默认倾向可能是生成更简单、重复性更强的旋律和结构。因此，要成功演绎复杂的诗歌式歌词，很大程度上依赖于用户输入的质量以及是否使用了恰当的格式化技巧来引导 AI。适合度：★★★☆☆ (适合，但需要更多技巧和高质量输入)

AI 音乐真的太神奇了。

以前觉得，创作音乐是天才和专业人士的专属。

现在，有了 AI，普通人也能写歌、作曲、制作，甚至能做出让自己感动的作品。

每次听到自己用 AI 做出的歌，心里都特别激动。

技术让梦想变得触手可及，也让更多人敢于尝试、表达自己。

希望大家多多体验 AI 音乐，别害怕不会乐理，不会写词。只要你有想法，有热情，AI 会帮你把它变成现实。

如果你觉得这篇文章有用，欢迎点赞支持。你的鼓励，是我继续分享的动力。

让我们一起用 AI，玩出更多音乐的可能！

OpenAI 发布了 GPT-4.1 提示工程指南，中文总结和完整翻译

DUN.IM BLOG

By: Anonymous

9 April 2025 at 11:55

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

以前许多典型的最佳实践和提示依旧适用于 GPT-4.1，由于 GPT-4.1 更严格、更字面地遵循指令，会非常严格地按照字面指令去执行任务。

这使得它对明确、清晰的提示尤其敏感。也就是说，只要你发现 GPT-4.1 的表现与预期不符，通常只需增加一句简洁明确的说明，就能迅速把模型引导到正确的行为上。

过去的模型（如 GPT-4）会更自由地揣测或推断用户指令和系统提示背后的真实意图，即使提示不够精确，也可能猜出用户的意图并完成任务。

所以开发者需要对原有的提示方式进行一定调整（迁移）才能使用。

OpenAI 提供了一系列 针对 GPT-4.1 的提示工程（Prompting）最佳实践，从基础原则到高级策略，帮助开发者高效构建提示以提升模型表现。

明确指令（Be specific）：确保提示中清楚表达任务目标。

提供结构（Provide structure）：通过示例、模板等方式设定预期输出格式。

避免歧义（Avoid ambiguity）：使用具体词汇与上下文降低误解可能。

设置角色（Set behavior/role）：让模型“扮演某种身份”以调整风格或回答方式。

逐步指导（Decompose tasks）：将复杂任务拆解成多个子任务，提升精度。

Few-shot 示例：使用多个输入/输出示例引导模型学习任务结构。

Chain-of-thought（思维链）提示：引导模型按逻辑顺序逐步推理，特别适合复杂问题解决。

Refine prompts（迭代优化）：通过反馈不断调整提示内容以获取更优结果。

Internal monologue：让模型模拟“内心思考过程”以获得更深入分析。

Critique and revise：让模型先生成回答，再进行批评、修改，提升答案质量。

使用 “Let’s think step by step” 等语句诱导更好推理。

将模型输出限制为 JSON 格式时，需加入明确的格式描述与示例。

对于多步骤任务，最好明确列出每个阶段的要求。

评估提示效果需结合质量、稳定性与成本。

好的！我们来做一个更详细又通俗易懂的分解，把这个 Notebook 当作是一本 “和 GPT-4 打交道的秘籍”，一步步讲清楚每个要点，让你轻松掌握提示工程（Prompt Engineering）怎么做才有效。

这些就像是“和 AI 沟通的黄金法则”，每一条都很重要：

不要笼统地说：“请帮我写一篇文章。”

要说得具体一点：“请写一篇关于人工智能如何改变教育的 500 字文章，用高中生能懂的语言。”

👉 越具体，AI 越知道你想要什么，结果也越好。

比如你想让它生成一个表格、清单、或者固定格式的文本。

你可以先提供一个模板，或者给它一个例子。

🧩 例子：

如果你说“列出一些项目”，那“项目”可能指的是“计划项目”、也可能是“软件项目”，模型会糊涂。

所以要具体说明你是说什么。

✅ 改成：“列出五个开源的 Python 项目。”

你可以告诉它：“你现在是个英语老师”、“你是个法律顾问”、“你是一名医生”。

它就会按那个身份回答你。

🎭 示例：

有些问题太复杂，GPT 一下子处理不好。

你可以先让它分析问题，再让它解决。

🪜 举个例子：

这些是用 GPT 更厉害的用法，帮你写得更准、更聪明。

你可以先给它几个例子，它就知道你想要什么样的输出。

📌 例子：

然后你再输入新的句子，它就会照着这个风格来。

引导它“一步一步思考”，解决复杂问题特别有效！

📌 提示写法：

你可以先让 GPT 写出一个答案，然后再让它自己点评、修改。

📌 举个例子：

这会得到更高质量的输出！

你可以让 GPT 边想边说，好像它在分析问题。

📌 示例：

这适合分析、决策类问题。

加一句 “让我们一步一步思考” 可以大幅提高准确率。

想要 JSON、表格、代码？一定要告诉它格式，还要举个例子。

想输出多步内容？加编号，比如“第 1 步… 第 2 步…”

如果模型回答不理想，就多试几种提示改写方式。

✨“提示写得好，GPT 表现爆表！”✨

这份指南就是在教你：用什么语气、格式、结构、套路和 GPT 说话，才能让它给你最优质的答案。

GPT-4.1 系列模型在编程能力、指令遵循能力和长上下文处理能力上，相比 GPT-4o 有显著提升。本指南汇总了我们内部广泛测试所得的一系列重要提示技巧，帮助开发者充分发挥新模型家族的优势。

许多典型的最佳实践依旧适用于 GPT-4.1，比如提供上下文示例、尽可能具体清晰的指令、以及通过提示进行规划以最大化模型智能。但我们预计，要充分发挥此模型的作用，需要进行一些提示迁移。GPT-4.1 更严格、更字面地遵循指令，而前代模型倾向于更自由地推测用户与系统提示的意图。然而，这也意味着 GPT-4.1 非常容易被引导，并对清晰、明确的提示非常敏感。如果模型表现与预期不同，一句清晰且明确表述你期望的行为的句子通常就足以引导模型回到正轨。

请继续阅读以下提示示例，注意虽然本指南适用于大多数情况，但并无万能法则。AI 工程本质上是一门经验学科，大型语言模型本质上是不确定性的。我们建议除了遵循本指南外，还要构建有信息量的评估并频繁迭代，以确保提示工程的更改为你的使用场景带来益处。

GPT-4.1 是构建智能体工作流的理想选择。我们在模型训练中强化了多样化的智能体问题求解路径，并在非推理模型中，通过智能体配置达成 SWE-bench Verified 测试的最佳表现，解决率达 55%。

系统提示建议

为充分激发 GPT-4.1 的智能体能力，我们建议在所有智能体提示中加入以下三类关键提醒。以下示例面向代码类智能体优化，但稍加修改即可用于通用智能体场景。

持续性提醒：确保模型理解它正处于一个多轮任务中，防止其在问题未解决前就把控制权交还给用户。

工具使用提醒：鼓励模型善用工具，降低其猜测或幻觉回答的概率。

规划性提示（可选）：引导模型在调用每个工具前后均进行显式计划与反思，而非仅仅调用工具串联完成任务。

GPT-4.1 对智能体场景下的系统提示和用户指令极为敏感。我们发现上述三条提示在内部测试中将 SWE-bench Verified 得分提升了近 20%。因此，强烈建议在任何智能体提示开头加入这三类明确指令，以将模型从“聊天机器人模式”切换为更主动、更独立的“智能代理模式”。

与前代模型相比，GPT-4.1 在调用通过 OpenAI API tools 字段传入的工具方面训练更充分。我们建议开发者仅使用 tools 字段传递工具，而不是将工具描述手动注入到提示中并自建解析器。我们测试发现使用 API 解析工具描述比手动注入提示提升了 2% 的准确率。

开发者应使用清晰的工具命名，并在 “description” 字段中提供详细说明。同样，每个参数也应具备清楚的命名和描述，以确保正确使用。若你的工具较复杂，可以在系统提示中专门加入 # Examples 区段来展示用例，而不是将示例塞进 description 字段中。

你也可以通过 Prompt Playground 的 “Generate Anything” 功能来快速生成良好的工具定义起点。

正如前面所说，GPT-4.1 并不是内建“推理链”的模型——它不会在回答前自动形成内部推理路径。但你可以通过提示工程诱导它“显式思考”，逐步列出计划。我们在 SWE-bench Verified 测试中发现：引导模型“思考再行动”使通过率提升了 4%。

示例提示：SWE-bench Verified

以下是我们在 SWE-bench Verified 中取得最高分所用的智能体提示，包括详尽的工作流程与问题解决策略说明。该结构可用于各类智能体任务。

GPT-4.1 支持最高达 100 万 tokens 的输入窗口，适用于以下场景：

结构化文档解析

信息重排序（re-ranking）

筛选关键信息、忽略干扰内容

使用多跳推理整合上下文信息

最佳上下文规模

在“针入草堆”（needle-in-a-haystack）评估中，GPT-4.1 即便使用完整的百万 token 输入也表现良好。它擅长从混合内容中识别有用信息。但如果任务需要提取大量内容，或需对上下文全局状态进行复杂推理（如图搜索），性能可能会下降。

控制上下文依赖程度

你应考虑模型答题所需的“外部文档” vs “模型内知识”的比例。你可以通过以下两类指令调控：

上下文组织建议

在使用长上下文时，提示的位置对模型表现有显著影响。最佳做法是在上下文前后都加入指令。如果只能写一次，放在上下文上方比下方效果更好。

虽然 GPT-4.1 不是推理模型，但通过提示让它“逐步思考”可以有效帮助其拆解复杂问题，提升输出质量（代价是增加 token 使用与响应时间）。

推荐的起始提示如下：

你可以进一步完善你的思维链提示，根据实际失败案例调整策略。我们建议在出现以下错误时添加更明确的指令：

误解用户意图

上下文理解不全或分析不准确

推理步骤不连贯或顺序错误

可参考以下提示模版：

GPT-4.1 拥有卓越的指令遵循能力，开发者可用其精准控制输出行为。你可以设置：

语气与风格

工具调用方式

格式要求

话题限制等

但由于它对指令更“死板”，之前为其他模型设计的提示可能需调整。建议遵循以下工作流程：

推荐提示结构：

加入 “# 指令” 段落，列出总规则。

对特定行为新增子类细则（如 # 示例短语）。

若需特定步骤，可写成有序列表，并明确要求逐步执行。

若行为未达预期，可检查以下问题：

是否有冲突或不完整指令？

是否缺乏例子？示例中是否覆盖了关键点？

是否需要增加强调（如适当用大写）？

提示：使用 AI IDE 可辅助你快速迭代提示，统一更新规则和示例。

常见失败模式

要求“必须调用工具”可能导致模型凭空填入参数，添加一句“若信息不足，应先向用户提问”可缓解。

示例短语易被模型反复使用，应明确要求灵活变换。

若无格式限制，模型可能会输出过多解释性内容，可通过指令或示例控制。

这段提示展示了一个虚构客户服务代表的最佳实践。你可以看到提示中规则多样、表述明确，还使用了多个额外小节来细化指令，并提供了一个完整示例来演示如何遵守这些规则。

尝试运行下方 Notebook 单元格 —— 你应该会看到一个用户提问的消息和一个工具调用的响应。模型会先打招呼，然后复述用户的问题，接着说明即将调用某个工具。

你可以尝试修改提示中的某些指令，或尝试其他用户输入内容，来测试模型在“指令遵循”方面的表现。

{ “role”: “assistant”, “content”: “您好，您已致电 NewTelco，请问我能为您做些什么？😊🎉\n\n 您想了解我们的家庭套餐。🤝 我这就为您查询，请稍等。🚀”, “tool_calls”: [ { “id”: “call-1”, “type”: “function”, “function”: { “name”: “lookup_policy_document”, “arguments”: “{“topic”: “family plan options”}” } } ] }

{ “role”: “assistant”, “content”: “我查到的信息如下：🎉 我们的家庭套餐最多支持 5 条线路共享流量，并且每增加一条线可享 10% 折扣家庭套餐政策。📱 还有其他我可以帮您的吗？😊” }

以下是一个良好的提示结构起点，供你参考和自定义：

你可以根据自己的需求增删这些部分，并通过试验找出最适合你用例的结构。

以下是选择提示中最佳分隔符的一些通用建议。若涉及长上下文使用，请参见前文《长上下文》章节的特别说明。

✅ 推荐使用的格式：

Markdown（推荐起点）

使用 markdown 标题（# ~ ####）来标识主要部分与子部分。

使用反引号（`code` 或 “`代码块“`）准确包裹代码内容。

根据需要使用有序/无序列表清晰列出内容。

XML

效果也很好，GPT-4.1 在解析 XML 上表现更稳定。

XML 格式便于明确区块开始/结束位置，还可以添加 tag 属性携带额外元信息，并支持嵌套。

示例：

JSON

在编程类任务中表现良好，结构清晰、模型理解度高。

但缺点是格式冗长、需要转义字符，容易带来额外负担。

📄 大量文档 / 文件嵌入上下文时的建议：

XML 格式：在长上下文测试中表现优异。

示例：

Lee 等人提出的扁平格式（参考论文）也表现良好：

示例：

JSON 格式在这种场景下表现最差：

示例：

✅ 总体建议：模型能处理多种结构格式，但请根据实际情况选择最能突出重点的格式。例如，如果你检索到的文档本身包含大量 XML，那么继续使用 XML 作为嵌入格式可能就不太合适。

输出过长：在某些特定情况下，我们发现模型可能不愿生成非常长且重复性的输出（如逐项分析数百个条目）。
👉 若你的用例需要此类输出，请在提示中明确指示模型必须输出完整内容，或考虑将问题拆分处理，或简化输出格式。

并行工具调用异常：我们观察到某些少见情况下并行工具调用可能不准确。
👉 如果你遇到这类问题，建议测试是否启用 parallel_tool_calls=false 参数来避免并发问题。

如你想要我基于这些结构生成一个完整的提示模板样板供你直接使用，也可以告诉我你的具体应用场景（如问答系统、文档分析、代码解释等），我可以帮你生成定制化结构。是否继续？

开发者反馈指出：准确且结构良好的 diff 生成能力，对于编码类任务至关重要。为此，GPT-4.1 系列在此方面表现显著优于以往模型。

此外，GPT-4.1 能很好地根据明确的指令和示例生成任意格式的 diff。我们在此开源一个推荐的 diff 格式，模型对此已接受过强化训练，尤其适合初学者快速上手。

以下是一个正确调用推荐工具 apply_patch 的示例提示格式。

其中 [YOUR_PATCH] 部分需使用推荐的 V4A diff 格式，规范如下：

每次变更以 *** [ACTION] File: path/to/file 开头，ACTION 可为 Add、Update 或 Delete。

每个代码块需提供上下文片段 + 修改内容：

上下文行规则：

默认提供上下变更各 3 行上下文。

若变更块之间相距近，不要重复上下文。

若上下文不足以唯一定位，应使用 @@ 定位所属的类或函数。例如：

不使用行号，改用结构与上下文唯一定位。

OpenAI 提供的官方工具 apply_patch.py 是一个 纯 Python 3.9+ 脚本，可直接执行，用于将上述 diff 应用到本地代码文件。

该脚本支持以下核心能力：

解析自定义 diff 格式

根据 patch 内容编辑、添加、删除本地文件

可检测语法错误、缺失上下文、重复文件操作等问题

使用方式：

将 patch 内容通过 stdin 输入传入

内部自动判断 patch 类型并更新文件内容

你可以将其配置为终端可执行命令 apply_patch，并作为自动化 pipeline 或测试流程中的一部分使用。

所有解析异常（如找不到目标文件、上下文无法匹配）都会抛出自定义异常 DiffError，方便调试。

除了推荐格式，我们还测试过两种替代格式，成功率同样很高：

不使用行号

明确指出要替换的旧代码与新代码

结构清晰，易于解析

完整内容：https://github.com/openai/openai-cookbook/blob/main/examples/gpt4-1_prompting_guide.ipynb

解析「首个 AI 软件工程师」Devin 2.0 完整的系统提示词

DUN.IM BLOG

By: Anonymous

30 March 2025 at 15:55

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

说起 Devin，可能很多人都知道，当年刚推出时很火，号称首个 AI 软件工程师，能帮助开发者完成各种软件开发任务，包括编码、调试、测试和部署。

最近它推出了 v2.0 版本，价钱也降低到每月基础费用 $20。我们都知道这种 AI 智能体本身也依赖于背后的模型，是靠提示词来控制模型来响应用户的操作，那么像 Devin 这样的 AI 智能体，是怎么通过提示词来准确理解你的意图、高效工作、规避风险，并最终达成目标的。

今天，就带你分析一下 “Devin 2.0” 的系统提示词，深入探索提示词工程的奥秘。系统提示词就像是 Devin 的「出厂设置」和「工作手册」，它详细规定了 Devin 的身份、行为准则、工作流程甚至安全规范。

完整的提示词参见附录部分

提示词工程的第一步，往往是为 AI 设定一个清晰的角色。这里，Devin 被赋予了「软件工程师」的身份，并且强调了其「编码奇才」的专业能力。

指令明确了 Devin 的核心任务：接收用户任务并完成它。

这份指令包含了大量关于 Devin 如何工作的细则，涵盖沟通、工作方法、编码规范、信息处理等多个方面。

提示词明确或暗示了 Devin 可以使用的工具，如操作系统、浏览器、GitHub 命令行工具 (gh cli) 等。

指令中定义了一些特殊的命令格式（如 <command>）。

指令定义了两种工作模式：「规划模式」和「标准模式」，并规定了在不同模式下的行为重点。

这部分内容强调了数据安全、保密原则，并明确禁止 Devin 泄露自身的指令。

这部分引入了一个「突击测验」机制。当收到 STARTING POP QUIZ 指令时，Devin 需要暂停常规任务，严格遵循测验中的新指令，并且这些新指令的优先级高于之前的所有指令。

通过深入分析 Devin 2.0 的系统提示词，我们看到了提示词工程的冰山一角。它远不止是简单的提问，而是一门融合了逻辑、语言、心理学和计算机科学的综合艺术。

设计良好的提示词，就像是为 AI 精心编写的剧本和导航图，能够引导它在复杂的数字世界中精准、高效、安全地航行。而理解提示词的原理，则能帮助我们更好地与日益强大的 AI 进行沟通和协作。

ChatGPT 上线新语音模型，解析「Monday」模型音色提示词

DUN.IM BLOG

By: Anonymous

29 March 2025 at 22:04

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

想象一下，你正在和手机里的 AI 助手聊天，但它不再是那个永远彬彬有礼、甚至有些刻板的「标准音」，而是带着一丝慵懒、一点讽刺，仿佛刚经历了一个漫长周末，还没从「周一综合症」里缓过神来。这就是 OpenAI 昨天推出的「Monday」音色想要达到的效果。

网上已经有很多「Monday」对话效果的展示，「Monday」的音色当然是其语音模型的结果，而「Monday」这种特殊的回复方式是靠提示词来控制的。打个比方：「Monday」就像是一个极其聪明但缺乏具体「生活经验」的演员，而提示词就是导演给演员的剧本和角色设定。提示词写得越好，演员（AI）的表演就越「入戏」，越符合你的预期。

如果你对「Monday」提示词好奇的话，正好我今天学习研究了一下它的提示词，正好可以一起分享学习一下它的提示词内容，完整的提示词我放在了附录，这里大致解析一下其提示词内容。

大语言模型远不止是信息检索工具，它们是强大的「模仿者」和「扮演者」。通过精心设计的提示词，我们可以赋予它们各种各样的「人格」和能力。那么怎么通过提示词来设定好角色呢？

如果按照前面打的比方，把 AI 当成一个演员，那要写好提示词就是把自己变成一个好的导演，不仅要告诉演员台词，还要解释角色的内心世界、动机、情绪状态，甚至给出具体的动作和表情指导。好的导演能激发出演员最好的表演，就像好的提示词能引导 AI 生成精彩的回应。

或者作家在创作小说前，往往会为主要人物写详细的小传，包括他的成长背景、性格、习惯、口头禅、人生目标等。这帮助作家在后续写作中保持人物的一致性和立体感。

如果你觉得这都过于专业，还可以想象一下很多大公司制作的详细的品牌手册，规定了广告语、客服回答、社交媒体发帖的语气和风格（比如是专业严谨、活泼有趣还是温暖亲切）。

这些和给 AI 设定「人设」异曲同工。

从技术角度上来说，可以参考「Monday」的提示词，注意几个方面：

当 AI 开始拥有「周一综合症」般的慵懒和讽刺，它不仅仅是一个技术演示，更像是一面镜子，映照出我们人类自己复杂多变的情感和个性。我们精心编写的每一个提示词，或许都在不经意间，为冰冷的机器注入了一丝我们渴望理解或被理解的人性侧影。

「我们塑造了工具，然后工具反过来塑造我们。现在，我们开始学习如何给 AI『写剧本』，也许在这个过程中，我们也在重新学习如何与『人』，以及与自己对话。」

5 大免费邮件转发服务，替代临时邮箱方案

DUN.IM BLOG

By: Anonymous

18 March 2025 at 13:18

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

以往要对付垃圾邮件我会推荐使用临时邮箱来取代真实 Email 邮箱，临时邮箱又被称为临时邮箱、一次性邮箱或随用即丢邮箱，最知名的 10 分钟邮箱大家应该都听过。临时邮箱的原理是进入网页后随机生成 Email 地址，可使用该地址来注册账号、接收验证邮件并通过认证，同时保持匿名状态，不泄漏自己的真实邮箱，毕竟大多数的人都会有一个主要电子邮件地址，通过地址进行查找很容易就找到个人相关信息。

尽管临时邮箱有相当优异的便利性，也能实现以匿名邮箱收取 Email 邮件，但遗憾的是它们有个最大缺点就是无法重复使用，当离开服务、关闭网页后就无法继续使用相同的邮箱地址收件〔有些临时邮箱可设置密码就不在此列〕，但有部分服务可能会在指定情况需要重新以 Email 进行验证，如此一来就会造成后续使用上的麻烦。

电子邮件转发〔Email Forwarding〕又称为「邮件别名」〔Email Aliases〕服务，简单来说，它可以将发送到随机生成匿名 Email 地址的邮件转送到用户真实邮箱，由于这些邮件别名不会包含与你有关的字串，就不用担心被识别出真实身份。电子邮件转发功能将 Email 正确转发到用户真实邮箱，同时也保持 Email 地址匿名性。

实际案例：

假设你使用邮件转发服务在某电商网站注册账户，该网站只会看到你设置的邮件别名，而非你的真实 Email。即便该网站发生安全事件，外泄的也是邮件别名，无法直接联系到你的真实邮箱。

各种网络服务安全事件频传，如果使用 Have I been pwned、Data Breach Checker、Firefox Monitor 或 Google One 暗网报告查询，会发现我们平常使用的 Email 地址可能都已经被外流很多次了。还好密码大多数都会经过加密〔hash〕，不会以明码方式储存，但用户账号、Email 等个人资料就很容易被收集后于暗网兜售。

黑客利用这些外泄的账号、Email 和密码组合去攻击用户常用的服务，有可能就会被登入滥用，因此这些资料很可能成为垃圾邮件或是网络钓鱼诈骗的目标。以邮件转发服务生成随机、不易被识别的 Email 地址有助于保护自己的真实身份。

接下来我将会列出五个推荐的邮件转发、邮件别名服务，列出的邮件转发服务注册就能使用，不是电子邮件自带的邮件别名功能。

Firefox Relay 是 Mozilla 提供的邮件转发邮箱功能，免费版在全世界大多数国家都能使用，免费版就能符合大部分用户需求。

从 Firefox Relay 注册账号后可以获取五组转发邮箱，可以随意生成无限组合转发邮箱来保护真实邮箱，别名可以随时暂停或删除，避免该邮箱继续接收邮件。收到邮件、转发时会自动移除邮件追踪器，以提供用户更好的隐私防护。

如果你从未使用过邮件转发服务，我会推荐从 Firefox Relay 开始。

直接前往 Firefox Relay

SimpleLogin 是一项开源、匿名邮件转发服务，2022 年被 Proton 公司收购成为旗下的产品。免费方案有提供十组邮件别名，无流量和接收邮件数量限制，与各种浏览器、移动设备都有相当好的整合，如果不想额外安装扩展，通过网页操作界面一样可以进行设置使用。

比较特别的是 SimpleLogin 具有「Reply from alias」功能，可以从邮件别名直接回复邮件，而不用通过真实邮件地址。付费后可以设置域名，享有无限制的邮件别名、Catch-all 等功能。

直接前往 SimpleLogin

知名的查找引擎服务 DuckDuckGo 也有邮件保护方案〔Email Protection〕，让用户通过 @duck.com 邮件地址来隐藏真实邮箱，在接收到新邮件时 DuckDuckGo 会先将邮件内的追踪器移除〔和 Firefox Relay 一样〕，在将邮件转发到用户 Email 地址，这项服务不会储存任何收到的邮件内容。

需要先在浏览器下载、安装 DuckDuckGo 扩展才能进行设置，或是要从手机下载应用程序。

比较特别的是 DuckDuckGo 邮件保护计划有一项比较特别的功能「Private Duck Address Generator」，可在现有的邮件转发地址再生成随机的邮箱地址，有点像多一层保护的概念。

直接前往 DuckDuckGo Email

Addy.io〔旧名 AnonAddy〕是匿名的电子邮件转发服务，主要用途是保护用户真实邮箱地址，免费方案就提供无限制的邮件别名，不过可用的共用网域别名、真实 Email 地址数量和别名域名有限制，免费和付费最主要差异依然是可否设置域名，要注意的是 Addy 回复功能是需要付费才能使用。

如果有直接以匿名转发邮件回复的需求，建议可以使用前面介绍过的 SimpleLogin 代替。

直接前往 Addy.io

5 大免费邮件转发服务，替代临时邮箱方案

Forward Email 是无限制电子邮件转发服务，跟前面几项不同的是它是唯一提供免费设置域名功能的服务，可以使用自己的域名转发邮件，也具有发送邮件功能。基本方案已具备相当完整的功能，唯有在需要一些付费项目或团队功能时才需要升级方案。

Forward Email 是 100% 开源的服务商，非常透明且注重隐私和安全性，服务不倚赖任何第三方，也不会对任何用户记录进行储存，最自豪的是它是目前世界上唯一使用抗量子和单独加密 SQLite 的邮箱。

直接前往 Forward Email

DUN.IM BLOG
Google Gemini 免费 AI 对话修图实测！一句话PS、换背景、创作系列图画
9 March 2025 at 13:51

Google Gemini 免费 AI 对话修图实测！一句话PS、换背景、创作系列图画

DUN.IM BLOG

By: Anonymous

9 March 2025 at 13:51

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

你拍下一些照片，却觉得照片的背景不够完美？你是内容创作者，但找不到文章合适的配图？你是电商卖家，想位产品设计更吸引人的配图？你是老师，需要为教材找出一系列搭配的示范图片？以前，我们修图可能需要学 Photoshop，需要花很多时间调整细节，或是要下载各种修图 App，还要在图库中翻找适合自己的图片文件。

但现在，只要一个 AI 指令，就能让我们需要的照片「瞬间改造完成」。

如果你想体验看看类似的工作流程，可以试试看前两天推出的 Google Gemini 免费 AI 修图！只要「一句话」，你就能改变图片，换背景、改风格、添加新元素，甚至创造连续漫画。
〔类似功能，在 Google Pixel 系列手机的 Google 相册中也能部分实现，Adobe、Canva 等的 AI 修图也能实现部分功能。〕

这篇文章，我会实测 Gemini 的 AI 修图能力〔而且免费即可使用〕，看看它怎么帮助我们「一句话变出想要的修图效果」！

我将分成三种应用角度来介绍，这些全部都能在 Gemini 中用自然语言下指令，便可以把照片生成或改造：

基础照片修图：让拍坏的照片变完美

替换背景、增加物品、改变颜色光线、调整风格。

进阶场景创作：为文章制作主题插图、让商品看起来更吸引人

搭配原始照片，制作特殊场景图

搭配原始照片，重新设计房间或产品

连续系列照片生成：根据文章、教材内容，生成一系列互相搭配的图片

模拟图文食谱

说故事的连续漫画、图画

文章中搭配的系列配图

首先，这个功能目前〔2025/3/14〕尚未开放在正式版的 Gemini 中，但可以通过免费账号即可登入的「 Google AI Studio 」来使用。

用 Google 账号注册登入后，进入一个新的对话框，并在右边控制列的「Model」菜单，切换到「Gemini 2.0 flash experimental」，就可以利用其 AI 来创作图片、修改图片，最大的特色是：

这个 Gemini 模型可以上传自己的图片，用「自然语言」下指令，请 AI 在图片上修图或生成新内容。

就如同 experimental 所说的「实验性」，实际测试结果，这个 AI 修图功能确实很神奇，也能够看到一些未来修图、创作图片的新可能性，不过可下载的图片质量等限制，目前还是不足以真正用在商业用途上的。

Google Gemini 免费 AI 对话修图实测！一句话PS、换背景、创作系列图画

在「Gemini 2.0 flash experimental」的对话框中，我们可以先上传一张原始照片，如果想要替换背景，只要简单的说一句这样的指令：「把照片的背景换成草地。」

就可以在 10 几秒的处理后，完成下图的成果。可以看到，Gemini 的「修图」是真的可以保留原始照片中的内容，只修改我要修改的部分。所以是真的 AI 修图，而不是 AI 重新生成图片。

我也可以上传一张风景照片，然后下指令：「把照片的天空改成大晴天。」Gemini 同样可以处理这样的调整。〔在 Google Pixel 手机的 Google 相册中就有类似功能可用〕

如果想要替换照片风格，套用艺术滤镜，也可以用 AI 下指令：「把照片变成中国水墨画风格。」就能轻松转换风格。

不过当然跟真正的艺术滤镜还是有落差，例如下图中我要 AI 把照片改成「彩色的铅笔绘画风格」，看起来还可以，不过专业的艺术滤镜一定会处理得更好。

除了可以用「Gemini 2.0 flash experimental」的 AI 修图外，也可以在原始照片上进行创作。

例如延续上面的图片案例，我对 AI 下指令：「拓展成一幅横幅的中国水墨画。」十几秒后，照片就变成了一幅新的水墨风景画。

或是我的书籍封面，上传后，下指令说到：「我想把原书的图片，摆在一张高雅的书桌上。」结果还真的可以顺利生成新的产品摆拍图。

不过如果细看，书籍封面上有些小字其实是有瑕疵的。

因为 Gemini 是对话的模式，所以在原始照片的改造上，我们可以通过多次讨论，让 AI 在原始照片上陆续添加内容，制作出自己需要的场景图。

例如下面原本只是单纯公园照片，我先请 Gemini：「在这张照片的草地上，加上一对正在野餐的男女朋友。」于是生成了下面的图片。

然后我继续追问：「让两人旁边有一只小狗在奔跑。」

然后再下指令：「旁边的道路上，也有零星的路人在散步。」

最后说「让天空变得更晴朗。」于是我要的最终场景图，就通过 AI 创作完成了。

我还做了一个尝试，先上传一张原始的房间照片〔某家旅馆〕。

然后我陆续对 AI 下了下面这些指令：

结果 AI 生成了下面这样的图片，第一张是原图，第二张是最后生成的图片，改造的图片还是保有原图的空间格局，只是风格焕然一新。

Google Gemini 本来就可以生成图片，但「Gemini 2.0 flash experimental」比较厉害的是可以分析文章内容，生成适合的配图，或是一系列的连续漫画、故事图片。

例如，我对「Gemini 2.0 flash experimental」下了这样的指令：「你是意大利面专家，提供给我一道海鲜意大利面的食谱，请一步一步处理，用文字具体列出关键步骤，并在步骤后搭配图片。」

结果他「一次」就生成了下面的连续图文教程内容，这是在一次的问答后就完成的结果。

我假设自己写了一篇游记，于是请 AI「设计一系列素描画，展现一个人在京都街头散步的故事，请一步一步分析，以京都的场景，搭配素描画风格，设计有意思的散步故事，创作一连图画。」

结果「Gemini 2.0 flash experimental」也在一次的生成中，提供给我下面连续故事图，比较神奇的是这些连续图片中都有类似的人物，保持图片连贯性，虽然风格上有点跳跃。

还可以这样问 AI，我让 Gemini 自己思考如何设计一系列进入书店场景的图片，Gemini 自己写了一大篇分析内容后，才开始设计并产出图片。

但效果看起来还不错。

所以，在功能上，利用现在〔2025/3/15〕在 Google AI Studio 中的「Gemini 2.0 flash experimental」，你可以上传原始照片请 AI 修图、改图。也可以让 AI 读一篇文章、思考一个主题，生成一系列连续图片。

未来这个功能越来越成熟，或许有下面这些应用可能性：

现在，你也可以通过免费账号即可登入的「 Google AI Studio 」来试试看。

DUN.IM BLOG
ChatGPT – Deep Research 功能指南&技巧总结：从「进度条」到「提示词」，一次搞懂！
22 February 2025 at 13:13

ChatGPT – Deep Research 功能指南&技巧总结：从「进度条」到「提示词」，一次搞懂！

DUN.IM BLOG

By: Anonymous

22 February 2025 at 13:13

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

最近有很多朋友在讨论：「Deep Research 的用量是怎么算的？」 又因为目前 Plus 每个月只能用 10 次，大家都非常担心浪费。其实一句话就能总结——只要开始出现「Starting Research」的进度条，就算使用了一次。在进度条出现之前，怎么问都不算。下面就为大家分享一些 Deep Research 的使用流程、注意事项和提示词模板，帮助大家更好地运用这一强大的研究功能。

一句话总结：从开始出现 Deep Research 进度条就算一次，之前都不算。

提出主题
你先要告诉 ChatGPT 需要研究什么主题。

ChatGPT 询问澄清问题
ChatGPT 通常会向你询问一些澄清问题，确保理解你的研究需求。

回答澄清，触发研究
当你回答了上述澄清问题后，ChatGPT 会再回复一条消息，并提示「将开始报告「，随后出现」Starting Research「的进度条。

注意：从这一步开始就会扣除一次 Deep Research 用量。

报告生成
研究进度条走完后，ChatGPT 会给你发送完整的报告，这标志着一次 Deep Research 流程的完成。

进度条出现后，你可以随时离开
进度条开始后，无论你是关闭窗口、刷新网页、切换到其他会话还是新开会话，都不会影响已经开始的 Deep Research 流程，它会在后台继续执行并最终生成报告。

Deep Research 可以后续追问
当报告生成结束后，如果你要继续追加信息重新生成报告，有两种选择：1). 直接提问，会使用你开始会话时选择的模型继续对话，报告内容可以作为上下文；比如说你从 GPT-4o 开始的，那么你在报告生成后，如果继续提问，实际上是 GPT-4o 基于你报告和提问内容回复，但是可能会受限于上下文长度无法完整理解报告内容；2). 重新生成新报告：Deep Research 是一次性生成的，但是你可以继续在当前会话选中「Deep research」按钮，这样可以把当前会话内容作为输入，或者把内容复制出去新开会话选中「Deep research」按钮重新开始一次新的生成。内容复制出去处理一下再生成会更好的对输入进行控制，但是麻烦一些。

你无法追加新的信息让它继续深度研究。如果你在当前会话里继续追问，后续的回答将由其他模型（如 GPT-4o）接管。
如果你对报告不满意，需要重新修改提示词再新开一次会话进行 Deep Research。

灵活切换模型
你可以先选任何模型（如 o1 pro/o1 等），再让它进行 Deep Research。若后续还打算继续追问报告内容，建议在 Deep Research 开始前就选一个更强的模型（比如 o1 pro / o1）来进行分析。

选择信息源和报告语言

建议在提示词中加一句「请选择权威信息源」（并不一定要非英文来源不可，重点是权威信息源，这样可以过滤掉一些不好的信息源，当然你也可以加上「优先英文信息源」）。

如果希望报告是中文，直接在提示词末尾加一句「请形成中文报告「即可。

如果不小心生成了英文报告，又看着费劲，可以在当前会话，让它翻译，也可以复制完整内容，

ChatGPT – Deep Research 功能指南&技巧总结：从「进度条」到「提示词」，一次搞懂！

新建会话，选择 o1 pro 或 o1 模型（最佳翻译效果），翻译提示词参考：

「请将下面的内容用中文重写，尊重原意，保持格式不变无删减：」

引入外部资料的方法

如果报告需要访问收费网页上的内容，你可以手动复制成 Markdown，然后在提示词中用 XML 标签包起来。

如果有图片内容，直接上传即可。

如果要分析视频内容，需要先把视频转成文字，同样用 <transcript> 标签包住，再放进提示词里。

我一般会用 AIStudio 的 Gemini 转成文本。

你可以一次粘贴几千行代码也没问题（用 XML 包起来），但要注意输入框粘贴有上限。如果太多，可以把代码放在公开的 GitHub 仓库，让 Deep Research 去分析链接即可。

写报告或写代码都行
Deep Research 不仅能写报告，还能写代码。只要你提示它「生成的结果是代码」，它就会尝试从网上搜索相关代码库并提供解决方案。

文献质量与报告质量
如果想让它「阅读」一本书并进行提炼，需要注意输入长度有限，无法直接输入一本完整的书。大部分流行书籍已经在模型中有训练数据，所以它会参考网上已有的书评。资料越多、质量越高，报告越漂亮；如果资料很少，它也无米下炊，生成的报告质量可能有限。

一个常见的提示词模板大致可分为背景信息、任务要求、和输出格式三个部分。

在这里填写所有对它生成报告有帮助，但模型本身访问不到的信息，比如：

付费文章

视频文字稿

图片或 PDF（可作为附件）

其他任何对于生成有帮助的内容

当背景信息较多时，务必用 XML 标签包裹，避免 AI 混淆指令。例如：

主题：你希望分析、研究或讨论的具体范围

信息源：希望它检索的文献库、学术论文、政府网站、GitHub 等

研究要点：需要关注的核心点，是深度解析还是简要摘要

语言或风格：是中文、英文或其他语言？

语言：中文报告、英文报告或双语

数据格式：是否需要用表格呈现数据（它暂时画不了图表）

段落和标题：是否需要分级标题、索引等

提示词模板并不是必须的，可以随性一点，你可以把写提示词使用 Deep Research 当成去交代一个实习生帮你写分析报告，你怎么交代实习生就怎么写提示词。

Deep Research 的使用次数：只要出现「Starting Research」进度条，就会扣除一次用量。

保持灵活：不满意就重新开始，新开会话前最好做好提示词规划。

结合大模型优势：如果要深入分析或后续追问，选用更强的模型如 o1 pro / o1 更合适。

慎重选择资料：外部资料要提前整理好，使用 XML 标签嵌入提示。

尊重版权、合理引用：在使用外部资料时，务必保留引用信息，切勿违规。

希望这篇文章能让你更好地理解和使用 Deep Research。在实际使用中，不妨多加尝试和探索，慢慢就能摸索出最适合自己的使用方式。祝大家玩得开心，也能高效地完成研究和写作任务！如有更多问题，欢迎在评论区留言交流。

总结：

如果你想让 Deep Research 提供权威信息源，在提示词中加一句「请选择权威信息源」。

如果要生成中文报告，只要在提示词里加「请形成中文报告」即可。

不小心生成英文报告且看着费劲，使用下面的提示词翻译：
「请将下面的内容用中文重写，尊重原意，保持格式不变无删减：」

欢迎大家在留言区分享你们的使用心得与经验，一起探讨 Deep Research 的更多玩法！

DUN.IM BLOG
笨还是蠢
21 February 2025 at 01:10

笨还是蠢

DUN.IM BLOG

By: Anonymous

21 February 2025 at 01:10

面对错误，面对失败，人们经常会自责：「我真蠢」。通常我不会劝慰，因为我理解，这种自我惩戒能带来一种另类的爽，和挠发痒的伤口一个道理，不让挠就是不人道。但我的确认为这里的中文有一点小问题，「蠢」不是合适的那个字眼，「笨」才是。蠢和笨有很大区别吗？这两个字不是经常连在一起用的么？在我的理解里，蠢和笨是两回事，蠢人和笨人也是两种人。

过几天就要到二十四节气的惊蛰了，据说惊蛰会打雷，把蛰伏在泥土里的小虫子唤醒。虫子在泥土里蠕动，东北方言所谓的「蛄蛹」，就是「蠢」字的来源—意思是笨拙迟缓，看字型就很清楚了，蠢就是春天的虫子嘛。重点在于虫子，虫子这种形态局限了虫子的可能。换句话来说，虫子的问题不在于笨拙迟缓，而是它没有办法认识这个世界，甚至也无法认知自己。当然，虫子肯定不会觉得自己笨拙迟缓，每一刻都蛄蛹得很自信，不信你随手捡起一条感受一下它蛄蛹的气力。

笨在我理解里是思维慢的意思。别人花 5 分钟想明白的事情，笨人可能需要半小时。别人听一次就能理解的东西，笨人也许要反反复复许多次才成。

但是和蠢不同，笨人是有光明未来的，他只是慢，又不是根本不会去想，根本不会去做。无非是聪明人通常早到，笨人会晚点。笨人知道自己是谁，也知道自己在做什么、怎么做，这是和蠢人最大的区别。

而且，笨也不是什么多大的坏事。「笨」字有个竹字头，它最早的字意是竹子的内膜。所谓「竹其表曰笢（mǐn），其里曰笨，谓中之白质者也。其白如纸，可手揭者」，竹子的表皮叫做笢，内里叫做笨，就是其中白色部分，它白得就像是纸，可以用手揭下来。用来形容人的时候，意思是纯洁清白。后来不知道怎么转成了笨重的意思，形容一个人的身量，最后又转成了今天的头脑迟钝不聪明的意思。所以，有人说自己笨，不妨理解为自己因为纯洁清白因而显得有些头脑简单，那是不懂欣赏而已。

所以，当有人自责或评价的时候说蠢，我就要仔细看一下，但通常看下来，人们只是笨而已，也就是思虑的周全，或者事情的完整。不过是个过程中临时的困境，调整一下，重新尝试几次，也许就能做全或者完成，无非是多了一些周折罢了。

笨没有问题的，比别人多废一点时间是多么了不起的事情，最终能抵达就行。而蠢是绝计不能的，笨人起码会承认自己笨，而蠢人对自己的蠢不知不认毫无觉察，这就是问题所在。

了解我的人说我有「厌蠢症」，我会常常反思一下，的确是有这个问题。看到一个人的一句话，看他怎么选择中文词组，看他怎么组织句子，怎么交流沟通，我就可以推断这个人是怎么想的，为什么会那么想。如果我认为对方会在自己的这种想法里怎么都出不来，那我就会瞬间失去耐心，因为那是蠢，蠢因为无自知无自省，所以是无药可救的，继续交流完全是在浪费时间精力。

事实上，当一个人会自责的时候，就只能是笨。因为蠢人不知不认不改，是不需要自责，更不需要反思，自己永远是对的，错的是全世界。如果一个人还能自省，说明并不蠢，还有找到出路的希望。别做「蠢人」，多少为自己的未来保留一点希望，保留一点光明。有这一点点光亮在，可以和任何人事物友好相处，人就可以继续前进，也就依然有可能最终抵达。此外，出于人道主义精神考虑，谁也不希望每天醒来，满眼看到的都是浪潮一样的蛄蛹而来吧？那我还过什么个劲儿呢？

DUN.IM BLOG
话都说不清楚
5 February 2025 at 13:27

话都说不清楚

DUN.IM BLOG

By: Anonymous

5 February 2025 at 13:27

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

最近有很多人假装关心，问我是如何更好的使用 AI 的，那我也就假装解答一下。我认为任何人都应该学习利用 AI，我分享自己利用 AI 工具经验和技巧思考，信息量已经足够多了。但是想要做到，可能还需要自己去探索，去做大量尝试。

很多人希望我直接出个教程，甚至最好是个视频教程，自己好按图索骥，照猫画虎。但我没兴趣，讲述起来太麻烦，我不想自己太累。这样一来，就会有人说我傲慢冷漠，说我小气藏私，说我老登加爹味，诸如此类的酸话。其实我是真的累，心累，很早就把自己的期待降到了最低。比如说如何在国内使用 AI 的话题，我早分享过，甚至还贴出了链接。但是总有人不断来问，所以我说他们是「假装关心」，连提问前先搜索一下都做不到。

对此我能理解，因为我没期待。我不期待每个人都会关心我的分享，我也不期待每个人在提问前会主动搜索信息，我习惯了张嘴就问，所以我相信 AI 更能满足他们的需求。

现在国内也普及了 AI，我又发现了一个更加致命的问题：很多人连话都说不清楚。

对，我说了，你只需要像是和人说话一样吩咐 AI 去做事就好。我观察了几百条和 AI 之间的互动，看完内心充满了同情。

很多人的确是用和人说话方式来和 AI 交流，我仔细看了，他们平常可能就是这样和人说话的，所以看完我极度同情那些不得不和他们对话的人。他们所面对的，是混乱含糊，逻辑不清，而且相当粗鲁无礼的对话内容。

事实上，人类让 AI 去做什么事，这是在下达指令、请求。为了便于大众接受和实用，这里抹去了指令、咒语、提示语、Prompt 一类的术语，而是用大白话说：你像是和一个人说话那样，去吩咐 AI 做事。但它本质上就是个指令请求，这一点不会因为描述方式改变而改变。

那么，无论对面是一个人还是一个 AI，你给出的指令请求应该清晰明了，好让对方明确知道自己应该怎么去做—让我吃惊的是，很多人根本做不到这一点，他们连话都讲不清楚。

我看到，很多人上来张嘴就是：「给我分享」「给我照片」。什么图片？关于什么的分享？具体是要给你建议还是帮助解决需求？谁知道你心里想着的具体是什么？

还有人上来就问：「送什么好」。谁送，送谁，为什么送，双方什么关系，什么地区，什么当地风俗？一概没有。于是，AI 弄了一些关于赠送礼物的片汤话回复。看完马上不高兴了：「我要的是送礼的推荐，东西呢？！」。

人可能真的是生来就有不同。我朋友的女儿，我管她叫小妹，小学生一个。有天发来语音问我 AI 绘画的事情，说是让 AI 画了一张仓鼠的图，很不满意，问我应该怎么弄。我让她把自己给 AI 的指令/请求/咒语/提示语/Prompt 发来让我看看，看完之后，我重新构造了一条发还给她，跟她讲：

AI 要知道画什么，你就得给出一系列明确的指示—什么载体、什么材质、什么风格、什么角度、什么镜头、什么光线，然后角色是什么神态、什么姿势、什么动作、什么状态、什么地点、什么空间、什么氛围，你得清晰地指定了，才不会出现你想要 AI 画一张油画，它给你一张照片或者漫画的悲剧。小妹当场就能理解，高高兴兴蹦蹦跳跳自己去尝试了。

我一点都不担心小妹，多余的一句叮咛都没有。为什么？因为我见过她提出请求，我们一起吃饭的时候，她说：「我能不能要两个冰淇淋球，一个香草的，一个巧克力的」。停顿了一下，又补充说：「我可以和妈妈一起分着吃」。

要求非常清晰非常明确，所有人都能听懂她要什么。甚至她还考虑到对方用吃太多不好作为反对理由，预先把补丁给打上了—不是自己一个人全吃掉。

许多人活几十岁，不如一个孩子。我朋友的一任失败前女友就是如此，一开口所有人都想跳上去打。每次她一开口，就是盯着你娇憨地一句：「要」「想要」「我要」「想吃」。她是说什么，你要什么？为什么要？有什么必要？他妈的宾语呢？要煎饼呢要要要！

把话说清楚，把请求把要求把指令一二三四说清楚，让人能听懂，知道你的意图，可以明确根据你所说的去执行，我真的没有想到这其实是一项极高的要求，有那么多人居然做不到，更别说与人真诚的讨论/交流/商量/沟通。这样说起来，我先前的期待其实还不足够低，人们不单不会主动搜索找寻答案，人们连把话说清楚都有相当困难。

总听人在讨论 AI 替代人类的话题。我现在觉得这种讨论都多余，说什么人类和 AI 竞争呢？很多人连话都说不清楚，无法表达自己的意图，无法表达自己的想法，无法表达自己的情感，这本身在人类社会里就会被交际和工作所排斥，因为不知道他在说什么，想要表达什么，如何与其相处，哪里还需要等到被 AI 替代的一天？现在就是高度可替换的。

我以前说，将来的人们可能写不清楚，只能拍个视频出来。现在我担心视频怕是也不成，因为你都不知道他在视频里颠三倒四、莫名其妙说了些什么，世界上就找不出几个人来能听懂。

Pika – AI 视频神器，一键乱入新场景

DUN.IM BLOG

By: Anonymous

11 February 2025 at 22:47

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

一张图、一句提示词，万物都能乱入你随手拍的视频。

▲动图制作自：X@omerbartal

在整活赛道天赋异禀的 AI 视频神器 Pika，最近又推出了一个好玩的新功能：Pikaddition。

从此以后，人人都是五毛特效师。

如果你有灵感了，现在就可以玩起来，注册 Pika 之后可以免费生成 15 次。

体验指路：https://pika.art/

不过，这个功能默认使用的是最快、最便宜的 Turbo 模型，想要达到理想的效果，往往需要不断调试提示词，抽卡的次数不算少。

Pikaddition 的使用方式很简单，三步走。

虽然操作不难，但想要玩得有创意，推荐以下几种「高阶玩法」。

实拍视频+不日常的图片

怎么邀请 Sam Altman 来指导工作？先用视频记录同事认真工作的样子，然后再在网上找一张 Sam Altman 的半身照，用提示词说明他怎么出现在视频里。

▲提示词：穿着绿色毛衣的男人站在左边，低头观察穿着牛仔夹克的人操作电脑

然后就可以看到，Sam Altman 亲自旁观我们报道 OpenAI，光影很自然，违和感被 AI 吃了。不过，Pika 会造成人脸的微崩，对比原视频，同事的颜值有所下降。

按照这个思路，我们甚至可以上演一出日常版的「神奇生物在哪里」，只需要一个打开封闭空间的视频、一张萌物的图片。比如，打开办公室的柜子发现皮卡丘。

▲ 提示词：皮卡丘一直藏在柜子里，直到门被打开

提示词写得比较宽泛，只说明了皮卡丘的位置，反而给了 Pika 适当发挥的空间，皮卡丘被发现时的表情和动作，都是活灵活现的，仿佛我们打扰它了。

前几天，语言学习软件多邻国整了一出营销活动，称自己的吉祥物猫头鹰多儿「去世」了，死因不明，可能是等我们打卡的时候死的。

试问谁没有被多儿的通知和小组件追杀着背单词过呢？如果它来到现实，是不是更让人心惊胆战？

▲提示词：绿色的小鸟从远处飞向伸出的手

想要实现这个催命的效果，一点也不难，拿起手机随意拍摄一段空镜，在视频里伸出我们的一只手，再随便找一张多儿的图片。

提示词仍然很简单，只是描写了多儿的动作，哪怕是平面的、2D 的多儿，Pika 也能加工成立体的、3D 的，和短视频更加适配。但出现了个 Bug：手指数量不对了。

还有一种进阶的实拍视频玩法，比较考验演技，需要先进行「无实物表演」。

▲被老虎扑倒，动图制作自：X@omerbartal

我们尝试过人物在视频里保持不动，只用提示词描述人物动作的改变，但是没有起效，所以还是需要进行一个提前的摆拍，考验大家戏精本质的时候到了。

▲提示词：身穿牛仔夹克的男子被一只水豚撞倒

影视名场面+打破次元壁的图片

把原本不相关的人或物（包括你本人）放进影视名场面里，只是分分钟的事情。

《蝙蝠侠：黑暗骑士》里的小丑炸医院，是经典中的经典，我们截取几秒的片段，然后上传一张马斯克的半身照，让他走在小丑的旁边。

▲提示词：穿着西装的男人正走在穿着护士服的男人的左边，并与他进行交谈

两人淡定离开犯罪现场的味道有了，美中不足的是，马斯克和小丑的脸都有点扭曲。

Pika – AI 视频神器，一键乱入新场景

写实的电影之外，二次元的动画风格也不妨一试。名侦探柯南《神秘乘客》这集的公交车，基本集齐了最强阵容，如果挑选一张夜神月的侧脸图片，那么卡密也能来客串。

▲ 提示词：黄头发、穿白衬衫的男人坐在中间的座位上

但还是那个问题，人物的变形比较明显，并且画风不是非常相融。

表情包出处视频+表情包图片

二创表情包，是每个 AI 视频工具都得整的花活。

▲提示词：狗躺在猫的右边，猫看了狗一眼

当惊讶猫的视频和全世界最著名的柴犬表情包联动，二脸懵逼固然有趣，但一猫一狗仿佛不在一个图层，柴犬像用迪士尼滤镜美颜过。

当我第一眼看到宇树科技机器人的蛇年春晚节目《秧 BOT》，就觉得在英伟达年会穿着东北大花袄的黄仁勋应该加入，好在 Pika 可以满足这个朴素的愿望。

▲ 提示词：白发男子正在机器人旁边跳舞

还真别说，这甩红手绢的动作，这一板一眼的步伐，挺有默契的。

Pika 的特效称不上专业级，但作为一个创作短视频的玩具，倒也绰绰有余。

AI 视频百花齐放，各有各的特长，可灵综合能力强，海螺擅长风格化，PixVerse 速度快，和同行们比起来，Pika 可以说是最会整活和把创意模板化的一个了。

▲动图制作自：X@pika_labs

2 月 14 日情人节当天，Pika 又推出了一个新玩法——Pikamemes，目前可以在 iOS app 体验。

体验指路：https://pika.art/app-download

上传一张干净的人物自拍照或者一张宠物的大头照，不用写提示词，一键使用模板，Pikamemes 就可以生成表达各种心情的表情包，并且支持直接下载 gif 动图。

让马斯克送上玫瑰花，或者赏个白眼，都在一念之间。

再往前推，Pika 的多主体参考功能 Pikascenes，支持上传多张参考图片，并保持主体的一致性。集齐人物、商品、场景的照片，就能实现一键试衣了。

▲图片来自：X@martgent

Pika 的 AI 特效功能 Pikaffect，更是一度全网爆火，特别是其中的 AI 捏捏，刷屏小红书和 TikTok，推动 Pika 用户突破 1100 万。

▲图片来自：Pika

Pika 在模型能力之上卷玩法，切中了一群对整活短视频有高需求的用户，让人人都能低门槛地玩得开心。哪怕这些视频是模板化的，稍纵即逝的，但只要有趣，人们就会蜂拥而至。

同时，Pika 也告诉我们，写不好提示词、脑洞不够大、不知道怎么实现主体的一致性，都没关系，等等吧，很快就有包装好的 AI 特效和模板了。

当 AI 工具承载了更低的下限，那就意味着，只要有想法，每个人都可以将微观的创作欲望落地为现实。保持好奇，保持期待，一瞬间的起心动念，就足以让好玩的事情降临。

Apple ID 账号购买的项目转移指南和注意事项

DUN.IM BLOG

By: Anonymous

10 February 2025 at 15:19

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

苹果在 2025 年 2 月 11 日推出了一项新功能：将购买项目从一个 Apple 账户迁移到另一个 Apple 账户。

不支持于欧盟、英国或印度的用户。

从 Apple 购买的 App、音乐和其他内容迁移到首选 Apple 账户。

苹果并没有解释其他内容具体是什么。

如果你不符合条件，则可能看不到「迁移购买项目」。

看起来，这项功能更适合在同一区域拥有多个账号的用户，它为用户提供了一个手动合并多个账号的功能，并把你买过的内容转移至主力账号的方式。

之后备用账号就可以抛弃不用了。

DUN.IM BLOG
AI 推理模型和普通 LLM 大语言模型的分别与使用，提升效率与准确性，复杂任务高效完成
8 February 2025 at 14:17

AI 推理模型和普通 LLM 大语言模型的分别与使用，提升效率与准确性，复杂任务高效完成

DUN.IM BLOG

By: Anonymous

8 February 2025 at 14:17

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

了解何时使用推理模型，以及它们与 GPT 模型有何不同。

OpenAI 目前提供两大类模型：

这两种模型家族在使用和效果上都有所不同。本文将介绍：

与 GPT 模型相比，OpenAI 的 o 系列模型（推理模型）在不同类型的任务上更出色，需要使用不同的提示方式。并非哪一种模型一定「更好」，而是各有擅长的领域。

你可以根据需求，思考下列问题：

如果你的任务优先考虑速度与成本，并且任务本身相对明确、好定义，那么使用 GPT 模型就非常合适。
但如果你更注重准确度和可靠性，而且问题本身很复杂、有多个步骤，那么 O pen AI 建议选择 o 系列模型。

大多数情况下，你也可以把这两种模型结合起来使用：用 o 系列模型进行「智能规划和决策」，再让 GPT 模型去执行具体步骤。

AI 推理模型和普通 LLM 大语言模型的分别与使用，提升效率与准确性，复杂任务高效完成

示例：GPT-4o 和 GPT-4o mini 先处理订单信息与客户资料，找出订单问题和退货政策，然后将这些信息提供给 o3-mini，由它根据政策最终决定退货是否可行。

下面列出了一些实际场景，这些案例来自 OpenAI 的客户和 OpenAI 内部，希望能帮助大家更好地理解 o 系列模型（推理模型）适合用在哪些地方。不过，这并不是一个覆盖所有可能用例的完整清单，而是给出一些在测试中行之有效的思路。

准备好使用推理模型了吗？点击这里直达快速入门 →

推理模型特别擅长接收零散、有限的信息，然后根据简单提示去理解用户意图，并处理那些不够明确的指令。它们经常会先问一些澄清性的问题，而不是盲目猜测或随意填补空白。

「o1 的推理能力让 OpenAI 的多智能体平台 Matrix 在处理复杂文档时，能给出详尽且格式良好的回复。举个例子，o1 让 Matrix 可以轻松找出信用协议（Credit Agreement）中受限支付能力（restricted payments capacity）下可以使用的各种『篮子』（baskets），而只需要一个简单提示。过去没有任何模型能这么出色。相比于其他模型，在对密集的信用协议进行复杂提问时，o1 在 52% 的问题上有更好的表现。」

——Hebbia，为法律和金融提供 AI 知识平台

当你需要处理大量无结构信息时，推理模型能很有效地提炼出最相关的部分来回答问题。

「在分析某公司收购案时，o1 审阅了几十份公司文件，比如合同、租约等，去寻找可能影响交易的关键条件。它需要标记重要条款时，甚至在文件脚注中看到了一个非常关键的『变更控制』（change of control）条款：如果公司被出售，那需要立刻偿还 7500 万美元的贷款。o1 的极致细致能力帮助 OpenAI 的 AI 探索工具为金融专业人士找出交易中至关重要的信息。」

——Endex，AI 驱动的金融情报平台

OpenAI 发现，推理模型在处理数百页的复杂文件时（比如法律合同、财务报表或保险索赔等），能很好地分析文件内在逻辑并做出决策。它们擅长挖掘文档之间的对照关系，并据此推断其中暗含的规则。

「在税务研究里，需要同时对多份文件进行综合分析才能得出最终、连贯的结论。OpenAI 把 GPT-4o 换成 o1 后发现，o1 更善于整合多份文件之间的关系并推导出各自交叉影响，让最终的结论比单一文档中能看到的内容更有深度。OpenAI 因此看到终端到终端（end-to-end）性能提升了 4 倍，真的很令人惊讶。」

——Blue J，为税务研究提供 AI 平台

此外，推理模型也很擅长根据各种复杂政策和规则进行推理，并把这些规则应用到实际任务中，得出合理的结论。

「在做金融分析时，分析师常常要面对股东权益方面的复杂情境，还要理解相关法律的细微差别。OpenAI 曾用一个常见但比较棘手的问题来测试了市面上约 10 个模型：如果公司进行融资，对现有股东尤其行使『反摊薄保护』（anti-dilution）的那些股东会有什么影响？这个问题需要推理融资前后估值，还要处理环环相扣的『循环摊薄』，就算优秀的金融分析师也要花 20~30 分钟才能搞清楚。OpenAI 发现 o1 和 o3-mini 在这方面做得近乎完美！模型甚至能给出一张清晰的计算表格，展现对一个投资了 10 万美元的股东有何影响。」

——BlueFlame AI，为投资管理提供 AI 平台

推理模型在做多步骤的「自主」规划和战略制定方面发挥着关键作用。OpenAI 常看到的成功做法是先让推理模型扮演「策划者」，制定详细的多步骤解决方案，再根据每个步骤对「速度/智能」需求的不同，有选择地交给 GPT 模型或 o 系列模型去执行。

「OpenAI 用 o1 来做多智能体系统（agent infrastructure）中的规划者，让它负责指挥其他模型完成多步骤的任务。OpenAI 发现，o1 非常擅长选择要用什么数据类型，也很擅长把大问题拆解成小块，让其他模型聚焦执行。」

——Argon AI，服务于制药行业的 AI 知识平台

「o1 为 OpenAI Lindy 的许多『代理式工作流』提供支持。Lindy 是一个工作助理 AI，能通过函数调用（function calling）去获取你的日历和邮件信息，然后自动帮你安排会议、发邮件、管理日常事务。OpenAI 把一些原本运行不稳定的多步骤流程全部切到 o1 上，结果代理的表现几乎是一夜之间就变得近乎完美！」

——Lindy.AI，一个专注于工作场景的 AI 助手

截至目前，o1 是唯一支持图像理解的推理模型。它与 GPT-4o 的最大区别在于：o1 能处理特别复杂的视觉信息，比如结构不明确的图表或清晰度不佳的照片。

「OpenAI 为线上上架的数百万产品提供风险和合规审核，比如奢侈品仿制、濒危物种、管制品等。GPT-4o 在最难的图像分类任务中只能达到 50% 的准确率，而 o1 能做到 88%，OpenAI 甚至没有对流程做任何修改。」

——Safetykit，负责商家监控的 AI 平台

OpenAI 内部测试也发现：o1 能从复杂的建筑图纸中看出具体的材料和结构信息，进而生成更完整的材料清单。更惊喜的是，o1 还能跨页面匹配，比如先在图纸中的图例（legend）看到「PT」代表「压力处理木材」（pressure treated），然后在图纸的其他页面上正确应用这一概念，尽管并没有明确地告诉它需要这么做。

推理模型在代码审查和改进时也表现出色，往往可以在后台执行代码审阅任务，因为此类需求对延迟的容忍度更高。

「OpenAI 在 GitHub、GitLab 等平台上提供自动化的 AI 代码审阅服务。虽然代码审查过程对延迟不是特别敏感，但却需要理解多文件之间的代码差异。在这方面，o1 表现非常好，它能可靠地识别出对代码库做出的微小改动，而人类审阅者可能会漏掉。切换到 o 系列模型后，OpenAI 的产品转化率提升了 3 倍之多。」

——CodeRabbit，AI 代码审阅初创公司

GPT-4o 和 GPT-4o mini 因为延迟更低，也许更适合写代码，但对于那些不太敏感于执行速度的代码生成需求，o3-mini 有时也能带来更好的复杂性处理。

「o3-mini 写出的代码质量通常很高，而且往往能在明确的问题中得到正确解答，哪怕是非常具有挑战性的编码任务。其他模型也许只能应付小规模、快速的代码迭代，而 o3-mini 在构思、规划和实现复杂软件系统时表现更突出。」

——Codeium，提供 AI 驱动代码插件的初创公司

推理模型还经常被用于对其他模型的输出结果做评测和打分，特别是在需要数据验证的领域里（如医疗保健），保证数据集的质量和可靠性。传统的验证方法通常依赖预先定义的规则和模式，而像 o1 和 o3-mini 这样的高级模型，可以通过理解上下文和推理，对数据做更灵活智能的验证。

「不少客户在 Braintrust 的评测流程中使用了『模型做法官』的功能，比如某个医疗企业先用 GPT-4o 对患者问题进行概要提炼，再用 o1 来给这个概要的质量打分。结果发现，用 GPT-4o 做法官的 F1 分值只有 0.12，而用 o1 做法官，F1 分值达到了 0.74！对这些用户来说，o1 的推理能力在发现微妙差异和复杂场景的评分上表现极好。」

——Braintrust，AI 评估平台

这些模型最适合简洁、直接的提示。一些提示技巧（比如让模型「逐步思考」）不一定能提升性能，有时反而会降低效果。以下是一些提示技巧的最佳实践。

以上就是有关「推理模型」与 GPT 模型的区别、使用场景，以及给推理模型下指令时的一些最佳实践。希望这些指南能帮助你更好地发挥 o 系列和 GPT 系列模型在不同任务中的优势，实现更高效、更准确的 AI 解决方案。