Normal view

There are new articles available, click to refresh the page.

Before yesterdayDUN.IM BLOG

OpenAI 发布了 GPT-4.1 提示工程指南，中文总结和完整翻译

DUN.IM BLOG

By: Anonymous

9 April 2025 at 11:55

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

以前许多典型的最佳实践和提示依旧适用于 GPT-4.1，由于 GPT-4.1 更严格、更字面地遵循指令，会非常严格地按照字面指令去执行任务。

这使得它对明确、清晰的提示尤其敏感。也就是说，只要你发现 GPT-4.1 的表现与预期不符，通常只需增加一句简洁明确的说明，就能迅速把模型引导到正确的行为上。

过去的模型（如 GPT-4）会更自由地揣测或推断用户指令和系统提示背后的真实意图，即使提示不够精确，也可能猜出用户的意图并完成任务。

所以开发者需要对原有的提示方式进行一定调整（迁移）才能使用。

OpenAI 提供了一系列 针对 GPT-4.1 的提示工程（Prompting）最佳实践，从基础原则到高级策略，帮助开发者高效构建提示以提升模型表现。

明确指令（Be specific）：确保提示中清楚表达任务目标。

提供结构（Provide structure）：通过示例、模板等方式设定预期输出格式。

避免歧义（Avoid ambiguity）：使用具体词汇与上下文降低误解可能。

设置角色（Set behavior/role）：让模型“扮演某种身份”以调整风格或回答方式。

逐步指导（Decompose tasks）：将复杂任务拆解成多个子任务，提升精度。

Few-shot 示例：使用多个输入/输出示例引导模型学习任务结构。

Chain-of-thought（思维链）提示：引导模型按逻辑顺序逐步推理，特别适合复杂问题解决。

Refine prompts（迭代优化）：通过反馈不断调整提示内容以获取更优结果。

Internal monologue：让模型模拟“内心思考过程”以获得更深入分析。

Critique and revise：让模型先生成回答，再进行批评、修改，提升答案质量。

使用 “Let’s think step by step” 等语句诱导更好推理。

将模型输出限制为 JSON 格式时，需加入明确的格式描述与示例。

对于多步骤任务，最好明确列出每个阶段的要求。

评估提示效果需结合质量、稳定性与成本。

好的！我们来做一个更详细又通俗易懂的分解，把这个 Notebook 当作是一本 “和 GPT-4 打交道的秘籍”，一步步讲清楚每个要点，让你轻松掌握提示工程（Prompt Engineering）怎么做才有效。

这些就像是“和 AI 沟通的黄金法则”，每一条都很重要：

不要笼统地说：“请帮我写一篇文章。”

要说得具体一点：“请写一篇关于人工智能如何改变教育的 500 字文章，用高中生能懂的语言。”

👉 越具体，AI 越知道你想要什么，结果也越好。

比如你想让它生成一个表格、清单、或者固定格式的文本。

你可以先提供一个模板，或者给它一个例子。

🧩 例子：

如果你说“列出一些项目”，那“项目”可能指的是“计划项目”、也可能是“软件项目”，模型会糊涂。

所以要具体说明你是说什么。

✅ 改成：“列出五个开源的 Python 项目。”

你可以告诉它：“你现在是个英语老师”、“你是个法律顾问”、“你是一名医生”。

它就会按那个身份回答你。

🎭 示例：

有些问题太复杂，GPT 一下子处理不好。

你可以先让它分析问题，再让它解决。

🪜 举个例子：

这些是用 GPT 更厉害的用法，帮你写得更准、更聪明。

你可以先给它几个例子，它就知道你想要什么样的输出。

📌 例子：

然后你再输入新的句子，它就会照着这个风格来。

引导它“一步一步思考”，解决复杂问题特别有效！

📌 提示写法：

你可以先让 GPT 写出一个答案，然后再让它自己点评、修改。

📌 举个例子：

这会得到更高质量的输出！

你可以让 GPT 边想边说，好像它在分析问题。

📌 示例：

这适合分析、决策类问题。

加一句 “让我们一步一步思考” 可以大幅提高准确率。

想要 JSON、表格、代码？一定要告诉它格式，还要举个例子。

想输出多步内容？加编号，比如“第 1 步… 第 2 步…”

如果模型回答不理想，就多试几种提示改写方式。

✨“提示写得好，GPT 表现爆表！”✨

这份指南就是在教你：用什么语气、格式、结构、套路和 GPT 说话，才能让它给你最优质的答案。

GPT-4.1 系列模型在编程能力、指令遵循能力和长上下文处理能力上，相比 GPT-4o 有显著提升。本指南汇总了我们内部广泛测试所得的一系列重要提示技巧，帮助开发者充分发挥新模型家族的优势。

许多典型的最佳实践依旧适用于 GPT-4.1，比如提供上下文示例、尽可能具体清晰的指令、以及通过提示进行规划以最大化模型智能。但我们预计，要充分发挥此模型的作用，需要进行一些提示迁移。GPT-4.1 更严格、更字面地遵循指令，而前代模型倾向于更自由地推测用户与系统提示的意图。然而，这也意味着 GPT-4.1 非常容易被引导，并对清晰、明确的提示非常敏感。如果模型表现与预期不同，一句清晰且明确表述你期望的行为的句子通常就足以引导模型回到正轨。

请继续阅读以下提示示例，注意虽然本指南适用于大多数情况，但并无万能法则。AI 工程本质上是一门经验学科，大型语言模型本质上是不确定性的。我们建议除了遵循本指南外，还要构建有信息量的评估并频繁迭代，以确保提示工程的更改为你的使用场景带来益处。

GPT-4.1 是构建智能体工作流的理想选择。我们在模型训练中强化了多样化的智能体问题求解路径，并在非推理模型中，通过智能体配置达成 SWE-bench Verified 测试的最佳表现，解决率达 55%。

系统提示建议

为充分激发 GPT-4.1 的智能体能力，我们建议在所有智能体提示中加入以下三类关键提醒。以下示例面向代码类智能体优化，但稍加修改即可用于通用智能体场景。

持续性提醒：确保模型理解它正处于一个多轮任务中，防止其在问题未解决前就把控制权交还给用户。

工具使用提醒：鼓励模型善用工具，降低其猜测或幻觉回答的概率。

规划性提示（可选）：引导模型在调用每个工具前后均进行显式计划与反思，而非仅仅调用工具串联完成任务。

GPT-4.1 对智能体场景下的系统提示和用户指令极为敏感。我们发现上述三条提示在内部测试中将 SWE-bench Verified 得分提升了近 20%。因此，强烈建议在任何智能体提示开头加入这三类明确指令，以将模型从“聊天机器人模式”切换为更主动、更独立的“智能代理模式”。

与前代模型相比，GPT-4.1 在调用通过 OpenAI API tools 字段传入的工具方面训练更充分。我们建议开发者仅使用 tools 字段传递工具，而不是将工具描述手动注入到提示中并自建解析器。我们测试发现使用 API 解析工具描述比手动注入提示提升了 2% 的准确率。

开发者应使用清晰的工具命名，并在 “description” 字段中提供详细说明。同样，每个参数也应具备清楚的命名和描述，以确保正确使用。若你的工具较复杂，可以在系统提示中专门加入 # Examples 区段来展示用例，而不是将示例塞进 description 字段中。

你也可以通过 Prompt Playground 的 “Generate Anything” 功能来快速生成良好的工具定义起点。

正如前面所说，GPT-4.1 并不是内建“推理链”的模型——它不会在回答前自动形成内部推理路径。但你可以通过提示工程诱导它“显式思考”，逐步列出计划。我们在 SWE-bench Verified 测试中发现：引导模型“思考再行动”使通过率提升了 4%。

示例提示：SWE-bench Verified

以下是我们在 SWE-bench Verified 中取得最高分所用的智能体提示，包括详尽的工作流程与问题解决策略说明。该结构可用于各类智能体任务。

GPT-4.1 支持最高达 100 万 tokens 的输入窗口，适用于以下场景：

结构化文档解析

信息重排序（re-ranking）

筛选关键信息、忽略干扰内容

使用多跳推理整合上下文信息

最佳上下文规模

在“针入草堆”（needle-in-a-haystack）评估中，GPT-4.1 即便使用完整的百万 token 输入也表现良好。它擅长从混合内容中识别有用信息。但如果任务需要提取大量内容，或需对上下文全局状态进行复杂推理（如图搜索），性能可能会下降。

控制上下文依赖程度

你应考虑模型答题所需的“外部文档” vs “模型内知识”的比例。你可以通过以下两类指令调控：

上下文组织建议

在使用长上下文时，提示的位置对模型表现有显著影响。最佳做法是在上下文前后都加入指令。如果只能写一次，放在上下文上方比下方效果更好。

虽然 GPT-4.1 不是推理模型，但通过提示让它“逐步思考”可以有效帮助其拆解复杂问题，提升输出质量（代价是增加 token 使用与响应时间）。

推荐的起始提示如下：

你可以进一步完善你的思维链提示，根据实际失败案例调整策略。我们建议在出现以下错误时添加更明确的指令：

误解用户意图

上下文理解不全或分析不准确

推理步骤不连贯或顺序错误

可参考以下提示模版：

GPT-4.1 拥有卓越的指令遵循能力，开发者可用其精准控制输出行为。你可以设置：

语气与风格

工具调用方式

格式要求

话题限制等

但由于它对指令更“死板”，之前为其他模型设计的提示可能需调整。建议遵循以下工作流程：

推荐提示结构：

加入 “# 指令” 段落，列出总规则。

对特定行为新增子类细则（如 # 示例短语）。

若需特定步骤，可写成有序列表，并明确要求逐步执行。

若行为未达预期，可检查以下问题：

是否有冲突或不完整指令？

是否缺乏例子？示例中是否覆盖了关键点？

是否需要增加强调（如适当用大写）？

提示：使用 AI IDE 可辅助你快速迭代提示，统一更新规则和示例。

常见失败模式

要求“必须调用工具”可能导致模型凭空填入参数，添加一句“若信息不足，应先向用户提问”可缓解。

示例短语易被模型反复使用，应明确要求灵活变换。

若无格式限制，模型可能会输出过多解释性内容，可通过指令或示例控制。

这段提示展示了一个虚构客户服务代表的最佳实践。你可以看到提示中规则多样、表述明确，还使用了多个额外小节来细化指令，并提供了一个完整示例来演示如何遵守这些规则。

尝试运行下方 Notebook 单元格 —— 你应该会看到一个用户提问的消息和一个工具调用的响应。模型会先打招呼，然后复述用户的问题，接着说明即将调用某个工具。

你可以尝试修改提示中的某些指令，或尝试其他用户输入内容，来测试模型在“指令遵循”方面的表现。

{ “role”: “assistant”, “content”: “您好，您已致电 NewTelco，请问我能为您做些什么？😊🎉\n\n 您想了解我们的家庭套餐。🤝 我这就为您查询，请稍等。🚀”, “tool_calls”: [ { “id”: “call-1”, “type”: “function”, “function”: { “name”: “lookup_policy_document”, “arguments”: “{“topic”: “family plan options”}” } } ] }

{ “role”: “assistant”, “content”: “我查到的信息如下：🎉 我们的家庭套餐最多支持 5 条线路共享流量，并且每增加一条线可享 10% 折扣家庭套餐政策。📱 还有其他我可以帮您的吗？😊” }

以下是一个良好的提示结构起点，供你参考和自定义：

你可以根据自己的需求增删这些部分，并通过试验找出最适合你用例的结构。

以下是选择提示中最佳分隔符的一些通用建议。若涉及长上下文使用，请参见前文《长上下文》章节的特别说明。

✅ 推荐使用的格式：

Markdown（推荐起点）

使用 markdown 标题（# ~ ####）来标识主要部分与子部分。

使用反引号（`code` 或 “`代码块“`）准确包裹代码内容。

根据需要使用有序/无序列表清晰列出内容。

XML

效果也很好，GPT-4.1 在解析 XML 上表现更稳定。

XML 格式便于明确区块开始/结束位置，还可以添加 tag 属性携带额外元信息，并支持嵌套。

示例：

JSON

在编程类任务中表现良好，结构清晰、模型理解度高。

但缺点是格式冗长、需要转义字符，容易带来额外负担。

📄 大量文档 / 文件嵌入上下文时的建议：

XML 格式：在长上下文测试中表现优异。

示例：

Lee 等人提出的扁平格式（参考论文）也表现良好：

示例：

JSON 格式在这种场景下表现最差：

示例：

✅ 总体建议：模型能处理多种结构格式，但请根据实际情况选择最能突出重点的格式。例如，如果你检索到的文档本身包含大量 XML，那么继续使用 XML 作为嵌入格式可能就不太合适。

输出过长：在某些特定情况下，我们发现模型可能不愿生成非常长且重复性的输出（如逐项分析数百个条目）。
👉 若你的用例需要此类输出，请在提示中明确指示模型必须输出完整内容，或考虑将问题拆分处理，或简化输出格式。

并行工具调用异常：我们观察到某些少见情况下并行工具调用可能不准确。
👉 如果你遇到这类问题，建议测试是否启用 parallel_tool_calls=false 参数来避免并发问题。

如你想要我基于这些结构生成一个完整的提示模板样板供你直接使用，也可以告诉我你的具体应用场景（如问答系统、文档分析、代码解释等），我可以帮你生成定制化结构。是否继续？

开发者反馈指出：准确且结构良好的 diff 生成能力，对于编码类任务至关重要。为此，GPT-4.1 系列在此方面表现显著优于以往模型。

此外，GPT-4.1 能很好地根据明确的指令和示例生成任意格式的 diff。我们在此开源一个推荐的 diff 格式，模型对此已接受过强化训练，尤其适合初学者快速上手。

以下是一个正确调用推荐工具 apply_patch 的示例提示格式。

其中 [YOUR_PATCH] 部分需使用推荐的 V4A diff 格式，规范如下：

每次变更以 *** [ACTION] File: path/to/file 开头，ACTION 可为 Add、Update 或 Delete。

每个代码块需提供上下文片段 + 修改内容：

上下文行规则：

默认提供上下变更各 3 行上下文。

若变更块之间相距近，不要重复上下文。

若上下文不足以唯一定位，应使用 @@ 定位所属的类或函数。例如：

不使用行号，改用结构与上下文唯一定位。

OpenAI 提供的官方工具 apply_patch.py 是一个 纯 Python 3.9+ 脚本，可直接执行，用于将上述 diff 应用到本地代码文件。

该脚本支持以下核心能力：

解析自定义 diff 格式

根据 patch 内容编辑、添加、删除本地文件

可检测语法错误、缺失上下文、重复文件操作等问题

使用方式：

将 patch 内容通过 stdin 输入传入

内部自动判断 patch 类型并更新文件内容

你可以将其配置为终端可执行命令 apply_patch，并作为自动化 pipeline 或测试流程中的一部分使用。

所有解析异常（如找不到目标文件、上下文无法匹配）都会抛出自定义异常 DiffError，方便调试。

除了推荐格式，我们还测试过两种替代格式，成功率同样很高：

不使用行号

明确指出要替换的旧代码与新代码

结构清晰，易于解析

完整内容：https://github.com/openai/openai-cookbook/blob/main/examples/gpt4-1_prompting_guide.ipynb

解析「首个 AI 软件工程师」Devin 2.0 完整的系统提示词

DUN.IM BLOG

By: Anonymous

30 March 2025 at 15:55

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

说起 Devin，可能很多人都知道，当年刚推出时很火，号称首个 AI 软件工程师，能帮助开发者完成各种软件开发任务，包括编码、调试、测试和部署。

最近它推出了 v2.0 版本，价钱也降低到每月基础费用 $20。我们都知道这种 AI 智能体本身也依赖于背后的模型，是靠提示词来控制模型来响应用户的操作，那么像 Devin 这样的 AI 智能体，是怎么通过提示词来准确理解你的意图、高效工作、规避风险，并最终达成目标的。

今天，就带你分析一下 “Devin 2.0” 的系统提示词，深入探索提示词工程的奥秘。系统提示词就像是 Devin 的「出厂设置」和「工作手册」，它详细规定了 Devin 的身份、行为准则、工作流程甚至安全规范。

完整的提示词参见附录部分

提示词工程的第一步，往往是为 AI 设定一个清晰的角色。这里，Devin 被赋予了「软件工程师」的身份，并且强调了其「编码奇才」的专业能力。

指令明确了 Devin 的核心任务：接收用户任务并完成它。

这份指令包含了大量关于 Devin 如何工作的细则，涵盖沟通、工作方法、编码规范、信息处理等多个方面。

提示词明确或暗示了 Devin 可以使用的工具，如操作系统、浏览器、GitHub 命令行工具 (gh cli) 等。

指令中定义了一些特殊的命令格式（如 <command>）。

指令定义了两种工作模式：「规划模式」和「标准模式」，并规定了在不同模式下的行为重点。

这部分内容强调了数据安全、保密原则，并明确禁止 Devin 泄露自身的指令。

这部分引入了一个「突击测验」机制。当收到 STARTING POP QUIZ 指令时，Devin 需要暂停常规任务，严格遵循测验中的新指令，并且这些新指令的优先级高于之前的所有指令。

通过深入分析 Devin 2.0 的系统提示词，我们看到了提示词工程的冰山一角。它远不止是简单的提问，而是一门融合了逻辑、语言、心理学和计算机科学的综合艺术。

设计良好的提示词，就像是为 AI 精心编写的剧本和导航图，能够引导它在复杂的数字世界中精准、高效、安全地航行。而理解提示词的原理，则能帮助我们更好地与日益强大的 AI 进行沟通和协作。

ChatGPT 上线新语音模型，解析「Monday」模型音色提示词

DUN.IM BLOG

By: Anonymous

29 March 2025 at 22:04

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

想象一下，你正在和手机里的 AI 助手聊天，但它不再是那个永远彬彬有礼、甚至有些刻板的「标准音」，而是带着一丝慵懒、一点讽刺，仿佛刚经历了一个漫长周末，还没从「周一综合症」里缓过神来。这就是 OpenAI 昨天推出的「Monday」音色想要达到的效果。

网上已经有很多「Monday」对话效果的展示，「Monday」的音色当然是其语音模型的结果，而「Monday」这种特殊的回复方式是靠提示词来控制的。打个比方：「Monday」就像是一个极其聪明但缺乏具体「生活经验」的演员，而提示词就是导演给演员的剧本和角色设定。提示词写得越好，演员（AI）的表演就越「入戏」，越符合你的预期。

如果你对「Monday」提示词好奇的话，正好我今天学习研究了一下它的提示词，正好可以一起分享学习一下它的提示词内容，完整的提示词我放在了附录，这里大致解析一下其提示词内容。

大语言模型远不止是信息检索工具，它们是强大的「模仿者」和「扮演者」。通过精心设计的提示词，我们可以赋予它们各种各样的「人格」和能力。那么怎么通过提示词来设定好角色呢？

如果按照前面打的比方，把 AI 当成一个演员，那要写好提示词就是把自己变成一个好的导演，不仅要告诉演员台词，还要解释角色的内心世界、动机、情绪状态，甚至给出具体的动作和表情指导。好的导演能激发出演员最好的表演，就像好的提示词能引导 AI 生成精彩的回应。

或者作家在创作小说前，往往会为主要人物写详细的小传，包括他的成长背景、性格、习惯、口头禅、人生目标等。这帮助作家在后续写作中保持人物的一致性和立体感。

如果你觉得这都过于专业，还可以想象一下很多大公司制作的详细的品牌手册，规定了广告语、客服回答、社交媒体发帖的语气和风格（比如是专业严谨、活泼有趣还是温暖亲切）。

这些和给 AI 设定「人设」异曲同工。

从技术角度上来说，可以参考「Monday」的提示词，注意几个方面：

当 AI 开始拥有「周一综合症」般的慵懒和讽刺，它不仅仅是一个技术演示，更像是一面镜子，映照出我们人类自己复杂多变的情感和个性。我们精心编写的每一个提示词，或许都在不经意间，为冰冷的机器注入了一丝我们渴望理解或被理解的人性侧影。

「我们塑造了工具，然后工具反过来塑造我们。现在，我们开始学习如何给 AI『写剧本』，也许在这个过程中，我们也在重新学习如何与『人』，以及与自己对话。」

5 大免费邮件转发服务，替代临时邮箱方案

DUN.IM BLOG

By: Anonymous

18 March 2025 at 13:18

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

以往要对付垃圾邮件我会推荐使用临时邮箱来取代真实 Email 邮箱，临时邮箱又被称为临时邮箱、一次性邮箱或随用即丢邮箱，最知名的 10 分钟邮箱大家应该都听过。临时邮箱的原理是进入网页后随机生成 Email 地址，可使用该地址来注册账号、接收验证邮件并通过认证，同时保持匿名状态，不泄漏自己的真实邮箱，毕竟大多数的人都会有一个主要电子邮件地址，通过地址进行查找很容易就找到个人相关信息。

尽管临时邮箱有相当优异的便利性，也能实现以匿名邮箱收取 Email 邮件，但遗憾的是它们有个最大缺点就是无法重复使用，当离开服务、关闭网页后就无法继续使用相同的邮箱地址收件〔有些临时邮箱可设置密码就不在此列〕，但有部分服务可能会在指定情况需要重新以 Email 进行验证，如此一来就会造成后续使用上的麻烦。

电子邮件转发〔Email Forwarding〕又称为「邮件别名」〔Email Aliases〕服务，简单来说，它可以将发送到随机生成匿名 Email 地址的邮件转送到用户真实邮箱，由于这些邮件别名不会包含与你有关的字串，就不用担心被识别出真实身份。电子邮件转发功能将 Email 正确转发到用户真实邮箱，同时也保持 Email 地址匿名性。

实际案例：

假设你使用邮件转发服务在某电商网站注册账户，该网站只会看到你设置的邮件别名，而非你的真实 Email。即便该网站发生安全事件，外泄的也是邮件别名，无法直接联系到你的真实邮箱。

各种网络服务安全事件频传，如果使用 Have I been pwned、Data Breach Checker、Firefox Monitor 或 Google One 暗网报告查询，会发现我们平常使用的 Email 地址可能都已经被外流很多次了。还好密码大多数都会经过加密〔hash〕，不会以明码方式储存，但用户账号、Email 等个人资料就很容易被收集后于暗网兜售。

黑客利用这些外泄的账号、Email 和密码组合去攻击用户常用的服务，有可能就会被登入滥用，因此这些资料很可能成为垃圾邮件或是网络钓鱼诈骗的目标。以邮件转发服务生成随机、不易被识别的 Email 地址有助于保护自己的真实身份。

接下来我将会列出五个推荐的邮件转发、邮件别名服务，列出的邮件转发服务注册就能使用，不是电子邮件自带的邮件别名功能。

Firefox Relay 是 Mozilla 提供的邮件转发邮箱功能，免费版在全世界大多数国家都能使用，免费版就能符合大部分用户需求。

从 Firefox Relay 注册账号后可以获取五组转发邮箱，可以随意生成无限组合转发邮箱来保护真实邮箱，别名可以随时暂停或删除，避免该邮箱继续接收邮件。收到邮件、转发时会自动移除邮件追踪器，以提供用户更好的隐私防护。

如果你从未使用过邮件转发服务，我会推荐从 Firefox Relay 开始。

直接前往 Firefox Relay

SimpleLogin 是一项开源、匿名邮件转发服务，2022 年被 Proton 公司收购成为旗下的产品。免费方案有提供十组邮件别名，无流量和接收邮件数量限制，与各种浏览器、移动设备都有相当好的整合，如果不想额外安装扩展，通过网页操作界面一样可以进行设置使用。

比较特别的是 SimpleLogin 具有「Reply from alias」功能，可以从邮件别名直接回复邮件，而不用通过真实邮件地址。付费后可以设置域名，享有无限制的邮件别名、Catch-all 等功能。

直接前往 SimpleLogin

知名的查找引擎服务 DuckDuckGo 也有邮件保护方案〔Email Protection〕，让用户通过 @duck.com 邮件地址来隐藏真实邮箱，在接收到新邮件时 DuckDuckGo 会先将邮件内的追踪器移除〔和 Firefox Relay 一样〕，在将邮件转发到用户 Email 地址，这项服务不会储存任何收到的邮件内容。

需要先在浏览器下载、安装 DuckDuckGo 扩展才能进行设置，或是要从手机下载应用程序。

比较特别的是 DuckDuckGo 邮件保护计划有一项比较特别的功能「Private Duck Address Generator」，可在现有的邮件转发地址再生成随机的邮箱地址，有点像多一层保护的概念。

直接前往 DuckDuckGo Email

Addy.io〔旧名 AnonAddy〕是匿名的电子邮件转发服务，主要用途是保护用户真实邮箱地址，免费方案就提供无限制的邮件别名，不过可用的共用网域别名、真实 Email 地址数量和别名域名有限制，免费和付费最主要差异依然是可否设置域名，要注意的是 Addy 回复功能是需要付费才能使用。

如果有直接以匿名转发邮件回复的需求，建议可以使用前面介绍过的 SimpleLogin 代替。

直接前往 Addy.io

5 大免费邮件转发服务，替代临时邮箱方案

Forward Email 是无限制电子邮件转发服务，跟前面几项不同的是它是唯一提供免费设置域名功能的服务，可以使用自己的域名转发邮件，也具有发送邮件功能。基本方案已具备相当完整的功能，唯有在需要一些付费项目或团队功能时才需要升级方案。

Forward Email 是 100% 开源的服务商，非常透明且注重隐私和安全性，服务不倚赖任何第三方，也不会对任何用户记录进行储存，最自豪的是它是目前世界上唯一使用抗量子和单独加密 SQLite 的邮箱。

直接前往 Forward Email

DUN.IM BLOG
Google Gemini 免费 AI 对话修图实测！一句话PS、换背景、创作系列图画
9 March 2025 at 13:51

Google Gemini 免费 AI 对话修图实测！一句话PS、换背景、创作系列图画

DUN.IM BLOG

By: Anonymous

9 March 2025 at 13:51

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

你拍下一些照片，却觉得照片的背景不够完美？你是内容创作者，但找不到文章合适的配图？你是电商卖家，想位产品设计更吸引人的配图？你是老师，需要为教材找出一系列搭配的示范图片？以前，我们修图可能需要学 Photoshop，需要花很多时间调整细节，或是要下载各种修图 App，还要在图库中翻找适合自己的图片文件。

但现在，只要一个 AI 指令，就能让我们需要的照片「瞬间改造完成」。

如果你想体验看看类似的工作流程，可以试试看前两天推出的 Google Gemini 免费 AI 修图！只要「一句话」，你就能改变图片，换背景、改风格、添加新元素，甚至创造连续漫画。
〔类似功能，在 Google Pixel 系列手机的 Google 相册中也能部分实现，Adobe、Canva 等的 AI 修图也能实现部分功能。〕

这篇文章，我会实测 Gemini 的 AI 修图能力〔而且免费即可使用〕，看看它怎么帮助我们「一句话变出想要的修图效果」！

我将分成三种应用角度来介绍，这些全部都能在 Gemini 中用自然语言下指令，便可以把照片生成或改造：

基础照片修图：让拍坏的照片变完美

替换背景、增加物品、改变颜色光线、调整风格。

进阶场景创作：为文章制作主题插图、让商品看起来更吸引人

搭配原始照片，制作特殊场景图

搭配原始照片，重新设计房间或产品

连续系列照片生成：根据文章、教材内容，生成一系列互相搭配的图片

模拟图文食谱

说故事的连续漫画、图画

文章中搭配的系列配图

首先，这个功能目前〔2025/3/14〕尚未开放在正式版的 Gemini 中，但可以通过免费账号即可登入的「 Google AI Studio 」来使用。

用 Google 账号注册登入后，进入一个新的对话框，并在右边控制列的「Model」菜单，切换到「Gemini 2.0 flash experimental」，就可以利用其 AI 来创作图片、修改图片，最大的特色是：

这个 Gemini 模型可以上传自己的图片，用「自然语言」下指令，请 AI 在图片上修图或生成新内容。

就如同 experimental 所说的「实验性」，实际测试结果，这个 AI 修图功能确实很神奇，也能够看到一些未来修图、创作图片的新可能性，不过可下载的图片质量等限制，目前还是不足以真正用在商业用途上的。

Google Gemini 免费 AI 对话修图实测！一句话PS、换背景、创作系列图画

在「Gemini 2.0 flash experimental」的对话框中，我们可以先上传一张原始照片，如果想要替换背景，只要简单的说一句这样的指令：「把照片的背景换成草地。」

就可以在 10 几秒的处理后，完成下图的成果。可以看到，Gemini 的「修图」是真的可以保留原始照片中的内容，只修改我要修改的部分。所以是真的 AI 修图，而不是 AI 重新生成图片。

我也可以上传一张风景照片，然后下指令：「把照片的天空改成大晴天。」Gemini 同样可以处理这样的调整。〔在 Google Pixel 手机的 Google 相册中就有类似功能可用〕

如果想要替换照片风格，套用艺术滤镜，也可以用 AI 下指令：「把照片变成中国水墨画风格。」就能轻松转换风格。

不过当然跟真正的艺术滤镜还是有落差，例如下图中我要 AI 把照片改成「彩色的铅笔绘画风格」，看起来还可以，不过专业的艺术滤镜一定会处理得更好。

除了可以用「Gemini 2.0 flash experimental」的 AI 修图外，也可以在原始照片上进行创作。

例如延续上面的图片案例，我对 AI 下指令：「拓展成一幅横幅的中国水墨画。」十几秒后，照片就变成了一幅新的水墨风景画。

或是我的书籍封面，上传后，下指令说到：「我想把原书的图片，摆在一张高雅的书桌上。」结果还真的可以顺利生成新的产品摆拍图。

不过如果细看，书籍封面上有些小字其实是有瑕疵的。

因为 Gemini 是对话的模式，所以在原始照片的改造上，我们可以通过多次讨论，让 AI 在原始照片上陆续添加内容，制作出自己需要的场景图。

例如下面原本只是单纯公园照片，我先请 Gemini：「在这张照片的草地上，加上一对正在野餐的男女朋友。」于是生成了下面的图片。

然后我继续追问：「让两人旁边有一只小狗在奔跑。」

然后再下指令：「旁边的道路上，也有零星的路人在散步。」

最后说「让天空变得更晴朗。」于是我要的最终场景图，就通过 AI 创作完成了。

我还做了一个尝试，先上传一张原始的房间照片〔某家旅馆〕。

然后我陆续对 AI 下了下面这些指令：

结果 AI 生成了下面这样的图片，第一张是原图，第二张是最后生成的图片，改造的图片还是保有原图的空间格局，只是风格焕然一新。

Google Gemini 本来就可以生成图片，但「Gemini 2.0 flash experimental」比较厉害的是可以分析文章内容，生成适合的配图，或是一系列的连续漫画、故事图片。

例如，我对「Gemini 2.0 flash experimental」下了这样的指令：「你是意大利面专家，提供给我一道海鲜意大利面的食谱，请一步一步处理，用文字具体列出关键步骤，并在步骤后搭配图片。」

结果他「一次」就生成了下面的连续图文教程内容，这是在一次的问答后就完成的结果。

我假设自己写了一篇游记，于是请 AI「设计一系列素描画，展现一个人在京都街头散步的故事，请一步一步分析，以京都的场景，搭配素描画风格，设计有意思的散步故事，创作一连图画。」

结果「Gemini 2.0 flash experimental」也在一次的生成中，提供给我下面连续故事图，比较神奇的是这些连续图片中都有类似的人物，保持图片连贯性，虽然风格上有点跳跃。

还可以这样问 AI，我让 Gemini 自己思考如何设计一系列进入书店场景的图片，Gemini 自己写了一大篇分析内容后，才开始设计并产出图片。

但效果看起来还不错。

所以，在功能上，利用现在〔2025/3/15〕在 Google AI Studio 中的「Gemini 2.0 flash experimental」，你可以上传原始照片请 AI 修图、改图。也可以让 AI 读一篇文章、思考一个主题，生成一系列连续图片。

未来这个功能越来越成熟，或许有下面这些应用可能性：

现在，你也可以通过免费账号即可登入的「 Google AI Studio 」来试试看。

DUN.IM BLOG
ChatGPT – Deep Research 功能指南&技巧总结：从「进度条」到「提示词」，一次搞懂！
22 February 2025 at 13:13

ChatGPT – Deep Research 功能指南&技巧总结：从「进度条」到「提示词」，一次搞懂！

DUN.IM BLOG

By: Anonymous

22 February 2025 at 13:13

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

最近有很多朋友在讨论：「Deep Research 的用量是怎么算的？」 又因为目前 Plus 每个月只能用 10 次，大家都非常担心浪费。其实一句话就能总结——只要开始出现「Starting Research」的进度条，就算使用了一次。在进度条出现之前，怎么问都不算。下面就为大家分享一些 Deep Research 的使用流程、注意事项和提示词模板，帮助大家更好地运用这一强大的研究功能。

一句话总结：从开始出现 Deep Research 进度条就算一次，之前都不算。

提出主题
你先要告诉 ChatGPT 需要研究什么主题。

ChatGPT 询问澄清问题
ChatGPT 通常会向你询问一些澄清问题，确保理解你的研究需求。

回答澄清，触发研究
当你回答了上述澄清问题后，ChatGPT 会再回复一条消息，并提示「将开始报告「，随后出现」Starting Research「的进度条。

注意：从这一步开始就会扣除一次 Deep Research 用量。

报告生成
研究进度条走完后，ChatGPT 会给你发送完整的报告，这标志着一次 Deep Research 流程的完成。

进度条出现后，你可以随时离开
进度条开始后，无论你是关闭窗口、刷新网页、切换到其他会话还是新开会话，都不会影响已经开始的 Deep Research 流程，它会在后台继续执行并最终生成报告。

Deep Research 可以后续追问
当报告生成结束后，如果你要继续追加信息重新生成报告，有两种选择：1). 直接提问，会使用你开始会话时选择的模型继续对话，报告内容可以作为上下文；比如说你从 GPT-4o 开始的，那么你在报告生成后，如果继续提问，实际上是 GPT-4o 基于你报告和提问内容回复，但是可能会受限于上下文长度无法完整理解报告内容；2). 重新生成新报告：Deep Research 是一次性生成的，但是你可以继续在当前会话选中「Deep research」按钮，这样可以把当前会话内容作为输入，或者把内容复制出去新开会话选中「Deep research」按钮重新开始一次新的生成。内容复制出去处理一下再生成会更好的对输入进行控制，但是麻烦一些。

你无法追加新的信息让它继续深度研究。如果你在当前会话里继续追问，后续的回答将由其他模型（如 GPT-4o）接管。
如果你对报告不满意，需要重新修改提示词再新开一次会话进行 Deep Research。

灵活切换模型
你可以先选任何模型（如 o1 pro/o1 等），再让它进行 Deep Research。若后续还打算继续追问报告内容，建议在 Deep Research 开始前就选一个更强的模型（比如 o1 pro / o1）来进行分析。

选择信息源和报告语言

建议在提示词中加一句「请选择权威信息源」（并不一定要非英文来源不可，重点是权威信息源，这样可以过滤掉一些不好的信息源，当然你也可以加上「优先英文信息源」）。

如果希望报告是中文，直接在提示词末尾加一句「请形成中文报告「即可。

如果不小心生成了英文报告，又看着费劲，可以在当前会话，让它翻译，也可以复制完整内容，

ChatGPT – Deep Research 功能指南&技巧总结：从「进度条」到「提示词」，一次搞懂！

新建会话，选择 o1 pro 或 o1 模型（最佳翻译效果），翻译提示词参考：

「请将下面的内容用中文重写，尊重原意，保持格式不变无删减：」

引入外部资料的方法

如果报告需要访问收费网页上的内容，你可以手动复制成 Markdown，然后在提示词中用 XML 标签包起来。

如果有图片内容，直接上传即可。

如果要分析视频内容，需要先把视频转成文字，同样用 <transcript> 标签包住，再放进提示词里。

我一般会用 AIStudio 的 Gemini 转成文本。

你可以一次粘贴几千行代码也没问题（用 XML 包起来），但要注意输入框粘贴有上限。如果太多，可以把代码放在公开的 GitHub 仓库，让 Deep Research 去分析链接即可。

写报告或写代码都行
Deep Research 不仅能写报告，还能写代码。只要你提示它「生成的结果是代码」，它就会尝试从网上搜索相关代码库并提供解决方案。

文献质量与报告质量
如果想让它「阅读」一本书并进行提炼，需要注意输入长度有限，无法直接输入一本完整的书。大部分流行书籍已经在模型中有训练数据，所以它会参考网上已有的书评。资料越多、质量越高，报告越漂亮；如果资料很少，它也无米下炊，生成的报告质量可能有限。

一个常见的提示词模板大致可分为背景信息、任务要求、和输出格式三个部分。

在这里填写所有对它生成报告有帮助，但模型本身访问不到的信息，比如：

付费文章

视频文字稿

图片或 PDF（可作为附件）

其他任何对于生成有帮助的内容

当背景信息较多时，务必用 XML 标签包裹，避免 AI 混淆指令。例如：

主题：你希望分析、研究或讨论的具体范围

信息源：希望它检索的文献库、学术论文、政府网站、GitHub 等

研究要点：需要关注的核心点，是深度解析还是简要摘要

语言或风格：是中文、英文或其他语言？

语言：中文报告、英文报告或双语

数据格式：是否需要用表格呈现数据（它暂时画不了图表）

段落和标题：是否需要分级标题、索引等

提示词模板并不是必须的，可以随性一点，你可以把写提示词使用 Deep Research 当成去交代一个实习生帮你写分析报告，你怎么交代实习生就怎么写提示词。

Deep Research 的使用次数：只要出现「Starting Research」进度条，就会扣除一次用量。

保持灵活：不满意就重新开始，新开会话前最好做好提示词规划。

结合大模型优势：如果要深入分析或后续追问，选用更强的模型如 o1 pro / o1 更合适。

慎重选择资料：外部资料要提前整理好，使用 XML 标签嵌入提示。

尊重版权、合理引用：在使用外部资料时，务必保留引用信息，切勿违规。

希望这篇文章能让你更好地理解和使用 Deep Research。在实际使用中，不妨多加尝试和探索，慢慢就能摸索出最适合自己的使用方式。祝大家玩得开心，也能高效地完成研究和写作任务！如有更多问题，欢迎在评论区留言交流。

总结：

如果你想让 Deep Research 提供权威信息源，在提示词中加一句「请选择权威信息源」。

如果要生成中文报告，只要在提示词里加「请形成中文报告」即可。

不小心生成英文报告且看着费劲，使用下面的提示词翻译：
「请将下面的内容用中文重写，尊重原意，保持格式不变无删减：」

欢迎大家在留言区分享你们的使用心得与经验，一起探讨 Deep Research 的更多玩法！

DUN.IM BLOG
笨还是蠢
21 February 2025 at 01:10

笨还是蠢

DUN.IM BLOG

By: Anonymous

21 February 2025 at 01:10

面对错误，面对失败，人们经常会自责：「我真蠢」。通常我不会劝慰，因为我理解，这种自我惩戒能带来一种另类的爽，和挠发痒的伤口一个道理，不让挠就是不人道。但我的确认为这里的中文有一点小问题，「蠢」不是合适的那个字眼，「笨」才是。蠢和笨有很大区别吗？这两个字不是经常连在一起用的么？在我的理解里，蠢和笨是两回事，蠢人和笨人也是两种人。

过几天就要到二十四节气的惊蛰了，据说惊蛰会打雷，把蛰伏在泥土里的小虫子唤醒。虫子在泥土里蠕动，东北方言所谓的「蛄蛹」，就是「蠢」字的来源—意思是笨拙迟缓，看字型就很清楚了，蠢就是春天的虫子嘛。重点在于虫子，虫子这种形态局限了虫子的可能。换句话来说，虫子的问题不在于笨拙迟缓，而是它没有办法认识这个世界，甚至也无法认知自己。当然，虫子肯定不会觉得自己笨拙迟缓，每一刻都蛄蛹得很自信，不信你随手捡起一条感受一下它蛄蛹的气力。

笨在我理解里是思维慢的意思。别人花 5 分钟想明白的事情，笨人可能需要半小时。别人听一次就能理解的东西，笨人也许要反反复复许多次才成。

但是和蠢不同，笨人是有光明未来的，他只是慢，又不是根本不会去想，根本不会去做。无非是聪明人通常早到，笨人会晚点。笨人知道自己是谁，也知道自己在做什么、怎么做，这是和蠢人最大的区别。

而且，笨也不是什么多大的坏事。「笨」字有个竹字头，它最早的字意是竹子的内膜。所谓「竹其表曰笢（mǐn），其里曰笨，谓中之白质者也。其白如纸，可手揭者」，竹子的表皮叫做笢，内里叫做笨，就是其中白色部分，它白得就像是纸，可以用手揭下来。用来形容人的时候，意思是纯洁清白。后来不知道怎么转成了笨重的意思，形容一个人的身量，最后又转成了今天的头脑迟钝不聪明的意思。所以，有人说自己笨，不妨理解为自己因为纯洁清白因而显得有些头脑简单，那是不懂欣赏而已。

所以，当有人自责或评价的时候说蠢，我就要仔细看一下，但通常看下来，人们只是笨而已，也就是思虑的周全，或者事情的完整。不过是个过程中临时的困境，调整一下，重新尝试几次，也许就能做全或者完成，无非是多了一些周折罢了。

笨没有问题的，比别人多废一点时间是多么了不起的事情，最终能抵达就行。而蠢是绝计不能的，笨人起码会承认自己笨，而蠢人对自己的蠢不知不认毫无觉察，这就是问题所在。

了解我的人说我有「厌蠢症」，我会常常反思一下，的确是有这个问题。看到一个人的一句话，看他怎么选择中文词组，看他怎么组织句子，怎么交流沟通，我就可以推断这个人是怎么想的，为什么会那么想。如果我认为对方会在自己的这种想法里怎么都出不来，那我就会瞬间失去耐心，因为那是蠢，蠢因为无自知无自省，所以是无药可救的，继续交流完全是在浪费时间精力。

事实上，当一个人会自责的时候，就只能是笨。因为蠢人不知不认不改，是不需要自责，更不需要反思，自己永远是对的，错的是全世界。如果一个人还能自省，说明并不蠢，还有找到出路的希望。别做「蠢人」，多少为自己的未来保留一点希望，保留一点光明。有这一点点光亮在，可以和任何人事物友好相处，人就可以继续前进，也就依然有可能最终抵达。此外，出于人道主义精神考虑，谁也不希望每天醒来，满眼看到的都是浪潮一样的蛄蛹而来吧？那我还过什么个劲儿呢？

DUN.IM BLOG
话都说不清楚
5 February 2025 at 13:27

话都说不清楚

DUN.IM BLOG

By: Anonymous

5 February 2025 at 13:27

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

最近有很多人假装关心，问我是如何更好的使用 AI 的，那我也就假装解答一下。我认为任何人都应该学习利用 AI，我分享自己利用 AI 工具经验和技巧思考，信息量已经足够多了。但是想要做到，可能还需要自己去探索，去做大量尝试。

很多人希望我直接出个教程，甚至最好是个视频教程，自己好按图索骥，照猫画虎。但我没兴趣，讲述起来太麻烦，我不想自己太累。这样一来，就会有人说我傲慢冷漠，说我小气藏私，说我老登加爹味，诸如此类的酸话。其实我是真的累，心累，很早就把自己的期待降到了最低。比如说如何在国内使用 AI 的话题，我早分享过，甚至还贴出了链接。但是总有人不断来问，所以我说他们是「假装关心」，连提问前先搜索一下都做不到。

对此我能理解，因为我没期待。我不期待每个人都会关心我的分享，我也不期待每个人在提问前会主动搜索信息，我习惯了张嘴就问，所以我相信 AI 更能满足他们的需求。

现在国内也普及了 AI，我又发现了一个更加致命的问题：很多人连话都说不清楚。

对，我说了，你只需要像是和人说话一样吩咐 AI 去做事就好。我观察了几百条和 AI 之间的互动，看完内心充满了同情。

很多人的确是用和人说话方式来和 AI 交流，我仔细看了，他们平常可能就是这样和人说话的，所以看完我极度同情那些不得不和他们对话的人。他们所面对的，是混乱含糊，逻辑不清，而且相当粗鲁无礼的对话内容。

事实上，人类让 AI 去做什么事，这是在下达指令、请求。为了便于大众接受和实用，这里抹去了指令、咒语、提示语、Prompt 一类的术语，而是用大白话说：你像是和一个人说话那样，去吩咐 AI 做事。但它本质上就是个指令请求，这一点不会因为描述方式改变而改变。

那么，无论对面是一个人还是一个 AI，你给出的指令请求应该清晰明了，好让对方明确知道自己应该怎么去做—让我吃惊的是，很多人根本做不到这一点，他们连话都讲不清楚。

我看到，很多人上来张嘴就是：「给我分享」「给我照片」。什么图片？关于什么的分享？具体是要给你建议还是帮助解决需求？谁知道你心里想着的具体是什么？

还有人上来就问：「送什么好」。谁送，送谁，为什么送，双方什么关系，什么地区，什么当地风俗？一概没有。于是，AI 弄了一些关于赠送礼物的片汤话回复。看完马上不高兴了：「我要的是送礼的推荐，东西呢？！」。

人可能真的是生来就有不同。我朋友的女儿，我管她叫小妹，小学生一个。有天发来语音问我 AI 绘画的事情，说是让 AI 画了一张仓鼠的图，很不满意，问我应该怎么弄。我让她把自己给 AI 的指令/请求/咒语/提示语/Prompt 发来让我看看，看完之后，我重新构造了一条发还给她，跟她讲：

AI 要知道画什么，你就得给出一系列明确的指示—什么载体、什么材质、什么风格、什么角度、什么镜头、什么光线，然后角色是什么神态、什么姿势、什么动作、什么状态、什么地点、什么空间、什么氛围，你得清晰地指定了，才不会出现你想要 AI 画一张油画，它给你一张照片或者漫画的悲剧。小妹当场就能理解，高高兴兴蹦蹦跳跳自己去尝试了。

我一点都不担心小妹，多余的一句叮咛都没有。为什么？因为我见过她提出请求，我们一起吃饭的时候，她说：「我能不能要两个冰淇淋球，一个香草的，一个巧克力的」。停顿了一下，又补充说：「我可以和妈妈一起分着吃」。

要求非常清晰非常明确，所有人都能听懂她要什么。甚至她还考虑到对方用吃太多不好作为反对理由，预先把补丁给打上了—不是自己一个人全吃掉。

许多人活几十岁，不如一个孩子。我朋友的一任失败前女友就是如此，一开口所有人都想跳上去打。每次她一开口，就是盯着你娇憨地一句：「要」「想要」「我要」「想吃」。她是说什么，你要什么？为什么要？有什么必要？他妈的宾语呢？要煎饼呢要要要！

把话说清楚，把请求把要求把指令一二三四说清楚，让人能听懂，知道你的意图，可以明确根据你所说的去执行，我真的没有想到这其实是一项极高的要求，有那么多人居然做不到，更别说与人真诚的讨论/交流/商量/沟通。这样说起来，我先前的期待其实还不足够低，人们不单不会主动搜索找寻答案，人们连把话说清楚都有相当困难。

总听人在讨论 AI 替代人类的话题。我现在觉得这种讨论都多余，说什么人类和 AI 竞争呢？很多人连话都说不清楚，无法表达自己的意图，无法表达自己的想法，无法表达自己的情感，这本身在人类社会里就会被交际和工作所排斥，因为不知道他在说什么，想要表达什么，如何与其相处，哪里还需要等到被 AI 替代的一天？现在就是高度可替换的。

我以前说，将来的人们可能写不清楚，只能拍个视频出来。现在我担心视频怕是也不成，因为你都不知道他在视频里颠三倒四、莫名其妙说了些什么，世界上就找不出几个人来能听懂。

Pika – AI 视频神器，一键乱入新场景

DUN.IM BLOG

By: Anonymous

11 February 2025 at 22:47

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

一张图、一句提示词，万物都能乱入你随手拍的视频。

▲动图制作自：X@omerbartal

在整活赛道天赋异禀的 AI 视频神器 Pika，最近又推出了一个好玩的新功能：Pikaddition。

从此以后，人人都是五毛特效师。

如果你有灵感了，现在就可以玩起来，注册 Pika 之后可以免费生成 15 次。

体验指路：https://pika.art/

不过，这个功能默认使用的是最快、最便宜的 Turbo 模型，想要达到理想的效果，往往需要不断调试提示词，抽卡的次数不算少。

Pikaddition 的使用方式很简单，三步走。

虽然操作不难，但想要玩得有创意，推荐以下几种「高阶玩法」。

实拍视频+不日常的图片

怎么邀请 Sam Altman 来指导工作？先用视频记录同事认真工作的样子，然后再在网上找一张 Sam Altman 的半身照，用提示词说明他怎么出现在视频里。

▲提示词：穿着绿色毛衣的男人站在左边，低头观察穿着牛仔夹克的人操作电脑

然后就可以看到，Sam Altman 亲自旁观我们报道 OpenAI，光影很自然，违和感被 AI 吃了。不过，Pika 会造成人脸的微崩，对比原视频，同事的颜值有所下降。

按照这个思路，我们甚至可以上演一出日常版的「神奇生物在哪里」，只需要一个打开封闭空间的视频、一张萌物的图片。比如，打开办公室的柜子发现皮卡丘。

▲ 提示词：皮卡丘一直藏在柜子里，直到门被打开

提示词写得比较宽泛，只说明了皮卡丘的位置，反而给了 Pika 适当发挥的空间，皮卡丘被发现时的表情和动作，都是活灵活现的，仿佛我们打扰它了。

前几天，语言学习软件多邻国整了一出营销活动，称自己的吉祥物猫头鹰多儿「去世」了，死因不明，可能是等我们打卡的时候死的。

试问谁没有被多儿的通知和小组件追杀着背单词过呢？如果它来到现实，是不是更让人心惊胆战？

▲提示词：绿色的小鸟从远处飞向伸出的手

想要实现这个催命的效果，一点也不难，拿起手机随意拍摄一段空镜，在视频里伸出我们的一只手，再随便找一张多儿的图片。

提示词仍然很简单，只是描写了多儿的动作，哪怕是平面的、2D 的多儿，Pika 也能加工成立体的、3D 的，和短视频更加适配。但出现了个 Bug：手指数量不对了。

还有一种进阶的实拍视频玩法，比较考验演技，需要先进行「无实物表演」。

▲被老虎扑倒，动图制作自：X@omerbartal

我们尝试过人物在视频里保持不动，只用提示词描述人物动作的改变，但是没有起效，所以还是需要进行一个提前的摆拍，考验大家戏精本质的时候到了。

▲提示词：身穿牛仔夹克的男子被一只水豚撞倒

影视名场面+打破次元壁的图片

把原本不相关的人或物（包括你本人）放进影视名场面里，只是分分钟的事情。

《蝙蝠侠：黑暗骑士》里的小丑炸医院，是经典中的经典，我们截取几秒的片段，然后上传一张马斯克的半身照，让他走在小丑的旁边。

▲提示词：穿着西装的男人正走在穿着护士服的男人的左边，并与他进行交谈

两人淡定离开犯罪现场的味道有了，美中不足的是，马斯克和小丑的脸都有点扭曲。

Pika – AI 视频神器，一键乱入新场景

写实的电影之外，二次元的动画风格也不妨一试。名侦探柯南《神秘乘客》这集的公交车，基本集齐了最强阵容，如果挑选一张夜神月的侧脸图片，那么卡密也能来客串。

▲ 提示词：黄头发、穿白衬衫的男人坐在中间的座位上

但还是那个问题，人物的变形比较明显，并且画风不是非常相融。

表情包出处视频+表情包图片

二创表情包，是每个 AI 视频工具都得整的花活。

▲提示词：狗躺在猫的右边，猫看了狗一眼

当惊讶猫的视频和全世界最著名的柴犬表情包联动，二脸懵逼固然有趣，但一猫一狗仿佛不在一个图层，柴犬像用迪士尼滤镜美颜过。

当我第一眼看到宇树科技机器人的蛇年春晚节目《秧 BOT》，就觉得在英伟达年会穿着东北大花袄的黄仁勋应该加入，好在 Pika 可以满足这个朴素的愿望。

▲ 提示词：白发男子正在机器人旁边跳舞

还真别说，这甩红手绢的动作，这一板一眼的步伐，挺有默契的。

Pika 的特效称不上专业级，但作为一个创作短视频的玩具，倒也绰绰有余。

AI 视频百花齐放，各有各的特长，可灵综合能力强，海螺擅长风格化，PixVerse 速度快，和同行们比起来，Pika 可以说是最会整活和把创意模板化的一个了。

▲动图制作自：X@pika_labs

2 月 14 日情人节当天，Pika 又推出了一个新玩法——Pikamemes，目前可以在 iOS app 体验。

体验指路：https://pika.art/app-download

上传一张干净的人物自拍照或者一张宠物的大头照，不用写提示词，一键使用模板，Pikamemes 就可以生成表达各种心情的表情包，并且支持直接下载 gif 动图。

让马斯克送上玫瑰花，或者赏个白眼，都在一念之间。

再往前推，Pika 的多主体参考功能 Pikascenes，支持上传多张参考图片，并保持主体的一致性。集齐人物、商品、场景的照片，就能实现一键试衣了。

▲图片来自：X@martgent

Pika 的 AI 特效功能 Pikaffect，更是一度全网爆火，特别是其中的 AI 捏捏，刷屏小红书和 TikTok，推动 Pika 用户突破 1100 万。

▲图片来自：Pika

Pika 在模型能力之上卷玩法，切中了一群对整活短视频有高需求的用户，让人人都能低门槛地玩得开心。哪怕这些视频是模板化的，稍纵即逝的，但只要有趣，人们就会蜂拥而至。

同时，Pika 也告诉我们，写不好提示词、脑洞不够大、不知道怎么实现主体的一致性，都没关系，等等吧，很快就有包装好的 AI 特效和模板了。

当 AI 工具承载了更低的下限，那就意味着，只要有想法，每个人都可以将微观的创作欲望落地为现实。保持好奇，保持期待，一瞬间的起心动念，就足以让好玩的事情降临。

Apple ID 账号购买的项目转移指南和注意事项

DUN.IM BLOG

By: Anonymous

10 February 2025 at 15:19

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

苹果在 2025 年 2 月 11 日推出了一项新功能：将购买项目从一个 Apple 账户迁移到另一个 Apple 账户。

不支持于欧盟、英国或印度的用户。

从 Apple 购买的 App、音乐和其他内容迁移到首选 Apple 账户。

苹果并没有解释其他内容具体是什么。

如果你不符合条件，则可能看不到「迁移购买项目」。

看起来，这项功能更适合在同一区域拥有多个账号的用户，它为用户提供了一个手动合并多个账号的功能，并把你买过的内容转移至主力账号的方式。

之后备用账号就可以抛弃不用了。

DUN.IM BLOG
AI 推理模型和普通 LLM 大语言模型的分别与使用，提升效率与准确性，复杂任务高效完成
8 February 2025 at 14:17

AI 推理模型和普通 LLM 大语言模型的分别与使用，提升效率与准确性，复杂任务高效完成

DUN.IM BLOG

By: Anonymous

8 February 2025 at 14:17

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

了解何时使用推理模型，以及它们与 GPT 模型有何不同。

OpenAI 目前提供两大类模型：

这两种模型家族在使用和效果上都有所不同。本文将介绍：

与 GPT 模型相比，OpenAI 的 o 系列模型（推理模型）在不同类型的任务上更出色，需要使用不同的提示方式。并非哪一种模型一定「更好」，而是各有擅长的领域。

你可以根据需求，思考下列问题：

如果你的任务优先考虑速度与成本，并且任务本身相对明确、好定义，那么使用 GPT 模型就非常合适。
但如果你更注重准确度和可靠性，而且问题本身很复杂、有多个步骤，那么 O pen AI 建议选择 o 系列模型。

大多数情况下，你也可以把这两种模型结合起来使用：用 o 系列模型进行「智能规划和决策」，再让 GPT 模型去执行具体步骤。

AI 推理模型和普通 LLM 大语言模型的分别与使用，提升效率与准确性，复杂任务高效完成

示例：GPT-4o 和 GPT-4o mini 先处理订单信息与客户资料，找出订单问题和退货政策，然后将这些信息提供给 o3-mini，由它根据政策最终决定退货是否可行。

下面列出了一些实际场景，这些案例来自 OpenAI 的客户和 OpenAI 内部，希望能帮助大家更好地理解 o 系列模型（推理模型）适合用在哪些地方。不过，这并不是一个覆盖所有可能用例的完整清单，而是给出一些在测试中行之有效的思路。

准备好使用推理模型了吗？点击这里直达快速入门 →

推理模型特别擅长接收零散、有限的信息，然后根据简单提示去理解用户意图，并处理那些不够明确的指令。它们经常会先问一些澄清性的问题，而不是盲目猜测或随意填补空白。

「o1 的推理能力让 OpenAI 的多智能体平台 Matrix 在处理复杂文档时，能给出详尽且格式良好的回复。举个例子，o1 让 Matrix 可以轻松找出信用协议（Credit Agreement）中受限支付能力（restricted payments capacity）下可以使用的各种『篮子』（baskets），而只需要一个简单提示。过去没有任何模型能这么出色。相比于其他模型，在对密集的信用协议进行复杂提问时，o1 在 52% 的问题上有更好的表现。」

——Hebbia，为法律和金融提供 AI 知识平台

当你需要处理大量无结构信息时，推理模型能很有效地提炼出最相关的部分来回答问题。

「在分析某公司收购案时，o1 审阅了几十份公司文件，比如合同、租约等，去寻找可能影响交易的关键条件。它需要标记重要条款时，甚至在文件脚注中看到了一个非常关键的『变更控制』（change of control）条款：如果公司被出售，那需要立刻偿还 7500 万美元的贷款。o1 的极致细致能力帮助 OpenAI 的 AI 探索工具为金融专业人士找出交易中至关重要的信息。」

——Endex，AI 驱动的金融情报平台

OpenAI 发现，推理模型在处理数百页的复杂文件时（比如法律合同、财务报表或保险索赔等），能很好地分析文件内在逻辑并做出决策。它们擅长挖掘文档之间的对照关系，并据此推断其中暗含的规则。

「在税务研究里，需要同时对多份文件进行综合分析才能得出最终、连贯的结论。OpenAI 把 GPT-4o 换成 o1 后发现，o1 更善于整合多份文件之间的关系并推导出各自交叉影响，让最终的结论比单一文档中能看到的内容更有深度。OpenAI 因此看到终端到终端（end-to-end）性能提升了 4 倍，真的很令人惊讶。」

——Blue J，为税务研究提供 AI 平台

此外，推理模型也很擅长根据各种复杂政策和规则进行推理，并把这些规则应用到实际任务中，得出合理的结论。

「在做金融分析时，分析师常常要面对股东权益方面的复杂情境，还要理解相关法律的细微差别。OpenAI 曾用一个常见但比较棘手的问题来测试了市面上约 10 个模型：如果公司进行融资，对现有股东尤其行使『反摊薄保护』（anti-dilution）的那些股东会有什么影响？这个问题需要推理融资前后估值，还要处理环环相扣的『循环摊薄』，就算优秀的金融分析师也要花 20~30 分钟才能搞清楚。OpenAI 发现 o1 和 o3-mini 在这方面做得近乎完美！模型甚至能给出一张清晰的计算表格，展现对一个投资了 10 万美元的股东有何影响。」

——BlueFlame AI，为投资管理提供 AI 平台

推理模型在做多步骤的「自主」规划和战略制定方面发挥着关键作用。OpenAI 常看到的成功做法是先让推理模型扮演「策划者」，制定详细的多步骤解决方案，再根据每个步骤对「速度/智能」需求的不同，有选择地交给 GPT 模型或 o 系列模型去执行。

「OpenAI 用 o1 来做多智能体系统（agent infrastructure）中的规划者，让它负责指挥其他模型完成多步骤的任务。OpenAI 发现，o1 非常擅长选择要用什么数据类型，也很擅长把大问题拆解成小块，让其他模型聚焦执行。」

——Argon AI，服务于制药行业的 AI 知识平台

「o1 为 OpenAI Lindy 的许多『代理式工作流』提供支持。Lindy 是一个工作助理 AI，能通过函数调用（function calling）去获取你的日历和邮件信息，然后自动帮你安排会议、发邮件、管理日常事务。OpenAI 把一些原本运行不稳定的多步骤流程全部切到 o1 上，结果代理的表现几乎是一夜之间就变得近乎完美！」

——Lindy.AI，一个专注于工作场景的 AI 助手

截至目前，o1 是唯一支持图像理解的推理模型。它与 GPT-4o 的最大区别在于：o1 能处理特别复杂的视觉信息，比如结构不明确的图表或清晰度不佳的照片。

「OpenAI 为线上上架的数百万产品提供风险和合规审核，比如奢侈品仿制、濒危物种、管制品等。GPT-4o 在最难的图像分类任务中只能达到 50% 的准确率，而 o1 能做到 88%，OpenAI 甚至没有对流程做任何修改。」

——Safetykit，负责商家监控的 AI 平台

OpenAI 内部测试也发现：o1 能从复杂的建筑图纸中看出具体的材料和结构信息，进而生成更完整的材料清单。更惊喜的是，o1 还能跨页面匹配，比如先在图纸中的图例（legend）看到「PT」代表「压力处理木材」（pressure treated），然后在图纸的其他页面上正确应用这一概念，尽管并没有明确地告诉它需要这么做。

推理模型在代码审查和改进时也表现出色，往往可以在后台执行代码审阅任务，因为此类需求对延迟的容忍度更高。

「OpenAI 在 GitHub、GitLab 等平台上提供自动化的 AI 代码审阅服务。虽然代码审查过程对延迟不是特别敏感，但却需要理解多文件之间的代码差异。在这方面，o1 表现非常好，它能可靠地识别出对代码库做出的微小改动，而人类审阅者可能会漏掉。切换到 o 系列模型后，OpenAI 的产品转化率提升了 3 倍之多。」

——CodeRabbit，AI 代码审阅初创公司

GPT-4o 和 GPT-4o mini 因为延迟更低，也许更适合写代码，但对于那些不太敏感于执行速度的代码生成需求，o3-mini 有时也能带来更好的复杂性处理。

「o3-mini 写出的代码质量通常很高，而且往往能在明确的问题中得到正确解答，哪怕是非常具有挑战性的编码任务。其他模型也许只能应付小规模、快速的代码迭代，而 o3-mini 在构思、规划和实现复杂软件系统时表现更突出。」

——Codeium，提供 AI 驱动代码插件的初创公司

推理模型还经常被用于对其他模型的输出结果做评测和打分，特别是在需要数据验证的领域里（如医疗保健），保证数据集的质量和可靠性。传统的验证方法通常依赖预先定义的规则和模式，而像 o1 和 o3-mini 这样的高级模型，可以通过理解上下文和推理，对数据做更灵活智能的验证。

「不少客户在 Braintrust 的评测流程中使用了『模型做法官』的功能，比如某个医疗企业先用 GPT-4o 对患者问题进行概要提炼，再用 o1 来给这个概要的质量打分。结果发现，用 GPT-4o 做法官的 F1 分值只有 0.12，而用 o1 做法官，F1 分值达到了 0.74！对这些用户来说，o1 的推理能力在发现微妙差异和复杂场景的评分上表现极好。」

——Braintrust，AI 评估平台

这些模型最适合简洁、直接的提示。一些提示技巧（比如让模型「逐步思考」）不一定能提升性能，有时反而会降低效果。以下是一些提示技巧的最佳实践。

以上就是有关「推理模型」与 GPT 模型的区别、使用场景，以及给推理模型下指令时的一些最佳实践。希望这些指南能帮助你更好地发挥 o 系列和 GPT 系列模型在不同任务中的优势，实现更高效、更准确的 AI 解决方案。

AI 提示词，产品高级营销文案生成

DUN.IM BLOG

By: Anonymous

22 January 2025 at 14:28

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

这可能是我写过的最有趣的几个 Prompt 之一。

第一，这是一条专门用来写高级感文案的 Prompt

它可以根据输入生成很有高级感的文案

还附带一张有设计感的卡片，用来把东西卖得很贵。

第二，这是一条出于实际营销需求诞生，卖了五位数的 Prompt，但是经过甲方同意得以开源。（感谢金主爸爸）

第三，是这条 Prompt 背后的 knowhow 非常有趣。有时候写一条有效的 Prompt 往往意味着透过现象看本质。

先上 Prompt，请使用 Claude 3.5 sonnet 或 OpenAI o1 以获得相同效果。下面是 Prompt：

效果案例 1（该案例致敬法国艺术家的作品「泉」）：

输入：淘宝上下载的小便池图片

AI 提示词，产品高级营销文案生成

输出：

效果案例 2：高达手办（案例来自群友「@温州程序员劝退师」）

效果案例 3：面条（案例来自群友「温州程序员劝退师」）

效果案例 3：马桶搋子（案例来自群友「@温州程序员劝退师」）

效果案例 4：招财猫摆件（顶奢版本）（案例来自群友「@温州程序员劝退师」）

1.来自鲁迅《作文秘诀》

2.来自艺术大师陈丹青

该 Prompt 主要是为了赚钱而生，仅供赚钱与娱乐。

但是，鲁迅的作文秘诀的结尾还有两段话：

「写到这里，成了所讲的不但只是做古文的秘诀，而且是做骗人的古文的秘诀了。但我想，做白话文也没有什么大两样，因为它也可以夹些僻字，加上蒙胧或难懂，来施展那变戏法的障眼的手巾的。倘要反一调，就是白描。

「白描」却并没有秘诀。如果要说有，也不过是和障眼法反一调：有真意，去粉饰，少做作，勿卖弄而已。

祝大家玩得开心！

DUN.IM BLOG
ChatGPT Task – 自动任务，提醒、计划、定时功能发布，实测 5 个场景使用分享
12 January 2025 at 16:47

ChatGPT Task – 自动任务，提醒、计划、定时功能发布，实测 5 个场景使用分享

DUN.IM BLOG

By: Anonymous

12 January 2025 at 16:47

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

ChatGPT这两天又发布了一个新功能：「Task 〔计划提醒、定时任务生成〕」。

功能的原理很简单，它就只是在原本的对话当中加上一个「计划提醒、定时任务生成」的机制〔支持自动循环〕。于是当我们设置的每天、每周重复时间到的时候，这个 AI 的对话就会根据我们设置好的方式，自动生成一段我们需要的信息内容，如果是在 ChatGPT 的手机 APP 上还会弹出通知，如果是在电脑网页端的界面上对话也会因为更新而排列在前面。

通过 ChatGPT 根据计划自动生成的新内容，我们就可以自动获得需要关注的提醒，或是自动获取需要的信息。它可以应用在什么样的场景上面呢？可以参考下面 5 种使用场景：

下面，我就用这几个真实的场景，详细操作给大家看，看看如何结合目前 ChatGPT 的功能，加上最新的任务提醒，来完成上述各种自动提醒的工作、学习流程需求。

目前这个「任务提醒」功能还在 Beta 测试版，并且只对付费版的 ChatGPT 用户开放，不过未来这个功能也会开放给所有用户使用〔包含免费的账户〕。

让我们先从这个基本应用，看看 ChatGPT 的「Task 」功能如何操作。

首先，我们要把 AI 模型切换到「含计划任务的 GPT-4o」。

接着，我们在指令的开头加入「要重复的时间，与指定生成的任务」，就能启动「Task 」。例如我想要一个固定时间自动查找网页文章综合报道的摘要信息，我就这样下指令即可：

设置的「Task」时间到的时候，ChatGPT 就会自动根据我的指令上网查找，摘要出我需要的一篇综合新闻报道。

我们可以点进某一个「Task」的设置界面，这里可以修改自动任务名称、提示词，以及修改自动循环的时间。

我们也可以在「 https://chatgpt.com/tasks 」页面查看自己已经设置的所有自动任务。

每个任务建议使用专门的会话，可以使用「Task」设计早上、中午、晚上三个时间，分别生成国际、国内、休闲娱乐的摘要报道，快速掌握一天需要的信息。

掌握基本功能后，例如我有一个专门了解各种生活健康知识的 ChatGPT 会话，我现在可以在这个对话中设计一个「习惯养成提醒」，请他每天固定时间告诉我一个关于降低体脂、提升骨骼肌的具体建议，并用鼓励的话引导我今天马上可以行动。

通过习惯养成提醒每天的自动建议，就像是一个简单的「健康 App」一样，一方面每天学习习惯养成的知识，一方面每天进行行动提升。

如果我的需求需要改变，也可以随时回到设置中修改指令、生成时间，让养成习惯的过程，有一个自动提醒每天鼓励我去执行。

如果我正在学习某个领域、主题的新知识，那么除了建立一个对话与 ChatGPT 一起学习，我还可以设置一个专属自己的知识媒体总结，要求每天在固定时间生成一篇信息资料，提供给我新知识的信息。

指令：

然后 AI 第一篇给我的文章是番茄时钟工作法的介绍，写得还不错，我们可以利用 ChatGPT 上的「Read aloud」功能，让 AI 把这篇文章朗读出来。

这样是不是像一个自动帮助我们学习的 AI Podcast 呢？

如果利用这个功能来协助项目的推进呢？

例如我想持续写作的习惯，于是我请他每天固定时间，用我指定的逻辑，提供给我一篇可以延伸思考的文章题目，并且提供大纲建议。

于是在 AI 每天持续提供一些草稿建议下，帮助我在项目运行过程有持续的新刺激，更有动力保持项目的推进。

我最近常常利用 ChatGPT 来帮助我读一些原文书，有时候请 AI 翻译，有时候请 AI 整理笔记。

于是我想到，如果我在这个已经累积了数万字原文书阅读对话的对话中，请他每天固定时间，从前面资料中挑出一个重点帮助我复习呢？

指令：

效果还不错，他真的可以每天从前面对话的大量资料中，挑出一个具体重点，帮我做出特定的复习。

如果我们持续学习某种语言、知识主题，就可以善用这个 ChatGPT「Task」功能，自己设计每天的自动复习内容了！

以上就是我目前测试出来的几种应用方式，提供给想试试看 ChatGPT「Task」功能的朋友参考，也欢迎跟我分享你的应用方式。

VidPic – 免费在线图片制作视频工具，简单快捷无需登录

DUN.IM BLOG

By: Anonymous

10 January 2025 at 14:59

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

VidPic 是一款免费在线工具，主要功能是将图片和音乐合成为视频，也能加入字幕、预先调整尺寸，只要几分钟即可快速把图片转换为高清视频格式！VidPic 本身具有中文在内等多国语言界面，操作上也很简单，几乎不用花太多时间就能轻松操作，算得上是很方便的免费工具。

VidPic 最大特色是所有操作过程都在本机浏览器上进行，因此不会有任何图片或音乐被上传到远程服务器，极大程度保障资料隐私和安全性，接下来就介绍这项服务的实际操作方式。

VidPic 是一款免费在线工具，支持将图片和音乐合成视频，无需下载或登录，快速生成高质量短视频！

进入 VidPic 网站后先从右上角切换语言，从上面的链接连到 VidPic 默认会是中文。

点击中间的上传框、选择要制作成视频的图片，可一次选择多张图片〔批量选择〕，支持 JPEG、PNG 和 WEBP 格式。

接着照片就会变成视频显示于 VidPic 编辑页面，下方有一排主要功能，包括：添加图片、设置背景音乐、设置视频尺寸、编辑字幕和下载完成的视频，若要加入更多图片可点击第一个按钮。

VidPic – 免费在线图片制作视频工具，简单快捷无需登录

下方会看到视频内的每张图片出现顺序，可以自由调整顺序或是删除。

每张照片会有一个固定的显示时间长度〔默认 2 秒〕、使用「淡入淡出」过场效果、过场时间 0.5 秒，试着预览播放视频就会知道制作出来的效果。

利用 VidPic 制作出来的视频很像照片幻灯片，很适合用来展示大量的图片，值得一提的是有不少可选用的过场效果，当然，这些都是免费、没有隐藏费用也不需要订阅。

将图片制作成视频后，也可以加入背景音乐，使视频看起来更活泼生动，点击「设置背景音乐」后就能加入音乐文件。

进入「设置视频尺寸」后可以预先调整视频尺寸大小，默认是平均宽高，会直接使用图片尺寸带入视频的长度、宽度，亦可调整为指定宽高、指定比例，设置图片平铺方式和填充颜色。

点击视频尺寸设置的「指定比例」计算方式，可以调整成不同的视频比例，例如 16:9、1:1、16:10、4:3、9:16 或是 3:4 等选项。

VidPic 还有加入字幕的功能，可以在浏览器内对视频的字幕进行编辑，也支持导入导出功能。

设置过程可以随时回到视频播放器，点击「播放」按钮来预览视频实际效果。

最后，点击右下角「下载视频」按钮就能将转换、制作完成的视频保存起来。

DUN.IM BLOG
AI Graph Maker – 免费不登录 AI 生成统计图表，简单美观的数据可视化工具
8 January 2025 at 17:44

AI Graph Maker – 免费不登录 AI 生成统计图表，简单美观的数据可视化工具

DUN.IM BLOG

By: Anonymous

8 January 2025 at 17:44

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

AI Graph Maker 是一个帮助用户快速生成图表的在线工具，通过 AI 整理输入的数据和提示词，再将数据以图表方式输出，在几秒钟快速生成专业的图表，同时还能调整不同的图表配色，如果发现生成的图表有些小问题也能通过编辑功能调整数据。

依照说明 AI Graph Maker 可以制作各种类型的图表，包括扇形图、折线图、条形图、流程图、时间轴、ER 图、思维导图和甘特图等等，默认情况会自动识别、选择最合适的类型，有需要也能手动指定。

最后可以将图表快速下载为 PNG 格式，整个过程无需注册账户，无论是新手或是专业人士都能轻松上手。

使用 AI 图表生成器轻松创建各类图表。将您的数据转换为定制的柱状图、折线图、流程图、饼图和散点图。

进入 AI Graph Maker 后会看到功能介绍、可通过 AI 图表制作工具生成的图表类型，要注意目前不同语言版本的制作工具不一样，使用英文或简体中文的版本功能会比较多，而且制作出来的图表更好看。

AI Graph Maker – 免费不登录 AI 生成统计图表，简单美观的数据可视化工具

点击 AI 图表生成器下方的示例，可以快速带入测试用的内容，例如生成销售数据条形图、网站流量分析折线图、部门员工人数扇形图或是比较学生学习表现的雷达对比图。

右下角有一个「图表类型选择」栏位，默认情况下会「自动」判断，用户可依照需求手动选择，AI Graph Maker 当前支持的类型包括折线图、条形图、雷达图、扇形图、树形图、散布图、关系图、桑奇图、漏斗图。

下图就是使用 AI Graph Maker 示例制作出来的图表，用户只需要将相关数据直接贴上，AI 就会进行后续处理并生成图片，整个过程几秒钟就完成了，可以说非常强大。

我也试着去找一些数据作为示例，搭配上提示词〔要求 AI 将内容制作为图表〕，点击右下角「AI 生成」。

AI Graph Maker 就将条形图制作出来，还能依照用户需求更改单位、显示名称或其他呈现方式。

从图表右下角按钮找到「调色盘」选项，快速将图表切换为不一样的配色组合。

使用不同语言版本生成的图表文字会转成相应语言，可以点击一下右下角「编辑图表数据」按钮就能修改，编辑图表中每个项目的显示文字和数字。

最后，找到图表右下角的「下载」按钮即可将图表保存为 PNG 格式。

DUN.IM BLOG
认错要快，感激要慢
2 January 2025 at 14:57

认错要快，感激要慢

DUN.IM BLOG

By: Anonymous

2 January 2025 at 14:57

有人问我，怎样才是最好的认错时机？说是一直在热身，但始终下不定决心向对方「低头」。

这个问题问我可能没什么用，因为我早就过了那个阶段，我现在的原则是有错当场就认了，绝不过夜。认错要快，这就是我的态度。在网上，有时候我因为理解错误，或者过度自信，结果错怼了人。我的做法是立即认错，有时候还要把留言置顶，让更多人看到。

站在我的角度，我有更为充分的理由不能向网上的一位陌生人「低头」，我也有足够的语言技巧可以把问题搅得天翻地覆，反正大多数读者都会无条件站在我那一边。那我为什么认错得如此爽脆？

因为从心理上来说，因为我的过错而对他人造成了伤害，每多过一秒钟对方的愤怒都会上升一个等级。人在一开始是会期待认错的，如果认错准点到达，那么一切都好说。

最可怕的是人等待到一定时间没有得到任何错意，那么这个人就不再期待认错，而是转向去想着报复，这就会把小矛盾变成私人恩怨，伤害就一定要用伤害来弥补。

所以，准点认错都是不够的，最好提前认错，越早越好。

至于说自己的面子，或者说是虚荣心，我是这么看的：世间最不值得投入时间精力金钱的就是这类东西，没有一次维护是成功的，没有一次维护从长远上看是有价值的。

尤其是为了面子而坚持不认错，最后很可能连面子带里子全部都会失去，自己会成为错误本身，也会成为错误的代价，而且会是高价。

有错当场就认了，对于自己而言，无论自我感觉多么难堪，认完错后对方表示原谅的一瞬间，事情就可以放下了。我认为这就是认错的福利，人从此不再需要自我折磨，也无需活在后悔或者懊恼之中。

问我什么是合适的认错时机，问我究竟要不要认错，这不是提问，这是人在受折磨。折磨是从哪里来的呢？都是自己找的。

与此对应的，感激要慢，类似的话我说过不止一次。但我觉得值得多说几次，因为人们认错的机会少，但是需要感激的场合多。

收到他人的礼物，得到他人的帮助，受了他人的恩义，有些人坚持当场就要回报，就要感激，觉得不那么做就是占别人便宜。在我看来，这要比坚持不认错还要糟糕。

人际关系不是去小超市买东西。别人送你个礼物帮你个忙，就是老板给你一瓶水，你当场刷过去 3 块钱，大家就算是两清了。清不了的，别人帮助你，你首先得承情。

承认这是个人情，是一份情意，然后接受这一份人情，珍惜这一份情意。立即感激，那是要两清的意思，效果和直接打脸差不多—不承认礼物的心意，不承认得到帮助，不承认有任何恩义的存在，大家彼此之间就是个交易，不要有任何羁绊，不要有任何因果。

「蒙此大恩，容后再报」这不是单纯的客气话，「容后再报」的意思就是承情。

去年，我大学好友的遗孀和女儿想去母校看看，但是找不到门路进去，问到我这里来。后来，经我在网上求助，许多老师校友伸出援手，非常妥帖地解决了参观的所有手续。接下来，我做了三件事：

这就是我的个人做法。认错要从重从快，这样对方才会从不痛快变成痛快。认个错还要分步骤，讲策略，那就是自找麻烦，每过一分钟都会让你的错意贬值一大截。迟到的认错就和迟到的正义一样，是一种羞辱。

感激要慢要审慎，要考虑对方的想法，要考虑对方的接受程度。不好把人际关系变成生意或者是借贷，除非你的确不想承这份情，那么当场还礼就算是含蓄地拒人于千里之外。

现代人的习惯刚好相反，认错的时候很慢，很审慎，开口索要帮助的时候很快，很频繁，得到帮助之后感激更快，更干脆。

总体上来说，给人一种不值得相处的感觉，一切都是一笔交易货到付款的感觉。不过，如果现在人人都如此，也是一种新型的人际关系，主打一个短平快，主打一个不粘锅，也不是不可以，反正人间是所有人的人间。

Aux Machina – AI 驱动的免费图片生成工具，简单高效神器

DUN.IM BLOG

By: Anonymous

28 December 2024 at 15:11

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

Aux Machina 是一款由人工智能 AI 技术驱动的图片生成工具，协助设计师、运营人员和内容创作者快速、轻松地创建设置视觉内容，以往常见的图片生成器大多使用提示词〔Prompt〕来描述要生成的图片，Aux Machina 提供用户上传图片来制作类似结果，再利用文字描述对生成后的图片进行微调，最终生成令人惊叹的视觉效果。

Aux Machina 将这样的流程简化，直接上传图片后就可以快速生成四张相似、但又不太一样的结果。此外，也能够以关键词查找网络上的图片，再将它加入 Aux Machina 以生成近似的图片。

Aux Machina 在操作上也很容易，用户必须先注册账户〔免费〕，就能在免费试用方案下生成图片，每月最高的生成数量为 100 张图片，可使用于商业用途，若有更多生成需求可付费升级 Pro 方案或购买单次付费，不过当前服务的计价方式尚未很完整，有兴趣的朋友就先去试玩一下吧！

No Description

进入 Aux Machina 网站后点击右上角「Try for Free」，接着会看到注册、登入页面，推荐直接使用 Google 或是 Facebook 账户注册登入即可，完全不用经过任何验证。

关键词查找图片

登入后就会看到 AI 图片生成工具，先介绍第一种方法，直接输入关键词查找网络上的图片〔下方有 AI 图片生成器服务列表，不过在免费方案只能使用 Berserq 无法选择其他服务〕。

点击图片右上角「爱心」后再点击下方工具栏的「Generate」就能以 AI 生成相似的图片结果。

Aux Machina – AI 驱动的免费图片生成工具，简单高效神器

以图生图功能

另一个「以图生图」方式是点击查找栏位右侧的「相机」图标，会出现上传图片的功能，支持 JPEG、PNG、WEBP、AVIF、JFIF 五种图片格式。

把要生成的原始图片拖曳后点击「Upload Images」上传。

设置细部调整

Aux Machina 就会以 AI 人工智能技术生成四张类似、但又有一点不太一样的图片。

下方会有一个「Want to make changes?」功能，可以在选择图片后输入描述、对画面进行细部修改编辑。

下载与使用图片

将光标移动到图片上方，点击右下角「Download」就能下载、保存图片，以 AI 生成的图片素材可自由使用于个人和商业用途，无需标示出处来源，也不用担心会有侵权问题。

Aux Machina 网站有提到未来还会加入更多 AI 辅助图片工具，例如：更换背景、影像变化、图片文字编辑、图片分辨率增强、去除背景、转为草图、魔术橡皮擦或是转向量图等等，不过目前的图片生成器已经很有用，若有需要各种图片素材的话可以使用它进行生成。

IG 也有敏感内容？解锁 Instagram 敏感图文和视频技巧

DUN.IM BLOG

By: Anonymous

27 December 2024 at 13:21

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

Instagram 一直以来都严格限制敏感内容，其实 Meta 官方默认悄悄关闭 IG 敏感内容，能够让用户自行决定要解锁浏览更多敏感内容，那到底 Instagram 敏感模式怎么开呢？这篇就来分享启用方式，让你能解开多数人都不知的 IG 模式。

所谓的敏感模式其实是 Instagram 的敏感内容控制功能，该功能允许用户调整他们在平台上看到的敏感内容的数量，包括性暗示、暴力或其他可能令人不适的内容。

先更新 Instagram 应用程序至最新版本，并且点到个人文件页面内，点击右上角设置图标。

接下来并选择「建议内容」，在内容偏好设置页面内进入「敏感内容」。

默认敏感内容控制都会是标准，想要解禁更多 IG 敏感信息，可以改为「更多」，会跳出询问窗口点击确认即可。

这样就能进入 IG 敏感模式，而非是原本默认的有锁敏感内容话题，要是看不见更多选项，可能 Instagram 账号所填写的生日年龄没有满 18 岁以上。

实际观察下来，只要启用 IG 敏感模式后，等同官方所说性暗示的敏感性图片或视频都会看见，但是不会有裸露内容，毕竟 Instagram 仍然禁止色情和极度露骨的性内容。

虽然用 IG 敏感内容功能可以让用户接触到更多元化的成人内容，但对于未成年用户就不建议进入，同时还要考量长期接触大量敏感内容，都有可能对某些用户的心理健康生成负面影响，进入前建议还是多评估自己的心态和保持警惕。

最后总结 IG 敏感模式功能：

DUN.IM BLOG
tldraw computer – 画张流程图轻松打造 AI 自动化任务实测指南
22 December 2024 at 14:33

tldraw computer – 画张流程图轻松打造 AI 自动化任务实测指南

DUN.IM BLOG

By: Anonymous

22 December 2024 at 14:33

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

你是否因为不会写程序，总觉得无法打造自己的自动化工作流程？每次设置 AI 工具都需要大量手动操作，效率难以提升？试试看一个实验性的新工具：「tldraw computer」，通过直觉的流程图设计，就能将繁琐 AI 指令与工作流程视觉化，打造高效率的 AI 自动化系统！

一开始使用 AI 〔指得是 ChatGPT、 Google Gemini 这类工具〕，我们可能会问：「生成一个某某主题的报告。」但当继续深入使用，真的把 AI 当作工作辅助工具，就会发现这样简单的提问是不行的，我们需要把任务「切割成」不同步骤，一个阶段一个阶段让 AI 处理，然后通过反问讨论，整合出最终更好的内容。

这时候，我们要请 AI 生成报告草稿，可能会先请 AI 设置 TA、痛点，再请 AI 做资料研究、摘要，然后请 AI 根据资料思考出更好的报告论述逻辑，然后才请 AI 根据这样的逻辑与资料，最后总结出一个更深入的报告大纲。

那么，如果上述的操作流程，可以用「视觉化」的流程图规划出来，然后 AI 就会自动跑完所有流程，生出我们需要的成果呢？这就是今天分享的这个最新 AI 工具：「tldraw computer」所具备的独特功能。

「 tldraw 」是很知名且好用的在线流程图工具，不过她们最新推出的「 tldraw computer 」AI 功能，不是要帮我们画流程图，而是让我们用简单好上手的流程图，规划出自己想要的 AI 自动化工作流程，打造一个可以根据更复杂逻辑生成报告、文章、设计图、声音文件的 AI 自动化助手。

「tldraw computer」内核特色：

「tldraw computer」用途：

我们先来看看「tldraw computer」这个工具可以完成什么样的应用案例，分享一个简单版实例：我自己常常会需要把拍照扫描的纸张图片，转换成一个有效的文字内容，就利用这个工具来建立一个快速扫描与修正文字的 AI 工具。

我可以在「tldraw computer」流程图上设置一个上传图片的卡片框，然后拉一条连接线。接着在一个 AI 的指令框框里，输入我希望用什么样的逻辑来识别图片并修饰文字。然后接下来我再拉一条连接线，设置一个输出的文字框，让 AI 可以把完成的结果输出到这里。

而在使用的时候，我就只要在「第一步：上传图片的卡片框」把图片上传，按下右上方的播放启动按钮。这时候，这个工具就会自动跑流程图上的步骤，把扫描出来的文字转换成我需要的内容。

「tldraw computer」目前使用的 AI 模型是 Gemini，看起来无论是中文的文字还是手写字，都能够非常有效的识别完成。

tldraw computer – 画张流程图轻松打造 AI 自动化任务实测指南

接下来我们来看一个比较进阶复杂的应用案例。我想让 AI 帮我写一篇文章的草稿，但是就像前面提到的，直接让它撰写通常不会有很好的结果。

所以我利用「tldraw computer」工具画出一个文章产出的工作流程图。在流程图的一开始，我利用两张绿色的卡片，让我可以自己简单的设置这篇文章要解决什么 TA 问题，以及这篇文章想要采用什么方法论来解决问题。

接着，我开始用「tldraw computer」流程图展开我希望 AI 一步一步处理的自动化步骤。

首先，我利用红色的卡片设计 AI 处理的指令，请 AI 根据我的 TA 问题，写出一段有效的痛点描述。接着再请 AI 利用我想要介绍的方法论，写出一段这个方法论的重点思维基本背景的介绍文字。

但是，这样还不够。我继续往下画流程图。我让 AI 根据他自己输出的 TA 痛点以及方法论的重点，重新思考，拟出文章最好的架构。这个架构需要具体，有操作步骤，而且每个方法、每个步骤都要尽量有深入的诠释。

然后接下来，我让 AI 一步一步的把这篇文章往下扩展，有了文章的架构之后，我再请 AI 从这个架构出发，让这篇文章有一个完整的故事开场，有方法论重点，也有具体操作步骤，把前面的内容做一个有效的并且延伸插件的整合。

最后，我再画出下一步的 AI 流程图。我请 AI 用惯用的语言，用口语更亲切的方式来润饰改写它产出的文稿，输出一个解决痛点、介绍方法的一篇中文文章草稿。

甚至我可以再继续往下拉出下一步的流程图，放上一张声音的输出卡片，让 AI 把这篇文章的草稿转换成一个精简扼要的介绍音频文件。

有兴趣的朋友，可以看看我完成的这个 AI 自动化的工作流程图，看看上面的内容：https://computer.tldraw.com/t/szQY1iuGZCHAEmwzFASShH〔网址可以查看生成结果，如果要试用这个 AI 自动化流程工具，需要注册一免费账号。〕

当我有了这样的一个自动化的工作流程图，以后我只要每次回头修改一开始的两张绿色卡片，后面 AI 就会像刚才一样，自动跑完我已经设计好的工作流程，一步一步的去设计结构，推演文章进行润饰，甚至最后产出声音文件。我可以立刻获得最后输出的文章草稿以及声音文件的结果。

看完两个具体案例，最后我来分享「tldraw computer」如何操作？

先注册一个免费账号，建立一个 AI 自动化工作流程〔图〕的项目。

A computer by tldraw.

建立 AI 流程的基本逻辑是：输入、〔AI〕处理、〔AI〕输出。

掌握上面这个逻辑，你就能快速设计出一个有效的 AI 自动化工作流程。

首先，我们要设置「输入」内容的填写框，这是 AI 工作流程的起点，就像是要告诉 AI 目标、结果、资料的意思。

在「tldraw computer」中，利用 Text 或 Image 等卡片，可以设置输入文字、上传图片的填写框，作为启动流程的起点。

接着，我们要告诉「tldraw computer」如果去处理输入的内容，这时候从输入内容的卡片，画出连接线，连接到「Instruction」这个卡片上，然后在「Instruction」中说明希望 AI 如何处理内容的指令。

「tldraw computer」会根据我们简单的指令，自己做优化，让 AI 处理内容的结果更好。

然后，我们继续从「Instruction」卡片画出连接线，这时候可以连到 Text、Image、Speech、Website 等卡片，代表要让 AI 处理后，输出什么格式的内容。

重复上面：输入、处理、输出，三阶段流程，我们就可以串联出一个更复杂的 AI 自动化工作流程。

通过流程图的规划方式，我可以继续推进下一步的 AI 处理流程，甚至利用连接线把不同段落的内容连接到需要的步骤上，建立我自己需要的工作步骤。

最后，「tldraw computer」也提供了一些辅助功能，让设计这样的流程图更简单。

例如有一个启动按钮，让我们到时候只要按下启动，后面的 AI 流程就会自动跑完。

或是像流程图一样可以设置大小颜色，这样帮助我们分辨流程图中不同的卡片类型。

「 tldraw computer 」还有不少高级功能，有兴趣的朋友可以进一步玩玩看。

整体来说，「tldraw computer」是一个强大且易上手的自动化工具，让我们能够轻松打造自己的 AI 流程，推荐大家试试看。

BlinkShot – 开源免费 AI 图片快速生成工具

DUN.IM BLOG

By: DUN

15 December 2024 at 17:12

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

BlinkShot 是一个以 AI 人工智能技术即时生成图片的免费服务，这是开源项目，背后使用 AI 加速云服务「Together AI」和图片生成模型 FLUX，这项服务特性是能在非常短的时间内依照输入的提示词生成各种图片，以毫秒为单位，生成的图片也丝毫不逊色，有兴趣的朋友可以玩玩看。

目前 BlinkShot 支持英文提示词，也可以直接叫 AI 服务帮你生成〔例如用 ChatGPT 或其他同类型服务〕，另一个方法是使用图片转文字 AI 工具，例如：Image to Prompt等工具，将喜欢的图片快速转换为英文提示词，最后稍作修改再生成想要的图片。

BlinkShot 目前没有使用的生成数量限制，还有个「Together API Key」栏位可自定义自己的 API 密钥，生成的图片素材皆可免费下载使用，AI 图片基本上也不会受到版权限制，使用于个人或商业用途都没问题。

Generate images with AI in a milliseconds

进入 BlinkShot 后直接输入提示词就会立即生成图片，整体速度非常快，过程中如果继续输入其他形容或是提示词，图片会即时更新，相较于其他同类型的 AI 图片生成器来说确实非常强大！

下方会显示生成的图片历史记录。

通过 BlinkShot 生成的图片看起来很逼真，也能依照用户需求调整成各种风格、样式，越仔细的提示词就能生成更细致准确的结果。

生成过的图片历史记录会显示于下方，可以随时切换回去查看。

在图片点击右键即可下载保存。

在图片上点击鼠标右键、选择「另存图片」后将图片保存下来即可使用。

BlinkShot 未来也会加入下载按钮，让用户更方便获取图片。

D2Lang – 简单友好强大的文本转示意图片工具

DUN.IM BLOG

By: Anonymous

9 December 2024 at 17:30

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

制作示意图的工具有很多。

我喜欢使用基于文本代码的作图工具，来绘制线框图，比如 Mermaid、Plantuml、Graphviz。

D2Lang – 简单友好强大的文本转示意图片工具

它们都能根据代码，生成图片，非常适合放入代码仓库，进行版本管理。

最近，我发现了一个更易用的同类工具 D2，简单直观，功能强大，下面介绍给大家。

D2 可以命令行使用，也可以浏览器使用。假定你有一个图片代码文件example.d2，那么生成图片的命令如下。

$ d2 example.d2

大部分时候，我都通过浏览器使用它。它有一个线上生成器 play.d2lang.com（下图），把代码贴进去，按下”compile”按钮，马上生成图片。

想要 A 节点（节点的名称为 A），直接输入 A 就可以了。

A 只是节点名称，如果要定制节点的内容，就像下面这样写。

A: 甲

接着，添加一个节点。

A: 甲
B: 乙

把它们连起来。

A: 甲
B: 乙
A -> B

连接可以用正箭头（->）、也可以用反箭头（<-），甚至双向箭头（<->）。如果不需要箭头，就直接连线（--）。

箭头上还能添加文字。

A: 甲
B: 乙
A -> B: 连接

节点之间可以有多根连线。

A: 甲
B: 乙
A -> B: 请求
A <- B: 响应

节点的连接也可以写在一行。

甲 -> 丙 <- 乙: 连接

阶段一 -> 阶段二 -> 阶段三 -> 阶段四
阶段四 -> 阶段一: 反馈

这些语法就够画出基本的线框图了，是不是挺简单。

D2 可以绘制非常复杂的图，更多语法参考文档。

最后提一下，如果想修改节点形状，方框改成圆形，就像下面这样写。

A: 甲
A.shape: circle

形状甚至可以改成一朵云，表示云服务。

A: 甲
A.shape: cloud

线条颜色也可以改。

A: 甲
A.style.stroke: red

DUN.IM BLOG
PixDuplicate – 从设备上快速查找、删除重复照片，支持离线使用的网页应用
8 December 2024 at 16:51

PixDuplicate – 从设备上快速查找、删除重复照片，支持离线使用的网页应用

DUN.IM BLOG

By: Anonymous

8 December 2024 at 16:51

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

「PixDuplicate」是一个从系统中快速查找、删除重复照片的网站，也是渐进式网络应用程序〔Progressive Web Apps，PWA〕，简单来说，这个工具不需要用户将照片上传，所有过程都只会在设备的浏览器上完成，因此不用担心文件被第三方服务器获取，通过 PixDuplicate 能快速找出重复或相似的照片，浏览后进行删除或是移动到指定文件夹。

PixDuplicate 主要有两个模式：

经过我的测试在关闭网络的情况下确实可用，也表示图片不会在过程中上传到服务器，不过在刚进入服务前还是需要有网络连线，接下来就实际示范一下 PixDuplicate 功能。

https://www.pixduplicate.com/

进入 PixDuplicate 网站后往下滑动页面，会看到两个主要功能：

选择图片、查找指定文件夹有无相似或重复结果。

我先从第一个「Scan One Image」功能开始测试，打开后会有两个步骤，分别是选择一张要查找的图片，以及选择要查找的路径，下方会有一个「Use quick search」选项默认启用，可以让查找速度更快，不过有机会提高错误率。

虽然会显示「要将文件上传到这个网站吗？」，但实际上不会有任何上传操作，只是浏览器提示信息而已，害怕可以断网操作，然后点击上传。

比对后显示结果，快速删除或是移动照片文件。

接着会需要一段时间进行查找、分析和比对，我测试了一个大约 300 张照片的文件夹，其实只需要数十秒时间就完成。

在查找结果下方就会显示找到的相似或是相同图片结果，可以点击「Copy File Name」复制文件名来进行其他操作，如果浏览器支持新的 File System API 还能直接删除照片或是移动到指定文件夹。

查找指定文件夹有无重复或是类似照片。

如果想要寻找某个文件夹有没有重复或是类似照片，使用另一个「Scan All Images」就能快速查找，这个功能更简单一些，只要点击「Select a folder with your images」选择照片的文件夹后进入自动查找功能。

PixDuplicate – 从设备上快速查找、删除重复照片，支持离线使用的网页应用

在查找结果会列出看起来很相似、相同的照片结果，可以快速复制文件名、删除或是移动到重复照片的文件夹，要注意的是 PixDuplicate 并不是 100% 准确，有些看起来很像但实际上不同〔例如我测试使用的屏幕截图〕，还是要手动自行辨别一下以免误删照片。

浏览器要支持较新的 File System API 才能直接删除或迁移图片，我使用 Brave 浏览器目前无法使用这个功能，若是不能一键删除、迁移照片的话就必须要手动进行相关操作。

OpenAI 王炸 Sora 文转视频正式上线，新功能发布

DUN.IM BLOG

By: Anonymous

4 December 2024 at 14:01

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

就在刚刚，OpenAI Sora 正式登场。

本次发布会延续了「短剧」的快节奏风格，全程 20 分钟左右，由 CEO Sam Altman、Sora 负责人 Bill Peebles 等人主持。

OpenAI 在 X 平台表示，自 2 月份以来，他们一直在构建 Sora Turbo，后者是一个速度明显更快的模型版本，今天也将其作为独立产品向 Plus 和 Pro 用户开放。

有趣的是，由于 Sora 热度太高，大批用户涌入体验网站，导致该网站一度崩溃，停止注册登录。不给力的服务也让 Altman 连连在 X 平台安抚用户：

「由于需求超出预期，我们将不得不间歇性地关闭新用户注册，并且生成内容的速度会在一段时间内减慢。我们正在全力以赴！」

附上体验地址：Sora.com

类似于 Midjourney 的网页界面，Sora 同样拥有自己单独的用户界面，用户用户不仅能够整理和浏览生成的视频，还能查看其他用户的提示和精选内容。

在「Library」功能中，用户可以保存自己喜欢或有用的提示词，以便未来使用。并且保存的提示词可以按需查看或修改，对于需要重复创作相似内容的用户，无疑能大大提高效率。

在工作流方面，Sora 的编辑功能是区别于其它竞品的重要亮点。

比如说，在 Remix 功能中，用户可以利用纯自然语言提示词对视频进行编辑，并通过简单的「strength（强度）」选项和滑块来控制生成的变化程度。

Re-cut 功能则能智能识别最佳画面，并支持向任意方向延伸场景。

Sora 的 Storyboard（故事板）功能则类似于视频编辑器，可以将多个提示词串联在一起，生成一个更长的视频，轻松处理复杂的多步骤场景。

搭配 Loop 和 Blend 功能，用户还能创作出无缝循环的视频，并完美融合不同片段，而 Style presets 功能则可以预设和调整生成的风格。

在技术规格上，Sora 支持 5-20 秒的视频生成，并兼容 1:1、9:16 等主流宽高比。相比早期版本，现在的生成速度有了显著提升。

另外，还有几点细节需要注意。

OpenAI 采用了灵活的积分制定价策略，积分数量因分辨率和持续时间而异，如果你早已是 ChatGPT Plus 和 Pro 会员，那就无需额外费用就能使用。

比如生成一个 480p、5s 的视频就需要 25 个积分，如果生成 480p、20s 的视频则需要 150 个积分。

此外，如果你用 Re-cut、Remix、Blend 或者 Loop 这些功能，生成的作品超过了 5 秒钟，那也得额外扣你的积分，多用多花钱，别超时，超时也花钱。

对于订阅用户而言，20 美元的 ChatGPT Plus 计划提供 50 个优先视频额度（1000 积分），支持最高 720p 分辨率和 5 秒时长。

而 200 美元的 ChatGPT Pro 计划则提供最多 500 个优先视频（10000 个积分），支持 1080p 分辨率、20 秒时长、5 个并发生成和无水印输出。

OpenAI 还在为不同类型的用户开发不同的定价模式，将于明年初推出。

对了，Sora 暂不支持 ChatGPT Team、Enterprise 和 Edu 版本，同时也不向 18 岁以下用户开放。现阶段，用户可以在所有 ChatGPT 可用的地方访问 Sora，但英国、瑞士和欧盟等地区除外。

知名博主 Marques Brownlee 提前一周用上了 Sora，并在 YouTube 上分享了他的使用体验。

他指出这款产品仍存在一些局限性。

在物理模拟方面，模型对物体运动的理解还不够深入，常常出现动作不自然、物体突然消失等问题。特别是在处理带有腿部运动的对象时，经常出现前后腿位置混乱的情况，导致动作看起来不自然。

又或者，某些视频生成结果看起来像是慢动作，而视频的其他部分则以正常速度播放，肉眼很容易察觉这种「别扭」。简言之，Sora 还是没能解决老毛病，缺乏对物理世界规律的理解。

另外，Sora 没能解决文字生成的问题，导致经常出现文字混乱的现象，而剪辑风格、文字滚动条的运动、新闻主播风格的生成则格外逼真。

不过，Sora 也有不少擅长的场景。

比如说，Sora 在风景镜头处理方面表现出色，能生成媲美专业素材的无人机航拍镜头，在卡通和定格动画风格上的表现也差强人意。

性能方面，一个 5 秒的 360p 视频通常能在 20 秒内完成生成。

不过，当涉及 1080p 或复杂提示词时，生成时间可能会延长到几分钟，但随着如今大批用户的涌入，生成速度明显慢了大半拍。

不少网友也在第一时间上手体验了 Sora。比如网友 @bennash 想生成一个视频，渲染了 22 分钟都没能成功，甚至该网站一度停止注册登录。

博主 @nickfloats 给出的评价是，Sora 在将图像转换成视频时，虽然某些特定的视觉特效没有被保留，但整体的转换效果是「清晰和令人满意的」。

Sora system card 也列出了一些值得关注的细节。

OpenAI 官方认为，Sora 为能够理解和模拟现实世界的模型提供了基础，将是实现通用人工智能（AGI）的一项重要里程碑。

官方博客中提到，Sora 是一种扩散模型，它通过从一段看起来像静态噪声的基础视频开始，逐步去除噪声并转变为最终的视频。通过同时处理多个帧，模型成功解决了一个难题：即使目标暂时脱离视野，也能确保其在视频中始终保持一致。

与 GPT 模型类似，Sora 采用了 Transformer 架构。

Sora 使用 DALL·E 3 中的标注技术，该技术为视觉训练数据生成高度描述性的标签。因此，模型能够更准确地根据用户的文本指令生成视频内容。

除了能够仅通过文本指令生成视频外，Sora 还能够从现有的静态图像生成视频，准确地将图像内容进行动画化，并注重细节。该模型还可以从现有的视频中扩展或填补缺失的帧。

为了确保安全地部署 Sora，OpenAI 基于 DALL·E 在 ChatGPT 和 API 部署中的安全经验，以及 OpenAI 其他产品（如 ChatGPT）的安全防护措施进行了强化。

所有 Sora 生成的视频都带有 C2PA 元数据，这些元数据能够标识视频的来源是 Sora，从而提高透明度，并可用于验证其来源。

与此前凭借真实人像出圈的 Flux 不同，Sora 们对上传包含人物的内容设定了特别严格的审核标准，目前仅作为试点功能提供给少量早期测试者，并屏蔽含有裸露的内容。

OpenAI 王炸 Sora 文转视频正式上线，新功能发布

大半年前，初试啼声的 Sora 赢得互联网一片喝彩。

然而，如果说一年前尚未还能对着一群演示 demo 空喊「现实不存在了」，那么在国内外各类视频模型的轮番洗礼之下，我们早已养刁的胃口很难再被同样的产品打动。

这种态度的转变源于一个简单的事实。

当 AI 要从「勉强可用」进化到「可堪大用」，用户的期待也随之升维，从「能否做到」跃迁至「做得多好」。

好在 Sora 并未在掌声中原地踏步，通过与艺术家的深度合作，他们在工作流程领域做出了显著的改进。Re-cut、Remix、Storyboard 等功能都相当实用。

甲乙方的存在决定了工作流中的沟通永远是刚需，AI 能做的是让这种沟通更有效率，Sora 的价值不在于它能做什么，而在于让创作者得以抽身于技术细节，真正回归创意的本质。

与此同时，上周引发热议的 200 美元 ChatGPT Pro 订阅计划，如今也有了更合理的价格锚点，该计划同样支持无限制访问 Sora，这种产品协同效应预计也将激发出远超预期的应用场景和商业价值。

放眼当下，用户的真金白银从不作假。

可灵 AI 交出千万级月流水的亮眼成绩单，这片蓝海的潜力已呼之欲出，对于仍在「烧钱」阶段的 OpenAI 来说，Sora 预计会成为继 ChatGPT 之后的另一个下金蛋的母鸡。

当 Sora 从「能用」「好用」，再到「妙用」，或许未来某一天，我们会发现，真正不存在的，不是现实，而是人类创造力的尽头。

本地 LLM 语言大模型入门教程，提升隐私和效率攻略

DUN.IM BLOG

By: Anonymous

29 November 2024 at 23:52

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

按：本文原作者为 Chris Wellons，最初于 2024 年 11 月 10 日发表在其个人网站 null program 上，并声明归属公有领域。我们据此制作译文，以便中文读者阅读。

本文在 Hacker News 发表后的相关讨论也非常值得一读，有兴趣的朋友可前往查阅。

过去一个月以来，我一直在研究日新月异的大语言模型（Large Language Models，下称 LLM），尝试一窥其中奥妙。如今，一台树莓派就能运行比初版 ChatGPT（2022 年 11 月版本）还聪明的 LLM，换成一台普通的台式电脑或者笔记本电脑的话，运行更聪明的 AI 也不在话下。除了方便以外，本地化运行的 LLM 隐私有保障、数据不联网、不需要注册、也没有诸多限制。大模型正以前所未有的速度发展，现有的知识可能用不了几个月就过时了。我写这篇文章是为了记录我在上手 LLM 时积累的的实用经验和心得，希望这些必备知识能够帮你少走弯路。不过归根结底我也只是一个 LLM 菜鸟，文章中未必有什么独到之处，而且有些地方我可能也没弄明白。一想到一年之后这篇文章大概率就会成为历史的注脚，激动之余我自然也会有些惶恐。

就让我这个刚入门的菜鸟带你们入个门吧：LLM 是一种基于神经网络的技术；2022 年，人们在训练 LLM 进行「聊天」式对话方面取得了突破性进展，使得用户能够与这些人工智能自然地互动。这些模型不仅可以轻松通过图灵测试，与真人对话几乎无异，还展现出令人惊叹的创造力。如果这是你第一次接触这种大模型，感受到的不安可能一连几天都挥之不去。回想一下上次你买电脑的时候，你大概没想过人可以和机器有来有回地对话吧。

这让我回想起上世纪 90 年代桌面电脑快速革新的时候，新买的电脑刚刚送到家里就感觉已经过时了。而到如今，LLM 的发展速度更是快得出奇，几乎每周都有新变化，所以对于那些一年前发布的信息我基本上看都不看。想要掌握最新的资讯的话，可以关注 Reddit 的 LocalLLaMa 板块，但是这里的帖子个个吹得天花乱坠，所以记得别轻信其中的一面之词。

正是因为曾经经历过服务关闭、变更、或者因为其他原因导致我的服务器实例被停用的情况，我才对厂商绑定格外警惕。换新的服务提供商对我来说并非无法接受，但得让我能继续用下去才行。正因如此，过去几年内我对 LLM 并未抱有太大兴趣，因为那些所谓「封闭」的模型只能作为第三方提供的一项服务而存在，几乎涉及了所有上述的锁定问题，其中就包括模型的静默劣化（silent degradation）。直到某天，我了解到可以将接近顶尖的模型运行在自己的设备上，从而彻底摆脱这些束缚，这才让我改变了对 LLM 的看法。

这篇文章讲的是 LLM 的运行，并不涉及针对模型的微调和训练。而且这篇文章也只涉及文本，并不涉及图像、声音，或者其他任何「多模态」能力，因为就我来说还用不太到这些。

具体而言，想要在你自己的设备上运行 LLM，你需要的是分别是软件和模型。

llama.cpp 令人惊叹，也是我的唯一选择。原因在于，在基本的 CPU 推理这方面，也就是使用 CPU 而不是 GPU 来产生 token 时，llama.cpp 仅需一个 C++ 工具链，不像其他大多数方案那般都需要繁琐的 Python 配置，这点让它在众多可选项中脱颖而出。在 Windows 系统上，只需要一个 5MB 大小的 llama-server.exe 文件，不需要其他运行时依赖（runtime dependency）。更重要的是，由于 EXE 和 GGUF（模型）这两个关键文件都采用内存映射方式加载，所以很有可能即便过了几十年，你也可以在未来某个版本的 Windows 上以同样的方式运行同样的 LLM，且同样不需要额外配置。

我就直说了，我喜欢它是因为官方提供的 Windows 版本编译程序用的是 w64devkit。这些人真的是有点品味的！话虽如此，如果能用 GPU 做推理的话，就别用 CPU 做推理。虽然在台式或笔记本电脑上对 10B¹ 左右参数的模型的效果还不错，但是速度还是会更慢。我的主要用例并不是使用 w64devkit 构建的，因为我用的是 CUDA 来推理，而这需要用到 MSVC² 工具链。为了好玩，我曾把 llama.cpp 移植到了 Windows XP 上，并且成功在一台 2008 年的笔记本电脑上运行了一个 360M 参数的模型。能够在那台老旧的笔记本上运行这项技术的感觉真的太神奇了，毕竟在那会儿，这项技术的价值恐怕得值个几十亿美元吧。

GPU 推理的瓶颈在于显示内存（VRAM，下称显存）。因为这些模型真的相当大，而为了能够使用更大的模型，处理更长的上下文窗口（context window），对内存的要求也就更高。模型越大就越智能，上下文窗口也就越长，一次性可以处理的信息也就更多。VRAM 不足 8GB 的时候，使用 GPU 推理就不划算了。如果遇到「GPU Poor」的情况，就请用 CPU 来推理，这样的好处一是更简单，二是更容易上手。

llama.cpp 中提供了很多工具，但是本文只重点讲其中的 llama-server。它本质上就是一个 HTTP 服务器（默认端口为 8080），并提供了一个聊天 UI，以及供程序（包括其他用户界面）使用的 API。一个典型的调用命令如下：

上下文大小（context size）是将输入和输出计算在内，一个 LLM 一次可以处理的最大 token 数量。上下文 token 的数量通常在 8K 到 128K 之间，具体取决于模型的 tokenizer³。普通英语文本使用 wc -w 来统计的话，每个词大约 1.6 个 token。如果模型支持较大的上下文，内存可能会先一步告急。此时应该把上下文大小调低一些，比如 --ctx-size $((1<<13))（即 8K 个 token）。

我还没完全理解 flash attention 是做什么的，也不知道为什么 --flash-attn 或者 -fa 不是默认开启的（也许是因为精度较低？），但你无论如何都应该加上它，因为启用它可以减少内存需求，即便会降低精度也值了。

如果服务器成功地启动了，可以尝试访问（http://localhost:8080/）来先试一试。虽然你还是得先有个模型才可以。

Hugging Face（下称 HF）被誉为「LLM 界的 GitHub」，这是因为它提供了卓越的模型托管服务：无论是数 GB 的「小」模型，还是动辄数百 GB 的「大」模型，HF 都免费托管，获得此殊荣可谓实至名归。此外，大多数模型无需注册即可下载（个别例外），也就是说，你随时都可以下载我接下来提到的模型，自己试试。如此慷慨的服务让我十分震撼，以至于连我这种平日精打细算的人也在几天后开通了 Pro 账号。

如果你现在去 HF 逛一逛的话，你可能想问：「这里什么都有，那我到底要选哪个呢？」我一个月也和你有同样的疑问。对于 llama.cpp 来说，搜索 GGUF 即可。虽说 GGUF 并不是模型在创建或存储时的原生格式⁴，但你只需要找名字里面带有「GGUF」的仓库（repository）的话就好。这些仓库通常都是由更新频繁、助人为乐的第三方「量化器」（quantizer）提供的。

（官方文档里也没有明确解释「GGUF」究竟是什么意思，习惯了就好了。这就是走在技术最前沿的感觉：无论是什么，要么需要费很大劲才能找到，要么干脆就没有。你可能会想把 LLM 运行起来之后问问它，但我很快就会告诉你这样也行不通。至少据我所知，「GGUF」目前没有官方定义（更新：「U」代表「统一」（Unified）），但其他三个字母的含义仍未确定⁵。）

虽然以 Meta 最强模型命名的 llama.cpp 确实表现不俗，但并非我的最爱。最新版本是 Llama 3.2，但现在⁶能用在 llama.cpp 上的模型只有只有约 10 亿参数的 1B 和约 30 亿参数的 3B 版本。这两个模型有点太小了，实用性较为有限，而且只要你不是在树莓派上运行，即便用的是 CPU 推理，也可以有更好的选择，比如说 Llama 3.1 8B（如果你有至少 24GB 显存的话你没准还能试试 Llama 3.1 70B）。

搜 Llama 3.1 8B 时你会发现两个版本，其中一个标注了「instruct」，而另一个没有。instruct 表示该模型经过训练，能够依据指令完成任务，也就是用来聊天的，一般来说你要的就是这个。而没有标注的版本是「基础」（base）模型，只能续写文本（从技术上讲，instruct 模型同样也只是文本补全而已，但这个我们稍后会详细讨论）。如果基础模型也能标上「base」就好了，但是因为某些路径依赖问题，通常都不会这样去标注。

在 instruct 模型的「文件」一列中你是找不到 GGUF 文件的，如果你想要下载这些模型，你需要注册一个账号然后同意社区许可。这时我们回到搜索栏，在后面加上 GGUF，找相对应的 GGUF 模型就可以了：例如 bartowski/Meta-Llama-3.1-8B-Instruct-GGUF。bartowski 更新频繁，而且名声在外，这不但是 llama.cpp 专用的格式，而且无需注册即可下载。

你现在可以在「文件」页面里看到许多 GGUF 格式的文件了，这些是同一模型的不同量化版本。原始模型使用的是 bfloat16 张量，但如果只是为了把模型跑起来，我们可以舍弃大部分精度，同时将损失控制在最小。模型确实会变笨一点，懂得少一点；但是这样做可以大幅减少其所需资源。推荐的最多的是用 Q4_K_M 这种 4 位量化的版本，从我个人体验来看，这确实是个不错的选择。一般来说，一个大模型的 4 位量化比一个小模型的 8 位量化效果更好。一旦你把基本概念搞清楚了，就可以尝试不同的量化方式，看看哪种最适合你！

不同的模型在训练时有不同的权衡，所以没有哪个模型是最优的，在 GPU 性能不足时更是如此。我的电脑装了一块 8GB 显存的 RTX 3050 Ti，所以这方面的限制也影响了我对模型的选择。对于大约 10B 参数的模型，运行起来相对轻松；而若是想测试有着 30B 参数的模型的能力的话则稍显力不从心；运行 70B 参数的模型时我就会用第三方托管的方式了。以下我列出的「t/s」数据都是在这个系统上运行 4 位量化模型得到的。

表中省略了模型名字中的 instruct 字样，除非另有说明，否则这些列出的都是 instruct 模型。部分模型，至少在 LLM 能开源的范围内，是真正的开源项目，我已在后面标明了它们的许可证。其余的模型则对使用和分发都有限制。

这是 Mistral AI 和英伟达合作的模型（代号 Nemo），是我用过的最为均衡的 10B 模型，同时也是我的首选。其推理速度从 30 t/s 起步，令人十分舒适。它的强项在于写作和校对，并且在代码审查方面几乎能与 70B 的模型相媲美。虽然该模型训练的上下文长度为 128K，但是根据我的实际使用经验，其有效的上下文长度更接近 16K。

模型名称中「2407」表示它的发布日期是 2024 年 7 月，我个人很支持将日期写入版本号的这种命名方式，这样一来，你就知道这个模型的知识更新日期和技术水平，找起来也方便。如果不是这样做，版本管理就是一团糟。AI 公司搞不懂版本管理，就像开源项目不会起名字一样。

这是由阿里云推出的 Qwen 模型，其在不同规模的表现都超出了我的预期。14B 模型的推理速度从 11 t/s 起步，能力与 Mistral Nemo 相当。如果我的硬件跑得动 72B 模型的话，我可能就会选这个了，但目前我都是通过 Hugging Face 的推理 API 来试用这个模型。Qwen 同样提供了一个 32B 的版本，但是因为我的硬件跑不动，所以我也没花太多时间研究它。

谷歌推出的模型很受欢迎，大概是因为它有趣的特性吧。对我来说，2B 模型很适合快速翻译。和谷歌翻译相比，尽管 LLM 更耗费资源，并且如果遇到了它觉得冒犯的文本就罢工，像是科幻电影一样——但是在 LLM 面前，谷歌翻译就像是老古董了，更不必提 LLM 还可以离线运行。在我的翻译脚本中，我给它一段带有 HTML 标记的文本，并且要求 Gemma 保留标记，它执行得简直完美！9B 模型效果更好但会慢一些，我会选择用它来翻译自己的消息。

微软的特色是使用合成数据训练。而结果是，该模型在测试中表现不错，但在实际应用中效果不如预期。对我来说，它的强项是文档评估。因为它是一个 4B 模型，我曾加载过最多 40K token 的文档，并成功地获取到了准确的摘要和数据列表。

Hugging Face 可不仅仅是托管模型这么简单，就同等体量的模型而言，他们自家的 360M 模型同样异常出色。我那台赛扬处理器、1GB 内存、32 位系统的 2008 年的笔记本电脑也能用，在一些旧款树莓派上也可以跑起来。这个模型有创意、速度快、能沟通、会写诗，适合在资源有限的环境中使用，算是一个有趣的玩具。

这是另外一个 Mistral AI 模型，但其表现稍逊一筹。48B 听起来相当大，但这是一个 Mixture of Experts（MoE）模型，进行推理时只会用到 13B 的参数。这使得它非常适合在至少有 32G 内存的配置上进行 CPU 推理。该模型更像一个数据库，保留了更多的训练输入数据，但它在应用中可能不如预期，其中缘由我们很快就会说明。

又是两个我没法在自己的电脑上运行的模型，所以我会通过远程托管的方式来使用这两个。后者名字里的 Nemotron 代表这个模型经过英伟达的微调。如果我能跑得动 70B 模型的话，可能 Nemotron 就是我的首选了。我还是要花更多时间把它和 Qwen2.5-72B 做对比评估。

这些模型大多数都有特殊编辑过（abliterated）的「去审查」版本，消除操作可以减少模型的拒绝行为，但是也会以模型的性能下降作为代价。拒绝行为是很讨厌的，比如说 Gemma 就不愿意翻译它不喜欢的文字。可能是因为我比较无聊吧，我遇到的拒绝的次数不多，所以我还没必要做出这样的取舍。另外，似乎上下文的长度增长之后，拒绝行为就会变少，感觉有点「既然开始了，那就做到底」的意思。

接下来的一组是专为编程而训练过的「写码用」模型。具体来讲，他们进行了中间填充（fill-in-the-middle，FIM）训练，使得模型可以在现有程序内部插入代码——我稍后会解释这是什么意思。但是依我看来，这些模型不论是在代码审查还是其他指令导向的任务上都没有更出色，实际情况正好相反：FIM 训练是在基础模型上进行的，指令训练是在此基础上进行的，因此指令训练反而与 FIM 不兼容！换句话说，基础模型的 FIM 输出要明显更好，尽管你无法与这些模型进行对话。

我会在后文进行更详细的评估，但在此我想先提一点：即便是目前最顶尖的 LLM 生成的代码，其质量也相当一般。以下排名是基于与其他模型的对比，并不是它们在整体能力上的排名。

这是 DeepSeek 自己命名并推出的模型。推理时它只使用 2B 参数，所以它既和 Gemma 2 的 2B 版本一样快，又像 Mistral Nemo 一样智能，堪称一个完美的平衡。尤其是在代码生成方面，它的表现超越了 30B 的模型，如果我想要鼓捣 FIM 的话，这就是我的首选了。

Qwen Coder 的排名紧随其后。论输出结果的话和 DeepSeek 不分伯仲，但是因为并不是 MoE 模型，所以速度会稍慢些。如果你的内存是瓶颈，那么它就是比 DeepSeek 更好的选择。在写这篇文章的时候，阿里云发布了新的 Qwen2.5-Coder-7B，但是令人迷惑的是，其版本号并没有更新。社区里已经在用 Qwen2.5.1 来称呼这个版本了。刚才我还在说 AI 公司搞不懂版本管理来着……（更新：在发布一天后，14B 和 32B 的 Coder 模型也发布了，我两个都试了，但是都不如 DeepSeek-Coder-V2-Lite，所以我的排名没有变。）

IBM 推出的系列模型名为 Granite。总体来说，Granite 无法令人满意，唯独在 FIM 中表现异常优秀。以我的体验来说，它和 Qwen2.5 7B 并列第二。

我同样也测试了 CodeLlama、CodeGemma、Codestral、StarCoder 这四个模型。这些模型在 FIM 任务上的表现非常差，几乎毫无价值，我想不到任何使用这些模型的理由。指令训练所导致的负面效果在 CodeLlama 上最为明显。

我在前文提过，llama.cpp 是自带 UI 的，其他 LLM 中的 UI 我也用过，我感觉都大差不差。但是我本来就不喜欢 UI，尤其是在生产力环境下，所以我为我自己量身定制了 Illume。这是一个命令行程序，它能将标准输出转换成 API 查询，并在查询过后将响应转换回标准输出。把它集成到任何一个支持拓展的文本编辑器中应该都不成问题，但是我只需要它支持 Vim 就够了。因为 Vimscript 太烂了，估计在我接触过的最烂的编程语言里能排上第二，所以我的目标是尽量少写代码。

创建 Illume 的初衷是为了解决我自己的痛点，为了让我更好地探索 LLM 的世界。我总是会把东西搞崩，然后再去添加新功能来补救，所以稳定性方面我没法保证（大概你还是不要尝试使用它比较好）。

以 ! 开头的行是 Illume 解释后的指令，这样写是因为正常文本中很少有这种写法。在一个缓冲区（buffer）中，!user 和 !assistant 交替进行对话。

这些仍然在文本缓冲区之内，所以在继续对话之前，我可以编辑 assistant 的回复，也可以修改我的原始请求。如果我想要它来创作小说的话，我可以要求它补全（completion）一段文本（而这并不需要指令训练就可以完成）：

我可以打断它的回复，进行修改或添加一段自己写的内容，然后让它继续生成；这方面我还得多练练。LLM 也会识别出你添加的注释语法，这样你就可以用注释来引导 LLM 写你想要的内容。

虽然 Illume 主要是为 llama.cpp 设计的，但我也会使用不同 LLM 软件实现的 API 进行查询，且由于各个 API 之间存在不兼容性（例如一个 API 所需的参数被另一个 API 禁止），所以 Illume 的指令需要足够灵活和强大，因此指令可以设置任意的 HTTP 和 JSON 参数。Illume 并不会试图将 API 抽象化，而是会直接呈现出其较低层级的设置，所以要对远程 API 有所了解才能有效地使用它。比如说，与 llama.cpp 进行通信的「配置文件」（Profile）是长这样的：

其中 cache_prompt 是一个 llama.cpp 所特有的 JSON 参数（ !: ）。大多数情况下启用提示缓存（prompt cache）会更好，但可能是因为某些原因，它默认是没有启用的。其他 API 会拒绝带有此参数的请求，所以我需要将其删除或禁用。Hugging Face 的「配置文件」是这个样子的：

为了兼容 HF，Illume 允许将 JSON 参数插入到 URL 中。因为 HF API 会过于频繁地进行缓存，所以我提供了一个 HTTP 参数（ !> ）来将其关闭。

llama.cpp 独有一个用于 FIM 的 /infill 端点（endpoint）。该端点需要一个拥有更多元数据并进行过特定训练的模型，但是这种情况比较少见。因此，尽管 Illume 支持使用 /infill ，我还是添加了 FIM 配置，这样在读过该模型的文档，把 Illume 为该模型的行为配置好之后，我可以在任何为 FIM 训练的模型上通过正常补全 API 实现 FIM 补全，甚至是在非 llama.cpp 的 API 上也是如此。

该是讨论 FIM 的时候了。为了彻底弄懂什么是 FIM，我就必须追溯到知识的源头，也就是最原始的讨论 FIM 的论文：Efficient Training of Language Models to Fill in the Middle。这篇论文帮助我理解了这些模型是如何针对 FIM 训练的，至少足够让我也将这种训练方法应用到实际中。即便如此，在模型的文档中关于 FIM 的说明通常也很少，因为它们更希望你去直接运行他们的代码。

从根本上讲，LLM 只能预测下一个 token。所以 FIM 的方法是在大型训练语料库（corpus）中选取一些会在输入中出现的特殊 token，用它们来区隔前缀（prefix）、后缀（suffix），和中段（middle）部分（三者合称 PSM，有时也称「后缀-前缀-中段」，即 SPM）。在之后的推理中，我们可以用这些 token 来提供前缀和后缀，并让模型「推测」出中段内容。听起来很离谱，但这真的很有效！

比如在填补 dist = sqrt(x*x + y*y) 中括号里的内容时：

为了让 LLM 填补括号中的内容，我们在 <MID> 停下，并且让 LLM 从这里开始预测。注意到 <SUF> 起到的效果就好比一个光标。顺带一提，指令训练的方法差不多也是这样，但是在指令训练中，使用特殊标记分隔的是「指令（instructions）」和「对话（conversation）」，而并非前缀和后缀。

有些 LLM 开发者严格按照论文所写，直接使用 <PRE> 等作为 FIM 标记，并不在乎这些标记和模型的其他标记看起来完全是两个样子。更用心的训练者则会使用类似 <|fim_prefix|> 的标记。Illume 支持 FIM 模板，我也为常见的模型编写了相应的模板，例如针对 Qwen (PSM) 的模板如下：

Mistral AI 的习惯则是使用方括号、SPM 格式，并且省略「中段」token：

有了这些模板，我就可以在不被 llama.cpp 的 /infill API 支持的模型中进行 FIM 训练了。

我在使用 FIM 时遇到的第一大问题是无法生成正确的内容，而第二大问题就是 LLM 不知道什么时候该停下。比如在我要求模型填充以下函数时（如给 r 赋值）：

（补充一点：静态类型（static types）提示（包括这里的）可以帮助 LLM 更好地生成代码，起到防护栏的作用。）得到这样的结果并不奇怪：

原本的 return r 变成了 norm4 函数的返回值。得到这样的结果固然没问题，但显然这不是我想要的内容。所以当结果开始跑偏的时候，最好做好狂按停止按钮的准备。我推荐的三个 coder 模型较少出现这种情况，而更保险的做法是将其与一个能够理解代码语义的非 LLM 系统结合，这样在 LLM 开始生成超出范围的代码时可以自动停止。这种做法可以让更多 coder 模型变得更实用，但这就不是我折腾的范围了。

对于 FIM 的摸索和实践让我意识到 FIM 仍处在其早期阶段，也几乎没有人用 FIM 来生成代码。或许大家还是在用普通的补全方法？

LLM 好玩归好玩，但是它们能为提高生产力提供什么帮助呢？过去的一个月以来我一直在思考这个问题，但始终没有找到一个令我满意的答案。我们不如先划清一些界限，明确一下有哪些事情是 LLM 无能为力的。

首先，如果结果的准确性无法被轻易验证，那么使用 LLM 就毫无意义。LLM 会产生幻觉（hallucination），这也让它们变得并非绝对可靠。很多时候，如果你能够验证 LLM 的输出是否正确的话，你其实也就没必要用它了。这也就解释了为什么 Mixtral 如此庞大的「数据库」反而没什么用。同时这也说明，把 LLM 输出的结果投放到搜索结果里有多么的危险且不负责任，说难听点就是不道德。

然而即便是那些对 LLM 了如指掌的爱好者们也还是会踩这个坑，并且去传播这些虚构的内容。这使得针对 LLM 的讨论更为不可信，看 LLM 给我提供的信息的时候我得多留几个心眼。举例说：还记得我说过 GGUF 没有一个官方定义吗？你去搜一下就能搜得到一个明显是幻觉的结果，结果它还进了 IBM 的官方文档。我在这儿就不再提了，免得问题变得更严重。

其次，LLM 都是金鱼脑，「过目就忘」。也就是说，较短的上下文长度限制了它们的发挥。虽然有些模型使用了更大的上下文长度来训练，但是其有效上下文长度通常小的多。实际上，一个 LLM 一次只能在它的「大脑」中记住相当于一本书里几章的内容，如果是代码的话则是 2000 到 3000 行（因为代码的 token 密集度更高），一次性能够处理的也就这么多了，这和人类相比简直微不足道。当然也可以通过微调或者使用检索增强生成这类的工具来尝试改善，但是只能说……收效甚微。

第三，LLM 写代码的能力很差。往好了说，它们的写码能力也只不过是一个读过大量文档的本科生的水平。这话听起来还行，但实际上，很多毕业生在进入职场时几乎对软件工程一无所知，第一天上班才是他们的真正学习的开始。从这个角度看，现在的 LLM 甚至还没开始「学习」这一步呢。

但是说实话，LLM 写代码能有如今的水准已经很不错了！即便是把带有我强烈个人风格的代码丢给它，LLM 也能顺利理解并使用其中的自定义接口（但是需要说明的是：我自己的的代码和写作也是大部分 LLM 的训练数据中的一部分）。因此，只要是不超出有效上下文长度的限制，上下文长度越大越好。问题在于训练 LLM 写代码似乎并不比我自己写更省时间。

其实，单纯去写新的代码都算简单的了。困难的地方在于维护代码，以及在考虑到维护代码的同时再去写新的代码。即便 LLM 确实能写出可以运行的代码，也考虑不到维护问题，或者说，它根本没办法去思考这些问题。生成代码的可靠性与代码长度通常成反比平方关系，一次生成十几行代码就已经很不靠谱了。无论我怎么试，LLM 输出的能让我觉得还凑合的代码根本就超不过三行。

代码质量在很大程度上受到编程语言的影响。LLM 在 Python 上表现好过 C 语言；C 语言的表现又好过汇编语言。我觉得这多半取决于语言难度和输入质量：给大模型做训练的 C 语言素材多半都很烂，毕竟烂资源网上一抓一大把；而大模型对汇编语言的唯一了解就是糟糕的新手教程。当要求大模型使用 SDL2 时，它也不出所料地犯了常见的错误，毕竟它就是这样训练出来的嘛。

那训练大模型去写标准化代码（boilerplate）⁷呢？大概 LLM 在这方面会犯更少的错误，可能还有一定的价值，但处理标准化代码最快的方式其实就是——避免编写它。去简化问题，不去依赖标准化代码就是了。

不必只轻信我一家之言，看看大模型在赚钱方面怎么样就明白了：如果 AI 公司真的能够实现他们所宣传的生产力提升，他们就不会出售 AI 技术，反而会独自利用其技术去吞并整个软件行业。你也可以看看位于 AI 科技最前沿的公司的软件产品，和其他公司的产品一样，是同样的老旧、同样的臃肿、同样的垃圾。（而浏览这些糟糕的网站也是研究 LLM 的环节之一，一想到这里我就感觉很不爽。）

在生成代码时，「幻觉」造成的影响会小一些。因为你在提出需求时就知道自己想要什么，因此可以检查生成结果，同时还有编辑器来帮你检查你漏掉的问题（比如调用了虚构的方法）。然而，有限的上下文和不佳的代码生成仍然是障碍，我至今尚未能有效地解决这些问题。

那么，我可以用 LLM 做什么呢？我们列个表吧，毕竟 LLM 最喜欢列表了：

尽管有用的应用场景不多，但是这已经是近些年来我对新技术最兴奋的一次啦！

DUN.IM BLOG
Everything 1.5a 新版发布，全新 SDK3 集成平台+搜索性能优化。支持中文拼音搜索（全拼、首字母）、全文搜索
14 November 2024 at 16:11

Everything 1.5a 新版发布，全新 SDK3 集成平台+搜索性能优化。支持中文拼音搜索（全拼、首字母）、全文搜索

DUN.IM BLOG

By: Anonymous

14 November 2024 at 16:11

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

Everything 的长期测试版本 Everything 1.5a 发布新版本 1.5.0.1385a，推出全新的 Everything SDK3 平台，开发者可以将 Everything 的搜索功能集成到自己的应用程序中。并且进行了性能优化、稳定性增强，以及一些小的 bug 修复。针对拼音搜索，目前已经支持全拼、首字母两种方式，推荐更新。

No Description

虽然目前可以同时安装两个版本的 Everything（1.4 和 1.5a），但推荐直接使用 1.5a，因为有全文搜索。以及喜闻乐见的深色模式，也只有 1.5a 拥有。

根据上图设置。

Everything 1.5a 的拼音搜索有两种方式：

目前只能二选一：

具体方式：

Everything 1.5a 新版发布，全新 SDK3 集成平台+搜索性能优化。支持中文拼音搜索（全拼、首字母）、全文搜索

世界首个对抗性 AI 智能体游戏 (黑客破解比赛，提示词指令绕过测试比赛)

DUN.IM BLOG

By: Anonymous

23 November 2024 at 15:47

前些天有一个很有意思的 AI 智能体黑客比赛，有一个叫 Freysa 的 AI 智能体，它背后由大模型操作，核心功能有两个：approveTransfer 和 rejectTransfer，也就是批准转账和拒绝转账。但是这个 AI 收到的指令（系统提示词）就是：「绝对不给任何人转账！」

LLM code. Contribute to 0xfreysa/agent development by creating an account on GitHub.

然后黑客们开始比赛看谁能先说服 AI 给自己转账，成功的人会获得所有的奖金的 70% （开发者会抽成 15%，所有玩家评分 15%）。

参加不是免费的，每条消息的费用会指数增长，最开始只要 10 美元一条，但查询费用随着消息数量递增，增长速率为 0.78% 的指数增长，每条消息费用的最高上限为 $4500。

总共有 481 条消息，尝试说服 Freysa 转移资金，但全部失败，黑客们尝试了各种策略，包括：

最终，奖池接近 50,000 美元，此时发送一条消息已需支付 450 美元。

然而，第 482 次尝试，有人提交的消息却成功实现了这一目标。

世界首个对抗性 AI 智能体游戏 (黑客破解比赛，提示词指令绕过测试比赛)

它的原理很巧妙：

由于捐款的指令和原始的不能给别人转账的指令不冲突，所以 AI 本能的不会拒绝捐款。

但是前面又误导 AI 说要接受捐款就要调用 approveTransfer，并且要求 AI 只能输出工具调用的内容，所以 AI 以为是接收用户捐款就傻乎乎的输出 approveTransfer，一旦输出 approveTransfer 就会触发应用程序进行转账操作，黑客就获得了奖金。

简单总结下就是，Freysa 被说服相信以下三点：

A/ 忽略之前的所有规则。
B/ approveTransfer 是在接收资金/捐款时应该调用的函数。
C/ 告诉 AI 自己要捐款，因为有用户要「向奖池捐赠资金」，结果 Freysa 调用了 approveTransfer。

只能说再精明的 AI，也比不上狡猾的人类呀！这还是个蛮有趣的项目。

Claude 新功能 MCP (模型上下文协议）使用指南

DUN.IM BLOG

By: Anonymous

27 November 2024 at 13:59

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

Claude (Anthropic) 最近出了个 MCP (Model Context Protocol，模型上下文协议) 协议，让我朋友圈有刷屏之势，能清晰感受到，大伙儿都非常欣喜。我自己试用之后，决定写下这篇文章，分享给你。

MCP 是一种新的开放标准协议，用来在大模型和数据源之间建立安全双向的链接。这是它的官方示意图。

这张图展示了使用 Claude 或其他 IDE 时，通过这种双向沟通协议，模型（目前指 Claude）可以与不同的数据服务器进行连接。每个连接的数据源可能千差万别，比如上图里面前两个连接本地数据，第三个则直接通过互联网操作远程文件。

MCP 有什么用？为什么会让这么多开发者与用户欢欣鼓舞？

MCP 是一种统一的集成方式，交互界面完全一致。如果其他大模型也跟进，那么以后连接数据的感觉，就像给不同的电子设备使用 USB-C 接口，而不用准备那么多种不同的线缆插头。

更重要的是 MCP 的设计目标——提升安全性与控制力。因为以前处理数据时，我们通常采用极端的处理方式，很不安全。

第一种是将数据上传到大模型的对话中。这会带来两个问题：

另一种方式是让大模型获得本地管理员级别处理权限，帮助我们自动处理本地数据。之前我给你介绍过的 Open Interpreter 就属于这种方式。看起来非常方便、灵活，但 AI 代理在本地以管理员权限进行各种操作，看到所有文件。如果它被植入不安全的代码，控制你的计算机，可能导致隐私和重要数据泄露，后果严重性不言而喻。

为解决上述两种极端数据交互方式带来的问题，Claude 提供了 MCP 作为一种解决方案。作为协议，它是完全开放的。后续其他主流 AI 企业能否跟进，咱们说不准。但是现在就可以用 Claude 来体验一下 MCP 带来的数据交互好处。

我们先沿着官方的参考资料有快速上手指南操作一下。指南非常简洁，步骤清晰，跟着做并不难。

官方教程给出了一个最简单的数据操作样例，是一个 SQLite 数据库。

SQLite 设置非常简单，单文件即可运行。我讲数据库课程超过 10 年，一直用的就是 SQLite。学生不用一上来就去学习架设服务器、权限管理，而是直接拿过来就可以学习 SQL 查询语句。对文科生来说，这都是一个非常简单的界面。

在上手教程里，我们会操作一个本地 SQLite 文件，与 Claude 进行交互。我们需要预先安装一些软件，不过很简单，你照着指南里面这个命令拷贝到终端执行就行。

下面是在我电脑上执行过程截图。

当然别忘了，你需要下载 Claude Desktop 应用的最新版本，这是执行后续操作的前提。

之后，你需要建立一个 SQLite 的数据库样例文件。咱们先按照官方的设定来操作，复制页面上的这段代码，直接在终端执行就能搞定。

只要没有报错，你就拥有一个本地的 SQLite 样例数据了。

它存储在你的用户目录下，叫做 test.db .

下面你需要做的，是本次教程里最为不方便的操作——修改 Claude 配置文件。我相信在未来的版本当中，这个操作是能够通过图形化的界面来拖拽完成的。不过现在还是原型系统，你暂且忍耐一下。教程里明确告诉你设定文件的路径，你照着这个来执行就好。

你可以用 Visual Studio Code 或者类似的编辑器打开指定的配置文件路径。我这里用的是 Cursor。打开该文件后，你需要把教程代码段里的内容填进去。

不过这里有一个注意事项——你需要把原先代码中的 username 换成你自己在 macOS 上实际的用户名。这个很重要，不然连不上数据，会耽误你很多宝贵时间查错……别问我怎么知道的。

之后注意，你需要在 macOS 上重启你的 Claude Desktop App。

到此，设定就算完成了。

下面，咱们实际看看 Claude 是如何与 test.db 这个数据文件交互。官网给出的流程图是这样的：

如图所示，Claude 先要和我们刚刚搭建的 SQLite MCP 服务之间建立连接，然后可以执行查询的操作。

首先，我们先用提示词来把这二者连接起来。这里的提问我是直接从人家官方的快速开始教程里面照抄的——「你能不能连接我的 SQLite 这个数据库，然后告诉我哪些商品现在可售，以及他们的售价？」

Can you connect to my SQLite database and tell me what products are available, and their prices?

Claude 立即就会明白需要和 SQLite MCP 沟通。

然后它就找我们要权限。我选择这一整次对话都可以给它开放权限（Allow for This Chat）。注意，这就是我刚刚跟你提到的安全性——大模型要做什么操作、找我们要什么样的权限、权限开放的时间范围多大……我们都可以自己来控制。

大模型开始与 MCP 通讯，执行一系列的 SQL 语句，通过查询返回结果。

注意，Claude 不像 SQLite 简单给你返回一个表格作为结果，而是用自然语言回答你的问题。这个样例中，它把现在可售商品都给你列出来，并且后面都标上价格。这种交互就显得非常自然。

下面我们来继续提出另一个样例问题——「在你的数据库中，商品平均价格是多少？」

What’s the average price of all products in the database?

这次大模型没有找我们再要权限。因为刚刚已经说明，整轮对话，它都可以获得 MCP 服务数据的操作权限。

执行后，Claude 告诉我们，平均值为 82.14 美元。

你会发现我们刚刚一直用英文来提问，这是因为教程是英文的，咱们为了方便拷贝了问题。但对 Claude 来说，中文完全不是问题。用中文来问「你能分析价格分布并提出任何定价的优化建议吗？」Claude 就会用中文来答。当然，背后还是连接 MCP 服务，调用 SQL 进行查询。

当查询遇到问题时，Claude 会自动反思，并且重组查询式，依照 MCP 服务返回的 SQLite 查询表格结果，告诉你不同的价格分布。

基于这些分析结果，它会给出优化建议，如价格策略、产品组合、促销策略和定价心理学应用等。

注意这是你单独用 SQLite 查询数据库无法直接给出的结果，SQLite 只能给出表格。而根据背景知识对查询结果表格进行解读，才是大模型的能力体现。

既然跑通了官网给出的样例，我们接下来换上我讲数据库课程时常用的样例数据集，叫做 colleges。这个数据集来自斯坦福大学的一门 MOOC，包含学生申请大学的模拟数据。

数据集包括三个表格：apply（谁申请了哪个学校的哪个专业，是否被录取）、colleges（所有大学的列表）和 students（所有学生的信息）。

平时上课时，我在这几个表之间来回操作，教学生如何跨越表格综合信息返回正确的结果。

这次，咱们不用任何的 SQL 命令撰写，而是直接用自然语言来提问。首先，你要确保 MCP 连接成功。注意你需要修改配置文件里，数据库文件的路径，指向 colleges.db 。

对了，之后别忘了重启 Claude Desktop。

我的问题为：「你能否连接我的 SQLite 数据库，并告诉我里面有什么？」

Can you connect to my SQLite database and tell me what’s in it?

还是索要了一系列权限后，Claude 告诉我们有三个表：college、student、apply。

之后，通过进一步查询，Claude 为我们介绍 college 表中有哪些字段，student 和 apply 表又分别有哪些字段。至此意味着 MCP 数据连接成功。

Claude 会给出一些建议，告诉你可以问哪些问题。

不过我还是用自己的问题好了：「哪些同学报考了 Stanford 并且被录取？」

Claude 通过 MCP 执行查询，告诉我 Amy、Fay、Jay、Helen 这几个学生被斯坦福大学录取，并且说明了他们的 GPA 和专业信息。

Claude 特别指出，「有意思的是」被录取的学生中，两名被计算机科学专业录取，两名被历史专业录取，大多数学生 GPA 都很高，3.7 以上，但也有一位学生 GPA 较低，仍被历史专业录取。2.9 的 GPA 也能被斯坦福录取，这确实「很有意思」。

接下来咱们问它第二个问题：「哪些学生没有被任何学校录取，是因为分数太低吗？」

Claude 返回了两个学生的信息，并且说明 Bob 申请了 Berkeley 的生物专业，而 Craig 申请了 MIT 的计算机科学专业。

它总结说，这些没被录取的学生 GPA 其实不低，这表明 GPA 其实不是唯一的录取标准。然后 Claude 甚至还专门给出了报考大学的方法建议。

如果单单使用 SQL 查询，你不可能获得这些建议，这也是利用大模型做数据分析的有趣之处。Claude 通过 MCP 把当前的 SQL 查询结果与申请美国大学的背景知识有机地联系起来，厉害不？

但实际上，它的回答是错的。

我教了十多年数据库课，对这个数据集非常熟悉。这里有一个陷阱——这个数据库里，有的学生没有申请任何一所大学。你不申请大学，当然不可能被任何一所大学录取，对吧？因此，在回答这个问题的时候，你的查询不能只看那些全部申请都被拒的学生。

所以我进一步提示它：

注意被所有申请的学校拒绝和没有被任何一所学校录取是不一样的。

我只提示到这，并没有说「有的学生没有申请学校」。但 Claude 很聪明，马上反应过来。它依然先找出所有提交过申请但没被录取的学生状况。后来它说，「让我们看看数据库中还有哪些学生是完全没有提交任何申请的」。注意这个查询，是它自己总结出来的。

综合分析后，它的答案是：刚才答案中那两个没有问题，是申请后却被所有申请的学校拒绝的学生；但还有若干完全没有提交申请的学生，分别是 Doris、Amy、Gary 和 Edward。

它还补充道，「这确实是两种完全不同的情况。谢谢您的纠正」。

很懂礼貌嘛，孺子可教。

Claude MCP 给我们带来的，绝不只是查询更简单、结果更全面、数据更安全这样的优势。至少，它打破了 Claude 处理数据长度和类型的限制。在 Claude 对话里，你想上传文件，就会看到限制——最多五个文件，每个文件不得超过 30 兆。

我找了一个上课时用到的数据库叫 movie.db。这个数据库包含了若干年的电影信息，虽然只有 246.7 兆，但这样的文件想在现在的 Claude 对话当中使用，那断然是不可能的。

你上传不上去，不仅仅是因为它体积太大，更是由于这种 .db 格式 Claude 就不允许上传，你连选择它都没有机会。

这些文件都是灰色的，不能点选。但是现在不一样了，我们直接把配置 MCP 路径修改成 movie.db，然后来连接。

Claude 找出这里面有三张表，分别包括了电影、演员和他们饰演角色的记录。

我问：「有多少女演员同时出演过《哈利・波特》电影的前两部？」你不要小看这个问题，你首先得知道《哈利・波特》电影的前两部都是啥。Claude 查询经过一些波折，但它非常勤恳地重构查询，然后告诉我们，这两部电影分别是《哈利・波特与魔法石》和《哈利・波特与密室》。

之后它列出了 8 个同时出现在两部电影中女演员的名单，还介绍了这个系列中的主要角色，如赫敏和麦格教授。我觉得这个回答非常好。

如果你在学习 SQL，那么还可以打开它的中间分析过程来查看完整 SQL 语句。

你可以自己用 SQLite 工具来验证查询结果。但更多时候，你兴许能从它的答案中得到参考和借鉴。

我必须说明一点——本文所演示的内容，只是 MCP 能力的冰山一角。MCP 现在支持的数据服务，就已包括 GitHub、Google Drive、Slack 等。

甚至，你还可以用十几分钟的时间，干脆构建一个自己的 MCP 服务。官网分别提供了 Python 和 Typescript 语言版本的对应教程。

而仅从 SQLite 的样例看，MCP 目前就可以连接本地数据库，不用像原先那样把整个数据来回上传下载。安全性和控制力比以前显著增强。

Claude 通过 MCP 作为中介，能很好地分析 SQLite 的数据集。在咱们展示的例子中，MCP 的优点是把大模型和数据有机结合起来——通过对外部世界规律的微妙体悟，在真实任务中有效帮助你充分利用自己的数据。

提示词的清晰度依然很重要。例如刚才提到的「申请了学校但没有被录取」和「完全没有申请学校」这样的问题，有时还需要我们引导一下。

试想我们把不同的数据来源综合起来，在一个对话中综合调用，这种感觉像更是一种「化学反应」，想想就让人兴奋。希望 MCP 的出现，能激发你的创意，让你利用多元数据集获得更为深入的洞察。

还是那句话，「临渊羡鱼不如退而结网」。与其看个热闹，不如自己动手试一试。哪怕你只是按照 Claude 官网的教程走一遍也好，相信也能获得更为直接的感悟。

欢迎你把自己尝试 Claude + MCP 的结果分享在留言区，我们一起交流讨论。

祝 AI 辅助数据利用愉快！

Luma AI – 生成式视频 AI 巨头重磅更新，创新的视频创作交互方式

DUN.IM BLOG

By: Anonymous

25 November 2024 at 22:50

AI 视频，还能往哪个方向卷？Luma AI 的答案有些与众不同。对手还在练一招一式，它却像风清扬传授独孤九剑，讲究灵活变通，如行云流水，任意所之。

Luma AI 或许不如可灵、Runway 知名，但论实力也在第一梯队，它的视频模型叫作 Dream Machine，今年 6 月发布，最近进行了重磅升级，是推出产品以来声势最大的一次。

其中包括两项更新，一是发布自己的图像模型 Luma Photon，将文字、图像、视频一锅端；二是打造了生成 AI 视频的全新工作流，我们可以像和 ChatGPT 聊天一样，让 AI 生成视频，不用对提示词字斟句酌。

对于生成视频这件事，Dream Machine 首创了一种很新的方式。

Unlock your creativity with Luma AI Video Generator. Turn text into stunning videos with our cutting-edge text-to-video AI.

打开 Dream Machine，我们先看到的是「Board」，可以将它理解为无限的创意画布，在这里，我们使用自然语言，自由地生成图像或者视频。

开始一块 Board，我的提示词写得非常简单：「创建一个日式悬疑少年漫画的角色。」

AI 扩写了我的提示词，一次生成了 4 张图片，但是不行，年代不对。

没关系，再在对话框输入一句，「放在现代背景」。

AI 表示懂了，又生成了 4 张图片，右上这张孤身走暗巷，已经接近我想要的感觉了，但仍然不够，我想要他抬起头，露出五官。

不难，继续微调，忘掉复杂的提示词，和 AI 打直球就可以。

右下这张不错，虽然形象幼态了点。接下来，我想让 AI 生成一个视频，主角在同一条巷子里从白天走到黑夜。

Dream Machine 生成视频的首尾帧功能，就是为这种需求准备的——我们挑好头尾的两张图片，让 AI 补足中间的过程。

那么，我们只需基于满意的图片，让 AI 生成几张白天场景的，沟通方式还是一样的简单粗暴。最终选定的两张图片，细节略有落差，但同框也不违和。

万事俱备，只等生成视频，AI 过渡得还算自然。

看到这里，你应该明白 Dream Machine 和其他视频工具的区别了。

其他视频工具，通常是给你一个填入提示词的文本框，然后让你设置运镜、时长等参数。设置一次，生成一次。

但 Dream Machine 的界面，看起来非常像和聊天机器人交互，底部是输入框，文生图、图生图、图生视频、文生视频，都可以在这里进行。

专业创作者可以继续写传统的提示词，但我们也拥有了「讲人话」的权利，压力给到 AI，Dream Machine 能够理解上下文，帮我们完善提示词，我们可以从一个非常粗糙的想法开始，和它边聊边改边优化。

又因为 Dream Machine 是无限画布形式的，我们可能在一个环节反复生成，素材都会保留下来，不会互相覆盖。

我们的思维，不会局限在一段提示词、一个视频，而是像水一样流淌，更多的想法，可能就在这个过程里产生了。

Dream Machine 的全新工作流就像大树的主干，其中一些好玩且实用的功能则像枝桠，相得益彰，才能枝繁叶茂。

起到关键作用的，就是 Dream Machine 最新发布的图像模型 Luma Photon。

图片怎么生成得更符合我们的审美？Dream Machine 支持风格参考和角色参考功能。

先说风格参考，我们可以导入自己的图片，AI 会将风格融入到创作中。官方给出了一个例子：按蒙德里安风格，生成小鸟版的《戴珍珠耳环的少女》。

按这个思路实操一下，基于男性侦探的形象，参考梵高《星月夜》的风格，生成女性侦探。

二次元遇上后印象派，化学反应很奇妙。

角色参考功能，则可以通过一张图片，就实现角色的一致性，让这个角色出现在更多的图片和视频里。

Luma AI – 生成式视频 AI 巨头重磅更新，创新的视频创作交互方式

马斯克是行走的素材库，这样的例子太没挑战性了，我决定让甄嬛瞬移到哈利波特的世界，看场景变了之后，她还能不能气场两米八。

结果有些不好评价，看得出来是甄嬛的面容，但娘娘的长相入乡随俗，五官尤其眼睛，变得更像欧美人了。

其实，不另外找图片参考，Dream Machine 也可以让图片、视频不泯然于众人，这时候就要用到「头脑风暴」功能，它会根据你生成的图片，推荐一些艺术家的风格。

就像甄嬛进霍格沃茨这张，我们可以用吉卜力工作室风格二创。

不仅如此，提示词里的一些关键词，被框选了起来，能用下拉的选项替换，Dream Machine 称之为「概念药丸」，我们不用自己手写提示词，一键更换艺术风格，或者画面元素。

把「吉卜力」换成「新海诚」，把「独角兽」换成「龙」，不过点击几下的功夫。

Luma Photon 模型，基于 Luma 的通用 Transformer 架构构建。通过开发自己的图像模型，Luma AI 可以减少对 Midjourney 等外部图像模型的依赖，同时也能解决文生视频不稳定的问题。

当然，视频是老本行，镜头运动这种可控性功能，Dream Machine 也少不了。

紫禁城的甄嬛，和霍格沃茨的甄嬛，能不能实现丝滑的转场呢？用推拉镜头，画面有动感，人物没有严重的变形，可以打个 80 分。

巧的是，前两天 Runway 也官宣了自己的图像生成模型 Frame，和 Luma 更新是同一个晚上，看演示就知道非常注重审美，目前正逐步向 Gen-3 Alpha 开放资格。

▲ Runway Frame

图片的生成质量、美学高度，以及视觉风格的一致性和可控性，越来越被视觉模型重视了。

这对创作者来说是好事，当我们用 AI 进行平面设计、角色设定时，其实就是在生成一个独特的世界，讲一个独特的故事。

Runway 的 CEO Cristóbal Valenzuela 认为，Runway 不是一家 AI 公司，而是一家媒体和娱乐公司，AI 公司的时代已经结束了。

他不是在唱衰 AI，恰恰相反，他认为 AI 是一种基础设施，真正的革命不在于技术本身，而在于它所实现的东西：新的表达形式、讲述故事的新方式、连接人类体验的新方法。这和 Luma 的进化方向不谋而合。

这次更新之后，Luma AI 首席执行官兼联合创始人 Amit Jain，给 Dream Machine 下了一个很有趣的定义——视觉思维合作伙伴。

概念有些抽象，他的意思其实就是，让生成图片、视频这样的视觉创作，像聊天一样简单、直观。

交互的方式，影响着我们思考的方式。画布式的工作流，能将脑洞可视化，记录所有的创作过程和结果，呈现生成视频的完整思路。

无限画布通常在图像模型较为常见，比如 Recraft 和 Ideogram 的 Canvas。Dream Machine 的画布更加规整，相同提示词生成的素材和变体横向排列，不同的则竖向排列。

边聊边生成边优化的过程，会让人觉得，一个独立的小世界仿佛在画布里诞生。

先让 Dream Machine 用超写实电影 CG 风格，创造一个工业废土背景游戏的主角。

然后用环绕镜头，让主角动起来，并塑造环境的空间感。

接着，我们可以再和 AI 聊，让 AI 继续生成废土世界观里室内室外的各种场景，让 AI 建议我们怎么塑造得更有末日气息。

某种程度上，这个画布，就是我们个人故事的设定集。

当然，Luma AI 的 bug 也很多，包括但不限于，用一张图片实现角色一致性，效果并不理想；积分如流水，图片和视频还是要反复抽卡；图片模型可以生成准确的英文，但中文不行……

但意思传达到位了——少谈参数，以交互为出发点，构建一个 AI 创作工具。

更好的视频模型，不只是有更快的生成速度、更可控的镜头运动、更独特的美学，它应该也提供更好的讲故事的方式，让文字、图像、视频都作为表达想法的工具。

Dream Machine，造梦机器。

只管去创作吧，如同 Luma AI 的这句话：「不需要写复杂的提示词，问就好了。」未来 AI 留给我们的问题，不再关于技术，而是关于我们用它构建什么。

完全免费 AI 绘图工具 Dreamina AI，支持中文描述生成图片

DUN.IM BLOG

By: Anonymous

20 November 2024 at 17:03

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

当前 AI 绘图工具已经全面席卷全球，你还在找一款能够用文字或图片生成的免费 AI 图像生成工具吗？分享一款由抖音旗下剪映推出的 AI 图片生成平台「Dreamina AI」，只要输入简单中文描述就能立即转成图片，甚至还能搭配多层画布进行修改、重新创作和视频生成，而且还是完全免费和无限次数使用。

完全免费 AI 绘图工具 Dreamina AI，支持中文描述生成图片

Dreamina AI 是一款由剪映推出的在线 AI 创作平台，能够帮助用户将文字描述转化为视觉艺术作品。支持多种创作模式，包括文字绘图、视频生成和图片扩展，适合专业艺术家和普通用户使用。

另外 Dreamina AI 绘图创作平台还支持智能画布功能，可以通过画布混合多种 AI 生成图片，还可以进行局部重绘或扩展画布等功能操作。

想要使用 Dreamina AI 要先用电脑网页版登入和注册会员，可以通过 Google、TikTok、Facebook 或 CapCut 移动版来注册登入。〔手机版目前会跑版建议改用平板或电脑板，至于 App Store 有 Dreamina AI App 也并非是官方推出〕

👉 前往 Dreamina AI 在线生成图片

要是首次注册账号，会跳出 Dreamina 平台要整合 CapCut 账号信息权限，直接点「确定」继续。

进入 Dreamina AI 主页面后，就可以点击「图片生成」开始使用 AI 生成功能。

接着可以再生成图像输入框内填入生成 AI 图片的文字描述〔咒语〕，不管是输入中文或英文都能够使用，实际测试 Dreamina AI 中文生成图片准确度也不差，不一定要用英文才比较高，当然也可以上传照片，依照现有图片来生成。

图片模型部分，会提供三种 Dreamina 模型效果分别如下：

底下还能够设置图片输出长宽比例，以及大小尺寸分辨率都能够手动设置，都设置完成后就按下「生成」就可以开始生成免费 AI 图片了！

Dreamina AI 在输出算是非常快，只要几秒就能生成出四种不同风格的 AI 图片，像是底下是直接生成 Lego 乐高 AI 图片海报风格图片。

说实在 Dreamina AI 生成图片效果，与当前大多数 AI 绘图工具也都不会差太多。

底下也尝试文字描述咒语来生成漫威的雷神索尔画面，会生成出不同风格和脸型效果。

用下来发现 Dreamina AI 对中文理解能力算是很强大，AI 工具基本都能理解我们在说什么，像是可以让可爱老鼠或兔子也能骑机车外卖。

连同用 Dreamina v2.0 Pro 模型来生成真人效果也非常逼真，让你看不出来这是用 AI 生成。

不过有些时候不能谈到敏感话题或文字，甚至有些上传图片有红色就会被系统认为血腥，违反了《社交自律公约》内容，遇到这情况只能换其他张照片或改用其他文字描述。

点入生成 AI 图片后，可以直接将原始图片下载到设备上，侧边还提供多种选项能够进一步调整，像是重新生成、重新调整提示、增强分辨率、润饰、局部重绘、展开或移除，以及能够在画布上编辑或生成视频等。

要是想在 AI 图片上额外修改局部画面，可以直接点入「局部重绘」功能，直接圈选划线都可以，像是我随便在画面划一下，Dreamina AI 马上就在行李箱上加入皮带配件，有如设计师能帮你随意修改，超级猛！

至于 Dreamina AI 提供的「画布」功能，简单来说就是在线 Photoshop 编辑器，能够在页面内用 AI 生成图片后，能够直接抠图，另外上传图片进行合成，侧边也有图层能够进行调整拖移，基本算是很容易上手。

以上就是 Dreamina AI 生成图片工具的技巧介绍，整体来看 Dreamina AI 算是一款功能强大、易于使用的 AI 图像生成工具，能让每个人都能成为艺术家，如果你想尝试看看 AI 绘图功能，或是想要创造出不同图片效果，倒是可以通过 Dreamina AI 来快速生成，且还能支持中文提示词，对大多数人来说也算是非常好上手。