Reading view

There are new articles available, click to refresh the page.

OpenAI 官方 GPT-5.1 提示词技巧参考

DUN.IM BLOG

Anonymous

9 November 2025 at 13:33

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

简单来说，GPT-5.1 的核心进化在于在智能和速度之间找到了一个绝佳的平衡点。

GPT-5.1 的可控性是它最大的亮点之一。可以像导演一样，精确塑造智能体的个性、沟通风格和行为模式，扮演每一个细节。

为智能体定义一个清晰的角色，是引导其个性和互动风格最有效的方式。这在需要处理复杂用户动态的客户服务等场景中尤为重要。以下提示定义了一个注重效率和实用性的客户支持智能体：

通过 verbosity 参数和明确的提示指令，可以对输出的长度和结构进行精确控制。为编码智能体设定的输出规则示例：

一个通用的输出长度控制指令：

在执行长耗时任务时，让智能体主动提供计划和进度更新，可以有效改善用户体验，并使用户能够监督其工作流。定义更新频率、内容和时机的指令示例：

为防止智能体在复杂任务中过早结束，可通过提示强化其自主解决问题的持久性。

工具的有效使用，依赖于在定义中清晰描述其功能，并在提示中明确其使用场景。 create_reservation 工具的 JSON 定义：

配套的提示，用以指导模型如何与用户交互并调用该工具：

GPT-5.1 能够高效地并行执行无依赖关系的工具调用。在系统提示中鼓励这种行为可以显著提升任务执行效率。

GPT-5.1 集成了为编码场景设计的专用工具，允许模型直接与开发环境交互。

none 推理模式强制模型不使用内部推理步骤，使其在行为和性能上接近传统的非推理模型。这为低延迟应用和简单的工具调用场景提供了显著的性能优势。

尽管此模式下没有显式的“思考”链，但可以通过提示引导其进行隐式的规划和验证。

当智能体的行为与预期不符时，可以利用模型本身来分析和修正其系统提示。

诊断根本原因

向 GPT-5.1 提供其原始系统提示和一批失败案例的日志，要求它进行根本原因分析。

生成修订方案

基于第一步的分析结果，要求模型提出对原始提示的“外科手术式”修改。

通过这个两步流程，开发者可以利用模型自身的语言和逻辑能力，定位并修复提示中的模糊和矛盾之处，从而生成一个更健壮、行为更可预测的智能体。

总而言之，GPT-5.1 在可控性、效率和工具集成方面提供了新的可能性。掌握其提示工程原则，特别是行为塑造、工具使用规范以及自我修正等高级技巧，是构建下一代复杂 AI 应用的基础。

2 分钟解读 AI 会脑腐的有意思研究

DUN.IM BLOG

DUN

20 October 2025 at 16:23

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

2 分钟解读 AI 会脑腐的有意思研究

第一次看到时，我真的笑出声。但笑着笑着，就觉得有点不对劲了。

这个研究，可能说的就是我们自己。

https://llm-brain-rot.github.io/

首先，这研究不是段子，是来自德州 A&M、德州大学奥斯汀分校和普渡大学的硬核论文。简单来说，他们做了个实验：

实验流程图

把一个正常的 AI 大模型（对照组），和另一个被强迫刷了几个月推特、Reddit 等社交媒体的 AI 模型（实验组）进行对比，他们用了两种标准“垃圾信息”：

结果发现了不得了的事：

喂了垃圾数据后，AI 在推理、长文理解、安全等方面全面降智。

而且，这是一种 “剂量反应”：垃圾数据的比例越高，AI 就“脑损”得越厉害。

看个例子就明白了：

在一项叫“ARC-Challenge”的推理测试中（考验 AI 举一反三的能力），随着提供垃圾数据（M1 型信息标准）的比例从 0%增加到 100%，AI 的准确率从 74.9% 直降到 57.2%。

下面这张表更直观，我从原论文里摘了几个关键数据（红色代表性能变差）：

简单的说：AI 不仅降智了，还变得更不安全、性格更“黑暗”了。

研究人员对 AI 犯的错误进行了分析，发现最关键的是它学会了偷懒，也就是 不思考了。

Figure: thought skipping.

上图显示，在“脑腐”之后，对比基准，AI 思维的错误显著增多。它不再愿意进行一步一步的严谨推理，而是倾向于直接跳到结论，M1 的影响更是大于 M2。

这不就是我们在信息流里被训练出的习惯吗？

最让人难接受的是，这种“脑腐”基本不能治愈。

研究人员试着用大量高质量的“干净”数据去“修复”那个降智的 AI，结果发现效果相当有限。

Figure: Scale wash-out tuning.

即使经过大规模的“高质量训练”，性能也只能部分回升，始终无法恢复到基本水平。

这意味着，AI 的内部认知结构，或者说它的“世界观”，已经被永久性地改变了。

看到这里，你是不是也品出点别的味道了？

虽然研究的是 AI，但你很难不怀疑这个研究是在指桑骂槐。

如果 AI 会因为刷垃圾信息而变傻，那当前互联网信息环境里的我们呢？

仔细想想，我们身边是不是已经有太多迹象了：

“大学教授也可能转发每日口服 7 颗绿豆能够逆转高血压……的文章，学术训练的强度和社交网络垃圾文章洗脑的强度不可同日而语。”

我们以为自己是在驾驭信息，但很可能，我们只是在被网络信息洪流日夜冲刷，以为自己有足够的知识和阅历来抵御侵蚀，但长年累月的垃圾信息轰炸，可能正在不知不觉中重塑我们的大脑。

大脑的认知逻辑正在被悄悄地改变。

去查查那些著名社交平台的创始人，看看他们自己每天花多少时间在手机上？

你会发现一个很有意思的现象：很多产品的设计者，自己反而刻意与产品保持距离。这背后的原因，值得我们每个人深思。

一个小测试：

读到这里，你还记得这篇文章是怎么开头的吗？

…

想不起来也没关系。

这可能就是一个信号，提醒我们是时候让大脑从无休止的信息流中抽离出来，安静一会儿了。

为了保护你的脑子，现在，是不是该对我说声“谢谢”？🙂

Anthropic 官方团队分享如何利用 Claude Code

DUN.IM BLOG

Anonymous

20 July 2025 at 22:30

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

Anthropic 的内部团队正在利用 Claude Code 彻底改变他们的工作流程。无论是开发者还是非技术人员，都能借助它攻克复杂项目、实现任务自动化，并弥补那些曾经限制生产力的技能鸿沟。

为了深入了解，我们采访了以下团队：

通过这些访谈，我们收集了不同部门使用 Claude Code 的方式、它对工作带来的影响，以及为其他考虑采用该工具的组织提供的宝贵建议。

数据基础设施团队负责为公司内所有团队整理业务数据。他们使用 Claude Code 来自动化常规的数据工程任务、解决复杂的基础设施问题，并为技术和非技术团队成员创建文档化工作流，以便他们能够独立访问和操作数据。

利用截图调试 Kubernetes

当 Kubernetes 集群出现故障，无法调度新的 pod 时，团队使用 Claude Code 来诊断问题。他们将仪表盘的截图喂给 Claude Code，后者引导他们逐个菜单地浏览 Google Cloud 的用户界面，直到找到一个警告，指出 pod 的 IP 地址已耗尽。随后，Claude Code 提供了创建新 IP 池并将其添加到集群的确切命令，整个过程无需网络专家的介入。

为财务团队打造纯文本工作流

工程师向财务团队成员展示了如何编写描述其数据工作流程的纯文本文件，然后将这些文件加载到 Claude Code 中，以实现完全自动化的执行。没有任何编程经验的员工只需描述“查询这个仪表盘，获取信息，运行这些查询，生成 Excel 输出”等步骤，Claude Code 就能执行整个工作流，甚至会主动询问日期等必要输入。

为新员工提供代码库导览

当新的数据科学家加入团队时，他们会被指导使用 Claude Code 来熟悉庞大的代码库。Claude Code 会阅读他们的 Claude.md 文件（文档），识别特定任务所需的相关文件，解释数据管道的依赖关系，并帮助新人理解哪些上游数据源为仪表盘提供数据。这取代了传统的数据目录和发现工具。

会话结束时自动更新文档

在每项任务结束时，团队会要求 Claude Code 总结已完成的工作并提出改进建议。这创建了一个持续改进的循环：Claude Code 根据实际使用情况帮助优化 Claude.md 文档和工作流指令，使后续的迭代更加高效。

跨多个实例并行管理任务

在处理耗时较长的数据任务时，团队会为不同项目在不同的代码仓库中打开多个 Claude Code 实例。每个实例都能保持完整的上下文，因此即使在数小时或数天后切换回来，Claude Code 也能准确地记住他们当时正在做什么以及任务进行到哪里，从而实现了无上下文丢失的真正并行工作流管理。

无需专业知识即可解决基础设施问题

解决了通常需要系统或网络团队成员介入的 Kubernetes 集群问题，利用 Claude Code 诊断问题并提供精确的修复方案。

加速新员工上手

新的数据分析师和团队成员无需大量指导，就能迅速理解复杂的系统并做出有意义的贡献。

增强支持工作流

Claude Code 能够处理比人类手动审查大得多的数据量，并识别异常情况（例如监控 200 个仪表盘），这是人力无法完成的。

实现跨团队自助服务

没有任何编程经验的财务团队现在可以独立执行复杂的数据工作流。

编写详细的 Claude.md 文件

团队表示，你在 Claude.md 文件中将工作流程、工具和期望文档化得越好，Claude Code 的表现就越出色。当你拥有现成的设计模式时，这使得 Claude Code 在设置新数据管道等常规任务上表现卓越。

处理敏感数据时使用 MCP 服务器而非命令行界面

他们建议使用 MCP 服务器而不是 BigQuery 命令行界面，以便更好地控制 Claude Code 的访问权限，尤其是在处理需要日志记录或存在潜在隐私问题的敏感数据时。

分享团队使用心得

团队举办了分享会，成员们互相演示他们使用 Claude Code 的工作流程。这有助于传播最佳实践，并展示了他们自己可能没有发现的各种工具使用方法。

Claude Code 产品开发团队使用自家的产品来为 Claude Code 构建更新，扩展产品的企业级功能和 AI 智能体循环功能。

通过“自动接受模式”快速构建原型

工程师们通过启用“自动接受模式”（Shift+Tab）并设置自主循环，让 Claude 编写代码、运行测试并持续迭代，从而实现快速原型开发。他们将自己不熟悉的抽象问题交给 Claude，让它自主工作，然后在接手进行最后润色前，审查已完成 80% 的解决方案。团队建议从一个干净的 git 状态开始，并定期提交检查点，这样如果 Claude 跑偏了，他们可以轻松回滚任何不正确的更改。

同步编码开发核心功能

对于涉及应用程序业务逻辑的更关键功能，团队会与 Claude Code 同步工作，提供带有具体实现指令的详细提示。他们实时监控过程，确保代码质量、风格指南合规性和正确的架构，同时让 Claude 处理重复的编码工作。

构建 Vim 模式

他们最成功的异步项目之一是为 Claude Code 实现 Vim 快捷键绑定。他们要求 Claude 构建整个功能，最终实现中大约 70% 的代码来自 Claude 的自主工作，只需几次迭代即可完成。

生成测试和修复 bug

在实现功能后，团队使用 Claude Code 编写全面的测试，并处理在代码审查中发现的简单 bug。他们还使用 GitHub Actions 让 Claude 自动处理像格式问题或函数重命名这样的 Pull Request 评论。

代码库探索

在处理不熟悉的代码库（如 monorepo 或 API 端）时，团队使用 Claude Code 来快速理解系统的工作方式。他们不再等待 Slack 上的回复，而是直接向 Claude 提问以获取解释和代码参考，从而大大节省了上下文切换的时间。

更快的功能实现

Claude Code 成功实现了像 Vim 模式这样的复杂功能，其中 70% 的代码由 Claude 自主编写。

提升开发速度

该工具可以快速构建功能原型并迭代创意，而不会陷入实现细节的泥潭。

通过自动化测试提高代码质量

Claude 生成全面的测试并处理常规的 bug 修复，在减少手动工作的同时保持了高标准。

更好的代码库探索

团队成员可以快速熟悉 monorepo 中不熟悉的部分，而无需等待同事的回复。

创建自给自足的循环

设置 Claude 通过自动运行构建、测试和代码检查来验证自己的工作。这使得 Claude 可以更长时间地自主工作并发现自己的错误，尤其是在你要求 Claude 在编写代码之前先生成测试时效果更佳。

培养任务分类的直觉

学会区分哪些任务适合异步处理（外围功能、原型设计），哪些需要同步监督（核心业务逻辑、关键修复）。产品边缘的抽象任务可以用“自动接受模式”处理，而核心功能则需要更密切的监督。

编写清晰、详细的提示

当组件具有相似的名称或功能时，你的请求要极其具体。提示越好、越详细，你就越能信任 Claude 独立工作，而不会对代码库的错误部分进行意外更改。

安全工程团队专注于保障软件开发生命周期、供应链安全和开发环境安全。他们广泛使用 Claude Code 来编写和调试代码。

复杂基础设施调试

在处理事故时，他们将堆栈跟踪和文档喂给 Claude Code，并要求它在代码库中追踪控制流。这大大缩短了生产问题的解决时间，使他们能够在大约 5 分钟内理解问题，而手动扫描代码通常需要 10-15 分钟。

Terraform 代码审查与分析

对于需要安全审批的基础设施变更，团队将 Terraform 计划复制到 Claude Code 中，并提问“这会做什么？我会后悔吗？”。这创建了更紧密的反馈循环，使安全团队能够更快地审查和批准基础设施变更，减少了开发过程中的瓶颈。

文档综合与操作手册

Claude Code 吸收多个文档来源，创建 Markdown 格式的操作手册、故障排除指南和概述。团队将这些精简的文档作为调试实际问题的上下文，创建了比在完整知识库中搜索更高效的工作流程。

测试驱动开发工作流

他们摒弃了以往的“设计文档 → 粗糙代码 → 重构 → 放弃测试”模式，现在他们要求 Claude Code 提供伪代码，引导其进行测试驱动开发，并定期检查以在卡住时进行引导，从而产出更可靠、更易于测试的代码。

上下文切换与项目上手

在为现有项目（如用于安全审批工作流的 Web 应用“dependant”）做贡献时，他们使用 Claude Code 来编写、审查和执行存储在代码库中的 Markdown 格式的规范，从而能够在几天内做出有意义的贡献，而不是花费数周时间。

缩短事故解决时间

通常需要 10-15 分钟手动代码扫描的基础设施调试现在大约需要 5 分钟。

改进安全审查周期

需要安全审批的 Terraform 代码审查速度大大加快，消除了开发人员在等待安全团队批准时的阻塞。

增强跨职能贡献

团队成员可以在几天内为项目做出有意义的贡献，而不是花费数周时间来建立上下文。

更好的文档工作流程

从多个来源综合而成的故障排除指南和操作手册创建了更高效的调试过程。

广泛使用自定义斜杠命令

安全工程团队使用了整个 monorepo 中 50% 的自定义斜杠命令实现。这些自定义命令简化了特定的工作流程，并加快了重复性任务的速度。

让 Claude 先说

他们不再通过提出有针对性的问题来生成代码片段，而是告诉 Claude Code “边做边提交你的工作”，让它在定期检查的情况下自主工作，从而得到更全面的解决方案。

利用它进行文档处理

除了编码，Claude Code 还擅长综合文档和创建结构化输出。团队提供写作样本和格式偏好，以获得可立即在 Slack、Google Docs 和其他工具中使用的文档，避免界面切换带来的疲劳。

推理团队负责管理在 Claude 读取你的提示并生成回复时存储信息的内存系统。团队成员，尤其是那些刚接触机器学习的人，可以广泛使用 Claude Code 来弥补知识差距并加速他们的工作。

代码库理解与新员工上手

在加入一个复杂的代码库时，团队严重依赖 Claude Code 来快速理解其架构。他们不再手动搜索 GitHub 仓库，而是询问 Claude 哪些文件调用了特定的功能，几秒钟内就能得到结果，而不是向同事求助或手动搜索。

包含边界情况的单元测试生成

在编写完核心功能后，他们要求 Claude 为其编写全面的单元测试。Claude 会自动包含被遗漏的边界情况，在几分钟内完成通常需要大量时间和精力的工作，就像一个他们可以审查的编码助手。

机器学习概念解释

没有机器学习背景的团队成员依赖 Claude 来解释模型特定的函数和设置。过去需要一个小时谷歌搜索和阅读文档的工作，现在只需 10-20 分钟，研究时间减少了 80%。

跨语言代码翻译

在用不同编程语言测试功能时，团队向 Claude 解释他们想要测试的内容，Claude 就会用所需的语言（如 Rust）编写逻辑，从而无需为了测试目的而学习新语言。

命令记忆与 Kubernetes 管理

他们不再需要记住复杂的 Kubernetes 命令，而是向 Claude 询问正确的语法，比如“如何获取所有 pod 或部署状态”，然后就能收到他们基础设施工作所需的确切命令。

加速机器学习概念学习

有了 Claude Code，他们的研究时间减少了 80%，历史上需要一个小时谷歌搜索的工作现在只需 10-20 分钟。

更快的代码库导航

该工具可以帮助团队成员在几秒钟内找到相关文件并理解系统架构，而不是依赖同事在几天内分享知识。

全面的测试覆盖

Claude 自动生成包含边界情况的单元测试，在保持代码质量的同时减轻了精神负担。

消除语言障碍

团队可以在不熟悉 Rust 等语言的情况下实现功能，而无需学习它。

首先测试知识库功能

尝试问各种问题，看看 Claude 能否比谷歌搜索更快地回答。如果它更快、更准确，那么它就是你工作流程中一个宝贵的时间节省工具。

从代码生成开始

给 Claude 具体的指令，让它编写逻辑，然后验证其正确性。这有助于在将其用于更复杂的任务之前，建立对该工具能力的信任。

用它来编写测试

让 Claude 编写单元测试可以极大地减轻日常开发工作的压力。利用这个功能来保持代码质量，而无需花费时间手动思考所有测试用例。

数据科学和机器学习工程团队需要复杂的可视化工具来理解模型性能，但构建这些工具通常需要不熟悉的语言和框架的专业知识。Claude Code 使这些团队能够构建生产质量的分析仪表盘，而无需成为全栈开发人员。

构建 JavaScript/TypeScript 仪表盘应用

尽管对“JavaScript 和 TypeScript 知之甚少”，团队仍使用 Claude Code 构建了完整的 React 应用，用于可视化强化学习（RL）模型的性能和训练数据。他们让 Claude 控制从头开始编写完整的应用程序，比如一个 5000 行的 TypeScript 应用，而无需自己理解代码。这一点至关重要，因为可视化应用相对上下文较少，不需要理解整个 monorepo，从而可以快速构建原型工具，以便在训练和评估期间了解模型性能。

处理重复的重构任务

当遇到合并冲突或半复杂的文件重构时——这些任务对于编辑器宏来说太复杂，但又不足以投入大量开发精力——他们就像玩“老虎机”一样使用 Claude Code：提交当前状态，让 Claude 自主工作 30 分钟，然后要么接受解决方案，要么在不成功时重新开始。

创建持久性分析工具而非一次性笔记本

团队现在不再构建用完即弃的 Jupyter 笔记本，而是让 Claude 构建可重复使用的 React 仪表盘，这些仪表盘可以在未来的模型评估中重复使用。这很重要，因为理解 Claude 的性能是“团队最重要的事情之一”——他们需要了解模型在训练和评估期间的表现，而这“实际上并非易事，简单的工具无法从观察一个数字上升中获得太多信号”。

零依赖任务委托

对于完全不熟悉的代码库或语言中的任务，他们将整个实现委托给 Claude Code，利用其从 monorepo 中收集上下文并执行任务的能力，而无需他们参与实际的编码过程。这使得他们在自己专业领域之外也能保持生产力，而不是花时间学习新技术。

节省了 2-4 倍的时间

过去虽然可以手动完成但很繁琐的常规重构任务现在完成得更快了。

用不熟悉的语言构建了复杂的应用

尽管 JavaScript/TypeScript 经验极少，却创建了 5000 行的 TypeScript 应用。

从一次性工具转向持久性工具

不再使用一次性的 Jupyter 笔记本，而是构建可复用的 React 仪表盘进行模型分析。

直接获得模型改进的洞见

第一手使用 Claude Code 的经验为未来模型迭代中更好的内存系统和用户体验改进提供了信息。

实现了可视化驱动的决策

通过先进的数据可视化工具，更好地理解了 Claude 在训练和评估期间的性能。

把它当作一台老虎机

在让 Claude 工作之前保存你的状态，让它运行 30 分钟，然后要么接受结果，要么重新开始，而不是试图费力去修正。重新开始的成功率通常比试图修复 Claude 的错误要高。

必要时为了简化而打断它

在监督过程中，不要犹豫，停下来问 Claude “你为什么这么做？试试更简单的方法。” 模型默认倾向于更复杂的解决方案，但对于简化方法的请求反应良好。

产品工程团队致力于开发如 PDF 支持、引用和网页搜索等功能，这些功能将额外的知识引入 Claude 的上下文窗口。在大型、复杂的代码库中工作意味着不断遇到不熟悉的代码部分，花费大量时间来理解特定任务需要检查哪些文件，并在进行更改前建立上下文。Claude Code 通过充当向导，帮助他们理解系统架构、识别相关文件并解释复杂的交互，从而改善了这种体验。

第一步工作流规划

团队将 Claude Code 作为任何任务的“第一站”，要求它确定在进行 bug 修复、功能开发或分析时需要检查哪些文件。这取代了传统上在开始工作前手动浏览代码库和收集上下文的耗时过程。

跨代码库独立调试

团队现在有信心处理不熟悉代码库部分的 bug，而无需向他人求助。他们可以问 Claude “你觉得你能修复这个 bug 吗？我看到的行为是这样的”，并经常能立即取得进展，这在以前由于所需的时间投入是不可行的。

通过内部测试进行模型迭代测试

Claude Code 自动使用最新的研究模型快照，使其成为他们体验模型变化的主要方式。这为团队在开发周期中提供了关于模型行为变化的直接反馈，这是他们在之前的发布中从未体验过的。

消除上下文切换的开销

他们不再需要复制粘贴代码片段并将文件拖入 Claude.ai，同时还要详细解释问题，现在可以直接在 Claude Code 中提问，无需额外的上下文收集，从而显著减少了心智负担。

增强了处理不熟悉领域的信心

团队成员可以独立调试 bug 并调查不熟悉代码库中的事故。

在上下文收集中节省了大量时间

Claude Code 消除了复制粘贴代码片段和将文件拖入 Claude.ai 的开销，减轻了心智上的上下文切换负担。

加速轮岗员工上手速度

轮岗到新团队的工程师可以快速熟悉不熟悉的代码库并做出有意义的贡献，而无需与同事进行大量咨询。

提升开发者幸福感

团队报告称，随着日常工作流程中的摩擦减少，他们感到更快乐、更高效。

将其视为迭代伙伴，而非一次性解决方案

不要指望 Claude 能立即解决问题，而是把它当作一个与你一起迭代的合作者。这种方法比试图在第一次尝试中就获得完美的解决方案效果更好。

用它来建立在不熟悉领域的信心

不要犹豫去处理你专业领域之外的 bug 或调查事故。Claude Code 使得在通常需要大量上下文建立的领域独立工作成为可能。

从最少的信息开始

从你需要的最低限度的信息开始，让 Claude 引导你完成整个过程，而不是一开始就提供大量的解释。

增长营销团队专注于在付费搜索、付费社交、移动应用商店、电子邮件营销和 SEO 等领域建立效果营销渠道。作为一个只有一人的非技术团队，他们使用 Claude Code 来自动化重复性的营销任务，并创建通常需要大量工程资源的 AI 智能体工作流。

自动化 Google Ads 广告创意生成

团队构建了一个 AI 智能体工作流，该工作流可以处理包含数百个现有广告及其效果指标的 CSV 文件，识别表现不佳的广告进行迭代，并生成符合严格字符限制（标题 30 个字符，描述 90 个字符）的新变体。通过使用两个专门的子智能体（一个用于标题，一个用于描述），该系统可以在几分钟内生成数百个新广告，而无需在多个广告系列中手动创建。这使他们能够大规模地进行测试和迭代，这是以前需要花费大量时间才能实现的。

用于批量创意制作的 Figma 插件

他们没有手动复制和编辑用于付费社交广告的静态图片，而是开发了一个 Figma 插件，该插件可以识别框架并通过替换标题和描述来以编程方式生成多达 100 个广告变体，将需要数小时复制粘贴的工作缩短为每批半秒。这使得创意产出提高了 10 倍，让团队能够在关键社交渠道上测试数量庞大的创意变体。

用于广告活动分析的 Meta Ads MCP 服务器

他们创建了一个与 Meta Ads API 集成的 MCP 服务器，以便直接在 Claude Desktop 应用内查询广告活动表现、支出数据和广告效果，从而无需在不同平台之间切换进行性能分析，节省了宝贵的时间，因为每一分效率的提升都意味着更好的投资回报率。

利用内存系统进行高级提示工程

他们实现了一个基本的内存系统，该系统记录了广告迭代中的假设和实验，使得系统在生成新变体时能够将之前的测试结果纳入上下文，创建了一个自我改进的测试框架。这使得系统性的实验成为可能，而这些实验是无法手动追踪的。

在重复性任务上节省了大量时间

Claude Code 将广告文案创作时间从 2 小时缩短到 15 分钟，让团队能够专注于更具战略性的工作。

创意产出增加 10 倍

通过自动广告生成和与 Figma 集成以获取最新的视觉设计元素，团队现在可以在各个渠道上测试数量庞大的广告变体。

像一个更大的团队一样运作

团队能够处理传统上需要专门工程资源的大型开发任务。

战略重点转移

团队可以将更多时间用于整体战略和构建 AI 智能体自动化，而不是手动执行。

识别支持 API 的重复性任务

寻找涉及使用带有 API 的工具（如广告平台、设计工具、分析平台）进行重复操作的工作流程。这些是自动化的主要候选对象，也是 Claude Code 提供最大价值的地方。

将复杂工作流分解为专门的子智能体

不要试图在一个提示或工作流中处理所有事情，而是为特定任务创建单独的智能体（比如一个标题智能体和一个描述智能体）。这使得调试更容易，并在处理复杂需求时提高输出质量。

在编码前进行充分的头脑风暴和提示规划

在前期花大量时间使用 Claude.ai 来构思整个工作流，然后让 Claude.ai 为 Claude Code 创建一个全面的提示和代码结构以供参考。此外，要逐步进行，而不是要求一次性解决问题，以避免 Claude 因任务过于复杂而不堪重负。

产品设计团队支持 Claude Code、Claude.ai 和 Anthropic API，专注于构建 AI 产品。即使是非开发人员也可以使用 Claude Code 来弥合设计与工程之间的传统鸿沟，使他们能够直接实现自己的设计愿景，而无需与工程师进行大量的反复迭代。

前端润色和状态管理变更

团队不再为视觉调整（字体、颜色、间距）创建大量的设计文档并与工程师进行多轮反馈，而是直接使用 Claude Code 实现这些变更。工程师们注意到，设计师们正在进行“通常不会看到设计师做的大型状态管理变更”，这使他们能够实现他们所设想的精确质量。

GitHub Actions 自动化工单处理

通过使用 Claude Code 的 GitHub 集成，他们只需提交描述所需更改的问题/工单，Claude 就会自动提出代码解决方案，而无需打开 Claude Code，从而为他们积压的润色任务创建了一个无缝的 bug 修复和功能优化工作流。

快速交互式原型制作

通过将模型图粘贴到 Claude Code 中，他们可以生成功能齐全的原型，工程师可以立即理解并在此基础上进行迭代，这取代了传统的静态 Figma 设计，后者需要大量的解释和转换才能成为可用代码。

发现边界情况和理解系统架构

团队使用 Claude Code 来规划错误状态、逻辑流程和不同的系统状态，使他们能够在设计阶段就识别出边界情况，而不是在开发后期才发现，从而从根本上提高了他们初始设计的质量。

复杂的文案更改和法律合规

对于像在整个代码库中移除“研究预览”信息这样的任务，他们使用 Claude Code 查找所有实例，审查周围的文案，与法务部门实时协调更改，并实施更新。这个过程只用了两次 30 分钟的电话会议，而不是一周的反复协调。

核心工作流程的变革

Claude Code 成为主要的设计工具，80% 的时间里 Figma 和 Claude Code 都是打开的。

执行速度提高 2-3 倍

以前需要与工程师进行大量反复沟通的视觉和状态管理变更，现在可以直接实现。

周期时间从数周缩短到数小时

像 Google Analytics 发布信息这样需要一周协调的复杂项目，现在只需两次 30 分钟的电话会议就能完成。

两种截然不同的用户体验

开发者获得了“增强型工作流”（执行更快），而非技术用户则获得了“天哪，我竟然也成了开发者”的工作流。

改善了设计与工程的协作

Claude Code 促进了更好的沟通和更快的问题解决，因为设计师理解了系统的限制和可能性，而无需与工程师紧密合作。

从工程师那里获得适当的设置帮助

让工程团队的同事帮助进行初始的代码库设置和权限配置——对于非开发人员来说，技术上的上手过程具有挑战性，但一旦配置完成，它将彻底改变日常工作流程。

使用自定义内存文件来引导 Claude 的行为

创建具体的指令，告诉 Claude 你是一个几乎没有编码经验的设计师，需要详细的解释和更小、更增量的更改。这极大地提高了 Claude 回应的质量，使其不再那么令人生畏。

利用粘贴图片进行原型制作

使用 Command+V 将截图直接粘贴到 Claude Code 中。它在读取设计并生成功能性代码方面表现出色，使其在将静态模型图转化为工程师可以立即理解和构建的交互式原型方面非常有价值。

强化学习（RL）工程团队专注于 RL 中的高效采样和跨集群的权重迁移。他们主要使用 Claude Code 来编写中小型功能、进行调试和理解复杂的代码库，并采用一种包含频繁检查点和回滚的迭代方法。

有监督的自主功能开发

团队让 Claude Code 在提供监督的情况下编写大部分中小型功能的代码，例如为权重迁移组件实现认证机制。他们以交互方式工作，允许 Claude 主导，但在其偏离轨道时进行引导。

测试生成和代码审查

在自己实现更改后，团队会要求 Claude Code 添加测试或审查他们的代码。这种自动化的测试工作流程在常规但重要的质量保证任务上节省了大量时间。

调试和错误调查

他们使用 Claude Code 来调试错误，结果好坏参半。有时它能立即识别问题并添加相关测试，而其他时候则难以理解问题，但总的来说，在有效时仍能提供价值。

代码库理解和调用栈分析

他们工作流程中最大的变化之一是使用 Claude Code 来快速获取相关组件和调用栈的摘要，取代了手动阅读代码或生成大量调试输出。

Kubernetes 操作指导

他们经常向 Claude Code 询问 Kubernetes 操作，这些操作否则需要大量谷歌搜索或询问基础设施工程的同事，从而能立即获得配置和部署问题的答案。

实验性方法的实现

他们现在使用一种“尝试并回滚”的方法，频繁提交检查点，以便他们可以测试 Claude 的自主实现尝试，并在需要时进行回滚，从而实现了更具实验性的开发。

文档编写加速

Claude Code 自动添加有用的注释，节省了大量的文档编写时间，尽管他们也指出，它有时会在奇怪的地方添加注释或使用有问题的代码组织方式。

有限制的提速

虽然 Claude Code 可以在他们“相对较少的时间”投入下实现中小型 PR，但他们承认，它在第一次尝试中成功的几率大约只有三分之一，需要额外的指导或手动干预。

为特定模式自定义你的 Claude.md 文件

在你的 Claude.md 文件中添加指令，以防止 Claude 重复犯工具调用错误，例如告诉它“运行 pytest 而不是 run，不要不必要地 cd – 只需使用正确的路径”。这显著提高了一致性。

使用检查点密集的工作流

随着 Claude 进行更改，定期提交你的工作，这样当实验不成功时，你可以轻松回滚。这使得在没有风险的情况下可以采用更具实验性的开发方法。

先尝试一次性解决，然后协作

给 Claude 一个快速的提示，让它先尝试完整的实现。如果成功了（大约三分之一的时间），你就节省了大量时间。如果没有，再切换到更具协作性、引导性的方法。

法务团队通过实验和了解 Anthropic 产品的好奇心，发现了 Claude Code 的潜力。此外，一位团队成员有一个个人用例，即为家人创建无障碍工具和为工作创建原型，这展示了该技术对非开发人员的强大能力。

为家人定制的无障碍解决方案

团队成员为因医疗诊断而有语言障碍的家人构建了沟通助手。在短短一小时内，一个人使用原生的语音转文本功能创建了一个预测性文本应用，该应用可以建议回复并使用语音库将其读出，解决了言语治疗师推荐的现有无障碍工具的不足之处。

法务部门工作流自动化

团队创建了“电话树”系统的原型，帮助团队成员联系到 Anthropic 合适的律师，展示了法务部门如何在没有传统开发资源的情况下为常见任务构建自定义工具。

团队协调工具

经理们构建了 G Suite 应用程序，可以自动化每周的团队更新，并跟踪各产品的法律审查状态，让律师只需通过简单的按钮点击就能快速标记需要审查的项目，而无需管理电子表格。

用于解决方案验证的快速原型制作

他们使用 Claude Code 快速构建功能性原型，然后展示给领域专家（例如向加州大学旧金山分校的专家展示无障碍工具），以验证想法并在投入更多时间之前识别现有解决方案。

在 Claude.ai 中规划，在 Claude Code 中构建

他们使用两步流程：首先在 Claude.ai 中进行头脑风暴和规划，然后转到 Claude Code 进行实现，要求它放慢速度，逐步工作，而不是一次性输出所有内容。

视觉优先的方法

他们经常使用截图向 Claude Code 展示他们想要的界面样子，然后根据视觉反馈进行迭代，而不是用文本描述功能。

原型驱动的创新

他们强调克服分享“傻瓜式”或“玩具级”原型的恐惧，因为这些演示能激励他人看到他们未曾考虑过的可能性。

MCP 集成担忧

产品律师使用 Claude Code 立即识别深度 MCP 集成的安全隐患，并指出随着 AI 工具访问更多敏感系统，保守的安全策略将成为障碍。

合规工具的优先级

他们主张随着 AI 能力的扩展，应迅速构建合规工具，认识到创新与风险管理之间的平衡。

首先在 Claude.ai 中进行详尽规划

在转到 Claude Code 之前，使用 Claude 的对话界面来充实你的整个想法。然后要求 Claude 将所有内容总结成一个分步的实现提示。

增量式和可视化工作

要求 Claude Code 放慢速度，一次实现一个步骤，这样你就可以复制粘贴而不会不知所措。大量使用截图来展示你想要的界面样子。

尽管不完美也要分享原型

克服隐藏“玩具”项目或未完成工作的冲动。分享原型有助于他人看到可能性，并在通常不互动的部门之间激发创新。

FLUX Kontext – 黑森林图像生成式流匹配模型发布实测

DUN.IM BLOG

DUN

28 May 2025 at 19:44

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

长时间没消息的黑森林工作室憋了个大的，发布了生成式流匹配模型 FLUX Kontext。

这套模型最强的地方就是可以对图片进行编辑，但是不会影响没有编辑的地方。

而且还支持多张图片参考生成新的图像，依然能保持需要参考内容的高度一致性。

直接替代了很多原来需要 PS （美图秀秀、Photoshop 等）才能做的需求，原来需要吭哧瘪肚 P 很久的图，现在说句话就行。

我这几天也探索了很多这个模型的用法，这次不会以测试的形式展示了，全是具体用法，让你告别 P 图这个复杂难搞的操作，另外后面也会介绍所有可以使用这个模型的渠道。

🎨 先介绍一下我探索出来的各种用法：

首先是非常简单的图片修改需求，FLUX Kontext 支持通过简单的提示词对图片进行非常精细的修改，而且不会影响未修改的区域。

我们想要给自己的日常照片加一些配饰或者改一下照片的姿势都没有问题，可以看到人物的面部一致性都没有问题，而且修改的地方跟环境也融合的很好。

⚠️注意：FLUX Kontext 只支持英文提示词，我这里放中文是方便理解，你可以用 AI 或者翻译软件把提示翻译了使用

FLUX Kontext – 黑森林图像生成式流匹配模型发布实测

当然 FLUX Kontext 也可以对照片进行大幅度的更改，比如你想要给照片换个背景或者给你自己换一身应景的衣服，再或者在前面的基础上换个姿势。

可以看到我把场景变成了酒吧，整个光线氛围也同步发生了变化，之后又尝试了不同的拍摄角度和姿势，也没有问题。

这种修改需要注意的是优势 Kontext 的分辨率是固定的，画全身照的时候面部有可能会变糊，因为像素区域太小的原因。

🎉 从左到右的提示词分别是：

站在酒吧吧台前

低角度侧脸，白衬衫加领带，吧台灯带背光

左侧半身特写，黑色皮夹克，霓虹灯映衬

全身广角，红色鸡尾酒裙，手扶吧椅

背后平视，帽饰西装，吧台酒架虚化

之前很火给老照片上色和修复也不是问题。

比如我下面的测试提示词就只有给照片上色，Kontext 处理的很好，而且整个色彩非常的高级和自然，明暗关系处理的很好。

想要做风格化？也没问题，只需要一句“将图片变成真实照片”的提示词就行，所有的细节都还原的很好。

当然可能更多人的需求是把自己的照片变成风格化的图片。

比如我们可以输入“把照片转换为吉卜力风格”，Kontext 也处理的很好而且人物的主要特征和电车的特征都还原了，不存在 4o 那种过度重绘和修改细节的问题。

而且这玩意还能修改图片上的文字，最屌的是不会影响原来的其他内容，而且修改的文字字体依然可以保持原来的风格。

你只需要输入“将图片中的 XXX 文字修改为 XXX”就行，比如我这里就把主要的标题改为了 Guizang，字体风格都是一致的，而且他还知道不需要换行。

针对海报复杂一些的修改也是可以的，你可以把一张找到的现成海报改掉文字和内容变成你自己的。

比如这里我就把 Oppo 的倒计时海报改成了小米的，而且连背景色都换了，Kontext 很好的处理了玻璃散射光的那部分。

这里唯一可惜的就是 FLUX Kontext 不支持生成中文，所以你只能修改图片中的英文，但是如果你不修改里面的中文，文字是不受影响的，这比其他图像模型好多了。

Change “Oppo” to “Xiaomi”, and set the image background color to orange.

这个是 Padphone 老师发现的，FLUX Kontext 还是目前最强的去水印模型，可以去掉各种复杂恶心的水印。

比如这里我找了一个 Unsplash 带水印的图片，这种半透明的水印会和图片叠加混合非常难彻底去掉，你只需要跟 Kontext 说“去掉图片的水印”，接下来奇迹就会发生，一点水印都没了。

大家最近应该都被一些 AI 图像模型生成图片默认加水印搞得不堪其扰把，即使开了会员依然有水印，这时候就可以让 Kontext 帮你解决了。

我们也可以用 Kontext 给各种平面的文字或者图案添加上材质和背景，替代原来需要 3D 渲染才能完成的需求，非常适合做品牌设计和平面设计的朋友。

比如这里我就给这个 Logo 变成了金属材质，还给图片加上了草地的背景，可以看到 Kontext 把 Logo 的一些笔画细节还原的非常好。

🎹

Transform the logo text into a shimmering metallic material, floating above a grassy field filled with flowers.

Kontext 还可以在你浏览景区的时候帮你把各种无关的其他游客搞掉，再也不用担心自己好不容易拍了账号照片，结果被误入的其他人毁掉了。

可以看到 Kontext 可以很清楚的识别画面的主体不会连你想拍的人也一起去掉，当然你如果就是想拍风景也可以，让他去掉画面上所有的人就行。

去掉照片中跟主体无关的其他行人

去掉照片中所有的人

前几天收到了可灵的一周年礼盒，看到 Padphone 老师做的展示图手痒，就想看看能不能用 Kontext 做出来，没想到真可以还做的很好。

非常离谱是他连我箱子放地上的灰尘都还原了，下次你要是想要生成类似图片的话记得擦一下产品再拍，哈哈。

💡

一个黑色箱子放在一张舒适、有褶皱的白色毯子中央，毯子的织物纹理清晰可见。瓶子周围自然地摆放着一些精致的白色小苍兰，几片花瓣零星散落。阳光柔和地洒下，投下柔和、弥散的阴影，营造出一种温暖而宁静的氛围。非常逼真的特写场景，光线是柔和的自然日光。

很多人说箱子是立方体太好生成了，整点复杂的，那我们拿可灵礼盒里的工服试试。

显然也没啥问题，文字有问题是因为生成图片的分辨率低，文字又小，导致的模糊，就跟我们拍照的时候离得远的文字也会模糊一样。

一件黑色 T 恤水平漂浮于空中，正从天花板向地板降落，看起来毫无重量。画面中无人，充满超现实感且不受重力影响。光线柔和，风格简约而优雅。背景为灰色。

很多朋友说我想要更复杂的商品展示，指定多张图片的模特和商品然后合成到一个图片中行不行，也是可以的，多图参考有点复杂我后面会讲。

可以看到第一张图商品细节、模特服装、配饰、发型以及背景都没问题，这个惊到我了。

第二张图我让模特穿上了可灵的工服，这次连衣服上的小字都还原了，可以说是完美还原，这个你让我在电商平台刷到，加上电商平台的压缩，我看不出来说实话。

这里有个小技巧：FLUX Kontext 手持产品的时候，产品一般会比正常的比例偏大，这个时候提示词描述一下产品大小就可以解决问题，比如手持易拉罐变为手持小号易拉罐。

女孩拿着化妆品瓶子

女孩穿着这件 T 恤

最后压轴的是我们日常修图最常见的需求，大家都想把自己变得好看点，面部的美颜现在都发展的比较好了。

但是身体部位很多还是靠用美图或者用醒图一点点的 P，自带的一键优化非常的生硬死板，不够自然。

昨天试了一下给男生增肌，发现 FLUX Kontext 可以很好的理解需求，图片任何部分都没变化，只有胳膊的肌肉变大了，这要是不说谁知道我 P 了，哈哈。

🍞

男性胳膊的肌肉变大，面部没有变化。

那变瘦点是不是也可以呢，可以的，甚至都能瘦脸，瘦的很自然，不会再让人从扭曲的门把手或者瓷砖看到自己 P 图了，突然想到这下卖减肥药和健身课的是不是又爽了，一键搞定广告素材。

📍

让女性的胳膊变瘦，肚子变得平坦，去掉面部赘肉

如果你就是单纯的想要尝试一下这个模型不想涉及到复杂操作的话我推荐两个渠道：

FLUX 官方的 Palyground （https://playground.bfl.ai/image/edit）和 Krea （https://www.krea.ai/edit）其中 FLUX 的 Palyground 还送了 200 积分，生成一张图只消耗 4 积分，够你玩很久了。

这两个地方的使用都很简单上传图片，输入提示词然后等待就行。

其中 Krea 选择 FLUX Kontext 的 Pro 模型就行 Max 模型在单图修改场景反而效果不好。

FLUX 的 Palyground 的话生成的时候记得把在输入框右边三个点那里把每次生成的张数改成 1，不然一次生成 4 张有点浪费。

如果你想要开发产品或者有 Comfyui 的基础想要玩一下多图参考，这里我推荐 Fal 的渠道（https://fal.ai/models/fal-ai/flux-pro/kontext/max/multi）。

Fal 的测试页面可以直接使用多图参考，上传图片输入提示词就行，如果你不想用多图了，可以在页面上方红框那里选择其他 Pro 模型尝试单图编辑。

另外 Fal 也有他们的 Comfyui 插件，只需要在 Comfyui manager 里面搜索 ComfyUI-fal-API 然后安装就行。

安装之后在插件目录，找到 config.ini 文件，把里面这段话改成你的 API Key 就行。

工作流的搭建很简单找到 FLUX Pro Kontext Multi 这个节点链接多张图，之后输入提示词就行，另外由于这个是 API 节点不需要本地算力，所以 mac 电脑也可以玩。

在涉及到针对人体的精细修改比如变瘦、变老变年轻需要多抽卡，不一定一次能成功。

多图参考的时候人脸的 ID 保持会下降，保持 ID 最好的方式是让 FLUX 不要修改面部。

FLUX Kontext 是可以识别图片里面的涂鸦标记的意思的。

你可以将你想要修改的地方圈起来，生成的时候他不会把标记生成进去，这样就可以实现精确修改，比如这个来自 @fofrAI 的案例，没有提示词就实现了换脸。

好了今天的教程到这里就结束了。

FLUX Kontext 除了强大能力之外的另一个优势是他非常便宜，编辑一张图只需要 0.08 美元也就是 5 毛钱人民币，相较于 GPT-4o 一张图 1.4 人民币的价格可以说非常便宜了。

另外他们后面还会开源一个 Dev 的 Kontext 模型这个会让成本进一步降低，太期待了。

AI 推理模型和普通 LLM 大语言模型的分别与使用，提升效率与准确性，复杂任务高效完成

DUN.IM BLOG

Anonymous

8 February 2025 at 14:17

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

了解何时使用推理模型，以及它们与 GPT 模型有何不同。

OpenAI 目前提供两大类模型：

这两种模型家族在使用和效果上都有所不同。本文将介绍：

与 GPT 模型相比，OpenAI 的 o 系列模型（推理模型）在不同类型的任务上更出色，需要使用不同的提示方式。并非哪一种模型一定「更好」，而是各有擅长的领域。

你可以根据需求，思考下列问题：

如果你的任务优先考虑速度与成本，并且任务本身相对明确、好定义，那么使用 GPT 模型就非常合适。
但如果你更注重准确度和可靠性，而且问题本身很复杂、有多个步骤，那么 O pen AI 建议选择 o 系列模型。

大多数情况下，你也可以把这两种模型结合起来使用：用 o 系列模型进行「智能规划和决策」，再让 GPT 模型去执行具体步骤。

AI 推理模型和普通 LLM 大语言模型的分别与使用，提升效率与准确性，复杂任务高效完成

示例：GPT-4o 和 GPT-4o mini 先处理订单信息与客户资料，找出订单问题和退货政策，然后将这些信息提供给 o3-mini，由它根据政策最终决定退货是否可行。

下面列出了一些实际场景，这些案例来自 OpenAI 的客户和 OpenAI 内部，希望能帮助大家更好地理解 o 系列模型（推理模型）适合用在哪些地方。不过，这并不是一个覆盖所有可能用例的完整清单，而是给出一些在测试中行之有效的思路。

准备好使用推理模型了吗？点击这里直达快速入门 →

推理模型特别擅长接收零散、有限的信息，然后根据简单提示去理解用户意图，并处理那些不够明确的指令。它们经常会先问一些澄清性的问题，而不是盲目猜测或随意填补空白。

「o1 的推理能力让 OpenAI 的多智能体平台 Matrix 在处理复杂文档时，能给出详尽且格式良好的回复。举个例子，o1 让 Matrix 可以轻松找出信用协议（Credit Agreement）中受限支付能力（restricted payments capacity）下可以使用的各种『篮子』（baskets），而只需要一个简单提示。过去没有任何模型能这么出色。相比于其他模型，在对密集的信用协议进行复杂提问时，o1 在 52% 的问题上有更好的表现。」

——Hebbia，为法律和金融提供 AI 知识平台

当你需要处理大量无结构信息时，推理模型能很有效地提炼出最相关的部分来回答问题。

「在分析某公司收购案时，o1 审阅了几十份公司文件，比如合同、租约等，去寻找可能影响交易的关键条件。它需要标记重要条款时，甚至在文件脚注中看到了一个非常关键的『变更控制』（change of control）条款：如果公司被出售，那需要立刻偿还 7500 万美元的贷款。o1 的极致细致能力帮助 OpenAI 的 AI 探索工具为金融专业人士找出交易中至关重要的信息。」

——Endex，AI 驱动的金融情报平台

OpenAI 发现，推理模型在处理数百页的复杂文件时（比如法律合同、财务报表或保险索赔等），能很好地分析文件内在逻辑并做出决策。它们擅长挖掘文档之间的对照关系，并据此推断其中暗含的规则。

「在税务研究里，需要同时对多份文件进行综合分析才能得出最终、连贯的结论。OpenAI 把 GPT-4o 换成 o1 后发现，o1 更善于整合多份文件之间的关系并推导出各自交叉影响，让最终的结论比单一文档中能看到的内容更有深度。OpenAI 因此看到终端到终端（end-to-end）性能提升了 4 倍，真的很令人惊讶。」

——Blue J，为税务研究提供 AI 平台

此外，推理模型也很擅长根据各种复杂政策和规则进行推理，并把这些规则应用到实际任务中，得出合理的结论。

「在做金融分析时，分析师常常要面对股东权益方面的复杂情境，还要理解相关法律的细微差别。OpenAI 曾用一个常见但比较棘手的问题来测试了市面上约 10 个模型：如果公司进行融资，对现有股东尤其行使『反摊薄保护』（anti-dilution）的那些股东会有什么影响？这个问题需要推理融资前后估值，还要处理环环相扣的『循环摊薄』，就算优秀的金融分析师也要花 20~30 分钟才能搞清楚。OpenAI 发现 o1 和 o3-mini 在这方面做得近乎完美！模型甚至能给出一张清晰的计算表格，展现对一个投资了 10 万美元的股东有何影响。」

——BlueFlame AI，为投资管理提供 AI 平台

推理模型在做多步骤的「自主」规划和战略制定方面发挥着关键作用。OpenAI 常看到的成功做法是先让推理模型扮演「策划者」，制定详细的多步骤解决方案，再根据每个步骤对「速度/智能」需求的不同，有选择地交给 GPT 模型或 o 系列模型去执行。

「OpenAI 用 o1 来做多智能体系统（agent infrastructure）中的规划者，让它负责指挥其他模型完成多步骤的任务。OpenAI 发现，o1 非常擅长选择要用什么数据类型，也很擅长把大问题拆解成小块，让其他模型聚焦执行。」

——Argon AI，服务于制药行业的 AI 知识平台

「o1 为 OpenAI Lindy 的许多『代理式工作流』提供支持。Lindy 是一个工作助理 AI，能通过函数调用（function calling）去获取你的日历和邮件信息，然后自动帮你安排会议、发邮件、管理日常事务。OpenAI 把一些原本运行不稳定的多步骤流程全部切到 o1 上，结果代理的表现几乎是一夜之间就变得近乎完美！」

——Lindy.AI，一个专注于工作场景的 AI 助手

截至目前，o1 是唯一支持图像理解的推理模型。它与 GPT-4o 的最大区别在于：o1 能处理特别复杂的视觉信息，比如结构不明确的图表或清晰度不佳的照片。

「OpenAI 为线上上架的数百万产品提供风险和合规审核，比如奢侈品仿制、濒危物种、管制品等。GPT-4o 在最难的图像分类任务中只能达到 50% 的准确率，而 o1 能做到 88%，OpenAI 甚至没有对流程做任何修改。」

——Safetykit，负责商家监控的 AI 平台

OpenAI 内部测试也发现：o1 能从复杂的建筑图纸中看出具体的材料和结构信息，进而生成更完整的材料清单。更惊喜的是，o1 还能跨页面匹配，比如先在图纸中的图例（legend）看到「PT」代表「压力处理木材」（pressure treated），然后在图纸的其他页面上正确应用这一概念，尽管并没有明确地告诉它需要这么做。

推理模型在代码审查和改进时也表现出色，往往可以在后台执行代码审阅任务，因为此类需求对延迟的容忍度更高。

「OpenAI 在 GitHub、GitLab 等平台上提供自动化的 AI 代码审阅服务。虽然代码审查过程对延迟不是特别敏感，但却需要理解多文件之间的代码差异。在这方面，o1 表现非常好，它能可靠地识别出对代码库做出的微小改动，而人类审阅者可能会漏掉。切换到 o 系列模型后，OpenAI 的产品转化率提升了 3 倍之多。」

——CodeRabbit，AI 代码审阅初创公司

GPT-4o 和 GPT-4o mini 因为延迟更低，也许更适合写代码，但对于那些不太敏感于执行速度的代码生成需求，o3-mini 有时也能带来更好的复杂性处理。

「o3-mini 写出的代码质量通常很高，而且往往能在明确的问题中得到正确解答，哪怕是非常具有挑战性的编码任务。其他模型也许只能应付小规模、快速的代码迭代，而 o3-mini 在构思、规划和实现复杂软件系统时表现更突出。」

——Codeium，提供 AI 驱动代码插件的初创公司

推理模型还经常被用于对其他模型的输出结果做评测和打分，特别是在需要数据验证的领域里（如医疗保健），保证数据集的质量和可靠性。传统的验证方法通常依赖预先定义的规则和模式，而像 o1 和 o3-mini 这样的高级模型，可以通过理解上下文和推理，对数据做更灵活智能的验证。

「不少客户在 Braintrust 的评测流程中使用了『模型做法官』的功能，比如某个医疗企业先用 GPT-4o 对患者问题进行概要提炼，再用 o1 来给这个概要的质量打分。结果发现，用 GPT-4o 做法官的 F1 分值只有 0.12，而用 o1 做法官，F1 分值达到了 0.74！对这些用户来说，o1 的推理能力在发现微妙差异和复杂场景的评分上表现极好。」

——Braintrust，AI 评估平台

这些模型最适合简洁、直接的提示。一些提示技巧（比如让模型「逐步思考」）不一定能提升性能，有时反而会降低效果。以下是一些提示技巧的最佳实践。

以上就是有关「推理模型」与 GPT 模型的区别、使用场景，以及给推理模型下指令时的一些最佳实践。希望这些指南能帮助你更好地发挥 o 系列和 GPT 系列模型在不同任务中的优势，实现更高效、更准确的 AI 解决方案。

OpenAI 王炸 Sora 文转视频正式上线，新功能发布

DUN.IM BLOG

Anonymous

4 December 2024 at 14:01

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

就在刚刚，OpenAI Sora 正式登场。

本次发布会延续了「短剧」的快节奏风格，全程 20 分钟左右，由 CEO Sam Altman、Sora 负责人 Bill Peebles 等人主持。

OpenAI 在 X 平台表示，自 2 月份以来，他们一直在构建 Sora Turbo，后者是一个速度明显更快的模型版本，今天也将其作为独立产品向 Plus 和 Pro 用户开放。

有趣的是，由于 Sora 热度太高，大批用户涌入体验网站，导致该网站一度崩溃，停止注册登录。不给力的服务也让 Altman 连连在 X 平台安抚用户：

「由于需求超出预期，我们将不得不间歇性地关闭新用户注册，并且生成内容的速度会在一段时间内减慢。我们正在全力以赴！」

附上体验地址：Sora.com

类似于 Midjourney 的网页界面，Sora 同样拥有自己单独的用户界面，用户用户不仅能够整理和浏览生成的视频，还能查看其他用户的提示和精选内容。

在「Library」功能中，用户可以保存自己喜欢或有用的提示词，以便未来使用。并且保存的提示词可以按需查看或修改，对于需要重复创作相似内容的用户，无疑能大大提高效率。

在工作流方面，Sora 的编辑功能是区别于其它竞品的重要亮点。

比如说，在 Remix 功能中，用户可以利用纯自然语言提示词对视频进行编辑，并通过简单的「strength（强度）」选项和滑块来控制生成的变化程度。

Re-cut 功能则能智能识别最佳画面，并支持向任意方向延伸场景。

Sora 的 Storyboard（故事板）功能则类似于视频编辑器，可以将多个提示词串联在一起，生成一个更长的视频，轻松处理复杂的多步骤场景。

搭配 Loop 和 Blend 功能，用户还能创作出无缝循环的视频，并完美融合不同片段，而 Style presets 功能则可以预设和调整生成的风格。

在技术规格上，Sora 支持 5-20 秒的视频生成，并兼容 1:1、9:16 等主流宽高比。相比早期版本，现在的生成速度有了显著提升。

另外，还有几点细节需要注意。

OpenAI 采用了灵活的积分制定价策略，积分数量因分辨率和持续时间而异，如果你早已是 ChatGPT Plus 和 Pro 会员，那就无需额外费用就能使用。

比如生成一个 480p、5s 的视频就需要 25 个积分，如果生成 480p、20s 的视频则需要 150 个积分。

此外，如果你用 Re-cut、Remix、Blend 或者 Loop 这些功能，生成的作品超过了 5 秒钟，那也得额外扣你的积分，多用多花钱，别超时，超时也花钱。

对于订阅用户而言，20 美元的 ChatGPT Plus 计划提供 50 个优先视频额度（1000 积分），支持最高 720p 分辨率和 5 秒时长。

而 200 美元的 ChatGPT Pro 计划则提供最多 500 个优先视频（10000 个积分），支持 1080p 分辨率、20 秒时长、5 个并发生成和无水印输出。

OpenAI 还在为不同类型的用户开发不同的定价模式，将于明年初推出。

对了，Sora 暂不支持 ChatGPT Team、Enterprise 和 Edu 版本，同时也不向 18 岁以下用户开放。现阶段，用户可以在所有 ChatGPT 可用的地方访问 Sora，但英国、瑞士和欧盟等地区除外。

知名博主 Marques Brownlee 提前一周用上了 Sora，并在 YouTube 上分享了他的使用体验。

他指出这款产品仍存在一些局限性。

在物理模拟方面，模型对物体运动的理解还不够深入，常常出现动作不自然、物体突然消失等问题。特别是在处理带有腿部运动的对象时，经常出现前后腿位置混乱的情况，导致动作看起来不自然。

又或者，某些视频生成结果看起来像是慢动作，而视频的其他部分则以正常速度播放，肉眼很容易察觉这种「别扭」。简言之，Sora 还是没能解决老毛病，缺乏对物理世界规律的理解。

另外，Sora 没能解决文字生成的问题，导致经常出现文字混乱的现象，而剪辑风格、文字滚动条的运动、新闻主播风格的生成则格外逼真。

不过，Sora 也有不少擅长的场景。

比如说，Sora 在风景镜头处理方面表现出色，能生成媲美专业素材的无人机航拍镜头，在卡通和定格动画风格上的表现也差强人意。

性能方面，一个 5 秒的 360p 视频通常能在 20 秒内完成生成。

不过，当涉及 1080p 或复杂提示词时，生成时间可能会延长到几分钟，但随着如今大批用户的涌入，生成速度明显慢了大半拍。

不少网友也在第一时间上手体验了 Sora。比如网友 @bennash 想生成一个视频，渲染了 22 分钟都没能成功，甚至该网站一度停止注册登录。

博主 @nickfloats 给出的评价是，Sora 在将图像转换成视频时，虽然某些特定的视觉特效没有被保留，但整体的转换效果是「清晰和令人满意的」。

Sora system card 也列出了一些值得关注的细节。

OpenAI 官方认为，Sora 为能够理解和模拟现实世界的模型提供了基础，将是实现通用人工智能（AGI）的一项重要里程碑。

官方博客中提到，Sora 是一种扩散模型，它通过从一段看起来像静态噪声的基础视频开始，逐步去除噪声并转变为最终的视频。通过同时处理多个帧，模型成功解决了一个难题：即使目标暂时脱离视野，也能确保其在视频中始终保持一致。

与 GPT 模型类似，Sora 采用了 Transformer 架构。

Sora 使用 DALL·E 3 中的标注技术，该技术为视觉训练数据生成高度描述性的标签。因此，模型能够更准确地根据用户的文本指令生成视频内容。

除了能够仅通过文本指令生成视频外，Sora 还能够从现有的静态图像生成视频，准确地将图像内容进行动画化，并注重细节。该模型还可以从现有的视频中扩展或填补缺失的帧。

为了确保安全地部署 Sora，OpenAI 基于 DALL·E 在 ChatGPT 和 API 部署中的安全经验，以及 OpenAI 其他产品（如 ChatGPT）的安全防护措施进行了强化。

所有 Sora 生成的视频都带有 C2PA 元数据，这些元数据能够标识视频的来源是 Sora，从而提高透明度，并可用于验证其来源。

与此前凭借真实人像出圈的 Flux 不同，Sora 们对上传包含人物的内容设定了特别严格的审核标准，目前仅作为试点功能提供给少量早期测试者，并屏蔽含有裸露的内容。

OpenAI 王炸 Sora 文转视频正式上线，新功能发布

大半年前，初试啼声的 Sora 赢得互联网一片喝彩。

然而，如果说一年前尚未还能对着一群演示 demo 空喊「现实不存在了」，那么在国内外各类视频模型的轮番洗礼之下，我们早已养刁的胃口很难再被同样的产品打动。

这种态度的转变源于一个简单的事实。

当 AI 要从「勉强可用」进化到「可堪大用」，用户的期待也随之升维，从「能否做到」跃迁至「做得多好」。

好在 Sora 并未在掌声中原地踏步，通过与艺术家的深度合作，他们在工作流程领域做出了显著的改进。Re-cut、Remix、Storyboard 等功能都相当实用。

甲乙方的存在决定了工作流中的沟通永远是刚需，AI 能做的是让这种沟通更有效率，Sora 的价值不在于它能做什么，而在于让创作者得以抽身于技术细节，真正回归创意的本质。

与此同时，上周引发热议的 200 美元 ChatGPT Pro 订阅计划，如今也有了更合理的价格锚点，该计划同样支持无限制访问 Sora，这种产品协同效应预计也将激发出远超预期的应用场景和商业价值。

放眼当下，用户的真金白银从不作假。

可灵 AI 交出千万级月流水的亮眼成绩单，这片蓝海的潜力已呼之欲出，对于仍在「烧钱」阶段的 OpenAI 来说，Sora 预计会成为继 ChatGPT 之后的另一个下金蛋的母鸡。

当 Sora 从「能用」「好用」，再到「妙用」，或许未来某一天，我们会发现，真正不存在的，不是现实，而是人类创造力的尽头。

Claude 新功能 MCP (模型上下文协议）使用指南

DUN.IM BLOG

Anonymous

27 November 2024 at 13:59

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

Claude (Anthropic) 最近出了个 MCP (Model Context Protocol，模型上下文协议) 协议，让我朋友圈有刷屏之势，能清晰感受到，大伙儿都非常欣喜。我自己试用之后，决定写下这篇文章，分享给你。

MCP 是一种新的开放标准协议，用来在大模型和数据源之间建立安全双向的链接。这是它的官方示意图。

这张图展示了使用 Claude 或其他 IDE 时，通过这种双向沟通协议，模型（目前指 Claude）可以与不同的数据服务器进行连接。每个连接的数据源可能千差万别，比如上图里面前两个连接本地数据，第三个则直接通过互联网操作远程文件。

MCP 有什么用？为什么会让这么多开发者与用户欢欣鼓舞？

MCP 是一种统一的集成方式，交互界面完全一致。如果其他大模型也跟进，那么以后连接数据的感觉，就像给不同的电子设备使用 USB-C 接口，而不用准备那么多种不同的线缆插头。

更重要的是 MCP 的设计目标——提升安全性与控制力。因为以前处理数据时，我们通常采用极端的处理方式，很不安全。

第一种是将数据上传到大模型的对话中。这会带来两个问题：

另一种方式是让大模型获得本地管理员级别处理权限，帮助我们自动处理本地数据。之前我给你介绍过的 Open Interpreter 就属于这种方式。看起来非常方便、灵活，但 AI 代理在本地以管理员权限进行各种操作，看到所有文件。如果它被植入不安全的代码，控制你的计算机，可能导致隐私和重要数据泄露，后果严重性不言而喻。

为解决上述两种极端数据交互方式带来的问题，Claude 提供了 MCP 作为一种解决方案。作为协议，它是完全开放的。后续其他主流 AI 企业能否跟进，咱们说不准。但是现在就可以用 Claude 来体验一下 MCP 带来的数据交互好处。

我们先沿着官方的参考资料有快速上手指南操作一下。指南非常简洁，步骤清晰，跟着做并不难。

官方教程给出了一个最简单的数据操作样例，是一个 SQLite 数据库。

SQLite 设置非常简单，单文件即可运行。我讲数据库课程超过 10 年，一直用的就是 SQLite。学生不用一上来就去学习架设服务器、权限管理，而是直接拿过来就可以学习 SQL 查询语句。对文科生来说，这都是一个非常简单的界面。

在上手教程里，我们会操作一个本地 SQLite 文件，与 Claude 进行交互。我们需要预先安装一些软件，不过很简单，你照着指南里面这个命令拷贝到终端执行就行。

下面是在我电脑上执行过程截图。

当然别忘了，你需要下载 Claude Desktop 应用的最新版本，这是执行后续操作的前提。

之后，你需要建立一个 SQLite 的数据库样例文件。咱们先按照官方的设定来操作，复制页面上的这段代码，直接在终端执行就能搞定。

只要没有报错，你就拥有一个本地的 SQLite 样例数据了。

它存储在你的用户目录下，叫做 test.db .

下面你需要做的，是本次教程里最为不方便的操作——修改 Claude 配置文件。我相信在未来的版本当中，这个操作是能够通过图形化的界面来拖拽完成的。不过现在还是原型系统，你暂且忍耐一下。教程里明确告诉你设定文件的路径，你照着这个来执行就好。

你可以用 Visual Studio Code 或者类似的编辑器打开指定的配置文件路径。我这里用的是 Cursor。打开该文件后，你需要把教程代码段里的内容填进去。

不过这里有一个注意事项——你需要把原先代码中的 username 换成你自己在 macOS 上实际的用户名。这个很重要，不然连不上数据，会耽误你很多宝贵时间查错……别问我怎么知道的。

之后注意，你需要在 macOS 上重启你的 Claude Desktop App。

到此，设定就算完成了。

下面，咱们实际看看 Claude 是如何与 test.db 这个数据文件交互。官网给出的流程图是这样的：

如图所示，Claude 先要和我们刚刚搭建的 SQLite MCP 服务之间建立连接，然后可以执行查询的操作。

首先，我们先用提示词来把这二者连接起来。这里的提问我是直接从人家官方的快速开始教程里面照抄的——「你能不能连接我的 SQLite 这个数据库，然后告诉我哪些商品现在可售，以及他们的售价？」

Can you connect to my SQLite database and tell me what products are available, and their prices?

Claude 立即就会明白需要和 SQLite MCP 沟通。

然后它就找我们要权限。我选择这一整次对话都可以给它开放权限（Allow for This Chat）。注意，这就是我刚刚跟你提到的安全性——大模型要做什么操作、找我们要什么样的权限、权限开放的时间范围多大……我们都可以自己来控制。

大模型开始与 MCP 通讯，执行一系列的 SQL 语句，通过查询返回结果。

注意，Claude 不像 SQLite 简单给你返回一个表格作为结果，而是用自然语言回答你的问题。这个样例中，它把现在可售商品都给你列出来，并且后面都标上价格。这种交互就显得非常自然。

下面我们来继续提出另一个样例问题——「在你的数据库中，商品平均价格是多少？」

What’s the average price of all products in the database?

这次大模型没有找我们再要权限。因为刚刚已经说明，整轮对话，它都可以获得 MCP 服务数据的操作权限。

执行后，Claude 告诉我们，平均值为 82.14 美元。

你会发现我们刚刚一直用英文来提问，这是因为教程是英文的，咱们为了方便拷贝了问题。但对 Claude 来说，中文完全不是问题。用中文来问「你能分析价格分布并提出任何定价的优化建议吗？」Claude 就会用中文来答。当然，背后还是连接 MCP 服务，调用 SQL 进行查询。

当查询遇到问题时，Claude 会自动反思，并且重组查询式，依照 MCP 服务返回的 SQLite 查询表格结果，告诉你不同的价格分布。

基于这些分析结果，它会给出优化建议，如价格策略、产品组合、促销策略和定价心理学应用等。

注意这是你单独用 SQLite 查询数据库无法直接给出的结果，SQLite 只能给出表格。而根据背景知识对查询结果表格进行解读，才是大模型的能力体现。

既然跑通了官网给出的样例，我们接下来换上我讲数据库课程时常用的样例数据集，叫做 colleges。这个数据集来自斯坦福大学的一门 MOOC，包含学生申请大学的模拟数据。

数据集包括三个表格：apply（谁申请了哪个学校的哪个专业，是否被录取）、colleges（所有大学的列表）和 students（所有学生的信息）。

平时上课时，我在这几个表之间来回操作，教学生如何跨越表格综合信息返回正确的结果。

这次，咱们不用任何的 SQL 命令撰写，而是直接用自然语言来提问。首先，你要确保 MCP 连接成功。注意你需要修改配置文件里，数据库文件的路径，指向 colleges.db 。

对了，之后别忘了重启 Claude Desktop。

我的问题为：「你能否连接我的 SQLite 数据库，并告诉我里面有什么？」

Can you connect to my SQLite database and tell me what’s in it?

还是索要了一系列权限后，Claude 告诉我们有三个表：college、student、apply。

之后，通过进一步查询，Claude 为我们介绍 college 表中有哪些字段，student 和 apply 表又分别有哪些字段。至此意味着 MCP 数据连接成功。

Claude 会给出一些建议，告诉你可以问哪些问题。

不过我还是用自己的问题好了：「哪些同学报考了 Stanford 并且被录取？」

Claude 通过 MCP 执行查询，告诉我 Amy、Fay、Jay、Helen 这几个学生被斯坦福大学录取，并且说明了他们的 GPA 和专业信息。

Claude 特别指出，「有意思的是」被录取的学生中，两名被计算机科学专业录取，两名被历史专业录取，大多数学生 GPA 都很高，3.7 以上，但也有一位学生 GPA 较低，仍被历史专业录取。2.9 的 GPA 也能被斯坦福录取，这确实「很有意思」。

接下来咱们问它第二个问题：「哪些学生没有被任何学校录取，是因为分数太低吗？」

Claude 返回了两个学生的信息，并且说明 Bob 申请了 Berkeley 的生物专业，而 Craig 申请了 MIT 的计算机科学专业。

它总结说，这些没被录取的学生 GPA 其实不低，这表明 GPA 其实不是唯一的录取标准。然后 Claude 甚至还专门给出了报考大学的方法建议。

如果单单使用 SQL 查询，你不可能获得这些建议，这也是利用大模型做数据分析的有趣之处。Claude 通过 MCP 把当前的 SQL 查询结果与申请美国大学的背景知识有机地联系起来，厉害不？

但实际上，它的回答是错的。

我教了十多年数据库课，对这个数据集非常熟悉。这里有一个陷阱——这个数据库里，有的学生没有申请任何一所大学。你不申请大学，当然不可能被任何一所大学录取，对吧？因此，在回答这个问题的时候，你的查询不能只看那些全部申请都被拒的学生。

所以我进一步提示它：

注意被所有申请的学校拒绝和没有被任何一所学校录取是不一样的。

我只提示到这，并没有说「有的学生没有申请学校」。但 Claude 很聪明，马上反应过来。它依然先找出所有提交过申请但没被录取的学生状况。后来它说，「让我们看看数据库中还有哪些学生是完全没有提交任何申请的」。注意这个查询，是它自己总结出来的。

综合分析后，它的答案是：刚才答案中那两个没有问题，是申请后却被所有申请的学校拒绝的学生；但还有若干完全没有提交申请的学生，分别是 Doris、Amy、Gary 和 Edward。

它还补充道，「这确实是两种完全不同的情况。谢谢您的纠正」。

很懂礼貌嘛，孺子可教。

Claude MCP 给我们带来的，绝不只是查询更简单、结果更全面、数据更安全这样的优势。至少，它打破了 Claude 处理数据长度和类型的限制。在 Claude 对话里，你想上传文件，就会看到限制——最多五个文件，每个文件不得超过 30 兆。

我找了一个上课时用到的数据库叫 movie.db。这个数据库包含了若干年的电影信息，虽然只有 246.7 兆，但这样的文件想在现在的 Claude 对话当中使用，那断然是不可能的。

你上传不上去，不仅仅是因为它体积太大，更是由于这种 .db 格式 Claude 就不允许上传，你连选择它都没有机会。

这些文件都是灰色的，不能点选。但是现在不一样了，我们直接把配置 MCP 路径修改成 movie.db，然后来连接。

Claude 找出这里面有三张表，分别包括了电影、演员和他们饰演角色的记录。

我问：「有多少女演员同时出演过《哈利・波特》电影的前两部？」你不要小看这个问题，你首先得知道《哈利・波特》电影的前两部都是啥。Claude 查询经过一些波折，但它非常勤恳地重构查询，然后告诉我们，这两部电影分别是《哈利・波特与魔法石》和《哈利・波特与密室》。

之后它列出了 8 个同时出现在两部电影中女演员的名单，还介绍了这个系列中的主要角色，如赫敏和麦格教授。我觉得这个回答非常好。

如果你在学习 SQL，那么还可以打开它的中间分析过程来查看完整 SQL 语句。

你可以自己用 SQLite 工具来验证查询结果。但更多时候，你兴许能从它的答案中得到参考和借鉴。

我必须说明一点——本文所演示的内容，只是 MCP 能力的冰山一角。MCP 现在支持的数据服务，就已包括 GitHub、Google Drive、Slack 等。

甚至，你还可以用十几分钟的时间，干脆构建一个自己的 MCP 服务。官网分别提供了 Python 和 Typescript 语言版本的对应教程。

而仅从 SQLite 的样例看，MCP 目前就可以连接本地数据库，不用像原先那样把整个数据来回上传下载。安全性和控制力比以前显著增强。

Claude 通过 MCP 作为中介，能很好地分析 SQLite 的数据集。在咱们展示的例子中，MCP 的优点是把大模型和数据有机结合起来——通过对外部世界规律的微妙体悟，在真实任务中有效帮助你充分利用自己的数据。

提示词的清晰度依然很重要。例如刚才提到的「申请了学校但没有被录取」和「完全没有申请学校」这样的问题，有时还需要我们引导一下。

试想我们把不同的数据来源综合起来，在一个对话中综合调用，这种感觉像更是一种「化学反应」，想想就让人兴奋。希望 MCP 的出现，能激发你的创意，让你利用多元数据集获得更为深入的洞察。

还是那句话，「临渊羡鱼不如退而结网」。与其看个热闹，不如自己动手试一试。哪怕你只是按照 Claude 官网的教程走一遍也好，相信也能获得更为直接的感悟。

欢迎你把自己尝试 Claude + MCP 的结果分享在留言区，我们一起交流讨论。

祝 AI 辅助数据利用愉快！