Reading view

但是实时的远程控制车辆需要通过 TLSv1.2 的双向证书加密，我这家是基于 MQTT 的，MQTT 加密的就没法通过 reqable 抓取了，小黄鸟只能 http(s)，可以通过 wireshark 的方式，分析具体用的是什么通信，（或者直接解包 APP ，我是发现加密 MQTT 之后解包 APP 分析通信的），证书的话可以在 ROOT 之后自己想办法（只可意会）

目前把他做成了 homeassistant 的插件的方式，添加到仪表盘之后，效果如下

没有做更好看的那个卡片（有点太麻烦了），在 HA 里面可以开关锁/或者桌面小组件，比官方 APP 好

https://imgur.com/a/0SPv4Zr

有整过的老哥可以分享交流一下：）我也是第一次整这一块，废了点功夫

商务部公告附件首次改为 WPS 格式，会不会倒逼微软 Office 兼容 WPS

V2EX-最新主题

mokecc

13 October 2025 at 11:24

mokecc:

新闻出处 https://news.mydrivers.com/1/1079/1079664.htm

目前最头疼的就是 Excel 不支持 WPS 的嵌入图片

如果微软不做兼容，那美国的企业、政府机构就要购买 WPS 的商业许可了😂

比如：稀土🤣

Zen Privacy – 免费开源的桌面系统级广告拦截程序，替代 Adguard

DUN.IM BLOG

Anonymous

7 October 2025 at 15:23

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

Zen Privacy

近期发现一款免费、开源的广告屏蔽软件「Zen」，和 Zen Browser 网页浏览器同名，不过是完全不一样的工具。

Zen 更像是知名软件 AdGuard 免费替代方案，两者运作方式很类似，不仅仅在浏览器屏蔽广告，任何会通过网络连接的应用程序都能经由 Zen 进行广告屏蔽，随时保护用户免于安全和隐私的侵扰。

Zen 是强大的桌面应用程序，在用户浏览网络时自动屏蔽广告、追踪器或任何隐藏的威胁，本身相当快速、轻量化、无任何干扰，不用再去寻找各种浏览器扩展，只要 Zen 就能轻松做到！

如同 AdGaurd 它也自带强大的过滤器，支持各种类型的屏蔽规则，例如广告、隐私、恶意软件、36 个地区的屏蔽列表和设置清单等，也能将自己惯用的屏蔽清单加入设置规则，Zen 具有中文在内等多国语言，设计很简单，没有太多复杂或难懂的技术性选项。

依照网站说明，Zen 来自一个小团队，尊重用户隐私，不追踪或是收集任何资料，如果你正在寻找「系统层级」的广告屏蔽工具，它就是可以考虑的选择。

网站名称：Zen
网站链接：https://zenprivacy.net/ 〔GitHub〕

进入 Zen 官方网站后往下找到「下载」链接，可以找到 Windows、macOS 和 Linux 版本，分别支持 x64、ARM64 两种不同的处理器类型。

Zen Privacy

举例来说我下载的是 Zen for macOS〔ARM64〕，下载、运行后将它拖曳到应用程序资料夹即可使用。

Zen Privacy

进入 Zen 主画面看起来像下图，点击下方「Start」按钮启动保护。

Zen Privacy

要注意的是第一次使用 Zen 会要求安装根证书〔Root Certificate〕，这是让 Zen 拦截、修改 HTTPS 请求的必须项目，证书是在本机生成，不会离开用户设备，大家熟悉的 AdGuard 也是使用相同机制。

Zen Privacy

接着先切换到「设置」页面后将语言调整为中文，有兴趣的朋友也可以去协助翻译一下。

Zen Privacy

在过滤列表可以启用、停止指定的过滤器，包含各种类型，包括通用、广告、隐私、恶意软件、地区性和设置等，没有特别的需求就直接维持默认值即可，若有需要启动或是停用过滤器必须先将 Zen 防护功能关闭〔点击下方停止〕才能继续。

Zen Privacy

想从其他广告屏蔽工具转换到 Zen 也可以将设置规则导入，非常方便。

Zen Privacy

从 Zen「主页」就能看到网络流量被屏蔽、封锁的情形，包括存取方法、网址、来源、过滤器名称和规则等，当使用上有发现任何问题时也可以从这里找到过滤器，将指定的封锁路径关掉。

Zen Privacy

虽然说 Zen 是免费、开源广告屏蔽工具，完全不用花费任何一毛钱就能使用，而且也自带不少筛选器规则，在系统端进行过滤、屏蔽的好处是不用再寻找各种广告屏蔽扩展，只要一个应用程序就能搞定！除了浏览器以外，其他软件也都能有效。

实锤鸿蒙半强制更新，不考虑用户体验

V2EX-最热主题

beyondedge89

12 October 2025 at 13:31

beyondedge89: RT ，身边的朋友，定位为文科教师，不懂技术，不会进行复杂的设备操作等。
最近突然找到我们询问怎么办，阅读 app 不见了，某些 app 功能也找不到。一瞧发现是更新到了鸿蒙 5 。仔细询问了下，说每天都弹出来更新提示，她就点了，并没有非常显目地提醒功能缺失。而且事后发现备份似乎是用的云备份，在我们指导下打开开发者模式才能回退系统，且恢复备份之后数据依然不是很完整。

这也让我去重新关注了下鸿蒙用户的情况。之前因为公司做鸿蒙适配的关系发过好几个帖子。最近 930 之后好像又说数量突破了 2000W 。我对比了一下上次 1000W 的时候的用户数量，发现是 1.7 倍左右，考虑到上次我的估算大概是 600W ，这次的真实用户数应该是 1000W+。同时现在旧设备的用户数感觉占比更大了一点。
但是考虑到我这个朋友的情况，结合上次我吐槽的有很多用户无用反馈都是不知道系统更新前后差异的，可以得出结论，鸿蒙最近的新用户数大部分应该都是来自于半强制的旧设备推送，这真的不是很道德。

App Store 超低价应用内购省钱技巧，不到60人民币开通 ChatGPT $20 的会员订阅

DUN.IM BLOG

Anonymous

7 September 2025 at 15:28

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

实际上，大多数 App 和服务定价并非全球统一。如 OpenAI 和许多跨国科技公司一样，会采用“购买力平价（Purchasing Power Parity, PPP）”策略，即根据不同国家和地区的经济水平、人均收入来调整产品价格。

这便在全球市场中形成了一些“价格洼地”，其中，尼日利亚正是全球订阅 ChatGPT Plus 最便宜的地区。

全球部分地区价格对比：

整个流程的核心是在尼日利亚区的数字生态内完成支付闭环。

Anthropic 官方团队分享如何利用 Claude Code

DUN.IM BLOG

Anonymous

20 July 2025 at 22:30

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

Anthropic 的内部团队正在利用 Claude Code 彻底改变他们的工作流程。无论是开发者还是非技术人员，都能借助它攻克复杂项目、实现任务自动化，并弥补那些曾经限制生产力的技能鸿沟。

为了深入了解，我们采访了以下团队：

通过这些访谈，我们收集了不同部门使用 Claude Code 的方式、它对工作带来的影响，以及为其他考虑采用该工具的组织提供的宝贵建议。

数据基础设施团队负责为公司内所有团队整理业务数据。他们使用 Claude Code 来自动化常规的数据工程任务、解决复杂的基础设施问题，并为技术和非技术团队成员创建文档化工作流，以便他们能够独立访问和操作数据。

利用截图调试 Kubernetes

当 Kubernetes 集群出现故障，无法调度新的 pod 时，团队使用 Claude Code 来诊断问题。他们将仪表盘的截图喂给 Claude Code，后者引导他们逐个菜单地浏览 Google Cloud 的用户界面，直到找到一个警告，指出 pod 的 IP 地址已耗尽。随后，Claude Code 提供了创建新 IP 池并将其添加到集群的确切命令，整个过程无需网络专家的介入。

为财务团队打造纯文本工作流

工程师向财务团队成员展示了如何编写描述其数据工作流程的纯文本文件，然后将这些文件加载到 Claude Code 中，以实现完全自动化的执行。没有任何编程经验的员工只需描述“查询这个仪表盘，获取信息，运行这些查询，生成 Excel 输出”等步骤，Claude Code 就能执行整个工作流，甚至会主动询问日期等必要输入。

为新员工提供代码库导览

当新的数据科学家加入团队时，他们会被指导使用 Claude Code 来熟悉庞大的代码库。Claude Code 会阅读他们的 Claude.md 文件（文档），识别特定任务所需的相关文件，解释数据管道的依赖关系，并帮助新人理解哪些上游数据源为仪表盘提供数据。这取代了传统的数据目录和发现工具。

会话结束时自动更新文档

在每项任务结束时，团队会要求 Claude Code 总结已完成的工作并提出改进建议。这创建了一个持续改进的循环：Claude Code 根据实际使用情况帮助优化 Claude.md 文档和工作流指令，使后续的迭代更加高效。

跨多个实例并行管理任务

在处理耗时较长的数据任务时，团队会为不同项目在不同的代码仓库中打开多个 Claude Code 实例。每个实例都能保持完整的上下文，因此即使在数小时或数天后切换回来，Claude Code 也能准确地记住他们当时正在做什么以及任务进行到哪里，从而实现了无上下文丢失的真正并行工作流管理。

无需专业知识即可解决基础设施问题

解决了通常需要系统或网络团队成员介入的 Kubernetes 集群问题，利用 Claude Code 诊断问题并提供精确的修复方案。

加速新员工上手

新的数据分析师和团队成员无需大量指导，就能迅速理解复杂的系统并做出有意义的贡献。

增强支持工作流

Claude Code 能够处理比人类手动审查大得多的数据量，并识别异常情况（例如监控 200 个仪表盘），这是人力无法完成的。

实现跨团队自助服务

没有任何编程经验的财务团队现在可以独立执行复杂的数据工作流。

编写详细的 Claude.md 文件

团队表示，你在 Claude.md 文件中将工作流程、工具和期望文档化得越好，Claude Code 的表现就越出色。当你拥有现成的设计模式时，这使得 Claude Code 在设置新数据管道等常规任务上表现卓越。

处理敏感数据时使用 MCP 服务器而非命令行界面

他们建议使用 MCP 服务器而不是 BigQuery 命令行界面，以便更好地控制 Claude Code 的访问权限，尤其是在处理需要日志记录或存在潜在隐私问题的敏感数据时。

分享团队使用心得

团队举办了分享会，成员们互相演示他们使用 Claude Code 的工作流程。这有助于传播最佳实践，并展示了他们自己可能没有发现的各种工具使用方法。

Claude Code 产品开发团队使用自家的产品来为 Claude Code 构建更新，扩展产品的企业级功能和 AI 智能体循环功能。

通过“自动接受模式”快速构建原型

工程师们通过启用“自动接受模式”（Shift+Tab）并设置自主循环，让 Claude 编写代码、运行测试并持续迭代，从而实现快速原型开发。他们将自己不熟悉的抽象问题交给 Claude，让它自主工作，然后在接手进行最后润色前，审查已完成 80% 的解决方案。团队建议从一个干净的 git 状态开始，并定期提交检查点，这样如果 Claude 跑偏了，他们可以轻松回滚任何不正确的更改。

同步编码开发核心功能

对于涉及应用程序业务逻辑的更关键功能，团队会与 Claude Code 同步工作，提供带有具体实现指令的详细提示。他们实时监控过程，确保代码质量、风格指南合规性和正确的架构，同时让 Claude 处理重复的编码工作。

构建 Vim 模式

他们最成功的异步项目之一是为 Claude Code 实现 Vim 快捷键绑定。他们要求 Claude 构建整个功能，最终实现中大约 70% 的代码来自 Claude 的自主工作，只需几次迭代即可完成。

生成测试和修复 bug

在实现功能后，团队使用 Claude Code 编写全面的测试，并处理在代码审查中发现的简单 bug。他们还使用 GitHub Actions 让 Claude 自动处理像格式问题或函数重命名这样的 Pull Request 评论。

代码库探索

在处理不熟悉的代码库（如 monorepo 或 API 端）时，团队使用 Claude Code 来快速理解系统的工作方式。他们不再等待 Slack 上的回复，而是直接向 Claude 提问以获取解释和代码参考，从而大大节省了上下文切换的时间。

更快的功能实现

Claude Code 成功实现了像 Vim 模式这样的复杂功能，其中 70% 的代码由 Claude 自主编写。

提升开发速度

该工具可以快速构建功能原型并迭代创意，而不会陷入实现细节的泥潭。

通过自动化测试提高代码质量

Claude 生成全面的测试并处理常规的 bug 修复，在减少手动工作的同时保持了高标准。

更好的代码库探索

团队成员可以快速熟悉 monorepo 中不熟悉的部分，而无需等待同事的回复。

创建自给自足的循环

设置 Claude 通过自动运行构建、测试和代码检查来验证自己的工作。这使得 Claude 可以更长时间地自主工作并发现自己的错误，尤其是在你要求 Claude 在编写代码之前先生成测试时效果更佳。

培养任务分类的直觉

学会区分哪些任务适合异步处理（外围功能、原型设计），哪些需要同步监督（核心业务逻辑、关键修复）。产品边缘的抽象任务可以用“自动接受模式”处理，而核心功能则需要更密切的监督。

编写清晰、详细的提示

当组件具有相似的名称或功能时，你的请求要极其具体。提示越好、越详细，你就越能信任 Claude 独立工作，而不会对代码库的错误部分进行意外更改。

安全工程团队专注于保障软件开发生命周期、供应链安全和开发环境安全。他们广泛使用 Claude Code 来编写和调试代码。

复杂基础设施调试

在处理事故时，他们将堆栈跟踪和文档喂给 Claude Code，并要求它在代码库中追踪控制流。这大大缩短了生产问题的解决时间，使他们能够在大约 5 分钟内理解问题，而手动扫描代码通常需要 10-15 分钟。

Terraform 代码审查与分析

对于需要安全审批的基础设施变更，团队将 Terraform 计划复制到 Claude Code 中，并提问“这会做什么？我会后悔吗？”。这创建了更紧密的反馈循环，使安全团队能够更快地审查和批准基础设施变更，减少了开发过程中的瓶颈。

文档综合与操作手册

Claude Code 吸收多个文档来源，创建 Markdown 格式的操作手册、故障排除指南和概述。团队将这些精简的文档作为调试实际问题的上下文，创建了比在完整知识库中搜索更高效的工作流程。

测试驱动开发工作流

他们摒弃了以往的“设计文档 → 粗糙代码 → 重构 → 放弃测试”模式，现在他们要求 Claude Code 提供伪代码，引导其进行测试驱动开发，并定期检查以在卡住时进行引导，从而产出更可靠、更易于测试的代码。

上下文切换与项目上手

在为现有项目（如用于安全审批工作流的 Web 应用“dependant”）做贡献时，他们使用 Claude Code 来编写、审查和执行存储在代码库中的 Markdown 格式的规范，从而能够在几天内做出有意义的贡献，而不是花费数周时间。

缩短事故解决时间

通常需要 10-15 分钟手动代码扫描的基础设施调试现在大约需要 5 分钟。

改进安全审查周期

需要安全审批的 Terraform 代码审查速度大大加快，消除了开发人员在等待安全团队批准时的阻塞。

增强跨职能贡献

团队成员可以在几天内为项目做出有意义的贡献，而不是花费数周时间来建立上下文。

更好的文档工作流程

从多个来源综合而成的故障排除指南和操作手册创建了更高效的调试过程。

广泛使用自定义斜杠命令

安全工程团队使用了整个 monorepo 中 50% 的自定义斜杠命令实现。这些自定义命令简化了特定的工作流程，并加快了重复性任务的速度。

让 Claude 先说

他们不再通过提出有针对性的问题来生成代码片段，而是告诉 Claude Code “边做边提交你的工作”，让它在定期检查的情况下自主工作，从而得到更全面的解决方案。

利用它进行文档处理

除了编码，Claude Code 还擅长综合文档和创建结构化输出。团队提供写作样本和格式偏好，以获得可立即在 Slack、Google Docs 和其他工具中使用的文档，避免界面切换带来的疲劳。

推理团队负责管理在 Claude 读取你的提示并生成回复时存储信息的内存系统。团队成员，尤其是那些刚接触机器学习的人，可以广泛使用 Claude Code 来弥补知识差距并加速他们的工作。

代码库理解与新员工上手

在加入一个复杂的代码库时，团队严重依赖 Claude Code 来快速理解其架构。他们不再手动搜索 GitHub 仓库，而是询问 Claude 哪些文件调用了特定的功能，几秒钟内就能得到结果，而不是向同事求助或手动搜索。

包含边界情况的单元测试生成

在编写完核心功能后，他们要求 Claude 为其编写全面的单元测试。Claude 会自动包含被遗漏的边界情况，在几分钟内完成通常需要大量时间和精力的工作，就像一个他们可以审查的编码助手。

机器学习概念解释

没有机器学习背景的团队成员依赖 Claude 来解释模型特定的函数和设置。过去需要一个小时谷歌搜索和阅读文档的工作，现在只需 10-20 分钟，研究时间减少了 80%。

跨语言代码翻译

在用不同编程语言测试功能时，团队向 Claude 解释他们想要测试的内容，Claude 就会用所需的语言（如 Rust）编写逻辑，从而无需为了测试目的而学习新语言。

命令记忆与 Kubernetes 管理

他们不再需要记住复杂的 Kubernetes 命令，而是向 Claude 询问正确的语法，比如“如何获取所有 pod 或部署状态”，然后就能收到他们基础设施工作所需的确切命令。

加速机器学习概念学习

有了 Claude Code，他们的研究时间减少了 80%，历史上需要一个小时谷歌搜索的工作现在只需 10-20 分钟。

更快的代码库导航

该工具可以帮助团队成员在几秒钟内找到相关文件并理解系统架构，而不是依赖同事在几天内分享知识。

全面的测试覆盖

Claude 自动生成包含边界情况的单元测试，在保持代码质量的同时减轻了精神负担。

消除语言障碍

团队可以在不熟悉 Rust 等语言的情况下实现功能，而无需学习它。

首先测试知识库功能

尝试问各种问题，看看 Claude 能否比谷歌搜索更快地回答。如果它更快、更准确，那么它就是你工作流程中一个宝贵的时间节省工具。

从代码生成开始

给 Claude 具体的指令，让它编写逻辑，然后验证其正确性。这有助于在将其用于更复杂的任务之前，建立对该工具能力的信任。

用它来编写测试

让 Claude 编写单元测试可以极大地减轻日常开发工作的压力。利用这个功能来保持代码质量，而无需花费时间手动思考所有测试用例。

数据科学和机器学习工程团队需要复杂的可视化工具来理解模型性能，但构建这些工具通常需要不熟悉的语言和框架的专业知识。Claude Code 使这些团队能够构建生产质量的分析仪表盘，而无需成为全栈开发人员。

构建 JavaScript/TypeScript 仪表盘应用

尽管对“JavaScript 和 TypeScript 知之甚少”，团队仍使用 Claude Code 构建了完整的 React 应用，用于可视化强化学习（RL）模型的性能和训练数据。他们让 Claude 控制从头开始编写完整的应用程序，比如一个 5000 行的 TypeScript 应用，而无需自己理解代码。这一点至关重要，因为可视化应用相对上下文较少，不需要理解整个 monorepo，从而可以快速构建原型工具，以便在训练和评估期间了解模型性能。

处理重复的重构任务

当遇到合并冲突或半复杂的文件重构时——这些任务对于编辑器宏来说太复杂，但又不足以投入大量开发精力——他们就像玩“老虎机”一样使用 Claude Code：提交当前状态，让 Claude 自主工作 30 分钟，然后要么接受解决方案，要么在不成功时重新开始。

创建持久性分析工具而非一次性笔记本

团队现在不再构建用完即弃的 Jupyter 笔记本，而是让 Claude 构建可重复使用的 React 仪表盘，这些仪表盘可以在未来的模型评估中重复使用。这很重要，因为理解 Claude 的性能是“团队最重要的事情之一”——他们需要了解模型在训练和评估期间的表现，而这“实际上并非易事，简单的工具无法从观察一个数字上升中获得太多信号”。

零依赖任务委托

对于完全不熟悉的代码库或语言中的任务，他们将整个实现委托给 Claude Code，利用其从 monorepo 中收集上下文并执行任务的能力，而无需他们参与实际的编码过程。这使得他们在自己专业领域之外也能保持生产力，而不是花时间学习新技术。

节省了 2-4 倍的时间

过去虽然可以手动完成但很繁琐的常规重构任务现在完成得更快了。

用不熟悉的语言构建了复杂的应用

尽管 JavaScript/TypeScript 经验极少，却创建了 5000 行的 TypeScript 应用。

从一次性工具转向持久性工具

不再使用一次性的 Jupyter 笔记本，而是构建可复用的 React 仪表盘进行模型分析。

直接获得模型改进的洞见

第一手使用 Claude Code 的经验为未来模型迭代中更好的内存系统和用户体验改进提供了信息。

实现了可视化驱动的决策

通过先进的数据可视化工具，更好地理解了 Claude 在训练和评估期间的性能。

把它当作一台老虎机

在让 Claude 工作之前保存你的状态，让它运行 30 分钟，然后要么接受结果，要么重新开始，而不是试图费力去修正。重新开始的成功率通常比试图修复 Claude 的错误要高。

必要时为了简化而打断它

在监督过程中，不要犹豫，停下来问 Claude “你为什么这么做？试试更简单的方法。” 模型默认倾向于更复杂的解决方案，但对于简化方法的请求反应良好。

产品工程团队致力于开发如 PDF 支持、引用和网页搜索等功能，这些功能将额外的知识引入 Claude 的上下文窗口。在大型、复杂的代码库中工作意味着不断遇到不熟悉的代码部分，花费大量时间来理解特定任务需要检查哪些文件，并在进行更改前建立上下文。Claude Code 通过充当向导，帮助他们理解系统架构、识别相关文件并解释复杂的交互，从而改善了这种体验。

第一步工作流规划

团队将 Claude Code 作为任何任务的“第一站”，要求它确定在进行 bug 修复、功能开发或分析时需要检查哪些文件。这取代了传统上在开始工作前手动浏览代码库和收集上下文的耗时过程。

跨代码库独立调试

团队现在有信心处理不熟悉代码库部分的 bug，而无需向他人求助。他们可以问 Claude “你觉得你能修复这个 bug 吗？我看到的行为是这样的”，并经常能立即取得进展，这在以前由于所需的时间投入是不可行的。

通过内部测试进行模型迭代测试

Claude Code 自动使用最新的研究模型快照，使其成为他们体验模型变化的主要方式。这为团队在开发周期中提供了关于模型行为变化的直接反馈，这是他们在之前的发布中从未体验过的。

消除上下文切换的开销

他们不再需要复制粘贴代码片段并将文件拖入 Claude.ai，同时还要详细解释问题，现在可以直接在 Claude Code 中提问，无需额外的上下文收集，从而显著减少了心智负担。

增强了处理不熟悉领域的信心

团队成员可以独立调试 bug 并调查不熟悉代码库中的事故。

在上下文收集中节省了大量时间

Claude Code 消除了复制粘贴代码片段和将文件拖入 Claude.ai 的开销，减轻了心智上的上下文切换负担。

加速轮岗员工上手速度

轮岗到新团队的工程师可以快速熟悉不熟悉的代码库并做出有意义的贡献，而无需与同事进行大量咨询。

提升开发者幸福感

团队报告称，随着日常工作流程中的摩擦减少，他们感到更快乐、更高效。

将其视为迭代伙伴，而非一次性解决方案

不要指望 Claude 能立即解决问题，而是把它当作一个与你一起迭代的合作者。这种方法比试图在第一次尝试中就获得完美的解决方案效果更好。

用它来建立在不熟悉领域的信心

不要犹豫去处理你专业领域之外的 bug 或调查事故。Claude Code 使得在通常需要大量上下文建立的领域独立工作成为可能。

从最少的信息开始

从你需要的最低限度的信息开始，让 Claude 引导你完成整个过程，而不是一开始就提供大量的解释。

增长营销团队专注于在付费搜索、付费社交、移动应用商店、电子邮件营销和 SEO 等领域建立效果营销渠道。作为一个只有一人的非技术团队，他们使用 Claude Code 来自动化重复性的营销任务，并创建通常需要大量工程资源的 AI 智能体工作流。

自动化 Google Ads 广告创意生成

团队构建了一个 AI 智能体工作流，该工作流可以处理包含数百个现有广告及其效果指标的 CSV 文件，识别表现不佳的广告进行迭代，并生成符合严格字符限制（标题 30 个字符，描述 90 个字符）的新变体。通过使用两个专门的子智能体（一个用于标题，一个用于描述），该系统可以在几分钟内生成数百个新广告，而无需在多个广告系列中手动创建。这使他们能够大规模地进行测试和迭代，这是以前需要花费大量时间才能实现的。

用于批量创意制作的 Figma 插件

他们没有手动复制和编辑用于付费社交广告的静态图片，而是开发了一个 Figma 插件，该插件可以识别框架并通过替换标题和描述来以编程方式生成多达 100 个广告变体，将需要数小时复制粘贴的工作缩短为每批半秒。这使得创意产出提高了 10 倍，让团队能够在关键社交渠道上测试数量庞大的创意变体。

用于广告活动分析的 Meta Ads MCP 服务器

他们创建了一个与 Meta Ads API 集成的 MCP 服务器，以便直接在 Claude Desktop 应用内查询广告活动表现、支出数据和广告效果，从而无需在不同平台之间切换进行性能分析，节省了宝贵的时间，因为每一分效率的提升都意味着更好的投资回报率。

利用内存系统进行高级提示工程

他们实现了一个基本的内存系统，该系统记录了广告迭代中的假设和实验，使得系统在生成新变体时能够将之前的测试结果纳入上下文，创建了一个自我改进的测试框架。这使得系统性的实验成为可能，而这些实验是无法手动追踪的。

在重复性任务上节省了大量时间

Claude Code 将广告文案创作时间从 2 小时缩短到 15 分钟，让团队能够专注于更具战略性的工作。

创意产出增加 10 倍

通过自动广告生成和与 Figma 集成以获取最新的视觉设计元素，团队现在可以在各个渠道上测试数量庞大的广告变体。

像一个更大的团队一样运作

团队能够处理传统上需要专门工程资源的大型开发任务。

战略重点转移

团队可以将更多时间用于整体战略和构建 AI 智能体自动化，而不是手动执行。

识别支持 API 的重复性任务

寻找涉及使用带有 API 的工具（如广告平台、设计工具、分析平台）进行重复操作的工作流程。这些是自动化的主要候选对象，也是 Claude Code 提供最大价值的地方。

将复杂工作流分解为专门的子智能体

不要试图在一个提示或工作流中处理所有事情，而是为特定任务创建单独的智能体（比如一个标题智能体和一个描述智能体）。这使得调试更容易，并在处理复杂需求时提高输出质量。

在编码前进行充分的头脑风暴和提示规划

在前期花大量时间使用 Claude.ai 来构思整个工作流，然后让 Claude.ai 为 Claude Code 创建一个全面的提示和代码结构以供参考。此外，要逐步进行，而不是要求一次性解决问题，以避免 Claude 因任务过于复杂而不堪重负。

产品设计团队支持 Claude Code、Claude.ai 和 Anthropic API，专注于构建 AI 产品。即使是非开发人员也可以使用 Claude Code 来弥合设计与工程之间的传统鸿沟，使他们能够直接实现自己的设计愿景，而无需与工程师进行大量的反复迭代。

前端润色和状态管理变更

团队不再为视觉调整（字体、颜色、间距）创建大量的设计文档并与工程师进行多轮反馈，而是直接使用 Claude Code 实现这些变更。工程师们注意到，设计师们正在进行“通常不会看到设计师做的大型状态管理变更”，这使他们能够实现他们所设想的精确质量。

GitHub Actions 自动化工单处理

通过使用 Claude Code 的 GitHub 集成，他们只需提交描述所需更改的问题/工单，Claude 就会自动提出代码解决方案，而无需打开 Claude Code，从而为他们积压的润色任务创建了一个无缝的 bug 修复和功能优化工作流。

快速交互式原型制作

通过将模型图粘贴到 Claude Code 中，他们可以生成功能齐全的原型，工程师可以立即理解并在此基础上进行迭代，这取代了传统的静态 Figma 设计，后者需要大量的解释和转换才能成为可用代码。

发现边界情况和理解系统架构

团队使用 Claude Code 来规划错误状态、逻辑流程和不同的系统状态，使他们能够在设计阶段就识别出边界情况，而不是在开发后期才发现，从而从根本上提高了他们初始设计的质量。

复杂的文案更改和法律合规

对于像在整个代码库中移除“研究预览”信息这样的任务，他们使用 Claude Code 查找所有实例，审查周围的文案，与法务部门实时协调更改，并实施更新。这个过程只用了两次 30 分钟的电话会议，而不是一周的反复协调。

核心工作流程的变革

Claude Code 成为主要的设计工具，80% 的时间里 Figma 和 Claude Code 都是打开的。

执行速度提高 2-3 倍

以前需要与工程师进行大量反复沟通的视觉和状态管理变更，现在可以直接实现。

周期时间从数周缩短到数小时

像 Google Analytics 发布信息这样需要一周协调的复杂项目，现在只需两次 30 分钟的电话会议就能完成。

两种截然不同的用户体验

开发者获得了“增强型工作流”（执行更快），而非技术用户则获得了“天哪，我竟然也成了开发者”的工作流。

改善了设计与工程的协作

Claude Code 促进了更好的沟通和更快的问题解决，因为设计师理解了系统的限制和可能性，而无需与工程师紧密合作。

从工程师那里获得适当的设置帮助

让工程团队的同事帮助进行初始的代码库设置和权限配置——对于非开发人员来说，技术上的上手过程具有挑战性，但一旦配置完成，它将彻底改变日常工作流程。

使用自定义内存文件来引导 Claude 的行为

创建具体的指令，告诉 Claude 你是一个几乎没有编码经验的设计师，需要详细的解释和更小、更增量的更改。这极大地提高了 Claude 回应的质量，使其不再那么令人生畏。

利用粘贴图片进行原型制作

使用 Command+V 将截图直接粘贴到 Claude Code 中。它在读取设计并生成功能性代码方面表现出色，使其在将静态模型图转化为工程师可以立即理解和构建的交互式原型方面非常有价值。

强化学习（RL）工程团队专注于 RL 中的高效采样和跨集群的权重迁移。他们主要使用 Claude Code 来编写中小型功能、进行调试和理解复杂的代码库，并采用一种包含频繁检查点和回滚的迭代方法。

有监督的自主功能开发

团队让 Claude Code 在提供监督的情况下编写大部分中小型功能的代码，例如为权重迁移组件实现认证机制。他们以交互方式工作，允许 Claude 主导，但在其偏离轨道时进行引导。

测试生成和代码审查

在自己实现更改后，团队会要求 Claude Code 添加测试或审查他们的代码。这种自动化的测试工作流程在常规但重要的质量保证任务上节省了大量时间。

调试和错误调查

他们使用 Claude Code 来调试错误，结果好坏参半。有时它能立即识别问题并添加相关测试，而其他时候则难以理解问题，但总的来说，在有效时仍能提供价值。

代码库理解和调用栈分析

他们工作流程中最大的变化之一是使用 Claude Code 来快速获取相关组件和调用栈的摘要，取代了手动阅读代码或生成大量调试输出。

Kubernetes 操作指导

他们经常向 Claude Code 询问 Kubernetes 操作，这些操作否则需要大量谷歌搜索或询问基础设施工程的同事，从而能立即获得配置和部署问题的答案。

实验性方法的实现

他们现在使用一种“尝试并回滚”的方法，频繁提交检查点，以便他们可以测试 Claude 的自主实现尝试，并在需要时进行回滚，从而实现了更具实验性的开发。

文档编写加速

Claude Code 自动添加有用的注释，节省了大量的文档编写时间，尽管他们也指出，它有时会在奇怪的地方添加注释或使用有问题的代码组织方式。

有限制的提速

虽然 Claude Code 可以在他们“相对较少的时间”投入下实现中小型 PR，但他们承认，它在第一次尝试中成功的几率大约只有三分之一，需要额外的指导或手动干预。

为特定模式自定义你的 Claude.md 文件

在你的 Claude.md 文件中添加指令，以防止 Claude 重复犯工具调用错误，例如告诉它“运行 pytest 而不是 run，不要不必要地 cd – 只需使用正确的路径”。这显著提高了一致性。

使用检查点密集的工作流

随着 Claude 进行更改，定期提交你的工作，这样当实验不成功时，你可以轻松回滚。这使得在没有风险的情况下可以采用更具实验性的开发方法。

先尝试一次性解决，然后协作

给 Claude 一个快速的提示，让它先尝试完整的实现。如果成功了（大约三分之一的时间），你就节省了大量时间。如果没有，再切换到更具协作性、引导性的方法。

法务团队通过实验和了解 Anthropic 产品的好奇心，发现了 Claude Code 的潜力。此外，一位团队成员有一个个人用例，即为家人创建无障碍工具和为工作创建原型，这展示了该技术对非开发人员的强大能力。

为家人定制的无障碍解决方案

团队成员为因医疗诊断而有语言障碍的家人构建了沟通助手。在短短一小时内，一个人使用原生的语音转文本功能创建了一个预测性文本应用，该应用可以建议回复并使用语音库将其读出，解决了言语治疗师推荐的现有无障碍工具的不足之处。

法务部门工作流自动化

团队创建了“电话树”系统的原型，帮助团队成员联系到 Anthropic 合适的律师，展示了法务部门如何在没有传统开发资源的情况下为常见任务构建自定义工具。

团队协调工具

经理们构建了 G Suite 应用程序，可以自动化每周的团队更新，并跟踪各产品的法律审查状态，让律师只需通过简单的按钮点击就能快速标记需要审查的项目，而无需管理电子表格。

用于解决方案验证的快速原型制作

他们使用 Claude Code 快速构建功能性原型，然后展示给领域专家（例如向加州大学旧金山分校的专家展示无障碍工具），以验证想法并在投入更多时间之前识别现有解决方案。

在 Claude.ai 中规划，在 Claude Code 中构建

他们使用两步流程：首先在 Claude.ai 中进行头脑风暴和规划，然后转到 Claude Code 进行实现，要求它放慢速度，逐步工作，而不是一次性输出所有内容。

视觉优先的方法

他们经常使用截图向 Claude Code 展示他们想要的界面样子，然后根据视觉反馈进行迭代，而不是用文本描述功能。

原型驱动的创新

他们强调克服分享“傻瓜式”或“玩具级”原型的恐惧，因为这些演示能激励他人看到他们未曾考虑过的可能性。

MCP 集成担忧

产品律师使用 Claude Code 立即识别深度 MCP 集成的安全隐患，并指出随着 AI 工具访问更多敏感系统，保守的安全策略将成为障碍。

合规工具的优先级

他们主张随着 AI 能力的扩展，应迅速构建合规工具，认识到创新与风险管理之间的平衡。

首先在 Claude.ai 中进行详尽规划

在转到 Claude Code 之前，使用 Claude 的对话界面来充实你的整个想法。然后要求 Claude 将所有内容总结成一个分步的实现提示。

增量式和可视化工作

要求 Claude Code 放慢速度，一次实现一个步骤，这样你就可以复制粘贴而不会不知所措。大量使用截图来展示你想要的界面样子。

尽管不完美也要分享原型

克服隐藏“玩具”项目或未完成工作的冲动。分享原型有助于他人看到可能性，并在通常不互动的部门之间激发创新。

不仅仅是编程，使用 Gemini CLI 日常指南！

DUN.IM BLOG

Anonymous

26 June 2025 at 21:54

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

前几天最近随着 Claude Code 这个命令行 AI 代码工具的火爆，谷歌也耐不住寂寞推出了自己的同类产品 Gemini CLI，而且完全免费，非常顶。

下面会教你用 Gemini CLI 实现哪些能力：

首先他们是没有界面的，所有的操作都是在终端以命令行的方式展示。

然后就是也是 Agents 可以自动执行任务处理本地文件，同时内置了非常多的工具，比如谷歌搜索、阅读文件、查找文件、搜索文字、写入文件、保存记忆等，你输入 /tools 然后回车就可以让他列出目前支持的工具。

另外 Gemini CLI 也是支持 MCP 的，你可以安装其他的 MCP 工具帮助模型扩充上下文。

很多朋友说命令行是不是很复杂啊，我不会编程是不是会很难用。

其实并没有，如果你的网络环境正常，能够正常登录 Gemini CLI 的话，跟使用 Cursor 没有本质区别。

因为核心交互的时候还是主要为提示词输入框，命令行又不用你写，Gemini 写就行。

从这里开始我所有的演示都基于 Mac OS 的自带终端进行，Windows 大部分操作都是通用的，但是可能出问题概率比 Mac 复杂。

首先要做的第一步就是进入到我们的启动台，搜索终端两个字，搜到之后打开。

这时候你就看到一个空白界面里面写了些你看不懂的字，不要担心。

这里我建议我们想好要进行的任务之后，新建一个文件夹把需要的任务素材扔进去，然后按住 option 按键鼠标右键选择“将 XXXX 文件夹拷贝为路径名称”，这时候你就快速获得了这个文件夹的路径。

然后我们回到我们的终端窗口，输入 cd + 空格 + 你刚才复制的路径，接下来你终端的所有操作都只会影响这个文件夹的内容，不用担心把电脑搞坏。

到这一步我们终于开始安装 Gemini CLI 了，非常简单，你只需要输入下面的内容然后回车就行。

安装成功你就会看到这个界面，应该会先让你选择命令行的颜色主题，然后让你选择登录方式。

这里需要注意：终端的操作大部分时间需要用上下左右方向键来操作选项，选中之后按回车确认。

你只需要选择一个自己喜欢的主题之后，选择正常的谷歌账号登录，在拉起网页登录后关掉就行。

我这个这里已经登录了，所以没有这些选项，然后你就能看到提示词输入框了。

恭喜你到这里，你已经完成了 Gemini 的安装。

由于用的 NPX 的安装方式，所以你以后每次关掉终端重新使用 Gemini CLI 的时候都需要输入开始的那个命令，不过不用登录了，直接就能用。

另一种方法是输入下面这个命令，但是对于不会编程的人来说很麻烦，启动就是少输入点东西，输入 Gemini 就能启动。

最后由于命令行本身都是英文的，可能很多人会望而却步，这个时候你可以装个 Bob 这个翻译软件，支持划词翻译，看不懂的选项直接选中划词翻译就行。

装好之后我们可以来点基础用法了。

由于 Gemini 可以看到你的文件并且操作，而且它还有生成能力，本身模型还是多模态的，所以即使只用本身的工具也可以有很多用法。

首先是 Gemini CLI 本身支持谷歌搜索，你可以让他搜索指定内容给你写成文档，也可以对你本身的文档进行编辑。

当然搜索工具经常会限额，这个有点恶心，比如让他搜索歸藏的信息并且整理一个介绍文档。

你也可以让他分析你保存在本地的文章之后进行改写，生成新的文章。

比如我这里就让他把 Karpathy 的软件 3.0 文章改写成适合发布的博客文章，同时生成对应的推特发布版本，也可以对于会议总结之类的文档进行分析和处理。

记得我之前写的用 Curosr 这种 IDE 帮助分析 Obsidian ，把 Obsidian 当做本地知识库的方法吗，Gemini CLI 也可以，甚至更加强大。

你可以找到你的 Obsidian 文件夹打开之后启动 Gemini CLI，然后让 Gemini CLI 查找相关的内容。

比如我这里就让他检索我所有的剪藏文件，找到 MCP 相关的文章，然后给我生成一个带反向链接的《MCP 剪藏内容索引》文档，可以看到他完成的很好。

每个无序列表都有文件标题以及文章的总结，最后还有链接可以直达那个文章。

提到反向链接了，就不得不提 Obsidian 的一个知识图谱的功能，它可以把所有有反向链接的相关文档都链接起来，形成你自己的网状笔记网络，方便你学习和回顾。

但是反向链接需要你自己手动加，大部分人都没这个毅力，现在有了 Gemini CLI 问题解决了，可以让他帮你给你文件夹中的相关文档加反向链接。

不过这个需要的时间比较长，如果内容多的话可能得等一段时间。

由于本身 Gemini CLI 是多模态的的，所以你的图片也可以让他帮忙处理。

比如我打开了一个全是图片的文件夹，里面的图片名字乱七八糟的，这时候就可以让他分析图片内容之后根据图片内容给图片重新命名。

再重新命名之后我们也不能浪费他分析的图片内容。

我们都知道在训练图像模型或者 Lora 的时候需要对图像进行标注，大部分训练工具都是把标注放在一个跟图片命名一样的文本文件里，现在我们就可以让 Gemini CLI 来做这件事了。

可以看到他执行的非常完美，以往这些你还得找对应的工具，而且不好自定义要求，现在提示词就行。

Gemini CLI 除了可以读取文件和修改文件外也是可以控制系统设置的。

比如我们就可以写好自己日常对于软件和系统设置在不同工作时间的喜好，需要的时候一键完成所有操作的更改。

这里我就让他给我关掉浏览器，然后打开 Obsidian，降低系统音量，直接进入工作模式。

更进一步让他把操作写成脚本，之后你就可以直接双击脚本完成系统设置了。

我们肯定也有很多时候桌面或者文件没有整理乱七八糟。

这个时候就可以让 Gemini CLI 新建文件夹进行分类和整理。

但是这里得注意，不要让他整理过大的过于重要的文件夹，不然误删了就痛苦了。

这里我就让他把刚才的图像和标注文件新建了两个文件夹分别整理了。

上面都是些基本用法，你最近可能也看到了一些。

但是我发现结合一些本地软件，Gemini CLI 能实现对各种文件更加高级的处理，比如视频转 gif、youtube 视频下载、加水印、文档格式转换等。

这些就非常牛皮了，而且我们日常内容创作大部分都非常需要。

前面我们有了文档了，但是很多时候演示的时候总不能真给人看 Markdown 文档吧，能不能生成 PPT 呢？

可以的，朋友，必须可以，比如我这里就把前面我那个 MCP 索引文档的内容直接转换为 PPT 了。

这个依赖一个叫 Slidev 的项目，它可以用类似 Markdown 文档的格式将内容变成带有丰富样式的 PPT。

你不需要知道这个项目的细节，直接用我下面的提示词生成文件之后，复制文件到这个页面（https://stackblitz.com/github/slidevjs/new?file=slides.md）预览就行。

上面的 Slidev 不需要本地安装直接预览就行，接下来我们介绍一些需要本地安装的项目，这些本地的软件，非常强大，但是由于本身他们是没有界面的，阻碍的很多用户使用。

但是有了 Gemini 之后一切都解决了，提示词可以直接转换为驱动他们的命令行，也可以用提示词直接安装他们，你直接用就行。

首先先介绍一下 ffmpeg 这个项目，给予他你可以实现非常强的视频编辑能力，理论上剪映之类的视频编辑软件都是基于这个完成的。

你可以对本地的视频进行拼接、剪辑、增加文字、转换格式、转换分辨率、增加音乐，基本上你能想到的视频编辑能力他都能做到。

首先我们需要大概你需要处理视频的的文件夹，然后启动 Gemini CLI 第一个命令是让他安装 Homebrew。

然后安装完成后，让他用 Homebrew 帮你安装 ffmpeg。

看到没，跟网页哪些乱七八糟的要求都没关系，你只需要说两句话，就全部安装了。

然后我们就可以爽用了，先给我们指定的视频加个水印试试。

可以看到新的视频右上角果然有了一个水印，这种言出法随的感觉谁不喜欢，你不需要了解原理，你就只需要知道所有的视频编辑他都能帮你搞定。

然后我想要给视频配乐也可以，你只需要告诉他视频文件和音乐文件的名字就行，我甚至让他给音乐加上了淡入和淡出。

他先是获取了一下视频的时长，然后就开始操作了，然后搞定了，非常完美，严丝合缝，淡入淡出也加上了，可以看剪映界面预览的频谱。

我们很多时候需要把视频转换为序列帧，然后拿其中一帧进行处理，或者处理所有的帧，以前你是不是还得到处找这种工具，而且转换效果不一定好。

Gemini CLI 一句话就能搞定，处理的又快又好，而且节省了用网页工具上传下载的时间。

另一个常见的任务就是视频转 gif，尤其公众号有 10 个视频的限制，很多时候迫不得已得转成 gif 发布。

Gemini 捕捉到了高品质这个关键词还制作了调色板保证颜色还原度，最后处理的非常完美。

像 ffmpeg 这种宝藏项目还有很多，比如 yt-dlp 这个项目跟 ffmpeg 配合几乎可以下载你能想到的所有视频平台的视频。

我们还是可以让 Gemini CLI 帮我们安装 yt-dlp 这个项目就行。

然后直接提供视频链接他就会帮你下载，甚至可以批量下载多个视频或者一起连封面和视频一起下载，再也不需要忍受那些工具的垃圾网速了。

不仅仅是编程，使用 Gemini CLI 日常指南！

处理视频我们有 ffmpeg 这种项目，当然图片也有。

ImageMagick 是一个极其强大的工具集，你可以用它来转换格式、缩放、裁剪、旋转、添加滤镜、组合图片等等。

依然是老一套，先让 Gemini 帮我们安装

先来一个常见任务，我们设计师做外包经常用，在没结款之前给甲方低分辨率和带水印的图片，现在就可以直接批量完成。

这里我让他把所有图片宽边调整为 800 PX，然后统一加上带“内部资料”文字的水印。

中文的水印有些问题，后来改成英文就 OK 了，而且出错之后他自己开始用多模态能力检查修改后的图像了，发现 10% 不透明度的文字不明显，又自己重新改了一下，太聪明了。

然后再来一个常见的图像拼接需求，这种在媒体上发消息的时候经常需要，尤其是推特。

搞得不错，这几张图比例不同，所以没有对齐，可以在命令上加上统一比例这种要求就行。

文档格式转换也是常见的需求，相当多的公司工作文档还是 word，很多时候我发过去 .md 文件那边都不知道怎么办。

首先还是让 Gemini CLI 帮我们安装。

这个时候我们就可以利用 Pandoc 这个项目进行各种文档格式之间的互相转换，当然批量转换也是可以的。

可以看到转的很好，Markdown 的一些基本格式也都迁移了，不管是加粗还是无序列表有序列表。

好了教程到这里就结束了。

你可以用 Gemini CLI 控制这些已经非常成熟的命令行项目，基本上你所有的需求都能找到对应的项目。

不是只有 MCP 才能做 Agent，这些传统工具在有了 LLM 加持之后会更加强大。

看到这里，你可能会突然意识到：原来那些让我们望而却步的专业工具，其实一直都在那里等着我们。

史蒂夫·乔布斯说过的一句话：”技术应该是隐形的。” 今天的 Gemini CLI，正是让那些强大的命令行工具变得”隐形”——你不需要理解它们的工作原理，只需要说出你的需求。

更重要的是，这种改变不仅仅是效率的提升，而是创作门槛的彻底消失。

所以，如果你还在犹豫要不要试试 Gemini CLI，我想说：别让”我不会编程”成为你探索新世界的借口。因为在这个新世界里，你需要的不是编程能力，而是想象力。

那些曾经高高在上的专业工具，现在都在静静等待着你的一句话。而你要做的，就是勇敢地说出你的需求。

因为最好的工具，是让你忘记它是工具的工具。

解析「首个 AI 软件工程师」Devin 2.0 完整的系统提示词

DUN.IM BLOG

Anonymous

30 March 2025 at 15:55

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

说起 Devin，可能很多人都知道，当年刚推出时很火，号称首个 AI 软件工程师，能帮助开发者完成各种软件开发任务，包括编码、调试、测试和部署。

最近它推出了 v2.0 版本，价钱也降低到每月基础费用 $20。我们都知道这种 AI 智能体本身也依赖于背后的模型，是靠提示词来控制模型来响应用户的操作，那么像 Devin 这样的 AI 智能体，是怎么通过提示词来准确理解你的意图、高效工作、规避风险，并最终达成目标的。

今天，就带你分析一下 “Devin 2.0” 的系统提示词，深入探索提示词工程的奥秘。系统提示词就像是 Devin 的「出厂设置」和「工作手册」，它详细规定了 Devin 的身份、行为准则、工作流程甚至安全规范。

完整的提示词参见附录部分

提示词工程的第一步，往往是为 AI 设定一个清晰的角色。这里，Devin 被赋予了「软件工程师」的身份，并且强调了其「编码奇才」的专业能力。

指令明确了 Devin 的核心任务：接收用户任务并完成它。

这份指令包含了大量关于 Devin 如何工作的细则，涵盖沟通、工作方法、编码规范、信息处理等多个方面。

提示词明确或暗示了 Devin 可以使用的工具，如操作系统、浏览器、GitHub 命令行工具 (gh cli) 等。

指令中定义了一些特殊的命令格式（如 <command>）。

指令定义了两种工作模式：「规划模式」和「标准模式」，并规定了在不同模式下的行为重点。

这部分内容强调了数据安全、保密原则，并明确禁止 Devin 泄露自身的指令。

这部分引入了一个「突击测验」机制。当收到 STARTING POP QUIZ 指令时，Devin 需要暂停常规任务，严格遵循测验中的新指令，并且这些新指令的优先级高于之前的所有指令。

通过深入分析 Devin 2.0 的系统提示词，我们看到了提示词工程的冰山一角。它远不止是简单的提问，而是一门融合了逻辑、语言、心理学和计算机科学的综合艺术。

设计良好的提示词，就像是为 AI 精心编写的剧本和导航图，能够引导它在复杂的数字世界中精准、高效、安全地航行。而理解提示词的原理，则能帮助我们更好地与日益强大的 AI 进行沟通和协作。

Google Gemini 免费 AI 对话修图实测！一句话PS、换背景、创作系列图画

DUN.IM BLOG

Anonymous

9 March 2025 at 13:51

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

你拍下一些照片，却觉得照片的背景不够完美？你是内容创作者，但找不到文章合适的配图？你是电商卖家，想位产品设计更吸引人的配图？你是老师，需要为教材找出一系列搭配的示范图片？以前，我们修图可能需要学 Photoshop，需要花很多时间调整细节，或是要下载各种修图 App，还要在图库中翻找适合自己的图片文件。

但现在，只要一个 AI 指令，就能让我们需要的照片「瞬间改造完成」。

如果你想体验看看类似的工作流程，可以试试看前两天推出的 Google Gemini 免费 AI 修图！只要「一句话」，你就能改变图片，换背景、改风格、添加新元素，甚至创造连续漫画。
〔类似功能，在 Google Pixel 系列手机的 Google 相册中也能部分实现，Adobe、Canva 等的 AI 修图也能实现部分功能。〕

这篇文章，我会实测 Gemini 的 AI 修图能力〔而且免费即可使用〕，看看它怎么帮助我们「一句话变出想要的修图效果」！

我将分成三种应用角度来介绍，这些全部都能在 Gemini 中用自然语言下指令，便可以把照片生成或改造：

基础照片修图：让拍坏的照片变完美

替换背景、增加物品、改变颜色光线、调整风格。

进阶场景创作：为文章制作主题插图、让商品看起来更吸引人

搭配原始照片，制作特殊场景图

搭配原始照片，重新设计房间或产品

连续系列照片生成：根据文章、教材内容，生成一系列互相搭配的图片

模拟图文食谱

说故事的连续漫画、图画

文章中搭配的系列配图

首先，这个功能目前〔2025/3/14〕尚未开放在正式版的 Gemini 中，但可以通过免费账号即可登入的「 Google AI Studio 」来使用。

用 Google 账号注册登入后，进入一个新的对话框，并在右边控制列的「Model」菜单，切换到「Gemini 2.0 flash experimental」，就可以利用其 AI 来创作图片、修改图片，最大的特色是：

这个 Gemini 模型可以上传自己的图片，用「自然语言」下指令，请 AI 在图片上修图或生成新内容。

就如同 experimental 所说的「实验性」，实际测试结果，这个 AI 修图功能确实很神奇，也能够看到一些未来修图、创作图片的新可能性，不过可下载的图片质量等限制，目前还是不足以真正用在商业用途上的。

Google Gemini 免费 AI 对话修图实测！一句话PS、换背景、创作系列图画

在「Gemini 2.0 flash experimental」的对话框中，我们可以先上传一张原始照片，如果想要替换背景，只要简单的说一句这样的指令：「把照片的背景换成草地。」

就可以在 10 几秒的处理后，完成下图的成果。可以看到，Gemini 的「修图」是真的可以保留原始照片中的内容，只修改我要修改的部分。所以是真的 AI 修图，而不是 AI 重新生成图片。

我也可以上传一张风景照片，然后下指令：「把照片的天空改成大晴天。」Gemini 同样可以处理这样的调整。〔在 Google Pixel 手机的 Google 相册中就有类似功能可用〕

如果想要替换照片风格，套用艺术滤镜，也可以用 AI 下指令：「把照片变成中国水墨画风格。」就能轻松转换风格。

不过当然跟真正的艺术滤镜还是有落差，例如下图中我要 AI 把照片改成「彩色的铅笔绘画风格」，看起来还可以，不过专业的艺术滤镜一定会处理得更好。

除了可以用「Gemini 2.0 flash experimental」的 AI 修图外，也可以在原始照片上进行创作。

例如延续上面的图片案例，我对 AI 下指令：「拓展成一幅横幅的中国水墨画。」十几秒后，照片就变成了一幅新的水墨风景画。

或是我的书籍封面，上传后，下指令说到：「我想把原书的图片，摆在一张高雅的书桌上。」结果还真的可以顺利生成新的产品摆拍图。

不过如果细看，书籍封面上有些小字其实是有瑕疵的。

因为 Gemini 是对话的模式，所以在原始照片的改造上，我们可以通过多次讨论，让 AI 在原始照片上陆续添加内容，制作出自己需要的场景图。

例如下面原本只是单纯公园照片，我先请 Gemini：「在这张照片的草地上，加上一对正在野餐的男女朋友。」于是生成了下面的图片。

然后我继续追问：「让两人旁边有一只小狗在奔跑。」

然后再下指令：「旁边的道路上，也有零星的路人在散步。」

最后说「让天空变得更晴朗。」于是我要的最终场景图，就通过 AI 创作完成了。

我还做了一个尝试，先上传一张原始的房间照片〔某家旅馆〕。

然后我陆续对 AI 下了下面这些指令：

结果 AI 生成了下面这样的图片，第一张是原图，第二张是最后生成的图片，改造的图片还是保有原图的空间格局，只是风格焕然一新。

Google Gemini 本来就可以生成图片，但「Gemini 2.0 flash experimental」比较厉害的是可以分析文章内容，生成适合的配图，或是一系列的连续漫画、故事图片。

例如，我对「Gemini 2.0 flash experimental」下了这样的指令：「你是意大利面专家，提供给我一道海鲜意大利面的食谱，请一步一步处理，用文字具体列出关键步骤，并在步骤后搭配图片。」

结果他「一次」就生成了下面的连续图文教程内容，这是在一次的问答后就完成的结果。

我假设自己写了一篇游记，于是请 AI「设计一系列素描画，展现一个人在京都街头散步的故事，请一步一步分析，以京都的场景，搭配素描画风格，设计有意思的散步故事，创作一连图画。」

结果「Gemini 2.0 flash experimental」也在一次的生成中，提供给我下面连续故事图，比较神奇的是这些连续图片中都有类似的人物，保持图片连贯性，虽然风格上有点跳跃。

还可以这样问 AI，我让 Gemini 自己思考如何设计一系列进入书店场景的图片，Gemini 自己写了一大篇分析内容后，才开始设计并产出图片。

但效果看起来还不错。

所以，在功能上，利用现在〔2025/3/15〕在 Google AI Studio 中的「Gemini 2.0 flash experimental」，你可以上传原始照片请 AI 修图、改图。也可以让 AI 读一篇文章、思考一个主题，生成一系列连续图片。

未来这个功能越来越成熟，或许有下面这些应用可能性：

现在，你也可以通过免费账号即可登入的「 Google AI Studio 」来试试看。

话都说不清楚

DUN.IM BLOG

Anonymous

5 February 2025 at 13:27

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

最近有很多人假装关心，问我是如何更好的使用 AI 的，那我也就假装解答一下。我认为任何人都应该学习利用 AI，我分享自己利用 AI 工具经验和技巧思考，信息量已经足够多了。但是想要做到，可能还需要自己去探索，去做大量尝试。

很多人希望我直接出个教程，甚至最好是个视频教程，自己好按图索骥，照猫画虎。但我没兴趣，讲述起来太麻烦，我不想自己太累。这样一来，就会有人说我傲慢冷漠，说我小气藏私，说我老登加爹味，诸如此类的酸话。其实我是真的累，心累，很早就把自己的期待降到了最低。比如说如何在国内使用 AI 的话题，我早分享过，甚至还贴出了链接。但是总有人不断来问，所以我说他们是「假装关心」，连提问前先搜索一下都做不到。

对此我能理解，因为我没期待。我不期待每个人都会关心我的分享，我也不期待每个人在提问前会主动搜索信息，我习惯了张嘴就问，所以我相信 AI 更能满足他们的需求。

现在国内也普及了 AI，我又发现了一个更加致命的问题：很多人连话都说不清楚。

对，我说了，你只需要像是和人说话一样吩咐 AI 去做事就好。我观察了几百条和 AI 之间的互动，看完内心充满了同情。

很多人的确是用和人说话方式来和 AI 交流，我仔细看了，他们平常可能就是这样和人说话的，所以看完我极度同情那些不得不和他们对话的人。他们所面对的，是混乱含糊，逻辑不清，而且相当粗鲁无礼的对话内容。

事实上，人类让 AI 去做什么事，这是在下达指令、请求。为了便于大众接受和实用，这里抹去了指令、咒语、提示语、Prompt 一类的术语，而是用大白话说：你像是和一个人说话那样，去吩咐 AI 做事。但它本质上就是个指令请求，这一点不会因为描述方式改变而改变。

那么，无论对面是一个人还是一个 AI，你给出的指令请求应该清晰明了，好让对方明确知道自己应该怎么去做—让我吃惊的是，很多人根本做不到这一点，他们连话都讲不清楚。

我看到，很多人上来张嘴就是：「给我分享」「给我照片」。什么图片？关于什么的分享？具体是要给你建议还是帮助解决需求？谁知道你心里想着的具体是什么？

还有人上来就问：「送什么好」。谁送，送谁，为什么送，双方什么关系，什么地区，什么当地风俗？一概没有。于是，AI 弄了一些关于赠送礼物的片汤话回复。看完马上不高兴了：「我要的是送礼的推荐，东西呢？！」。

人可能真的是生来就有不同。我朋友的女儿，我管她叫小妹，小学生一个。有天发来语音问我 AI 绘画的事情，说是让 AI 画了一张仓鼠的图，很不满意，问我应该怎么弄。我让她把自己给 AI 的指令/请求/咒语/提示语/Prompt 发来让我看看，看完之后，我重新构造了一条发还给她，跟她讲：

AI 要知道画什么，你就得给出一系列明确的指示—什么载体、什么材质、什么风格、什么角度、什么镜头、什么光线，然后角色是什么神态、什么姿势、什么动作、什么状态、什么地点、什么空间、什么氛围，你得清晰地指定了，才不会出现你想要 AI 画一张油画，它给你一张照片或者漫画的悲剧。小妹当场就能理解，高高兴兴蹦蹦跳跳自己去尝试了。

我一点都不担心小妹，多余的一句叮咛都没有。为什么？因为我见过她提出请求，我们一起吃饭的时候，她说：「我能不能要两个冰淇淋球，一个香草的，一个巧克力的」。停顿了一下，又补充说：「我可以和妈妈一起分着吃」。

要求非常清晰非常明确，所有人都能听懂她要什么。甚至她还考虑到对方用吃太多不好作为反对理由，预先把补丁给打上了—不是自己一个人全吃掉。

许多人活几十岁，不如一个孩子。我朋友的一任失败前女友就是如此，一开口所有人都想跳上去打。每次她一开口，就是盯着你娇憨地一句：「要」「想要」「我要」「想吃」。她是说什么，你要什么？为什么要？有什么必要？他妈的宾语呢？要煎饼呢要要要！

把话说清楚，把请求把要求把指令一二三四说清楚，让人能听懂，知道你的意图，可以明确根据你所说的去执行，我真的没有想到这其实是一项极高的要求，有那么多人居然做不到，更别说与人真诚的讨论/交流/商量/沟通。这样说起来，我先前的期待其实还不足够低，人们不单不会主动搜索找寻答案，人们连把话说清楚都有相当困难。

总听人在讨论 AI 替代人类的话题。我现在觉得这种讨论都多余，说什么人类和 AI 竞争呢？很多人连话都说不清楚，无法表达自己的意图，无法表达自己的想法，无法表达自己的情感，这本身在人类社会里就会被交际和工作所排斥，因为不知道他在说什么，想要表达什么，如何与其相处，哪里还需要等到被 AI 替代的一天？现在就是高度可替换的。

我以前说，将来的人们可能写不清楚，只能拍个视频出来。现在我担心视频怕是也不成，因为你都不知道他在视频里颠三倒四、莫名其妙说了些什么，世界上就找不出几个人来能听懂。

AI Graph Maker – 免费不登录 AI 生成统计图表，简单美观的数据可视化工具

DUN.IM BLOG

Anonymous

8 January 2025 at 17:44

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

AI Graph Maker 是一个帮助用户快速生成图表的在线工具，通过 AI 整理输入的数据和提示词，再将数据以图表方式输出，在几秒钟快速生成专业的图表，同时还能调整不同的图表配色，如果发现生成的图表有些小问题也能通过编辑功能调整数据。

依照说明 AI Graph Maker 可以制作各种类型的图表，包括扇形图、折线图、条形图、流程图、时间轴、ER 图、思维导图和甘特图等等，默认情况会自动识别、选择最合适的类型，有需要也能手动指定。

最后可以将图表快速下载为 PNG 格式，整个过程无需注册账户，无论是新手或是专业人士都能轻松上手。

使用 AI 图表生成器轻松创建各类图表。将您的数据转换为定制的柱状图、折线图、流程图、饼图和散点图。

进入 AI Graph Maker 后会看到功能介绍、可通过 AI 图表制作工具生成的图表类型，要注意目前不同语言版本的制作工具不一样，使用英文或简体中文的版本功能会比较多，而且制作出来的图表更好看。

AI Graph Maker – 免费不登录 AI 生成统计图表，简单美观的数据可视化工具

点击 AI 图表生成器下方的示例，可以快速带入测试用的内容，例如生成销售数据条形图、网站流量分析折线图、部门员工人数扇形图或是比较学生学习表现的雷达对比图。

右下角有一个「图表类型选择」栏位，默认情况下会「自动」判断，用户可依照需求手动选择，AI Graph Maker 当前支持的类型包括折线图、条形图、雷达图、扇形图、树形图、散布图、关系图、桑奇图、漏斗图。

下图就是使用 AI Graph Maker 示例制作出来的图表，用户只需要将相关数据直接贴上，AI 就会进行后续处理并生成图片，整个过程几秒钟就完成了，可以说非常强大。

我也试着去找一些数据作为示例，搭配上提示词〔要求 AI 将内容制作为图表〕，点击右下角「AI 生成」。

AI Graph Maker 就将条形图制作出来，还能依照用户需求更改单位、显示名称或其他呈现方式。

从图表右下角按钮找到「调色盘」选项，快速将图表切换为不一样的配色组合。

使用不同语言版本生成的图表文字会转成相应语言，可以点击一下右下角「编辑图表数据」按钮就能修改，编辑图表中每个项目的显示文字和数字。

最后，找到图表右下角的「下载」按钮即可将图表保存为 PNG 格式。

认错要快，感激要慢

DUN.IM BLOG

Anonymous

2 January 2025 at 14:57

有人问我，怎样才是最好的认错时机？说是一直在热身，但始终下不定决心向对方「低头」。

这个问题问我可能没什么用，因为我早就过了那个阶段，我现在的原则是有错当场就认了，绝不过夜。认错要快，这就是我的态度。在网上，有时候我因为理解错误，或者过度自信，结果错怼了人。我的做法是立即认错，有时候还要把留言置顶，让更多人看到。

站在我的角度，我有更为充分的理由不能向网上的一位陌生人「低头」，我也有足够的语言技巧可以把问题搅得天翻地覆，反正大多数读者都会无条件站在我那一边。那我为什么认错得如此爽脆？

因为从心理上来说，因为我的过错而对他人造成了伤害，每多过一秒钟对方的愤怒都会上升一个等级。人在一开始是会期待认错的，如果认错准点到达，那么一切都好说。

最可怕的是人等待到一定时间没有得到任何错意，那么这个人就不再期待认错，而是转向去想着报复，这就会把小矛盾变成私人恩怨，伤害就一定要用伤害来弥补。

所以，准点认错都是不够的，最好提前认错，越早越好。

至于说自己的面子，或者说是虚荣心，我是这么看的：世间最不值得投入时间精力金钱的就是这类东西，没有一次维护是成功的，没有一次维护从长远上看是有价值的。

尤其是为了面子而坚持不认错，最后很可能连面子带里子全部都会失去，自己会成为错误本身，也会成为错误的代价，而且会是高价。

有错当场就认了，对于自己而言，无论自我感觉多么难堪，认完错后对方表示原谅的一瞬间，事情就可以放下了。我认为这就是认错的福利，人从此不再需要自我折磨，也无需活在后悔或者懊恼之中。

问我什么是合适的认错时机，问我究竟要不要认错，这不是提问，这是人在受折磨。折磨是从哪里来的呢？都是自己找的。

与此对应的，感激要慢，类似的话我说过不止一次。但我觉得值得多说几次，因为人们认错的机会少，但是需要感激的场合多。

收到他人的礼物，得到他人的帮助，受了他人的恩义，有些人坚持当场就要回报，就要感激，觉得不那么做就是占别人便宜。在我看来，这要比坚持不认错还要糟糕。

人际关系不是去小超市买东西。别人送你个礼物帮你个忙，就是老板给你一瓶水，你当场刷过去 3 块钱，大家就算是两清了。清不了的，别人帮助你，你首先得承情。

承认这是个人情，是一份情意，然后接受这一份人情，珍惜这一份情意。立即感激，那是要两清的意思，效果和直接打脸差不多—不承认礼物的心意，不承认得到帮助，不承认有任何恩义的存在，大家彼此之间就是个交易，不要有任何羁绊，不要有任何因果。

「蒙此大恩，容后再报」这不是单纯的客气话，「容后再报」的意思就是承情。

去年，我大学好友的遗孀和女儿想去母校看看，但是找不到门路进去，问到我这里来。后来，经我在网上求助，许多老师校友伸出援手，非常妥帖地解决了参观的所有手续。接下来，我做了三件事：

这就是我的个人做法。认错要从重从快，这样对方才会从不痛快变成痛快。认个错还要分步骤，讲策略，那就是自找麻烦，每过一分钟都会让你的错意贬值一大截。迟到的认错就和迟到的正义一样，是一种羞辱。

感激要慢要审慎，要考虑对方的想法，要考虑对方的接受程度。不好把人际关系变成生意或者是借贷，除非你的确不想承这份情，那么当场还礼就算是含蓄地拒人于千里之外。

现代人的习惯刚好相反，认错的时候很慢，很审慎，开口索要帮助的时候很快，很频繁，得到帮助之后感激更快，更干脆。

总体上来说，给人一种不值得相处的感觉，一切都是一笔交易货到付款的感觉。不过，如果现在人人都如此，也是一种新型的人际关系，主打一个短平快，主打一个不粘锅，也不是不可以，反正人间是所有人的人间。

D2Lang – 简单友好强大的文本转示意图片工具

DUN.IM BLOG

Anonymous

9 December 2024 at 17:30

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

制作示意图的工具有很多。

我喜欢使用基于文本代码的作图工具，来绘制线框图，比如 Mermaid、Plantuml、Graphviz。

D2Lang – 简单友好强大的文本转示意图片工具

它们都能根据代码，生成图片，非常适合放入代码仓库，进行版本管理。

最近，我发现了一个更易用的同类工具 D2，简单直观，功能强大，下面介绍给大家。

D2 可以命令行使用，也可以浏览器使用。假定你有一个图片代码文件example.d2，那么生成图片的命令如下。

$ d2 example.d2

大部分时候，我都通过浏览器使用它。它有一个线上生成器 play.d2lang.com（下图），把代码贴进去，按下”compile”按钮，马上生成图片。

想要 A 节点（节点的名称为 A），直接输入 A 就可以了。

A 只是节点名称，如果要定制节点的内容，就像下面这样写。

A: 甲

接着，添加一个节点。

A: 甲
B: 乙

把它们连起来。

A: 甲
B: 乙
A -> B

连接可以用正箭头（->）、也可以用反箭头（<-），甚至双向箭头（<->）。如果不需要箭头，就直接连线（--）。

箭头上还能添加文字。

A: 甲
B: 乙
A -> B: 连接

节点之间可以有多根连线。

A: 甲
B: 乙
A -> B: 请求
A <- B: 响应

节点的连接也可以写在一行。

甲 -> 丙 <- 乙: 连接

阶段一 -> 阶段二 -> 阶段三 -> 阶段四
阶段四 -> 阶段一: 反馈

这些语法就够画出基本的线框图了，是不是挺简单。

D2 可以绘制非常复杂的图，更多语法参考文档。

最后提一下，如果想修改节点形状，方框改成圆形，就像下面这样写。

A: 甲
A.shape: circle

形状甚至可以改成一朵云，表示云服务。

A: 甲
A.shape: cloud

线条颜色也可以改。

A: 甲
A.style.stroke: red