Normal view

There are new articles available, click to refresh the page.

Before yesterdayMain stream

EZCut – 简单的图片处理工具

BOXKS

By: Kaiyuan

16 April 2026 at 01:15

EZCut 在2014到2016年期间，我在 MacOS 上用这一个简单的图片处理软件。我经常用来调整图片的尺寸，然后还有裁剪水印之类的功能，后来系统升级后作者也没更新，之后就再也找不到类似的软件了。

现在有 Vibe Coding，我决定自己动手做一个！开始用 Codex，后续也使用 Antigracity 组合开发，直接用 HTML 做软件 UI，框架使用 Tauri 可以尽可能降低软件大小同时多系统支持。因为我 2012 年的 Macbook Pro 还在用，所以软件最早支持 Mac OS 10.15。至于 Windows，Webview 已经不支持 Windows 7 所以需要 Windows 10 以上。

代码托管在 Github。项目页面：https://boxks.com/ezcut/

基本功能

EZCut UI 软件 UI 基本上就直接采用我以前用的软件类似的布局，左边是图片预览和列表，右边是操作菜单。功能有：修改尺寸、裁剪、文字水印、图片覆盖（图片水印）四个功能，导出的文件名支持按规则命名，导出格式支持多种常规图片格式。

基本的修改尺寸、裁剪、保存就不用多说，水印和文件命名需要稍微说一下。

文字水印和图片覆盖都支持同时使用多个。也就是你能设置多个文字或者图片覆盖，这个功能其实差不多是用来做图片注释，直接按添加就能添加多个水印。

文件名输出说明

输出文件命名默认是格式是源文件名_当前时间.后缀名，这样可以确保每次导出都是独立的文件名，同样支持正则和多种变量。

占位符规则

{name}：原文件名（若启用正则，指代正则处理后的名字）
{index}：序列号（由下方“起始序号”和“步进”控制）
{timestamp}：当前时间戳 (YYYYMMDD_HHMMSS)
{width} / {height}：原图的分辨率宽高
{ext}：目标文件的扩展名

正则命名

^ / $：匹配开头/结尾
(.*)：捕获组。在“替换”栏中使用 $1, $2 引用这些部分。

标志 (Flags)

g：全局匹配
i：忽略大小写
m：多行模式
s：允许 . 匹配所有字符（包括换行）

序号序列

起始序号：首张图片的开始数字。
步进：后续每张图片序号递加的数值。

做这个软件的原因

如果单纯说图片转换和处理，XnConvert 更强大，但 XnConvert 因为太强大所以不够快，我想要的是启动软件，拖动图片进去，简单调整参数，然后导出。最重要是快。我能想到的只是当前用的软件，之后就没怎么找到其他软件能满足我的需要。

用 Antigravity 开发的车辆管理工具 CarNote

BOXKS

By: Kaiyuan

5 February 2026 at 01:41

这是一个功能完整的车辆记录管理系统，支持油耗、电耗追踪、保养管理、配件跟踪和数据分析。

项目托管和起因

代码在 GitHub，我自己也建了一个在线版，开始我是在 NAS 自用的，然后觉得要建个演示的，干脆就直接建一个完整的吧，然后就有了 https://carnote.boxks.com 。

我之前用的是微信里面，腾讯我的车中油耗工具，但是每次都要打开微信，点小程序，点更多才到油耗用具。一顿操作…猴年马月了，而且我也想要记录保养和配件等内容。现在有这个工具就点开然后马上就能添加能耗记录了。

开发过程

项目功能说明

因为之前用 Cursor 和 Kiro 做过几个小工具，所以知道这类工具开发大致是怎么回事，这次我先给项目写了一份描述文档。

开发

然后给 Antigravity 使用 Planning 模式开始，他会根据要求生成他理解的文档，拆分多个开发步骤。然后我看一下，没啥问题就叫他开始开发，然后 Antigravity 自动给我在文件夹中建立对应文件夹不停的在敲代码，大概有半小时吧，一个能跑的程序就出来了，但是他分开前后端的，作为懒人，我直接叫他给我一个在 WSL 一键启动的脚本。这样第一版就完成了，当然，第一版是有很多依赖什么的没有成功跑起来的，然后出什么提示直接丢给 Antigravity 等他自己看和修复。第一版是 Antigravity 自己根据理解做的，排版什么的我都不是很满意，我直接就把 PrimeVue 首页的例子截图丢给他，之后就出了现在的版面了。因为成现在的界面我才建立 git 仓库，所以已经看不到最开始 AI 自己生成的界面了。

很多细节为因为我没有详细的描述，也没有画原型图，所以都是 Antigravity 根据自己理解做的，所以前期针对前端的细节改了很多，甚至改到周额度用完了，我就等了几天继续改。做了两周的晚上，初版能用的做好了。我自己在 NAS 上跑起来了。

后来想着，既然发布到 GitHub 上了，怎么也得给别人看看成品是怎样的把，这时候，我就想到，我直接搭建一个大家直接用的算了，而服务器的费用，我就想到了，弄会员把，这样我就能赚点服务器的钱了。然后问了一下 OpenAI 国内个人开发者怎么收钱，他给的方案就是爱发电和淘宝，然后我登录爱发电看看详细的设置，然后又注册了淘宝店铺，看看虚拟序列号后台没有自动发卡，需要手动发卡，需要找其他办法，还是爱发电方便点。

会员设置

开源版没有任何功能限制，我建好的 https://carnote.boxks.com 则普通用户可以管理两台车，进阶会员￥30/年，可以管理5台车，专业会员￥200/年，可以无限制增加车辆，首页的数据展示可以同时多辆车对比数据，也可以自定义时间段数据进行对比。

这样设置的理由是，普通用户两台车是正常的了，而你有超过2台车需要管理，这一年30块也是意思意思给个服务器的费用，超过5台车，那就更不用说了吧。

快速部署

# CarNote Docker Compose 配置
# 包含后端 API 服务和可选的 PostgreSQL 数据库

version: '3.8'

services:
  # 主应用服务 (包含前后端)
  app:
    image: kaiyuan/carnote:latest
    build:
      context: .
      dockerfile: Dockerfile
    container_name: carnote
    ports:
      - "53300:53300"
    environment:
      - NODE_ENV=production
      - PORT=53300
      - DB_TYPE=sqlite
      - SQLITE_PATH=/app/data/carnote.db
      # - DB_TYPE=postgresql
      # - PG_HOST=172.20.0.1
      # - PG_PORT=5432
      # - PG_DATABASE=carnote
      # - PG_USER=carnote
      # - PG_PASSWORD=postgresqlPassword
      - UPLOAD_PATH=/app/uploads
      # JWT 密钥
      - JWT_SECRET=${JWT_SECRET}
      # 跨域资源共享
      - CORS_ORIGIN=http://localhost
      # SMTP 配置 (可选)
      # - SMTP_HOST=smtp.example.com
      # - SMTP_PORT=465
      # - SMTP_USER=user@example.com
      # - SMTP_PASS=password
      # - SMTP_SECURE=true
      # - SMTP_FROM=CarNote <noreply@example.com>
    volumes:
      # SQList 数据库目录及数据库备份目录
      - ${carnote_data}:/app/data
      # 上传文件目录
      - ${carnote_uploads}:/app/uploads
    restart: unless-stopped
    healthcheck:
      test: [ "CMD", "node", "-e", "require('http').get('http://localhost:53300/health', (r) => {process.exit(r.statusCode === 200 ? 0 : 1)})" ]
      interval: 30s
      timeout: 3s
      retries: 3
      start_period: 10s
    networks:
      - carnote-network
  # 数据卷
volumes:
  carnote_data:
    driver: local
  carnote_uploads:
    driver: local
  # postgres_data:
  #   driver: local

  # 网络
networks:
  carnote-network:
    driver: bridge

Vibe Code 经验

用过几个 AI 编程相关的 Vibe Code 软件，叫 AI 开发和平时做其他事情一样，需要事情将自己想要的东西结构并编写一份清晰的文档，这份文档越详细越细致越好，再有就是能画出 UI 的原型图更好，Google Stitch 能直接生成整套前端 UI，当然还是得是要有清晰的描述，所以可以的画还是用 Figma 自己画好，然后放到项目文档中让 AI 自己依照原型图开发。

iPhone 修改 iOS 通话录音提示音指南

DUN.IM BLOG

By: Anonymous

17 November 2025 at 17:17

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

在 iOS 26 中，Apple 终于引入了原生通话录音功能。出于隐私合规考虑，系统会在录音开始时强制播放 “This call is being recorded” 的语音提示。对于希望静默录音或自定义提示音的用户，目前唯一的解决方案是利用沙盒逃逸漏洞。

macOS：

https://github.com/34306/bl_sbx

Windows：

Use the bl_sbx exploit to hide the call-recording notification sound on iOS – YangJiiii/Disable-Call-Recording-BookRestore-

该方案并非传统的“越狱”，而是一种沙盒逃逸（Sandbox Escape）技术。它利用了 iOS 系统中两个守护进程之间的信任机制缺陷，实现对受限文件系统的写入。

在操作前，请务必备份数据，避免风险。

iPhone 修改/去除 iOS 通话录音提示音

由于目前自动化工具（如 Misaka26）尚未完全适配，使用 Python 脚本进行手动替换是较为稳妥的方式。

你需要一台电脑，并配置好 Python 3 环境。

你需要准备一个用于替换系统原声的音频文件。

将 iPhone 连接至电脑，并确保已点击“信任此电脑”。

操作完成后，请按照以下步骤验证是否成功：

Claude Code 最佳实践经验分享

DUN.IM BLOG

By: Anonymous

29 October 2025 at 15:02

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

CLAUDE.md 是代码库的根目录中最重要的文件，它是代理理解你项目运作方式的核心规则。如何维护它，取决于使用场景。

正确示例:
“对于复杂的…用法，或当您遇到 FooBarError 错误时，请参阅 path/to/docs.md 以获取高级故障排除步骤。”

你需要向代理建议阅读这份文档的理由和时机。

正确示例:
“不要使用 --foo-bar，请优先选择 --new-baz。”

建议在编码会话中至少运行一次 /context，以了解你的 200k 令牌上下文窗口是如何被消耗的。

在一个大型单体仓库中，一次新的会话基本消耗可能就高达约 20k 令牌（10%），剩下的 180k 会很快被填满。

你可以将上下文窗口想象成磁盘空间，它会随着你的工作而填满。几分钟或几小时后，你需要清理（紫色部分）来腾出空间。

小提醒：
不要信任自动压缩。
使用 /clear 进行简单任务，并利用存储方法为复杂任务创建持久的外部记录。

我将斜杠命令视为常用提示词的快捷方式，仅此而已。我的设置非常精简：

小提醒：
如果你发现自己有一长串复杂的自定义斜杠命令，那你可能过度思考了。
AI 代理的魅力在于自然语言交互，一旦你开始强迫自己和团队去记一堆指令，就违背了初衷。
将斜杠命令用作简单的个人快捷方式，而不是用来替代构建更直观的 CLAUDE.md 和更完善的工具。

子代理听起来很美：把特定任务（比如跑测试）外包给专门的代理，只返回最终结果，从而保持主上下文的清洁。

然而，在实践中，自定义子代理会带来两个问题：

我更喜欢使用 Claude 内置的 Task(...) 功能来生成通用代理的副本。

这既能享受到子代理节省上下文的好处，又避免了其缺点。代理能够动态地管理自己的任务编排，而不是遵循固定的模式。

我经常使用 claude --resume 和 claude --continue 来重启出问题的终端或快速恢复旧会话。

我甚至会恢复几天前的会话，只为让代理总结它是如何解决某个特定错误的，然后用这些信息来优化改进 CLAUDE.md 和内部工具。

更进一步，Claude Code 将所有会话记录存储在 ~/.claude/projects/ 中。可以使用脚本定期对这些原始日志进行元分析，寻找常见的异常、权限请求和错误模式，以帮助优化改进给 AI 的上下文。

钩子 (Hooks) 是确定性的“必须做”规则，与 CLAUDE.md 中“应该做”的建议形成互补。在复杂的任务代码库里，这东西至关重要。

小提醒：
不要在“写入时”（比如 Edit 或 Write 操作）阻止。
打断它的思考过程会让它出现不明所以的判断。更好的方式是让它完成整个工作，然后在最后提交时检查结果。

对于任何大型功能变更，使用规划模式至关重要。

技能（Skills）可能是比 MCP 更好用。

智能体模型三个阶段：

Agent Skills
正是“脚本化”阶段的正式产品化。如果你像我一样，倾向于使用 CLI 而非 MCP，那么你其实一直在享受 Skills 带来的好处。
SKILL.md 文件就是一个更规范、可共享的方式来告诉 AI 它能用哪些脚本和 CLI。

Skills 的出现并不意味着 MCP 已死，而是使其更加聚焦。

与其成为一个包含几十个工具、镜像 REST API 的臃肿接口，MCP 应该是一个简单、安全、提供少数强大高阶工具的网关。比如：

MCP 的工作会是管理认证、网络和安全边界，然后让开。为代理提供入口点，代理则利用其脚本化能力和上下文来完成实际工作。

Claude Code 不仅仅是一个交互式 CLI，它还是一个强大的 SDK，可用于构建全新的通用代理框架。

Claude Code GitHub Action 是最被低估的功能之一。概念很简单：在 GHA 中运行 Claude Code。

它比 Cursor 的后台代理或 Codex 的托管 Web UI 更具可定制性。你完全控制容器和环境，拥有更强的数据访问权限、沙盒能力和审计控制。

我们可以用它来打造智能 PR 的工具：从 Slack、Jira 或者监控警报触发一个 GHA，让 AI 自动修复 bug 或添加功能，然后提交一个测试通过的 PR。

GHA 的日志就是 AI 的完整工作记录。我们可以定期分析这些日志，以发现常见的错误和不一致的工程实践，然后优化我们的 CLAUDE.md 和 CLI，形成一个数据驱动的飞轮

最后，分享几个常用的 settings.json 配置：

2 分钟解读 AI 会脑腐的有意思研究

DUN.IM BLOG

By: DUN

20 October 2025 at 16:23

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

2 分钟解读 AI 会脑腐的有意思研究

第一次看到时，我真的笑出声。但笑着笑着，就觉得有点不对劲了。

这个研究，可能说的就是我们自己。

https://llm-brain-rot.github.io/

首先，这研究不是段子，是来自德州 A&M、德州大学奥斯汀分校和普渡大学的硬核论文。简单来说，他们做了个实验：

实验流程图

把一个正常的 AI 大模型（对照组），和另一个被强迫刷了几个月推特、Reddit 等社交媒体的 AI 模型（实验组）进行对比，他们用了两种标准“垃圾信息”：

结果发现了不得了的事：

喂了垃圾数据后，AI 在推理、长文理解、安全等方面全面降智。

而且，这是一种 “剂量反应”：垃圾数据的比例越高，AI 就“脑损”得越厉害。

看个例子就明白了：

在一项叫“ARC-Challenge”的推理测试中（考验 AI 举一反三的能力），随着提供垃圾数据（M1 型信息标准）的比例从 0%增加到 100%，AI 的准确率从 74.9% 直降到 57.2%。

下面这张表更直观，我从原论文里摘了几个关键数据（红色代表性能变差）：

简单的说：AI 不仅降智了，还变得更不安全、性格更“黑暗”了。

研究人员对 AI 犯的错误进行了分析，发现最关键的是它学会了偷懒，也就是 不思考了。

Figure: thought skipping.

上图显示，在“脑腐”之后，对比基准，AI 思维的错误显著增多。它不再愿意进行一步一步的严谨推理，而是倾向于直接跳到结论，M1 的影响更是大于 M2。

这不就是我们在信息流里被训练出的习惯吗？

最让人难接受的是，这种“脑腐”基本不能治愈。

研究人员试着用大量高质量的“干净”数据去“修复”那个降智的 AI，结果发现效果相当有限。

Figure: Scale wash-out tuning.

即使经过大规模的“高质量训练”，性能也只能部分回升，始终无法恢复到基本水平。

这意味着，AI 的内部认知结构，或者说它的“世界观”，已经被永久性地改变了。

看到这里，你是不是也品出点别的味道了？

虽然研究的是 AI，但你很难不怀疑这个研究是在指桑骂槐。

如果 AI 会因为刷垃圾信息而变傻，那当前互联网信息环境里的我们呢？

仔细想想，我们身边是不是已经有太多迹象了：

“大学教授也可能转发每日口服 7 颗绿豆能够逆转高血压……的文章，学术训练的强度和社交网络垃圾文章洗脑的强度不可同日而语。”

我们以为自己是在驾驭信息，但很可能，我们只是在被网络信息洪流日夜冲刷，以为自己有足够的知识和阅历来抵御侵蚀，但长年累月的垃圾信息轰炸，可能正在不知不觉中重塑我们的大脑。

大脑的认知逻辑正在被悄悄地改变。

去查查那些著名社交平台的创始人，看看他们自己每天花多少时间在手机上？

你会发现一个很有意思的现象：很多产品的设计者，自己反而刻意与产品保持距离。这背后的原因，值得我们每个人深思。

一个小测试：

读到这里，你还记得这篇文章是怎么开头的吗？

…

想不起来也没关系。

这可能就是一个信号，提醒我们是时候让大脑从无休止的信息流中抽离出来，安静一会儿了。

为了保护你的脑子，现在，是不是该对我说声“谢谢”？🙂

DUN.IM BLOG
Zen Privacy – 免费开源的桌面系统级广告拦截程序，替代 Adguard
7 October 2025 at 15:23

Zen Privacy – 免费开源的桌面系统级广告拦截程序，替代 Adguard

DUN.IM BLOG

By: Anonymous

7 October 2025 at 15:23

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

Zen Privacy

近期发现一款免费、开源的广告屏蔽软件「Zen」，和 Zen Browser 网页浏览器同名，不过是完全不一样的工具。

Zen 更像是知名软件 AdGuard 免费替代方案，两者运作方式很类似，不仅仅在浏览器屏蔽广告，任何会通过网络连接的应用程序都能经由 Zen 进行广告屏蔽，随时保护用户免于安全和隐私的侵扰。

Zen 是强大的桌面应用程序，在用户浏览网络时自动屏蔽广告、追踪器或任何隐藏的威胁，本身相当快速、轻量化、无任何干扰，不用再去寻找各种浏览器扩展，只要 Zen 就能轻松做到！

如同 AdGaurd 它也自带强大的过滤器，支持各种类型的屏蔽规则，例如广告、隐私、恶意软件、36 个地区的屏蔽列表和设置清单等，也能将自己惯用的屏蔽清单加入设置规则，Zen 具有中文在内等多国语言，设计很简单，没有太多复杂或难懂的技术性选项。

依照网站说明，Zen 来自一个小团队，尊重用户隐私，不追踪或是收集任何资料，如果你正在寻找「系统层级」的广告屏蔽工具，它就是可以考虑的选择。

网站名称：Zen
网站链接：https://zenprivacy.net/ 〔GitHub〕

进入 Zen 官方网站后往下找到「下载」链接，可以找到 Windows、macOS 和 Linux 版本，分别支持 x64、ARM64 两种不同的处理器类型。

Zen Privacy

举例来说我下载的是 Zen for macOS〔ARM64〕，下载、运行后将它拖曳到应用程序资料夹即可使用。

Zen Privacy

进入 Zen 主画面看起来像下图，点击下方「Start」按钮启动保护。

Zen Privacy

要注意的是第一次使用 Zen 会要求安装根证书〔Root Certificate〕，这是让 Zen 拦截、修改 HTTPS 请求的必须项目，证书是在本机生成，不会离开用户设备，大家熟悉的 AdGuard 也是使用相同机制。

Zen Privacy

接着先切换到「设置」页面后将语言调整为中文，有兴趣的朋友也可以去协助翻译一下。

Zen Privacy

在过滤列表可以启用、停止指定的过滤器，包含各种类型，包括通用、广告、隐私、恶意软件、地区性和设置等，没有特别的需求就直接维持默认值即可，若有需要启动或是停用过滤器必须先将 Zen 防护功能关闭〔点击下方停止〕才能继续。

Zen Privacy

想从其他广告屏蔽工具转换到 Zen 也可以将设置规则导入，非常方便。

Zen Privacy

从 Zen「主页」就能看到网络流量被屏蔽、封锁的情形，包括存取方法、网址、来源、过滤器名称和规则等，当使用上有发现任何问题时也可以从这里找到过滤器，将指定的封锁路径关掉。

Zen Privacy

虽然说 Zen 是免费、开源广告屏蔽工具，完全不用花费任何一毛钱就能使用，而且也自带不少筛选器规则，在系统端进行过滤、屏蔽的好处是不用再寻找各种广告屏蔽扩展，只要一个应用程序就能搞定！除了浏览器以外，其他软件也都能有效。

DUN.IM BLOG
解决升级 macOS Tahoe 26 后 Electron 应用卡顿与 GPU 占用过高
18 September 2025 at 12:10

解决升级 macOS Tahoe 26 后 Electron 应用卡顿与 GPU 占用过高

DUN.IM BLOG

By: Anonymous

18 September 2025 at 12:10

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

解决升级 macOS Tahoe 26 后 Electron 应用卡顿与 GPU 占用过高

简单来说，问题出在 macOS Tahoe 的窗口管理器 WindowServer 上。

它在渲染某些应用（特别是基于 Electron 框架的应用）的窗口阴影时，会消耗巨量 GPU 资源，导致占用率飙升到 80% 以上，从而引发卡顿和发热。

你可以通过「活动监视器」的 GPU 栏确认这一点：当应用窗口在前台时 WindowServer 占用率暴涨，最小化或全屏后则恢复正常。

在苹果官方发布系统更新修复之前，可以试试下面这两种方法绕过这个问题。

这个方法通过一条命令暂时改变系统的渲染方式，对所有相关应用都有效。

在「终端」里运行：

执行后，需要重启一下正在运行的 Electron 应用才能生效。缺点是，电脑每次重启后都需要重新运行一次这条命令。

这个方法是直接修改应用本身，禁用它的窗口阴影。效果更持久，但只对单个应用生效。

修改 VS Code:
sed -i '' 's/experimentalDarkMode:!0}/experimentalDarkMode:!0,hasShadow:false}/g' /Applications/Visual\ Studio\ Code.app/Contents/Resources/app/out/main.js

修改 Cursor:
sed -i '' 's/experimentalDarkMode:!0}/experimentalDarkMode:!0,hasShadow:false}/g' /Applications/Cursor.app/Contents/Resources/app/out/main.js

这个修改在系统重启后依然有效。但缺点是，每次应用自身版本更新后，这个修改就会被覆盖，需要重新运行一次命令。

Anthropic 官方团队分享如何利用 Claude Code

DUN.IM BLOG

By: Anonymous

20 July 2025 at 22:30

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

Anthropic 的内部团队正在利用 Claude Code 彻底改变他们的工作流程。无论是开发者还是非技术人员，都能借助它攻克复杂项目、实现任务自动化，并弥补那些曾经限制生产力的技能鸿沟。

为了深入了解，我们采访了以下团队：

通过这些访谈，我们收集了不同部门使用 Claude Code 的方式、它对工作带来的影响，以及为其他考虑采用该工具的组织提供的宝贵建议。

数据基础设施团队负责为公司内所有团队整理业务数据。他们使用 Claude Code 来自动化常规的数据工程任务、解决复杂的基础设施问题，并为技术和非技术团队成员创建文档化工作流，以便他们能够独立访问和操作数据。

利用截图调试 Kubernetes

当 Kubernetes 集群出现故障，无法调度新的 pod 时，团队使用 Claude Code 来诊断问题。他们将仪表盘的截图喂给 Claude Code，后者引导他们逐个菜单地浏览 Google Cloud 的用户界面，直到找到一个警告，指出 pod 的 IP 地址已耗尽。随后，Claude Code 提供了创建新 IP 池并将其添加到集群的确切命令，整个过程无需网络专家的介入。

为财务团队打造纯文本工作流

工程师向财务团队成员展示了如何编写描述其数据工作流程的纯文本文件，然后将这些文件加载到 Claude Code 中，以实现完全自动化的执行。没有任何编程经验的员工只需描述“查询这个仪表盘，获取信息，运行这些查询，生成 Excel 输出”等步骤，Claude Code 就能执行整个工作流，甚至会主动询问日期等必要输入。

为新员工提供代码库导览

当新的数据科学家加入团队时，他们会被指导使用 Claude Code 来熟悉庞大的代码库。Claude Code 会阅读他们的 Claude.md 文件（文档），识别特定任务所需的相关文件，解释数据管道的依赖关系，并帮助新人理解哪些上游数据源为仪表盘提供数据。这取代了传统的数据目录和发现工具。

会话结束时自动更新文档

在每项任务结束时，团队会要求 Claude Code 总结已完成的工作并提出改进建议。这创建了一个持续改进的循环：Claude Code 根据实际使用情况帮助优化 Claude.md 文档和工作流指令，使后续的迭代更加高效。

跨多个实例并行管理任务

在处理耗时较长的数据任务时，团队会为不同项目在不同的代码仓库中打开多个 Claude Code 实例。每个实例都能保持完整的上下文，因此即使在数小时或数天后切换回来，Claude Code 也能准确地记住他们当时正在做什么以及任务进行到哪里，从而实现了无上下文丢失的真正并行工作流管理。

无需专业知识即可解决基础设施问题

解决了通常需要系统或网络团队成员介入的 Kubernetes 集群问题，利用 Claude Code 诊断问题并提供精确的修复方案。

加速新员工上手

新的数据分析师和团队成员无需大量指导，就能迅速理解复杂的系统并做出有意义的贡献。

增强支持工作流

Claude Code 能够处理比人类手动审查大得多的数据量，并识别异常情况（例如监控 200 个仪表盘），这是人力无法完成的。

实现跨团队自助服务

没有任何编程经验的财务团队现在可以独立执行复杂的数据工作流。

编写详细的 Claude.md 文件

团队表示，你在 Claude.md 文件中将工作流程、工具和期望文档化得越好，Claude Code 的表现就越出色。当你拥有现成的设计模式时，这使得 Claude Code 在设置新数据管道等常规任务上表现卓越。

处理敏感数据时使用 MCP 服务器而非命令行界面

他们建议使用 MCP 服务器而不是 BigQuery 命令行界面，以便更好地控制 Claude Code 的访问权限，尤其是在处理需要日志记录或存在潜在隐私问题的敏感数据时。

分享团队使用心得

团队举办了分享会，成员们互相演示他们使用 Claude Code 的工作流程。这有助于传播最佳实践，并展示了他们自己可能没有发现的各种工具使用方法。

Claude Code 产品开发团队使用自家的产品来为 Claude Code 构建更新，扩展产品的企业级功能和 AI 智能体循环功能。

通过“自动接受模式”快速构建原型

工程师们通过启用“自动接受模式”（Shift+Tab）并设置自主循环，让 Claude 编写代码、运行测试并持续迭代，从而实现快速原型开发。他们将自己不熟悉的抽象问题交给 Claude，让它自主工作，然后在接手进行最后润色前，审查已完成 80% 的解决方案。团队建议从一个干净的 git 状态开始，并定期提交检查点，这样如果 Claude 跑偏了，他们可以轻松回滚任何不正确的更改。

同步编码开发核心功能

对于涉及应用程序业务逻辑的更关键功能，团队会与 Claude Code 同步工作，提供带有具体实现指令的详细提示。他们实时监控过程，确保代码质量、风格指南合规性和正确的架构，同时让 Claude 处理重复的编码工作。

构建 Vim 模式

他们最成功的异步项目之一是为 Claude Code 实现 Vim 快捷键绑定。他们要求 Claude 构建整个功能，最终实现中大约 70% 的代码来自 Claude 的自主工作，只需几次迭代即可完成。

生成测试和修复 bug

在实现功能后，团队使用 Claude Code 编写全面的测试，并处理在代码审查中发现的简单 bug。他们还使用 GitHub Actions 让 Claude 自动处理像格式问题或函数重命名这样的 Pull Request 评论。

代码库探索

在处理不熟悉的代码库（如 monorepo 或 API 端）时，团队使用 Claude Code 来快速理解系统的工作方式。他们不再等待 Slack 上的回复，而是直接向 Claude 提问以获取解释和代码参考，从而大大节省了上下文切换的时间。

更快的功能实现

Claude Code 成功实现了像 Vim 模式这样的复杂功能，其中 70% 的代码由 Claude 自主编写。

提升开发速度

该工具可以快速构建功能原型并迭代创意，而不会陷入实现细节的泥潭。

通过自动化测试提高代码质量

Claude 生成全面的测试并处理常规的 bug 修复，在减少手动工作的同时保持了高标准。

更好的代码库探索

团队成员可以快速熟悉 monorepo 中不熟悉的部分，而无需等待同事的回复。

创建自给自足的循环

设置 Claude 通过自动运行构建、测试和代码检查来验证自己的工作。这使得 Claude 可以更长时间地自主工作并发现自己的错误，尤其是在你要求 Claude 在编写代码之前先生成测试时效果更佳。

培养任务分类的直觉

学会区分哪些任务适合异步处理（外围功能、原型设计），哪些需要同步监督（核心业务逻辑、关键修复）。产品边缘的抽象任务可以用“自动接受模式”处理，而核心功能则需要更密切的监督。

编写清晰、详细的提示

当组件具有相似的名称或功能时，你的请求要极其具体。提示越好、越详细，你就越能信任 Claude 独立工作，而不会对代码库的错误部分进行意外更改。

安全工程团队专注于保障软件开发生命周期、供应链安全和开发环境安全。他们广泛使用 Claude Code 来编写和调试代码。

复杂基础设施调试

在处理事故时，他们将堆栈跟踪和文档喂给 Claude Code，并要求它在代码库中追踪控制流。这大大缩短了生产问题的解决时间，使他们能够在大约 5 分钟内理解问题，而手动扫描代码通常需要 10-15 分钟。

Terraform 代码审查与分析

对于需要安全审批的基础设施变更，团队将 Terraform 计划复制到 Claude Code 中，并提问“这会做什么？我会后悔吗？”。这创建了更紧密的反馈循环，使安全团队能够更快地审查和批准基础设施变更，减少了开发过程中的瓶颈。

文档综合与操作手册

Claude Code 吸收多个文档来源，创建 Markdown 格式的操作手册、故障排除指南和概述。团队将这些精简的文档作为调试实际问题的上下文，创建了比在完整知识库中搜索更高效的工作流程。

测试驱动开发工作流

他们摒弃了以往的“设计文档 → 粗糙代码 → 重构 → 放弃测试”模式，现在他们要求 Claude Code 提供伪代码，引导其进行测试驱动开发，并定期检查以在卡住时进行引导，从而产出更可靠、更易于测试的代码。

上下文切换与项目上手

在为现有项目（如用于安全审批工作流的 Web 应用“dependant”）做贡献时，他们使用 Claude Code 来编写、审查和执行存储在代码库中的 Markdown 格式的规范，从而能够在几天内做出有意义的贡献，而不是花费数周时间。

缩短事故解决时间

通常需要 10-15 分钟手动代码扫描的基础设施调试现在大约需要 5 分钟。

改进安全审查周期

需要安全审批的 Terraform 代码审查速度大大加快，消除了开发人员在等待安全团队批准时的阻塞。

增强跨职能贡献

团队成员可以在几天内为项目做出有意义的贡献，而不是花费数周时间来建立上下文。

更好的文档工作流程

从多个来源综合而成的故障排除指南和操作手册创建了更高效的调试过程。

广泛使用自定义斜杠命令

安全工程团队使用了整个 monorepo 中 50% 的自定义斜杠命令实现。这些自定义命令简化了特定的工作流程，并加快了重复性任务的速度。

让 Claude 先说

他们不再通过提出有针对性的问题来生成代码片段，而是告诉 Claude Code “边做边提交你的工作”，让它在定期检查的情况下自主工作，从而得到更全面的解决方案。

利用它进行文档处理

除了编码，Claude Code 还擅长综合文档和创建结构化输出。团队提供写作样本和格式偏好，以获得可立即在 Slack、Google Docs 和其他工具中使用的文档，避免界面切换带来的疲劳。

推理团队负责管理在 Claude 读取你的提示并生成回复时存储信息的内存系统。团队成员，尤其是那些刚接触机器学习的人，可以广泛使用 Claude Code 来弥补知识差距并加速他们的工作。

代码库理解与新员工上手

在加入一个复杂的代码库时，团队严重依赖 Claude Code 来快速理解其架构。他们不再手动搜索 GitHub 仓库，而是询问 Claude 哪些文件调用了特定的功能，几秒钟内就能得到结果，而不是向同事求助或手动搜索。

包含边界情况的单元测试生成

在编写完核心功能后，他们要求 Claude 为其编写全面的单元测试。Claude 会自动包含被遗漏的边界情况，在几分钟内完成通常需要大量时间和精力的工作，就像一个他们可以审查的编码助手。

机器学习概念解释

没有机器学习背景的团队成员依赖 Claude 来解释模型特定的函数和设置。过去需要一个小时谷歌搜索和阅读文档的工作，现在只需 10-20 分钟，研究时间减少了 80%。

跨语言代码翻译

在用不同编程语言测试功能时，团队向 Claude 解释他们想要测试的内容，Claude 就会用所需的语言（如 Rust）编写逻辑，从而无需为了测试目的而学习新语言。

命令记忆与 Kubernetes 管理

他们不再需要记住复杂的 Kubernetes 命令，而是向 Claude 询问正确的语法，比如“如何获取所有 pod 或部署状态”，然后就能收到他们基础设施工作所需的确切命令。

加速机器学习概念学习

有了 Claude Code，他们的研究时间减少了 80%，历史上需要一个小时谷歌搜索的工作现在只需 10-20 分钟。

更快的代码库导航

该工具可以帮助团队成员在几秒钟内找到相关文件并理解系统架构，而不是依赖同事在几天内分享知识。

全面的测试覆盖

Claude 自动生成包含边界情况的单元测试，在保持代码质量的同时减轻了精神负担。

消除语言障碍

团队可以在不熟悉 Rust 等语言的情况下实现功能，而无需学习它。

首先测试知识库功能

尝试问各种问题，看看 Claude 能否比谷歌搜索更快地回答。如果它更快、更准确，那么它就是你工作流程中一个宝贵的时间节省工具。

从代码生成开始

给 Claude 具体的指令，让它编写逻辑，然后验证其正确性。这有助于在将其用于更复杂的任务之前，建立对该工具能力的信任。

用它来编写测试

让 Claude 编写单元测试可以极大地减轻日常开发工作的压力。利用这个功能来保持代码质量，而无需花费时间手动思考所有测试用例。

数据科学和机器学习工程团队需要复杂的可视化工具来理解模型性能，但构建这些工具通常需要不熟悉的语言和框架的专业知识。Claude Code 使这些团队能够构建生产质量的分析仪表盘，而无需成为全栈开发人员。

构建 JavaScript/TypeScript 仪表盘应用

尽管对“JavaScript 和 TypeScript 知之甚少”，团队仍使用 Claude Code 构建了完整的 React 应用，用于可视化强化学习（RL）模型的性能和训练数据。他们让 Claude 控制从头开始编写完整的应用程序，比如一个 5000 行的 TypeScript 应用，而无需自己理解代码。这一点至关重要，因为可视化应用相对上下文较少，不需要理解整个 monorepo，从而可以快速构建原型工具，以便在训练和评估期间了解模型性能。

处理重复的重构任务

当遇到合并冲突或半复杂的文件重构时——这些任务对于编辑器宏来说太复杂，但又不足以投入大量开发精力——他们就像玩“老虎机”一样使用 Claude Code：提交当前状态，让 Claude 自主工作 30 分钟，然后要么接受解决方案，要么在不成功时重新开始。

创建持久性分析工具而非一次性笔记本

团队现在不再构建用完即弃的 Jupyter 笔记本，而是让 Claude 构建可重复使用的 React 仪表盘，这些仪表盘可以在未来的模型评估中重复使用。这很重要，因为理解 Claude 的性能是“团队最重要的事情之一”——他们需要了解模型在训练和评估期间的表现，而这“实际上并非易事，简单的工具无法从观察一个数字上升中获得太多信号”。

零依赖任务委托

对于完全不熟悉的代码库或语言中的任务，他们将整个实现委托给 Claude Code，利用其从 monorepo 中收集上下文并执行任务的能力，而无需他们参与实际的编码过程。这使得他们在自己专业领域之外也能保持生产力，而不是花时间学习新技术。

节省了 2-4 倍的时间

过去虽然可以手动完成但很繁琐的常规重构任务现在完成得更快了。

用不熟悉的语言构建了复杂的应用

尽管 JavaScript/TypeScript 经验极少，却创建了 5000 行的 TypeScript 应用。

从一次性工具转向持久性工具

不再使用一次性的 Jupyter 笔记本，而是构建可复用的 React 仪表盘进行模型分析。

直接获得模型改进的洞见

第一手使用 Claude Code 的经验为未来模型迭代中更好的内存系统和用户体验改进提供了信息。

实现了可视化驱动的决策

通过先进的数据可视化工具，更好地理解了 Claude 在训练和评估期间的性能。

把它当作一台老虎机

在让 Claude 工作之前保存你的状态，让它运行 30 分钟，然后要么接受结果，要么重新开始，而不是试图费力去修正。重新开始的成功率通常比试图修复 Claude 的错误要高。

必要时为了简化而打断它

在监督过程中，不要犹豫，停下来问 Claude “你为什么这么做？试试更简单的方法。” 模型默认倾向于更复杂的解决方案，但对于简化方法的请求反应良好。

产品工程团队致力于开发如 PDF 支持、引用和网页搜索等功能，这些功能将额外的知识引入 Claude 的上下文窗口。在大型、复杂的代码库中工作意味着不断遇到不熟悉的代码部分，花费大量时间来理解特定任务需要检查哪些文件，并在进行更改前建立上下文。Claude Code 通过充当向导，帮助他们理解系统架构、识别相关文件并解释复杂的交互，从而改善了这种体验。

第一步工作流规划

团队将 Claude Code 作为任何任务的“第一站”，要求它确定在进行 bug 修复、功能开发或分析时需要检查哪些文件。这取代了传统上在开始工作前手动浏览代码库和收集上下文的耗时过程。

跨代码库独立调试

团队现在有信心处理不熟悉代码库部分的 bug，而无需向他人求助。他们可以问 Claude “你觉得你能修复这个 bug 吗？我看到的行为是这样的”，并经常能立即取得进展，这在以前由于所需的时间投入是不可行的。

通过内部测试进行模型迭代测试

Claude Code 自动使用最新的研究模型快照，使其成为他们体验模型变化的主要方式。这为团队在开发周期中提供了关于模型行为变化的直接反馈，这是他们在之前的发布中从未体验过的。

消除上下文切换的开销

他们不再需要复制粘贴代码片段并将文件拖入 Claude.ai，同时还要详细解释问题，现在可以直接在 Claude Code 中提问，无需额外的上下文收集，从而显著减少了心智负担。

增强了处理不熟悉领域的信心

团队成员可以独立调试 bug 并调查不熟悉代码库中的事故。

在上下文收集中节省了大量时间

Claude Code 消除了复制粘贴代码片段和将文件拖入 Claude.ai 的开销，减轻了心智上的上下文切换负担。

加速轮岗员工上手速度

轮岗到新团队的工程师可以快速熟悉不熟悉的代码库并做出有意义的贡献，而无需与同事进行大量咨询。

提升开发者幸福感

团队报告称，随着日常工作流程中的摩擦减少，他们感到更快乐、更高效。

将其视为迭代伙伴，而非一次性解决方案

不要指望 Claude 能立即解决问题，而是把它当作一个与你一起迭代的合作者。这种方法比试图在第一次尝试中就获得完美的解决方案效果更好。

用它来建立在不熟悉领域的信心

不要犹豫去处理你专业领域之外的 bug 或调查事故。Claude Code 使得在通常需要大量上下文建立的领域独立工作成为可能。

从最少的信息开始

从你需要的最低限度的信息开始，让 Claude 引导你完成整个过程，而不是一开始就提供大量的解释。

增长营销团队专注于在付费搜索、付费社交、移动应用商店、电子邮件营销和 SEO 等领域建立效果营销渠道。作为一个只有一人的非技术团队，他们使用 Claude Code 来自动化重复性的营销任务，并创建通常需要大量工程资源的 AI 智能体工作流。

自动化 Google Ads 广告创意生成

团队构建了一个 AI 智能体工作流，该工作流可以处理包含数百个现有广告及其效果指标的 CSV 文件，识别表现不佳的广告进行迭代，并生成符合严格字符限制（标题 30 个字符，描述 90 个字符）的新变体。通过使用两个专门的子智能体（一个用于标题，一个用于描述），该系统可以在几分钟内生成数百个新广告，而无需在多个广告系列中手动创建。这使他们能够大规模地进行测试和迭代，这是以前需要花费大量时间才能实现的。

用于批量创意制作的 Figma 插件

他们没有手动复制和编辑用于付费社交广告的静态图片，而是开发了一个 Figma 插件，该插件可以识别框架并通过替换标题和描述来以编程方式生成多达 100 个广告变体，将需要数小时复制粘贴的工作缩短为每批半秒。这使得创意产出提高了 10 倍，让团队能够在关键社交渠道上测试数量庞大的创意变体。

用于广告活动分析的 Meta Ads MCP 服务器

他们创建了一个与 Meta Ads API 集成的 MCP 服务器，以便直接在 Claude Desktop 应用内查询广告活动表现、支出数据和广告效果，从而无需在不同平台之间切换进行性能分析，节省了宝贵的时间，因为每一分效率的提升都意味着更好的投资回报率。

利用内存系统进行高级提示工程

他们实现了一个基本的内存系统，该系统记录了广告迭代中的假设和实验，使得系统在生成新变体时能够将之前的测试结果纳入上下文，创建了一个自我改进的测试框架。这使得系统性的实验成为可能，而这些实验是无法手动追踪的。

在重复性任务上节省了大量时间

Claude Code 将广告文案创作时间从 2 小时缩短到 15 分钟，让团队能够专注于更具战略性的工作。

创意产出增加 10 倍

通过自动广告生成和与 Figma 集成以获取最新的视觉设计元素，团队现在可以在各个渠道上测试数量庞大的广告变体。

像一个更大的团队一样运作

团队能够处理传统上需要专门工程资源的大型开发任务。

战略重点转移

团队可以将更多时间用于整体战略和构建 AI 智能体自动化，而不是手动执行。

识别支持 API 的重复性任务

寻找涉及使用带有 API 的工具（如广告平台、设计工具、分析平台）进行重复操作的工作流程。这些是自动化的主要候选对象，也是 Claude Code 提供最大价值的地方。

将复杂工作流分解为专门的子智能体

不要试图在一个提示或工作流中处理所有事情，而是为特定任务创建单独的智能体（比如一个标题智能体和一个描述智能体）。这使得调试更容易，并在处理复杂需求时提高输出质量。

在编码前进行充分的头脑风暴和提示规划

在前期花大量时间使用 Claude.ai 来构思整个工作流，然后让 Claude.ai 为 Claude Code 创建一个全面的提示和代码结构以供参考。此外，要逐步进行，而不是要求一次性解决问题，以避免 Claude 因任务过于复杂而不堪重负。

产品设计团队支持 Claude Code、Claude.ai 和 Anthropic API，专注于构建 AI 产品。即使是非开发人员也可以使用 Claude Code 来弥合设计与工程之间的传统鸿沟，使他们能够直接实现自己的设计愿景，而无需与工程师进行大量的反复迭代。

前端润色和状态管理变更

团队不再为视觉调整（字体、颜色、间距）创建大量的设计文档并与工程师进行多轮反馈，而是直接使用 Claude Code 实现这些变更。工程师们注意到，设计师们正在进行“通常不会看到设计师做的大型状态管理变更”，这使他们能够实现他们所设想的精确质量。

GitHub Actions 自动化工单处理

通过使用 Claude Code 的 GitHub 集成，他们只需提交描述所需更改的问题/工单，Claude 就会自动提出代码解决方案，而无需打开 Claude Code，从而为他们积压的润色任务创建了一个无缝的 bug 修复和功能优化工作流。

快速交互式原型制作

通过将模型图粘贴到 Claude Code 中，他们可以生成功能齐全的原型，工程师可以立即理解并在此基础上进行迭代，这取代了传统的静态 Figma 设计，后者需要大量的解释和转换才能成为可用代码。

发现边界情况和理解系统架构

团队使用 Claude Code 来规划错误状态、逻辑流程和不同的系统状态，使他们能够在设计阶段就识别出边界情况，而不是在开发后期才发现，从而从根本上提高了他们初始设计的质量。

复杂的文案更改和法律合规

对于像在整个代码库中移除“研究预览”信息这样的任务，他们使用 Claude Code 查找所有实例，审查周围的文案，与法务部门实时协调更改，并实施更新。这个过程只用了两次 30 分钟的电话会议，而不是一周的反复协调。

核心工作流程的变革

Claude Code 成为主要的设计工具，80% 的时间里 Figma 和 Claude Code 都是打开的。

执行速度提高 2-3 倍

以前需要与工程师进行大量反复沟通的视觉和状态管理变更，现在可以直接实现。

周期时间从数周缩短到数小时

像 Google Analytics 发布信息这样需要一周协调的复杂项目，现在只需两次 30 分钟的电话会议就能完成。

两种截然不同的用户体验

开发者获得了“增强型工作流”（执行更快），而非技术用户则获得了“天哪，我竟然也成了开发者”的工作流。

改善了设计与工程的协作

Claude Code 促进了更好的沟通和更快的问题解决，因为设计师理解了系统的限制和可能性，而无需与工程师紧密合作。

从工程师那里获得适当的设置帮助

让工程团队的同事帮助进行初始的代码库设置和权限配置——对于非开发人员来说，技术上的上手过程具有挑战性，但一旦配置完成，它将彻底改变日常工作流程。

使用自定义内存文件来引导 Claude 的行为

创建具体的指令，告诉 Claude 你是一个几乎没有编码经验的设计师，需要详细的解释和更小、更增量的更改。这极大地提高了 Claude 回应的质量，使其不再那么令人生畏。

利用粘贴图片进行原型制作

使用 Command+V 将截图直接粘贴到 Claude Code 中。它在读取设计并生成功能性代码方面表现出色，使其在将静态模型图转化为工程师可以立即理解和构建的交互式原型方面非常有价值。

强化学习（RL）工程团队专注于 RL 中的高效采样和跨集群的权重迁移。他们主要使用 Claude Code 来编写中小型功能、进行调试和理解复杂的代码库，并采用一种包含频繁检查点和回滚的迭代方法。

有监督的自主功能开发

团队让 Claude Code 在提供监督的情况下编写大部分中小型功能的代码，例如为权重迁移组件实现认证机制。他们以交互方式工作，允许 Claude 主导，但在其偏离轨道时进行引导。

测试生成和代码审查

在自己实现更改后，团队会要求 Claude Code 添加测试或审查他们的代码。这种自动化的测试工作流程在常规但重要的质量保证任务上节省了大量时间。

调试和错误调查

他们使用 Claude Code 来调试错误，结果好坏参半。有时它能立即识别问题并添加相关测试，而其他时候则难以理解问题，但总的来说，在有效时仍能提供价值。

代码库理解和调用栈分析

他们工作流程中最大的变化之一是使用 Claude Code 来快速获取相关组件和调用栈的摘要，取代了手动阅读代码或生成大量调试输出。

Kubernetes 操作指导

他们经常向 Claude Code 询问 Kubernetes 操作，这些操作否则需要大量谷歌搜索或询问基础设施工程的同事，从而能立即获得配置和部署问题的答案。

实验性方法的实现

他们现在使用一种“尝试并回滚”的方法，频繁提交检查点，以便他们可以测试 Claude 的自主实现尝试，并在需要时进行回滚，从而实现了更具实验性的开发。

文档编写加速

Claude Code 自动添加有用的注释，节省了大量的文档编写时间，尽管他们也指出，它有时会在奇怪的地方添加注释或使用有问题的代码组织方式。

有限制的提速

虽然 Claude Code 可以在他们“相对较少的时间”投入下实现中小型 PR，但他们承认，它在第一次尝试中成功的几率大约只有三分之一，需要额外的指导或手动干预。

为特定模式自定义你的 Claude.md 文件

在你的 Claude.md 文件中添加指令，以防止 Claude 重复犯工具调用错误，例如告诉它“运行 pytest 而不是 run，不要不必要地 cd – 只需使用正确的路径”。这显著提高了一致性。

使用检查点密集的工作流

随着 Claude 进行更改，定期提交你的工作，这样当实验不成功时，你可以轻松回滚。这使得在没有风险的情况下可以采用更具实验性的开发方法。

先尝试一次性解决，然后协作

给 Claude 一个快速的提示，让它先尝试完整的实现。如果成功了（大约三分之一的时间），你就节省了大量时间。如果没有，再切换到更具协作性、引导性的方法。

法务团队通过实验和了解 Anthropic 产品的好奇心，发现了 Claude Code 的潜力。此外，一位团队成员有一个个人用例，即为家人创建无障碍工具和为工作创建原型，这展示了该技术对非开发人员的强大能力。

为家人定制的无障碍解决方案

团队成员为因医疗诊断而有语言障碍的家人构建了沟通助手。在短短一小时内，一个人使用原生的语音转文本功能创建了一个预测性文本应用，该应用可以建议回复并使用语音库将其读出，解决了言语治疗师推荐的现有无障碍工具的不足之处。

法务部门工作流自动化

团队创建了“电话树”系统的原型，帮助团队成员联系到 Anthropic 合适的律师，展示了法务部门如何在没有传统开发资源的情况下为常见任务构建自定义工具。

团队协调工具

经理们构建了 G Suite 应用程序，可以自动化每周的团队更新，并跟踪各产品的法律审查状态，让律师只需通过简单的按钮点击就能快速标记需要审查的项目，而无需管理电子表格。

用于解决方案验证的快速原型制作

他们使用 Claude Code 快速构建功能性原型，然后展示给领域专家（例如向加州大学旧金山分校的专家展示无障碍工具），以验证想法并在投入更多时间之前识别现有解决方案。

在 Claude.ai 中规划，在 Claude Code 中构建

他们使用两步流程：首先在 Claude.ai 中进行头脑风暴和规划，然后转到 Claude Code 进行实现，要求它放慢速度，逐步工作，而不是一次性输出所有内容。

视觉优先的方法

他们经常使用截图向 Claude Code 展示他们想要的界面样子，然后根据视觉反馈进行迭代，而不是用文本描述功能。

原型驱动的创新

他们强调克服分享“傻瓜式”或“玩具级”原型的恐惧，因为这些演示能激励他人看到他们未曾考虑过的可能性。

MCP 集成担忧

产品律师使用 Claude Code 立即识别深度 MCP 集成的安全隐患，并指出随着 AI 工具访问更多敏感系统，保守的安全策略将成为障碍。

合规工具的优先级

他们主张随着 AI 能力的扩展，应迅速构建合规工具，认识到创新与风险管理之间的平衡。

首先在 Claude.ai 中进行详尽规划

在转到 Claude Code 之前，使用 Claude 的对话界面来充实你的整个想法。然后要求 Claude 将所有内容总结成一个分步的实现提示。

增量式和可视化工作

要求 Claude Code 放慢速度，一次实现一个步骤，这样你就可以复制粘贴而不会不知所措。大量使用截图来展示你想要的界面样子。

尽管不完美也要分享原型

克服隐藏“玩具”项目或未完成工作的冲动。分享原型有助于他人看到可能性，并在通常不互动的部门之间激发创新。

不仅仅是编程，使用 Gemini CLI 日常指南！

DUN.IM BLOG

By: Anonymous

26 June 2025 at 21:54

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

前几天最近随着 Claude Code 这个命令行 AI 代码工具的火爆，谷歌也耐不住寂寞推出了自己的同类产品 Gemini CLI，而且完全免费，非常顶。

不仅仅是编程，使用 Gemini CLI 日常指南！

下面会教你用 Gemini CLI 实现哪些能力：

首先他们是没有界面的，所有的操作都是在终端以命令行的方式展示。

然后就是也是 Agents 可以自动执行任务处理本地文件，同时内置了非常多的工具，比如谷歌搜索、阅读文件、查找文件、搜索文字、写入文件、保存记忆等，你输入 /tools 然后回车就可以让他列出目前支持的工具。

另外 Gemini CLI 也是支持 MCP 的，你可以安装其他的 MCP 工具帮助模型扩充上下文。

很多朋友说命令行是不是很复杂啊，我不会编程是不是会很难用。

其实并没有，如果你的网络环境正常，能够正常登录 Gemini CLI 的话，跟使用 Cursor 没有本质区别。

因为核心交互的时候还是主要为提示词输入框，命令行又不用你写，Gemini 写就行。

从这里开始我所有的演示都基于 Mac OS 的自带终端进行，Windows 大部分操作都是通用的，但是可能出问题概率比 Mac 复杂。

首先要做的第一步就是进入到我们的启动台，搜索终端两个字，搜到之后打开。

这时候你就看到一个空白界面里面写了些你看不懂的字，不要担心。

这里我建议我们想好要进行的任务之后，新建一个文件夹把需要的任务素材扔进去，然后按住 option 按键鼠标右键选择“将 XXXX 文件夹拷贝为路径名称”，这时候你就快速获得了这个文件夹的路径。

然后我们回到我们的终端窗口，输入 cd + 空格 + 你刚才复制的路径，接下来你终端的所有操作都只会影响这个文件夹的内容，不用担心把电脑搞坏。

到这一步我们终于开始安装 Gemini CLI 了，非常简单，你只需要输入下面的内容然后回车就行。

安装成功你就会看到这个界面，应该会先让你选择命令行的颜色主题，然后让你选择登录方式。

这里需要注意：终端的操作大部分时间需要用上下左右方向键来操作选项，选中之后按回车确认。

你只需要选择一个自己喜欢的主题之后，选择正常的谷歌账号登录，在拉起网页登录后关掉就行。

我这个这里已经登录了，所以没有这些选项，然后你就能看到提示词输入框了。

恭喜你到这里，你已经完成了 Gemini 的安装。

由于用的 NPX 的安装方式，所以你以后每次关掉终端重新使用 Gemini CLI 的时候都需要输入开始的那个命令，不过不用登录了，直接就能用。

另一种方法是输入下面这个命令，但是对于不会编程的人来说很麻烦，启动就是少输入点东西，输入 Gemini 就能启动。

最后由于命令行本身都是英文的，可能很多人会望而却步，这个时候你可以装个 Bob 这个翻译软件，支持划词翻译，看不懂的选项直接选中划词翻译就行。

装好之后我们可以来点基础用法了。

由于 Gemini 可以看到你的文件并且操作，而且它还有生成能力，本身模型还是多模态的，所以即使只用本身的工具也可以有很多用法。

首先是 Gemini CLI 本身支持谷歌搜索，你可以让他搜索指定内容给你写成文档，也可以对你本身的文档进行编辑。

当然搜索工具经常会限额，这个有点恶心，比如让他搜索歸藏的信息并且整理一个介绍文档。

你也可以让他分析你保存在本地的文章之后进行改写，生成新的文章。

比如我这里就让他把 Karpathy 的软件 3.0 文章改写成适合发布的博客文章，同时生成对应的推特发布版本，也可以对于会议总结之类的文档进行分析和处理。

记得我之前写的用 Curosr 这种 IDE 帮助分析 Obsidian ，把 Obsidian 当做本地知识库的方法吗，Gemini CLI 也可以，甚至更加强大。

你可以找到你的 Obsidian 文件夹打开之后启动 Gemini CLI，然后让 Gemini CLI 查找相关的内容。

比如我这里就让他检索我所有的剪藏文件，找到 MCP 相关的文章，然后给我生成一个带反向链接的《MCP 剪藏内容索引》文档，可以看到他完成的很好。

每个无序列表都有文件标题以及文章的总结，最后还有链接可以直达那个文章。

提到反向链接了，就不得不提 Obsidian 的一个知识图谱的功能，它可以把所有有反向链接的相关文档都链接起来，形成你自己的网状笔记网络，方便你学习和回顾。

但是反向链接需要你自己手动加，大部分人都没这个毅力，现在有了 Gemini CLI 问题解决了，可以让他帮你给你文件夹中的相关文档加反向链接。

不过这个需要的时间比较长，如果内容多的话可能得等一段时间。

由于本身 Gemini CLI 是多模态的的，所以你的图片也可以让他帮忙处理。

比如我打开了一个全是图片的文件夹，里面的图片名字乱七八糟的，这时候就可以让他分析图片内容之后根据图片内容给图片重新命名。

再重新命名之后我们也不能浪费他分析的图片内容。

我们都知道在训练图像模型或者 Lora 的时候需要对图像进行标注，大部分训练工具都是把标注放在一个跟图片命名一样的文本文件里，现在我们就可以让 Gemini CLI 来做这件事了。

可以看到他执行的非常完美，以往这些你还得找对应的工具，而且不好自定义要求，现在提示词就行。

Gemini CLI 除了可以读取文件和修改文件外也是可以控制系统设置的。

比如我们就可以写好自己日常对于软件和系统设置在不同工作时间的喜好，需要的时候一键完成所有操作的更改。

这里我就让他给我关掉浏览器，然后打开 Obsidian，降低系统音量，直接进入工作模式。

更进一步让他把操作写成脚本，之后你就可以直接双击脚本完成系统设置了。

我们肯定也有很多时候桌面或者文件没有整理乱七八糟。

这个时候就可以让 Gemini CLI 新建文件夹进行分类和整理。

但是这里得注意，不要让他整理过大的过于重要的文件夹，不然误删了就痛苦了。

这里我就让他把刚才的图像和标注文件新建了两个文件夹分别整理了。

上面都是些基本用法，你最近可能也看到了一些。

但是我发现结合一些本地软件，Gemini CLI 能实现对各种文件更加高级的处理，比如视频转 gif、youtube 视频下载、加水印、文档格式转换等。

这些就非常牛皮了，而且我们日常内容创作大部分都非常需要。

前面我们有了文档了，但是很多时候演示的时候总不能真给人看 Markdown 文档吧，能不能生成 PPT 呢？

可以的，朋友，必须可以，比如我这里就把前面我那个 MCP 索引文档的内容直接转换为 PPT 了。

这个依赖一个叫 Slidev 的项目，它可以用类似 Markdown 文档的格式将内容变成带有丰富样式的 PPT。

你不需要知道这个项目的细节，直接用我下面的提示词生成文件之后，复制文件到这个页面（https://stackblitz.com/github/slidevjs/new?file=slides.md）预览就行。

上面的 Slidev 不需要本地安装直接预览就行，接下来我们介绍一些需要本地安装的项目，这些本地的软件，非常强大，但是由于本身他们是没有界面的，阻碍的很多用户使用。

但是有了 Gemini 之后一切都解决了，提示词可以直接转换为驱动他们的命令行，也可以用提示词直接安装他们，你直接用就行。

首先先介绍一下 ffmpeg 这个项目，给予他你可以实现非常强的视频编辑能力，理论上剪映之类的视频编辑软件都是基于这个完成的。

你可以对本地的视频进行拼接、剪辑、增加文字、转换格式、转换分辨率、增加音乐，基本上你能想到的视频编辑能力他都能做到。

首先我们需要大概你需要处理视频的的文件夹，然后启动 Gemini CLI 第一个命令是让他安装 Homebrew。

然后安装完成后，让他用 Homebrew 帮你安装 ffmpeg。

看到没，跟网页哪些乱七八糟的要求都没关系，你只需要说两句话，就全部安装了。

然后我们就可以爽用了，先给我们指定的视频加个水印试试。

可以看到新的视频右上角果然有了一个水印，这种言出法随的感觉谁不喜欢，你不需要了解原理，你就只需要知道所有的视频编辑他都能帮你搞定。

然后我想要给视频配乐也可以，你只需要告诉他视频文件和音乐文件的名字就行，我甚至让他给音乐加上了淡入和淡出。

他先是获取了一下视频的时长，然后就开始操作了，然后搞定了，非常完美，严丝合缝，淡入淡出也加上了，可以看剪映界面预览的频谱。

我们很多时候需要把视频转换为序列帧，然后拿其中一帧进行处理，或者处理所有的帧，以前你是不是还得到处找这种工具，而且转换效果不一定好。

Gemini CLI 一句话就能搞定，处理的又快又好，而且节省了用网页工具上传下载的时间。

另一个常见的任务就是视频转 gif，尤其公众号有 10 个视频的限制，很多时候迫不得已得转成 gif 发布。

Gemini 捕捉到了高品质这个关键词还制作了调色板保证颜色还原度，最后处理的非常完美。

像 ffmpeg 这种宝藏项目还有很多，比如 yt-dlp 这个项目跟 ffmpeg 配合几乎可以下载你能想到的所有视频平台的视频。

我们还是可以让 Gemini CLI 帮我们安装 yt-dlp 这个项目就行。

然后直接提供视频链接他就会帮你下载，甚至可以批量下载多个视频或者一起连封面和视频一起下载，再也不需要忍受那些工具的垃圾网速了。

处理视频我们有 ffmpeg 这种项目，当然图片也有。

ImageMagick 是一个极其强大的工具集，你可以用它来转换格式、缩放、裁剪、旋转、添加滤镜、组合图片等等。

依然是老一套，先让 Gemini 帮我们安装

先来一个常见任务，我们设计师做外包经常用，在没结款之前给甲方低分辨率和带水印的图片，现在就可以直接批量完成。

这里我让他把所有图片宽边调整为 800 PX，然后统一加上带“内部资料”文字的水印。

中文的水印有些问题，后来改成英文就 OK 了，而且出错之后他自己开始用多模态能力检查修改后的图像了，发现 10% 不透明度的文字不明显，又自己重新改了一下，太聪明了。

然后再来一个常见的图像拼接需求，这种在媒体上发消息的时候经常需要，尤其是推特。

搞得不错，这几张图比例不同，所以没有对齐，可以在命令上加上统一比例这种要求就行。

文档格式转换也是常见的需求，相当多的公司工作文档还是 word，很多时候我发过去 .md 文件那边都不知道怎么办。

首先还是让 Gemini CLI 帮我们安装。

这个时候我们就可以利用 Pandoc 这个项目进行各种文档格式之间的互相转换，当然批量转换也是可以的。

可以看到转的很好，Markdown 的一些基本格式也都迁移了，不管是加粗还是无序列表有序列表。

好了教程到这里就结束了。

你可以用 Gemini CLI 控制这些已经非常成熟的命令行项目，基本上你所有的需求都能找到对应的项目。

不是只有 MCP 才能做 Agent，这些传统工具在有了 LLM 加持之后会更加强大。

看到这里，你可能会突然意识到：原来那些让我们望而却步的专业工具，其实一直都在那里等着我们。

史蒂夫·乔布斯说过的一句话：”技术应该是隐形的。” 今天的 Gemini CLI，正是让那些强大的命令行工具变得”隐形”——你不需要理解它们的工作原理，只需要说出你的需求。

更重要的是，这种改变不仅仅是效率的提升，而是创作门槛的彻底消失。

所以，如果你还在犹豫要不要试试 Gemini CLI，我想说：别让”我不会编程”成为你探索新世界的借口。因为在这个新世界里，你需要的不是编程能力，而是想象力。

那些曾经高高在上的专业工具，现在都在静静等待着你的一句话。而你要做的，就是勇敢地说出你的需求。

因为最好的工具，是让你忘记它是工具的工具。

OpenAI 发布了 GPT-4.1 提示工程指南，中文总结和完整翻译

DUN.IM BLOG

By: Anonymous

9 April 2025 at 11:55

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

以前许多典型的最佳实践和提示依旧适用于 GPT-4.1，由于 GPT-4.1 更严格、更字面地遵循指令，会非常严格地按照字面指令去执行任务。

这使得它对明确、清晰的提示尤其敏感。也就是说，只要你发现 GPT-4.1 的表现与预期不符，通常只需增加一句简洁明确的说明，就能迅速把模型引导到正确的行为上。

过去的模型（如 GPT-4）会更自由地揣测或推断用户指令和系统提示背后的真实意图，即使提示不够精确，也可能猜出用户的意图并完成任务。

所以开发者需要对原有的提示方式进行一定调整（迁移）才能使用。

OpenAI 提供了一系列 针对 GPT-4.1 的提示工程（Prompting）最佳实践，从基础原则到高级策略，帮助开发者高效构建提示以提升模型表现。

明确指令（Be specific）：确保提示中清楚表达任务目标。

提供结构（Provide structure）：通过示例、模板等方式设定预期输出格式。

避免歧义（Avoid ambiguity）：使用具体词汇与上下文降低误解可能。

设置角色（Set behavior/role）：让模型“扮演某种身份”以调整风格或回答方式。

逐步指导（Decompose tasks）：将复杂任务拆解成多个子任务，提升精度。

Few-shot 示例：使用多个输入/输出示例引导模型学习任务结构。

Chain-of-thought（思维链）提示：引导模型按逻辑顺序逐步推理，特别适合复杂问题解决。

Refine prompts（迭代优化）：通过反馈不断调整提示内容以获取更优结果。

Internal monologue：让模型模拟“内心思考过程”以获得更深入分析。

Critique and revise：让模型先生成回答，再进行批评、修改，提升答案质量。

使用 “Let’s think step by step” 等语句诱导更好推理。

将模型输出限制为 JSON 格式时，需加入明确的格式描述与示例。

对于多步骤任务，最好明确列出每个阶段的要求。

评估提示效果需结合质量、稳定性与成本。

好的！我们来做一个更详细又通俗易懂的分解，把这个 Notebook 当作是一本 “和 GPT-4 打交道的秘籍”，一步步讲清楚每个要点，让你轻松掌握提示工程（Prompt Engineering）怎么做才有效。

这些就像是“和 AI 沟通的黄金法则”，每一条都很重要：

不要笼统地说：“请帮我写一篇文章。”

要说得具体一点：“请写一篇关于人工智能如何改变教育的 500 字文章，用高中生能懂的语言。”

👉 越具体，AI 越知道你想要什么，结果也越好。

比如你想让它生成一个表格、清单、或者固定格式的文本。

你可以先提供一个模板，或者给它一个例子。

🧩 例子：

如果你说“列出一些项目”，那“项目”可能指的是“计划项目”、也可能是“软件项目”，模型会糊涂。

所以要具体说明你是说什么。

✅ 改成：“列出五个开源的 Python 项目。”

你可以告诉它：“你现在是个英语老师”、“你是个法律顾问”、“你是一名医生”。

它就会按那个身份回答你。

🎭 示例：

有些问题太复杂，GPT 一下子处理不好。

你可以先让它分析问题，再让它解决。

🪜 举个例子：

这些是用 GPT 更厉害的用法，帮你写得更准、更聪明。

你可以先给它几个例子，它就知道你想要什么样的输出。

📌 例子：

然后你再输入新的句子，它就会照着这个风格来。

引导它“一步一步思考”，解决复杂问题特别有效！

📌 提示写法：

你可以先让 GPT 写出一个答案，然后再让它自己点评、修改。

📌 举个例子：

这会得到更高质量的输出！

你可以让 GPT 边想边说，好像它在分析问题。

📌 示例：

这适合分析、决策类问题。

加一句 “让我们一步一步思考” 可以大幅提高准确率。

想要 JSON、表格、代码？一定要告诉它格式，还要举个例子。

想输出多步内容？加编号，比如“第 1 步… 第 2 步…”

如果模型回答不理想，就多试几种提示改写方式。

✨“提示写得好，GPT 表现爆表！”✨

这份指南就是在教你：用什么语气、格式、结构、套路和 GPT 说话，才能让它给你最优质的答案。

GPT-4.1 系列模型在编程能力、指令遵循能力和长上下文处理能力上，相比 GPT-4o 有显著提升。本指南汇总了我们内部广泛测试所得的一系列重要提示技巧，帮助开发者充分发挥新模型家族的优势。

许多典型的最佳实践依旧适用于 GPT-4.1，比如提供上下文示例、尽可能具体清晰的指令、以及通过提示进行规划以最大化模型智能。但我们预计，要充分发挥此模型的作用，需要进行一些提示迁移。GPT-4.1 更严格、更字面地遵循指令，而前代模型倾向于更自由地推测用户与系统提示的意图。然而，这也意味着 GPT-4.1 非常容易被引导，并对清晰、明确的提示非常敏感。如果模型表现与预期不同，一句清晰且明确表述你期望的行为的句子通常就足以引导模型回到正轨。

请继续阅读以下提示示例，注意虽然本指南适用于大多数情况，但并无万能法则。AI 工程本质上是一门经验学科，大型语言模型本质上是不确定性的。我们建议除了遵循本指南外，还要构建有信息量的评估并频繁迭代，以确保提示工程的更改为你的使用场景带来益处。

GPT-4.1 是构建智能体工作流的理想选择。我们在模型训练中强化了多样化的智能体问题求解路径，并在非推理模型中，通过智能体配置达成 SWE-bench Verified 测试的最佳表现，解决率达 55%。

系统提示建议

为充分激发 GPT-4.1 的智能体能力，我们建议在所有智能体提示中加入以下三类关键提醒。以下示例面向代码类智能体优化，但稍加修改即可用于通用智能体场景。

持续性提醒：确保模型理解它正处于一个多轮任务中，防止其在问题未解决前就把控制权交还给用户。

工具使用提醒：鼓励模型善用工具，降低其猜测或幻觉回答的概率。

规划性提示（可选）：引导模型在调用每个工具前后均进行显式计划与反思，而非仅仅调用工具串联完成任务。

GPT-4.1 对智能体场景下的系统提示和用户指令极为敏感。我们发现上述三条提示在内部测试中将 SWE-bench Verified 得分提升了近 20%。因此，强烈建议在任何智能体提示开头加入这三类明确指令，以将模型从“聊天机器人模式”切换为更主动、更独立的“智能代理模式”。

与前代模型相比，GPT-4.1 在调用通过 OpenAI API tools 字段传入的工具方面训练更充分。我们建议开发者仅使用 tools 字段传递工具，而不是将工具描述手动注入到提示中并自建解析器。我们测试发现使用 API 解析工具描述比手动注入提示提升了 2% 的准确率。

开发者应使用清晰的工具命名，并在 “description” 字段中提供详细说明。同样，每个参数也应具备清楚的命名和描述，以确保正确使用。若你的工具较复杂，可以在系统提示中专门加入 # Examples 区段来展示用例，而不是将示例塞进 description 字段中。

你也可以通过 Prompt Playground 的 “Generate Anything” 功能来快速生成良好的工具定义起点。

正如前面所说，GPT-4.1 并不是内建“推理链”的模型——它不会在回答前自动形成内部推理路径。但你可以通过提示工程诱导它“显式思考”，逐步列出计划。我们在 SWE-bench Verified 测试中发现：引导模型“思考再行动”使通过率提升了 4%。

示例提示：SWE-bench Verified

以下是我们在 SWE-bench Verified 中取得最高分所用的智能体提示，包括详尽的工作流程与问题解决策略说明。该结构可用于各类智能体任务。

GPT-4.1 支持最高达 100 万 tokens 的输入窗口，适用于以下场景：

结构化文档解析

信息重排序（re-ranking）

筛选关键信息、忽略干扰内容

使用多跳推理整合上下文信息

最佳上下文规模

在“针入草堆”（needle-in-a-haystack）评估中，GPT-4.1 即便使用完整的百万 token 输入也表现良好。它擅长从混合内容中识别有用信息。但如果任务需要提取大量内容，或需对上下文全局状态进行复杂推理（如图搜索），性能可能会下降。

控制上下文依赖程度

你应考虑模型答题所需的“外部文档” vs “模型内知识”的比例。你可以通过以下两类指令调控：

上下文组织建议

在使用长上下文时，提示的位置对模型表现有显著影响。最佳做法是在上下文前后都加入指令。如果只能写一次，放在上下文上方比下方效果更好。

虽然 GPT-4.1 不是推理模型，但通过提示让它“逐步思考”可以有效帮助其拆解复杂问题，提升输出质量（代价是增加 token 使用与响应时间）。

推荐的起始提示如下：

你可以进一步完善你的思维链提示，根据实际失败案例调整策略。我们建议在出现以下错误时添加更明确的指令：

误解用户意图

上下文理解不全或分析不准确

推理步骤不连贯或顺序错误

可参考以下提示模版：

GPT-4.1 拥有卓越的指令遵循能力，开发者可用其精准控制输出行为。你可以设置：

语气与风格

工具调用方式

格式要求

话题限制等

但由于它对指令更“死板”，之前为其他模型设计的提示可能需调整。建议遵循以下工作流程：

推荐提示结构：

加入 “# 指令” 段落，列出总规则。

对特定行为新增子类细则（如 # 示例短语）。

若需特定步骤，可写成有序列表，并明确要求逐步执行。

若行为未达预期，可检查以下问题：

是否有冲突或不完整指令？

是否缺乏例子？示例中是否覆盖了关键点？

是否需要增加强调（如适当用大写）？

提示：使用 AI IDE 可辅助你快速迭代提示，统一更新规则和示例。

常见失败模式

要求“必须调用工具”可能导致模型凭空填入参数，添加一句“若信息不足，应先向用户提问”可缓解。

示例短语易被模型反复使用，应明确要求灵活变换。

若无格式限制，模型可能会输出过多解释性内容，可通过指令或示例控制。

这段提示展示了一个虚构客户服务代表的最佳实践。你可以看到提示中规则多样、表述明确，还使用了多个额外小节来细化指令，并提供了一个完整示例来演示如何遵守这些规则。

尝试运行下方 Notebook 单元格 —— 你应该会看到一个用户提问的消息和一个工具调用的响应。模型会先打招呼，然后复述用户的问题，接着说明即将调用某个工具。

你可以尝试修改提示中的某些指令，或尝试其他用户输入内容，来测试模型在“指令遵循”方面的表现。

{ “role”: “assistant”, “content”: “您好，您已致电 NewTelco，请问我能为您做些什么？😊🎉\n\n 您想了解我们的家庭套餐。🤝 我这就为您查询，请稍等。🚀”, “tool_calls”: [ { “id”: “call-1”, “type”: “function”, “function”: { “name”: “lookup_policy_document”, “arguments”: “{“topic”: “family plan options”}” } } ] }

{ “role”: “assistant”, “content”: “我查到的信息如下：🎉 我们的家庭套餐最多支持 5 条线路共享流量，并且每增加一条线可享 10% 折扣家庭套餐政策。📱 还有其他我可以帮您的吗？😊” }

以下是一个良好的提示结构起点，供你参考和自定义：

你可以根据自己的需求增删这些部分，并通过试验找出最适合你用例的结构。

以下是选择提示中最佳分隔符的一些通用建议。若涉及长上下文使用，请参见前文《长上下文》章节的特别说明。

✅ 推荐使用的格式：

Markdown（推荐起点）

使用 markdown 标题（# ~ ####）来标识主要部分与子部分。

使用反引号（`code` 或 “`代码块“`）准确包裹代码内容。

根据需要使用有序/无序列表清晰列出内容。

XML

效果也很好，GPT-4.1 在解析 XML 上表现更稳定。

XML 格式便于明确区块开始/结束位置，还可以添加 tag 属性携带额外元信息，并支持嵌套。

示例：

JSON

在编程类任务中表现良好，结构清晰、模型理解度高。

但缺点是格式冗长、需要转义字符，容易带来额外负担。

📄 大量文档 / 文件嵌入上下文时的建议：

XML 格式：在长上下文测试中表现优异。

示例：

Lee 等人提出的扁平格式（参考论文）也表现良好：

示例：

JSON 格式在这种场景下表现最差：

示例：

✅ 总体建议：模型能处理多种结构格式，但请根据实际情况选择最能突出重点的格式。例如，如果你检索到的文档本身包含大量 XML，那么继续使用 XML 作为嵌入格式可能就不太合适。

输出过长：在某些特定情况下，我们发现模型可能不愿生成非常长且重复性的输出（如逐项分析数百个条目）。
👉 若你的用例需要此类输出，请在提示中明确指示模型必须输出完整内容，或考虑将问题拆分处理，或简化输出格式。

并行工具调用异常：我们观察到某些少见情况下并行工具调用可能不准确。
👉 如果你遇到这类问题，建议测试是否启用 parallel_tool_calls=false 参数来避免并发问题。

如你想要我基于这些结构生成一个完整的提示模板样板供你直接使用，也可以告诉我你的具体应用场景（如问答系统、文档分析、代码解释等），我可以帮你生成定制化结构。是否继续？

开发者反馈指出：准确且结构良好的 diff 生成能力，对于编码类任务至关重要。为此，GPT-4.1 系列在此方面表现显著优于以往模型。

此外，GPT-4.1 能很好地根据明确的指令和示例生成任意格式的 diff。我们在此开源一个推荐的 diff 格式，模型对此已接受过强化训练，尤其适合初学者快速上手。

以下是一个正确调用推荐工具 apply_patch 的示例提示格式。

其中 [YOUR_PATCH] 部分需使用推荐的 V4A diff 格式，规范如下：

每次变更以 *** [ACTION] File: path/to/file 开头，ACTION 可为 Add、Update 或 Delete。

每个代码块需提供上下文片段 + 修改内容：

上下文行规则：

默认提供上下变更各 3 行上下文。

若变更块之间相距近，不要重复上下文。

若上下文不足以唯一定位，应使用 @@ 定位所属的类或函数。例如：

不使用行号，改用结构与上下文唯一定位。

OpenAI 提供的官方工具 apply_patch.py 是一个 纯 Python 3.9+ 脚本，可直接执行，用于将上述 diff 应用到本地代码文件。

该脚本支持以下核心能力：

解析自定义 diff 格式

根据 patch 内容编辑、添加、删除本地文件

可检测语法错误、缺失上下文、重复文件操作等问题

使用方式：

将 patch 内容通过 stdin 输入传入

内部自动判断 patch 类型并更新文件内容

你可以将其配置为终端可执行命令 apply_patch，并作为自动化 pipeline 或测试流程中的一部分使用。

所有解析异常（如找不到目标文件、上下文无法匹配）都会抛出自定义异常 DiffError，方便调试。

除了推荐格式，我们还测试过两种替代格式，成功率同样很高：

不使用行号

明确指出要替换的旧代码与新代码

结构清晰，易于解析

完整内容：https://github.com/openai/openai-cookbook/blob/main/examples/gpt4-1_prompting_guide.ipynb

解析「首个 AI 软件工程师」Devin 2.0 完整的系统提示词

DUN.IM BLOG

By: Anonymous

30 March 2025 at 15:55

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

说起 Devin，可能很多人都知道，当年刚推出时很火，号称首个 AI 软件工程师，能帮助开发者完成各种软件开发任务，包括编码、调试、测试和部署。

最近它推出了 v2.0 版本，价钱也降低到每月基础费用 $20。我们都知道这种 AI 智能体本身也依赖于背后的模型，是靠提示词来控制模型来响应用户的操作，那么像 Devin 这样的 AI 智能体，是怎么通过提示词来准确理解你的意图、高效工作、规避风险，并最终达成目标的。

今天，就带你分析一下 “Devin 2.0” 的系统提示词，深入探索提示词工程的奥秘。系统提示词就像是 Devin 的「出厂设置」和「工作手册」，它详细规定了 Devin 的身份、行为准则、工作流程甚至安全规范。

完整的提示词参见附录部分

提示词工程的第一步，往往是为 AI 设定一个清晰的角色。这里，Devin 被赋予了「软件工程师」的身份，并且强调了其「编码奇才」的专业能力。

指令明确了 Devin 的核心任务：接收用户任务并完成它。

这份指令包含了大量关于 Devin 如何工作的细则，涵盖沟通、工作方法、编码规范、信息处理等多个方面。

提示词明确或暗示了 Devin 可以使用的工具，如操作系统、浏览器、GitHub 命令行工具 (gh cli) 等。

指令中定义了一些特殊的命令格式（如 <command>）。

指令定义了两种工作模式：「规划模式」和「标准模式」，并规定了在不同模式下的行为重点。

这部分内容强调了数据安全、保密原则，并明确禁止 Devin 泄露自身的指令。

这部分引入了一个「突击测验」机制。当收到 STARTING POP QUIZ 指令时，Devin 需要暂停常规任务，严格遵循测验中的新指令，并且这些新指令的优先级高于之前的所有指令。

通过深入分析 Devin 2.0 的系统提示词，我们看到了提示词工程的冰山一角。它远不止是简单的提问，而是一门融合了逻辑、语言、心理学和计算机科学的综合艺术。

设计良好的提示词，就像是为 AI 精心编写的剧本和导航图，能够引导它在复杂的数字世界中精准、高效、安全地航行。而理解提示词的原理，则能帮助我们更好地与日益强大的 AI 进行沟通和协作。

DUN.IM BLOG
ChatGPT – Deep Research 功能指南&技巧总结：从「进度条」到「提示词」，一次搞懂！
22 February 2025 at 13:13

ChatGPT – Deep Research 功能指南&技巧总结：从「进度条」到「提示词」，一次搞懂！

DUN.IM BLOG

By: Anonymous

22 February 2025 at 13:13

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

最近有很多朋友在讨论：「Deep Research 的用量是怎么算的？」 又因为目前 Plus 每个月只能用 10 次，大家都非常担心浪费。其实一句话就能总结——只要开始出现「Starting Research」的进度条，就算使用了一次。在进度条出现之前，怎么问都不算。下面就为大家分享一些 Deep Research 的使用流程、注意事项和提示词模板，帮助大家更好地运用这一强大的研究功能。

一句话总结：从开始出现 Deep Research 进度条就算一次，之前都不算。

提出主题
你先要告诉 ChatGPT 需要研究什么主题。

ChatGPT 询问澄清问题
ChatGPT 通常会向你询问一些澄清问题，确保理解你的研究需求。

回答澄清，触发研究
当你回答了上述澄清问题后，ChatGPT 会再回复一条消息，并提示「将开始报告「，随后出现」Starting Research「的进度条。

注意：从这一步开始就会扣除一次 Deep Research 用量。

报告生成
研究进度条走完后，ChatGPT 会给你发送完整的报告，这标志着一次 Deep Research 流程的完成。

进度条出现后，你可以随时离开
进度条开始后，无论你是关闭窗口、刷新网页、切换到其他会话还是新开会话，都不会影响已经开始的 Deep Research 流程，它会在后台继续执行并最终生成报告。

Deep Research 可以后续追问
当报告生成结束后，如果你要继续追加信息重新生成报告，有两种选择：1). 直接提问，会使用你开始会话时选择的模型继续对话，报告内容可以作为上下文；比如说你从 GPT-4o 开始的，那么你在报告生成后，如果继续提问，实际上是 GPT-4o 基于你报告和提问内容回复，但是可能会受限于上下文长度无法完整理解报告内容；2). 重新生成新报告：Deep Research 是一次性生成的，但是你可以继续在当前会话选中「Deep research」按钮，这样可以把当前会话内容作为输入，或者把内容复制出去新开会话选中「Deep research」按钮重新开始一次新的生成。内容复制出去处理一下再生成会更好的对输入进行控制，但是麻烦一些。

你无法追加新的信息让它继续深度研究。如果你在当前会话里继续追问，后续的回答将由其他模型（如 GPT-4o）接管。
如果你对报告不满意，需要重新修改提示词再新开一次会话进行 Deep Research。

灵活切换模型
你可以先选任何模型（如 o1 pro/o1 等），再让它进行 Deep Research。若后续还打算继续追问报告内容，建议在 Deep Research 开始前就选一个更强的模型（比如 o1 pro / o1）来进行分析。

选择信息源和报告语言

建议在提示词中加一句「请选择权威信息源」（并不一定要非英文来源不可，重点是权威信息源，这样可以过滤掉一些不好的信息源，当然你也可以加上「优先英文信息源」）。

如果希望报告是中文，直接在提示词末尾加一句「请形成中文报告「即可。

如果不小心生成了英文报告，又看着费劲，可以在当前会话，让它翻译，也可以复制完整内容，

ChatGPT – Deep Research 功能指南&技巧总结：从「进度条」到「提示词」，一次搞懂！

新建会话，选择 o1 pro 或 o1 模型（最佳翻译效果），翻译提示词参考：

「请将下面的内容用中文重写，尊重原意，保持格式不变无删减：」

引入外部资料的方法

如果报告需要访问收费网页上的内容，你可以手动复制成 Markdown，然后在提示词中用 XML 标签包起来。

如果有图片内容，直接上传即可。

如果要分析视频内容，需要先把视频转成文字，同样用 <transcript> 标签包住，再放进提示词里。

我一般会用 AIStudio 的 Gemini 转成文本。

你可以一次粘贴几千行代码也没问题（用 XML 包起来），但要注意输入框粘贴有上限。如果太多，可以把代码放在公开的 GitHub 仓库，让 Deep Research 去分析链接即可。

写报告或写代码都行
Deep Research 不仅能写报告，还能写代码。只要你提示它「生成的结果是代码」，它就会尝试从网上搜索相关代码库并提供解决方案。

文献质量与报告质量
如果想让它「阅读」一本书并进行提炼，需要注意输入长度有限，无法直接输入一本完整的书。大部分流行书籍已经在模型中有训练数据，所以它会参考网上已有的书评。资料越多、质量越高，报告越漂亮；如果资料很少，它也无米下炊，生成的报告质量可能有限。

一个常见的提示词模板大致可分为背景信息、任务要求、和输出格式三个部分。

在这里填写所有对它生成报告有帮助，但模型本身访问不到的信息，比如：

付费文章

视频文字稿

图片或 PDF（可作为附件）

其他任何对于生成有帮助的内容

当背景信息较多时，务必用 XML 标签包裹，避免 AI 混淆指令。例如：

主题：你希望分析、研究或讨论的具体范围

信息源：希望它检索的文献库、学术论文、政府网站、GitHub 等

研究要点：需要关注的核心点，是深度解析还是简要摘要

语言或风格：是中文、英文或其他语言？

语言：中文报告、英文报告或双语

数据格式：是否需要用表格呈现数据（它暂时画不了图表）

段落和标题：是否需要分级标题、索引等

提示词模板并不是必须的，可以随性一点，你可以把写提示词使用 Deep Research 当成去交代一个实习生帮你写分析报告，你怎么交代实习生就怎么写提示词。

Deep Research 的使用次数：只要出现「Starting Research」进度条，就会扣除一次用量。

保持灵活：不满意就重新开始，新开会话前最好做好提示词规划。

结合大模型优势：如果要深入分析或后续追问，选用更强的模型如 o1 pro / o1 更合适。

慎重选择资料：外部资料要提前整理好，使用 XML 标签嵌入提示。

尊重版权、合理引用：在使用外部资料时，务必保留引用信息，切勿违规。

希望这篇文章能让你更好地理解和使用 Deep Research。在实际使用中，不妨多加尝试和探索，慢慢就能摸索出最适合自己的使用方式。祝大家玩得开心，也能高效地完成研究和写作任务！如有更多问题，欢迎在评论区留言交流。

总结：

如果你想让 Deep Research 提供权威信息源，在提示词中加一句「请选择权威信息源」。

如果要生成中文报告，只要在提示词里加「请形成中文报告」即可。

不小心生成英文报告且看着费劲，使用下面的提示词翻译：
「请将下面的内容用中文重写，尊重原意，保持格式不变无删减：」

欢迎大家在留言区分享你们的使用心得与经验，一起探讨 Deep Research 的更多玩法！

申请免费使用教育版 GitHub Copilot Pro

沉舟侧畔 Blog

By: springwood

24 February 2025 at 22:42

（Abstract）大学教书匠比较穷，所以给一些福利？

DUN.IM BLOG
AI 推理模型和普通 LLM 大语言模型的分别与使用，提升效率与准确性，复杂任务高效完成
8 February 2025 at 14:17

AI 推理模型和普通 LLM 大语言模型的分别与使用，提升效率与准确性，复杂任务高效完成

DUN.IM BLOG

By: Anonymous

8 February 2025 at 14:17

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

了解何时使用推理模型，以及它们与 GPT 模型有何不同。

OpenAI 目前提供两大类模型：

这两种模型家族在使用和效果上都有所不同。本文将介绍：

与 GPT 模型相比，OpenAI 的 o 系列模型（推理模型）在不同类型的任务上更出色，需要使用不同的提示方式。并非哪一种模型一定「更好」，而是各有擅长的领域。

你可以根据需求，思考下列问题：

如果你的任务优先考虑速度与成本，并且任务本身相对明确、好定义，那么使用 GPT 模型就非常合适。
但如果你更注重准确度和可靠性，而且问题本身很复杂、有多个步骤，那么 O pen AI 建议选择 o 系列模型。

大多数情况下，你也可以把这两种模型结合起来使用：用 o 系列模型进行「智能规划和决策」，再让 GPT 模型去执行具体步骤。

AI 推理模型和普通 LLM 大语言模型的分别与使用，提升效率与准确性，复杂任务高效完成

示例：GPT-4o 和 GPT-4o mini 先处理订单信息与客户资料，找出订单问题和退货政策，然后将这些信息提供给 o3-mini，由它根据政策最终决定退货是否可行。

下面列出了一些实际场景，这些案例来自 OpenAI 的客户和 OpenAI 内部，希望能帮助大家更好地理解 o 系列模型（推理模型）适合用在哪些地方。不过，这并不是一个覆盖所有可能用例的完整清单，而是给出一些在测试中行之有效的思路。

准备好使用推理模型了吗？点击这里直达快速入门 →

推理模型特别擅长接收零散、有限的信息，然后根据简单提示去理解用户意图，并处理那些不够明确的指令。它们经常会先问一些澄清性的问题，而不是盲目猜测或随意填补空白。

「o1 的推理能力让 OpenAI 的多智能体平台 Matrix 在处理复杂文档时，能给出详尽且格式良好的回复。举个例子，o1 让 Matrix 可以轻松找出信用协议（Credit Agreement）中受限支付能力（restricted payments capacity）下可以使用的各种『篮子』（baskets），而只需要一个简单提示。过去没有任何模型能这么出色。相比于其他模型，在对密集的信用协议进行复杂提问时，o1 在 52% 的问题上有更好的表现。」

——Hebbia，为法律和金融提供 AI 知识平台

当你需要处理大量无结构信息时，推理模型能很有效地提炼出最相关的部分来回答问题。

「在分析某公司收购案时，o1 审阅了几十份公司文件，比如合同、租约等，去寻找可能影响交易的关键条件。它需要标记重要条款时，甚至在文件脚注中看到了一个非常关键的『变更控制』（change of control）条款：如果公司被出售，那需要立刻偿还 7500 万美元的贷款。o1 的极致细致能力帮助 OpenAI 的 AI 探索工具为金融专业人士找出交易中至关重要的信息。」

——Endex，AI 驱动的金融情报平台

OpenAI 发现，推理模型在处理数百页的复杂文件时（比如法律合同、财务报表或保险索赔等），能很好地分析文件内在逻辑并做出决策。它们擅长挖掘文档之间的对照关系，并据此推断其中暗含的规则。

「在税务研究里，需要同时对多份文件进行综合分析才能得出最终、连贯的结论。OpenAI 把 GPT-4o 换成 o1 后发现，o1 更善于整合多份文件之间的关系并推导出各自交叉影响，让最终的结论比单一文档中能看到的内容更有深度。OpenAI 因此看到终端到终端（end-to-end）性能提升了 4 倍，真的很令人惊讶。」

——Blue J，为税务研究提供 AI 平台

此外，推理模型也很擅长根据各种复杂政策和规则进行推理，并把这些规则应用到实际任务中，得出合理的结论。

「在做金融分析时，分析师常常要面对股东权益方面的复杂情境，还要理解相关法律的细微差别。OpenAI 曾用一个常见但比较棘手的问题来测试了市面上约 10 个模型：如果公司进行融资，对现有股东尤其行使『反摊薄保护』（anti-dilution）的那些股东会有什么影响？这个问题需要推理融资前后估值，还要处理环环相扣的『循环摊薄』，就算优秀的金融分析师也要花 20~30 分钟才能搞清楚。OpenAI 发现 o1 和 o3-mini 在这方面做得近乎完美！模型甚至能给出一张清晰的计算表格，展现对一个投资了 10 万美元的股东有何影响。」

——BlueFlame AI，为投资管理提供 AI 平台

推理模型在做多步骤的「自主」规划和战略制定方面发挥着关键作用。OpenAI 常看到的成功做法是先让推理模型扮演「策划者」，制定详细的多步骤解决方案，再根据每个步骤对「速度/智能」需求的不同，有选择地交给 GPT 模型或 o 系列模型去执行。

「OpenAI 用 o1 来做多智能体系统（agent infrastructure）中的规划者，让它负责指挥其他模型完成多步骤的任务。OpenAI 发现，o1 非常擅长选择要用什么数据类型，也很擅长把大问题拆解成小块，让其他模型聚焦执行。」

——Argon AI，服务于制药行业的 AI 知识平台

「o1 为 OpenAI Lindy 的许多『代理式工作流』提供支持。Lindy 是一个工作助理 AI，能通过函数调用（function calling）去获取你的日历和邮件信息，然后自动帮你安排会议、发邮件、管理日常事务。OpenAI 把一些原本运行不稳定的多步骤流程全部切到 o1 上，结果代理的表现几乎是一夜之间就变得近乎完美！」

——Lindy.AI，一个专注于工作场景的 AI 助手

截至目前，o1 是唯一支持图像理解的推理模型。它与 GPT-4o 的最大区别在于：o1 能处理特别复杂的视觉信息，比如结构不明确的图表或清晰度不佳的照片。

「OpenAI 为线上上架的数百万产品提供风险和合规审核，比如奢侈品仿制、濒危物种、管制品等。GPT-4o 在最难的图像分类任务中只能达到 50% 的准确率，而 o1 能做到 88%，OpenAI 甚至没有对流程做任何修改。」

——Safetykit，负责商家监控的 AI 平台

OpenAI 内部测试也发现：o1 能从复杂的建筑图纸中看出具体的材料和结构信息，进而生成更完整的材料清单。更惊喜的是，o1 还能跨页面匹配，比如先在图纸中的图例（legend）看到「PT」代表「压力处理木材」（pressure treated），然后在图纸的其他页面上正确应用这一概念，尽管并没有明确地告诉它需要这么做。

推理模型在代码审查和改进时也表现出色，往往可以在后台执行代码审阅任务，因为此类需求对延迟的容忍度更高。

「OpenAI 在 GitHub、GitLab 等平台上提供自动化的 AI 代码审阅服务。虽然代码审查过程对延迟不是特别敏感，但却需要理解多文件之间的代码差异。在这方面，o1 表现非常好，它能可靠地识别出对代码库做出的微小改动，而人类审阅者可能会漏掉。切换到 o 系列模型后，OpenAI 的产品转化率提升了 3 倍之多。」

——CodeRabbit，AI 代码审阅初创公司

GPT-4o 和 GPT-4o mini 因为延迟更低，也许更适合写代码，但对于那些不太敏感于执行速度的代码生成需求，o3-mini 有时也能带来更好的复杂性处理。

「o3-mini 写出的代码质量通常很高，而且往往能在明确的问题中得到正确解答，哪怕是非常具有挑战性的编码任务。其他模型也许只能应付小规模、快速的代码迭代，而 o3-mini 在构思、规划和实现复杂软件系统时表现更突出。」

——Codeium，提供 AI 驱动代码插件的初创公司

推理模型还经常被用于对其他模型的输出结果做评测和打分，特别是在需要数据验证的领域里（如医疗保健），保证数据集的质量和可靠性。传统的验证方法通常依赖预先定义的规则和模式，而像 o1 和 o3-mini 这样的高级模型，可以通过理解上下文和推理，对数据做更灵活智能的验证。

「不少客户在 Braintrust 的评测流程中使用了『模型做法官』的功能，比如某个医疗企业先用 GPT-4o 对患者问题进行概要提炼，再用 o1 来给这个概要的质量打分。结果发现，用 GPT-4o 做法官的 F1 分值只有 0.12，而用 o1 做法官，F1 分值达到了 0.74！对这些用户来说，o1 的推理能力在发现微妙差异和复杂场景的评分上表现极好。」

——Braintrust，AI 评估平台

这些模型最适合简洁、直接的提示。一些提示技巧（比如让模型「逐步思考」）不一定能提升性能，有时反而会降低效果。以下是一些提示技巧的最佳实践。

以上就是有关「推理模型」与 GPT 模型的区别、使用场景，以及给推理模型下指令时的一些最佳实践。希望这些指南能帮助你更好地发挥 o 系列和 GPT 系列模型在不同任务中的优势，实现更高效、更准确的 AI 解决方案。

在 github 架设 hugo blog（纯浏览器操作）

fivestone

By: fivestone

11 November 2024 at 21:12

我其实对 Hugo 不熟，不知道这算不算重新发明了一遍轮子。但我搜索「如何在 github 上，用 hugo 架设自己的 blog？」时，搜到的教程，都需要用户在自己的电脑上，安装运行各种 git 和 hugo 的相关命令，感觉对新手并不友好。所以，我试着写了一个流程，让新人完全只需要在网页浏览器上操作，就能快速生成自己的 blog 网站。

所有操作都在 Github 这个项目上进行：
https://github.com/fivestone/hugo-papermod-beginning

这个项目本质上，就是搭了一个空白的 hugo 网站，让用户 fork 到自己的账户下，设置一下就能直接使用。对功能和界面有什么额外要求的话，请自行学习 hugo 的进阶教程。——然后你们就不是需要用这个项目的新人啦~

本项目基于 hugo 博客引擎，和流行的 PaperMod 主题
在 github 上建立的 blog，在墙内是不能直接访问的，需注意

1. 创建 github 账号

首先，注册自己的 github 账号，过程略。注册过程中，你设置的账户名 username，通常就是最终的网站地址 username.github.io，当然以后也可以把自己的域名映射到上面。

2. 架设自己的 blog 项目

注意，这一步，有两种方法：

第一种方法：你建一个全新的项目，下载我提供的 .zip 文件，解压后，再手动上传到你的项目。和第二种相比，稍微繁琐一点。但还是希望大家，有条件的话，使用这种方法。
第二种方法，把我的这个项目，fork 到你的项目。这种方法对新人更简便，完全不需要在本地操作文件，只用手机或 pad 就可以完成。但这种 fork 在一起的项目，在进行自动发布 blog 的操作时，是共享同一个操作额度的。如果 fork 的人数非常多，未来可能会被 Github 限制。——要达到这种规模，大概要几千人同时用吧……所以也不需要很在意。

2.1. 第一种方法

注册并登入账号后，新建自己的项目（Repository）。

项目的名称，决定了最终 blog 的网址。假设你的 github 用户名为 username

如果把项目命名为 username.github.io ，则最终的网站地址为
https://username.github.io/
如果把项目设置成其它名字，如 new-name，则最终的网站地址为
https://username.github.io/new-name

确认项目为 Public。其它设置都不需要更改，点击绿色按钮创建。

创建项目后，点击「上传已有的文件」

从我的 github 项目，下载已经设置好的 hugo 文件包，在本地解压缩 .zip 文件。然后，把里面的所有文件，拖拽上传到你的项目里。

等到 80 多个文件都被上传后，别忘了点击页面底部的 Commit changes 提交。

2.2. 第二种方法

注册并登入账号后，进入项目：
https://github.com/fivestone/hugo-papermod-beginning
点击 Fork，将这个模板复制到你自己的账号下。

和第一种方法一样，这里需要设置你自己的项目名称，假设你的 github 用户名为 username

如果把项目命名为 username.github.io ，则最终的网站地址为
https://username.github.io/
如果把项目设置成其它名字，如 new-name，则最终的网站地址为
https://username.github.io/new-name

然后点击 Create fork 创建项目。

3. 配置自动发布 blog

创建新项目后，进入项目的 Settings – Pages 页面，把 Build and deployment – Source，改为 GitHub Actions。

把 Source 从 Deploy from a branch，改为 GitHub Actions 后，进入上方的 Actions 页面。

初次进入 Actions 页面后，会显示 Github 预设的各种配置方案，通过搜索框找到 hugo，然后点击 hugo 方案中的 Configure

系统会自动生成配置文件，不需要做任何改动，点击绿色的 Commit changes 提交。

此时自动发布的 action / workflow 就已经开始运行了，大约 1~2 分钟后，就可以在
https://username.github.io 看到 blog 最初的页面了。

以后，每次对项目里文章或配置文件的更改，都会触发这个 action / workflow，重新生成一遍网站。可以在 Actions 页面，查看 workflow 每次运行的情况。

4. 更改网站基本信息

在 Code 页面，点击编辑 config.yml 页面，把一些预设的网站信息，改成你自己的信息。

对新人来说，需要在 config.yml 文件里更改的，大概有以下几项：

baseURL: https://username.github.io/ # 改成你自己的网址
title: 网站名称
params:
  author: somebody # 作者的署名

  homeInfoParams:
    Title: 网站标题，只显示在首页上
    Content: >
      显示在首页标题下方的一些文字。</br>
      支持一些简单的 html 和 markdown。

更改后，点击绿色的 Commit Changes… 在弹出的页面中，再一次点击绿色的 Commit Changes，保存文件后 1~2 分钟，就可以在 blog 页面上，看到更改后的内容了。

5. 添加、管理文章

所有的 blog 文章，都在 content / posts 目录中。在 Code 页面，进入 content / posts 目录。点击右上角，创建新文件。

所有的文章，均为 .md 结尾的 markdown 文件。文件名对应着这篇文章的网址，譬如，post-20241111.md 文章链接，就是
https://username.github.io/posts/post-20241111/

在文件的开头，如图所示，写入用 — 隔开的，文章的标题和发布日期。

---
title: "新文章的标题"
date: "2024-11-11"
---
然后开始写正文，markdown 格式。

同样，点击绿色的 Commit changes… 保存提交。1~2 分钟后，就可以在 blog 页面上看到新文章了。

content / posts 目录里的所有文件，都可以随意地新增、删除、修改、重命名文件。对应着 blog 文章的增删改、和改变 url 链接。

文章内嵌的图片，建议放在 static 目录下，然后在文章中用 markdown 格式引用。譬如 static / aa.jpg 文件，相应地在 markdown 文件中插入的代码为：

![](https://username.github.io/aa.jpg)

有经验的用户，也可以使用其它更有效的组织方式。

6. 其它注意事项

生成的 blog 对应的 rss 订阅地址为

https://username.github.io/index.xml

如果是用第二种方法，直接 fork 的项目，以后在这个 blog 项目里，会一直看到，图片里这样的消息，提示要把你对项目的更改，反馈给原本的我的项目。——不用理会就是了。