Reading view

There are new articles available, click to refresh the page.

Solutions to Saturday Mac riddles 353

I hope you enjoyed Saturday’s Mac Riddles, episode 353. Here are my solutions to them.

1: The future was here 25 years ago when the fastest land animal arrived.

Click for a solution

Cheetah (Mac OS X 10.0)

The future was here (launched under the tagline of ‘the future is here’) 25 years ago (released on 24 March 2001) when the fastest land animal (a cheetah, despite Mac OS X 10.0 being far from the fastest) arrived.

2: This atelier came with more than a marathon four years ago.

Click for a solution

Mac Studio M1

This atelier (a studio) came with more than a marathon (the first Apple silicon Mac to feature an M1 Ultra chip) four years ago (announced 8 March and released 18 March 2022).

3: Wicked fast at 40 MHz, its special effects impressed 36 years ago.

Click for a solution

Macintosh IIfx

Wicked fast (it was dubbed ‘wicked fast’) at 40 MHz (the clock speed of its 68030 CPU and bus), its special effects (FX) impressed 36 years ago (released 19 March 1990).

The common factor

Click for a solution

They each celebrated their anniversaries this month.

I look forward to your putting alternative cases.

Saturday Mac riddles 353

Here are this weekend’s Mac riddles to entertain you through family time, shopping and recreation.

1: The future was here 25 years ago when the fastest land animal arrived.

2: This atelier came with more than a marathon four years ago.

3: Wicked fast at 40 MHz, its special effects impressed 36 years ago.

To help you cross-check your solutions, or confuse you further, there’s a common factor between them.

I’ll post my solutions first thing on Monday morning.

Please don’t post your solutions as comments here: it spoils it for others.

Solutions to Saturday Mac riddles 352

I hope you enjoyed Saturday’s Mac Riddles, episode 352. Here are my solutions to them.

1: British sister of ANSI is Tahoe’s child of RSR.

Click for a solution

BSI

British sister of ANSI (The British Standards Institution, or BSI, is the UK equivalent of the American National Standards Institute) is Tahoe’s child of RSR (it’s the macOS 26 reimplementation of Rapid Security Responses from Ventura).

2: Puzzle vault in the Da Vinci code contains Safari.

Click for a solution

Cryptex

Puzzle vault in the Da Vinci code (in Dan Brown’s novel ‘The Da Vinci Code’, it’s a portable cylindrical vault resembling a combination lock, used to contain secret messages or precious objects) contains Safari (recent versions of macOS include two cryptexes, the App cryptex containing Safari, and the OS cryptex containing dyld caches).

3: The sound of a liquid hitting a surface could be 1 or its parent.

Click for a solution

Splat

The sound of a liquid hitting a surface (a splat) could be 1 or its parent (it’s Apple’s internal name for the cryptex updates in RSRs and BSIs).

The common factor

Click for a solution

They all refer to the sealed disk images used by recent versions of macOS.

I look forward to your putting alternative cases.

Saturday Mac riddles 352

Here are this weekend’s Mac riddles to entertain you through family time, shopping and recreation.

1: British sister of ANSI is Tahoe’s child of RSR.

2: Puzzle vault in the Da Vinci code contains Safari.

3: The sound of a liquid hitting a surface could be 1 or its parent.

To help you cross-check your solutions, or confuse you further, there’s a common factor between them.

I’ll post my solutions first thing on Monday morning.

Please don’t post your solutions as comments here: it spoils it for others.

Solutions to Saturday Mac riddles 351

I hope you enjoyed Saturday’s Mac Riddles, episode 351. Here are my solutions to them.

1: Show for recording or art, it isn’t as recent as you might think.

Click for a solution

Studio Display

Show (a display) for recording (a recording studio) or art (an art studio), it isn’t as recent as you might think (most recently 27-inch 5120 x 2880 from 2022, but an earlier series of models between 1998-2004).

2: Theatre exhibition was originally the largest of its kind.

Click for a solution

Apple Cinema Display

Theatre (a cinema) exhibition (a display) was originally the largest of its kind (the original model was the largest flat panel display on the market when it was launched in 1999, 22-inch, up to 1600 x 1024).

3: Gallery for pictures of the famous in greyscale only.

Click for a solution

Macintosh Portrait Display

Gallery (a display) for pictures of the famous (portraits) in greyscale only (available between 1989-1992, 15-inch with 640 x 870 in 256 shades of grey).

The common factor

Click for a solution

They’re some of Apple’s displays for Macs.

I look forward to your putting alternative cases.

Saturday Mac riddles 351

Here are this weekend’s Mac riddles to entertain you through family time, shopping and recreation.

1: Show for recording or art, it isn’t as recent as you might think.

2: Theatre exhibition was originally the largest of its kind.

3: Gallery for pictures of the famous in greyscale only

To help you cross-check your solutions, or confuse you further, there’s a common factor between them.

I’ll post my solutions first thing on Monday morning.

Please don’t post your solutions as comments here: it spoils it for others.

Solutions to Saturday Mac riddles 350

I hope you enjoyed Saturday’s Mac Riddles, episode 350. Here are my solutions to them.

1: Novel in four colours delivers next week.

Click for a solution

MacBook Neo

Novel (a book, new, and neo-) in four colours (silver, blush, citrus and indigo) delivers next week (it’s available from 11 March).

2: First airport with a handle from 1999.

Click for a solution

iBook

First airport (it was the first model with built-in AirPort networking) with a handle (it’s the only Mac portable with a built-in handle) from 1999 (it was introduced in July 1999).

3: Friend and assistant with a real keyboard for Isaac.

Click for a solution

eMate

Friend (a mate) and assistant (it’s a personal digital assistant or PDA) with a real keyboard (the only Newton with a built-in keyboard) for Isaac (Newton).

The common factor

Click for a solution

They’re each innovative low-end portables aimed at education and consumer markets.

I look forward to your putting alternative cases.

Saturday Mac riddles 350

Here are this weekend’s Mac riddles to entertain you through family time, shopping and recreation.

1: Novel in four colours delivers next week.

2: First airport with a handle from 1999.

3: Friend and assistant with a real keyboard for Isaac.

To help you cross-check your solutions, or confuse you further, there’s a common factor between them.

I’ll post my solutions first thing on Monday morning.

Please don’t post your solutions as comments here: it spoils it for others.

国补后三千多!苹果多巴胺 MacBook Neo 来了!没有刘海

终于,苹果正式发布了备受期待的全新「入门款」MacBook,定名为「MacBook Neo」,售价 4599 元起。

「Neo」这个后缀,在苹果五十年的产品历史上属于首次出现,原本是一个源自希腊语的英语构词前缀,表示「新」的意思,MacBook Neo 可以简单理解为「 MacBook 青春版」。

这个充满生气的后缀,当然要用清新的配色搭配。MacBook Neo 提供了几种不同的彩色配色:黄色、粉色、深蓝色、银色。

根据爱范儿在现场的观感,MacBook Neo 和 MacBook Air 确实比较相似,只是屏幕尺寸为 13 寸,比 13.6 英寸的 MacBook Air 要小一点,但屏幕居然没有刘海,代价就是屏幕边框变粗了。

MacBook Neo 这个全新的模具,边缘要圆润很多,厚度 1.27 厘米,厚于 MacBook Air 的 1.13 厘米,但重量却一致,为 1.23 千克,整体还是非常精致和小巧的。

即使价格很低,MacBook Neo 依旧采用了全金属机身,上手感觉做工比较扎实,在 3000-4000 元档位(计算国补/教育优惠)应该属于顶级。

和爆料一致,MacBook Neo 搭载的是 A18 Pro 处理器,不过没想到,配置为 6 CPU 核心 + 5 GPU 核心,比 iPhone 16 Pro 少一个 GPU 核心。

A18 Pro 的性能尚且过关,但苹果只为 MacBook Neo 配备了 8GB 的运行内存,在 2026 年显得非常捉襟见肘,后台能力会受到一的制约,甚至多开个网页都有点吃力。如果需要运行重型应用,比如 3D 建模、渲染等应用,需要考虑清楚。

而且,MacBook Neo 没有提供加内存选项。这是由于 A18 Pro 的运行内存直接集成到 SoC 内部,消费者只能选择加钱将存储空间从 256GB 升级到 512GB。

作为对比,去年发布的 iPhone 17 Pro 搭载 A19 Pro 芯片和 12 GB 运行内存,虽然手机配置比电脑还高,考虑到后者价格其实只有前者一半,也算不上「倒反天罡」?

8GB 的内存上限,也决定了这款 MacBook Neo 只能用来完成轻度的办公、娱乐、学习、轻度创作需求——某种意义上说,苹果造了一台「上网本」。

虽然用的是手机芯片,但新 MacBook Neo 搭载的可是完整的 macOS,这就意味着它在某些轻度办公的场景,比更贵的 iPad Pro 用起来更顺手。并且,MacBook Neo 也已经「为 Apple 智能准备好了」。

作为一个「入门款」定位的产品,MacBook Neo 不只在处理器上做了取舍,还有以下遗憾:

  • 屏幕不支持原彩显示和 P3 广色域
  • 侧边双扬声器,MacBook Air 为四扬声器,
  • 不支持键盘背光,指纹识别需要加钱 512GB 配置
  • 触控版为机械结构,并非力度感应
  • 两个 USB-C 接口,分别为 USB3 和 USB2 配置;无 MagSafe 接口
  • 3.5 毫米耳机接口不支持高阻抗耳机
  • 只支持外接一台 4K 显示器,最高 60Hz,MacBook Air 可以外接两台 6K 显示器
  • 1080p 摄像头,不支持 Center Stage、桌上视角功能——好在屏幕无刘海

没想到,苹果居然为 MacBook Neo 重新捡起了机械结构的触控版,这也是 2015 年以来第一台没有 Force Touch 触控板的 MacBook。

如果 MacBook Neo 能吃满 20% 的国补,那么价格将进一步下探到 3000 元档位。

目前,在国补和教育优惠的加持下,电商渠道还有 5000 元左右的 M4 MacBook Air 存活,只比 MacBook Neo 贵 1000 元左右。

要知道, Mac 产品线单单升级一个内存就要 1000 元,选择 16 GB 起步的 M4 MacBook Air,相当于氪金升级内存的同时,还获得更强的性能、做工、接口等等配置,简直算得上超值。

如果有一定的工作性能需求,又不需要经常把电脑带出门,那么 Mac mini 也是绝对更好的选择——M 芯片的算力,还是不容小觑的。

因此,如果你最近要买一台 MacBook,我还是更建议购买 M4 的 MacBook Air。

不过爱范儿独家获悉,在 M4 的 MacBook Air 上市后,苹果官网等渠道将会逐步停产 256GB 的 M4 版本,未来不太容易买到一手的全新机。

如果你的工作任务集中在简单的文档处理、电子邮件,只需要开少数几个网页,并且更习惯传统的键鼠交互,那 MacBook Neo 完全能够胜任,并且还能提供这个档位 Windows 笔记本没有的续航、质感和屏幕。

对于那些想体验一下 Mac 产品线,MacBook Neo 提供了一个 Mac mini 之外的选择;这样一台低价、性能不算太差、并且不太能打游戏的 MacBook,也非常适合作为中小学生平时学习和娱乐的工具。

和 iPhone 17e 类似,MacBook Neo 主要的「战场」可能是海外,与低价的 Windows 以及 ChromeBook 竞争,瞄准教育和商用大规模采购的市场。

你觉得这款新的 MacBook Neo 怎么样?你最想了解这款新 MacBook Neo 的哪些方面?欢迎在评论区告诉爱范儿,我们将会用实测来告诉你答案。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


看遍了所有的「AI PC」,原来 Mac 一直在这里|AI 器物志

年初,Mac Mini 一度缺货,等待时间甚至长达一个半月。

Mac mini 是个好产品,这件事大家一直很清楚。国内渠道价格诚意高,M 芯片性能又好,入门配置不到三千人民币就可拿下,很适合作为创作新手的主力机。

然而最近这次 Mac mini 爆红,跟创作或日常使用没什么关系。

关注科技新闻的朋友们应该知道怎么回事:OpenClaw(前身叫 Clawdbot)突然火了。

OpenClaw 有多种部署方式:你可以装到自己的电脑上,也可以单给它配一台电脑;把它部署在云端的虚拟机/沙箱环境里也没问题;后来,一些主流 AI 服务也推出了云端一键部署的替代方案,显著降低小白玩家的门槛。

但在刚开始的那段时间,最主流的部署方案就是单买一台 Mac mini。

理由肯定不是因为它便宜,更主要在于:要让 OpenClaw 有意义,需要给它一个「肉身」,让它访问文件、操作软件。

云服务器能运行 OpenClaw,但那仍然不是你的电脑,没有你的文件、软件、浏览器上登录的各种账号,没有所谓的「上下文」。Mac mini 放在桌上,7 × 24 小时不用关机,甚至通过聊天机器人远程操控的话都不用单配一台显示器。

给 OpenClaw 一台自己的电脑工作,唯一可观成本是后端接入的大模型 API 的 token 费用,很多早期玩家都在这上面吃过亏。但如果你买一台配置够高的 Mac mini,下载一个尺寸足够大的模型到本地来运行,可以说除了电费和网费之外,简直就像获得了一个免费的劳动力……

MacBook 也行,但是……

MacBook 也行,但是……

据 Tom’s Hardware 和 TechRadar 等媒体报道,OpenClaw 走红后,Mac mini 24GB 和 32GB 配置的等待期延至 6 天到 6 周不等;更强大的 Mac Studio,交货时间也从两周涨到了近两个月。

这些等待时间,是 OpenClaw 的早期玩家们,用真实购买投出来的票。

(注:部分机型的缺货也和苹果近期推出新款 Mac 台式机电脑有关系,以往每次推出临近新机发布时,老机型都会进入售罄状态。OpenClaw 的爆红并非唯一原因。)

冥冥之中,Mac 成为了 2026 年首选的「AI PC」;反倒是鼓吹了「AI PC」好几年的 Windows PC 行业,一点热乎的都没吃上。

英特尔、AMD、高通等芯片商,以及主流 PC 品牌们,从 2023 年就开始贩卖「AI PC」的概念了。这些最新的 Windows 电脑当中,认证过 Copilot+ PC 的比比皆是,GPU、NPU 性能并不差,有的整机价格比 Mac 对等产品要便宜的多。

但问题是,为什么大家还是一窝蜂地冲向 Mac?

为什么是 Mac?

Windows PC 和 Mac 谁更好的争论,永远没有绝对答案。但如果限定在 AI 开发上,Mac 成为了心照不宣的选择。

虽然大模型的「大脑」都在云端服务器,开发者的手却都在 Mac 上。这跟 Mac 电脑的外形和操作体验关系不大:macOS 流着 UNIX 的血液,才是关键。

AI Agent 的核心工作是操作文件、调用命令行工具、调度 API 甚至控制图形界面等。说的更直白一点,Agent 就是一个智能且自动化的「脚本工程师」,只是脚本由大语言模型实时生成。而 macOS 属于类 UNIX 系统,bash、zsh 命令原生支持优秀。

这解决了 AI 开发中最基础的环境搭建。在 Windows 上,你可能得先安装 WSL2 虚拟机。但在 Mac 上,从 Python 环境到复杂的 C++ 编译工具链,基本都是开箱即用。Homebrew 等包管理器,让安装各种工具和依赖通过一行命令就能搞定。

另外,macOS 符合 POSIX 标准,处理文件路径、多线程任务和网络协议时可靠性稍高。Agent 往往需要频繁读写数据、调用 API,系统级的高效调度让 agent 在 Mac 上的节奏更快。

这种原生感和稳定性,让开发者、尝鲜用户可以更快完成入门,把更多时间花在真正的 agent 编排工作上。

Windows 有 WSL、PowerShell,功能上大部分也都能覆盖。但 WSL 是叠加在 Windows 上的兼容层,存在路径约定、注册表机制、权限模型等历史遗留问题。AI 模型和 agent 项目在 Windows 上运行的摩擦,确实会更多一些。

以 Ollama 和 LM Studio 为例,这两个工具让端侧推理大模型变得像「下载、安装、运行」一样简单。Ollama 的 Windows 版比 macOS 晚了半年;LM Studio 虽然从一开始就支持两个平台,但在社区里 Mac 的体验口碑始终更好;OpenClaw 也是如此。

往硬件层面继续深入,内存是大语言模型推理运行的命脉。

还是以 OpenClaw 举例,用户可以通过 token 付费的方式来接入云端模型,但它更擅长的能力是在端侧模型推理驱动。经过普遍调研,想要让 OpenClaw 像个智商合格的人一样工作,后端的模型参数量的底线在 70 亿左右,往往要上到至少 320 亿参数量才能比较稳定地工作。

这么大的模型即便在 4-bit 量化之后,仍然需要大约 20GB 内存(还要留一些给上下文窗口)。

此时,Windows PC 的架构会显得捉襟见肘。CPU 内存和显存之间存在物理隔离,数据经由 PCIe 总线传输,受到带宽瓶颈的影响。频繁的数据搬运,会对推理过程带来速率的影响。

更别提,大模型普遍依赖 GPU 加速推理,显存得足够装得下模型。在英伟达消费级显卡线中,只有 90 后缀的 24GB 显存达到了配置要求,但配出整机(只考虑新机)的话合计成本至少在万元人民币以上,用新卡的话会飙到 4、5 万不等。

而苹果的统一内存架构 (Unified Memory Architecture) ,让 M 系芯片的 Mac 在端侧推理更大规模的模型时游刃有余。

简单来说,统一内存架构的效果,是 CPU、GPU、神经计算引擎能够共享同一个内存池,不再有物理总线搬运的损耗,让 Mac 可以获得极高的内存带宽,并且对于多机串联的扩展性能更好。

以 Mac mini 为例,选择性能更高的 M4 Pro 处理器,搭配 48GB 内存,其它选基础配置,整机价格在 1.3 万元上下,即可达到 OpenClaw 社区普遍推荐的 320 亿参数量模型的配置水平。

当然这还只是对 token 吞吐速度有要求的专业配置。如果你属于爱好者、尝鲜玩一下 OpenClaw,配置下降到常规 M4 芯片和 32GB 内存也是能跑起来的。

当然,这个成本对比还是有前提:专用于端侧推理/跑 OpenClaw,而不是当做主力机。同等价位的 Windows PC 还能打游戏、剪视频,通用性更强。

另外,Mac 的统一内存和 PC 平台独显的显存也不是一回事。统一内存由系统和模型共享,一台 32GB 内存的 Mac mini,macOS 系统和其他软件仍需占据几个 GB。而 RTX 3090 的显存独立,模型可以全部占用,甚至配合 CPU 内存跑更大的量化模型。

如果你只用云端 API 做 OpenClaw 的大脑,不考虑端侧部署,那 Mac 的易用性优势依然在。

另外,CUDA 虽然提供了统一内存编程接口,但物理上 CPU 内存和 GPU 显存依然分离,数据搬运和带宽瓶颈并未消除。

再来看功耗。

Agent 的工作方式是持续循环的:任务触发、思考推理、执行、等待、再触发。前述配置的 Windows PC 会跑到 300-400W 左右(本地部署),散热噪音和电费都不是小数目。

Mac mini 通常稳定功耗在 10-40W 左右,峰值功率 65W(M4)或 155W(M4 Pro),散热可控,几乎没有风扇噪音,运行更安静。这种低延迟、低功耗的持续工作方式,会产生潜移默化的体验差异。

网友 3D 打印的套件「Clawy MacOpenClawface」

网友 3D 打印的 Mac mini 外壳套件「Clawy MacOpenClawface」

当然我们更多还是围绕 OpenClaw 这个以推理为主的场景进行讨论。如果工作涉及本地微调,并且对于效率有追求的话,那么在 macOS 平台要往往要到 Mac Studio,或至少顶配的 MacBook Pro,才能算摸到门槛。

与此同时,Mac 不支持 CUDA 也是个可能永远都无法改变的事实。不过,CUDA 的真正战场是模型训练,推理场景对它的依赖小得多,毕竟苹果在推理上有 MLX 这张王牌(后面会详述)。

再回到 OpenClaw:它的创造者 Peter Steinberger 曾经公开表示,自己很喜欢 Windows,觉得它的功能更强。他在 Lex Fridman 播客中说,Mac mini 不是唯一的「肉身」选择,通过 WSL2 方式运行 OpenClaw 已经非常成熟了;他甚至公开吐槽苹果在 AI 领域「搞砸了」,并且对苹果生态的封闭性感到不满。

但客观来讲,对于技术小白型用户的部署门槛,Mac mini 确实是最省心、最容易上手的方案。主要原因就是它的功耗、静音、尺寸足够小,像是一个可以插在墙角、24 小时待机且不需要维护的「服务器节点」。

还有一个和功耗有关的例证:前几天有一位工程师 Manjeet Singh 成功实现了对 M4 处理器上「神经引擎」(Neural Engine,简称 ANE)的逆向工程,发现 ANE 的功耗效率极高:算力跑满时的效率高达 6.6 TOPS/W。

对比苹果的 M4 GPU,约合 1TOPS/W;英伟达 H100 大约 0.13,A100 是 0.08 TOPS/W。

折算一下,A100 单卡的吞吐性能是 M4 ANE 的 50 倍,但 M4 ANE 的功耗性能却是 A100 的 80 倍。原作者在文章里写道:对于端侧推理,ANE 的性能是非常出色的。

由神经引擎说开

2011 年,苹果在 A5 处理器的图像处理单元 (ISP) 中首次通过硬写入的方式,实现了人脸实时检测等后来被视为 AI 任务的功能。

2014 年,苹果收购了 PrimeSense 公司,并开始研发一种全新的、专门用于神经网络计算的协处理器。这方面的工作在三年后的 iPhone X 上问世:A11 Bionic 处理器当中加入了前面提到的神经引擎 ANE,算力只有区区 0.6 TOPS,用来驱动 Face ID 和拍照人像模式。

那时 AI 还没到大模型时代,跑的主要是各种机器学习算法。市场对苹果这块协处理器的推出并没什么特别的反应。但苹果从未放弃过,持续加码。

三年后,M1 发布,统一内存架构同时到位, ANE 也进驻了 Mac。桌面平台的功率预算更充足,也让 ANE 的算力跳到 11 TOPS。此后每代更新:M2 是 15.8 TOPS,M3 是 18 TOPS,M4 是 38 TOPS,到了 2025年底的 M5 ,达到了 57 TOPS。从 M1 到 M5,苹果的 ANE 算力涨了超过 5 倍。

这个增长背后的逻辑,其它 PC 厂商不能说不羡慕。苹果为 Mac 加入 AI 加速硬件之前,已经有数千万甚至上亿台 iPhone 在跑同一套 ANE 架构了。功耗表现、稳定性、极端情况下的边缘案例,在市售机型上已经得到验证,再搬到 Mac 上来。

英特尔和 AMD 在移动端几乎没有消费级规模;高通虽然同样把 Snapdragon 芯片放进了数亿台 Android 手机,但它只是芯片供应商。Android 上的 AI 是谷歌 (Gemini) 以及各大手机厂商联合第三方 AI 实验室做的;Windows 的 AI (Copilot) 是微软做的。

苹果的不同在于,它实现了垂直整合,同时掌控硬件和软件。其他芯片厂商没有这种统一控制权。

当然,在 Mac 上推理大语言模型,其实跟 ANE 没什么关系,它更擅长处理 Face ID、人像识别这类固定模式的 AI 任务。真正承担主要计算量的是 GPU。

(注:最近情况发生了细微的变化。首先,M 系列芯片上的 ANE 已经承担提示词注入 prefill 阶段的工作了;以及刚才提过的 M4 ANE 逆向工程:该工程师还实现了跳过 CoreML 直接调用 ANE,吞吐量显著提升。通过这种思路,或许可以找到直接利用 ANE,来加速推理甚至训练的通用方法。)

2023 年底,苹果开源了 MLX,把专门针对 M 系列芯片优化的模型推理框架直接给了开发者。去年,基础模型框架随 Apple 智能发布,App 开发者可以在 iPhone 和 Mac 上调用系统内置的基础模型,无需联网,数据不离开设备。

Apple 智能一再跳票,这件事确实没什么好辩护的。不过,苹果远在 10 年前就开始试水,在多年以前就为桌面级 AI 开发打下了基础,是不争的事实。

而在 Windows 那边,「AI PC」这个词开始出现在英特尔、AMD 和 PC 厂商的新闻稿和 ppt 里,要到 2023 年底了。

AMD 官网 2023 年截图

AMD 官网 2023 年截图

2024 年 5 月,微软发布 Copilot+ PC 认证体系,旗舰功能名叫「Recall」,大概的逻辑是系统持续对屏幕内容截图,然后 Windows 的系统级 AI 能够帮你回忆过去看到过的东西。

先不说这个功能在发布当时的实际意义是什么,它的安全性首先被发现有严重问题:仅在发布一个月后,研究人员就发现 Recall 功能会把所有截图存在一个未加密的本地明文数据库里。

微软紧急撤下了 Recall 功能。过了半年微软再次推出测试版,结果再次因为新的安全问题而延迟。直到 2025 年 4 月,Recall 才正式上线,但改成了默认关闭,启动后数据改为加密存储。

从发布会宣传到真正能用,将近一年,可以说整个 Windows 生态 AI PC 的旗舰功能,经历了一整次从头重新设计,尴尬程度其实不亚于 Apple 智能/新版 Siri 的一跳再跳,但可能因为 Windows 生态的声量实在太低,AI PC 没多少人关注,很多人都没听说过这回事。

在 Copilot+ PC 这个体系的认证标准方面,微软主要针对的是神经处理引擎 NPU,要求是 40TOPS。不过,这个算力的用途是实时字幕、背景虚化、照片增强,诸如此类的消费端窄任务,大语言模型推理从来不在它的射程里(和苹果 ANE 同理)。

当开发者尝试去做端侧大语言模型推理时,会发现虽然这些电脑名为 AI PC,但并没针对 AI 推理用途做什么优化。微软 Copilot 本身的核心算力来自 Azure 云端,和端侧自身的算力几乎无关。买了一台 Windows AI PC 的用户,最能感知到的 AI 提升,大概是实时字幕和照片自动分类。

说到端侧推理,还有一个关键因素:Windows AI 生态的优化路径是分散的。

NVIDIA GPU 用 CUDA 和 TensorRT,Intel NPU 用 OpenVINO,高通 NPU 用 QNN SDK,AMD NPU 用自家驱动栈。模型存储格式也较为碎片化,有 CPU+GPU 推理的通用格式(GGUF,准确来说是 CPU 推理 + GPU 分层卸载),也有 GPU-only 的格式(EXL2)。

这意味着想让模型以及模型驱动的功能运行在 Windows AI PC 上,在推理后端方面的工作会更加复杂。微软有 ONNX Runtime 和 DirectML(已进入续命状态)作为统一抽象层,但统一的代价是牺牲各厂商的峰值性能。苹果是目前唯一一家为自家 PC 硬件专门开发并持续维护 LLM 推理框架的 PC 厂商,这个框架就是 MLX。

在 Hugging Face 等开源模型平台上,你会很容易找到大量采用 MLX 框架的模型,只要带有 MLX 后缀,并且内存/处理器允许,可以直接「开箱即用」。

不过,这几天 MLX 的主要贡献者之一 Awni Hannun 刚从苹果离职,为该项目的后续发展增添了些许变数。Hannun 也表示 MLX 团队仍有许多优秀员工,可以放心。

我们自己的体验

过去一年,爱范儿自己做了不少端侧部署 AI 模型的测试,也采访过一些相关的外部开发者。有两次值得一提。

去年春节,DeepSeek 横空出世,新款 Mac Studio 也在节后不久面市。 我们用一台售价快到 10 万元人民币的 M3 Ultra Mac Studio(512GB + 16TB)跑了 DeepSeek R1 671B 模型(注:实际上只需要内存,硬盘不用那么大,1TB SSD 售价七万多的型号就够了),以及蒸馏过的 70B 版本。

我们当时得出结论:对于端侧部署对话,日常用 70B 足矣,花大几万买台机器只为了跟 AI 聊天,实在是有钱烧的慌。当时的模型能力确实也就不太行,后来才有新的多模态模型和 agent 能力出来。

但 671B 模型的天量参数模型能够在一台桌面机上端侧推理,仍然是一种奇观。512GB 的统一内存上,671B 模型占用了 400GB,加上上下文、macOS 系统本身以及其他任务占用,基本接近满载,但机器全程运行安静,噪音在正常范围,也没有过热。

这个参数规模,在传统 AI 基础设施逻辑里,属于数据中心级别,消费级硬件理论上不该出现在这个场景里。但那台 M3 Ultra Mac Studio,真就硬生生也静悄悄地出现了。

后来,我们采访过一个英国牛津大学的创业团队 Exo Labs。他们用 4 台 512GB 统一内存的 Mac Studio,通过串联的方式组成了一个 128 核 CPU、320 核 GPU、2TB 统一内存、总内存带宽超过 3TB/s 的算力集群。

团队为这个 Mac 集群开发了调度平台 Exo V2,可以同时加载 2 个 DeepSeek 模型(V3+R1,8-bit 量化)。不但两个模型并行推理,研究人员甚至可以通过 QLoRA 技术来做一些本地微调工作,显著缩短了训练任务的用时。整套系统功耗控制在 400W 以内,运行时同样几乎没有风扇噪音。

同等算力的传统方案,需要大约 20 张 NVIDIA A100,当时的成本超过 200 万人民币;相比之下,Exo Labs 这套方案的总成本才不过 40 万人民币(同理 SSD 严重溢出,其实可以 30 万内就够)。

Exo Labs 创始人当时告诉我们,牛津有自己的 GPU 集群,但申请需要提前几个月排队,而且一次只能申请一张卡。这些桎梏,逼迫他们创新,而他们又正好遇到了趁手的工具:统一内存架构、MLX,以及 Mac 电脑。

我们在当时的文章里写道:「如果说英伟达的 H 系显卡是 AI 开发的金字塔尖,那么 Mac Studio 正在成为中小团队手中的瑞士军刀。」

这件事,苹果其实早就知道。

真正的 AI PC 是什么?

去年苹果发布的基础模型框架,让 iOS 和 macOS 开发者可以调用系统内置的基础模型,零网络延迟,零 API 费用,数据不离开设备。

尽管后来苹果基模团队几近分崩离析,但在迭代方面苹果没有停在原地。它其实一直知道开发者在哪里、想要什么。它的回应,就是将大模型驱动的 AI 能力变成操作系统的基础设施,让开发者更方便调用。

上周,苹果开源了 python-apple-fm-sdk。以往苹果基模的完整测试和调优,需要 Swift 环境完成;现在这套 SDK 让路变宽了,习惯 Python 工作流的开发者也能参与进来。

苹果的隐私设计哲学贯穿始终:python-apple-fm-sdk 调用的基础模型完全在本地运行,数据不离开设备。苹果整套 AI 体系在必须上云的场景里,走的是 Private Cloud Compute,数据处理完即删除,苹果无法访问。

反过来看 Recall,同样是让 AI 访问用户的私人数据,第一版存的是未加密的明文数据库。一个在架构上阻断泄密,一个是出事了再打补丁。

但话说回来,Mac 作为 AI 开发和部署工具的优势,严格来讲更像是一种「适配度优势」,也可以说是后天意外获得的。

意思是:苹果做神经引擎,最初是为了服务 Face ID 和人像模式;做统一内存架构,是摆脱对 Intel 长久依赖的一部分必要工作;开源 MLX,是响应开发者对高效推理工具的需求——AI Agent 场景爆发,Mac 正好赶上,是上述这些以及更多没提到的工程决策的意外收益。

Mac 一开始并没有为 AI 而设计,它始终的产品定位都更接近「创作者工具」。苹果长久以来的目标用户,是视频剪辑师、艺术家、软件工程师。他们需要的是低噪声、持续性能、高内存容量、可以全天候运行的机器。

AI 模型推理,以及时下最火的 Agent 部署,只是恰好需要一模一样的东西。

回头看,十多年前苹果在机器学习上加大投入时,大概率是不会预见到 2025 年 OpenClaw 的爆红的。甚至你可以说,如果放在十年前,苹果大概率是不会喜欢 OpenClaw 这样一个「回报高风向更高」,一旦出现幻觉就把用户隐私、数据安全抛在脑后,无视各种软件工程方面的规章制度的东西的……

但怎么说呢,如今就算苹果不喜欢它,也由不得了。就像墨菲定律那样,或许冥冥之中有些东西早已注定。多年以来苹果打下的每一张牌,无论有意为之还是出于意外,这些牌在今年这个 Agent 元年(希望这次是真的),成了一套很难不赢的牌组。

2023 年开始力推 AI PC 的 Windows 阵营,其实一直在追赶苹果在 2020 年 M1 推出时就已经定下来的架构优势。当然,25 年苹果在 AI 方面坏消息不断,这个差距是有追上的可能的。但苹果不会停下来等。

就在本周,苹果推出了 M5 Pro 和 M5 Max,芯片采用双芯融合架构 (Fusion Architecture),还在新闻稿中上点名 LM Studio 作为 LLM 性能基准。

苹果过去的硬件新品发布里,不怎么说「大语言模型」,特别是在端侧推理的语境下——现在不一样了。

说在最后

吹了苹果一整篇文章了,我们冷静一下,反问一下文章的标题:今天的 Mac,就是真正的 AI PC 吗?

爱范儿倒觉得,苹果做的还不够。在今天,我们还没有看到一款个人计算产品,可以称之为 AI PC,抑或真正「原生的 AI 硬件」。

还是回到 OpenClaw,从今天的端侧部署 agent 身上,真正的 AI PC 应该长什么样子,其实已经隐约可见。

梗图,AI 生成

梗图,AI 生成

在应用层面,面向人类的「应用」概念,可能会部分退化回并无图形界面的状态。毕竟人才需要图形界面,agent 不需要。而且你会发现,最近越来越多人开始习惯基于对话和命令行的互动方式了。

今天 agent 的尝鲜者们,去找工具和技能塞给 agent;未来,agent 会自己去公开代码库拉取新工具和插件来补强自己。

在系统层面,权限体系将为 agent 的工作原理重构,agent 能直接操控各种接口。在底层,会有一套模型的编排调度机制,根据任务随时切换。

本地推理和隐私云端推理也会形成完整、安全、隐私的闭环。数据无论传到哪里,都经过向量化、加密存储,即用即焚……

换句话说,真正意义上的 AI PC,应该是从底层开始,从设计之初,就把 AI 当作「一等公民」的系统。

梗图,AI 生成

梗图,AI 生成

按照这样的衡量标准,Mac 和 Windows 目前都处于过渡阶段。Mac 更接近,因为 Unix 环境、硬件统一、生态成熟,这些条件在 AI agent 的时代到来之前已经达成了。Windows 的历史包袱更重,改起来更难,还在补课。

但我们绕了一大圈,其实还没问到最本质的问题:真正的 AI PC,真的需要是一台「PC」吗?

如果换个思路,所有的 agent 部署和运行全都在云上;与用户有关的数据,也即「上下文」也在云端安全和隐私存储;人类只需要一个终端的设备作为「对话器」(communicator) ,以及传感器 (sensor),拍照和录音来上传所需要的数据给 agent,这台设备甚至不需要太多端侧算力。

Mac 是今天最好的 AI PC,但未来的「AI PC」,却可能更像……iPhone?

文|杜晨

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Solutions to Saturday Mac riddles 349

I hope you enjoyed Saturday’s Mac Riddles, episode 349. Here are my solutions to them.

1: A snack or bay for 8.

Click for a solution

byte

A snack (a bite to eat) or bay (a bight) for 8 (there are 8 bits in one byte).

2: Drill head in a horses’s mouth for 1.

Click for a solution

bit

Drill head (a bit) in a horses’s mouth (where a bit goes) for 1 (a single bit).

3: A quiet or pass for 4-64.

Click for a solution

word

A quiet (a quiet word) or pass (a password) for 4-64 (the Intel 4004 of 1971 had 4-bit words, and the ILLIAC IV of 1975 was the first with 64-bit words, now the standard in most modern processors).

The common factor

Click for a solution

They’re each fundamental data types in computing.

I look forward to your putting alternative cases.

Saturday Mac riddles 349

Here are this weekend’s Mac riddles to entertain you through family time, shopping and recreation.

1: A snack or bay for 8.

2: Drill head in a horses’s mouth for 1.

3: A quiet or pass for 4-64.

To help you cross-check your solutions, or confuse you further, there’s a common factor between them.

I’ll post my solutions first thing on Monday morning.

Please don’t post your solutions as comments here: it spoils it for others.

Solutions to Saturday Mac riddles 348

I hope you enjoyed Saturday’s Mac Riddles, episode 348. Here are my solutions to them.

1: The next real-estate catalogue went binary in 2002.

Click for a solution

Property list

The next (it originated in NeXTSTEP) real-estate (property) catalogue (a list) went binary in 2002 (it was available in binary format in Mac OS X 10.2 in 2002, and that’s now standard).

2: Punctuating a short pause to break data for spreadsheets and more.

Click for a solution

CSV

Punctuating a short pause (a comma) to break (separate) data (value) for spreadsheets and more (commonly used to move data between spreadsheets and more).

3: In a quest for a golden fleece, Douglas Crockford brought it from ECMAScript.

Click for a solution

JSON

In a quest for a golden fleece (the mythical Jason), Douglas Crockford (its inventor in 2000-01) brought it from ECMAScript (the official name of the standardised version of JavaScript, the origin of JSON, JavaScript Object Notation).

The common factor

Click for a solution

They’re all data exchange formats, specifically those used for serialisation.

I look forward to your putting alternative cases.

Saturday Mac riddles 348

Here are this weekend’s Mac riddles to entertain you through family time, shopping and recreation.

1: The next real-estate catalogue went binary in 2002.

2: Punctuating a short pause to break data for spreadsheets and more.

3: In a quest for a golden fleece, Douglas Crockford brought it from ECMAScript.

To help you cross-check your solutions, or confuse you further, there’s a common factor between them.

I’ll post my solutions first thing on Monday morning.

Please don’t post your solutions as comments here: it spoils it for others.

Solutions to Saturday Mac riddles 347

I hope you enjoyed Saturday’s Mac Riddles, episode 347. Here are my solutions to them.

1: Stop operating when the power goes off.

Click for a solution

Shut Down

Stop operating (shut down) when the power goes off (what happens).

2: A place out of the studio for network settings.

Click for a solution

Location

A place (a location) out of the studio (on location) for network settings (what this controls).

3: Tress for giving shelter can require password.

Click for a solution

Lock Screen

Tress (a lock of hair) for giving shelter (a screen) can require password (the lock screen can).

The common factor

Click for a solution

They’re all commands in the Apple  menu.

I look forward to your putting alternative cases.

Saturday Mac riddles 347

Here are this weekend’s Mac riddles to entertain you through family time, shopping and recreation.

1: Stop operating when the power goes off.

2: A place out of the studio for network settings.

3: Tress for giving shelter can require password.

To help you cross-check your solutions, or confuse you further, there’s a common factor between them.

I’ll post my solutions first thing on Monday morning.

Please don’t post your solutions as comments here: it spoils it for others.

Solutions to Saturday Mac riddles 346

I hope you enjoyed Saturday’s Mac Riddles, episode 346. Here are my solutions to them.

1: Shift for this fashion without extensions.

Click for a solution

Safe Mode

Shift (the key held on Intel Macs, or held in Recovery on Apple silicon Macs) for this fashion (mode) without extensions (it starts up with third-party extensions disabled).

2: V is long-winded with fast-scrolling text.

Click for a solution

Verbose Mode

V (the key held on Intel Macs, with Command, but requires an NVRAM setting on Apple silicon) is long-winded (verbose) with fast-scrolling text (what it does).

3: Unmarried person who’s logged in using S in the past.

Click for a solution

Single User Mode

Unmarried (single) person who’s logged in (the user) using S (the startup key, with Command) in the past (not available on Apple silicon Macs, and probably no longer on Intel either now).

The common factor

Click for a solution

They’re startup modes.

I look forward to your putting alternative cases.

Saturday Mac riddles 346

Here are this weekend’s Mac riddles to entertain you through family time, shopping and recreation.

1: Shift for this fashion without extensions.

2: V is long-winded with fast-scrolling text.

3: Unmarried person who’s logged in using S in the past.

To help you cross-check your solutions, or confuse you further, there’s a common factor between them.

I’ll post my solutions first thing on Monday morning.

Please don’t post your solutions as comments here: it spoils it for others.

Solutions to Saturday Mac riddles 345

I hope you enjoyed Saturday’s Mac Riddles, episode 345. Here are my solutions to them.

1: No amateur at inference is Apple’s DAW.

Click for a solution

Logic Pro

No amateur (a pro) at inference (logic) is Apple’s DAW (it’s Apple’s Digital Audio Workstation).

2: Air pump squeezes and encodes your media.

Click for a solution

Compressor

Air pump (compressor) squeezes and encodes your media (what it does).

3: Principal performance platform for 1 to go live.

Click for a solution

MainStage

Principal (main) performance platform (a stage) for 1 to go live (it’s the live performance companion to Logic Pro).

The common factor

Click for a solution

They’re among the apps bundled in Apple Creator Studio.

I look forward to your putting alternative cases.

Saturday Mac riddles 345

Here are this weekend’s Mac riddles to entertain you through family time, shopping and recreation.

1: No amateur at inference is Apple’s DAW.

2: Air pump squeezes and encodes your media.

3: Principal performance platform for 1 to go live.

To help you cross-check your solutions, or confuse you further, there’s a common factor between them.

I’ll post my solutions first thing on Monday morning.

Please don’t post your solutions as comments here: it spoils it for others.

Solutions to Saturday Mac riddles 344

I hope you enjoyed Saturday’s Mac Riddles, episode 344. Here are my solutions to them.

1: Iron, copper, mercury, shaders.

Click for a solution

Metal

Iron, copper, mercury, (all three are metals) shaders (it’s a low-level 3D graphics, shader and compute API for Apple silicon GPUs).

2: Silica successor to 3 went from 2D to extreme.

Click for a solution

Quartz

Silica (the mineral quartz) successor to 3 (it progressively replaced QuickDraw in Mac OS X) went from 2D (Quartz 2D) to extreme (Quartz Extreme, with hardware acceleration).

3: Classic climbing extender replaced by 2 and all but vanished now.

Click for a solution

QuickDraw

Classic (it was the graphics library and API in Classic Mac OS, and initially written by Bill Atkinson and Andy Hertzfeld) climbing extender (a quickdraw) replaced by 2 and all but vanished now (in Mac OS X, Quartz 2D has replaced it, with barely a trace left in modern macOS).

The common factor

Click for a solution

They have each been key parts of the Mac’s graphics system.

I look forward to your putting alternative cases.

Saturday Mac riddles 344

Here are this weekend’s Mac riddles to entertain you through family time, shopping and recreation.

1: Iron, copper, mercury, shaders.

2: Silica successor to 3 went from 2D to extreme.

3: Classic climbing extender replaced by 2 and all but vanished now.

To help you cross-check your solutions, or confuse you further, there’s a common factor between them.

I’ll post my solutions first thing on Monday morning.

Please don’t post your solutions as comments here: it spoils it for others.

Solutions to Saturday Mac riddles 343

I hope you enjoyed Saturday’s Mac Riddles, episode 343. Here are my solutions to them.

1: In between lights and action, or obscura for a bit of privacy.

Click for a solution

Camera

In between lights and action (lights, camera, action), or obscura (a camera obscura) for a bit of privacy (what its control provides).

2: Make well-defined using 1 perhaps, with do not disturb.

Click for a solution

Focus

Make well-defined (to focus) using 1 perhaps (a camera), with do not disturb (one of the standard focus modes).

3: Nearby interconnections could be blocked if you don’t agree.

Click for a solution

Local Network

Nearby (local) interconnections (network) could be blocked if you don’t agree (if you don’t give consent when prompted to allow it).

The common factor

Click for a solution

They are each privacy categories controlled in Privacy & Security settings in macOS Sequoia and Tahoe.

I look forward to your putting alternative cases.

Saturday Mac riddles 343

Here are this weekend’s Mac riddles to entertain you through family time, shopping and recreation.

1: In between lights and action, or obscura for a bit of privacy.

2: Make well-defined using 1 perhaps, with do not disturb.

3: Nearby interconnections could be blocked if you don’t agree.

To help you cross-check your solutions, or confuse you further, there’s a common factor between them.

I’ll post my solutions first thing on Monday morning.

Please don’t post your solutions as comments here: it spoils it for others.

iPhone 修改 iOS 通话录音提示音指南

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

iOS 26 中,Apple 终于引入了原生通话录音功能。出于隐私合规考虑,系统会在录音开始时强制播放 “This call is being recorded” 的语音提示。对于希望静默录音或自定义提示音的用户,目前唯一的解决方案是利用沙盒逃逸漏洞。

macOS

https://github.com/34306/bl_sbx

Windows

Use the bl_sbx exploit to hide the call-recording notification sound on iOS – YangJiiii/Disable-Call-Recording-BookRestore-

该方案并非传统的“越狱”,而是一种沙盒逃逸(Sandbox Escape)技术。它利用了 iOS 系统中两个守护进程之间的信任机制缺陷,实现对受限文件系统的写入。

在操作前,请务必备份数据,避免风险。

iPhone 修改/去除 iOS 通话录音提示音

由于目前自动化工具(如 Misaka26)尚未完全适配,使用 Python 脚本进行手动替换是较为稳妥的方式。

你需要一台电脑,并配置好 Python 3 环境。

你需要准备一个用于替换系统原声的音频文件。

iPhone 连接至电脑,并确保已点击“信任此电脑”。

操作完成后,请按照以下步骤验证是否成功:

不仅仅是编程,使用 Gemini CLI 日常指南!

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

前几天最近随着 Claude Code 这个命令行 AI 代码工具的火爆,谷歌也耐不住寂寞推出了自己的同类产品 Gemini CLI,而且完全免费,非常顶。

不仅仅是编程,使用 Gemini CLI 日常指南!

下面会教你用 Gemini CLI 实现哪些能力:

首先他们是没有界面的,所有的操作都是在终端以命令行的方式展示。

然后就是也是 Agents 可以自动执行任务处理本地文件,同时内置了非常多的工具,比如谷歌搜索、阅读文件、查找文件、搜索文字、写入文件、保存记忆等,你输入 /tools 然后回车就可以让他列出目前支持的工具。

另外 Gemini CLI 也是支持 MCP 的,你可以安装其他的 MCP 工具帮助模型扩充上下文。

很多朋友说命令行是不是很复杂啊,我不会编程是不是会很难用。

其实并没有,如果你的网络环境正常,能够正常登录 Gemini CLI 的话,跟使用 Cursor 没有本质区别。

因为核心交互的时候还是主要为提示词输入框,命令行又不用你写,Gemini 写就行。

从这里开始我所有的演示都基于 Mac OS 的自带终端进行,Windows 大部分操作都是通用的,但是可能出问题概率比 Mac 复杂。

首先要做的第一步就是进入到我们的启动台,搜索终端两个字,搜到之后打开。

这时候你就看到一个空白界面里面写了些你看不懂的字,不要担心。

这里我建议我们想好要进行的任务之后,新建一个文件夹把需要的任务素材扔进去,然后按住 option 按键鼠标右键选择“将 XXXX 文件夹拷贝为路径名称”,这时候你就快速获得了这个文件夹的路径。

然后我们回到我们的终端窗口,输入 cd + 空格 + 你刚才复制的路径,接下来你终端的所有操作都只会影响这个文件夹的内容,不用担心把电脑搞坏。

到这一步我们终于开始安装 Gemini CLI 了,非常简单,你只需要输入下面的内容然后回车就行。

安装成功你就会看到这个界面,应该会先让你选择命令行的颜色主题,然后让你选择登录方式。

这里需要注意:终端的操作大部分时间需要用上下左右方向键来操作选项,选中之后按回车确认。

你只需要选择一个自己喜欢的主题之后,选择正常的谷歌账号登录,在拉起网页登录后关掉就行。

我这个这里已经登录了,所以没有这些选项,然后你就能看到提示词输入框了。

恭喜你到这里,你已经完成了 Gemini 的安装。

由于用的 NPX 的安装方式,所以你以后每次关掉终端重新使用 Gemini CLI 的时候都需要输入开始的那个命令,不过不用登录了,直接就能用。

另一种方法是输入下面这个命令,但是对于不会编程的人来说很麻烦,启动就是少输入点东西,输入 Gemini 就能启动。

最后由于命令行本身都是英文的,可能很多人会望而却步,这个时候你可以装个 Bob 这个翻译软件,支持划词翻译,看不懂的选项直接选中划词翻译就行。

装好之后我们可以来点基础用法了。

由于 Gemini 可以看到你的文件并且操作,而且它还有生成能力,本身模型还是多模态的,所以即使只用本身的工具也可以有很多用法。

首先是 Gemini CLI 本身支持谷歌搜索,你可以让他搜索指定内容给你写成文档,也可以对你本身的文档进行编辑。

当然搜索工具经常会限额,这个有点恶心,比如让他搜索歸藏的信息并且整理一个介绍文档。

你也可以让他分析你保存在本地的文章之后进行改写,生成新的文章。

比如我这里就让他把 Karpathy 的软件 3.0 文章改写成适合发布的博客文章,同时生成对应的推特发布版本,也可以对于会议总结之类的文档进行分析和处理。

记得我之前写的用 Curosr 这种 IDE 帮助分析 Obsidian ,把 Obsidian 当做本地知识库的方法吗,Gemini CLI 也可以,甚至更加强大。

你可以找到你的 Obsidian 文件夹打开之后启动 Gemini CLI,然后让 Gemini CLI 查找相关的内容。

比如我这里就让他检索我所有的剪藏文件,找到 MCP 相关的文章,然后给我生成一个带反向链接的《MCP 剪藏内容索引》文档,可以看到他完成的很好。

每个无序列表都有文件标题以及文章的总结,最后还有链接可以直达那个文章。

提到反向链接了,就不得不提 Obsidian 的一个知识图谱的功能,它可以把所有有反向链接的相关文档都链接起来,形成你自己的网状笔记网络,方便你学习和回顾。

但是反向链接需要你自己手动加,大部分人都没这个毅力,现在有了 Gemini CLI 问题解决了,可以让他帮你给你文件夹中的相关文档加反向链接。

不过这个需要的时间比较长,如果内容多的话可能得等一段时间。

由于本身 Gemini CLI 是多模态的的,所以你的图片也可以让他帮忙处理。

比如我打开了一个全是图片的文件夹,里面的图片名字乱七八糟的,这时候就可以让他分析图片内容之后根据图片内容给图片重新命名。

再重新命名之后我们也不能浪费他分析的图片内容。

我们都知道在训练图像模型或者 Lora 的时候需要对图像进行标注,大部分训练工具都是把标注放在一个跟图片命名一样的文本文件里,现在我们就可以让 Gemini CLI 来做这件事了。

可以看到他执行的非常完美,以往这些你还得找对应的工具,而且不好自定义要求,现在提示词就行。

Gemini CLI 除了可以读取文件和修改文件外也是可以控制系统设置的。

比如我们就可以写好自己日常对于软件和系统设置在不同工作时间的喜好,需要的时候一键完成所有操作的更改。

这里我就让他给我关掉浏览器,然后打开 Obsidian,降低系统音量,直接进入工作模式。

更进一步让他把操作写成脚本,之后你就可以直接双击脚本完成系统设置了。

我们肯定也有很多时候桌面或者文件没有整理乱七八糟。

这个时候就可以让 Gemini CLI 新建文件夹进行分类和整理。

但是这里得注意,不要让他整理过大的过于重要的文件夹,不然误删了就痛苦了。

这里我就让他把刚才的图像和标注文件新建了两个文件夹分别整理了。

上面都是些基本用法,你最近可能也看到了一些。

但是我发现结合一些本地软件,Gemini CLI 能实现对各种文件更加高级的处理,比如视频转 gif、youtube 视频下载、加水印、文档格式转换等。

这些就非常牛皮了,而且我们日常内容创作大部分都非常需要。

前面我们有了文档了,但是很多时候演示的时候总不能真给人看 Markdown 文档吧,能不能生成 PPT 呢?

可以的,朋友,必须可以,比如我这里就把前面我那个 MCP 索引文档的内容直接转换为 PPT 了。

这个依赖一个叫 Slidev 的项目,它可以用类似 Markdown 文档的格式将内容变成带有丰富样式的 PPT。

你不需要知道这个项目的细节,直接用我下面的提示词生成文件之后,复制文件到这个页面(https://stackblitz.com/github/slidevjs/new?file=slides.md)预览就行。

上面的 Slidev 不需要本地安装直接预览就行,接下来我们介绍一些需要本地安装的项目,这些本地的软件,非常强大,但是由于本身他们是没有界面的,阻碍的很多用户使用。

但是有了 Gemini 之后一切都解决了,提示词可以直接转换为驱动他们的命令行,也可以用提示词直接安装他们,你直接用就行。

首先先介绍一下 ffmpeg 这个项目,给予他你可以实现非常强的视频编辑能力,理论上剪映之类的视频编辑软件都是基于这个完成的。

你可以对本地的视频进行拼接、剪辑、增加文字、转换格式、转换分辨率、增加音乐,基本上你能想到的视频编辑能力他都能做到。

首先我们需要大概你需要处理视频的的文件夹,然后启动 Gemini CLI 第一个命令是让他安装 Homebrew。

然后安装完成后,让他用 Homebrew 帮你安装 ffmpeg。

看到没,跟网页哪些乱七八糟的要求都没关系,你只需要说两句话,就全部安装了。

然后我们就可以爽用了,先给我们指定的视频加个水印试试。

可以看到新的视频右上角果然有了一个水印,这种言出法随的感觉谁不喜欢,你不需要了解原理,你就只需要知道所有的视频编辑他都能帮你搞定。

然后我想要给视频配乐也可以,你只需要告诉他视频文件和音乐文件的名字就行,我甚至让他给音乐加上了淡入和淡出。

他先是获取了一下视频的时长,然后就开始操作了,然后搞定了,非常完美,严丝合缝,淡入淡出也加上了,可以看剪映界面预览的频谱。

我们很多时候需要把视频转换为序列帧,然后拿其中一帧进行处理,或者处理所有的帧,以前你是不是还得到处找这种工具,而且转换效果不一定好。

Gemini CLI 一句话就能搞定,处理的又快又好,而且节省了用网页工具上传下载的时间。

另一个常见的任务就是视频转 gif,尤其公众号有 10 个视频的限制,很多时候迫不得已得转成 gif 发布。

Gemini 捕捉到了高品质这个关键词还制作了调色板保证颜色还原度,最后处理的非常完美。

像 ffmpeg 这种宝藏项目还有很多,比如 yt-dlp 这个项目跟 ffmpeg 配合几乎可以下载你能想到的所有视频平台的视频。

我们还是可以让 Gemini CLI 帮我们安装 yt-dlp 这个项目就行。

然后直接提供视频链接他就会帮你下载,甚至可以批量下载多个视频或者一起连封面和视频一起下载,再也不需要忍受那些工具的垃圾网速了。

处理视频我们有 ffmpeg 这种项目,当然图片也有。

ImageMagick 是一个极其强大的工具集,你可以用它来转换格式、缩放、裁剪、旋转、添加滤镜、组合图片等等。

依然是老一套,先让 Gemini 帮我们安装

先来一个常见任务,我们设计师做外包经常用,在没结款之前给甲方低分辨率和带水印的图片,现在就可以直接批量完成。

这里我让他把所有图片宽边调整为 800 PX,然后统一加上带“内部资料”文字的水印。

中文的水印有些问题,后来改成英文就 OK 了,而且出错之后他自己开始用多模态能力检查修改后的图像了,发现 10% 不透明度的文字不明显,又自己重新改了一下,太聪明了。

然后再来一个常见的图像拼接需求,这种在媒体上发消息的时候经常需要,尤其是推特。

搞得不错,这几张图比例不同,所以没有对齐,可以在命令上加上统一比例这种要求就行。

文档格式转换也是常见的需求,相当多的公司工作文档还是 word,很多时候我发过去 .md 文件那边都不知道怎么办。

首先还是让 Gemini CLI 帮我们安装。

这个时候我们就可以利用 Pandoc 这个项目进行各种文档格式之间的互相转换,当然批量转换也是可以的。

可以看到转的很好,Markdown 的一些基本格式也都迁移了,不管是加粗还是无序列表有序列表。

好了教程到这里就结束了。

你可以用 Gemini CLI 控制这些已经非常成熟的命令行项目,基本上你所有的需求都能找到对应的项目。

不是只有 MCP 才能做 Agent,这些传统工具在有了 LLM 加持之后会更加强大。

看到这里,你可能会突然意识到:原来那些让我们望而却步的专业工具,其实一直都在那里等着我们。

史蒂夫·乔布斯说过的一句话:”技术应该是隐形的。” 今天的 Gemini CLI,正是让那些强大的命令行工具变得”隐形”——你不需要理解它们的工作原理,只需要说出你的需求。

更重要的是,这种改变不仅仅是效率的提升,而是创作门槛的彻底消失。

所以,如果你还在犹豫要不要试试 Gemini CLI,我想说:别让”我不会编程”成为你探索新世界的借口。 因为在这个新世界里,你需要的不是编程能力,而是想象力。

那些曾经高高在上的专业工具,现在都在静静等待着你的一句话。而你要做的,就是勇敢地说出你的需求。

因为最好的工具,是让你忘记它是工具的工具。

FLUX Kontext – 黑森林图像生成式流匹配模型发布实测

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

长时间没消息的黑森林工作室憋了个大的,发布了生成式流匹配模型 Kontext。

这套模型最强的地方就是可以对进行编辑,但是不会影响没有编辑的地方。

而且还支持多张参考生成新的图像,依然能保持需要参考内容的高度一致性。

直接替代了很多原来需要 PS (美图秀秀、Photoshop 等)才能做的需求,原来需要吭哧瘪肚 P 很久的图,现在说句话就行。

我这几天也探索了很多这个模型的用法,这次不会以测试的形式展示了,全是具体用法,让你告别 P 图这个复杂难搞的操作,另外后面也会介绍所有可以使用这个模型的渠道。

🎨 先介绍一下我探索出来的各种用法:

首先是非常简单的图片修改需求, Kontext 支持通过简单的提示词对图片进行非常精细的修改,而且不会影响未修改的区域。

我们想要给自己的日常照片加一些配饰或者改一下照片的姿势都没有问题,可以看到人物的面部一致性都没有问题,而且修改的地方跟环境也融合的很好。

⚠️注意: Kontext 只支持英文提示词,我这里放中文是方便理解,你可以用 或者翻译软件把提示翻译了使用

FLUX Kontext – 黑森林图像生成式流匹配模型发布实测

当然 FLUX Kontext 也可以对照片进行大幅度的更改,比如你想要给照片换个背景或者给你自己换一身应景的衣服,再或者在前面的基础上换个姿势。

可以看到我把场景变成了酒吧,整个光线氛围也同步发生了变化,之后又尝试了不同的拍摄角度和姿势,也没有问题。

这种修改需要注意的是优势 Kontext 的分辨率是固定的,画全身照的时候面部有可能会变糊,因为像素区域太小的原因。

🎉 从左到右的提示词分别是:

站在酒吧吧台前

低角度侧脸,白衬衫加领带,吧台灯带背光

左侧半身特写,黑色皮夹克,霓虹灯映衬

全身广角,红色鸡尾酒裙,手扶吧椅

背后平视,帽饰西装,吧台酒架虚化

之前很火给老照片上色和修复也不是问题。

比如我下面的测试提示词就只有给照片上色,Kontext 处理的很好,而且整个色彩非常的高级和自然,明暗关系处理的很好。

想要做风格化?也没问题,只需要一句“将图片变成真实照片”的提示词就行,所有的细节都还原的很好。

当然可能更多人的需求是把自己的照片变成风格化的图片。

比如我们可以输入“把照片转换为吉卜力风格”,Kontext 也处理的很好而且人物的主要特征和电车的特征都还原了,不存在 4o 那种过度重绘和修改细节的问题。

而且这玩意还能修改图片上的文字,最屌的是不会影响原来的其他内容,而且修改的文字字体依然可以保持原来的风格。

你只需要输入“将图片中的 XXX 文字修改为 XXX”就行,比如我这里就把主要的标题改为了 Guizang,字体风格都是一致的,而且他还知道不需要换行。

针对海报复杂一些的修改也是可以的,你可以把一张找到的现成海报改掉文字和内容变成你自己的。

比如这里我就把 Oppo 的倒计时海报改成了小米的,而且连背景色都换了,Kontext 很好的处理了玻璃散射光的那部分。

这里唯一可惜的就是 FLUX Kontext 不支持生成中文,所以你只能修改图片中的英文,但是如果你不修改里面的中文,文字是不受影响的,这比其他图像模型好多了。

Change “Oppo” to “Xiaomi”, and set the image background color to orange.

这个是 Padphone 老师的,FLUX Kontext 还是目前最强的去水印模型,可以去掉各种复杂恶心的水印。

比如这里我找了一个 Unsplash 带水印的图片,这种半透明的水印会和图片叠加混合非常难彻底去掉,你只需要跟 Kontext 说“去掉图片的水印”,接下来奇迹就会发生,一点水印都没了。

大家最近应该都被一些 AI 图像模型生成图片默认加水印搞得不堪其扰把,即使开了会员依然有水印,这时候就可以让 Kontext 帮你解决了。

我们也可以用 Kontext 给各种平面的文字或者图案添加上材质和背景,替代原来需要 3D 渲染才能完成的需求,非常适合做品牌设计和平面设计的朋友。

比如这里我就给这个 Logo 变成了金属材质,还给图片加上了草地的背景,可以看到 Kontext 把 Logo 的一些笔画细节还原的非常好。

🎹

Transform the logo text into a shimmering metallic material, floating above a grassy field filled with flowers.

Kontext 还可以在你浏览景区的时候帮你把各种无关的其他游客搞掉,再也不用担心自己好不容易拍了账号照片,结果被误入的其他人毁掉了。

可以看到 Kontext 可以很清楚的识别画面的主体不会连你想拍的人也一起去掉,当然你如果就是想拍风景也可以,让他去掉画面上所有的人就行。

去掉照片中跟主体无关的其他行人

去掉照片中所有的人

前几天收到了可灵的一周年礼盒,看到 Padphone 老师做的展示图手痒,就想看看能不能用 Kontext 做出来,没想到真可以还做的很好。

非常离谱是他连我箱子放地上的灰尘都还原了,下次你要是想要生成类似图片的话记得擦一下产品再拍,哈哈。

💡

一个黑色箱子放在一张舒适、有褶皱的白色毯子中央,毯子的织物纹理清晰可见。瓶子周围自然地摆放着一些精致的白色小苍兰,几片花瓣零星散落。阳光柔和地洒下,投下柔和、弥散的阴影,营造出一种温暖而宁静的氛围。非常逼真的特写场景,光线是柔和的自然日光。

很多人说箱子是立方体太好生成了,整点复杂的,那我们拿可灵礼盒里的工服试试。

显然也没啥问题,文字有问题是因为生成图片的分辨率低,文字又小,导致的模糊,就跟我们拍照的时候离得远的文字也会模糊一样。

一件黑色 T 恤水平漂浮于空中,正从天花板向地板降落,看起来毫无重量。画面中无人,充满超现实感且不受重力影响。光线柔和,风格简约而优雅。背景为灰色。

很多朋友说我想要更复杂的商品展示,指定多张图片的模特和商品然后合成到一个图片中行不行,也是可以的,多图参考有点复杂我后面会讲。

可以看到第一张图商品细节、模特服装、配饰、发型以及背景都没问题,这个惊到我了。

第二张图我让模特穿上了可灵的工服,这次连衣服上的小字都还原了,可以说是完美还原,这个你让我在电商平台刷到,加上电商平台的压缩,我看不出来说实话。

这里有个小FLUX Kontext 手持产品的时候,产品一般会比正常的比例偏大,这个时候提示词描述一下产品大小就可以解决问题,比如手持易拉罐变为手持小号易拉罐。

女孩拿着化妆品瓶子

女孩穿着这件 T 恤

最后压轴的是我们日常修图最常见的需求,大家都想把自己变得好看点,面部的美颜现在都发展的比较好了。

但是身体部位很多还是靠用美图或者用醒图一点点的 P,自带的一键优化非常的生硬死板,不够自然。

昨天试了一下给男生增肌, FLUX Kontext 可以很好的理解需求,图片任何部分都没变化,只有胳膊的肌肉变大了,这要是不说谁知道我 P 了,哈哈。

🍞

男性胳膊的肌肉变大,面部没有变化。

那变瘦点是不是也可以呢,可以的,甚至都能瘦脸,瘦的很自然,不会再让人从扭曲的门把手或者瓷砖看到自己 P 图了,突然想到这下卖减肥药和健身课的是不是又爽了,一键搞定素材。

📍

让女性的胳膊变瘦,肚子变得平坦,去掉面部赘肉

如果你就是单纯的想要尝试一下这个模型 不想涉及到复杂操作的话我推荐两个渠道:

FLUX 官方的 Palyground (https://playground.bfl.ai/image/edit)和 Krea (https://www.krea.ai/edit)其中 FLUX 的 Palyground 还送了 200 积分,生成一张图只消耗 4 积分,够你玩很久了。

这两个地方的使用都很简单上传图片,输入提示词然后等待就行。

其中 Krea 选择 FLUX Kontext 的 Pro 模型就行 Max 模型在单图修改场景反而效果不好。

FLUX 的 Palyground 的话生成的时候记得把在输入框右边三个点那里把每次生成的张数改成 1,不然一次生成 4 张有点浪费。

如果你想要开发产品或者有 Comfyui 的基础想要玩一下多图参考,这里我推荐 Fal 的渠道(https://fal.ai/models/fal-ai/flux-pro/kontext/max/multi)。

Fal 的测试页面可以直接使用多图参考,上传图片输入提示词就行,如果你不想用多图了,可以在页面上方红框那里选择其他 Pro 模型尝试单图编辑。

另外 Fal 也有他们的 Comfyui 插件,只需要在 Comfyui manager 里面 ComfyUI-fal-API 然后安装就行。

安装之后在插件目录,找到 config.ini 文件,把里面 这段话改成你的 API Key 就行。

工作流的搭建很简单找到 FLUX Pro Kontext Multi 这个节点链接多张图,之后输入提示词就行,另外由于这个是 API 节点不需要本地算力,所以 电脑也可以玩。

在涉及到针对人体的精细修改比如变瘦、变老变年轻需要多抽卡,不一定一次能成功。

多图参考的时候人脸的 ID 保持会下降,保持 ID 最好的方式是让 FLUX 不要修改面部。

FLUX Kontext 是可以识别图片里面的涂鸦标记的意思的。

你可以将你想要修改的地方圈起来,生成的时候他不会把标记生成进去,这样就可以实现精确修改,比如这个来自 @fofrAI 的案例,没有提示词就实现了换脸。

好了今天的教程到这里就结束了。

FLUX Kontext 除了强大能力之外的另一个优势是他非常便宜,编辑一张图只需要 0.08 美元也就是 5 毛钱人民币,相较于 -4o 一张图 1.4 人民币的价格可以说非常便宜了。

另外他们后面还会一个 Dev 的 Kontext 模型这个会让成本进一步降低,太期待了。

❌