大模型 token 太贵了?苹果直接给开发者费用「全免」
去年 WWDC 上,被苹果过度宣传又放了鸽子的苹果智能 (Apple Intelligence),余味尚存。
就在2025 年 6 月 10 日凌晨,WWDC25 的主演讲(录播)也刚刚结束,与 AI 有关的部分仍然令人时不时感叹:「就这」。
今年苹果在 AI 上宣布的诸多所谓新功能,例如实时翻译、快捷指令等,并无太多革命性;至于视觉智能 (visual intelligence),不仅功能落后 Google Lens 六七年,交互体验上也远未达到一众 Android 友商的内置 AI/Agent 产品在 2025 上半年水平。
但看完全场我可以断言的是:唯有一条关于苹果智能的消息,将带来深远的影响——无论对于普通用户,还是开发者而言。
它就是「基础模型框架」(Foundation Models Framwork),苹果为开发者提供的端侧 AI 模型接入框架。使用它,苹果开发者将可以轻松地为自己的 app 接入端侧大语言模型,且无需支付 token 成本。
这意味着开发者能够无负担为用户提供基于 LLM 的能力和服务,进行纯端侧的推理,无需担心调用云端 LLM API 产生的 token 费用,自然也不必将成本转嫁给用户。
开发者能够更体面地维持自己选择的收费模式,用户也因此获益。
苹果智能,纯端侧
去年 WWDC,苹果宣布了以「苹果智能」为名的一系列 AI 产品、功能和可以提供给开发者的技术能力。我们已知这些发布的东西里面大部分都跳票了,甚至完全就是「雾件」(vaporware,指宣布了但严重跳票的软件)。
这的确影响了外界对苹果在 AI 上到底有几成功力的判断。
但苹果仍然坐拥全球智能手机第一出货量。即便在超大参数量的云端 LLM 上动作迟缓,这家公司对于人们如何使用 AI,以及开发者如何在项目中应用 AI 技术,仍然有着巨大的话语权——这是客观的、毫无疑问的。
而在今年 WWDC25 上,我看到了苹果正在行使这种话语权。它告诉开发者:
你想给用户提供 AI 能力?没问题,你可以完全在设备本地用苹果提供的端侧模型进行 LLM 推理,不需要联网,既保护了用户隐私,也不产生云端费用。
「基础模型框架」就是苹果交到开发者手上的利器。
基础模型是苹果智能的核心,去年仅用于苹果自家产品和功能使用;而从今天开始,苹果把基础模型开放给开发者,任何第三方应用都可以直接利用这些端侧的基础模型,来实现基于 AI 的功能,为用户带来崭新的体验。
比如现场展示的「Kahoot!」,一个教育类产品,可以用端侧模型生成针对用户定制化的一套题目;
又或者Alltrails,一款海外徒步玩家必备的产品,即使在深山险境完全无网的情景下,也能为用户提供必要的协助。
那么,具体都有哪些基础模型?
- 去年 WWDC 上苹果发布的一款具有 30 亿参数量的端侧语言模型,以及其后续更新版
- 面向端侧/苹果定制的 ChatGPT 模型。
——已知的至少有这两大类(具体的模型型号未知,苹果目前还没有具体对非开发者提供更具体信息)。目前「基础模型框架」原生支持 Swift(其它语言情况未知),开发者只需要几行代码就可以接入,支持内容生成、工具调用等多种 LLM 能力。
但现如今开发者手上的选择太多了:DeepSeek、Claude、O 系列、Gemini……以及它们的各种官方型号和面向具体场景的再训练版,凭什么跟苹果的基础模型玩呢?
苹果给出的价值主张非常直接。
简单来说,使用这些 LLM 是有直接经济成本的,用户量和活跃度/粘性越大,调用云端 API、生成 token 的成本越高。
面对这种成本,明星创业公司可以通过风投融资,大厂可以使用现金储备来补贴,结果是现如今的用户早已习惯免费的 LLM 产品了。
但对于中小开发者,特别是独立开发者,这就成了一个非常实际的问题了:想象一下用户刚刚下载你的 app,想要浅尝你的 AI 功能,一上来就看到「本月还有 3 次免费生成额度」……而如果你的竞争对手里正好有大厂,你怎么和它们竞争?
现在苹果带着「基础模型框架」来到你面前,免费开放端侧模型给你,让你调用 iPhone/iPad/Mac 的本地算力,快速、高效、且隐私地进行 LLM 推理,解决用户的需求。
你不再为了支付云端 API 费用而资金链紧张;不再为了负担 token 成本而在定价策略上「动作变形」,可以坚定且体面地选择你喜欢的、让用户也感到舒服的商业模式——如果你是个中小或独立开发者,这是不是听起来还挺美好的?
这是一种开发者和用户双赢的局面——当然,加上苹果,那就是三赢。
「虽迟但到」,AI 版
知名开发者、苹果分析师 John Gruber 前几天写了一篇很有意思的博客文章。
他指出苹果总是在一些关键产品/技术上晚于竞争对手,这也是大家都知道的事情;但你必须承认,在公司存续的历史上,苹果确实也没错过哪次重大的、范式级的科技革命。
比如苹果的 Safari 浏览器,以及浏览器内核 WebKit,推出时间是 2003 年初,比曾经轰动世界,甚至敢叫嚣让微软生意做不下去的网景浏览器足足晚了 8 年,甚至比 「.com 泡沫」破裂都晚了 3 年——但晚来总比不来好,更别提在 Safari 之前 Mac 平台上没有一个好用的浏览器。
如果套用这个逻辑,被迫卷入 AI 时代的苹果,需要一套在今天能够和 Safari/WebKit 地位对等的新产品技术组合。
好消息是:正如本文开头提到,iPhone 的出货量和市占率优势实在太大了。无论外界怎样嘲讽苹果在 AI 时代落后,也都无法否认一个现实:
在可预见的相当长一段时间里,苹果仍然有足够的话语权,能够定义用户怎样(在 iPhone/iPad/mac/Vision 产品上)使用 AI,而不是让 AI 来定义自己的产品应该长什么样。
你能够看到 OpenAI 收购了前苹果设计领袖 Jony Ive 的公司,试图开发一款「完全 AI 原生」的新形态设备;但你也会看到 OpenAI 和苹果达成协议,成为苹果生态里唯一的「全球只是合作伙伴」——也即唯一的外部基础模型供应商。
苹果认为自己落后 OpenAI 了吗?没有。不然苹果应该给 OpenAI 交钱。正相反,根据 The Information 报道,OpenAI 会像老前辈 Google 作为 iOS 默认搜索引擎那样,为了能够进入苹果生态成为默认基础模型,而给苹果交「过路费」。
如果 ChatGPT 用户订阅月费是 20 美元的话,苹果抽成有可能高达30%。而且这笔收入几乎等于纯利润。
你看,苹果向 OpenAI 收钱,然后变相补贴开发者以及终端用户——是不是还挺意外的?
2009 年第一财季的苹果财报会上,当时因为乔布斯病重而第二次担任苹果代理 CEO 的库克,说过几段话,后来被称为「库克信条」。其中有一段是这么说的:
我们相信,我们需要拥有和控制我们所生产产品背后的主要技术,并且只参与我们能够做出重大贡献的市场。
再结合 John Gruber 的分析,我把这个思路收敛到一句话:
苹果应该造出一款设备,一种运行 AI 产品/服务/LLM 的载体,然后用这个设备/载体去定义人们怎样使用 AI,而不是让 AI 反过来定义自己该如何开发产品。
在 WWDC25 之后,外界在观察和评论苹果 AI 工作的时候,或许可以采用这种新视角。
苹果智能,微更新
最后我们来看一下 WWDC25 的其他 AI 新发布内容。
实时翻译
苹果终于在 iOS/iPadOS/macOS 内集成了一套达到了业界(两三年前)基准水平的实时翻译功能。
目前实时翻译支持信息、电话和 FaceTime 三个应用。所有翻译可以完全在端侧完成。
- 在发信息的时候,用户可以用自己的语言输入,在 UI 上实时看到翻译后的外语文本流式输出,然后手动点击发送;同理,对方发来的信息,在用户本地的 UI 上也可以自动翻译。
- 在电话中,先说出原文,然后双方都能听到翻译后的语音
- FaceTime 场景下,一方说话,另一方能够看到翻译后的字幕
Genmoji 和 Image Playground
Genmoji:用户现在可以用 LLM 提示命令的方式,来生成带有更多新元素的 Genmoji 头像。比如:把树懒和灯泡合在一起
在 Image Playground 里,用户可以调用 ChatGPT 的多模态模型生成不同风格或者随机风格的照片——你可以理解为这是一个苹果官方的 OpenAI 4o 套壳。
视觉智能 Visual Intelligence
视觉智能之前已经支持摄像头拍照搜索。在今年 WWDC 上又获得了一个令人无语的更新:支持截图搜索/后续交互了。
比如截图中的物品可以直接调用任意 App Store 应用进行搜索,或者对截图中的日期时间地点进行读取,将其添加到日历项、备忘录等。
(现在视觉智能终于追上了 Google 图片搜索以及 Lens 在 6、7 年前已经实现的功能。)
但主要无语的地方在于交互方式太过于古老:截图,而不是像 2025 上半年的 Android 手机那样,不用截图就能直接对用户屏幕上的内容进行读取和做出反应,甚至具备 agent 能力可以直接代替用户操控屏幕。
当然我的理解是苹果这么做可能有两方面原因:1)能力确实不如 Google/Android 厂商;2)出于隐私方面顾虑,需要用户手动截图、点击视觉智能识别按钮.
快捷方式
快捷方式 (Shortcuts) 支持苹果智能了,开发者可以对自己的 app 进行一些修改和适配,让用户可以快速生成针对 app 的快捷方式。我不知道多少人会用快捷方式,全世界应该有几十个吧。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。