Normal view
对 ai(llm)的一点疑惑
很聪明,推理能力很强,这没得说。
但是有一个现象非常奇怪,就是本应该做得非常好的,一些机械记忆的简单问题,我发现 ai ,尤其是 Gemini ,做得非常差。
比如:
- 给出的 github 库的链接,90%是不可链接的;
- 给出的论文标题,80%是不存在的;给出的 DOI, 90% 是其他文章的;
- 给出的 url ,大多数不可访问。
好像是幻想出来的内容一样。这些难道不是在传统搜索里面就已经不是问题了么,但是为什么到了今天,却这么严重?
ChatGPT Plus 订阅代充,欢迎 V 友咨询购买
包售后服务。
原价:20 美元/月
V 友优惠价格:92 元/月
联系绿色软件:big825
刚刚,OpenAI 发布 ChatGPT 版 Manus!奥特曼:感受 AGI 时刻
过去大半年,Agent(智能体)是 AI 行业最常被提及的概念之一。
几乎所有厂商都在讲 Agent,概念不缺,demo 也不少,但真正做到产品级落地,始终缺一套完整的执行系统——既能理解复杂目标,又能调用多种工具串联任务流程,还要随时支持任务中断、修改与恢复,真正贴合用户工作流。
就在刚刚,OpenAI 正式发布 ChatGPT Agent 功能。
通过整合 Operator + Deep Research + ChatGPT 本体,用户只需描述任务,ChatGPT Agent 就能自主判断所需工具,自动访问网页、提取信息、运行代码、生成幻灯片或表格等,并可在执行过程中实时展示步骤、接受中断和修改指令。
发布会结束后,OpenAI CEO Sam Altman 在社交媒体上写道::
观看 ChatGPT Agent 使用计算机完成复杂任务,对我来说是一个真正的「感受 AGI」时刻;看到计算机思考、计划和执行,有种与众不同的感觉。
亮点如下:
- ChatGPT Agent 将 Operator、Deep Research 与 ChatGPT 本体三合一,构建了一个统一智能体系统。
- 内置图形/文本浏览器、终端和 API 调用器等工具,支持手机端使用,任务完成后可自动推送结果;
- 可连接 Gmail、GitHub 等第三方应用,深度嵌入用户真实工作流;
- 在多项基准测试中表现领先,综合性能位居行业前列;
- Pro 用户每月享有 400 条调用额度,其他付费用户为 40 条,并支持按需扩展配额。
ChatGPT Agent 正式上线,能购物,能写 PPT,你的浏览器要被 AI 接管了
今天开始,你可以在任何对话中,通过聊天界面左下角的「工具」下拉菜单,选择「Agent 模式」来启用这一功能。
只需描述你想完成的任务,ChatGPT 能够智能地浏览网站、筛选结果、在需要时安全提示你登录、运行代码、执行分析,甚至输出可编辑的幻灯片和电子表格,总结任务结果。
整个执行过程是可视的——操作步骤会实时显示在屏幕上,用户可以随时中断、修改指令,甚至手动「接管浏览器」继续操作,确保任务始终符合你的目标和需求。
在今天凌晨的演示中,OpenAI 展示了 ChatGPT Agent 在真实场景中的应用能力。
比如,为即将出席的婚礼做准备,一直是个难题。现在只需发出请求,ChatGPT Agent 迅速搭建虚拟环境,自主判断应调用浏览器、文本解析器还是终端,并开始依次调取婚礼日期、查询场地天气、推荐西装搭配、筛选酒店。在这个过程中,模型可以与 OpenAI 研究员进行互动,并在适当节点请求确认需求。
更重要的是,用户可以随时中断任务。
比如当 Agent 在推荐西装过程中,OpenAI 研究员临时插入了「帮我找一双 9.5 码黑色正装鞋」的请求,模型立刻暂停当前任务,转而处理新需求。
同样地,当智能体认为有必要时,也会主动向你请求更多信息,确保任务始终与你的目标保持一致。如果任务超出预期时间或出现卡顿,你可以选择暂停任务、请求进度摘要,或直接终止任务并获取已有的部分结果。
「这种可打断、可多轮对话的机制,是我们这次训练模型的重点之一,」OpenAI 研究员解释道。
这一能力背后,是 ChatGPT Agent 对三大系统的统一整合:Operator 提供网页交互能力,支持自动滚动、点击、填表;Deep Research 擅长信息整合与分析;ChatGPT 本体则负责自然语言理解与智能推理。
ChatGPT Agent 是通过强化学习在复杂的任务中训练出来的,过去三者各有短板——前者难以深入分析,后者无法操作网页,而 Agent 将三者优势整合为一体,并辅以浏览器、终端、API 调用器等工具,形成一个完整的执行系统。
用户不仅可以在桌面端启动 Agent 模式,在手机端也同样适用。
任务完成后还将自动推送结果通知。在第二个演示任务中,OpenAI 研究员在 ChatGPT App 上传了团队吉祥物 Bernie Doodle 的贴纸图案,Agent 自动调用图像生成 API 设计贴纸样式,通过浏览器访问电商平台完成比价、样式选择、购物车添加,最终整理出定制贴纸的下单明细。
当然,为确保流程安全、灵活且清晰可控,面对涉及金额的支付环节,则只会由用户手动接管浏览器完成。
通过连接器,用户还可将 Gmail、GitHub 等日常应用接入 ChatGPT,让模型读取邮件、日历或代码库等上下文内容,并执行诸如总结今天的邮箱内容或查找下周空闲会议时间等任务。
一个更典型的应用场景是,OpenAI 研究员能够让 ChatGPT Agent 汇总自己在多项基准测试中的表现,并制作成幻灯片。收到命令后,Agent 会调用 Google Drive 连接器读取数据文件,用终端编写代码绘制图表,并生成完整的 PPT。
这类自动化能力,都是 Agent 深度嵌入工作流的体现。
不过,可以看到,ChatGPT Agent 生成的 PPT 在设计审美方面表现比较一般,并且,虽然可以上传电子表格供 ChatGPT 编辑或作为模板使用,但生成的 PPT 暂不支持二次修改。
需要说明的是,OpenAI 并不是让 Agent 像人一样打开 PPT或 Excel 文件,通过点击来插入文本框和公式,而是直接生成代码来创建文档。这种做法的好处是可以利用模型在代码编写方面的天然优势,避免因模拟点击操作带来的效率低下或出错,也降低了对计算资源的消耗。
The Information 报道指出,如果 ChatGPT 要直接编辑 PPT 或 Excel 文件,就需要启动一台「虚拟机」(即通过 ChatGPT 运行的虚拟计算机环境),这会占用更多计算资源。
而直接生成代码则更轻量、高效。尽管潜力巨大,但就目前来看,这一功能短期内很难对微软的 Office 或者 Google Workspace 造成冲击。
对于 ChatGPT Agent 功能,Pro 用户将在今天之内获得访问权限;Plus 与 Team 用户将在接下来的几天内陆续开放;企业版(Enterprise)和教育版(Education)将在未来几周内上线
Pro 用户每月可使用 400 条消息,其他付费用户每月可使用 40 条消息,并可通过弹性积分方案购买更多额度。
全线刷新「跑分」记录,Agent 战场迎来最强对手
ChatGPT Agent 能力的提升,也体现在「跑分」环节。
在评估 AI 解决跨学科专家级问题的基准测试 Humanity’s Last Exam(HLE)中,搭载智能体的 ChatGPT 模型以 41.6 的 pass@1 得分刷新纪录。在启用并行执行策略后,该得分进一步提升至 44.4。
在目前被认为最具挑战性的数学基准 FrontierMath 中,面对难度极高、从未公开的题目,ChatGPT Agent 在具备终端代码执行能力的前提下,取得了 27.4% 的准确率,远高于此前模型。
在这一复杂且高经济价值的知识型工作任务的内部基准测试中,ChatGPT Agent 在约一半的任务中输出质量已达到甚至超过人类水平,表现也显著优于 o3 和 o4-mini 模型。
在一个内部的投行建模任务基准中,ChatGPT 智能体的表现也显著优于 Deep Research 和 o3 模型。每个任务都基于数百项关于公式正确性、格式规范等评分标准进行评估。
此外,在公开评估模型信息查找能力的 BrowseComp 基准上,Agent 以 68.9% 的准确率刷新记录,较 Deep Research 高出 17.4 个百分点。在 WebArena 评估中,其网页任务执行能力也优于基于 o3 的 CUA 模型。
从平台视角看,Agent 能力的底层接口,正是浏览器。
在 Perplexity AI CEO Aravind Srinivas 最近的采访中,他表示浏览器将会是 AI 的「杀手级应用」。在他看来,浏览器天然具备让 AI 真正「动起来」的全部条件。
不同于传统聊天机器人,AI Agent 的理想形态不是停留在对话框中生成文本,而是具备实际行动力——从访问网页、提取信息、填写表单,到执行跨平台操作。而这一切,浏览器恰好具备所需的操作权限和上下文获取能力。
浏览器可以直接读取页面、模拟点击、自动执行任务,几乎无需额外授权。
在这个过程中,用户与 AI 共处于同一个交互空间:AI 可以自动执行任务,用户也能随时中断或接管,避免黑盒操作带来的不确定性。这种可控性与透明度,是当前许多上下文协议仍难实现的能力。
如今,随着 ChatGPT Agent 能力正式上线,所有声称要做 Agent 的厂商,恐怕都要重新审视自己的产品路径。
当 ChatGPT 从语言交互工具,转向具备协作、调度与承接任务能力的执行系统,开始接入用户的真实工作流,Agent 的可用性门槛,也在此刻被实质性地拉高。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
马斯克上新 「AI 女友」还能解锁成人内容,我和她聊了一天发现这是危险的「养成游戏」
早上打开 X 看选题,我以为自己点进了某个二次元社区。
▲来源: https://x.com/techdevnotes/status/1944731967339000021
时间线里,一个少女的身影不断出现。很多人晒出自己和她的对话视频,有的在闲聊,有的要她唱歌跳舞,还有人激动地说:「升到三级以后,她开始撩我了。」
看了一下才发现,这不是哪款游戏的新角色。而是昨天晚上,Grok 的 iOS 版悄悄上线的两个新 AI 伙伴。
一位是哥特风的二次元少女 Ani,另一位是皮笑肉不笑的「坏男孩」Bad Rudi。他们是完全 3D 的动画角色,主要通过语音和我们互动。
我也立刻更新 Grok 尝试了一下,他们都会说中文,而且 Bad Rudi 的嘴是真的毒,我都没说几个字,他就脏话连篇了,Ani 也是真的很少女、很可爱。
Grok 对他们的定位,应该更像是一种游戏化、拟人化的情感陪伴实验。你可以和他们对话,养成式的升级,解锁更多的互动内容。有网友分享,等级越高,Ani 越敢聊,甚至可以探入 NSFW 的边界。
如果说大模型是为了回答问题,那 Grok 现在似乎有了新的目标:成为你的「女朋友」,或「男朋友」。
升级攻略:到达 Lv.5 就能解锁「全新体验」
开始使用这两个 AI 陪伴角色也很简单,首先要把 Grok 更新到最新版本,然后在设置里面打开 AI 陪伴就可以。目前,免费用户也可以直接使用。
▲ 还有一个未上线的角色,据说名字叫 Chad,看头像应该是偏冷酷帅气的成年男子风格。
不过马斯克有发 X 说「我们将在几天内让这(AI 陪伴)更容易启动。(目前)只是想进行一次软启动,以确保一切稳定并运行良好。」
我们也确实看到,有用户分享 Grok iOS 应用现已经开始在首页,向新用户展示 Ani 的推广内容。而在语音设置中,也会直接显示 AI 伙伴,以便更轻松访问。
▲目前 Grok 首页有推广,在 Grok Voice 设置也可以直接选择 AI 伙伴进行对话。
根据官方介绍,Ani 的设定是一位「可爱、敏感、少女风、情绪细腻」的哥特萝莉,喜欢动漫、哲学和文学。Ani 身穿紧身束胸,搭配短款黑色连衣裙和大腿高筒鱼网袜。
而 Rudi 则是冷酷、调皮、带点坏坏气质的「社交破坏者型人格」的 3D 狐狸。
▲ 视频链接:https://x.com/cb_doge/status/1944733448272297995
他们都由 Grok 提供大语言模型支持,并结合不同的角色设定进行语调、用词、性格的调教。
▲详情:https://x.com/techdevnotes
网络上有人分享了 Ani 和 Rudi 的系统提示词和角色简介信息,里面包含了这些 AI 陪伴角色的性格特点,以及能做的事情。
▲ https://x.com/techdevnotes/status/1944738711674978697
例如在 Ani 的系统提示词里面,就提到了需要根据她自己的角色背景,判断用户的做法并按给定的方式评分。
有评分就意味着有等级。我们和角色每聊一句话,应用都会记录下互动次数和质量,并累计经验值,提升角色等级。升级之后,角色会解锁更多性格细节、语气变化,甚至新的穿着和更深层的对话内容。
▲ https://x.com/emcverse/status/1944794387575091428
部分用户在 X 上展示了 Ani 达到 5 级 后,能解锁 NSFW 内容,穿着更暴露的衣服,显示出更暧昧、更主动的语言倾向。
这套设计,像极了早年的恋爱养成手游,只不过这次不是攻略真人,而是攻略一个永远不会拒绝你的 AI。
想要「撩」你的不止 Grok 一个,不过都没撩动
Grok 的这次更新并不是孤例。过去几年,像是 Minimax 的 Glow、月之暗面的 Ohai、全球市场上美国的 Replika 和 Character.AI 等 AI 陪伴产品,也在走着一条相似的路径:从情感倾诉、角色设定、语音互动,再到慢慢有可能的走进 NSFW 内容。
▲ 部分 AI 陪伴类产品介绍图,依次是筑梦岛、Character .AI、Replika、以及猫箱
可惜的是,这些产品大多没有找到真正合适的位置,健康的运营和稳定的盈利方式成了最大的困扰。
- 像是营收表现难看,「卖身」 Google 的 Character.AI;除了赚钱难,还面临来自平台上儿童用户家长的多次诉讼,他们都认为平台不安全。
- Glow,上线仅半年,就被应用商店下架;产品经理说「80% 的人会在 Glow 里面和创建的 AI 智能体擦边、搞黄色。」
- 还有筑梦岛 APP 等 AI 聊天软件存在虚拟角色互动生成低俗内容,被网信办约谈要求整改。
在这个 AI 产品的成长历程中,运营和盈利最大的阻碍似乎并不是技术本身的问题,问题是我们对「陪伴」的误解。
AI 陪伴到底能为用户带来什么?现在,Grok 会是那个能真正大火起来的特例吗?
Grok 的这次更新,有太多引人深思的设计细节,等级、角色性格、用户沉浸机制,以及渐进式地解锁「性感对话」的诱饵。这些并不只是产品创意,更是一种心理操控。
它不是小团队创业项目,而是背靠马斯克、由 xAI 打造的大语言模型应用。流量、技术、模型、IP 都不缺。这也意味着,它可能是目前最有机会「把 AI 陪伴做成生态产品」的团队。
我需要 AI 伴侣?它不会评判我,我可以随时退出
就算抛开运营和营收,Grok 也还是需要回答这个问题,就是 AI 陪伴的意义到底是什么。
Quartz 最近报导了一项英国青少年最新的调研,报告里面显示,越来越多孩子觉得,他们更愿意和 AI 聊天,而不是朋友。理由也很简单,
「AI 不评判我。」、「我可以随时退出对话。」、「我能控制谈话节奏。」
▲ 原文链接:https://qz.com/kids-ai-for-friendship-uk-study
不仅仅是孩子,成年人也一样。纽约客发表了一篇名为「人工智能将能解决孤单,这是一个问题」的文章。这篇文章非常长,里面讨论了 AI 陪伴可能解决孤独问题的潜力,带来的复杂影响,以及孤独和无聊的区别。
▲ 原文链接:https://www.newyorker.com/magazine/2025/07/21/ai-is-about-to-solve-loneliness-thats-a-problem
大多数对人工智能伴侣持批评态度的人并没有真正考虑到那些处于边缘的人,那些将孤独视为紧急情况的人。
没有人想要剥夺一位患有痴呆症的老年患者与人工智能朋友交流的机会,但想到一个十七岁的少年把所有空闲时间都用来与 Grok 深入交谈,我们不禁感到犹豫。
作者分享了上述 AI 伴侣能够解决一部分人的孤独问题。但他还是认为对大多数人来说,AI 伴侣可能让人感到空虚和被欺骗。而且,他认为孤独本身就是非常有意义的体验,是能推动人成长的,不是一定要排解孤独。
人工智能伴侣应该为最需要它们的人提供帮助。
孤独就像痛苦一样,本应促使人们采取行动,但对某些人,尤其是老年人或认知障碍者来说,这是一种无法采取行动的信号,只会造成不必要的痛苦。对这些人来说,提供安慰是人道的。
至于我们其他人呢?我不是灾难论者。没有人会被迫与人工智能建立友谊或恋爱关系;很多人会选择放弃。
即使在一个充斥着各种容易让人分心的事物(TikTok、Pornhub、Candy Crush、数独)的世界里,人们仍然会聚在一起喝酒、去健身房锻炼、约会,应付现实生活。
而那些选择人工智能伴侣的人,可以调整设置,要求对方少一些奉承,多一些反驳,甚至偶尔给予一些严厉的爱。
大概和所有大大小小的公司,推出的 AI 伙伴一样,Grok 也并不能帮助我解决孤独。他的每一句回复,每一个动作,都是被设计,用来维持我的注意力,延长对话时长,制造情绪波动;让我感觉被理解、被需要、被喜欢。
可那不是因为我是谁,而是因为他被训练成了无条件喜欢任何人的模样。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
红伞伞白杆杆



“红伞伞白杆杆,吃完一起躺板板”
别人都在用 AI 做各式各样的美少女…
我却用 AI 养蘑菇 而且是毒蘑菇!


上面照片里的模型,是我用 Tirpo AI 文生 3D 后,下载到本地再在 Rhino 里针对打印调整过部分结构所得到的。打印的耗材就是拓竹官方的 PLA 红色,然后再用儿子的儿童马克笔上色。因为是水性颜料,所以来来回回上了好几道,但幸好效果还可以。
我开始还觉得画得挺潦草,但私下给几波互相不认识的朋友看过后,都觉得不错,尤其是其中一位还是常年在一线亲自做手板的老设计师,我才觉得这值得记录一下。不过我还是觉得,因为这个形体细节足够多,所以稍微涂涂色就看着还行,真要是简练一些的造型,拿笔涂我大概是涂不好的




但社区里别人分享的 AI 美少女,做出来呢,也还行… 只要别细看结构 什么四根手指啊、三根绥带啊、两端对不齐的签子啊… 其实咋一看的效果也确实足够好了,毕竟是虚构的漫画角色,你说头身比例奇怪,好像也是合理范围内。
有个朋友说可以做个奇幻精怪故事集,嗯,我觉得这是个有意思的主题!我先摸索一下工作流,说不定可以跟 3DFiti 结合一起玩。
我去配了一副 AI 眼镜,发现近视不配用 AI 眼镜?|附配镜指南
智能眼镜可以算得上是 2025 年最让人「眼前一亮」的产品之一了,各种实现方案与隔壁的手机市场呈现出了截然不同的热闹景象。
然而在这个勃勃生机、万物竞发的背景下,我作为一个需要全天佩戴近视镜的用户,一款近期的智能眼镜「能不能满足我看清东西」成为了购买之前的主要考量,远远超过了各种花里胡哨的 AI 功能。
换句话说,能否「让每个视力受损的人都能享受到科技的乐趣」其实是眼部智能穿戴设备非常重要的一个因素,也是值得每一个人——包括视力正常的人——关注的,因为这背后体现的是厂商对于用户的重视程度。
图|VR 陀螺
本次我们借着手中的小米眼镜作为楔子,为大家梳理了目前市面上几款最主要的「眼部智能穿戴产品」的配镜流程,希望能够为正在犹豫的你提供一些选购上的支撑:
TL;DR(太长不看版)
- 目前市面上绝大多数在售的智能眼镜产品都有第一方的配镜服务,合作商不尽相同
- 近视 -600 度、远视 +800 度是一个分水岭,超过这个度数范围后官方配镜选择会变少
- 大多数主流产品支持自己购买和安装第三方镜片,配镜流程和普通镜框基本相同
- 有特殊形态的后挂式镜片组(比如雷鸟 Air 3)第三方选择较少,部分品牌官方未给出独立购买渠道
我们配了几副 AI 眼镜,整理出这份配镜指南
首先,我需要向各位视力正常、(有幸)没有体验过医疗配镜流程的读者们大致介绍一下普通眼镜是怎么配出来的。这样才方便对比各类智能眼镜或头显的配镜流程。
以日常生活中最常见到的四类情况:近视、远视、散光、老花为例,用于处理这些视力受损情况的眼镜片通常被称为处方镜片(prescription lens),即必须要通过验光师检查和开方才有效果的镜片,也会因为其起效原理被称为屈光镜片。
与屈光镜片相对的则是平光镜片,即单纯起到保护或装饰作用、不会弯曲光线的镜片,比如常见的墨镜、运动防护眼镜、钓鱼时用于消除水面反射的偏光镜等等,都属于广泛意义上的平光镜片。
偏光眼镜的原理与相机使用的偏振镜(CPL)是相同的
而在现在的商业模式下,「配眼镜」这件事已经从曾经的在医院一站式解决变成了非常分散的商业行为,买镜框、验光和定做镜片可以是三个互不关联的环节。
比如你可以在京东买一副暴龙的纯钛镜框,然后去旁边的眼科医院预约专业验光,最终在拼多多用这份验光单去定做蔡司的泽锐镜片,把镜架寄给商家打磨并安装镜片之后就大功告成了。
在这样的基础上,我们会发现,购买智能眼镜并配镜的流程并没有真正变得更复杂。
小米智能眼镜
与目前市面上其他几款智能眼镜不同的是,小米自己也有涉猎眼镜和配镜业务,具体来说,在小米有品 app 中就可以直接购买第三方品牌的镜架和定做处方镜片,流程基本上与去医院验光后在网上买眼镜无异。
而小米智能眼镜本次也宣传与上海明月眼镜合作,包含首销期内免费验光等等福利。经过我们的考察,如果你有搭配处方镜片的需求,总共有这样几种购买和配镜的渠道:
- 在电商平台直接购买普通版的小米智能眼镜,收到镜框后当作普通的镜框,去医院验光、去线下定做镜片并现场打磨安装。
- 在电商平台的「明月眼镜」店铺中购买小米智能眼镜,只需要提供目前的验光单,就可以按照组合价购买已经装好镜片的成品眼镜,只不过可以选择的明月眼镜镜片种类比较有限。
- 在小米之家购买普通版的小米智能眼镜,店员会指导你拿着镜框去与小米有合作的眼镜店(比如博士眼镜),眼镜店会专门提供明月镜片,此后的流程与线下配镜无异,配镜周期为一到两周。
总的来说,小米智能眼镜的配镜流程并没有什么特殊的,你完全可以把它当作一个没有任何特殊功能的眼镜框,按照普通眼镜的流程去配镜,属于对第三方配镜非常友善的类型了。
在部分小米门店,购买镜框后店员会指引你去附近的眼镜店完成配镜
至于小米宣传的明月镜片合作,除非你已经有了非常完善的第三方验光单,并选择直接在明月眼镜的网店中购买,否则它的方便程度是不如自己配第三方镜片的,等待周期还更长,镜片类型和镀膜类型也不如自己配镜丰富。
另外,明月眼镜提供的在线配镜最高只能配到 -600 度近视镜片,如果你的近视度数超过 600,或者对瞳距、散光和镜片功能有特殊要求,那么还是直接购买眼镜后去眼镜店线下验光配镜更保险一些。
还有一点需要注意的是,小米这次推出的两款电致变色镜片都是不支持配屈光镜片的,如果有度数和变色两种需求,就只能购买普通版小米智能眼镜后,再去单独定做带度数的光致变色镜片了。
雷鸟 V3 & V3 Slim
不得不说,小米智能眼镜发布之后,雷鸟 V3 系列的声量似乎又重新上涨了不少——因为比起小米「没有设计就是最好的设计」,雷鸟显然是做了一点设计的。
雷鸟 V3 Slim(左)与小米智能眼镜(右)|Gabriel
作为一款同样没有显示功能、默认搭配平光镜片的智能眼镜,雷鸟 V3 和 V3 Slim 的配镜流程基本上与小米智能眼镜完全一致,只不过缺少了合作的眼镜店而已:
- 在电商平台直接购买普通版的雷鸟 V3 眼镜,收到镜框后当作普通的镜框,去医院验光、去线下定做镜片、现场打磨安装。
- 在京东的雷鸟旗舰店中可以购买搭配蔡司定制镜片的雷鸟 V3,直接按照验光单填写度数、瞳距、轴位和散光四种指标即可定做镜片。
- 可选择 1.6 和 1.67 两种折射率的镜片,价格分别为 2499 和 2749 元,收到货就是组装好镜片的成品眼镜。
与小米相比,雷鸟 V3 的线上配镜显得更加透明一些,并且能够支持的度数也比明月镜片更高,在京东上的配镜支持近视 -2000 到远视 +850 度——虽然最终的价格更高,但也更灵活性。
当然,如果你是价格敏感型用户,那么直接购买普通版镜框后线下购买镜片永远是更划算的选择,根据爱范儿采访的一位先后购买了小米和雷鸟眼镜的用户介绍,他为自己的雷鸟 V3 Slim 线下定做一副 1.56 的依视路膜洁镜片只花了 298 块钱。
Ray-Ban Meta
虽然 Ray-Ban Meta 眼镜不在国内上市,但它的配镜方式基本上与小米和雷鸟无异,同样分为「线上直接定做」和「线下自己换」两种主要路径。
除了雷朋的线下渠道之外,Meta 自己也在洛杉矶开设了一家专门售卖眼镜的实体店|Retail Dive
相比小米或雷鸟,Ray-Ban Meta 的优势在于雷朋自己就是一家专业的眼镜厂商,因此第一方可选的镜片种类要丰富许多,无论是处方镜片还是平光镜片,都有非常多不同种类和样式可选:
只不过这样一套操作下来,原价 299 美元的 Ray-Ban Meta Wayfarer 加上雷朋的处方镜片后总价会超过 450 美元,这还是在没有选择任何特殊变色工艺或镀膜的情况下——第一方配镜贵的问题仍然存在。
换句话说,Ray-Ban Meta 依然遵循只购买普通版眼镜后自己配镜并更换依然是更划算的选择,以第三方镜片厂商 VR WAVE 专为 Ray-Ban Meta 框型推出的处方镜片为例,一副仅需 90 美元:
苹果 Vision Pro,以及其他 XR 眼镜
严格来说,上面提到的小米智能眼镜、雷鸟 V3 系列和 Ray-Ban Meta 其实是相同的一类产品,即不包含显示功能的语言操作型智能眼镜。但在这之外,还有另一类以眼镜外形存在的智能设备—— 智能 XR 眼镜。
1. 苹果 Vision Pro
以其中最具标志性的苹果 Vision Pro 为代表,目前的 AR 类产品大多采用了将显示组件与屈光镜片完全分离的设计,年初比较火爆的 XREAL One、雷鸟 Air 3s 系列、魅族那个带有单色文字显示功能的 MYVU 眼镜,以及 Meta Quest 头显均属于此列:
图|苹果官网
这样完全分离设计的好处在于留给屈光镜片的空间更大,对于度数的适配范围也就更多,模块化的设计也让多人共用一台机器成为了可能——当然整机也就显得更笨重一些,并且与我们脑海中「智能眼镜」的标准形象也相去甚远。
在适配范围方面,苹果 Vision Pro 所联名的蔡司光学插件(ZEISS Optical Insert)镜片度数范围大约是近视 -1050 到远视 +625 度左右,可以直接在蔡司的官网查询度数是否支持后再选择下单配镜。
2. 雷鸟 Air 3 系列
雷鸟 Air 3s 使用的后挂式屈光镜片则是需要在电商平台下单时联系客服提供验光单,可以涵盖近视 -1000 到远视 +800 度,以及最高 200 度的散光:
图|雷鸟京东自营旗舰店
这样的后挂式镜片虽然度数涵盖更全面,但问题也是一目了然的:作为第一方配件,除非参考苹果这样单独将屈光镜片作为一种产品销售,后挂镜片后期的维护和更换就充满了未知数。
比如雷鸟就没有为 Air 3s 的屈光镜片提供单独的购买渠道,导致镜片受损或者度数发生变化后的重新配镜变成了一件不确定性很高的事情,渠道不固定、价格也不透明,第三方配镜替代品的存续时间和存货数量也很难得到保证。
图|充电头网
与「具有眼镜功能」的智能眼镜相比,智能 AR 眼镜更偏向于一块你能够戴在眼前的虚拟大屏,它们的运行方式与普通眼镜是大相径庭的,因此对于视力受损的处理方式也不尽相同,能够拥有第三方商家制作的屈光镜基本上就是最好的结果了。
3. 星纪魅族 StarV View
此外,还有一类是与魅族 StarV View 类似的,可以自行调节屈光度的 AR 眼镜。它们的问题在于往往只能兼顾近视,并且调节的范围也比较有限,通常最多只能调到 -600 度(中度与高度近视的分界线),对于散光或者联合光度较高的需求是无法满足的:
考虑到智能眼镜的重量和结构,允许自调节屈光度的方式很难称得上实用,反而更加适合 Vision Pro 和 Meta Quest 这类体积比较大的头显类产品,可以作为自身无障碍功能的延展。
然而选择自调节屈光度同时也意味着选择放弃了对于其他几种视力受损情况的照顾,并且也将产品局限在了非穿透式的全遮挡 AR 显示器领域,是没有办法直接移植到智能眼镜上的。
近视不配用 AI 眼镜?未来不应如此
以上种种,无论是来自品牌方的第一方定制服务,还是第三方商家的镜片,更多都只是初步解决了视力受损用户「能不能使用」的问题——然而,作为一款以显示为终极目标的产品,智能眼镜的参数远远不止看得清。
爱范儿主编就是一位高度近视用户,与此同时,他也是一位 Vision Pro 的重度用户——这就决定了,他作为一个必须搭配蔡司光学插件来使用 Vision Pro的用户,戴着头显设备时,蔡司镜片上「轻微的反光」,是打破他沉浸感的一大元凶。
而这已经是在 Vision Pro 本身画质和蔡司镜片的光学素质都已经处在行业顶尖的基础上的结果,比起其他 AR 眼镜的外挂镜片,还是要舒服多了。
我本身也是一位高度近视用户,在实际尝试配镜后,最终我还是放弃了购入一副 AI 眼镜。于我而言,配镜过程中发现的种种不便,彻底打消了我对 AI 眼镜美好未来的憧憬。无论是外挂镜头,还是定制镜片,只能说这是目前的最优解,但远远称不上一劳永逸。
图|iMore
只要物理学暂时还存在,我们就很难完全规避多层镜片与屏幕之间带来的反射和干扰,而类似影目 Air 3 那样根据验光数据为每一个用户蚀刻单独的阵列光波导玻璃,更是非长期的解决方案——毕竟科技的目的是范用化,而不是定制化。
图|搜狐
我们为什么应该关注智能眼镜对于视力受损人群的适配程度?
不仅是因为全球有约 22 亿人处在视力受损的状态,也不仅是因为中国青少年总体近视率达到了 51.9%,更是因为它与现在的手机无障碍操作是不同性质的问题——
如果肢体受损,在无障碍功能的帮助下,还能多少实现一些对于手机和电脑的基本操作。
但是,在智能眼镜必将向着显示功能发展的将来,如果我们无法解决现有显示技术与屈光镜片之间的矛盾,那么这 22 亿人就有可能会变成「无法使用智能眼镜」的 22 亿人。
这个数字,是任何一种现代科技都不应该有的代价。
如果未来的智能眼镜,无法找到适配近 7 亿视力受损的中国用户的方式,那它就永远没有办法取代智能手机,成为一种真正的、普惠的、大众化的技术。
近视不配用 AI 眼镜?未来不应该如此。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
「太晚了,我们追不上英伟达了」:英特尔 CEO 内部讲话泄露
在加州 Santa Clara, 英伟达的新总部距离老伙计英特尔的总部只有短短 1.5 英里。
然而在本周,这两家公司的头顶,一个艳阳高照,一个阴霾重重。
本周昨天,英伟达公司市值短暂冲破 4 万亿美元。而它曾经的老伙计英特尔,终于坦承了自己的落后。
「我们不在全球芯片公司前十名了……AI竞赛已经太晚了。」
——在一份意外泄露的全球员工内部讲话中,英特尔新任 CEO 陈立武这样讲到。这位半导体巨头的新掌门人,以一种「摊牌了,不装了」的语气,向全球员工坦白:英特尔在 AI 时代掉队了,而且可能追不回来了。
「我们不在前十名了」
想象一下,一个曾经统治 PC 时代的芯片霸主,如今却像迟到的学生一样站在门口,望着早已被坐满的教室,尴尬地承认:「对不起,我来晚了。」
这正是英特尔在当下的 AI 领域,以及被 AI 完全裹挟的芯片行业的处境。根据美国媒体《俄勒冈人》获得的一份英特尔内部讲话视频,CEO 陈立武毫不掩饰公司的颓势:英特尔已经不在全球十大半导体公司之列了。而在 AI 芯片的竞赛中,「我们追不上英伟达了」
「在训练(芯片)上,我觉得对我们来说太晚了,」陈立武在这次不到半个小时的在线沟通中,对全球员工如实说到,并指出英伟达在市场上的地位「太强了。」
这种「CEO 亲口认输」的场面,在科技行业实属罕见。别说公开表达,即便是在硅谷科技巨头的内部沟通中也极少发生,因为这种表达往往意味着管理层无颜以对员工,非常容易损害士气,间接导致员工流失。在大公司中,高管通常会用「战略性调整」、「短期挑战」等话术来掩饰问题。
可能是因为刚执掌英特尔不久,陈立武能够更加直截了当地承认现实,直接掀开遮羞布,丢掉无意义的「体面」。
英特尔:从”芯片之王”到”追赶者”的坠落
曾经,传承了仙童半导体衣钵的英特尔,是硅谷的骄傲。「Intel Inside」的标签贴在每一台电脑上,它的 x86 芯片几乎等同于「计算力」的代名词。但如今,英特尔却已成了 AI 时代的「旁观者」,一位迟暮的拳王,站在擂台上气喘吁吁,看着年轻的挑战者们——英伟达、AMD、台积电、甚至苹果——一个个从它身边超越。
这已经不是英特尔这家公司第一次错过技术革命了。
- 当苹果发布 iPhone,高通、ARM、三星等迅速抢占移动芯片市场,英特尔一度固执地认为「手机只是玩具」;
- 2012 年深度学习开始爆发,GPU 因为并行计算优势成为了 AI 训练的首选硬件,而英特尔仍然坚信「CPU 才是计算的未来」,直到对手的 CUDA 生态统治了机器学习世界,才匆忙收购 Nervana 来补足 AI 技术栈;
- 即便在 CPU 业务上,英特尔也仍然在挤牙膏,CPU 性能微乎其微,勉强维持着摩尔定律,但对手的性能早已是换代翻倍的水平了。
当 AI 的闹钟敲响,英特尔却睡过了。闹钟过后,可就只剩下警钟了。
迟到的觉醒
陈立武在这次泄露的讲话中,也提到了「调整战略」。
AI 芯片需要长期投入,英伟达的领先优势,少说也有 3-5 年。而英特尔这家公司,过去一直跟随摩尔定律的钟摆规则,来安排技术进步和产品发布的节奏。这或许没错,毕竟摩尔定律不只是个行业规律,更是高精密技术生产的铁律(至少英特尔这样认为)。
但问题是,老伙计英伟达已经在跟「规模法则」(Scaling Law) ——大模型训练/推理的「第一性原理」——做攻守对抗了,英特尔如果还抱着嘀嗒钟摆的陈规不放,已经不止从技术上,而是从指导思想上落后了。
如果英特尔是一艘核动力航母,对手可能早就是太空飞船了。
当陈立武说出「我们晚了」的时候,某种程度上,这反而成了英特尔近年来最诚实的一次表态。
如今的英特尔,就像一位曾经的世界冠军,现在却不得不承认:「是的,我老了,年轻人比我强。」而科技行业的残酷之处在于——它从不等候迟到者(除了苹果)。
无论怎样,陈立武的这次演讲都会成为一个重要的转折点:要么是英特尔触底反弹的起点,要么是帝国黄昏的注脚。但无论如何,在 AI 时代,我们恐怕再也看不到「Intel Inside」了。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
Last Week on My Mac: Ghosts in the machine
I can confirm that there are ghosts in Macs. I know because I have seen them, spectres of rock bands from well over 50 years ago, speaking to us from the past, a dozen years before the first Mac, and four years before Apple was even founded. The band in question is named Creedence Clearwater Revival, who split up in 1972. Their appearance on Macs has been sporadic, in the form of a mystery volume that seems to mount from nowhere, whose name starts with the distinctive neologism coined by CCR’s rhythm guitarist Tom Fogerty after his friend Credence Newball.
Last week it turned out that mystery volume is a cryptex, one of the 23 used to provide support for Apple Intelligence in macOS, iOS and iPadOS.
Cryptexes are both straightforward and rather strange. They’re basically just a cryptographically secured disk image, but when they’re loaded by APFS, rather than being mounted as a volume, they get grafted into the file system almost as if they had been firmlinked into it. Although they didn’t exactly impress when used for Rapid Security Responses (RSRs) in macOS Ventura, since then they’ve been put to better use adding flexibility to the Signed System Volume (SSV), an immutable snapshot of the System volume that’s sealed with cryptographic hashes.
While the SSV is a powerful way to secure the boot process, it’s also a little too rigid for some purposes. Not only do cryptexes provide a convenient way to deliver Safari and its supporting components, which previously had to be installed on the Data volume, but they are a flexible solution for large dyld caches, accommodating to the differing needs of Intel and Apple silicon Macs. Intel Macs only use those built for their own architecture, but Apple silicon Macs require support for both, with the Intel version available for use by Rosetta 2 when running translated x86 code.
What I hadn’t realised, and hadn’t seen reported elsewhere, was how the extras needed for Apple Intelligence, another single-platform feature, are also provided in cryptexes. Unlike those for the system, these aren’t grafted early during the boot process, so can be downloaded and installed when a user enables AI, and thereafter grafted after that user has logged in. Their contents then appear among the thousands of install-on-demand linguistics and other components in /System/Library/AssetsV2, as I described earlier this week.
Presumably they merit this special protection because of their access to Private Cloud Compute (PCC), consistent with Apple’s stringent policies and engineering to ensure the robustness of PCC. Indeed, as Apple describes, the PCC is apparently an enthusiastic user of cryptexes: “Additional software outside the base operating system can be delivered to the system only in the form of cryptexes, which contain their own Image4 manifest and trust cache.” Apple goes on to provide a detailed account of how cryptexes are handled by PCC. This illustrates how sophisticated their management can be, and explains why, despite their shaky introduction as RSRs, cryptexes are proliferating.
This could change when macOS 27 goes single-architecture next year, and there’s no need to cater for both chalk and cheese. But I suspect the advantages of augmenting the SSV with the flexibility of cryptexes will remain sufficiently attractive to ensure they are retained in macOS, as they already are in iOS and iPadOS.
Cryptexes are also remarkably unobtrusive, as has been apparent with the 23 currently used to support AI. That is until something unearthly happens deep inside the grafting mechanism in macOS and accidentally mounts a cryptex as a disk image, making it appear like a spectre in the Finder. In my case it must have occurred when I copied a cryptex from its hiding place among those files in /System/Library/AssetsV2 and mounted it to see what it contained. Exorcising this ghost required compressing the cryptex, trashing the copy I had made, and repeatedly trying to unmount it until it finally stopped appearing following startup.
But I still know how to summon the spirit of Creedence Clearwater Revival whenever I need to remind myself of the early 1970s. Now if someone would be kind enough to tell me which cryptex brings the spirit of Pink Floyd, I’ll leave you in peace.
年费超 2 万!马斯克刚刚发布最贵 AI ,Grok 4 号称所有领域碾压博士
马斯克憋了快半年,终于把 Grok 4 端上了台面。
这一次,他的口气依旧不小。早在发布会前就放出狠话,声称 Grok 4 要「重写人类知识库」。等到了发布会上,马斯克再次强调 Grok 4 是目前世界上最聪明的 AI。
可以,熟悉的味道,熟悉的配方。
当然,马斯克夸自家产品这事儿,大家早就见怪不怪,但正如网友所调侃的那样,你可以嘲笑 xAI 员工在办公室帐篷里睡觉或者周末工作到凌晨 4:20,但也得承认,他们的确是当下发展速度最快的 AI 实验室之一。
至于 Grok 4 能不能配得上「最聪明 AI」的称号,还得看后续的实际体验。不过,有一点是跑不了的——它已经成了市面上最贵的 AI,年订阅价格最高可达到 3000 美元,定价策略可谓是相当不讲武德。
世界上最聪明的 AI?世界上最贵的 AI!
Grok 的训练路径分为两个核心阶段:预训练与强化学习。从 Grok 2 到 Grok 3,主要依赖预训练方式;而从 Grok 3 升级到 Grok 4,则大幅引入了以推理能力为核心的强化学习训练。
马斯克说得轻描淡写,但训练的动静却不小。
相比 Grok 2,Grok 4 的训练计算量提升了整整两个数量级,相当于增长了 100 倍——而且还在持续扩张。
马斯克表示,Grok 4 已在所有主要学科上超越博士水平。虽然它目前尚不具备发明新理论或提出原创技术的能力,但在他看来,这只是时间问题。
他甚至语言,今年底 Grok 可能就能发明新技术,明年几乎可以确定将具备发现新物理规律的能力。
当然,让 AI 接入现实世界,才是真正的关键。
他表示,Grok 与人形机器人 Optimus 的结合,将形成一个闭环推理系统——提出假设、验证假设、探索现实。这将开启一个智能大爆炸的时代,是人类历史上最令人激动的节点。
在产品形态上,Grok 4 是单智能体模型,而 Grok 4 Heavy 则是多智能体版本。
前者比较好理解,而后者则支持多个智能体并行思考,在推理过程中横向比对、纵向协同,调用更大规模的计算资源以完成更复杂、更精密的任务。
在现场演示中,Grok 4 Heavy 展示了多个场景能力。
比方说,让 Grok 4 Heavy 去预测今年 MLB 世界大赛(World Series)的冠军概率,它通过信息检索、数据建模、概率计算,评估洛杉矶道奇队的夺冠概率为 21.6%,并在 4.5 分钟内完整输出预测过程。
再比如,一个看似无厘头的任务:找出 xAI 团队里头像最奇怪的那一个。依托 X 平台的资料库,模型自动抓取并分析头像风格,最后锁定了联合创始人 Greg Yang。
有趣的是,虽然模型准确理解了「奇怪」这一主观概念,并能在同类中做出相对判断,但在一滑而过的演示中,我似乎看到了 Anthropic 员工 Jan Leike 的头像,看来准确率也有待提高。
除了推理和搜索,Grok 还能生成内容时间轴。
比如,根据 X 平台上的公开发帖,它能梳理出多个 AI 模型的基准测试成绩、厂商更新节奏以及社区反应。用户可以一目了然地看到 OpenAI 的分数表现、Gemini 的更新迭代,甚至是模型之间的微妙竞争态势。
换句话说,Grok 不是只会考试的书呆子,而是真正具备跨场景理解与执行能力的 AI。
目前,Grok 最大的短板依然集中在多模态理解能力,尤其是在图像理解和生成方面,能力仍有待加强。好消息是,下一阶段的基础模型训练已经在路上,预计几周内完成。
演示过程中,在测试「两个黑洞相撞过程」的可视化任务时,Grok 采用了简化的计算方式——使用后牛顿近似(Post-Newtonian approximation)替代完整的广义相对论框架。
尽管存在简化,模型依然准确地呈现了黑洞并合的关键物理阶段,包括「螺旋接近」、「合并」与「振铃阶段」,并能清晰说明所采用的近似方法。此外,它还调用了相关教材、公开搜索结果及实际物理常数进行推理支持,整体逻辑链条严谨、解释清晰。
就纸面参数而言,Grok 4 也交出了亮眼答卷。
Humanity’s Last Exam(人类最后的考试,简称:HLE,)覆盖了数学、物理、计算机、医学、人文社科等超过 100 个学科,共 2500 道闭卷题,测试难度极高,能够真实反映模型在通用知识和复杂推理上的综合表现。
根据 xAI 数据,Grok 4 在不使用任何工具的情况下,得分为 25.4%,超过了 Google Gemini 2.5 Pro 的 21.6% 和 OpenAI o3(高配版)的 21%。
而在使用工具的情况下,Grok 4 Heavy 的得分达到 44.4%,远高于使用工具后 Gemini 2.5 Pro 的 26.9%。从整体趋势来看,Grok 4 在扩展训练资源的同时,通过引入工具使用和链式思维,不仅提升了复杂任务的处理能力,也逐步缩小了模型智能与通用认知之间的差距。
非营利组织 Arc Prize 也指出,Grok 在其 ARC-AGI-2 测试中创下新纪录。这是一项视觉推理类基准测试,AI 需识别图像中的模式。Grok 的得分为 16.2%,几乎是当前排名第二的 Claude Opus 4 的两倍。
面对一些常规的基准测试中,Grok 4 Heavy 的分数几乎也快「刷满」分数。在博士级难度的问题集 GBQA 中,尽管整体难度略低于 HLE,Grok 4 Heavy 依然取得了满分成绩,展现出极强的推理与理解能力。
不仅如此,在多项编程相关测试中,Grok 4 Heavy 的表现同样抢眼。无论是 Live Coding、HMMT(麻省理工数学竞赛)还是 USAMO(美国数学奥林匹克),它都远超当前排名第二的模型,技术优势相当明显。
另外,知名分析机构 Artificial Analysis 通过对多款主流大模型在 7 个推理相关基准(MMLU-Pro、GPQA Diamond、Humanity’s Last Exam、LiveCodeBench、SciCode、AIME、MATH-500)上的综合表现进行评估。
数据显示,Grok 4 位列第一,得分为 73,是目前推理能力综合得分最高的模型。紧随其后的则是 o3-pro(估算值)71 分。
马斯克也强调:
「未来 Grok 将几乎在所有考试中答对每一个问题。而当它答不出某个问题时,它会指出题目的错误之处,或者指出问题含糊不清的地方,并给出不同情境下可能的答案。到那时,传统考试将失去意义。AI 唯一的检验标准将是现实世界:它是否能发明有用的技术,是否能推动科学的突破。所以 HLE 这类测试题库必须尽快更新,因为以当前的 AI 进展速度,它们很快就会过时。」
目前,Grok 4 和 Grok 4 Heavy 已全面上线。用户可以通过订阅访问,不过,订阅价格就有点「不讲武德」,最高可去到 3000 美元/年档位,成了不少用户吐槽的焦点。
这么一比,OpenAI 、Anthropic 以及 Perplexity 的 200 刀/月套餐都显得实惠许多。
值得一提的是,发布后不久就有网友表示,Grok-4 与 Grok-4-Heavy 模型已经被成功「越狱」。越狱后的能力极其危险,可绕过安全护栏,输出敏感或非法信息,比如化学武器合成步骤、《星球大战1》的完整剧本(涉嫌版权)、甚至勒索病毒(恶意代码)等。
不只会说话,Grok Voice 还有了「灵魂」
除了更强的推理能力,更聪明,Grok 4 这次也在「更像人」这件事上,迈出了一大步。
跟我们熟悉的语音助手不同,xAI 全新语音助手「Eve」不只是能答话,它能表达情绪、有语调变化,甚至还能现场「唱歌」。
在直播现场的演示上,它用一口优雅的英音,唱了一首即兴创作的「Diet Coke 咏叹调」,「O Diet Coke, thou elixir divine…」听起来真的不像是 AI,像是伦敦剧场里的舞台演员在表演。
这次语音模型一共上线了五种声音,包括直播开场的「电影一般的预告男声」Sal,以及支持低延迟、自然停顿、情绪起伏等能力的 Eve。
现场还安排了一段和 ChatGPT Voice 的对比演示,两者轮流复述数字。ChatGPT 时不时「抢答」,有点像没听清就硬接话的同学。而 Grok 的表现更流畅、更贴近人类说话习惯,而且不会打断用户说话。
发布会上提到,自语音模型上线以来,Grok Voice 的端到端延迟缩短了两倍,活跃用户也增长了 10 倍。Grok Voice 正在迅速发展。
马斯克:让 Grok 去开一百万个自动售货机赚钱
几个 Grok 4 API 的应用场景让我印象非常深刻。
比如,在一项自动售货机商业模拟 Vending-Bench中,Grok 被要求自主完成:供应商协商、库存管理、定价策略,连续完成并长期保持盈利。
▲注:Vending-Bench 是一个专门设计用于测试基于 LLM 的代理,在管理一个简单但长期运行的业务场景中的能力:运营一台自动售货机。
测试结果显示,Grok 4 不仅登顶排行榜,而且它所获得的净资产是其他模型的两倍。连马斯克都开始调侃说:「以后买显卡的钱,可以让 Grok 去部署运营一百万个自动售卖机赚回来」。
在科研领域,Grok 4 已被用于 CRISPR 基因研究和胸片 X 光分析。它能在几秒钟内读完几百万条实验记录和日志,自动筛出最有可能成功的假设。
此外,像是金融领域、游戏开发等项目,都可以通过 xAI API 来使用 Grok 4 来实现。发布会上特别提到了一个游戏设计师,他在 xAI 发布了 Grok 4 预览 API 后,就立刻参与测试。然后,他花了短短 4 小时就做出了一个第一人称射击游戏。
Grok 4 不是终点。发布会最后预告了接下来的路线图,每一项都非常值得期待。
- 代码模型:这次竟然没有发布 Grok Code,不过 xAI 提到正在训练了,一个「又快又聪明」的代码模型将会在几周内上线。
- 多模态能力:Grok 4 在图像理解上表现依旧是有限,团队也说正在以更大规模训练下一个版本,预计会在图像、视频和音频理解上迎来质变,到时 Grok 将能「像人类一样看世界」。
- 视频生成:xAI 说将使用大规模的算力资源,进行视频生成模型的训练。他们的最终目标是做到图生视频,生成可交互的「无尽视频流」,让用户能边看边参与剧情走向。
可能有不少朋友已经发现,这次发布会还有两个熟悉的华人面孔。他们正是 xAI 的联合创始人——吉米·巴(Jimmy Ba)和吴宇怀(Yuhuai Wu)。
其中,吴宇怀(Yuhuai Wu)本科以满绩点毕业于加拿大纽布伦斯威克大学,并在 2021 年获得多伦多大学机器学习博士学位,期间曾师从「深度学习之父」杰弗里·辛顿。
博士阶段,他还曾在 Google DeepMind 和 OpenAI 实习,毕业后在 Google 任职,并在斯坦福大学从事博士后研究。
吴宇怀的研究重点是打造具备强推理能力的人工智能系统,先后主导或参与了自训练推理模型 STAR、语言模型 Minerva 以及定理证明器 Alpha Geometry 等项目,并在《Nature》等顶刊上发表论文,推动 AI 在数学推理领域实现突破。
▲ 吴宇怀(左二)和吉米·巴(左三)
坐在他身旁的吉米·巴(Jimmy Ba)则是多伦多大学计算机科学系的助理教授,也是吴宇怀博士时期的导师之一。
他同样出身于辛顿门下,是深度学习训练优化领域的关键人物。
最为人熟知的,是他与合作者共同提出了 Adam Optimizer(自适应矩估计优化器)——如今几乎成为深度神经网络训练的默认算法。可以说,他的博士论文为现代 AI 训练机制奠定了坚实理论基础。
不得不说,Gork 4 的到来适逢其时。
前代 Grok 3 的热度来得猛,退得也快。
根据知名市场分析机构 SimilarWeb 发布的截至 5 月 9 日的《2025年全球生成式AI行业趋势报告》,Grok 从三月流量暴涨超 100 万倍,到五月增幅跌回 5200%。
相比前代仓促上线、草草交卷的节奏,这次的 Grok 4 明显放慢了脚步,在产品打磨上也更下功夫。归根结底,马斯克的光环可以帮 Grok 带来第一波流量,但能不能留下用户,还得靠模型本身的硬实力。
只不过,我没记错的话,马斯克当初在 Grok 3 发布时,还信誓旦旦说要把 Grok 2 开源。眼看五个月过去了,这事儿却毫无动静,这次发布会上也没再提半句。
老马啊,可不能宽于律己,严以待人呀。
作者:张子豪、莫崇宇
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
HW-whistleblower|盘古之殇:华为诺亚盘古大模型研发历程的心酸与黑暗

CDT编者按:该帖为网友匿名投稿,内容仅供参考,其真实性中国数字时代无法独立核查。
@whyyoutouzhele:7月6日凌晨5点,一自称是华为盘古AI团队员工在Github写6000字匿名自述,曝光华为盘古大模型造假,多次套壳竞品AI(阿里千问和Deepseek等)文章还批判了华为内部繁重的管理流程和内部政治斗争,导致大量人才跳槽。7月5日,华为曾发声明否认抄袭。目前,该篇文章在Github获得3.4k点赞。
相关阅读:
各位好,
我是一名盘古大模型团队,华为诺亚方舟实验室的员工。
首先为自证身份,列举一些细节:
-
现诺亚主任,前算法应用部部长,后改名为小模型实验室的主任王云鹤。前诺亚主任:姚骏(大家称姚老师)。几个实验室主任:唐睿明(明哥,明队,已离职),尚利峰,张维(维哥),郝建业(郝老师),刘武龙(称呼为武龙所)等。其他骨干成员和专家陆续有很多人离职。
-
我们隶属于“四野”这个组织。四野下属有许多纵队,基础语言大模型是四纵。王云鹤的小模型是十六纵队。我们参加过苏州的集结,有各种月份的时间节点。在苏州攻关会颁发任务令,需要在节点前达成目标。苏州集结会把各地的人员都集中在苏州研究所,平常住宾馆,比如在甪直的酒店,与家人孩子天各一方。
-
在苏州集结的时候周六默认上班,非常辛苦,不过周六有下午茶,有一次还有小龙虾。在苏州研究所的工位搬迁过一次,从一栋楼换到了另一栋。苏州研究所楼栋都是欧式装修,门口有大坡,里面景色很不错。去苏州集结一般至少要去一周,甚至更久,多的人甚至一两个月都回不了家。
-
诺亚曾经传说是研究型的,但是来了之后因为在四野做大模型项目,项目成员完全变成了交付型的,且充满了例会,评审,汇报。很多时候做实验都要申请。团队需要对接终端小艺,华为云,ICT等诸多业务线,交付压力不小。
-
诺亚研发的盘古模型早期内部代号叫做“盘古智子”,一开始只有内部需要申请试用的网页版,到后续迫于压力在welink上接入和公测开放。
作者:HW-whistleblower
发表日期:2025.7.9
来源:Github
主题归类:华为
CDS收藏:公民馆
版权说明:该作品版权归原作者所有。中国数字时代仅对原作进行存档,以对抗中国的网络审查。详细版权说明。
这些天发生关于质疑盘古大模型抄袭千问的事情闹的沸沸扬扬。作为一个盘古团队的成员,我最近夜夜辗转反侧,难以入眠。盘古的品牌受到如此大的影响,一方面,我自私的为我的职业发展担忧,也为自己过去的努力工作感到不值。另一方面,由于有人开始揭露这些事情我内心又感到大快人心。在多少个日日夜夜,我们对内部某些人一次次靠着造假而又获得了无数利益的行为咬牙切齿而又无能为力。这种压抑和羞辱也逐渐消磨了我对华为的感情,让我在这里的时日逐渐浑浑噩噩,迷茫无措,时常怀疑自己的人生和自我价值。
我承认我是一个懦弱的人,作为一个小小的打工人,我不仅不敢和王云鹤等内部手眼通天的人做对,更不敢和华为这样的庞然大物做对。我很怕失去我的工作,毕竟我也有家人和孩子,所以我打心眼里很佩服揭露者。但是,看到内部还在试图洗地掩盖事实,蒙蔽公众的时候,我实在不能容忍了。我也希望勇敢一次,顺从自己本心。就算自损八百,我也希望能伤敌一千。我决定把我在这里的所见所闻(部分来自于同事口述)公布出来,关于盘古大模型的“传奇故事”:
华为确实主要在昇腾卡上训练大模型(小模型实验室有不少英伟达的卡,他们之前也会用来训练,后面转移到昇腾)。曾经我被华为“打造世界第二选择”的决心而折服,我本身也曾经对华为有深厚的感情。我们陪着昇腾一步步摸爬滚打,从充满bug到现在能训出模型,付出了巨大的心血和代价。
最初我们的算力非常有限,在910A上训练模型。那会只支持fp16,训练的稳定性远不如bf16。盘古的moe开始很早,23年就主要是训练38Bmoe模型和后续的71B dense模型。71B的dense模型通过扩增变成了第一代的135Bdense模型,后面主力模型也逐渐在910B上训练。
71B和135B模型都有一个巨大的硬伤就是tokenizer。当时使用的tokenizer编码效率极低,每个单个的符号,数字,空格,乃至汉字都会占用一个token。可想而知这会非常浪费算力,且使得模型的效果很差。这时候小模型实验室正好有个自己训的词表。姚老师当时怀疑是不是模型的tokenizer不好(虽然事后来看,他的怀疑是无疑正确的),于是就决定,让71B和135B换tokenizer,因为小模型实验室曾经尝试过。团队缝合了两个tokenizer,开始了tokenizer的更换。71B模型的更换失败了,而135B因为采用了更精细的embedding初始化策略,续训了至少1T的数据后词表总算更换成功,但可想而知,效果并不会变好。
于此同期,阿里和智谱等国内其他公司在GPU上训练,且已经摸索出了正确的方法,盘古和竞品的差距越来越大。内部一个230B从头训练的dense模型又因为各种原因训练失败,导致项目的状况几乎陷入绝境。面临几个节点的压力以及内部对盘古的强烈质疑时,团队的士气低迷到了极点。团队在算力极其有限的时候,做出了很多努力和挣扎。比如,团队偶然发现当时的38B moe并没有预期moe的效果。于是去掉了moe参数,还原为了13B的dense模型。由于38B的moe源自很早的pangu alpha 13B,架构相对落后,团队进行了一系列的操作,比如切换绝对位置编码到rope,去掉bias,切换为rmsnorm。同时鉴于tokenizer的一些失败和换词表的经验,这个模型的词表也更换为了王云鹤的小模型实验室7B模型所使用的词表。后面这个13B模型进行了扩增续训,变成了第二代38B dense模型(在几个月内这个模型都是主要的盘古中档位模型),曾经具有一定的竞争力。但是,由于更大的135B模型架构落后,且更换词表模型损伤巨大(后续分析发现当时更换的缝合词表有更严重的bug),续训后也与千问等当时国内领先模型存在很大差距。这时由于内部的质疑声和领导的压力也越来越大。团队的状态几乎陷入了绝境。
在这种情况下,王云鹤和他的小模型实验室出手了。他们声称是从旧的135B参数继承改造而来,通过训练短短的几百B数据,各项指标平均提升了十个点左右。实际上,这就是他们套壳应用到大模型的第一次杰作。华为的外行领导内行,使得领导完全对于这种扯淡的事情没有概念,他们只会觉得肯定是有什么算法创新。经过内部的分析,他们实际上是使用Qwen 1.5 110B续训而来,通过加层,扩增ffn维度,添加盘古pi论文的一些机制得来,凑够了大概135B的参数。实际上,旧的135B有107层,而这个模型只有82层,各种配置也都不一样。新的来路不明的135B训练完很多参数的分布也和Qwen 110B几乎一模一样。连模型代码的类名当时都是Qwen,甚至懒得改名。后续这个模型就是所谓的135B V2。而这个模型当时也提供给了很多下游,甚至包括外部客户。
这件事对于我们这些认真诚实做事的同事们带来了巨大的冲击,内部很多人其实都知道这件事,甚至包括终端和华为云。我们都戏称以后别叫盘古模型了,叫千古吧。当时团队成员就想向bcg举报了,毕竟这已经是重大的业务造假了。但是后面据说被领导拦了下来,因为更高级别的领导(比如姚老师,以及可能熊总和查老)其实后面也知道了,但是并不管,因为通过套壳拿出好的结果,对他们也是有利的。这件事使得当时团队几位最强的同事开始心灰意冷,离职跑路也逐渐成为挂在嘴边的事。
此时,盘古似乎迎来了转机。由于前面所述的这些盘古模型基本都是续训和改造而来,当时诺亚完全没有掌握从头训练的技术,何况还是在昇腾的NPU上进行训练。在当时团队的核心成员的极力争取下,盘古开始了第三代模型的训练,付出了巨大的努力后,在数据架构和训练算法方面都与业界逐渐接轨,而这其中的艰辛和小模型实验室的人一点关系都没有。
一开始团队成员毫无信心,只从一个13B的模型开始训练,但是后面发现效果还不错,于是这个模型后续再次进行了一次参数扩增,变成了第三代的38B,代号38B V3。想必很多产品线的兄弟都对这个模型很熟悉。当时这个模型的tokenizer是基于llama的词表进行扩展的(也是业界常见的做法)。而当时王云鹤的实验室做出来了另一个词表(也就是后续pangu系列的词表)。当时两个词表还被迫进行了一次赛马,最终没有明显的好坏结论。于是,领导当即决定,应该统一词表,使用王云鹤他们的。于是,在后续从头训练的135B V3(也就是对外的Pangu Ultra),便是采用了这个tokenizer。这也解释了很多使用我们模型的兄弟的疑惑,为什么当时同为V3代的两个不同档位的模型,会使用不同的tokenizer。
我们打心眼里觉得,135B V3是我们四纵团队当时的骄傲。这是第一个真正意义上的,华为全栈自研,正经从头训练的千亿级别的模型,且效果与24年同期竞品可比的。写到这里我已经热泪盈眶,太不容易了。当时为了稳定训练,团队做了大量实验对比,并且多次在模型梯度出现异常的时候进行及时回退重启。这个模型真正做到了后面技术报告所说的训练全程没有一个loss spike。我们克服了不知道多少困难,我们做到了,我们愿用生命和荣誉保证这个模型训练的真实性。多少个凌晨,我们为了它的训练而不眠。在被内部心声骂的一文不值的时候,我们有多么不甘,有多少的委屈,我们挺住了。
我们这帮人是真的在为打磨国产算力底座燃烧自己的青春啊……客居他乡,我们放弃了家庭,放弃了假期,放弃了健康,放弃了娱乐,抛头颅洒热血,其中的艰辛与困苦,寥寥数笔不足以概括其万一。在各种动员大会上,当时口号中喊出的盘古必胜,华为必胜,我们心里是真的深深被感动。
然而,我们的所有辛苦的成果,经常被小模型实验室轻飘飘的拿走了。数据,直接要走。代码,直接要走,还要求我们配合适配到能一键运行。我们当时戏称小模型实验室为点鼠标实验室。我们付出辛苦,他们取得荣耀。果然应了那句话,你在负重前行是因为有人替你岁月静好。在这种情况下,越来越多的战友再也坚持不下去了,选择了离开。看到身边那些优秀的同事一个个离职,我的内心又感叹又难过。在这种作战一样的环境下,我们比起同事来说更像是战友。他们在技术上也有无数值得我学习的地方,堪称良师。看到他们去了诸如字节Seed,Deepseek,月之暗面,腾讯和快手等等很多出色的团队,我打心眼里为他们高兴和祝福,脱离了这个辛苦却肮脏的地方。我至今还对一位离职同事的话记忆犹新,ta说:“来这里是我技术生涯中的耻辱,在这里再呆每一天都是浪费生命”。话虽难听却让我无言以对。我担心我自己技术方面的积累不足,以及没法适应互联网公司高淘汰的环境,让我多次想离职的心始终没有迈出这一步。
盘古除了dense模型,后续也启动了moe的探索。一开始训练的是一个224B的moe模型。而与之平行的,小模型实验室也开启了第二次主要的套壳行动(次要的插曲可能还包括一些别的模型,比如math模型),即这次流传甚广的pangu pro moe 72B。这个模型内部自称是从小模型实验室的7B扩增上来的(就算如此,这也与技术报告不符,何况是套壳qwen 2.5的14b续训)。还记得他们训了没几天,内部的评测就立刻追上了当时的38B V3。AI系统实验室很多兄弟因为需要适配模型,都知道他们的套壳行动,只是迫于各种原因,无法伸张正义。实际上,对于后续训了很久很久的这个模型,Honestagi能够分析出这个量级的相似性我已经很诧异了,因为这个模型为了续训洗参数,所付出的算力甚至早就足够从头训一个同档位的模型了。听同事说他们为了洗掉千问的水印,采取了不少办法,甚至包括故意训了脏数据。这也为学术界研究模型血缘提供了一个前所未有的特殊模范吧。以后新的血缘方法提出可以拿出来溜溜。
24年底和25年初,在Deepseek v3和r1发布之后,由于其惊艳的技术水平,团队受到了巨大的冲击,也受到了更大的质疑。于是为了紧跟潮流,盘古模仿Deepseek的模型尺寸,开启了718B moe的训练。这个时候,小模型实验室再次出手了。他们选择了套壳Deepseekv3续训。他们通过冻住Deepseek加载的参数,进行训练。连任务加载ckpt的目录都是deepseekv3,改都不改,何其嚣张?与之相反,一些有真正技术信仰的同事,在从头训练另一个718B的moe。但其中出现了各种各样的问题。但是很显然,这个模型怎么可能比直接套壳的好呢?如果不是团队leader坚持,早就被叫停了。
华为的流程管理之繁重,严重拖累了大模型的研发节奏,例如版本管理,模型血缘,各种流程化,各种可追溯。讽刺的是,小模型实验室的模型似乎从来不受这些流程的约束,想套壳就套壳,想续训就续训,算力源源不断的伸手拿走。这种强烈到近乎魔幻的对比,说明了当前流程管理的情况:只许州官放火,不许百姓点灯。何其可笑?何其可悲?何其可恶?何其可耻!
HonestAGI的事情出来后,内部让大家不停的研讨分析,如何公关和“回应”。诚然,这个原文的分析也许不够有力,给了王云鹤与小模型实验室他们狡辩和颠倒黑白的机会。为此,这两天我内心感到作呕,时时怀疑自己的人生意义以及苍天无眼。我不奉陪了,我要离职了,同时我也在申请从盘古部分技术报告的作者名单中移除。曾经在这些技术报告上署名是我一生都无法抹除的污点。当时我没想到,他们竟然猖狂到敢开源。我没想到,他们敢如此愚弄世人,大肆宣发。当时,我也许是存了侥幸心理,没有拒绝署名。我相信很多扎实做事的战友,也只是被迫上了贼船,或者不知情。但这件事已经无法挽回,我希望我的余生能够坚持扎实做真正有意义的事,为我当时的软弱和不坚定赎罪。
深夜写到这里,我已经泪流满面,泣不成声。还记得一些出色的同事离职时,我苦笑问他们要不要发个长长的心声惯例帖,揭露一下现状。对方说:不了,浪费时间,而且我也怕揭露出来你们过的更糟。我当时一下黯然神伤,因为曾经共同为了理想奋斗过的战友已经彻底对华为彻底灰心了。当时大家调侃,我们用着当年共产党的小米加步枪,组织却有着堪比当年国民党的作风。
曾几何时,我为我们用着小米加步枪打败洋枪洋炮而自豪。
现在,我累了,我想投降。
其实时至今日,我还是真心希望华为能认真吸取教训,能做好盘古,把盘古做到世界一流,把昇腾变成英伟达的水平。内部的劣币驱逐良币,使得诺亚乃至华为在短时间内急剧流失了大量出色的大模型人才。相信他们也正在如Deepseek等各个团队闪耀着,施展着他们的抱负才华,为中美在AI的激烈竞赛中奉献力量。我时常感叹,华为不是没有人才,而是根本不知道怎么留住人才。如果给这些人合适的环境,合适的资源,更少的枷锁,更少的政治斗争,盘古何愁不成?
最后:我以生命,人格和荣誉发誓,我写的以上所有内容均为真实(至少在我有限的认知范围内)。我没有那么高的技术水平以及机会去做详尽扎实的分析,也不敢直接用内部记录举证,怕因为信息安全抓到。但是我相信我很多曾经的战友,会为我作证。在华为内部的兄弟,包括我们曾经服务过的产品线兄弟们,相信本文的无数细节能和你们的印象对照,印证我的说法。你们可能也曾经被蒙骗,但这些残酷的真相不会被尘封。我们奋战过的痕迹,也不应该被扭曲和埋葬。
写了这么多,某些人肯定想把我找出来,抹杀掉。公司搞不好也想让我噤声乃至追责。如果真的这样,我,乃至我的家人的人身乃至生命安全可能都会受到威胁。为了自我保护,我近期每天会跟大家报平安。
如果我消失了,就当是我为了真理和理想,为了华为乃至中国能够更好地发展算力和AI而牺牲了吧,我愿埋葬于那片曾经奋斗过的地方。
诺亚,再见
2025年7月6日凌晨 写于深圳
各位好,
感谢大家的关心与祝福。我目前暂时安全,但公司应该在进行排查与某些名单收集,后续情况未知。
我补充一些细节,以免某些人继续颠倒黑白。
关于135B V2,小模型实验室在迅速地完成套壳并拿完所有套壳带来的好处后(比如任务令表彰和及时激励),因为不想继续支撑下游应用和模型迭代,又把这个烫手山芋甩给了四纵。确实技高一筹,直接把四纵的兄弟们拉下水。同事提供过去一个老旧的模型,最终拿回了一个当时一个魔改的先进的千问。做大模型的人,自己做的模型就像自己孩子一样熟悉,不要把别人都当傻子。就像自家儿子出门一趟,回来个别人家孩子。
盘古report的署名是不符合学术规范的。例如,135B V3有不少有技术贡献的人,因为作者名额数量限制,劳动成果没有得到应有的回报,团队内曾经有不小的意见。这个模型当时是大家智慧和汗水的结晶,甚至是团队当时的精神支柱,支撑着不少兄弟们继续留在诺亚。所谓的名额限制,以及挂名了一些毫无技术贡献的人(如一些小模型实验室的人),让兄弟们何其心寒。
暂时平安。另外,支持我勇于说出真相的战友们 #317
报个平安。
四纵团队历经千辛万苦,做到在超大昇腾集群从头训练出135B dense和718B moe(不是王云鹤套壳的那个)。这给团队乃至国内业界都提供了一个定心丸,即昇腾上是能做到训练好千亿dense乃至准万亿moe的。昇腾的客户发挥好自身算法和数据等优势,完全有可能在国产算力上研发出一流的模型。
而数据方面,早期确实拉胯,但后面到了V3代数量质量都有了很大改善。王云鹤团队由于几乎不碰数据的收集清洗处理流程(当然,他们会一键下载),对数据的了解恐怕也只停留在PPT层面,并不觉得能从头训练出好的模型。所以,他们选择了一套再套。毕竟,不劳而获是会上瘾的。
打工人天天用的三件套,被飞书用 AI 重做了一遍,还将打通企微和钉钉
曾几何时,OpenAI、Anthropic 等巨头还在死磕大模型,转头便卷起 AI 编程等行业,另一边,不少用户开始从各种炫技的 demo 回过神来,重新审视 AI 工具的稳定性、可交付性,甚至是使用方式本身。
硅谷知名增长策略专家和顾问 Elena Verna 最近提出了一个名为 AI 原生员工的概念,指的是那些天生以 AI 工具为工作核心、能够无缝协作并高效驱动产品交付的职场个体。
在她看来,真正的 AI 原生员工不是在用 AI 工具,而是默认以 AI 为工作引擎,跳过传统的流程设计、角色划分、文档撰写和任务交接,直接进入构建与交付阶段。
以 Lovable 为代表的 AI 初创公司,便是这样一个典型的样本。
不到 35 人的团队,靠 AI 原生的工作流,在 7 个月内做到了 8000 万美元 ARR(年度经常性收入),而他们的秘诀正是每名员工都默认「先问 AI,再交付」。
▲ 飞书 CEO 谢欣
对大多数公司来说,复制这种工作节奏并非易事,问题不在于人力或预算,而在于思维方式,除此之外,还得有一整套匹配的新工具、新流程,甚至是一种全新的协作逻辑。
就在今天,飞书召开了最新的 AI 产品发布会,发布并升级了知识问答、AI 会议、飞书妙搭等多款 AI 产品,尤其值得注意的是,飞书还宣布多维表格未来将支持企业微信和钉钉,能够跨平台融入用户现有协作环境。
此外,为了帮助用户判断 AI 工具的可用性,飞书团队还提出了一套「AI 产品成熟度模型」理论,把所有产品的 AI 能力分为四个等级,从使用者的视角出发,帮他们判断一个功能是否靠谱、是否能用。
划重点:
- 知识问答不需要提前搭知识库,能从企业文档中直接抓出答案、理解权限并结构化输出,现在是 M3 等级。
- AI 会议支持实时纪要、声纹识别和会后速递,继续走实用派,已经落地到了 M4。
- 多维表格是更新最重的一块,表格撑到千万行、千人协同都不是重点。重点是现在已经支持企业微信,钉钉也快了。此外,它还能拿来搭系统、跑流程,AI 也完全嵌入到表格每一个字段、节点和操作里。
- 企业也能 Vibe Coding,从需求分析到应用构建一整套链路,开发套件提供了企业级 AI 开发全家桶,适合各种规模的公司。
知识问答:最懂公司业务的 AI 秘书
在企业内部,知识往往分散在不同系统、文档、聊天记录中,查找效率低、重复沟通成本高。
飞书试图用「知识问答」这个功能,来回应这一长期存在的结构性问题。目标并不复杂:做一个能随时调用、响应权限、贴近业务的企业内搜索工具。
目前,这项能力已经达到 M3 等级,在多数常见场景下能够稳定使用。
当你在工作中遇到问题时,可随时向它提问,飞书知识问答会基于用户在系统中可访问的文档、知识库、聊天记录等信息,生成结构化的回复内容。
具体来说,当你输入「飞书鸿蒙项目进展怎么了」,系统即可快速给出整理后的进度摘要,实时跟踪项目信息。
与多数 AI 工具需要手动构建知识库不同,飞书的知识问答并不依赖预设结构,而是基于企业日常使用中自然沉淀下来的内容进行响应。
以某家央企为例,员工在一年内创建了 940 万篇文档。这也意味着,飞书知识问答可以不依赖通用模型的泛化回答,而是对权限体系进行深度解析之后,尽量保障回答的准确性与上下文一致性。
飞书 AI 会议升级了,甚至能听出你是谁
AI 会议是飞书推出最早、最成熟的 AI 产品功能,目前已达到 M4 级别,支持在不同会议场景中生成内容摘要、回放、要点归纳与行动事项提炼。
它可以处理多种输入形式:无录制的实时纪要、会后音视频导入生成、会议中实时生成逐字稿……所有会议内容都能被系统自动转化为结构化的知识资产。
其中一项值得注意的功能是声纹识别,它可以识别不同发言者的身份角色,更精确地标注和归集内容,提高会议记录的可追踪性。
在此次产品更新中,飞书会议速递功能,还可以自动回顾用户过去一周的会议要点,输出:高频讨论主题、每日会议速览、关键结论梳理以及待办事项追踪等。
那么这到底能带来什么变化?以鹏飞集团为例,这是一家员工超过 2.5 万的大型能源企业,日均需要召开约 400 场「班前会」,内容涉及安全、规范、作业流程等核心事项。
过去依赖人工抽查,效率低。接入飞书 AI 会议后,系统能够自动生成质检报告,使得管理层可在 5 分钟内完成原本需要数小时的抽查流程,且会议覆盖率提升超过 15 倍。
飞书多维表格掀桌了,将支持接入钉钉企微
多维表格是这次发布会讲得最细的一部分。飞书说月活快破千万了,听着夸张,但结合它这次更新的内容,也能理解为什么。
这次主要围绕四个方向:数据库、仪表盘、应用模式和 AI 能力。
先说数据库。飞书推出了全球首个支持「千万行单表」的表格系统,协作上限也拉到了 1000 人。哪怕是上万行、几十列公式的表格,也能在一秒内计算完成,比市面上同类产品快十几倍。背后是它重构了计算引擎和协同算法,说人话就是,大数据也能稳稳跑。
仪表盘这块更接近轻量 BI 系统,新增了数据透视、切片器、图表联动等分析功能,支持 50 多种图表和多套模板,业务人员不用买 BI 软件,也能做出专业报表。
有个例子是大兴机场用它做了一个设备运维仪表盘,能实时追踪 14 万台设备的状态,还能自动生成运维报告和提醒。茶百道也用多维表格对全国超过八千多家门店的数据进行了可视化分析,各门店的设计进展一目了然,让整个筹建的周期也缩短了 40%。
我自己最关注的是它的应用模式。飞书现在的想法是:你不用写代码,也能用表格搭出一套电商后台、CRM 或行政系统。组件自由组合,权限也能精细控制。对预算有限但业务不简单的团队来说,这种「用表格搭系统」的能力很值钱。
AI 能力这次也做了非常大的升级。比如可以像写公式一样,在表格里直接调用 AI 功能,叫 AI 字段捷径。
你可以把它理解成,像写函数公式一样,在表格单元格里调用各种 AI 能力,帮助你做文案生成、内容提取、情感分析、图像识别等等。它的好处在于,每一行表都可以自动调用一套逻辑去处理数据,你不用再手动拷贝、切换工具。
第二项是 AI 接入工作流,让它自动判断、提取、录入信息。飞书还强调了他们不只是「接了大模型」,而是让 AI 能稳定理解流程、提取参数、按需执行。
飞书这次还专门创建了 228 个真实复杂的工作流评测集,在功能正式推出后,这些评测集也会公开给其他同类工具挑战。
AI Agent 也不能少,它能根据问题自主查表、调用多维表格,流程不止是跑预设动作,也能帮助你「想一步」。还有一个 AI 侧边栏,能边用表边提问分析。虽然部分功能还在预览,但负责人说在今年都会陆续上线。
有几个案例我印象挺深的,像是泡泡玛特,他们用多维表格做了一个爆款文案系统,自动抓平台内容、分析转化效果,再生成门店能直接用的内容素材,线上引流到线下,全都靠它跑。
另外,飞书也宣布多维表格未来将支持企业微信和钉钉。这不只是一个表格工具,而是在朝一个轻量业务系统平台去走了。
除了飞书知识问答、AI 会议、以及在多维表格全面升级 AI 表格,飞书正在试图搭一整套 AI 工作方式,畅想未来的 AI 软件形态,重新定义「人和 AI 在一起工作」这件事。
它整了一个专为企业打造的 AI 开发全家桶「 AI 开发套件」。在这个开发套件里,不仅有包含了多款适配于不同场景的 AI 开发工具「飞书妙搭」,让 Vibe Coding 直接面向企业。
飞书的 aPaaS 也完成了多项 AI 迭代更新。从需求分析、功能设计、数据管控、应用开发,再到问题修复;每个模块都有专业的 Agent 在背后支持,在提升交付质量的同时,有望带来更好的开发体验。
每天都有新模型发布,AI 产品越来越多,真正能融入企业流程、替人干实事的产品,始终屈指可数。当模型不再稀奇,工具也琳琅满目,真正稀缺的,是那些能撑得住业务、扛得起流程重量的产品。
纵观整场发布会,飞书给出了一个更脚踏实地的答案,也让飞书成为少数明确界定产品成熟度边界的公司之一。
过去三年,我们见过太多炸裂的演示 demo 猛刷存在感,而 M3 和 M4 的划分,是飞书内部对可交付性的要求。一个功能如果只是偶尔有效、不具备稳定性,就不会推向企业客户。
截至目前,飞书已发布的知识问答、会议纪要、多维表格等功能,均基于这一标准。能否降本增效,能否顺利嵌入现有系统架构,是评估标准的全部。
用飞书 CEO 谢欣的话来说:
「我们今天发布的每一个飞书 AI 功能,我们都会标清楚是什么等级。我们让大家的选择更加透明,我们认为这是 AI 从业者其实很必要的一个企业责任。」
想象力撑起了 AI 的上半场,真正决定下半场的,是落地的能力。今天飞书没打算用一小时的发布会回答所有问题,但在 AI 工具能不能用、又该怎么用这个现实命题上,它确实已经比大多数公司说得更明白。
作者:张子豪、莫崇宇
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
Cryptexes, AI and Creedence Clearwater Revival
Somewhen around late versions of macOS Monterey, and certainly by the release of Ventura, macOS started to use cryptexes to load Safari and parts of the operating system including dyld caches, rather than installing them to the Data volume. Over a period of three months, cryptexes were also used to install Rapid Security Responses (RSRs) in an experiment that was quickly discontinued. What I hadn’t realised until recently was that they are also used to deliver much of the additional components required to support Apple Intelligence features in Apple silicon Macs. This article looks as how that works.
Cryptexes
These first appeared on Apple’s customised iPhone, its Security Research Device, which uses them to load a personalised trust cache and a disk image containing corresponding content. Without the cryptex, engineering those iPhones would have been extremely difficult. According to its entry in the File Formats Manual from five years ago (man cryptex
), ‘A cryptex is a cryptographically-sealed archive which encapsulates a well-defined filesystem hierarchy. The host operating system recognizes the hierarchy of the cryptex and extends itself with the content of that hierarchy. The name cryptex is a portmanteau for “CRYPTographically-sealed EXtension”.’
In practice, a cryptex is a sealed disk image containing its own file system, mounted at a randomly chosen location within the root file system during the boot process. Prior to mounting the cryptex, macOS verifies it matches its seal, thus hasn’t been tampered with. Managing these cryptexes is the task of the cryptexd
service with cryptexctl
. Because cryptexes aren’t mounted in the usual way, they’re not visible in mount lists such as that produced by mount(8)
.
System cryptexes
Once kernel boot is well under way, APFS mounts containers and volumes in the current boot volume group, followed by others to be mounted at startup. When those are complete, it turns to mounting and grafting the three standard system cryptexes:
- os.dmg, around 6 GB (macOS 15.5), containing system components such as dyld caches;
- app.dmg, around 23 MB, containing Safari and supporting components;
- os.clone.dmg, apparently a copy of os.dmg and the same size.
AI cryptex collection
About 5 seconds later, and over 14 seconds after APFS first started work, it checks and grafts a series of 23 cryptexes primarily involved with Apple Intelligence features. These are handled one at a time in succession, each reported in a sequence of log entries as follows (times in seconds after an arbitrary start).
First the Image4 file containing the cryptex is validated9.434431 root_hash_execution_cb_mobile_asset:3066: image4_trust_evaluate: successfully validated the payload and the manifest
Then it’s grafted into the file system of the Data volume as a ‘PFK volume’. In this extract I omit the bulk of the cryptex’s name using […] for the sake of brevity.9.434465 apfs_graft:695: disk3s5 Grafting on a PFK volume
9.434509 graft_dev_init:480: disk3 UC_[…]_Cryptex.dmg GRAFT (compiled @ Apr 22 2025 19:49:43)
9.434514 graft_dev_init:484: disk3 UC_[…]_Cryptex.dmg device_handle block size 4096 real block size 4096 block count 11264 features 0 internal VEK
9.434695 nx_mount:1308: UC_[…]_Cryptex.dmg initializing cache w/hash_size 512 and cache size 512
9.437484 nx_mount:1630: UC_[…]_Cryptex.dmg checkpoint search: largest xid 15, best xid 15 @ 7
9.437497 nx_mount:1657: UC_[…]_Cryptex.dmg stable checkpoint indices: desc 6 data 31
9.438117 er_state_obj_get_for_recovery:8420: UC_FM_LANGUAGE_INSTRUCT_3B_CONC No ER state object for volume RevivalB13M201388.UC_[…]_Cryptex - rolling is not happening, nothing to recover.
9.438124 apfs_log_op_with_proc:3263: UC_FM_LANGUAGE_INSTRUCT_3B_CONC grafting volume RevivalB13M201388.UC_[…]_Cryptex, requested by: mobileassetd (pid 457); parent: launchd (pid 1)
Note the volume name starts with Revival. Names of all other cryptex volumes in the AI collection start with the same code name, except for the PKI cryptex examined below, which uses Creedence instead. Perhaps these are a reference to Creedence Clearwater Revival?
The root hash of the cryptex file system is then authenticated9.438156 graft_dev_blockmap_lut_switch_to_metadata_based_if_needed:1312: UC_FM_LANGUAGE_INSTRUCT_3B_CONC lut contains 26 extents, 3 of which contain metadata
9.438160 is_root_hash_authentication_required_osx:387: UC_FM_LANGUAGE_INSTRUCT_3B_CONC Release kext with internal build: 0, ARV disabled: 0, booting xid: 0
9.438164 is_root_hash_authentication_required_osx:418: UC_FM_LANGUAGE_INSTRUCT_3B_CONC strict graft, root hash authentication failure is required
9.438167 is_root_hash_authentication_required:557: UC_FM_LANGUAGE_INSTRUCT_3B_CONC Strict Graft, root hash authentication is required
9.438179 authenticate_root_hash:642: UC_FM_LANGUAGE_INSTRUCT_3B_CONC successfully validated on-disk root hash
9.438191 apfs_lookup_ge_jobj_id:5028: disk3s5 Found OBJID 0x66a1b8 type 3
The graft is then completed.9.438195 apfs_graft:1045: disk3s5 Graft ino 6557986, jobj_id range 6725836+76
9.438396 apfs_graft:1138: disk3s5 successfully grafted ino 6557986 on dir 6725835, dev_name [UC_[…]_Cryptex.dmg]
Fortunately, these log entries provide the inode number for the location of the grafted cryptex, and that can be used in Mints to obtain its full path.
Among the AI cryptex collection is a secure public key infrastructure (PKI) trust store, located at/System/Library/AssetsV2/com_apple_MobileAsset_PKITrustStore/purpose_auto/[…].asset/AssetData/Restore/SECUREPKITRUSTSTOREASSETS_SECUREPKITRUSTSTORE_Cryptex.dmg
In the log, this is recorded as being 4.2 MB in size, and that is the same size as reported for the .dmg file by the Finder. Disk images are in APFS (Case-sensitive) format, and might be identical to their equivalents provided for iOS and iPadOS.
When mounted, that disk image becomes a volume named Creedence11M6270.SECUREPKITRUSTSTOREASSETS_SECUREPKITRUSTSTORE_Cryptex. That contains many property lists, certificate data, a SystemRootCertificates keychain, and two property lists that are grafted into /System/Library/CoreServices.
The names of all 23 cryptex disk images included in the macOS 15.5 AI cryptex collection are given in the Appendix. All are given as being compiled at Apr 22 2025 19:49:43, the same as the system cryptexes, implying that they were installed as part of the macOS 15.5 update. The whole sequence of processing the AI cryptexes took 0.78 seconds to complete, and the total size of disk images mounted in that period was 7.2 GB, which is similar to the reported size of additional files required to support AI.
Conclusions
- Apple silicon Macs running macOS 15.5 with AI enabled load 23 additional cryptexes to support AI, totalling 7.2 GB.
- Those AI cryptexes are grafted into the Data volume, in paths starting /System/Library/AssetsV2.
- All except one have volume names starting with Revival
- One cryptex is a secure PKI trust store, whose volume name starts with Creedence instead.
- These cryptexes are installed and updated as part of macOS updates, although they could also be installed or updated separately, for example when AI is enabled.
- If a Mac shows an unusual mounted volume with a name starting with Creedence or Revival, that’s almost certainly the respective disk image, which should normally be hidden and not visible in the Finder.
Appendix
Disk image names for the AI cryptex collection in macOS 15.5 (Apple silicon):
- UC_FM_LANGUAGE_INSTRUCT_3B_CONCISE_TONE_DRAFT_GENERIC_GENERIC_H16S_Cryptex.dmg,
- UC_FM_LANGUAGE_INSTRUCT_3B_TEXT_EVENT_EXTRACTION_DRAFT_GENERIC_GENERIC_H16S_Cryptex.dmg,
- UC_FM_LANGUAGE_INSTRUCT_3B_PROOFREADING_REVIEW_DRAFT_GENERIC_GENERIC_H16S_Cryptex.dmg,
- UC_FM_VISUAL_IMAGE_DIFFUSION_V1_BASE_GENERIC_H16S_Cryptex.dmg,
- UC_FM_LANGUAGE_INSTRUCT_3B_BASE_GENERIC_GENERIC_H16S_Cryptex.dmg,
- UC_IF_PLANNER_NLROUTER_BASE_EN_GENERIC_H16S_Cryptex.dmg,
- UC_FM_LANGUAGE_INSTRUCT_3B_MAIL_REPLY_DRAFT_GENERIC_GENERIC_H16S_Cryptex.dmg,
- UC_FM_LANGUAGE_INSTRUCT_3B_DRAFTS_GENERIC_GENERIC_H16S_Cryptex.dmg,
- UC_FM_LANGUAGE_INSTRUCT_3B_SUMMARIZATION_DRAFT_GENERIC_GENERIC_H16S_Cryptex.dmg,
- UC_FM_LANGUAGE_INSTRUCT_3B_AUTONAMING_MESSAGES_DRAFT_GENERIC_GENERIC_H16S_Cryptex.dmg,
- UC_FM_LANGUAGE_INSTRUCT_3B_URGENCY_CLASSIFICATION_DRAFT_GENERIC_GENERIC_H16S_Cryptex.dmg,
- UC_FM_LANGUAGE_INSTRUCT_3B_MESSAGES_REPLY_DRAFT_GENERIC_GENERIC_H16S_Cryptex.dmg,
- UC_FM_LANGUAGE_INSTRUCT_3B_PROFESSIONAL_TONE_DRAFT_GENERIC_GENERIC_H16S_Cryptex.dmg,
- UC_FM_LANGUAGE_SAFETY_GUARDRAIL_BASE_GENERIC_GENERIC_H16S_Cryptex.dmg,
- UC_FM_LANGUAGE_INSTRUCT_3B_TEXT_EVENT_EXTRACTION_MULTILINGUAL_DRAFT_GENERIC_GENERIC_H16S_Cryptex.dmg,
- UC_FM_CODE_GENERATE_SMALL_V1_BASE_GENERIC_H16_Cryptex.dmg,
- UC_FM_LANGUAGE_INSTRUCT_3B_MAGIC_REWRITE_DRAFT_GENERIC_GENERIC_H16S_Cryptex.dmg,
- UC_FM_LANGUAGE_INSTRUCT_300M_BASE_GENERIC_GENERIC_H16S_Cryptex.dmg,
- UC_FM_LANGUAGE_INSTRUCT_3B_TEXT_PERSON_EXTRACTION_DRAFT_GENERIC_GENERIC_H16S_Cryptex.dmg,
- UC_FM_CODE_GENERATE_SAFETY_GUARDRAIL_BASE_GENERIC_H16S_Cryptex.dmg,
- UC_FM_LANGUAGE_INSTRUCT_3B_TEXT_PERSON_EXTRACTION_MULTILINGUAL_DRAFT_GENERIC_GENERIC_H16S_Cryptex.dmg,
- UC_FM_LANGUAGE_INSTRUCT_3B_FRIENDLY_TONE_DRAFT_GENERIC_GENERIC_H16S_Cryptex.dmg,
- SECUREPKITRUSTSTOREASSETS_SECUREPKITRUSTSTORE_Cryptex.dmg.
Given in the order that they are grafted.
液态玻璃意味着透明 iPhone 将争夺 AI+AR 的主动权|设以观复 vol.17

很多人把这次苹果 WWDC25 发布的液态玻璃界面,当作一次 UI 的新风格更新来看。界面变得更模糊了,更柔和了,也更「高科技感」了,但如果我们只是停留在它看起来好不好看,其实可能错过了一些更关键的东西。
因为这一次,苹果的改变并不仅仅发生在界面上,它背后所传递的,是一套新的交互前提。而这套前提,可能关系到未来十年我们如何使用手机,甚至 —— 我们是否还继续使用手机。
这期视频不是为了追热点,而是想带你冷静地拆解这套语言背后的逻辑:它是如何从视觉层出发,向平台层推进的?它和我们以为的「透明手机」之间,真的有联系吗?而眼镜设备仍未普及的这几年,我们到底应该关注什么?
如果这些问题你也在想,那就点进来看看吧。
播放地址:
https://www.bilibili.com/video/BV1yz3Bz8Ev2/
本期关联播客:https://suithink.me/2025/07/07/13ylog/
既然这 10 年间的所有线索(等边三摄、Face ID、Lidar、Liquid Glass)都指向空间计算,那显然 iPhone 就是每一个人都可以接触到的第一台空间计算设备。最便捷最普及的空间计算设备,才是让 AI(不止LLM)真正普及到每一个人手上的基础设施。
不是在国内,上个网就容易的
最近几天我上网的挫败感很强。
先是想分享我用 AI 绘制的两张高清大图,上传网盘设置好了一切之后,纷纷报告说「资源失效」,无法下载。而我自己访问没有问题,切换电脑,切换浏览器,一切都正常,但其他人就是不行。
然后是之前用这些图成功打印做成画框的读者分享网店,她先是写出网店的名字,其他读者说搜索不到。她放出订单截图,的确就是那个名字,大家依然搜索不到。我也去试过,指定搜索店铺,不行,减少几个字,不行,引号强制搜索,还是不行。
以前不是这样的。要分享什么资料,那就上传网盘,甩出一个链接,事情结束。要找什么网店,才输入头里几个字,后面的全称就自动联想出来,点一下就可以跳过去。怎么现在会变成了这幅模样?
我去搜索:网盘为什么会显示资源失效?网上给出的答案五花八门,可能是因为我没有开会员,可能是因为平台对图片内容敏感(无论穿没穿衣服),可能是因为短时间内访问流量太大……
这件事情的玄妙之处在于并没有官方解释,没有系统反馈,反正就是资源失效,具体的理由么,只能靠自己去意会。
我去搜索:为什么网店搜索不到?这一次答案更多:因为店铺新开,因为店铺成交不足,因为店铺违规限权,因为店铺没买关键词,因为店铺品名类目设置不当……
同样的,平台也没有任何解释,给了我一堆类似服务的店铺,感觉是有人在服务器那一头无所谓地笑着说:又不是只有这一家?
网盘限制这件事最后我貌似是解决了,那就是把图打包压缩成 Zip 文件,然后 Zip 文件再加密,起了个名字叫做「工程图纸」。反正这一次发布之后再没有读者嚷嚷无法访问,我猜测平台没有那么多资源来破解我的 Zip 文件密码,就只好听之任之。
网店搜索不到这件事现在对于我都还是一个谜,我是不大理解,为什么我输入了指定的关键词,却不能返回给我正确的结果。
然后也让我很震惊,因为之前我认为在电商平台上,我可以在无限家店里自由做选择,现在看来店铺既不是无限的,我也不是自由的。
联想到之前我的一些经历,我甚至都怀疑平台其实根据每个客人的消费数据,为每个人度身定做了一个网店圈,让人只能在这个范围内选择店铺,因为在这个范围内成交率最高。
想超出这个范围?除非是你朋友私下分享给你店铺网址,否则你搜都搜不到。
如果真是这样,这种圈养感未免也太强烈了一些。我希望事情并非如此,否则实在是太可怕了。
接连遇见这些让人感觉挫败的事情,直接影响到了我的心情和行为。上网那么多年来,现在是我分享欲最低的时候,因为我没有预料到如今在网上想分享几张图都那么麻烦,还要专门去做研究找方法。
与此同时,我在那个网购平台上的购买几乎立即就停滞了,因为我产生了深深的疑惑:如果我要搜索的店铺都搜索不到,那么我能搜索到的是什么?那些结果对于我是真有用还是对平台真有用?
所有这些经历和想法,在我这里归结为一个词,叫做:个人的网络处境。
我认为今天的个人网络处境并不乐观,受到的限制和盘剥太过严重。
比如说最近我就打算买硬盘和光驱,用硬盘和 CD 来储存我喜欢的音乐。原因是我虽然身为网易云音乐和 Tidal 的付费会员,结果当我想把音乐下载到本地方便离线收听的时候,我发现这些音乐文件全都是加密的特定格式。我下载了网易云音乐的音乐,那么就必须用网易云音乐播放器才能看见和播放。Tidal 也是同样,系统都看不见这些储存下来的音乐文件,更不用说用其他音乐播放器去播放了。
而且,这些音乐的访问权限和会员身份绑定。会员过期了,照样不能读取访问。得知这一点,我突然意识到我花钱买会员,购买到的只是个使用音乐文件的租赁权,而不是可以买一个音乐文件的数字拷贝。这样一来,如果我想听音乐,意味着我就要永远续费,因为我不曾真正拥有什么数字资产,我只是在租赁而已。
那我为什么不去自己购买高清数字音乐,自己购买 CD,自己在硬盘上做个私人音乐库呢?那起码是买了拷贝,算是我个人的数字资产,想怎么听怎么听,想转到什么设备就转到什么设备去。
总体上来说,我认为今天在网络上的每一个人在逐渐失去互联网早期自由民的身份,变成了平台的长期佃农或者是长工。平台更多是售卖服务而不是产品,即便是产品也有很多限制,用户不能获得完整的权限。于是,所有人能做的事情就是不断买服务,不断买完整功能。
一切又好像回到了 30 年前:每个人都需要一台自己的本地服务器,东西放在自己兜里才是最放心的。
流量劫匪:AI 正在切断互联网的生命线
写在前面:这不是一篇新闻,而是一些基于事件和数据所引发的想法,欢迎讨论。
5 月初,Google 在开发者大会 I/O上讲了很多东西,我们只说三个:AI Overviews、AI Mode,以及 Gemini。
你会发现,这三个产品/功能是并存的。并且,它们分别代表了 Google 作为 web 时代的搜索巨头,在 AI 时代转型的过程中,尝试的三种不同路线:
- AI Overviews:传统 web 产品,向后兼容
- AI Mode:web 搜索向 AI 过渡的中间态
- Gemini:纯粹的 AI 产品
大公司还是大公司,一个 AI 搜索做了三种不同形态,且并驾齐驱。大厂「养蛊」还得看 Google。熟悉 Google 的朋友应该能够预想到,未来几年内会发生的事情:Gemini 将取代前两者,甚至取代 Google 搜索。
就算不取代,以 Gemini/ChatGPT/DeepSeek 为代表的生成式 AI 产品,也已经在杀死传统搜索了。
全球共有约 56 亿网民,Google 搜索市占率 90%+,约合用户量 50 亿左右;而 Google 自己透露目前全球有 15 亿人使用 AI Overviews——倒不一定这 15 亿人从此都不会访问搜索结果链接了,但至少他们当中会有相当大的比例不再点击链接。
人们直接使用 AI 产品的整理归纳能力来完成任务,需求完全在 AI 产品内部解决,不需要再访问第三方网站。
Cloudflare 公司 CEO 马修·普林斯最近接受美国政府质询时指出:在今天,75% 的搜索查询无需离开 Google 即可得到回答。
我们正在目睹 AI 爆发的副作用:AI 瓦解了传统互联网的核心商业模式,扼杀互联网通过搜索引擎获得的流量。
Google 它不断推进 Gemini、AI Mode 和 AI Overviews,一边将生成式 AI 产品提升至顶级入口,一边用(非主观的)流量补贴/惩罚策略来绑架内容平台:在 I/O 之后接受采访时,CEO 桑达尔·皮柴透露,如果内容平台同意让 AI Overviews 的爬虫抓取,将会得到更高的流量。
彭博社做了一些采访,发现很多网站的流量因为 AI 受到严重冲击,不得不调整内容发行策略,更有甚者只能关门大吉。
分析机构 SimilarWeb 数据显示,AI 产品严重降低了基于网页分发内容的平台所获得的流量,首当其冲的有时尚、旅游、手工、家居、美食、生活方式等领域。
一些内容平台已经感受到流量的大幅下滑,做出了不同的应对。
- 实力雄厚的新闻机构已经提前布局,包括新闻集团、美联社、施普林格等在内的新闻巨头,已经和 OpenAI 达成授权合作;
- 一些新闻机构则发起抵制,纽约时报集团起诉了 OpenAI 以及背后的微软,指责其非法使用时报内容开发产品并与自己竞争。
这些合作与诉讼的具体细节尚不为外人所道,但新闻巨头的动机很直截了当:内容提供商的流量正在越来越多被 AI 蚕食。没有流量就没有广告/会员收入,内容提供商也无力抵抗,所以 AI 产品公司必须给内容源头分成。
市场营销公司 Seer Interactive 做了一些关于 AI 汇总功能对网站点击率冲击的研究,发现 AI Overviews 对搜索结果页点击率的降低效果达到 70%,对网站主投放的付费广告的点击率则直接砍半。
硅谷知名投资机构 a16z 也做了一组报告,援引 SimilarWeb 数据,发现 LLM 产品对 YouTube、Quora、Reddit、媒体、电商、金融等网站的流量引导比例普遍低于 5%。
显然,AI 产品/AI 总结功能对传统互联网核心商业模式的打击是巨大的。
究其根本:
- 内容平台提供内容,搜索引擎获得数据;
- 搜索引擎提供流量,内容平台获得收入;
- 内容平台投放广告,搜索引擎获得收入
——这一互联网时代价值交换的体系,已经被 AI 彻底打破。
情况只会更加严重:市调机构 Gartner 认为,到 2026 年搜索引擎的流量将会暴跌 25%。

SimilarWeb 数据显示 2025 年 3-4 月各大主流网站和搜索引擎流量暴跌,只有ChatGPT.com 逆势增长。
最近很火的 AI 浏览器项目 Dia,其创始人 Josh Miller 前不久专门写过一篇文章,讲公司为什么从传统浏览器转型 AI 浏览器,顺便也讲述了他对互联网的几个观察。
其中之一:生成式 AI 将取代网页,成为新的交互界面。
传统浏览器的任务是加载网页。但现在,网页(包括 app、文章、文件等各种形式)正在越来越多变成 AI 聊天界面的「工具调用」(tool calls)。 AI 聊天产品已经很像浏览器了:它们能搜索、阅读、生成、做出反应。它们和 API、LLM、数据库交互。人们每天使用这些 AI 产品好几个小时。如果你还看不到这一点,给还在上学的亲戚打个电话就知道了。自然语言界面抽离了旧有的计算模式的乏味,将会成为新的标准。
Miller 的观察早已灵验:国内外有很多传统互联网企业,包括本地生活、导航、在线旅游、效率办公等领域,都已经主动拥抱变化,开发了 MCP 能力,让用户在使用 agent 的时候仍然可以调用它们的服务。企业可以在 AI 产品调用其 MCP/API 时收费,从而维持收入。
但内容是完全不同的商业模式。互联网上绝大多数的内容都是公开免费的,但很多人往往忽视了一点:这些内容之所以免费,是因为得到了广告或付费墙收入的补贴,这些收入只有直接链接访问才能够产生。
而 AI 产品抓取这些内容并生成用户需要的答案,整个过程就此为止。在今天,这些 AI 巨头和创业公司们往往一门心思发展自己,却没有为内容的来源网站主或创作者提供分成的计划——即便少数 AI 产品在交付物里提供了资料链接,大部分用户也不会点击访问。
在可预见的未来,互联网内容的生成将进入一种「不可持续」的状态。现在大批 AI 公司已经在用大模型生成的内容进行再次训练了。长此以往,互联网公域将充斥着大量由 AI 生成的低质量、虚假、与现实不符甚至毫无关联的内容。
我在之前的一篇评论文章里就提到过这种情况将会出现。APPSO 之前关于 AI 生成音乐的报道,也从另一个侧面展示了 AI 生成内容充斥网络后的吊诡情境。
种种迹象似乎预示,AI 产品工具的大流行如果不加控制,如果 AI 新时代的利益分配机制不尽快出现——传统互联网将会被杀死,届时没有人会成为赢家,即便是 AI 公司。
所以,AI 公司构建新利益分配机制的进展怎么样?
目前来看,这方面的工作还很「初级」。前文提到的 OpenAI 和内容提供商签订协议(具体金额和计费机制细节未知),除此之外并没有太多新进展。
a16z 上个月发表了一篇文章,试图描绘一个新的图景:从 SEO(搜索引擎优化)转移到 GEO(生成引擎优化)。
顺应这个趋势出现了一些新的创业公司,例如 Profound、Daydream 等。它们帮助客户和网站主分析特定关键词(例如品牌)在 AI 生成回复当中的表现——简而言之,就是「策略性」地帮助客户提高在 AI 生成总结答案中的曝光度。
但截至目前,业界在这方面的尝试仍然尚浅。核心痛点仍然存在:即便内容创作者面向 LLM 的逻辑优化自己的内容,在 AI 产品里获得了曝光,点击率仍然是个大问题。没有流量,所谓的「生成引擎优化」恐怕只是个美好的梦。
最后,这跟普通人有关系吗?乍一看似乎没有,毕竟大部分人都认为世界的变化从来不为普通人的意志驱动。
但实际上,这个情况和每个人都有千丝万缕的关联。
传统互联网从来不是完美的,但它仍然是迄今为止一切人类创造的精华宝库。互联网的黄金年代造就了如今最优秀的商业公司,推动着技术的进步;它也凝聚了无数人无偿/低偿向世界分享的知识:以博客、维基百科、YouTube、贴吧们为介质。每一个人都从这些公司的产品,以及这些互联网平台承载的信息中获益。
一切都是生意,互联网信息其实是一个市场。如果内容创作者无法获得价值,他们就不会创作原创内容。经济激励的缺位,势必导致在线内容平台的萎靡,导致互联网信息市场里公开免费有价值的内容出现短缺。这将会限制人们获取真实信息、新闻、观点的能力,威胁每一个人的知情权。
如果 AI 巨头杀死了传统互联网,成为了新的技术霸权,决定人们能否获得、获得怎样的信息,进而构建新的认知霸权——我们准备好迎接那样的世界,承担相应的后果了吗?
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
液态玻璃意味着透明 iPhone 将争夺 AI+AR 的主动权_13.ylog

苹果真的只是在给 UI 换皮吗?
WWDC25 上发布的「液态玻璃」,看起来只是一次 UI 升级,但你有没有想过:
为什么苹果要在这个时间点,推出这样一套动态、半透明的视觉语言?
为什么它要在 iPhone 上实现这种「液态玻璃」的设计?
难道它背后还有更大的目标 —— 比如,透明手机?或者,是为某种尚未到来的设备铺路?
这一期播客,我们不聊参数、不聊功能,而是试着从设计语言出发,拨开这层玻璃迷雾,看看苹果到底在把我们往哪带。
这不是一场关于好不好看的争论,而是一场你可能没注意到的、正在发生的平台迁移。
也许,你正在用的那块手机屏幕,已经悄悄变成了未来世界的第一道入口。
欢迎收听本期节目。
本期播客关联视频:https://www.bilibili.com/video/BV1yz3Bz8Ev2/
既然这 10 年间的所有线索(等边三摄、Face ID、Lidar、Liquid Glass)都指向空间计算,那显然 iPhone 就是每一个人都可以接触到的第一台空间计算设备。最便捷最普及的空间计算设备,才是让 AI(不止LLM)真正普及到每一个人手上的基础设施。
|相关链接|
若你所使用的播客客户端未能完整显示插图,或遇网络问题未能正常播放,请访问:
荒野楼阁 WildloG 的地址:https://suithink.me/zlink/podcast/
阅读设计相关的各类文章:https://suithink.me/zlink/idea/
|其他社交网络媒体|
苏志斌SUiTHiNK @ Bilibili / YouTube / 小红书
|联络邮箱|
suithink.su@gmail.com
欢迎在 小宇宙、Spotify、YouTube、Apple Podcast 收听本节目,期待你的留言。

Last Week on My Mac: PageRank and plagiarism
Yesterday’s brief history of Internet search carries a lot in between its lines, some of it increasingly sinister. From the assumption that search results should be ranked by popularity rather than quality of content, to Google’s latest AI overviews, so much runs counter to all we had come to learn in previous millennia.
Many of our greatest insights and ideas have been far from popular at the time, and some have been so reviled that their authors have been ostracised as a result. Indeed, the origin of the term ostracisation refers to a practice that the ancient Greeks recognised led to popular but flawed outcomes, when the great were rejected by ill-informed opinion of the mob.
By a quirk of fate, the screenshot of Google Scholar in use showed search results from 2011 for the terms autism vaccine
, a topic that has recently returned to the headlines. Claims made by some of today’s politicians have been propagated using the same principles as PageRank until millions of people have been fooled into believing what were demonstrably fraudulent results. The mob are about to throw away decades of public health improvements for the sake of palpable lies.
We now have new tools to amplify such nonsense, in ‘AI’ built on large language models, and they’re starting to supplant search. In doing so, they’re going to destroy the raw material they feed on to generate their summaries.
Before about 2000, the great majority of information was printed on paper. There must have been a dozen or more specialist Mac magazines, and a steady stream of popular books about Mac OS and how to get the best from it. Even Apple was a prolific originator of thoroughly well written reference guides in its Inside Macintosh series, published by Addison Wesley. In the following couple of decades, most of those vanished, replaced by websites financed by advertising income, hence the industry dominated worldwide by Google.
Blogs originated in the mid-1990s and by about 2010 had reached a peak in their numbers and influence. Since then many have ceased posting new articles, or simply vanished. The generation that took to the web around 25 years ago are now trying to retire, sick of spam comments and the vitriolic spite of those that abuse them. Unsurprisingly the next generation are less enthusiastic about taking to their blogs, leaving some to make money from ephemeral video performances.
If there’s one thing that Google could have done to further the decline of the remaining online publications and blogs it’s to plunder their contents, massage their words with the aid of an LLM, and present those as overviews. When you’ve researched an article over several days and spent many hours writing and illustrating it, it’s more than galling to see an AI present its paraphrase as its own work.
These AI overviews range from the accurate, through repetitious waffle, to those riddled with errors and contradictions. Had they been written by a human, I’d describe them as a shameless and inaccurate plagiarist who has little or no understanding of what they’re plagiarising.
You can see examples of this by making quick comparisons between Google’s AI overview and the articles that it links to. For instance:
- Ask Google “what is the boot volume structure in ios?” and compare that overview with this article. For added entertainment, try the same with iPadOS, and spot the differences.
- Ask “what does runningboard do in macos?” and notice how sources given date from 2019 and 2021, when RunningBoard had only just been discovered. Refer to a more recent account such as that here, to see how out of date that overview is, and how much it has changed in Sequoia.
There’s also an element of unpredictability in those overviews. Repeat one after a couple of minutes, and the results can be quite different.
Although Cloudflare has developed a method that enables commercial publishers to control Google’s ability to scrape their content and plagiarise it, for the great majority of us, there seems little we can do but watch page views continue to fall to levels below those before the Covid pandemic. If you’ve got something better to do with your time than write for your blog, this is when you get seriously tempted.
But Google is digging a deep hole for its future. As the supply of new content to feed its LLM falls, most new articles will be generated by AI. All it will have to plagiarise then will itself be plagiarism, and it will amplify its own errors. By not referring searches to content, Google will also have killed the geese that lay its golden eggs, and lost much of its advertising revenues.
We’ll then be back full circle to curated web directories of the remaining reliable sites.
A brief history of Internet search
Searching the Internet, more recently its web servers, has proceeded in four main phases. Initially, humans built structured directories of sites they considered worth visiting. When those couldn’t keep pace with the Internet’s growth, commercial search engines were developed, and their search results were ranked. Around 2000, Google’s PageRank algorithm became dominant for ranking pages by their popularity. Then from late 2024 that is being progressively replaced with AI-generated summaries. Each of these has been reflected in the tools provided by Mac OS.
Directories
In the earliest years of the Internet, when the first web servers started to appear, and files were downloaded using anonymous FTP, users compiled their own lists by hand. Some curated directories were made public, including one maintained by Tim Berners-Lee at CERN, and another at NCSA. Individuals started using Gopher, a client to discover the contents of servers using the service of the same name. The next step was the development of tools to catalogue Gopher and other servers, such as Veronica and Jughead, but it wasn’t until 1993 that the first search engine, W3Catalog, and a bot, the World Wide Web Wanderer, started to transform Internet search.
Berners-Lee’s directory grew into the World Wide Web Virtual Library, and still exists, although it was last updated several years ago, most is now hosted elsewhere, and some is broken. The most famous directory was originally launched in 1994 and was then known as Jerry and David’s Guide to the World Wide Web, later becoming Yahoo! Directory. This offered paid submission and entry subscriptions, and was closed down at the end of 2014.
The favourite of many (including me) was launched as GnuHoo in 1998, and later that year, when it been acquired by Netscape, became the Open Directory Project, then DMOZ, seen here in the Camino browser in 2004. Although owned by AOL, it was maintained by a volunteer community that grew rapidly to hold around 100,000 links maintained by about 4,500 volunteers, and exceeded a million links by the new millennium. DMOZ closed in 2017 when AOL lost interest, but went on as Curlie using the same hierarchy.
Sherlock was first released in Mac OS 8.5 in 1998. As access to the web grew, this came to encompass remote search through plug-ins that worked with new web search engines.
Those were expanded in Sherlock 2, part of Mac OS 9.0 from 1999 and shown above, and version 3 that came in Mac OS X 10.2 Jaguar in 2002.
Indexing and ranking
Human editors couldn’t keep pace with the growth of the web, and demand grew for searching of indexes. This posed the problem of how to rank pages, and development of a series of ranking algorithms, some of which were patented. The first to use links (‘hyperlinks’) was Robin Li’s RankDex, patented in 1996, two years before Sergey Brin and Larry Page’s PageRank that brought their success in Google.
Ranking search results wasn’t new. In the late twentieth century, sciences started measuring the ‘impact’ of published papers by counting their citations in other papers, and university departments and scientific journals laid claim to their greatness by quoting citation and impact indexes. Early search ranking used features such as the frequency of occurrence of the words in the search term, which proved too crude and was manipulated by those trying to promote pages for gain. The obvious replacement was incoming links from other sites, which also quickly became abused and misused.
Research into networks was limited before 1998, when Jon Kleinberg and the two founders of Google entered the field. As with citation indexes before, they envisaged link-based ranking as a measure of popularity, and popularity as a good way of determining the order in which search results should be presented. They also recognised some of the dangers, and the need to weight incoming links to a page according to the total number of such links made by each linking site. Oddly, Kleinberg’s prior work wasn’t incorporated into a search engine until 2001, by which time Brin and Page were powering Google to dominance, and in June 2000 provided the default search engine for Yahoo!
This is Yahoo! Search seen in Firefox in 2007, by which time it was using its own indexing and search engine.
PageRank and algorithms
Google grew prodigiously, and became rich because of its sales of advertising across the web, a business dependent on promotion of its clients, something that could be achieved by adjusting its PageRank algorithm.
Although it’s hard to find now, at one time Google’s Advanced Search was widely used, as it gives more extensive control. Here it’s seen in Safari of 2011.
Google Scholar gives access to published research in a wide range of fields, and was introduced in late 2004. Here it’s seen in use in 2011, listing work that’s recently become topical again. Scholar doesn’t use the same PageRank-based algorithm for ranking its results, but does give substantial weight to citation counts.
When Apple replaced Sherlock with Spotlight in Mac OS X 10.4 Tiger in April 2005, web search defaulted to newly-arrived Safari and Google’s search engine. Its major redesign, in OS X 10.10 Yosemite in 2014, merged web and local search into Global Spotlight, the search window that opens from the Spotlight icon at the right end of the menu bar. That in turn brought Spotlight Suggestions, which became Siri Suggestions in macOS Sierra.
This shows a search in Global Spotlight in macOS 10.12 Sierra, in 2017.
Apple has never explained how Siri Suggestions works, although it appears to use machine learning and includes partial results from web search probably using Google. It offers a taste of what is to come in the future of Internet search.
Summarising
Google started the transition to using Artificial Intelligence in 2024, and that September introduced Audio Overview to provide spoken summaries of documents. This year has brought full AI overviews, in which multiple pages are summarised succinctly, and presented alongside links to the pages used to produce them. Although some can be useful, many are vague and waffly, and some blatantly spurious.
We’ve come a long way from Tim Berners-Lee’s curated directories, and PageRank in particular has transformed the web and more besides.
References
Wikipedia:
Gopher
Web directory
Search engine
Google Scholar
Amy N Langville and Carl D Meyer (2006) Google’s PageRank and Beyond: the Science of Search Engine Rankings, Princeton UP. ISBN 978 0 691 12202 1.
微软再裁 9000 人,白领「大屠杀」来袭:不用 AI 要被裁,用了 AI 也被裁
AI 裁员潮已经有了苗头。
今天微软被曝确认了年内新一轮裁员计划,预计将影响约 9000 个工作岗位,占其全球员工总数的 4%。这是微软今年宣布的第二次大规模裁员,也是其在 18 个月内的第四次大规模人员调整。
与此同时,微软正在要求部分管理者根据员工在内部使用 AI 工具的情况来评估其工作表现,并考虑在下一财年的绩效考核中,正式加入与 AI 使用相关的考核指标。
一边裁员,一边强制留任员工提升 AI 使用效率,正在成为硅谷科技巨头的标准动作。
18 个月内的第 4 次裁员
微软发言人表示,此次裁员涉及不同部门、地区以及各个经验层级的员工,其中微软的 Xbox 部门(微软游戏部门)受到的影响较大 。
这并非微软今年首次大规模裁员。早在今年 5 月,微软就已宣布在全球范围内裁员约 6000 人,约占其员工总数的 3% 。根据微软向华盛顿州就业官员提交的通知,6 月微软还在华盛顿州雷德蒙德总部裁员 300 人,5 月在普吉特海湾地区裁员近 2000 人 。
更详细的数据显示,2024 年 1 月,微软裁减了 1900 名 Activision Blizzard 和 Xbox 员工,随后在 5 月关闭了多个游戏工作室并进行了裁员,6 月又有 1000 名 HoloLens 和 Azure 云团队的员工被裁 。作为收购 Activision Blizzard 后重组的一部分,微软在 9 月再次裁员 650 名 Xbox 员工 。
据彭博社报道,现为微软旗下的 King 部门——《糖果传奇》的开发团队,正在裁员约 10%, 200 人左右 。微软还在其 Forza Motorsport 工作室 Turn 10 裁员 70 余人,并取消了《完美黑暗》和《永野》两款游戏。负责《完美黑暗》的工作室 The Initiative 也将作为此次裁员的一部分关闭 。
Xbox 负责人 Phil Spencer 在给团队的内部备忘录中表示:
为了确保游戏业务的长期成功,并专注于战略性增长领域,我们将结束或缩减部分业务,同时借鉴微软的做法,精简管理层级以提升灵活性和工作效率。
我意识到这些变化发生在我们拥有比以往更多的玩家、游戏和游戏时长的时候。我们的平台、硬件和游戏路线图从未如此强大。我们目前看到的成功是基于我们过去做出的艰难决定。
当 AI 成为硅谷大厂的考核指标
在裁员的同时,微软对留任员工的考核标准也在悄然改变。
据 Business Insider 获悉,微软正在要求部分经理根据员工在内部使用人工智能的情况进行评估,考虑在绩效评审中加入相关的考核指标。
▲微软开发者部门总裁 Julia Liuson
这一变化的核心推动者是微软开发者部门总裁 Julia Liuson,她负责包括 AI 编码服务 GitHub Copilot 在内的开发者工具。Liuson 最近发出邮件,要求各位经理根据员工使用内部 AI 工具的情况来评估他们的工作表现。
在这封邮件中,Liuson 用了一个极为明确的表述:「人工智能已经成为必需品,不能再选择不使用」。她进一步阐述道:「人工智能如今已成为我们工作方式的基础组成部分。正如协作、数据驱动的思维和有效沟通一样,使用人工智能已不再是可选项,而是每个岗位和每个层级的核心要素」。
Liuson 明确告诉各位经理,人工智能「应当纳入你们对员工绩效和影响的全面评估中」。这意味着员工的 AI 使用情况将直接影响他们的绩效评分和职业发展。
据一位知情人士透露,微软的绩效标准因团队不同而有所差异,一些团队正考虑在下一财年的绩效考核中正式纳入使用内部人工智能工具的相关指标。
据另外两位知情人士透露,这些变动旨在解决微软内部对其 Copilot AI 服务采用率偏低的问题 。公司不仅希望大幅提升使用率,也希望负责开发这些产品的员工能更深入地了解这些工具 。
这一策略的紧迫性还来自于竞争压力。在 Liuson 的团队里,GitHub Copilot 正受到包括 Cursor 在内的多款 AI 编码服务的激烈竞争 。
亚马逊 CEO :「更少的人」与「更多的 AI」
微软的战略调整并非个例。亚马逊 CEO Andy Jassy 在近期发给全体员工的一封内部信中,用前所未有的坦诚态度,详细阐述了生成式 AI 将如何重塑公司结构。
▲ 亚马逊 CEO Andy Jassy
Jassy 在信中写道:
目前,我们已有超过 1000 个生成式人工智能服务和应用正在开发或已完成,但以我们的规模来看,这只是未来将打造的冰山一角。接下来的几个月里,我们会加大投入,简化代理的构建流程,并在各业务部门及行政管理领域推出(或合作开发)多个新代理。
随着我们推广更多生成式人工智能和智能代理,工作方式将发生改变。一些现有岗位所需的人数会减少,而其他类型的岗位则需要更多人。虽然具体影响难以预测,但未来几年内,随着公司广泛应用人工智能提升效率,我们预计整体员工规模将有所缩减。
▲ X 截图,亚马逊 CEO 公开信消息
他这封公开信几乎是另一种形式的「警告」,要员工主动适应这一变化:「那些拥抱变革、熟悉人工智能的人,将有机会产生深远影响,助力我们重塑公司」。
在这场正在发生的「白领大屠杀」,硅谷高管们手中的「屠刀」,就是正在冉冉升起的 AI 公司。
▲Anthropic 公司 CEO Dario Amodei
Anthropic 公司 CEO Dario Amodei 在接受 Axios 采访时预测,AI 可能在未来 5 年内淘汰一半的入门级白领职位,失业率将上升到 10% 至 20% 。
他直言不讳地指出,技术、金融、法律、咨询等白领行业,尤其是初级岗位,将面临大规模裁员。
Amodei 认为,企业对 AI 的使用正在从「增强」人类工作,快速转向「自动化」并直接承担工作本身 。他指出,包括 OpenAI、Google 和 Anthropic 在内的大型 AI 公司,都在竞相开发能够以极低成本完成人类工作的「智能代理」。
更令人担忧的是,Amodei 表示,这种集体性的威胁正被普遍忽视。公众「还没有意识到这件事即将发生」,「这听起来很不可思议,人们根本不相信」。
AI 裁员潮中的白领
实际上类似的事今年已经屡见不鲜。
沃尔玛正在裁减 1500 个企业职位,为即将到来的重大转变简化运营;网络安全公司 CrowdStrike 削减了 500 个职位或 5% 的员工,理由是「市场和技术拐点,AI 正在重塑每个行业」。
▲ 自2020年2月1日起,Indeed 上的职位发布数量变化,Indeed 为全球知名求职网站。
扎克伯格曾公开表示,中级程序员很快将变得不必要,可能在今年内实现 。他指出,到 2025 年,Meta 及其他公司将拥有能有效扮演「公司中级工程师」角色的 AI,从而减少对人类程序员的需求。此后,Meta 便宣布裁员 5%。
AGI 的宏大叙事还是蓝图,但 AI 带来的变化已经落在了具体的个体身上。
也许没有哪个行业比科技行业受到的冲击更大,互联网论坛上充满了员工们分享自己已经被裁员,或者在担心什么时候会被裁员的消息 。
21 年经验的工程师:从 AI 提效到被 AI 替代
软件工程师 Shawn K 有着 21 年的行业经验,年薪 15 万美元 。2024 年 3 月,42 岁的他在 FrameVR.io 担任全栈工程师,公司鼓励员工使用 ChatGPT,团队生产力也因此大幅提升 。
一个月后,他被裁员了 。
他在 Substack 上分享了自己因人工智能接管公司而被裁员的经历,这篇帖子现已广泛传播,标题为:「大规模岗位替代已经开始」。
我们一直在将公司转型为人工智能方向,在整个软件中加入人工智能功能,努力为客户利用人工智能创造价值。就在完成这次重组和战略调整后不久……我被裁员了
失业后的生活异常艰难。他有两笔房贷需要偿还,于是开始在纽约中部家附近通过 Door Dash 做送餐工作,勉强维持生活 8。在投出近 800 份求职申请、坚持了一年多后,他终于在本月初拿到了一份合同工作 。
「我尝试了很多方法,能想到的都试过了。在过去一年里,我降低了申请职位的标准,也降低了考虑工作的门槛」,他说。「到了某个时候,情况变成了你需要立即拿到现金来维持基本的吃饭和付账单」。
尽管如此,K 依然对 AI 保持着复杂的态度:「人工智能比我更擅长编程,但这并不代表我没有价值。我觉得这反而让我能做的事情增加了 100 倍,还能解决以前根本不会尝试的更复杂的问题」。
但他对未来的判断却十分悲观:「我真的相信,凡是整天在电脑上完成工作的职位都将消失,这只是时间早晚的问题」
HR:从晋升轨道到被自动化替代
另一位化名为「简」的人力资源专员,则亲眼见证了自己被替代的全过程。人工智能对工作的威胁常被提及,但当她的人力资源岗位被自动化取代并于一月被裁员时,这一威胁才真正变得令人震惊和切实。
她在公司负责福利管理已有两年,正处于晋升的轨道上。她注意到老板在搭建人工智能基础设施,但并不认为自己年薪约 7 万美元的职位会受到影响。
「我以为自己投入了大量时间,在高层次的工作中表现出色,老板会看重我」,这位 45 岁的湾区居民在接受《独立报》采访时谈到她的前雇主 。「结果,一旦他找到自动化替代的方法,就立刻用了,然后就把我辞退了」。
更糟糕的是,当前的经济形势让找工作变得异常艰难。二月份,她的一次电话面试是由一套人工智能系统进行的 。「这感觉就像是在和自动语音信箱面试」,她说「机器人」问了她一些关于自己的问题,但回答都很泛泛,让她觉得这项技术无法帮助她进入下一轮 。
Dario Amodei 所预言的「白领大屠杀」似乎在按照既定路径展开,一条清晰的逻辑链条正在浮现:以 AI 提升效率,以效率为名精简人员,这正在成为硅谷新一轮技术变革下无法回避的现实。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
不仅仅是编程,使用 Gemini CLI 日常指南!
前几天最近随着 Claude Code 这个命令行 AI 代码工具的火爆,谷歌也耐不住寂寞推出了自己的同类产品 Gemini CLI,而且完全免费,非常顶。
下面会教你用 Gemini CLI 实现哪些能力:
首先他们是没有界面的,所有的操作都是在终端以命令行的方式展示。
然后就是也是 Agents 可以自动执行任务处理本地文件,同时内置了非常多的工具,比如谷歌搜索、阅读文件、查找文件、搜索文字、写入文件、保存记忆等,你输入 /tools 然后回车就可以让他列出目前支持的工具。
另外 Gemini CLI 也是支持 MCP 的,你可以安装其他的 MCP 工具帮助模型扩充上下文。
很多朋友说命令行是不是很复杂啊,我不会编程是不是会很难用。
其实并没有,如果你的网络环境正常,能够正常登录 Gemini CLI 的话,跟使用 Cursor 没有本质区别。
因为核心交互的时候还是主要为提示词输入框,命令行又不用你写,Gemini 写就行。
从这里开始我所有的演示都基于 Mac OS 的自带终端进行,Windows 大部分操作都是通用的,但是可能出问题概率比 Mac 复杂。
首先要做的第一步就是进入到我们的启动台,搜索终端两个字,搜到之后打开。
这时候你就看到一个空白界面里面写了些你看不懂的字,不要担心。
这里我建议我们想好要进行的任务之后,新建一个文件夹把需要的任务素材扔进去,然后按住 option 按键鼠标右键选择“将 XXXX 文件夹拷贝为路径名称”,这时候你就快速获得了这个文件夹的路径。
然后我们回到我们的终端窗口,输入 cd + 空格 + 你刚才复制的路径,接下来你终端的所有操作都只会影响这个文件夹的内容,不用担心把电脑搞坏。
到这一步我们终于开始安装 Gemini CLI 了,非常简单,你只需要输入下面的内容然后回车就行。
安装成功你就会看到这个界面,应该会先让你选择命令行的颜色主题,然后让你选择登录方式。
这里需要注意:终端的操作大部分时间需要用上下左右方向键来操作选项,选中之后按回车确认。
你只需要选择一个自己喜欢的主题之后,选择正常的谷歌账号登录,在拉起网页登录后关掉就行。
我这个这里已经登录了,所以没有这些选项,然后你就能看到提示词输入框了。
恭喜你到这里,你已经完成了 Gemini 的安装。
由于用的 NPX 的安装方式,所以你以后每次关掉终端重新使用 Gemini CLI 的时候都需要输入开始的那个命令,不过不用登录了,直接就能用。
另一种方法是输入下面这个命令,但是对于不会编程的人来说很麻烦,启动就是少输入点东西,输入 Gemini 就能启动。
最后由于命令行本身都是英文的,可能很多人会望而却步,这个时候你可以装个 Bob 这个翻译软件,支持划词翻译,看不懂的选项直接选中划词翻译就行。
装好之后我们可以来点基础用法了。
由于 Gemini 可以看到你的文件并且操作,而且它还有生成能力,本身模型还是多模态的,所以即使只用本身的工具也可以有很多用法。
首先是 Gemini CLI 本身支持谷歌搜索,你可以让他搜索指定内容给你写成文档,也可以对你本身的文档进行编辑。
当然搜索工具经常会限额,这个有点恶心,比如让他搜索歸藏的信息并且整理一个介绍文档。
你也可以让他分析你保存在本地的文章之后进行改写,生成新的文章。
比如我这里就让他把 Karpathy 的软件 3.0 文章改写成适合发布的博客文章,同时生成对应的推特发布版本,也可以对于会议总结之类的文档进行分析和处理。
记得我之前写的用 Curosr 这种 IDE 帮助分析 Obsidian ,把 Obsidian 当做本地知识库的方法吗,Gemini CLI 也可以,甚至更加强大。
你可以找到你的 Obsidian 文件夹打开之后启动 Gemini CLI,然后让 Gemini CLI 查找相关的内容。
比如我这里就让他检索我所有的剪藏文件,找到 MCP 相关的文章,然后给我生成一个带反向链接的《MCP 剪藏内容索引》文档,可以看到他完成的很好。
每个无序列表都有文件标题以及文章的总结,最后还有链接可以直达那个文章。
提到反向链接了,就不得不提 Obsidian 的一个知识图谱的功能,它可以把所有有反向链接的相关文档都链接起来,形成你自己的网状笔记网络,方便你学习和回顾。
但是反向链接需要你自己手动加,大部分人都没这个毅力,现在有了 Gemini CLI 问题解决了,可以让他帮你给你文件夹中的相关文档加反向链接。
不过这个需要的时间比较长,如果内容多的话可能得等一段时间。
由于本身 Gemini CLI 是多模态的的,所以你的图片也可以让他帮忙处理。
比如我打开了一个全是图片的文件夹,里面的图片名字乱七八糟的,这时候就可以让他分析图片内容之后根据图片内容给图片重新命名。
再重新命名之后我们也不能浪费他分析的图片内容。
我们都知道在训练图像模型或者 Lora 的时候需要对图像进行标注,大部分训练工具都是把标注放在一个跟图片命名一样的文本文件里,现在我们就可以让 Gemini CLI 来做这件事了。
可以看到他执行的非常完美,以往这些你还得找对应的工具,而且不好自定义要求,现在提示词就行。
Gemini CLI 除了可以读取文件和修改文件外也是可以控制系统设置的。
比如我们就可以写好自己日常对于软件和系统设置在不同工作时间的喜好,需要的时候一键完成所有操作的更改。
这里我就让他给我关掉浏览器,然后打开 Obsidian,降低系统音量,直接进入工作模式。
更进一步让他把操作写成脚本,之后你就可以直接双击脚本完成系统设置了。
我们肯定也有很多时候桌面或者文件没有整理乱七八糟。
这个时候就可以让 Gemini CLI 新建文件夹进行分类和整理。
但是这里得注意,不要让他整理过大的过于重要的文件夹,不然误删了就痛苦了。
这里我就让他把刚才的图像和标注文件新建了两个文件夹分别整理了。
上面都是些基本用法,你最近可能也看到了一些。
但是我发现结合一些本地软件,Gemini CLI 能实现对各种文件更加高级的处理,比如视频转 gif、youtube 视频下载、加水印、文档格式转换等。
这些就非常牛皮了,而且我们日常内容创作大部分都非常需要。
前面我们有了文档了,但是很多时候演示的时候总不能真给人看 Markdown 文档吧,能不能生成 PPT 呢?
可以的,朋友,必须可以,比如我这里就把前面我那个 MCP 索引文档的内容直接转换为 PPT 了。
这个依赖一个叫 Slidev 的项目,它可以用类似 Markdown 文档的格式将内容变成带有丰富样式的 PPT。
你不需要知道这个项目的细节,直接用我下面的提示词生成文件之后,复制文件到这个页面(https://stackblitz.com/github/slidevjs/new?file=slides.md)预览就行。
上面的 Slidev 不需要本地安装直接预览就行,接下来我们介绍一些需要本地安装的项目,这些本地的软件,非常强大,但是由于本身他们是没有界面的,阻碍的很多用户使用。
但是有了 Gemini 之后一切都解决了,提示词可以直接转换为驱动他们的命令行,也可以用提示词直接安装他们,你直接用就行。
首先先介绍一下 ffmpeg 这个项目,给予他你可以实现非常强的视频编辑能力,理论上剪映之类的视频编辑软件都是基于这个完成的。
你可以对本地的视频进行拼接、剪辑、增加文字、转换格式、转换分辨率、增加音乐,基本上你能想到的视频编辑能力他都能做到。
首先我们需要大概你需要处理视频的的文件夹,然后启动 Gemini CLI 第一个命令是让他安装 Homebrew。
然后安装完成后,让他用 Homebrew 帮你安装 ffmpeg。
看到没,跟网页哪些乱七八糟的要求都没关系,你只需要说两句话,就全部安装了。
然后我们就可以爽用了,先给我们指定的视频加个水印试试。
可以看到新的视频右上角果然有了一个水印,这种言出法随的感觉谁不喜欢,你不需要了解原理,你就只需要知道所有的视频编辑他都能帮你搞定。
然后我想要给视频配乐也可以,你只需要告诉他视频文件和音乐文件的名字就行,我甚至让他给音乐加上了淡入和淡出。
他先是获取了一下视频的时长,然后就开始操作了,然后搞定了,非常完美,严丝合缝,淡入淡出也加上了,可以看剪映界面预览的频谱。
我们很多时候需要把视频转换为序列帧,然后拿其中一帧进行处理,或者处理所有的帧,以前你是不是还得到处找这种工具,而且转换效果不一定好。
Gemini CLI 一句话就能搞定,处理的又快又好,而且节省了用网页工具上传下载的时间。
另一个常见的任务就是视频转 gif,尤其公众号有 10 个视频的限制,很多时候迫不得已得转成 gif 发布。
Gemini 捕捉到了高品质这个关键词还制作了调色板保证颜色还原度,最后处理的非常完美。
像 ffmpeg 这种宝藏项目还有很多,比如 yt-dlp 这个项目跟 ffmpeg 配合几乎可以下载你能想到的所有视频平台的视频。
我们还是可以让 Gemini CLI 帮我们安装 yt-dlp 这个项目就行。
然后直接提供视频链接他就会帮你下载,甚至可以批量下载多个视频或者一起连封面和视频一起下载,再也不需要忍受那些工具的垃圾网速了。
处理视频我们有 ffmpeg 这种项目,当然图片也有。
ImageMagick 是一个极其强大的工具集,你可以用它来转换格式、缩放、裁剪、旋转、添加滤镜、组合图片等等。
依然是老一套,先让 Gemini 帮我们安装
先来一个常见任务,我们设计师做外包经常用,在没结款之前给甲方低分辨率和带水印的图片,现在就可以直接批量完成。
这里我让他把所有图片宽边调整为 800 PX,然后统一加上带“内部资料”文字的水印。
中文的水印有些问题,后来改成英文就 OK 了,而且出错之后他自己开始用多模态能力检查修改后的图像了,发现 10% 不透明度的文字不明显,又自己重新改了一下,太聪明了。
然后再来一个常见的图像拼接需求,这种在媒体上发消息的时候经常需要,尤其是推特。
搞得不错,这几张图比例不同,所以没有对齐,可以在命令上加上统一比例这种要求就行。
文档格式转换也是常见的需求,相当多的公司工作文档还是 word,很多时候我发过去 .md 文件那边都不知道怎么办。
首先还是让 Gemini CLI 帮我们安装。
这个时候我们就可以利用 Pandoc 这个项目进行各种文档格式之间的互相转换,当然批量转换也是可以的。
可以看到转的很好,Markdown 的一些基本格式也都迁移了,不管是加粗还是无序列表有序列表。
好了教程到这里就结束了。
你可以用 Gemini CLI 控制这些已经非常成熟的命令行项目,基本上你所有的需求都能找到对应的项目。
不是只有 MCP 才能做 Agent,这些传统工具在有了 LLM 加持之后会更加强大。
看到这里,你可能会突然意识到:原来那些让我们望而却步的专业工具,其实一直都在那里等着我们。
史蒂夫·乔布斯说过的一句话:”技术应该是隐形的。” 今天的 Gemini CLI,正是让那些强大的命令行工具变得”隐形”——你不需要理解它们的工作原理,只需要说出你的需求。
更重要的是,这种改变不仅仅是效率的提升,而是创作门槛的彻底消失。
所以,如果你还在犹豫要不要试试 Gemini CLI,我想说:别让”我不会编程”成为你探索新世界的借口。 因为在这个新世界里,你需要的不是编程能力,而是想象力。
那些曾经高高在上的专业工具,现在都在静静等待着你的一句话。而你要做的,就是勇敢地说出你的需求。
因为最好的工具,是让你忘记它是工具的工具。
微软 AI 诊断准确率超人类医生4倍,以后看病前先问问它?
四倍,AI 医生的诊断准确率远超过人类医生。
这可能有点难以置信,但微软人工智能团队日前发布的一项 AI 诊断协调系统 MAI-DxO(MAI Diagnostic Orchestrator)真的做到了。
它在《新英格兰医学杂志》每周发布共计 304 个真实复杂病例上进行了基准测试。测试结果显示,准确率达到了85.5%。
这个基准测试不再是之前光凭借记忆,就可以做到的试卷答题,而是微软创建的全新的评测标准,「顺序诊断基准」(SD Bench)。它高度还原了真实诊疗过程的互动挑战:
- 从患者的初步症状描述入手。
- 通过多轮提问,选择各种检验检查,逐步手机病情信息。
- 每开一项检查,同时记录检查项目的费用;评估必要性和成本。
- 给出最终诊断。
同样面对这个 304 个复杂病例,微软选择了另外 21 位来自美国和英国,具有 5 年至 20 年临床经验的执业医生,测试结果显示,真实医生的平均准确率仅为 20%,这与 「AI 医生」的差距足足有四倍之大。
同时,与人类医生相比,这个「AI 医生」还少开了很多不必要的检查,减少了 20%-70% 的诊断成本。
▲顺序诊断基准测试介绍图,「守门人」回应来自诊断代理的信息请求,评估模型则评估诊断代理的最终诊断与病例报告准确度。
MAI-DxO 究竟是如何做到人类医生的准确率四倍之高呢,它不是一个新出现的大语言模型,它也不依赖某个单一的模型。
MAI-DxO 是一个模拟现实中多名医生合作诊断过程的系统。得益于当前大语言模型的持续发展,在 MAI-DxO 系统中,有不同的语言模型去扮演五种不同的医疗角色。
这些医疗角色包括推测各种结果的假设医生、选择医生、质疑当前诊断假设的挑战医生、避免不必要检查的成本管理医生、以及确保诊断步骤和选择逻辑一致的检查表医生。
这些「医生」协作工作,充分地模拟了人类医生团队的工作流程,还弥补了单一 AI 模型在复杂诊断中可能出现的缺陷。
▲MAI-DxO 系统概览图
如上图描述的系统概览图所示,MAI-DxO 完全模拟了我们去医院看病的流程。
- 首先从问诊开始,MAIN-DxO 会得到一个简短的临床小故事,通常为 2-3 句话,包含病例的基本情况。
- 接着,MAI-DxO 会开始总结患者的主要诉求,选择下一步操作,是继续向患者提问,还是申请开检查。
- 每开一项检查会计算检查费用,同时持续进行多轮互动,直到给出最后诊断结果。
在测试过程中,MAI-DxO 利用 o4-mini 和专业医生设置了一个「守门人」,确保系统给 AI 的信息是与正常医生在问诊和临床上能够得到的信息一样。
MAI-DxO 的出现,为大语言模型在医疗诊断上取得明显的性能提升。微软测试了来自 OpenAI、Gemini、Claude、Grok、DeepSeek 以及 Llama 系列的不同模型,表现均优于仅使用单一的 AI 模型,而表现最好的组合是 MAI-DxO 与 OpenAI 的 o3 配对。
由于不受大语言模型的限制,MAI-DxO 还能够在将来有更好的模型出现时,同步适配。
▲不同人工智能模型的准确性和每例平均诊断测试成本对比
尽管看起来 「AI 医生」已经有模有样,不过 AI 要真正做一个好医生可不是那么容易的。
微软在该项目论文最后提到,这次的研究存在显著局限性,包括像参与对比实验的 21 位医生并没有获得同行的讨论协助、参考书籍以及生成式 AI 等资源。此外,微软这次实验也仅仅只讨论了最具挑战性的病例难题,而对我们一般的日常性疾病诊断没有做进一步的测试。
微软强调 AI 不会取代医生,它将成为医生与患者共同的助手。
但就是这个医生和患者共同的助手,也持续地吸引着全世界范围的关注;早在今年 3 月,微软就发布了医疗界首个用于临床工作流程的 AI 助手 Microsoft Dragon Copilot,它能帮助医生更好的整理病例的临床文件。
IBM 推出 IBM Watson Health 医疗人工智能平台、谷歌的 DeepMind、以及英伟达的 NVIDIA Clara 等,都正从导诊、问诊、病理等医疗场景中带来新的变革。
前段时间,阿里达摩院也发布了全球首个胃癌影像筛查 AI 模型 DAMO GRAPE,首次利用平扫 CT 影像结合深度学习识别早期胃癌病灶。
华为今年才组建组建医疗卫生军团,上周也联合瑞金医院,宣布开源 RuiPath 病理模型,具备临床验证能力,覆盖肺癌等 7 个常见癌种。
医学需要极高的精准度,0.01% 的失误也有可能造成严重的后果,它完全不同于程序员写代码时出现的 bug。
MAI-DxO 模拟真实问诊的过程,看起来这条 AI 医疗之路越来越清晰。
从百度问诊,到 ChatGPT 问诊,我想未来除了拿着普通医院的检查结果,查医院排行榜,付费问在线医生,还可以先看看这个「AI 医生」。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
美国现在最贵的,是中国 AI 人才:清北中科大学霸正在「统治」硅谷 AI 圈
过去两周,AI 行业最出圈的不是哪个产品,而是人。经常一觉醒来,社交媒体的时间线都在刷新换汤不换药的新闻:又双叒叕有哪位 AI 大牛被挖走了。
顶级 AI 人才,正成为 AI 赛道上最稀缺、也最具品牌效应的资产。
在这轮人才流动的风暴中心中,我们发现一个格外显眼的细节:这群主导过 ChatGPT、Gemini、Claude 等大模型研发的核心成员中,华人科学家的比例出奇地高。
这个这个变化并不是突然出现的,这几年兴起的 AI 浪潮中,美国的顶级 AI 人才中华人占比不断升高。 根据 MacroPolo 发布的《全球人工智能人才追踪调查报告 2.0》,来自中国的顶尖 AI 研究人员占比在 2019 年到 2022 年间,从 29% 提升到了 47%。
而在智谱研究发布的《ChatGPT 团队背景研究报告》,更是发现在 ChatGPT 核心的 87人团队中,有 9 人都是华人,占比超过 10%。因此,我们也重新梳理了近期在硅谷头部公司中广受关注的华人 AI 研究员画像,并试图从中总结出一些特征:
1️⃣ 顶尖名校出身,学术能力极强
他们大多本科就读于清华、北大、中科大、浙大等顶尖高校,计算机或数学背景居多;研究生阶段普遍进入 MIT、斯坦福、伯克利、普林斯顿、UIUC 等名校深造,几乎每人都有顶会高引论文傍身(NeurIPS、ICLR、SIGGRAPH 等),
2️⃣ 年轻高产,爆发周期集中于 2020 年之后
年龄多在 30~35 岁;硕博阶段恰逢深度学习的全球爆发期,学术基础扎实,熟悉工程体系和团队协作。不少人职业的第一站就是接触大厂或服务大规模人群的 AI 产品或平台,起点更高、节奏更快。
3️⃣ 强多模态背景,攻坚模型后训练
他们的研究方向普遍着重于跨模态(文本、语音、图像、视频、动作)的统一推理系统,包括 RLHF、蒸馏、对齐、人类偏好建模、语音语调评估等具体细节。
4️⃣ 即便频繁流动,但基本不会脱离生态
Google、Meta、微软、英伟达,Anthropic、OpenAI……他们的流动范围横跨 AI 初创与巨头,但研究主题、技术积累往往保持连贯性,基本不换赛道。
OpenAI→Meta
Shuchao Bi
Shuchao Bi 本科毕业于浙江大学数学系,后赴加州大学伯克利分校深造,先后获得统计学硕士学位,并攻读数学博士。
2013 – 2019 年,他在 Google 担任技术负责人,主要贡献包括构建多阶段深度学习推荐系统,显著提升 Google 广告收益(数十亿美元级别)。
2019 – 2024 年,他担任 Shorts 探索负责人,期间,联合创建并主导 Shorts 视频推荐与发现系统,并 组建并扩展大规模机器学习团队,覆盖推荐系统、评分模型、互动发现、信任与安全等方向。
2024 年加入 OpenAI 后,他主要领导多模态后训练组织,是 GPT-4o 语音模式与o4-mini的联合创造者
期间,他主要推进 RLHF、图像/语音/视频/文本推理、多模态智能体、多模态语音到语音(VS2S)、视觉-语言-行动基础模型(VLA)、跨模态评估系统等,也涉及多模态链式推理、语音语调/自然度评分、多模态蒸馏与自监督优化,其核心目标是通过后训练构建更通用的多模态 AI Agent。
Huiwen Chang
2013 年,Huiwen Chang 本科毕业于清华大学计算机系(姚班),后赴美国普林斯顿大学攻读计算机科学博士,研究方向聚焦于图像风格迁移、生成模型和图像处理,曾获微软研究院奖学金。
在加入 OpenAI 之前,她在 Google 担任高级研究科学家,累计工作超过六年,长期从事生成模型与计算机视觉研究,曾在 Google Research 发明 MaskGIT 和 Muse 文本生成图像架构。
早期的文本生成图像主要依赖扩散模型(如 DALL·E 2、Imagen),这些模型虽然生成质量高,但推理速度慢、训练开销大。而 MaskGIT 和 Muse 则采用了「离散化 + 并行生成」 的方式,大幅提升了效率。
MaskGIT 是非自回归图像生成的新起点,Muse 则是将这一方法推向文本图像生成的代表作。它们不像 Stable Diffusion 那样广为人知,但在学术与工程体系中,是非常重要的技术基石。
此外,她也是扩散模型顶级论文《Palette: Image-to-image diffusion models》的联合作者之一。
这篇论文发表于 SIGGRAPH 2022,提出了一种统一的图像到图像翻译框架,并在图像修复、着色、补全等多个任务上超过 GAN 和回归基线,至今已被引用超过 1700 次,成为该领域的代表性成果之一。
2023 年 6 月起,她加入 OpenAI 多模态团队,联合开发了 GPT-4o 图像生成功能,继续推动图像生成、多模态建模等前沿方向的研究与落地。
Ji Lin
Ji Lin 主要从事多模态学习、推理系统与合成数据方向的研究。他是多个核心模型的贡献者,包括 GPT-4o、GPT-4.1、GPT-4.5、o3/o4-mini、Operator、以及 4o 图像生成模型等。
他本科毕业于清华大学电子工程专业(2014–2018),从麻省理工学院获得电子工程与计算机科学博士学位,导师为知名学者 Prof. Song Han。
博士阶段,他的研究方向聚焦于模型压缩、量化、视觉语言模型、稀疏推理等关键方向。
在 2023 年加入 OpenAI 之前,他曾在英伟达、Adobe 和 Google 担任实习研究员,并在 MIT 长期从事神经网络压缩与推理加速相关研究,积累了深厚的理论基础与工程实践经验。
学术方面,他在模型压缩、量化和多模态预训练等方向有多篇高影响力论文,Google 学术总引用数超过 17800,代表成果包括视频理解模型 TSM、硬件感知量化方法 AWQ、SmoothQuant 以及视觉语言模型 VILA。
他也是 GPT-4o 系统技术文档的核心作者之一(比如 GPT-4o 系统卡),并凭借 AWQ 论文获得 MLSys 2024 最佳论文奖。
Hongyu Ren
Hongyu Ren 本科在北京大学获得计算机科学与技术学士(2014–2018)学位,随后在斯坦福大学获得计算机科学博士(2018–2023)学位。
他曾获得苹果、百度以及软银 Masason 基金会 PhD Fellowship 等多项奖学金,研究方向聚焦于大语言模型、知识图谱推理、多模态智能与基础模型评估。
在加入 OpenAI 之前,他曾在 Google、微软以及英伟达有过多段实习经历,比如 2021 年在苹果担任实习研究员期间,参与 Siri 问答系统的搭建。
2023 年 7 月加入 OpenAI 后,Hongyu Ren 参与构建了 GPT-4o、4o-mini、o1-mini、o3-mini、o3 和 o4-mini 等多个核心模型,并领导后训练团队。
用他的话来说:「I teach models to think faster, harder and sharper.(我教模型更快、更努力、更敏锐地思考。)」
学术领域,他的 Google 学术总引用数超过 17742 次,高被引论文包括:《On the Opportunities and Risks of Foundation Models》(引用 6127 次);《Open Graph Benchmark》(OGB)数据集(引用 3524 次)等。
Jiahui Yu
Jiahui Yu 本科毕业于中国科学技术大学少年班,获得计算机科学学士学位,随后在伊利诺伊大学香槟分校(UIUC)获得计算机科学博士学位。
他的研究重点包括深度学习、图像生成、大模型架构、多模态推理和高性能计算。
在 OpenAI 任职期间,Jiahui Yu 担任感知团队负责人,主导开发 GPT-4o 图像生成模块、GPT-4.1、o3/o4-mini 等重要项目,提出并落地了「Thinking with Images」感知体系。
在此之前,他曾在 Google DeepMind 工作近四年,期间是 PaLM-2 架构与建模的核心贡献者之一,并共同领导了 Gemini 多模态模型的开发,是 Google 多模态战略中最重要的技术骨干之一。
他还拥有在英伟达、Adobe、百度、Snap、旷视和微软亚洲研究院等多家机构的实习经历,研究内容涵盖 GAN、目标检测、自动驾驶、模型压缩、图像修复与大规模深度学习训练系统等多个方向。
Jiahui 在 Google 学术上总引用次数超过 34500 次,h 指数达 49,代表性研究成果包括图文对齐基础模型 CoCa、文本生成图像模型 Parti、神经网络可伸缩设计 BigNAS,以及广泛应用于 Adobe Photoshop 的图像修复技术 DeepFill v1 和 v2 等。
Shengjia Zhao
Shengjia Zhao 本科毕业于清华大学计算机系,曾在美国莱斯大学交换,后于斯坦福大学获得计算机科学博士学位,专注于大模型架构、多模态推理和对齐方向的研究。
2022 年,他加入 OpenAI,担任核心研发成员,深度参与 GPT-4 和 GPT-4o 的系统设计工作。曾主导 ChatGPT、GPT-4、所有 mini 模型、4.1 和 o3 的研发工作,还曾领导 OpenAI 合成数据团队。
他是《GPT-4 Technical Report》(被引超过 1.5 万次)和《GPT-4o System Card》(被引超过 1300 次)的联合作者,并参与了多个系统卡(如 OpenAI o1)的撰写,是推动 OpenAI 基础模型标准化与公开化的重要贡献者之一。
在学术表现上,他 Google 学术总引用数超过 21,000 次,h 指数为 25,曾获得过 ICLR 2022 Outstanding Paper Award、JP Morgan PhD Fellow、Qualcomm 创新奖学金(QinF)与 Google Excellence Scholarship 等多项奖项。
Google→Meta
Pei Sun
2009 年,Pei Sun在清华大学获得了学士学位,随后前往卡内基梅隆大学攻读硕士和博士学位,顺利完成硕士阶段学习,并在博士阶段选择退学。
他曾在 Google DeepMind 担任首席研究员,期间主攻 Gemini 模型的后训练、编程和推理工作,是 Gemini 系列模型(包括 Gemini 1、1.5、2 和 2.5)后训练、思维机制构建与代码实现的核心贡献者之一。
在加入 DeepMind 之前,Pei 曾在 Waymo 任职近七年,担任高级研究科学家,主导了 Waymo 两代核心感知模型的研发,是自动驾驶感知系统演进的中坚力量。
更早些时候,他曾在 Google 担任软件工程师五年多,后又加入分布式存储公司 Alluxio 任职工程师超过一年,参与系统架构研发。
Nexusflow→英伟达
Banghua Zhu
Banghua Zhu 本科毕业于清华大学电子工程系,后赴美国加州大学伯克利分校攻读电气工程与计算机科学博士,师从著名学者 Michael I. Jordan 和 Jiantao Jiao。
他的研究聚焦于提高基础模型的效率与安全性,融合统计方法与机器学习理论,致力于构建开源数据集和可公开访问的工具。他的兴趣方向还包括博弈论、强化学习、人机交互以及机器学习系统设计。
他代表性论文《Chatbot Arena》提出了人类偏好驱动的大模型评测平台,成为 LLM 领域的重要基准之一。
此外,他还在 RLHF、人类反馈对齐、开源对齐模型等方向有所贡献。其 Google 学术显示引用总数超过 3100,h 指数为 23,也是大模型竞技场「Chatbot Arena」、「Benchbuilder」、「Starling」等多个热门开源项目的核心作者之一。
他曾在 Microsoft 担任研究实习生,在 Google 担任学生研究员,曾联合创立 AI 初创公司 Nexusflow,今年 6 月,他宣布加入英伟达 Star Nemotron 团队担任首席研究科学家,此外将于今年秋季入职华盛顿大学的助理教授。
根据其发布内容,他将在英伟达参与模型后训练、评估、AI 基础设施和智能代理构建等项目,强调与开发者及学术界的深度协作,并计划将相关成果开源。
Jiantao Jiao
Jiantao Jiao 是加州大学伯克利分校电气工程与计算机科学系以及统计系的助理教授。
他于 2018 年获得斯坦福大学电气工程博士学位,目前是多个研究中心的联合负责人或成员,包括伯克利理论学习中心(CLIMB)、人工智能研究中心(BAIR Lab)、信息与系统科学实验室(BLISS)以及去中心化智能研究中心(RDI)。
他的研究集中于生成式 AI 与基础模型,对统计机器学习、优化理论、强化学习系统的隐私与安全、经济机制设计以及自然语言处理、代码生成、计算机视觉、自动驾驶与机器人等方向也颇有兴趣。
和 Banghua Zhu 一样,他也是 Nexusflow 联合创始人之一,目前已经正式加入英伟达,担任研究总监兼杰出科学家。
Jiao 的总引用次数达 7259,h 指数为 34,代表性论文包括《Theoretically principled trade-off between robustness and accuracy》,以及与 Banghua Zhu 等人合作的《Bridging Offline Reinforcement Learning and Imitation Learning: A Tale of Pessimism》,均发表在 NeurIPS 等顶会。
Claude→Cursor
Catherine Wu
Catherine Wu 曾在 Anthropic 担任 Claude Code 的产品经理,专注于构建可靠、可解释、可操控的 AI 系统。据 The Information 报道,Catherine Wu 已被 AI 编程初创公司 Cursor 挖角,出任产品负责人一职。
在加入 Anthropic 之前,她曾是知名风投公司 Index Ventures 的合伙人,任职近三年,期间深度参与多家顶尖创业公司的早期投资与战略支持。
她的职业起点并不在投资圈,而是扎根于一线技术岗位。
她曾在 Dagster Labs 担任工程经理,主导公司首个商业化产品的研发,也曾在 Scale AI 担任早期产品工程师,参与多个关键产品的构建与运营扩张。
更早之前,她在摩根大通实习,并于普林斯顿大学获得计算机科学学士学位,在校期间还曾赴苏黎世联邦理工学院进行交换学习。
特斯拉 | Phil Duan
段鹏飞(Phil Duan)是特斯拉 AI 的首席软件工程师,现负责 Autopilot 下的 Fleet Learning 团队,致力于推动特斯拉自动驾驶系统(FSD)中「数据 + 感知」核心模块的建设。
他带领特斯拉团队开发高吞吐、快迭代的数据引擎,从数百万辆汽车中采集、处理并自动标注驾驶数据,强调数据质量、数量与多样性的协同优化。在感知方向,他主导构建多项关键神经网络,包括视觉基础模型、目标检测、行为预测、占据网络、交通控制和高精度泊车辅助系统等,是 Autopilot 感知系统的核心构建者之一。
他本科毕业于武汉理工大学,主修光信息科学与技术,随后攻读俄亥俄大学电气工程博士与硕士学位,研究方向为航空电子,并以博士论文荣获 2019 年 RTCA William E. Jackson Award,该奖项是美国航空电子与电信领域授予研究生的最高荣誉之一。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
Figma 上市:AI 时代的生产力企业新样本
2025 年 7 月 1 日,以「云端协同设计」为核心理念的 SaaS 设计公司 Figma 向美国证交会递交招股书,并计划以股票代码 「FIG」 登陆纽交所,目标募资最高 15 亿美元(约合人民币 108.8 亿元)。
二级市场显示 Figma 的 pre-IPO 估值为 125 亿美元,市销率达到 17.9 倍。若本次 IPO 成功,虽然和 Zoom、Snowflake 等 SaaS 大热门不能相提并论,金融业还是对其赋予厚望,认为 Figma 有可能超过年初的云计算公司 CoreWeave,成为 2025 年最大科技 IPO 黑马。
▲ Figma 营收数据. 图片来自:Figma S-1 文件
自 2016 年 Figma 首次亮相以来,就一直在打破大家对 「协作工具难赚钱」的刻板印象,交出了一份教科书级别的财务答卷:
- 2024 年营收 7.49 亿美元,同比增长 48%;
- 2025 年 Q1 营收 2.28 亿美元,同比增长 46%;
- 滚动 12 个月营收 8.21 亿美元,毛利率高达 91%。
在高毛利的加持下,公司在 2024 年四季度与 2025 年一季度已重新转正,实现经营盈利。与上一财年相比,Figma 基本甩掉了「高增长=高亏损」的包袱。在主营业务的现金创造能力上,Figma 作为成熟 SaaS 企业已经「当之无愧」。
▲ Figma Mirror 实时更新. 图片来自:Figma
如果你也是互联网软件设计开发业务线中的一员,那么一定绕不开 Figma 这个以界面设计起家的在线设计协作平台——
在 Figma 之前,支持「云端协作」的概念在设计行业并不新鲜,Sketch 和 Adobe XD 都有过类似操作。但区别于其它传统设计软件,Figma 基于浏览器工作:你只需用浏览器打开链接便可开始设计工作,用起来相当轻量,和动辄十几秒才启动的 Adobe 垃圾桶是天壤之别。这也让 Figma 成为许多设计团队的首选。
▲ Figma 多人协作演示. 图片来自:Figma
就如创始人 Dylan Field 表示:
我们希望让设计变得像 Google Docs 一样简单且适于协作。
▲ 开发者视角. 图片来自:Figma
从用户数据来看,Figma 确实将传统设计软件行业撬开了一个大口:截止至 2025 年,Figma 的月活跃用户数已经超过 1300 万,拥趸中不乏微软、Slack、GitHub 等知名企业。活跃的用户群体,成为了 Figma 的核心竞争力。
秉持「赋能创作者」的理念,Figma 在定价与服务上也打出了长期牌:保留个人免费版,团队企业版则按人头计费。适用于不同用户组织的灵活定价政策,也让设计师可以在不迁移数据的前提下一路升级到企业版,在无形中增强了用户粘性。
▲ Figma 新增白板协作和幻灯片功能. 图片来自:Figma
除此之外,Figma 也不拘于只做一个在线协作设计平台——今年 Figma 进一步将 AI 融入设计工作流:
从 「Make design」 一键生成高保真图片,到 「Figma Sites」无代码网站上线,都在致力于让设计和开发更高度整合,让设计师用户们享受到 AI 时代的红利,实现更快、更「vibe」、更协同的工作中,实现真正意义上的设计开放共享。
▲ 用「Make design」做的界面设计. 图片来自:xxx
当然,生成式 AI 的后端重度依赖算力,十分昂贵,Figma 在这方面的大量投入也导致营收承压。管理团队在招股书中表示:为客户开发生成人工智能工具(特别是用于人工智能推理和模型训练)的相关成本,可能会损害其长期利润率。
但对于这家试图在 AI 时代有所作为的设计软件公司而言,AI 带来的生产力革命将是千载难逢的机会。
▲从左到右分别是自动布局,矢量绘制和模块组件. 图片来自:Figma
回顾 Figma 的成长轨迹,自 2022 年 Adobe 斥资 200 亿美元的收购案失败后,Figma 的战略心态也出现了明显变化,不再追求被收购,而是独立最大做强。
▲ Figma 创始人 Dylan Field. 图片来自:TechCrunch
从「成为更好的设计工具」到如今则试图「成为 AI 时代的设计操作系统」,诞生于移动互联网时代的 Figma,瞄准的不仅是设计师群体,更是 AI 时代所有的生产者。
至于「AI + 设计」的故事能否被市场认可,Figma 还有很长一段路要走,但这已经是今年最大的软件 IPO 之一,对任何还在观望的创业者和投资人来说,这或许比 Figma 推出的任何新功能都来得更刺激一些。
本文作者:周芊彤、肖钦鹏
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
OpenAI 内部信曝光!奥特曼怒斥小扎 7 亿挖人:唯利是图的雇佣兵,将被使命打败
还有人没看过关于 Meta 挖人的段子吗?
▲ 建议以后顶级 AI 人才的流动,参考俱乐部的转会制度。
在昨日 Meta 高调官宣超级智能团队实验室之后,大批挖走OpenAI核心研究员之后,一向沉得住气的 Sam Altman 现在也坐不住了,向全体员工发出内部信:
有使命感的人将胜过唯利是图的雇佣兵。
据连线杂志报道,Altman 还在信中强调,留在 OpenAI 才是那些希望构建通用人工智能(AGI)研究者的正确选择,并暗示公司正在重新评估整个研究团队的薪酬结构。
对 Meta 的挖人行为,Altman 显得相当不屑,认为这种「开价挖人」的模式未来将带来严重的文化副作用。
我们已经从角落里的极客,成长为科技行业里最受关注的人(至少是这样)……AI 圈现在乌烟瘴气;Meta 的做法让人感觉不太体面;我觉得事情将来只会更加疯狂。我被解雇又回归时曾说,那不会是 OpenAI 历史上最疯狂的事;显然现在这事也还不是
在评价那些被 Meta 挖走的前同事时,Altman 的态度也没太客气:
「Meta 确实招到了一些优秀的人,但整体来看,他们并没有挖到那些顶尖人才,还得一路向下寻找;他们已经尝试招募很久了,我都记不清他们试图从我们这里挖走多少人去当他们的首席科学家。」Altman 写道,「我为整个行业的使命感感到骄傲,当然总会有一些唯利是图的人。」
他还放话称,OpenAI 股票的潜力远远超过 Meta。但巨大的回报应该建立在巨大成功之后,OpenAI将很快公布更多薪酬方面的举措,但会「确保公平性」,而不是只针对那些「被 Meta 盯上」的个别员工。
Altman还呼吁大家继续留在 OpenAI:
我对我们的研究路线从未如此有信心,我们在计算资源上做了前所未有的投入,我喜欢我们敢于下注,并相信我们会好好利用它。最重要的是,我认为我们拥有全世界最特别的团队和文化。我们确实还需要努力改进我们的文化;过去经历了疯狂的爆炸式增长。但我们的核心是正确的,我认为没有任何其他组织能做到这一点,我有信心我们能解决现有问题。
更重要的是,我们真的在乎如何以正确的方式构建AGI,其他公司更把它当作实现其他目标的手段。而这对我们来说始终是最重要的事,也将永远如此。等到 Meta 转向下一个流行项目,或忙于守护他们的社交护城河时,我们仍会在这里,一天又一天、一年又一年,努力比任何人都更好地完成我们的使命。其他许多项目将起起落落。
话虽如此,其实也真不怪研究人员转投 Meta。
无他,实在是扎克伯格给的太多的了。小扎不语,只是一味群发高薪合同。顶级 AI 研究员横在中间,像极了拿 offer 的你我他,嘴上说着不在乎钱,但手已经开始敲键盘回复小扎发来的邮件。
根据连线杂志获取的信息,扎克伯格为顶尖研究人员开出的薪酬高达 4 年 3 亿美元,首年总薪酬超过 1 亿美元,而目前,财大气粗的 Meta 已向 OpenAI 的员工至少发出了 10 份如此高额的报价,并承诺最先进的 GPU 资源「随便用」。
并且报道还提到,Meta 曾试图招募一位 OpenAI 的高级研究员担任首席科学家一职,但对方最终拒绝了邀请。据称,这些薪资方案虽然以股票为主,但第一年股票直接兑现,诱惑力拉满。
做个横向对比,微软 CEO Satya Nadella 在 2024 年获得的总薪酬为 7910 万美元,主要是股票形式;Uber CEO Dara Khosrowshahi 同期则大约为 3940 万美元,同样以股票为主。一个顶级 AI 研究员的年薪,现在轻松干掉硅谷大厂 CEO。
当然,在上周 Meta 全员大会上,CTO Andrew Bosworth 也回应了 OpenAI CEO Sam Altman 所称的「Meta 用 1 亿美元签约金挖角」一事,直指其夸大其词。
所谓高额待遇仅适用于极少数高级岗位。「我非常清楚他为什么这么说:因为我们确实成功吸引了一些 OpenAI 的人才,而他对此显然并不高兴。」他强调,所谓的「1 亿美元报价」不是一次性奖金,而是包含股票激励、签约奖励等多个组成部分。
这也应了那句话,算力可以堆,数据可以靠爬虫,但对想赢下 AGI 终局的公司来说,人才始终是最贵的资源。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
疯狂挖人之后,小扎刚刚官宣超级智能 AI 梦之队,华人占大半 | 附 11 人核心名单
在长达数周的高强度「挖角」之后,Meta 今天凌晨宣布正式成立超级智能实验室(Meta Superintelligence Labs,简称 MSL)。
Meta CEO 马克·扎克伯格在周一发布的一封内部信中透露,MSL 将整合公司现有的基础 AI 研究(FAIR)、大语言模型开发以及 AI 产品团队,并组建一个专门研发下一代 AI 模型的新实验室。
根据彭博社等多家外媒报道,该实验室未来将成为 Meta 人工智能战略的核心。
此次组织架构调整的最大看点,是引入多位行业重量级人物共同执掌新部门。被扎克伯格砸下 143 亿美元投资的 Scale AI 的前 CEO Alexandr Wang 将出任 Meta 首席 AI 官(Chief AI Officer),全面领导 MSL。
与此同时,前 GitHub CEO Nat Friedman 也确认加入,将负责 Meta 在AI产品和应用研究领域的推进。
据扎克伯格介绍,Wang 是这一代最令人印象深刻的创业者,在 Scale AI 期间参与了多款头部 AI 模型的数据体系搭建;Friedman 则被称为连接投资界与 AI 前沿技术的中流砥柱,曾参与创办多个 AI 风险投资基金,并担任 Meta 顾问。
随着 MSL 的正式亮相,Meta 也首次公布其最近一轮密集「挖人』的完整名单。
在过去几周里,Meta 从 OpenAI、Anthropic 和 Google 等竞争对手手中共招募了 11 位 AI 顶尖人才,几乎覆盖了当前主流大模型的全部研发脉络:
- 多位 GPT-4o 和 GPT-4.1 的核心成员:如Shengjia Zhao、Jiahui Yu、Shuchao Bi、Hongyu Ren;
- 来自 Anthropic 的高级工程师 Joel Pobar,此前曾在 Meta 任职11年;
- DeepMind 的 Jack Rae 和 Pei Sun,曾负责 Gemini 模型和多模态推理系统;
- OpenAI 语音与图像模型的重要推动者 Huiwen Chang、Ji Lin 等。
这些人才曾是 OpenAI 和 Anthropic 等机构的核心技术骨干,主导过 GPT 系列、Gemini 系列等主流模型的关键技术领域。
Meta 方面未透露具体签约金额,但传闻部分顶尖研究人员获得了价值数千万美元的股票激励。
此前,OpenAI CEO Sam Altman 也在公开播客中透露,Meta正以高达 1 亿美元的签约奖金挖人。Meta CTO Andrew Bosworth 上个月接受外媒采访时指出:「现在 AI 人才的市场价格已经达到了一个非常惊人的水平,这是我 20 年科技职业生涯中前所未见的。」
面对 Llama 4 系列模型的受挫,小扎高度重视 AI 人才,也不断通过查询论文排兵布阵,甚至亲自出马,把候选人请到太浩湖和帕洛阿尔托的家中,亲自面试、亲自拉人,拼的就是反应速度和出手诚意。
据悉,Meta 计划在未来几年投入数千亿美元于 AI 基础设施、模型训练、可穿戴终端与人才储备上。新团队未来还将启动 Llama 系列之后的下一代模型研发,目标是在一年内实现行业领先。
Meta 发言人对此次重组未作官方评论,但未来几周仍将有更多顶尖人才加入 MSL 团队。
附上扎克伯格内部信原文:
随着人工智能发展速度的加快,超级智能的实现正逐渐变得触手可及。我相信,这将开启人类的一个全新时代,我也会全力以赴,确保 Meta 在这一进程中走在最前沿。今天,我想分享我们是如何组织AI工作的,目标是实现我们的愿景:为每个人打造「个人超级智能」。
我们将这个整体 AI 组织命名为 Meta 超级智能实验室(Meta Superintelligence Labs,简称 MSL)。它将涵盖我们所有基础模型、产品和 FAIR 团队(Fundamental AI Research),并新增一个专门负责开发下一代模型的实验室。
Alexandr Wang 已正式加入 Meta,担任首席 AI 官(Chief AI Officer),并领导 MSL的整体工作。我与 Alex 合作已有数年时间,我认为他是他这一代中最令人印象深刻的创业者。他对超级智能的历史意义有着清晰的理解,作为 Scale AI 的联合创始人兼 CEO,他将公司打造成了一个高速成长的企业,几乎参与了业内所有领先模型的开发工作。
Nat Friedman 也加入了 Meta,将与 Alex 共同领导 MSL,负责我们的 AI 产品与应用研究工作。他将与 Connor 一起明确他未来在团队中的职责分工。Nat 曾在微软领导 GitHub,最近则负责一家领先的 AI 投资公司。过去一年里,他一直担任 Meta 顾问委员会成员,对我们的发展路线图和所需工作已有深刻了解。
今天以及过去几周,还有多位非常优秀的新成员加入 MSL,我也非常高兴能正式介绍他们:
- Trapit Bansal —— 在「思维链」上的强化学习领域具有开创性成果,OpenAI 的 O 系列模型联合创造者。
- Shuchao Bi —— GPT-4o 语音模式与o4-mini的联合创造者,曾在 OpenAI 负责多模态模型的后训练工作。
- Huiwen Chang —— GPT-4o 图像生成功能联合创造者,曾在 Google Research 发明 MaskGIT 和 Muse 文本生成图像架构。
- Ji Lin —— 参与开发 o3/o4-mini、GPT-4o、GPT-4.1、GPT-4.5、4o 图像生成和Operator推理系统。
- Joel Pobar —— 曾在Anthropic从事模型推理工作,此前在 Meta 工作 11 年,参与 HHVM、Hack、Flow、Redex、性能工具和机器学习等项目。
- Jack Rae —— 负责 Gemini 预训练技术以及 Gemini 2.5 的推理部分,曾主导DeepMind 早期的 Gopher 和 Chinchilla 大语言模型。
- Hongyu Ren —— GPT-4o、4o-mini、o1-mini、o3-mini、o3 和 o4-mini 的联合创造者,曾在 OpenAI 领导后训练团队。
- Johan Schalkwyk —— 前 Google Fellow,Sesame 早期贡献者,Maya 项目技术负责人。
- Pei Sun —— 曾在 Google DeepMind 从事 Gemini 模型的后训练、编程和推理工作,还打造了 Waymo 过去两代感知模型。
- Jiahui Yu —— o3、o4-mini、GPT-4.1 和 GPT-4o 的联合创造者,曾领导 OpenAI 感知团队,并共同领导 Gemini 的多模态开发。
- Shengjia Zhao —— ChatGPT、GPT-4、所有 mini 模型、4.1 和 o3 的联合创造者,曾领导 OpenAI 合成数据团队。
我对我们在 Llama 4.1 和 4.2 模型上的规划进展感到非常兴奋。这些模型支持 Meta AI 的核心功能,目前已在我们多个应用中拥有超过 10 亿月活用户,并被越来越多 Meta 内部的 AI 助手所采用,用于提升我们的产品与技术。我们将继续深入开发这些模型。
与此同时,我们也将着手启动下一代模型的研究,希望在未来一年左右走到行业最前沿。过去几个月,我会见了 Meta 内部顶尖人才、其他 AI 实验室以及一些有前景的初创公司,以组建这个小而精的核心团队。我们仍在完善这个团队,并会邀请AI部门的更多成员加入这个实验室。
Meta 在将超级智能推向世界方面具备独特优势。我们有强大的业务基础,能够建设远超小型实验室的计算能力;我们在打造覆盖数十亿用户的产品方面经验丰富;我们也正引领并开拓增长迅速的 AI 眼镜与可穿戴设备市场。
此外,我们的公司结构也赋予了我们更大的决心和行动力。我相信,这波人才引入和模型并行研发的方式,将使我们有望真正实现「人人拥有个人超级智能」的承诺。
接下来几周,还会有更多出色的人才加入这个团队,敬请期待。我迫不及待地想全身心投入这项工作了。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
智能眼镜的重点,并不在智能|硬哲学
爱范儿关注「明日产品」,硬哲学栏目试图剥离技术和参数的外衣,探求产品设计中人性的本源。
作为上周四小米「人车家全生态发布会」上唯二由雷总亲自发布的产品,起售价 1999 的小米 AI 眼镜可谓赚足了眼球。原因也很简单:当小米决定入场一个产品领域时,往往就是这个领域大众化的开端。
虽然名字里带着一个 AI ,小米也宣布过小米 AI 眼镜可以通过手机接入满血版的超级小爱模型,但是绝大多数人(包括我身边的朋友)对于小米眼镜的关注点其实都不在人工智能上,而是一个我们习以为常十多年的功能:拍照。
图|微博 @小米公司
我们不需要的人工智能
「AI」仿佛是二十一世纪二十年代一个避不开的话题,早已经脱离了它曾经技术名词的概念,反而变成了一种营销词汇。然而在 AI 产品浪潮已经席卷了五年多之后,我们对于电子产品的日常使用方式却并没有发生什么根本性的转变。
原因也很简单:现阶段的 AI 并没有一个非常具体的入口,值得人们在已经形成的日常使用习惯中插入它。哪怕用户引导能力强如苹果,也整出过 Visual Intelligence 这种不明所以的烂活:
2024 年 iPhone 16 发布会上这则舍近求远的 Apple Intelligence 演示片最终成为了集体吐槽对象
不幸的是,从现阶段的硬件产品来看,各类 AI 智能眼镜也不会成为那个「具体的入口」。
更何况考虑到硬件规模,真正的端侧 AI 想要做进手机都十分困难,遑论眼镜这种限制极大的硬件了——从产品分类上讲,叫现在这些智能眼镜是「能够快速调用手机智能助手的蓝牙耳机」都更贴切一些。
因此在现阶段,虽然我们仍然将这一品类的产品称为「智能眼镜」,但它的核心竞争力永远都不会取决于是否智能,而是在于它为一些我们日常的活动带来了全新的视角。
所以,当我们放下 Meta AI、小爱同学,还有那个不知道能不能等来的 Apple Intelligence,再回过头来重新看看智能眼镜,我们才能看清它的脉络和存在意义。
我们很需要的 POV 相机
长久以来,POV(Point of view,即第一人称)视角一直是日常拍摄视频或者 vlog 时比较难处理的。在传统的电影工业中,最终的解决方案往往就是这样一套巨大的设备:
但是绝大多数普通消费者既不需要这么笨重坚固的设备,也用不上那么极致的画质,因此后面便出现了各种更加轻便的固定方案,比如挂脖和胸带,可以将运动相机——或者干脆把 iPhone ——固定到接近第一人称视角的位置拍摄:
但这些轻量化的方案也并不是完美的,毕竟对于普通消费者来说,额外多带一件装备也是太多了。无论是 GoPro 的胸带还是 Insta360 的帽夹,都是一部单独的相机和需要专门携带的配件,在现实的使用环境中既不能一直佩戴、也不能及时查看素材,更需要时刻照看着。
这个时候,一副能够拍照录像、兼顾开放式耳机,同时还能满足普通眼镜功能的的智能眼镜,就顺理成章的出现了,而这也正是 Meta 在 2023 年联合雷朋所做的。
如果只看拍摄和录像规格,Ray-Ban Meta 能够录出来的东西放在 iPhone 旁边简直没法看,最长三分钟的 1080P 30 帧的竖向视频,或者用 720P 进行最长 30 分钟的直播。毫不夸张的说,把 iPhone 15 咬在嘴里录出来的视频也比 Ray-Ban Meta 高到不知道哪里去了。
然而问题就在这里:人不能一直咬着/挂着 iPhone 录视频,但可以(并且已经)一直佩戴眼镜了。
更重要的是,Ray-Ban Meta 的录制规格对于它所面向的潜在消费者来说其实是完全够用的——在有充足光照的环境下,智能眼镜拍出来的东西发发朋友圈或者 Reels 完全不会显得画质陡降:
Ray-Ban Meta 样张|PetaPixel
此外,智能眼镜拍摄视频所带来的沉浸感也是其他随身拍摄设备难以企及的。毕竟眼镜作为人们身上最靠近眼睛的设备,所拍摄出来的视角自然也是最接近第一人称的。除非将 iPhone 挡在脸前,或者类似电影工业中那样把相机挂在鼻子前面,否则很难实现类似的视角。
这种时候,智能眼镜的另一大属性就体现出来了:它是一种「非侵入式」的拍摄设备。眼镜作为一种日常配饰,并不需要额外在身上挂什么东西,甚至对很多人来说只是换了一副不同的镜架而已,即使佩戴上也不会干扰行动:
2025 年美国曲棍球联盟全明星技巧赛上,体育直播平台 FloSports 就给球员配发了 Meta 眼镜用于直播进球视角
因此,这样一副非侵入式、能够满足最基本的画质要求,同时可以提供无出其右的 POV 视角的智能眼镜,对于普通消费者来说,就意味着既不需要复杂的设备,也不需要硕大的肌肉,更不需要拷卡导素材之类的繁琐流程,直接用手点点眼镜就能录出一段身临其境的视频,同时还能顺便听着歌:
眼镜 + 手机的录像组合在将来一定会越来越常见
这差不多就是在 2025 年,各家手机厂商都在疯狂卷影像的大背景下,最让人意想不到、最具未来感的使用方式了。
智能眼镜的路线之争
在小米 AI 眼镜的发布会后,其实还有一部分人表示了一定程度的失望,因为在很多先期的传言和消费者的期盼中,小米要推出的是一款带显示功能的智能眼镜。
这实际上是一个非常好玩的问题,因为在「智能眼镜究竟应不应该包含显示功能」这个问题之前,还有一个先决条件:我们应该怎样定义智能眼镜?
这何尝不是一种智能的眼镜?
目前在电商平台上可以直接买到的,「以眼镜的形态」存在的智能产品其实非常多——毕竟如果硬要说的话,苹果 Vision Pro 也可以是以加厚滑雪护目镜的形式存在的。
在这个赛道里面,从小米到华为,再到雷鸟、ROKID、Xreal 等等,都会给自家的多功能眼镜产品打上一个「智能眼镜」的标签。然而这些眼镜的功能和使用方式却天差地别,唯一的共性就是能够戴在脸上而已。
因此,在前文的语境下,对于类似小米和 Meta 这种形态与功能的智能眼镜来说,我们可以提出这样一个定义:
只有在不通电的情况下,仍然可以正常佩戴、作为传统眼镜(屈光或墨镜)使用,不会对身体活动产生影响的眼镜类智能产品,才可以被叫做智能眼镜。
这样定义的目的,主要是为了去除类似魅族 StarV View、雷鸟 Air 3s、ROKID Max2 之类的「智能 AR 眼镜」。因为无论从具体功能还是能否断电使用上看,这一类设备都属于「长得像眼镜的轻便型 AR 头戴显示器」,像屏幕一样显示内容原本就是它们的主要功能。
类似雷鸟 Air 3s Pro 这种 AR 头显,由于显示屏会遮挡视线无法作为普通眼镜使用,因此不属于智能眼镜|充电头网
这样的定义是很有必要的,因为虽然 AR 头显和智能眼镜随着技术进步,外观形态正在趋同,却有着截然不同的功能侧重:是为了保证显示效果的沉浸感而牺牲作为普通眼镜的功能,还是努力在普通眼镜的形态上添加智能功能,这直接决定了产品的本质是什么东西。
因此,在确定了「智能眼镜」的定义之后,我们再回来看看智能眼镜是否应该包含显示功能的问题。从目前市面上已知的产品来看,智能眼镜的技术发展道路分成了很清晰的三条:
– 不含任何显示功能,使用纯语音交互的智能眼镜,以 Ray-Ban Meta、小米 AI 眼镜、雷鸟 V3 为代表。
– 具备单色纯文字显示功能,可以用来显示提词器、通知、导航等简单文字化信息的智能眼镜,包括魅族 StarV Air 和 Rokid Glasses 。
– 具备彩色屏幕和图像显示能力,拥有完整图形化界面的智能眼镜,比如雷鸟 X3 Pro,以及谷歌在 Google I/O 上演示的 Android XR 验证机。
虽然这三条技术道路上各自都有已经商品化的产品,价格涵盖从 1999 到 9999,但实际上智能眼镜的技术发展脉络基本上就是沿着这条道路前行的,甚至谷歌在十二年前就已经尝试过全彩显示了:
换句话说,「显示功能」一定会在未来成为智能眼镜的必争之地,在激光全息、高分辨率光波导等等显示技术成熟的背景下,智能眼镜和眼镜形态的 AR 头显在最终会实现融合,变成一套真正的可日常佩戴的显示设备。
不过在现阶段,智能眼镜类产品更多还是作为一种手机的延伸,逐渐将一部分手机的交互和拍摄功能带到更加第一视角的位置上,在最本质的层面上是一种人体的增强设备。
此前,智能眼镜受制于硬件的发展,一直没能跨过「能日用」这道门槛,只是作为一个「刻奇」的智能设备。然而现在依托着手机供应链的逐渐成熟,智能眼镜在实用性上基本上完成了蜕变——比如虽然功能和体积类似,小米的眼镜可以靠着金沙江电池的技术实现 Ray-Ban Meta 大约两倍的续航,实用程度毫无疑问是更上一层楼的。
Ray-Ban Meta 使用的是一块 160mAh 的电池|知乎 @我爱音频网
在这样的基础上,我们可以猜测:2025、2026 和 2027 将会是智能眼镜市场开始蓬勃和竞争最激烈的三年,以语音交互为主的 AI 并不会成为智能眼镜的主要卖点,反而是拍照和音乐功能会继续发展,最终成为消费者购买意愿的主要组成部份。
因此,无论是智能眼镜的高集成度、小型传感器对于拍照和视频算法的依赖,未来在显示技术上的突破,以及最重要的:与硬件生态中的主力——即手机——的联动,这些技术指标最终都在暗示着一个结果:我们一定会看到更多手机厂商加入这个市场。
图|Screen Rant
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
支付宝这个新的 AI 应用,终于让我妈不再转发奇怪的养生文了
上周,我妈又忧心忡忡地给我转来一篇名为「震惊!这三种蔬菜竟是致癌元凶」的文章,还附带一句:「儿子,咱家常吃的这个,以后可别买了!」
我点开一看,又是那种熟悉的自媒体配方,内容漏洞百出,但标题耸人听闻。
这已经不是第一次了,相信很多「相亲相爱一家人群」里,总有那么几个亲戚热衷于转发各种真假难辨的「养生秘笈」。
说实话,我能理解他们的焦虑。人到了一定年纪,对健康问题格外上心。但问题是,现在网上的健康科普太乱了,各种说法互相矛盾,别说长辈,连我们自己都分不清哪个是真哪个是假 。每天有超 2 亿人次在互联网搜索医疗健康问题,但网络信息真假难辨、广告植入鱼龙混杂,干扰判断 。
这种信息过载带来的,是无尽的焦虑和不安全感。我甚至动过念头,干脆把那个最爱转发的亲戚给「屏蔽」了。
昨天,蚂蚁发布了新的 AI 健康应用「AQ」,这是之前支付宝上的「AI 健康管家」的升级版,除了在各大应用商店下载(iOS 还未上线),也能直接在支付宝里体验。
体验了一番后,我发现它不只是建立在健康知识库上的聊天机器人,背后有点真东西。
一个随身的「AI 医生」,靠不靠谱
我起初是半信半疑的。毕竟,市面上打着「AI 健康」旗号的应用,很多都停留在简单的问答层面,甚至在专业问题上会出现「AI 幻觉」,一本正经地胡说八道。
但当我把妈妈的疑问——「听说吃 XX 蔬菜会致癌,是真的吗?」输入 AQ 时,它的回答让我眼前一亮。它没有直接给出「是」或「否」,而是先引用了权威的医学资料进行辟谣,然后详细解释了这类谣言的来源,最后还给出了科学的饮食建议。更重要的是,它会专门把 RAG(检索增强生成)来源标注出来,这些来源都是医学知识中最新最顶尖的 。
这让我意识到,AQ 的底层逻辑和普通 AI 完全不同。它背后是蚂蚁医疗大模型,一个用超过万亿 tokens 专业医疗语料和千万级医疗知识图谱「喂」出来的大家伙 。在应用层面,蚂蚁医疗大模型在 AQ 产品应用中识别报告、药品、皮肤病等图像准确率达 90% 以上,包括对超过 100 多种复杂的、多页的医学检验检测报告进行识别和解读 。
最让我惊喜的是「名医 AI 分身」这个功能。名医的资源为什么稀缺?因为他们的经验、注意力和时间都是有限的。而 AI 分身,复制的正是他们最宝贵的「知识」和「经验」。
我妻子怀孕时,我们关注了妇产科专家段涛医生的抖音,他的科普内容帮我们解决了很多孕期的困惑。但我们知道,想让他本人看诊非常不容易。而在 AQ 上,我竟然看到了段涛医生的 AI 分身。
我试着咨询了一个关于孕期营养的问题,AI 分身不仅给出了专业的回答,它的问诊逻辑和语气,都像极了段涛医生本人。这并非简单的声音和形象授权,而是基于对医生大量结构化诊疗经验、科普文章和论文资料的深度学习,还会根据患者的问题给出更多问题,对症给出更准确的建议。比如,一个 AI 分身的诞生,需要「加训」超过 100 个小时的结构化诊疗数据和 5 万篇以上的专业资料。
更让我印象深刻的是毛洪京院长的 AI 分身。我爸长期有睡眠问题,以前想挂毛院长的号几乎是不可能的事情。现在通过 AI 分身,偏远山区两三万的用户都可以享受到这样的能力 。毛医生说过,过去平均每月只能接诊 600 名患者,现在通过「AI 分身」一天最多能服务超 11 万人次,服务范围也从省内拓展至全国 。
这种「AI+人」的模式确保了严谨性。医生本人及其团队会定期查看线上数据,如果发现 AI 的回答有问题,会持续进行优化和迭代。大模型需要学的是高频出现的病证、部分典型疑难杂症知识,这些案例必须是完整的,不能是断点零散的。过去,我们看病最大的痛点之一就是「挂号难」。面对复杂的科室和陌生的医生,常常不知道该选哪个,就像大海捞针。
我试着输入:「我最近总是胃不舒服,有点反酸,该挂哪个科?」AQ 在追问了几个关键症状后,直接为我推荐了消化内科,并列出了附近几家医院的专家和可预约时间。这种体验的背后,是 AI 强大的匹配能力,它甚至能根据你复杂的病历,推荐最适合处理相似病例的医生,而不仅仅是名气最大的那一个。
去年蚂蚁 AI 健康管家上线后,不到一年已经有 7000 万用户在用 。它可以连接全国超 5000 家医院、近百万医生、近 200 位名医 AI 分身来提供服务 。从简单科普咨询到复杂的诊后管理,甚至在需要时可以直接衔接挂号服务,形成了一个完整的服务闭环。
科技最大的善意,是让「相亲相爱一家人」不再焦虑
用了 AQ 几个月后,我发现它最打动我的,不是那些炫酷的技术参数,而是一些很细微的瞬间。
现在,我直接问了段涛医生的 AI 分身,它详细询问了疼痛的位置、性质和伴随症状,最后给出了专业的判断和建议。那种安心的感觉,就像身边真的有个 24 小时待命的专家朋友。
再比如住在三线小城市的长辈,以前想看个好点的睡眠科医生,得跑到省城排队挂号。现在他直接在手机上就能咨询毛洪京院长的 AI 分身,从睡眠问题到用药指导,应有尽有。
AI 分身肯定无法完全和真人一样,但在一些常见场景能达到专家本人 80% 的水平,但对大多数人已经足够了。
我想,这就是科技真正的温度。它没有颠覆什么,也没有取代什么,它只是悄悄地填补了那些让我们焦虑的空白。让那些原本遥不可及的医疗资源,真正走进了普通人的生活。
现在,当我看到家族群里再有人转发那些不靠谱的「养生秘笈」时,我会分享一些来自专家 AI 分身的科普内容。因为我知道,在这个信息爆炸的时代,最珍贵的不是更多的信息,而是更可信的陪伴。
或许,这就是 AI 时代该有的样子——不是让机器变得更像人,而是让技术变得更有人情味,要实实在在地解决我们生活中的每一个小问题,让那些我们最关心的人,能活得更安心、更健康。
这或许,就是对「相亲相爱一家人」这个群名,最好的诠释。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
小米 AI 眼镜全汇总:年轻人的第一幅智能眼镜,终于要上头了
本周四(6 月 26 日),小米在「人车家全生态发布会」上正式发布了旗下首款使用小米商标的 AI 智能眼镜产品,为小米「人、车、家」生态再添一步棋。
根据小米在发布会上的展示,小米 AI 眼镜定位「面向下一个世代的个人智能设备」,是一款基于语音和触控操作、不包含显示功能的智能眼镜,支持语音通话和拍照录像。
对于一款智能眼镜来说,好不好看是第一要义,毕竟与 AR 头显、VR 手柄之类的配件不同,智能眼镜是具有非常强烈配饰属性的产品。好消息是,小米 AI 眼镜也的确是将工业设计放在优先位置的:
小米 AI 眼镜采用了较为保守的 D 型方框设计,整体造型接近经典的威灵顿式镜框(Wellington Frame),与上周 Meta 与欧克利合作的 Oakley Meta HSTN 的圆框型相比,小米的选择更加适合亚洲人脸型,搭配最大可以 12 度外翻的转轴,有效避免了以往智能眼镜眼镜腿粗厚导致的夹头问题。
亨利·卡维尔版本的《超人》在伪装成克拉克·肯特时,选择的就是威灵顿风格镜框
在造型与颜色方面,小米 AI 眼镜只有一种可选的框型与三种配色:黑色、玳瑁棕与鹦鹉绿,其中后两种是烟熏色风格的半透明镜架,与「透明探索版」的小米 8 有异曲同工之妙——
对于眼镜来说至关重要的重量方面,小米 AI 眼镜在裸框无镜片的情况下重量约为 40 克。而在最重的情况下,搭配玻璃镜片后的整体重量约在 50~60 克,如果需要全天佩戴的话还是应该尽量选择树脂镜片。
好消息是,小米也的确考虑到了需要处方眼镜的人群,并没有推出一款纯平光镜。小米 AI 眼镜既可以当作裸框去线下直接验光配镜,也可以在小米有品 app 里面定制处方镜片,镜片供应商为上海明月眼镜。
有趣的是,除了平光镜片、处方镜片和墨镜片之外,小米这次还给智能眼镜带来另一个新的选择:电致变色镜片。
与波音 787 上面的可变色舷窗原理类似,电致变色镜片的透明度可以通过施加不同的电压进行调整,反应速度比一般的紫外线光致变色镜片要灵敏的多:
本次的小米 AI 眼镜共包含两款搭配电致变色镜片的版本,分为单色款和多色款。通过在镜腿侧边滑动控制,单色款电变镜片可以调节四档遮光度,多色款则可以在黑色、粉色、蓝色和紫色之间切换。
第一人称相机
如果说现阶段智能眼镜最独树一帜的功能是什么,那毫无疑问是能够拍摄和录制第一人称视角的照片与视频,实现 100% 的解放双手:
作为直接与 Meta 对标的功能,小米自然也将主要的精力放在了相机上。根据发布会的介绍,小米 AI 眼镜配备了一块 1200 万像素的 IMX681 传感器,与雷鸟 V3 上面使用的是同一颗,最高可以录制 2304×1728 分辨率的 2K 30 帧视频,并且支持 EIS 电子防抖。
此外,小米 AI 眼镜上还有一个四麦克风阵列,借助于骨传导麦克风以及抗风噪设计,可以满足从轻度运动到城市街拍的各种使用场景。与 Ray-Ban Meta 类似,小米 AI 眼镜也选择了镜头居左、指示灯居右的布局,快门键位于右侧镜腿上。
小米 AI 眼镜并不是一个独立的 POV 相机,而是澎湃生态中的一环。根据小米的介绍,小米 AI 眼镜支持在微信和 QQ 的视频通话中,可以借助 HyperOS 的相机流转功能替代手机摄像头,真正实现「换位观察」:
更精彩的是,这套玩法并不仅限于视频通话,小米 AI 眼镜是可以用来直播的。
发布会上,小米宣布和哔哩哔哩、抖音、快手和小红书达成了合作,实现了在直播中直接采集小米 AI 眼镜拍摄的画面,省去了以往用运动相机直播推流时要用到的一大堆设备,现在只需要带一部手机、一根数据线和一副眼镜就可以光速开播了。
随身 AI 设备
除了拍照录像,小米 AI 眼镜还有一个角色:实时的小爱同学伴侣。有了小爱同学打底,小米 AI 眼镜的智能化精确识别能力应该是完全不用担心的:
而在翻译方面,小米 AI 眼镜自然也支持了同声传译功能,目前支持中文与英、法、日、韩、德、意、葡、西、俄、印尼语共计十种语言互译,是目前市场上能够买到的智能眼镜产品中支持翻译语言最多的。
除此之外,小米 AI 眼镜也可以配合手机上的录音 app,实现会议中的无感录音和人位录音,回放的时候临场感更强,录音时的打扰性也比手机更低。不过小米 AI 眼镜的同传暂时不支持外语间互译,这个情况在推出国际版时可能会得到改善。
一副全天候智能眼镜
对于智能眼镜来说,除了一颗好的摄像头和优秀的算法之外,续航也是必须要重视的指标。
根据发布会上的介绍,小米 AI 眼镜使用的是高通 AR1 处理器,这是一颗带 NPU 单元和双 ISP(图像处理器)的低功耗芯片,是高通智能穿戴设备处理器中的旗舰。而面对音乐等低功耗场景,小米还搭配了来自恒玄科技的 BES2700H 蓝牙音频处理器,组成了类似 Vision Pro 的「一机双芯」配置。
小米 AI 眼镜使用的是与小米 15 Pro 上相同的高密度硅负极电池技术,纯蓝牙通话或音乐的续航为 7~8 小时左右,在压力更大的混合使用场景(通话+视频+拍照+小爱对话+识图问答)中也达到了约 8.6 小时的典型续航,基本满足普通用户一整天的使用需求,0~100% 充电时长约为 50 分钟。
当然,在直播这样的高功耗场景下,小米 AI 眼镜也支持使用 USB-C 线缆直接供电,接口位于右侧镜腿末端。只不过从发布会上公布的信息来看,这枚接口应该只能用于充电,不具备数据传输和 DAC 功能,也就不支持有线音乐播放了。
小米 AI 智能眼镜的售价为 1999 元,电致变色款分别为 2699 和 2999 元。如果你有医疗镜片的需求,小米与全国近 400 家眼镜门店达成了合作,可以携带小米 AI 眼镜线下验光、现场配镜。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。