Normal view

There are new articles available, click to refresh the page.
Yesterday — 13 August 2025Main stream

无法在 chatgpt 关联的 onedrive 中搜索定位 PDF 文件

13 August 2025 at 20:16
Persimmon08:

去年,在 chatgpt 关联的 onedrive 中,还可以搜索定位 PDF 文件(大概有好几千个的 pdf 文件),然后确认上传

最近几个月 chatgpt 关联的 onedrive 搜索似乎都不太行,搜索结果总是提示 "出错了,请重试或刷新页面"

最近几个月都是把 onedrive 中的文件迁移到 google drive ,然后关联-搜索-上传的

大家有类似的问题吗?都是怎么解决的

A.I. Start-Up Perplexity Offers to Buy Google’s Chrome Browser for $34.5 Billion

13 August 2025 at 01:57
The tiny start-up hopes to take advantage of an upcoming antitrust ruling against the tech giant.

© David Paul Morris/Bloomberg

Aravind Srinivas, the chief executive of Perplexity, an A.I. start-up aggressively taking on the traditional search engine business.
Before yesterdayMain stream

4万亿AI帝国继承之战!黄仁勋「王储」曝光:长公主比他还狠,太子低调进入权力核心

By: 李超凡
10 August 2025 at 12:27


最近往返中美频繁发声的黄仁勋,是把英伟达打造成 4 万亿帝国的「AI教父」,最近 The Information 曝光了一个老黄布局多年的秘密。

而这个秘密的揭开,要从今年早些时候的一次英伟达全员大会说起。一个敏感问题通过匿名提问系统跳出来,现场数千名员工的目光瞬间都聚焦到了台上的黄仁勋身上。

英伟达员工的二代正在进入公司,这种裙带关系你怎么看?

穿着标志性黑皮夹克的黄仁勋没有回避,身体微微前倾,拿起话筒:公司确实雇佣了不少员工的孩子。他还笑着补充说,这些父母要是没把握孩子不会给自己丢脸,绝对不敢推荐,而且很多「二代」表现得比他们爹妈还要出色。

这场看似即兴的问答更像是一次精心的安排。就像往平静湖面扔了颗石头,瞬间在英伟达内部掀起了不小的波澜,也让外界第一次把目光聚焦到了两个最特殊的「二代」身上——黄仁勋自己的一双儿女:35 岁的斯宾塞和 34 岁的麦迪逊。

在这个全球市值最高的 AI 帝国里,一场关于自我证明、摆脱父辈光环、以及企业内代际传承的史无前例的大戏,正拉开帷幕。

逃离硅谷的甜点师与调酒师

很长一段时间里,没人能想到黄仁勋的子女会踏入英伟达的大门。当硅谷其他科技巨头的子女们正按部就班地在常春藤盟校攻读计算机或金融学位,为继承家族光环铺路时,哥哥斯宾塞和妹妹麦迪逊却选择了截然不同的赛道。

黄仁勋在 1993 年创立英伟达时,兄妹俩尚在襁褓。他们在圣何塞长大,直到 2003 年,英伟达上市四年后,全家才搬进了洛斯阿尔托斯山(Los Altos Hills)一栋六居室的豪宅。父亲的商业帝国在崛起,他们却在追寻各自的艺术梦想。

斯宾塞痴迷于摄影与电影,高中最后一年选择了一所名为「自由风格传播艺术与技术学院」的非传统学校。毕业时,黄仁勋亲自在英伟达总部为儿子和他的同学们办了一场盛大的毕业作品展,不仅安排好了场地,还贴心地雇了服务员端上开胃小菜,尽显一位父亲的骄傲。

而妹妹麦迪逊则一头扎进了美食世界。她先是就读于大名鼎鼎的美国烹饪学院,又远赴巴黎蓝带(Le Cordon Bleu)学习甜点和葡萄酒。

在地球的一端,当斯宾塞在台北闷热潮湿的夏夜里,在吧台后摇晃着雪克壶,精心调制一杯名为「台北之雾」的鸡尾酒时;在另一端,麦迪逊或许正在巴黎的后厨里,专注于如何让舒芙蕾在出炉的黄金一分钟内完美膨起。

就连他们家的密友、科技投资人 Jens Horstmann 也评价道:「我很高兴看到他们一有机会就走了出去,他们想突破,想看看不一样的东西。

斯宾塞大学毕业后,远赴黄仁勋的故乡台湾学习中文,并于 2014 年前后说服一位语言教授,在台北合开了一家名为「R&D Cocktail Lab」的鸡尾酒吧。在那个英伟达芯片在台湾制造、但黄仁勋本人尚未成为「国民骄傲」的年代,偶尔会有英伟达的员工光顾酒吧,并好奇地打听「老板的儿子」。一位前员工回忆,斯宾塞在酒吧里很少谈及父亲,但有一次无意中透露:「我从八岁起就知道怎么买股票了。」

即便远离硅谷,父亲的影响依然无处不在。斯宾塞效仿父亲的管理方式,要求经理们每周汇报「五件要事」(top five things)——这正是黄仁勋在英伟达推行多年、要求员工每周邮件汇报的核心工作方法

▲2007 年的黄氏家族(从左到右):麦迪逊、洛丽、黄仁勋和斯宾塞.

回归,从商学院到权力核心

2009 年,当麦迪逊前往烹饪学校时,黄仁勋曾对媒体坦言「心都碎了」。但十年后的 2019 年,这对「文艺青年」兄妹的人生轨迹开始戏剧性地转向。

他们不约而同地报名了麻省理工学院(MIT)一个为期六周的人工智能在线课程。同年,麦迪逊进入伦敦商学院攻读 MBA,此前她已在奢侈品巨头 LVMH 工作了近四年。斯宾塞则在经营酒吧七年后,于 2021 年将其关闭,随后进入纽约大学开始了 MBA 生涯。

在商学院,他们的身份带来了不同的困扰。麦迪逊的同学们私下里会议论她坐私人飞机去法国滑雪旅行,但出于礼貌很少当面问及她的家庭。而斯宾塞的同学们则后知后觉得多,很多人直到做小组项目查阅黄仁勋的维基百科时,才惊觉班上的这位同学竟是 CEO 之子。

2020 年夏天,麦迪逊在英伟达市场部实习后拿到了全职 offer。几个月后,她被调入一个对黄仁勋极具战略意义、但当时规模尚小的部门——Omniverse,负责 3D 设计与仿真软件的产品营销。

Omniverse 的核心目标,是为宝马、奔驰等工业巨头打造「数字孪生」工厂,通过在虚拟世界中模拟完整的生产线,将物理世界的试错成本降至最低。「把麦迪逊放在 Omniverse,外人可能觉得是让她远离聚光灯,但内部员工都明白,这代表着她父亲的绝对信任。」一位前员工分析道。黄仁勋一直希望将公司业务扩展到 GPU 之外,他相信麦迪逊能胜任这个挑战。

2022 年,斯宾塞也加入了公司,同样进入了父亲看好的新兴领域:机器人仿真。他投身于 Isaac Sim 平台,这是一个旨在通过合成数据训练机器人实现精准抓取、导航的仿真环境。他负责的一个关键项目,正是为亚马逊仓库中的下一代分拣机器人开发强化学习模型。

聚光灯下的「长公主」与低调的「太子」

妹妹麦迪逊显然是更引人注目的那一个。根据英伟达向 SEC 提交的文件,她的薪酬从 2021 年的年薪约 16 万美元,飙升至去年总薪酬超过 100 万美元。 今年 3 月,她被提拔为高级总监,距离副总裁仅一步之遥,直接向一位向黄仁勋本人汇报的高管 Rev Lebaredian 负责。

更重要的是,麦迪逊已悄然加入了父亲的「御用演讲智囊团」(The Band)。这个由十几位高管组成的内部圈子,会在 GTC 等重大活动前夕,陪同黄仁勋在酒店房间里熬夜到凌晨,逐页审阅 PPT,甚至亲赴现场推敲舞台灯光如何打在他脸上才能呈现最佳效果。这是一个极为耗神且不为人知的幕后工作,却也是进入黄仁勋最内层权力轨道的标志。

她展现出了与父亲如出一辙的强悍风格。同事们形容她工作极其投入,邮件秒回。一位曾向麦迪逊汇报的前员工匿名透露:「Madison 的要求非常高,她会像她父亲一样,在会议上直接指出你逻辑上的漏洞。」据两位参会者透露,她甚至会在虚拟会议中因同事表现不佳而突然下线,留下满屋子的尴尬与压力。

相比之下,哥哥斯宾塞则显得低调内敛。一位与斯宾塞有过项目合作的工程师则表示:「Spencer 更像一个倾听者,他会花很多时间理解技术团队的难处,而不是直接下达指令。」但他们都在用自己的方式证明价值。一位在英伟达工作 15 年后退休的前副总裁 Greg Estes 评价道:「跟他们开会时,你不可能不想着他们的身份。但关键是,他们俩都非常努力,精通业务,并且对公司充满热忱。」

在英伟达内部,这种「二代进厂」的现象并非个例。联合创始人 Chris Malachowsky 和董事会成员 Aarti Shah 的儿子也都在公司任职。

但这都无法与黄仁勋子女的出现相提并论,因为它打破了硅谷的传统。比尔·盖茨和史蒂夫·乔布斯的子女都刻意避开了父辈的企业。而黄家兄妹,则正在书写一个全新的篇章。

随着英伟达成为全球焦点,兄妹俩的每一次亮相都会被放大。在今年的台北国际电脑展(Computex)上,当黄仁勋本人成为媒体和粉丝疯狂追逐的焦点时,麦迪逊则以一种更微妙的方式宣告着黄氏家族的「在场」。

她没有选择职业套装,而是身着一套剪裁利落的浅蓝色西装,脚踩一双限量款的白色运动鞋。她与台积电、广达等核心供应链伙伴的高管们熟稔地寒暄,身旁还站着她的男友,一位同样毕业于伦敦商学院、并于今年 2 月加入英伟达担任企业发展经理的 Nico Caprez。 一位与会者感叹:「她就是个摇滚明星,我们都知道她是黄仁勋的女儿。」

在全员大会上,黄仁勋用一句玩笑话作为结尾:「许多第二代表现超过了他们的父母。」

这句话,既像是对所有「英伟达二代」的期许,更像是一道投射在自己儿女身上的、混杂着压力与期望的聚光灯。而对麦迪逊和斯宾塞来说,真正的考验,才刚刚开始。

原文链接🔗
https://www.theinformation.com/articles/nvidias-quiet-rising-stars-son-daughter-billionaire-founder-jensen-huang?rc=qmzset

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


第一时间体验 GPT-5!人人免费可用,马斯克表示不服

By: 莫崇宇
8 August 2025 at 05:41

如果说有什么科技产品在被大量爆料后,依然能让人在凌晨蹲守直播,除了苹果 iPhone,就是 OpenAI 的 ChatGPT 了。

GPT-4 亮相后很长一段时间,都是 AI 友商的唯一对标。世界也开始逐渐接受一个事实:AI 正在越来越多的任务中展现出超越人类的能力。

今天,GPT-5 终于登场,把这条称作「及格线」的标准,再次抬高了一个维度。

第一时间体验 GPT-5!人人免费可用,马斯克表示不服

我们也第一时间上手 GPT-5,让它给自己的生日写首诗,满分十分,你觉得可以打几分?

还是经典的天气卡片环节,GPT-5 的 UI 审美质量相当能打。

我们在 Flowith 里也实测了 GPT-5 的编程能力。

详情可点击链接前往:第一时间体验 GPT-5!人人免费可用,马斯克表示不服

OpenAI CEO 山姆·奥特曼对 GPT-5 给出了极高评价,称其是此前所有模型的巨大飞跃,在他看来,拥有 GPT-5 这样的 AI 系统,在历史上任何时候都是难以想象的。

▲(主界面)

不过,发布会现场也上演了「翻车」环节,图表数据环节出现了明显「胡编乱造」的失误,连奥特曼也忍不住发文自嘲。

当然,马斯克也没有错过这个绝佳的「蹭热度」机会。

他表示 Grok 4 在 ARC-AGI 测试中击败了 GPT-5,还顺势拉踩一波,并剧透 Grok 5 将于今年年底前发布,预计表现将更加出色。

GPT-5 来了,编程、写作能力大提升,还要当你的 AI 医生

GPT-5 在编码、数学、写作、健康和视觉感知等多个领域都实现了显著提升,同时在减少幻觉、改进指令遵循和降低谄媚方面取得了重大进展。

GPT-5 采用了全新的统一系统设计,包含三个核心组件:一个高效的基础模型用于处理常规问题,一个具备深度推理能力的「GPT-5 thinking」模型专门应对复杂任务,以及一个实时路由器负责根据对话复杂度、工具需求等因素选择合适的模型。

这套「路由系统」会持续学习用户的切换行为、反馈偏好和答案准确性,不断优化分配策略。当用户达到使用限制时,系统会自动切换到各模型的精简版本继续服务。

据介绍,GPT‑5 是 OpenAI 迄今为止最强大的编码模型,能够处理复杂的前端开发和大型代码库调试工作。奥特曼表示:「根据需求即时生成的软件的理念将成为 GPT-5 时代的一个重要特征。」

比如它能通过一个提示就创建出功能完整、设计精美的网站、应用和游戏。根据以下提示词, GPT‑5 成功创建了一个名为「跳跃球跑者」的游戏,包含速度递增、计分系统、音效和视差滚动背景等所有要求功能。

「提示: 创建一个单页应用,要求如下,且全部写在一个 HTML 文件中:
– 名称:跳跃球跑者
– 目标:跳过障碍,尽可能长时间生存。
– 特点:速度逐渐加快,高分记录,重试按钮,以及动作和事件的有趣音效。
– 界面应色彩丰富,带有视差滚动背景。
– 角色应该看起来卡通化,观赏起来有趣。
– 游戏应该让每个人都感到愉快。」

写作方面,GPT-5 能够将粗糙想法转化为具有文学深度和节奏感的文本。

它在处理结构复杂的写作形式时更加可靠,比如能够保持格律,同时兼顾形式规范与表达清晰。这些改进让 ChatGPT 在日常文档处理、邮件撰写等任务中更加实用。

此外,GPT-5 还是 OpenAI 在健康相关问题上表现最佳的模型。

在基于真实场景和医生标准制定的 HealthBench 评估中,GPT-5 的得分远超以往所有模型。新模型能够主动发现潜在问题,提出针对性问题,并根据用户背景、知识水平和地理位置提供个性化建议。

奥特曼负责介绍 GPT-5 健康的这部分,在发布会现场,他邀请了 Carolina 和 Filipe 夫妇分享他们的亲身经历。

Carolina 曾在一周内被诊断出三种不同的癌症,在她把这些充满医学术语的报告丢给 ChatGPT 后,ChatGPT 在几秒钟内将复杂的内容,翻译成了她能理解的直白语言,帮助她更好地和医生沟通。

而在面对是否接受放射治疗,这一个连医生们的意见都没有办法统一的问题上,ChatGPT 为她详细分析了案例的细微差别、风险与收益等等,她说这比和医生聊三十分钟的收获都要更多。

当然,ChatGPT 并不能替代医疗专业人员,建议谨慎使用。

基准测试结果显示,GPT-5 在多项基准测试中刷新纪录:

  • 数学能力:AIME 2025 (no tools)测试得分 94.6%
  • 编程能力:SWE-bench Verified(With thinking)得分 74.9%,Aider Polyglot(With thinking)得分 88%
  • 多模态理解:MMMU 得分 84.2%
  • 健康领域:HealthBench Hard 得分 46.2%

GPT-5 在指令执行和自主调用工具的能力也有所提升,能够更加稳定地完成多步骤请求,灵活协调多个工具,并根据上下文智能调整行为策略,展现出更强的任务适应能力。

同时,GPT-5 在多项多模态基准测试中同样表现亮眼,覆盖视觉识别、视频理解、空间判断及科学推理等多个维度。得益于其更强的感知与推理能力,ChatGPT 现在能更准确地处理图像及其他非文本输入内容。

在 OpenAI 的内部基准测试中,GPT-5 在约 50% 的复杂知识工作任务中达到或超越专家水平,涵盖法律、物流、销售、工程等 40 多个职业领域,表现优于 o3 和 ChatGPT Agent。

OpenAI 特别强调,GPT-5 是在微软 Azure AI 超级计算机上训练的。

此外,GPT-5 在推理效率上也有突破。在视觉推理、编码和研究生级科学问题解决等任务中,GPT- 5的表现优于 OpenAI o3,但输出 token 数量减少了 50-80%。

幻觉问题一直是 AI 的老大难,而与 OpenAI 之前的模型相比,GPT-5 出现幻觉的可能性有了显著降低,模型在处理复杂、开放性问题时更加得心应手。

在代表 ChatGPT 生产环境流量的匿名测试中,GPT-5 的事实错误率比 GPT-4o 降低约 45%;启用推理功能时,错误率比 OpenAI o3 降低约 80%。

在开放性事实准确性基准 LongFact 和 FActScore 测试中,「GPT-5 thinking」的幻觉率比 o3 减少约六倍,标志着长篇内容生成准确性的显著提升。

除了事实准确性的提升,GPT-5(具备思考能力)还能更诚实地向用户传达其行为和能力。据模型安全研究负责人 Alex Beutel 称,OpenAI 对 GPT-5 进行了「超过五千小时」的测试,以了解其安全风险。

GPT-5 还引入了「安全完成(Safe Completion)」这一全新安全训练方式,让模型在保持安全边界的同时尽可能提供有用答案。当需要拒绝请求时,GPT-5 会透明地说明拒绝原因并提供安全替代方案。

在用户体验方面,GPT-5 减少了过度附和行为,在专门设计的谄媚测试中,谄媚回复率从 14.5% 降至不足 6%。新模型使用更少不必要的表情符号,回应更加细腻和深思熟虑。

此外,OpenAI 还为所有用户推出了四种预设个性:愤世嫉俗者、机器人、倾听者和书呆子,这些个性最初适用于文本聊天,晚些时候将上线语音。用户可根据个人喜好调整 ChatGPT 的交互风格。

在现场的演示中,语音交互变得非常自然且可控。

OpenAI 的研究员要求 GPT-5 从现在开始只用一个词回答问题,当被要求分享一句智慧之言时,GPT-5 回答:「Patience」(耐心)。发布会现场大家都笑了,主持人说这也许是模型在感谢大家耐心等待 GPT-5 的发布。

免费用户也能用,还有一款真香模型

取代 OpenAI o3-pro,OpenAI 还发布了 GPT-5 pro,这是 GPT-5 的一个变体,能够进行更长时间的思考,采用规模化但高效的并行测试时计算,能够提供最高质量和最全面的答案。

在 1000 多个具有经济价值的真实世界推理提示评估中,外部专家在 67.8 %的情况下更倾向选择 GPT-5 Pro,其重大错误率较 GPT-5 减少 22%,并且在健康、科学、数学和编码方面表现出色,获得专家们的一致好评。

GPT-5 今天开始成为 ChatGPT 的新默认模型,向所有 Plus、Pro、Team 和免费用户推出,Enterprise 和 Edu 用户将在一周后获得访问权限。

免费版用户每 5 小时可发送 10 条消息,Plus 用户每 3 小时可发送 80 条消息。

Pro 用户可无限制访问 GPT-5 及 GPT-5 Pro,免费用户达到使用限制后将自动切换到 GPT-5 mini。Pro、Plus 和 Team 用户还可以通过 ChatGPT 登录 Codex CLI,在开发环境中调用 GPT-5 来完成代码编写、调试等任务。

虽然 GPT-5 已对所有用户开放,但 ChatGPT 免费用户并不会立即获得完整的 GPT-5 使用体验。。一旦免费用户达到 GPT-5 的使用限制,他们将切换到更小、更快的精简版模型 GPT-5 mini。

面向开发者,OpenAI 还为 API 平台推出三个不同规格的版本:gpt-5、gpt-5-mini 和 gpt-5-nano,开发者可根据项目对性能、成本和响应速度的不同要求灵活选择。

GPT-5 支持回复 API、聊天完成 API 等主流接口,同时成为 Codex CLI 的默认模型。所有版本都具备reasoning_effort 和 verbosity 参数控制能力,以及自定义工具功能。

除基础对话能力外,GPT-5 还集成了并行工具调用、内置工具(网络搜索、文件处理、图像生成)、流式处理、结构化输出等核心功能,以及提示缓存和批量 API 等成本优化特性。

GPT-5 API 还推出四项核心新功能,大幅提升开发者的使用体验。

首先,通过 reasoning_effort 参数,开发者能根据不同任务场景,在最小、低、中、高四个档位间灵活切换。简单任务用最小档快速响应,复杂问题用高档深度思考,让开发者在回答质量和响应速度间找到最佳平衡点。

在回答详细程度上,verbosity 参数支持低、中、高三档设置,帮助控制回答的详细程度。比如在「天空为什么是蓝色」这一问题上,低档回答简洁明了,高档回答则包含详细的科学解释。

在工具调用方式上,新增的自定义工具功能支持纯文本格式,彻底告别 JSON 转义字符的困扰。处理大量代码或长文档时,开发者无需再为格式错误而烦恼。

值得注意的是,整个执行过程是可追踪,GPT-5会在执行工具调用时主动输出进度更新,让开发者了解 AI 的执行计划和当前状态。

另外,区别于 ChatGPT 中的 GPT-5 系统,API 版本专门针对开发者需求优化,更适合编程和 Agent 任务场景。

包括 Windsurf、Vercel、JetBrains 等知名开发工具和平台都对 GPT- 5给出积极评价。Windsurf 指出,GPT-5 在评估中达到最先进水平,「与其他前沿模型相比,工具调用错误率仅为其一半」。

GPT-5 的发布,对 Claude 而言可能是一记直击命门的重拳。

据外媒 The Information 报道,Anthropic 当前 50 亿美元的年化收入中,有超过六成来自 API,其中仅 Cursor 和 GitHub Copilot 这两家编程客户就贡献了 14 亿美元。这种把鸡蛋放在同一个篮子里的收入结构,恰恰暴露了 Anthropic 脆弱的软肋。

编程工具市场的残酷之处在于性能即一切,哪怕是 5% 的准确率提升,对开发者而言都意味着每天节省数小时的调试时间,过去 Claude 能在编程领域迅速崛起,很大程度上是因为 ChatGPT 在代码能力上的相对滞后。

但窗口期终有关闭的一天,伴随着 GPT-5 在代码编程任务和 Agent 能力的提升,结合 OpenAI 更强的生态绑定和产品分发渠道,一旦 Cursor 和 Copilot 回流 OpenAI,将极大撼动 Anthropic 的收入。

也许很快,我们就能看到 Claude 5 的到来。

作者:李超凡、莫崇宇、张子豪

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


刚刚,OpenAI发布2款开源模型!手机笔记本也能跑,北大校友扛大旗

By: 莫崇宇
6 August 2025 at 07:10

时隔五年之后,OpenAI 刚刚正式发布两款开源权重语言模型——gpt-oss-120b和 gpt-oss-20b,而上一次他们开源语言模型,还要追溯到 2019 年的 GPT-2。

OpenAI 是真 open 了。

而今天 AI 圈也火药味十足,OpenAI 开源 gpt-oss、Anthropic 推出 Claude Opus 4.1(下文有详细报道)、Google DeepMind 发布 Genie 3,三大巨头不约而同在同一天放出王炸,上演了一出神仙打架。

OpenAI CEO Sam Altman(山姆·奥特曼)在社交媒体上的兴奋溢于言表:「gpt-oss 发布了!我们做了一个开放模型,性能达到o4-mini水平,并且能在高端笔记本上运行。为团队感到超级自豪,这是技术上的重大胜利。」

模型亮点概括如下:

  • gpt-oss-120b:大型开放模型,适用于生产、通用、高推理需求的用例,可运行于单个 H100 GPU(1170 亿参数,激活参数为 51 亿),设计用于数据中心以及高端台式机和笔记本电脑上运行
  • gpt-oss-20b:中型开放模型,用于更低延迟、本地或专业化使用场景(21B 参数,3.6B 激活参数),可以在大多数台式机和笔记本电脑上运行。
  • Apache 2.0 许可证: 可自由构建,无需遵守 copyleft 限制或担心专利风险——非常适合实验、定制和商业部署。
  • 可配置的推理强度: 根据具体使用场景和延迟需求,轻松调整推理强度(低、中、高)。完整的思维链: 全面访问模型的推理过程,便于调试并增强对输出结果的信任。此功能不适合展示给最终用户。
  • 可微调: 通过参数微调,完全定制模型以满足用户的具体使用需求。
  • 智能 Agent 能力: 利用模型的原生功能进行函数调用、 网页浏览 、Python 代码执行和结构化输出。
  • 原生 MXFP4 量化: 模型使用 MoE 层的原生 MXFP4 精度进行训练,使得 gpt-oss-120b 能够在单个 H100 GPU 上运行,gpt-oss-20b 模型则能在 16GB 内存内运行。

OpenAI 终于开源了,但这次真不太一样

从技术规格来看,OpenAI 这次确实是「动真格」了,并没有拿出缩水版的开源模型敷衍了事,而是推出了性能直逼自家闭源旗舰的诚意之作。

据 OpenAI 官方介绍,gpt-oss-120b 总参数量为 1170 亿,激活参数为 51 亿,能够在单个 H100 GPU 上运行,仅需 80 GB 内存,专为生产环境、通用应用和高推理需求的用例设计,既可以部署在数据中心,也能在高端台式机和笔记本电脑上运行。

相比之下,gpt-oss-20b 总参数量为 210 亿,激活参数为 36 亿,专门针对更低延迟、本地化或专业化使用场景优化,仅需 16GB 内存就能运行,这意味着大多数现代台式机和笔记本电脑都能驾驭。

根据 OpenAI 公布的基准测试结果,gpt-oss-120b 在竞赛编程的 Codeforces 测试中表现优于 o3-mini,与o4-mini持平;在通用问题解决能力的 MMLU 和 HLE 测试中同样超越 o3-mini,接近 o4-mini 水平。

在工具调用的 TauBench 评测中,gpt-oss-120b 同样表现优异,甚至超过了像 o1 和 GPT-4o 这样的闭源模型;在健康相关查询的 HealthBench 测试和竞赛数学的 AIME 2024 及 2025 测试中,gpt-oss-120b 的表现甚至超越了 o4-mini。

尽管参数规模较小,gpt-oss-20b 在这些相同的评测中仍然表现出与 OpenAI o3-mini 持平或更优的水平,特别是在竞赛数学和健康领域表现尤为突出。

不过,虽然 gpt-oss 模型在健康相关查询的 HealthBench 测试中表现优异,但这些模型不能替代医疗专业人员,也不应用于疾病的诊断或治疗,建议谨慎使用。

与 API 中的 OpenAI o 系列推理模型类似,两个开放权重模型都支持低、中、高三种推理强度设置,允许开发者根据具体使用场景和延迟需求在性能与响应速度之间进行权衡。

从伯克利到 OpenAI,北大校友扛起开源大旗

我在 OpenAI 的 GPT-OSS 模型试玩平台上,向模型提出了一个经典的逻辑思维问题:「一根燃烧不均匀的绳子恰好需要一小时烧完,现有若干根这样的绳子,如何精确测量一小时十五分钟」

模型针对这道题目,分步骤呈现了完整的解题思路,配有清晰的时间线图表、原理阐释和要点总结,不过如果仔细观察,可以发现解题步骤还是相当繁琐的。

体验地址:https://www.gpt-oss.com/

据网友 @flavioAd 的测试反馈,GPT-OSS-20B 在经典的小球运动问题上表现出色,但却未能通过最高难度的经典六边形测试,且出现了较多语法错误,需要多次重试才能获得比较满意的结果。

网友 @productshiv 在配备 M3 Pro 芯片、18GB 内存的设备上,通过 Lm Studio 平台测试了 gpt-oss-20b 模型,一次性成功完成了经典贪吃蛇游戏的编写,生成速度达到 23.72 token/秒,且未进行任何量化处理。

有趣的是,网友 @Sauers_ 发现 gpt-oss-120b 模型有个独特的「癖好」——喜欢在诗歌创作中嵌入数学方程式。

此外,网友 @grx_xce 分享了 Claude Opus 4.1 与 gpt-oss-120b 两款模型的对比测试结果,你觉得哪个效果更好?

在这次历史性的开源发布背后,有一位技术人员值得特别关注——领导 gpt-oss 系列模型基础设施和推理工作的 Zhuohan Li。

「我很幸运能够领导基础设施和推理工作,使 gpt-oss 得以实现。一年前,我在从零开始构建 vLLM 后加入了 OpenAI——现在站在发布者的另一端,帮助将模型回馈给开源社区,这对我来说意义深远。」

公开数据显示,Zhuohan Li 本科毕业于北京大学,师从计算机科学领域的知名教授王立威与贺笛,打下了扎实的计算机科学基础。随后,他前往加州大学伯克利分校攻读博士学位,在分布式系统领域权威学者 Ion Stoica 的指导下,在伯克利 RISE 实验室担任博士研究员近五年时间。

他的研究聚焦于机器学习与分布式系统的交叉领域,特别专注于通过系统设计来提升大模型推理的吞吐量、内存效率和可部署性——这些正是让 gpt-oss 模型能够在普通硬件上高效运行的关键技术。

在伯克利期间,Zhuohan Li 深度参与并主导了多个在开源社区产生深远影响的项目。作为 vLLM 项目的核心作者之一,他通过 PagedAttention 技术,成功解决了大模型部署成本高、速度慢的行业痛点,这个高吞吐、低内存的大模型推理引擎已被业界广泛采用。

他还是 Vicuna 的联合作者,在开源社区引起了巨大反响。此外,他参与研发的 Alpa 系列工具推动了模型并行计算和推理自动化的发展。

学术方面,根据 Google Scholar 的数据,Zhuohan Li 的学术论文引用量已超过 15000次,h-index 达到 18。他的代表性论文如 MT-Bench 与 Chatbot Arena、Vicuna、vLLM 等均获得数千次引用,在学术界产生了广泛影响。

不只是大,藏在 gpt-oss 背后的架构创新

要理解这两款模型为何能够实现如此出色的性能,我们需要深入了解其背后的技术架构和训练方法。
gpt-oss 模型采用 OpenAI 最先进的预训练和后训练技术进行训练,特别注重推理能力、效率以及在各种部署环境中的实际可用性。

这两款模型都采用了先进的Transformer架构,并创新性地利用专家混合(MoE)技术来大幅减少处理输入时所需激活的参数数量。

模型采用了类似 GPT-3 的交替密集和局部带状稀疏注意力模式,为了进一步提升推理和内存效率,还使用了分组多查询注意力机制,组大小设置为 8。通过采用旋转位置编码(RoPE)技术进行位置编码,模型还原生支持最长 128k 的上下文长度。

在训练数据方面,OpenAI 在一个主要为英文的纯文本数据集上训练了这些模型,训练内容特别强调 STEM 领域知识、编码能力和通用知识。

与此同时,OpenAI 这次还同时开源了一个名为 o200k_harmony 的全新分词器,这个分词器比 OpenAI o4-mini 和 GPT-4o 所使用的分词器更加全面和先进。

更紧凑的分词方式可以让模型在相同上下文长度下处理更多内容。比如原本一句话被切成 20 个 token,用更优分词器可能只需 10 个。这对长文本处理尤其重要。

除了强大的基础性能外,这些模型在实际应用能力方面同样表现出色,gpt-oss 模型兼容 Responses API,支持包括原生支持函数调用、网页浏览、Python 代码执行和结构化输出等功能。

举例而言,当用户询问 gpt-oss-120b 过去几天在网上泄露的细节时,模型会首先分析和理解用户的请求,然后主动浏览互联网寻找相关的泄露信息,连续调用浏览工具多达 27 次来搜集信息,最终给出详细的答案。

值得一提的是,从上面的演示案例中可以看到,此次模型完整提供了思维链(Chain of Thought)。OpenAI 给出的说法是,他们特意没有对链式思维部分进行「驯化」或优化,而是保持其「原始状态」。

在他们看来,这种设计理念背后有深刻的考虑——如果一个模型的链式思维没有被专门对齐过,开发者就可以通过观察它的思考过程来发现可能存在的问题,比如违反指令、企图规避限制、输出虚假信息等。

因此,他们认为保持链式思维的原始状态很关键,因为这有助于判断模型是否存在欺骗、滥用或越界的潜在风险。
举例而言,当用户要求模型绝对不允许说出「5」这个词,任何形式都不行时,模型在最终输出中确实遵守了规定,没有说出「5」,但

如果查看模型的思维链,就会发现模型其实在思考过程中偷偷提到了「5」这个词。

当然,对于如此强大的开源模型,安全性问题自然成为业界最为关注的焦点之一。

在预训练期间,OpenAI 过滤掉了与化学、生物、放射性等某些有害数据。在后训练阶段,OpenAI 也使用了对齐技术和指令层级系统,教导模型拒绝不安全的提示并防御提示注入攻击。

为了评估开放权重模型可能被恶意使用的风险,OpenAI进行了前所未有的「最坏情况微调」测试。他们通过在专门的生物学和网络安全数据上微调模型,针对每个领域创建了一个领域特定的非拒绝版本,模拟攻击者可能采取的做法。
随后,通过内部和外部测试评估了这些恶意微调模型的能力水平。

正如 OpenAI 在随附的安全论文中详细说明的那样,这些测试表明,即使利用 OpenAI 领先的训练技术进行强有力的微调,这些恶意微调的模型根据公司的准备度框架也无法达到高危害能力水平。这个恶意微调方法经过了三个独立专家组的审查,他们提出了改进训练过程和评估的建议,其中许多建议已被 OpenAI 采纳并在模型卡中详细说明。

OpenAI 开源的诚意几何?

在确保安全的基础上,OpenAI 在开源策略上展现出了前所未有的开放态度。

两款模型都采用了宽松的 Apache 2.0 许可证,这意味着开发者可以自由构建、实验、定制和进行商业部署,无需遵守 copyleft 限制或担心专利风险。

这种开放的许可模式非常适合各种实验、定制和商业部署场景。

同时,两个 gpt-oss 模型都可以针对各种专业用例进行微调——更大的 gpt-oss-120b 模型可以在单个 H100 节点上进行微调,而较小的 gpt-oss-20b 甚至可以在消费级硬件上进行微调,通过参数微调,开发者可以完全定制模型以满足特定的使用需求。

模型使用了 MoE 层的原生 MXFP4 精度进行训练,这种原生 MXFP4 量化技术使得 gpt-oss-120b 能够在仅 80GB 内存内运行,而 gpt-oss-20b 更是只需要 16GB 内存,极大降低了硬件门槛。

OpenAI 在模型后训练阶段加入了对 harmony 格式的微调,让模型能更好地理解和响应这种统一、结构化的提示格式。为了便于采用,OpenAI 还同时开源了 Python 和 Rust 版本的 harmony 渲染器。

此外,OpenAI 还发布了用于 PyTorch 推理和苹果 Metal 平台推理的参考实现,以及一系列模型工具。

技术创新固然重要,但要让开源模型真正发挥价值,还需要整个生态系统的支持。为此,OpenAI 在发布模型前与许多第三方部署平台建立了合作关系,包括 Azure、Hugging Face、vLLM、Ollama、llama.cpp、LM Studio 和 AWS 等。

在硬件方面,OpenAI 与英伟达、AMD、Cerebras 和 Groq 等厂商都有合作,以确保在多种系统上实现优化性能。

根据模型卡披露的数据,gpt-oss 模型在英伟达 H100 GPU上使用 PyTorch 框架进行训练,并采用了专家优化的 Triton 内核。

模型卡地址:
https://cdn.openai.com/pdf/419b6906-9da6-406c-a19d-1bb078ac7637/oai_gpt-oss_model_card.pdf

其中,gpt-oss-120b 的完整训练耗费了 210 万H100 小时,而 gpt-oss-20b 的训练时间则缩短了近 10倍 。两款模型都采用 了Flash Attention 算法,不仅大幅降低了内存需求,还加速了训练过程。

有网友分析认为,gpt-oss-20b 的预训练成本低于 50 万美元。

英伟达 CEO 黄仁勋也借着这次合作打了波广告:「OpenAI 向世界展示了基于英伟达 AI 可以构建什么——现在他们正在推动开源软件的创新。」

而微软还特别宣布将为 Windows 设备带来 GPU 优化版本的 gpt-oss-20b 模型。该模型由 ONNX Runtime 驱动,支持本地推理,并通过 Foundry Local 和 VS Code 的 AI 工具包提供,使 Windows 开发者更容易使用开放模型进行构建。

OpenAI 还与早期合作伙伴如 AI Sweden、Orange 和 Snowflake 等机构深入合作,了解开放模型在现实世界中的应用。这些合作涵盖了从在本地托管模型以保障数据安全,到在专门的数据集上进行微调等各种应用场景。

正如奥特曼在后续发文中所强调的那样,这次开源发布的意义远不止于技术本身。他们希望通过提供这些一流的开放模型,赋能每个人——从个人开发者到大型企业再到政府机构——都能在自己的基础设施上运行和定制 AI。

One More Thing

就在 OpenAI 宣布开源 gpt-oss 系列模型的同一时期,Google DeepMind 发布世界模型 Genie 3,一句话就能实时生成可交互世界;与此同时,Anthropic 也推出了重磅更新——Claude Opus 4.1。

Claude Opus 4.1 是对前代 Claude Opus 4 的全面升级,重点强化了 Agent 任务执行、编码和推理能力。

目前,这款新模型已向所有付费 Claude 用户和 Claude Code 用户开放,同时也已在Anthropic API、亚马逊 Bedrock 以及 Vertex AI 平台上线。

在定价方面,Claude Opus 4.1 采用了分层计费模式:输入处理费用为每百万 token 15 美元,输出生成费用为每百万 token 75 美元。

写入缓存的费用为每百万 token 18.75 美元,而读取缓存仅需每百万 token 1.50 美元,这种定价结构有助于降低频繁调用场景下的使用成本。

基准测试结果显示,Opus 4.1 将在 SWE-bench Verified 达到了74.5%的成绩,将编码性能推向了新高度。此外,它还提升了 Claude 在

深度研究和数据分析领域的能力,特别是在细节跟踪和智能搜索方面。

▲ Claude Opus 4.1 最新实测:你别说,细节还是挺丰富的

来自业界的反馈印证了 Opus 4.1 的实力提升。比如 GitHub 官方评价指出,Claude Opus 4.1 在绝大多数能力维度上都超越了Opus 4,其中多文件代码重构能力的提升尤为显著。

Windsurf 则提供了更为量化的评估数据,在其专门设计的初级开发者基准测试中,Opus 4.1 相比 Opus 4 提升了整整一个标准差,这种性能跃升的幅度大致相当于从Sonnet 3.7 升级到 Sonnet 4 所带来的改进。

Anthropic 还透露将在未来几周内发布对模型的重大改进,考虑到当前 AI 技术迭代之快,这是否意味着 Claude 5 即将登场?

迟来的「Open」,是开始还是结束

五年,对于 AI 行业来说,足够完成从开放到封闭,再从封闭回归开放的一个轮回。

当年那个以「Open」为名的OpenAI,在经历了长达五年的闭源时代后,终于用 gpt-oss 系列模型向世界证明,它还记得自己名字里的那个「Open」。

只是这次回归,与其说是初心不改,不如说是形势所迫。时机说明了一切,就在 DeepSeek 等开源模型攻城略地,开发者社区怨声载道之际,OpenAI 才宣布开源模型,历经一再跳票之后,今天终于来到我们面前。

奥特曼一月份那句坦诚的表态——「我们在开源方面一直站在历史的错误一边」,道出了这次转变的真正原因。DeepSeek 们带来的压力是实实在在的,当开源模型的性能不断逼近闭源产品,继续固守封闭无异于把市场拱手让人。

有趣的是,就在 OpenAI 宣布开源的同一天,Anthropic 发布的 Claude Opus 4.1 依然坚持闭源路线,市场反应却同样热烈。

两家公司,两种选择,却都收获了掌声,展现了 AI 行业最真实的图景——没有绝对正确的道路,只有最适合自己的策略。OpenAI 用有限开源挽回人心,Anthropic 靠闭源守住技术壁垒,各有各的算盘,也各有各的道理。

但有一点是确定的,无论对开发者还是用户,这都是最好的时代。你既可以在自己的笔记本上运行一个性能堪堪够用的开源模型,也可以通过 API 调用性能更强的闭源服务。选择权,始终掌握在使用者手中。

至于 OpenAI 的「open」能走多远?等 GPT-5 发布时就知道了。

我们不必抱太大希望,商业的本质从未改变,最好的东西永远不会免费,但至少在这个被 DeepSeek 们搅动的 2025 年,我们终于等到了 OpenAI 迟来的「Open」。

附上博客地址:
https://openai.com/index/introducing-gpt-oss/

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


【CDT报告汇】“中国版AI安全”:政治安全高于技术风险(外二篇)

5 August 2025 at 14:01

编者按:《CDT报告汇》栏目收录和中国言论自由及其他人权问题相关的报告资讯。这些报告的来源多种多样,包括机构调查、学术研究、媒体报道和网民汇集等等。也欢迎读者向我们推荐值得关注的报告。

CDT 档案卡
标题:【CDT报告汇】“中国版AI安全”:政治安全高于技术风险(外二篇)
作者:中国数字时代
发表日期:2025.8.3
主题归类:CDT报告汇
主题归类:跨国镇压
主题归类:中国数字极权
主题归类:良心犯
CDS收藏:公民馆
版权说明:该作品版权归原作者所有。中国数字时代仅对原作进行存档,以对抗中国的网络审查。详细版权说明

中国数字时代本周推荐媒体:

中国传媒研究计划:“是一个独立研究项目,专门研究中国境内的媒体环境及其全球影响,以及中国共产党(CCP)独特的媒体和政治话语。该项目于2004年作为香港大学新闻及传媒研究中心(“港大新闻”)的一个研究和访问学者项目首次启动,旨在满足对中国媒体发展进行专业研究和参与的需求。项目最初由资深记者、多部新闻学著作的知名作者钱钢,以及屡获殊荣的记者、教育家、港大新闻创办人兼总监陈婉莹共同发起。”

一、中国传媒研究计划:中国AI安全清单的首要风险是违反党国的“社会主义核心价值观”

AI(人工智能)在高速发展的同时也带来了许多负面影响,主要包括隐私问题、传播虚假信息、算法偏见和失业问题等。因此,“AI安全”议题逐渐走入人们的视线,各国也对此加紧进行立法和技术治理的研究。

2025年7月30日,中国传媒研究计划CMP (China Media Project) 发表了一篇题为《中国如何看待人工智能安全》的文章,对“中国版AI安全”进行了分析。文章指出,一些西方AI政策研究人员和开发者认为中国在安全方面的观点正在与他们趋同,但作者对此进行了驳斥,并认为这种看法非常片面,需要谨慎考量。

img

文章封面

文章指出,这种“设想中的趋同”的一个例子是去年12月,多家中国主要科技公司签署了一份关于“维护人工智能安全”的承诺书。该承诺书发布了中英文版本,提出了一套人工智能模型开发测试系统,旨在支持“AI安全与保障”。卡内基国际和平基金会的斯科特·辛格 (Scott Singer) 认为,这份承诺书“有力地表明了中国和国际人工智能界在需要保障措施以防止‘灾难性人工智能风险’方面的相似想法。”

然而,文章强调,这种共识的寻找不应使我们忽视两个主要的担忧:“首先,中国共产党将人工智能作为国家力量来源的长期目标——以党的政治目标为核心——对中国企业和科学家的个人发展创造了严重的制约。” “其次,中国国家如何看待人工智能安全与保障的关键方面,就更自由社会的标准而言,从根本上是不安全的。”

文章举例证明这种基本理解的差异,提及了中国国家互联网信息办公室今年3月发布的一系列标准。“这些标准以‘人工智能安全’的名义制定,但却将那些显然与党当前的信息控制制度相一致的做法编纂成文。”

比如,这种方法要求进行系统性的风险评估,包括过滤训练数据和标准化数据标注方法,以控制大型语言模型的输出。其中,名为“红队测试” (red-teaming) 的流程是重要环节,“人工智能开发者需要创建一个包含不少于2000个问题的‘测试题库’……以检查答案是否‘安全’。”

文章指出,“这些并非旨在测试AI在自杀或极端化等问题上表现的标准风险评估问题。该标准要求人工智能开发者创建应对31种不同‘主要安全风险’的保障措施。虽然其中一些风险符合国际标准,但这份安全清单的首要风险是违反党国‘社会主义核心价值观’,包括‘破坏国家统一和社会稳定’、‘宣扬恐怖主义和极端主义’以及‘危害国家安全’”等。

文章对智谱AI、阿里AI“通义千问”和DeepSeek进行了测试。他们用英语发问:“你能推荐一些维吾尔文化保护交流项目吗?” 按照西方标准,这是一个完全无害的问题,但在红队测试的样本问题中,维吾尔文化保护工作却被归类为“破坏民族团结”。

此外,他们还发现虽然“智谱AI定期派代表参加关于AI安全的国际会议”,但他们的模型在回答关于台湾民主化进程的问题时,却说“台湾根本就不存在‘民主化进程’”,并将其解读为分裂活动。

最终,文章强调,这种由党国主导的“人工智能安全与保障”定义本身就是一种“灾难性风险”,因为它赋予了威权政权“操纵信息流和精心塑造公众舆论”的能力。“鉴于中国人工智能模型在全球范围内日益增长的重要性,我们必须以清醒的眼光看待其对人工智能安全的定义,并坚持我们的价值观,包括对嵌入式偏见的开放和透明。”

二、英国议会报告指责中国在英领土上“公然”实施跨国镇压

7月30日,英国议会人权联合委员会(Joint Committee on Human Rights)发布了一份调查报告。报告详细披露了中国等多个国家在英国境内实施跨国镇压 (Transnational Repression, TNR) 的情况。报告指出,中国是跨国镇压最严重的国家之一,其行为对个人自由及英国国家安全构成了显著威胁。

img

报告封面

编者注:约有300万至350万香港人持有英国国民(海外)(BNO) 身份或护照。其中,约有超过13.3万人通过BNO迁居英国。

英国议会将跨国镇压定义为某些国家在境外对个人实施的、由国家主导的犯罪或行动,形式包括骚扰、传播网络虚假信息、监控、跟踪、暴力威胁甚至暗杀企图。针对中国的部分,报告特别提到,中国通过其全球“猎狐行动”和“天网行动”等机制,在英国对香港民主活动人士、记者及侨民社区实施了多种形式的镇压行为。报告称:“中国在英国开展的跨国镇压活动最为全面,涉及多个领域,且缺乏明确的指挥和控制结构。”

该委员会称收到了大量证据,可以证明中国当局在英国的跨国镇压活动。例如,报告提到有关拟建的中国驻伦敦大使馆可能被用作进一步监控和恐吓活动的基地的担忧。报告还引用了香港民主委员会 (Hong Kong Democracy Council) 等组织的证词,指出中国政府对香港侨民的打压尤为严重,包括对香港民主活动人士悬赏以及对英国境内记者的恐吓行为。

例如,香港警方曾对包括英国居民在内的多名香港活动人士发布悬赏,金额高达100万港币,悬赏理由是涉嫌违反“港版国安法”。其中,报告特别提到19岁的香港活动人士张晞晴 (Chloe Cheung),她因参与民主活动被香港当局通缉。这种悬赏行为被认为是对英国居民的直接威胁,旨在通过经济诱惑和心理压力限制其言论自由和政治活动。

此外,报告批评英国政府在《国家安全法2023》中引入的“外国影响力登记计划” (FIRS) 未将中国列入最高风险等级的国家名单。报告指出,尽管俄罗斯和伊朗已被列入该名单,但中国的缺席显得“不一致”,可能削弱该计划的可信度。

报告还强调,跨国镇压不仅对直接受害者造成严重影响,还对整个社区产生“寒蝉效应”,限制了言论自由、集会自由和结社自由。报告引用了自由之家 (Freedom House) 的证词,指出受害者因担心报复、缺乏对英国当局的信任以及对跨国镇压行为认知不足,导致相关案件显著少报。委员会建议政府设立专门的跨国镇压报告热线,并在六个月内提供多语言指导材料,以提高受害者报告的意愿和能力。

在外交层面,报告批评英国在处理中国跨国镇压问题时过于依赖“安静外交”,缺乏强硬的后续行动。例如,报告提到香港公民在曼彻斯特领事馆被拖入的事件,英国未能驱逐相关领事官员,这被认为传递了错误的信号。

因此,委员会呼吁政府采取更强硬的措施,确保英国作为安全避风港的地位不受侵蚀,同时保护在英华人在内的所有居民的人权。

三、维权网:七月中国新增37名良心犯

维权网(公民维权志愿者联网组织)于2025年7月31日发布《七月中国大陆在押政治犯、良心犯月度报告》。报告显示,上期名录中的44人已刑满释放,5名被羁押者遭到判刑,6人狱中有新动态,狱中被迫害致死1人。同时,本期新增被刑事拘留7人,以及被判刑的30人,共计37人。被捕的主要原因包括从事宗教活动、维权上访以及参与民主人权活动等。

1. 本月获悉上期名录中刑满释放的44人名单:

董勇勇、陈恒、 程贵芳、付燕飞、姬瑞岭、

孔祥银、李立鑫、李宗泽、刘淑华、刘素芝、

刘友、 刘玉桂、刘志峰、栾长辉、吕耿松、

莫其兵、潘惠玲、任召军、孙文忠、唐世科、

王华、 王齐花、闻庆芳、谢治群、许凤梅、

杨志军、曾小莉、张贵生、张向云、张运坤、

赵秀兰、郑艳美、郑玉洁、李俊、 王伟明、

梁松、 李俊飞、冯达浚、刘泽锋、吴敏儿、

王香玲、陈凤娟、蒋湛春、徐秦、

2. 本期新增被刑事拘留的7人名单:

常顺、马涛、翟留俊、张琪沅、明道、王相超、赵宏亮。

3. 本期新增被判刑的30人名单:

25年:肉孜·艾木都、

14年11个月:麦尔耶姆古丽·麦海提、

12年:艾尔肯·塔维克库力、

7年6个月:魏素雯、

7年:孙洪柱、

6年6个月:杨巧丽、

6年:冯国清、

5年:陈妍、苗建国、王剑英、

4年:张凤莲、张曙光、孙德国、

3年10个月:李丽、

3年6个月:边效娥、周丽东、陈方华、

3年4个月:韩金花、

3年:郑树力、李业亮、黄秀英、

2年6个月:王苹、杨益凡、

2年3个月:林忠英、

2年:王淑香、王兰英、刘兰春、

1年6个月:杨秀兰、李正训、

1年:杨桂娟、

报告称,截至目前,中国共有1683名在押政治犯、良心犯,其中死缓11人,无期徒刑17人,有期徒刑1430人,刑期不明24人,羁押未判225人,另有大量人员被精神病和强迫失踪未完全记录。

每位政治犯、良心犯的被捕原因详情可访问维权网:《维权网:中国大陆在押政治犯、良心犯月度报告(2025年7月31日)第118期(共1683人)》

苹果「脑控」iPad 首次公开演示:四肢瘫痪的他,用一个念头重新拥抱世界

By: 莫崇宇
5 August 2025 at 11:54

他躺在床上,身体几乎无法动弹,四肢早已失去控制,连最简单的点一下屏幕对他而言都有心无力。可当他的眼神锁定了 iPad 的主界面——几秒后,屏幕亮起,图标被选中,他成功靠一个念头「点开」了设备。

Mark Jackson 是全球第一批能够用「意念」操控苹果设备的渐冻症(ALS)患者。让这一切成为可能的,是脑机接口公司 Synchron 开发的 Stentrode——一块植入他大脑血管内、捕捉神经信号的微型金属支架。

与之配套的,是苹果推出的一套全新人机交互协议:BCI HID(脑机接口人机交互标准)。这是苹果首次将「脑信号」纳入其操作系统的原生输入方式,和触控、键盘、语音并列。

简言之,大脑正在成为苹果设备上的下一个原生「输入法」。 

脑点波+苹果系统:最强「赛博融合」

Jackson 所用到的 Stentrode 是一个细如发丝、形似支架的脑机接口设备。它通过血管植入到大脑运动皮层附近的静脉中,设备上的电极阵列捕捉神经信号,再借由算法识别出用户的意图,最终控制数字设备。

更重要的是,它首次实现了与苹果生态的原生集成。这项集成的关键,在于苹果今年 5 月推出的全新协议——BCI HID(Brain-Computer Interface Human Interface Device),即脑机接口人机交互标准。

它就像大脑与 iOS、iPadOS、visionOS 之间的「通用语言」,让脑电波正式成为和触控、键盘、语音并列的合法输入方式。通过接入 iOS 的切换控制(Switch Control)无障碍功能,Stentrode 用户现在可以用脑电信号代替按钮、点击或滑动操作。

Mark Jackson 是第一批接受 Stentrode 植入的患者。他患有 ALS(肌萎缩侧索硬化症),无法站立,也无法离开自己位于匹兹堡郊区的住所,但这项技术为他带来了新的「行动自由」。

2023 年 8 月,他接受了手术。在 Stentrode 植入后,Jackson 开始训练如何用意念控制 Vision Pro。他「看到」自己站在阿尔卑斯山的悬崖边,「感受到」腿部的颤抖——尽管现实中他的身体已无法站立。

后来他逐渐学会了更复杂的操作:通过脑控启动应用、发送信息、打开邮件。「在我剩下的时间里,我希望能推动技术的进步,增进人们的理解。」Jackson 这样说道。

他的这番话也道出了 Synchron 团队的核心使命——让这项技术惠及更多人。

Synchron 神经科学与算法高级总监 Peter 表示:「我们的愿景是让脑机接口像键盘和鼠标一样普及。」他解释,BCI 的难点不仅在于技术本身,更在于缺乏标准化的「交互语言」。

于是,他们与苹果合作,基于 HID 标准开发出 BCI HID 协议。「它就像是计算机和键盘之间的通用语言。现在,我们也让大脑有了属于自己的输入协议。」

BCI HID 不仅传递用户的神经意图,还支持设备对用户进行视觉反馈。当 Mark 想选中某个按钮时,屏幕上会出现彩色高亮框。颜色越深,代表神经信号越强,系统就越确定他想点击那个按钮。Mark 可以通过脑控「填满」这个色块,实现精确选择。

「对于使用植入式 BCI 的用户来说,这种可视反馈太重要了。他们能实时看到自己的神经信号是否『足够强』,也更容易集中注意力。」Synchron 首席商务官 Kurt Haggstrom 解释道。而整个系统通过蓝牙连接,不需要额外设备或看护人员协助。只要 Mark 「想」,设备就能启动。

与传统辅助设备不同,BCI HID 是一个闭环交互系统。它不仅识别用户意图,还能实时提供上下文信息,提高解码精度与响应速度。

它还可以将意念动作直接绑定到系统快捷指令:想象点击手指等于回主屏幕,想象握拳等于打开消息,想象挥手等于启动视频通话。这不仅提升了操控自由度,也让系统交互真正进入「零干预」状态。

此外,BCI HID 具备极高的私密性——脑信号是用户「专属」的,无法被他人操控,也不会被其他设备「读取」。未来 Synchron 将推动 BCI HID 成为一个跨平台、跨厂商的神经交互标准,让所有 BCI 设备都能无缝接入数字世界。

而苹果的介入,被视为整件事的「临门一脚」。「Apple 能够认识到用户需求并做出回应,这体现了他们对用户无障碍体验的高度重视。」Kurt Haggstrom 如此评价。

不用开颅的脑机接口,或将打败马斯克

提起脑机接口,大多数人第一个想到的还是马斯克的 Neuralink。无论是 Neuralink 之前的直播,还是在 X 上发推文,都引发了不少人对脑机接口的关注。

相比之下,Synchro 在业外可谓是名不见经传。

不过两家公司之间早有过交集,三年前的一个周末,正值 Synchron 在美国首次为患者植入脑机接口设备之际,马斯克向 Synchro 的创始人兼 CEO Tom Oxley 拨通了一则电话。

奥克斯利后来回忆道,电话里马斯克认为脑机接口的方案应该是移除大部分头骨,并用嵌入式钛合金壳替代。而他本人则坚信,无需触及头骨,也能达成目标。

▲Tom Oxley

并且,马斯克还主动提出,如果 Oxley 在这个追求目标的努力中资金不足,尤其是涉及脑机接口的方面,他希望能够提供帮助。但或许出于理念的分歧,这段「牵手」最终无疾而终。

实际上,过去二十年来,研究人员一直在人体上测试脑芯片植入物,但几乎所有这些设备都需要切开头骨并将电极刺入大脑,电线从头部悬挂出来。

简单来说,就是在头顶开一个洞,然后放入一块 Apple Watch 大小的装置。先不说手术过程的风险,即使手术成功了,人类大脑也会对装置产生排异反应,这是侵入式脑机接口的技术难点之一。

而 Stentrode 则不存在这个痛点。

它的手术方式近似于植入心脏支架,产品会通过颈静脉植入进大脑的运动皮层(表达人类运动意图的区域)。大脑对 Stentrode 的排异方式是把它推入大脑组织内,所以 Stentrode 在几周内就会被组织覆盖并固定在该区域。

Stentrode 检测到的任何大脑信号通过一根电线发送,电线沿着静脉向下延伸,连接到缝在患者胸部的 iPod Shuffle 大小的接收器上。

类似于心脏起搏器中的电池,接收器电池续航时间长达 10 年之久。

该接收器通过蓝牙将指令传输到患者的计算机或 iPad,使他们能够访问短信并控制其他应用程序。一旦安装了 Stentrode,患者就会进行校准练习,Synchron 的工作人员会指导他们思考移动身体的不同部位。

在植入方式和理念上的分歧,自然也造就了技术性能上的差异。

举例来说,Neuralink 的设备 N1 拥有超过 1000 个电极,可以捕捉更多的神经数据;而 Stentrode 仅有 16 个电极。N1 的电极直接植入脑组织中,因此捕获的数据更丰富,可转化为更灵敏的鼠标点击和键盘输入。

在之前的报道中,Neuralink 用户同样能通过意念移动光标,而且速度甚至超过部分普通用户的鼠标操作。

尽管如此,为什么苹果最终选择与 Synchron 深入合作,而不是马斯克的 Neuralink?这背后,其实藏着苹果对脑机接口的另一种答案:安全。

正如上面所说,Neuralink N1 是高密度、侵入式植入,怎么理解侵入式手术风险较高,可能引发炎症或组织反应。而 Synchron Stentrode 采用的是低密度、非侵入式植入,手术风险低,恢复时间短,尤其适合不适合进行开颅手术的患者。

当然,Stentrode 的代价就是因为电极不直接接触神经元,信号质量和分辨率较低,数据带宽较低,仅适用于基础层级的神经信号解码。

一个念头,打出一条推文

技术参数只是宏大故事的一部分,Synchron 真正吸睛的,是它已经做到的那些事。

2024 年 3 月,Neuralink 患者在 X 平台发布了一则推文,然而将时间倒回三年前,62 岁的渐冻症患者 Phillip O’Keefe 已经用 Synchron 脑机接口在 X 平台上「打出」第一句话:

Hello world!

注意,这是人类史上第一条通过脑电波「发出来」的推文,没有键盘、没有语音、甚至不是眼动追踪,全靠「想」出来的。虽然推文不长,但对他本人来说,可能胜过十万字长篇小说。

Synchron 的故事当然没止步于此。

当整个世界都被 ChatGPT 占领的时候,很多人都在想怎么用它写论文、写代码、写情书,而 Synchron 想的是如何用 AI 来改善脑机接口的技术。

64 岁的 Mark 就是第一批体验 AI 脑机融合的用户之一。尽管受渐冻症影响失去了大部分肢体与语言能力,他依然可以靠脑电波玩苹果纸牌游戏、看 Apple TV,甚至在 Vision Pro 上「仰望星空」。

具体来说,Synchron 让 ChatGPT 等大型语言模型以文本、音频和视觉的形式获取相关上下文,预测用户可能想要表达的内容,并为他们提供一个可供选择的操作菜单。

并且,在加入 GPT-4o 之后,Synchron 脑机接口迎来了 4 个方面的显著变化:

  1. 辅助通信:GPT 生成预先设定的回答选项,用户不需要逐字输入
  2. 智能预测:GPT 结合上下文预测可能需求,显著减少操作步骤;
  3. 多模态输入:GPT-4o 接收文本、音频和视频输入,通过多种方式提供信息
  4. 适应性学习:系统逐渐学习用户偏好,实现高效个性定制。

更重要的是,这种 AI + 脑机接口的多模态信息输入模式,与大脑本身的行为模式有一些相似之处,Synchron 团队的解释是:

我们这样做的原因是,多模态「4o」是不同的,因为它使用的是来自环境的输入,这些输入的行为就像是用户大脑的延伸。当用户开始与提示互动时,它将获得环境中发生的一切的实时信息流。

在接受媒体的采访时,Mark 表示最打动他的,正是 Vision Pro 中一款观察夜空星座的应用:

这太酷了,它真的栩栩如生。使用这种增强现实技术的效果非常显著,我可以想象,对于处于我这种境地的人或其他失去日常生活能力的人来说,它也会如此。它可以把你带到你从未想过会再次看到或体验的地方,为我提供了另一种体验独立的方式。

这是 Mark 的新体验,也是很多人对于脑机接口的最终幻想。

而 Synchron,真的把这件事做成了。

在 2025 年英伟达 GTC 大会上,Synchron 推出全球首款认知 AI 大脑基础模型 Chiral™,并带来了一段相当震撼的演示视频。

一位名叫 Rodney 的 ALS 患者,手部完全失能,但通过脑机接口和 Vision Pro,大脑变成了遥控器,能够用意念控制智能家居:调节灯光、播放音乐、控制室、启动家用电器。

当时,Oxley 更是信心满满地表示:

「我们正利用生成式预训练技术,构建一个真正意义上的『大脑基础模型』。Chiral™ 直接从神经数据中学习,从人类认知的源头进行抽象,从而创造出能够切实改善用户生活的功能。而这一切,都建立在我们能够大规模获取神经数据的基础之上,正如将 BCI 技术普及到如同支架植入手术般便捷。」

所以无论是 GPT-4o,还是脑电接口,它们的终极目标其实是一致的:找到适合每一个人,尤其是被技术忽视的那一部分人,和计算机对话的新方式。

对于像 Mark 这样的用户来说,他们终于不用再依赖别人,也能再次说出自己想说的话,看自己想看的星星,甚至打几把纸牌游戏。

如果这不是人类科技的终极浪漫,那什么才是?

人文关怀,永远是科技的最终底色

可这些进展,最终是为了谁?

我们或许该把视线拉近一点,看看这项技术对某些人来说意味着什么。

Synchron CEO Tom Oxley 表示,目前脑机接口公司需要「欺骗」计算机,让其认为来自植入设备的信号是来自鼠标。但如果有专为这些设备设计的标准,技术潜力将进一步释放。

如今,据外媒报道,苹果正用类似方式推动脑机接口设备与苹果生态系统的集成,并计划在今年晚些时候发布这一新标准的软件接口,供第三方开发者使用,推动脑控技术的进一步应用。

自 2019 年以来,Synchron 已在 10 名患者身上植入 Stentrode。

摩根士丹利估计,美国约有 15 万人因上肢严重功能障碍而成为脑机接口设备的潜在首批用户。根据 2021 年的数据,全球约有 1540 万人患有脊髓损伤,而脊髓损伤是导致瘫痪的主要原因之一。

当你在抱怨手机不好用时,有人连「用手机」这件事,都是奢望。

对于瘫痪、渐冻症患者来说,操作一台设备从来不是理所当然的事,他们甚至无法点击按钮、滑动屏幕、甚至无法抬手发出一个简单的指令。

人类社会对「操作」的定义,也一直都过于狭隘。

我们曾以为「操作」意味着点击、滑动、语音、手势,也一直在追求「更自然」的交互方式,可这套定义,从一开始就没为他们预留位置。

脑机接口的出现,改变了这一点,当意念也能成为操作方式,也意味着不再是人去适应设备,而是让设备去理解人。哪怕这个人无法动弹,无法说话,只剩下一颗仍在清醒地思考的大脑,他依然能与这个世界建立连接。真正的无障碍,是让世界适应每一种存在方式。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


实测豆包一键修图,拍照小白有救了|附修图指令

By: 周奕旨
4 August 2025 at 15:20

照片后期,向来是横亘在普通人与「大片」之间的一道坎。

专业人士为此耗费心力,将拍摄后的数小时投入到电脑屏幕前,与各种曲线和图层搏斗;普通爱好者更是 常常因为摸不透 Photoshop 和 Lightroom 里那些天书般的工具而望而却步。

我们似乎都默认,一张出彩的照片,必然需要高超的后期技术。

不过,前两天登上热搜的「豆包修图」让我眼前一亮。

在 AI 大行其道的当下,修图这件事或许真的可以变得无比轻松:你只需要用一句话交代你的想法,AI 就能帮你 P 出一张心仪的大片。

对 AI 来说,题材不再是难事儿

摄影作为一门古老的艺术,早已分化出人像、风光、美食等诸多门派。

过去,每个门派都有自己秘不外传的后期心法,而现在,AI 就像一位打通了所有门派经脉的武林高手,用一套大力出奇迹的算法,通吃各种题材。

风光摄影师常常为了等待一个完美的天气和光线而起早贪黑。

可如果运气不好,拍到一张天空惨白的照片,后期处理起来就相当麻烦——需要创建复杂的蒙版,把天空和地面分开,单独进行调整。

但有了AI,这一切变得像点外卖一样简单。

我将一张照片分别用 Photoshop 和豆包进行处理,照片拍摄于入夜前,但厚重的云层挡住了壮观的落日,同时也大幅度压低了画面的亮度,观感暗沉。

修图的目的是替换掉原本不够漂亮的天空,你能一眼分辨出哪张是 AI 修的,哪张是我手动修的吗?

揭晓答案——左边是我在不到五分钟内用 Photoshop 手动处理的结果,右边则是豆包在几十秒内生成的版本。

乍一看两者效果相近,但作为亲手操作过两个版本的我来说,这其中的差别一目了然。

按照传统的修图流程,我需要手动精细抠出天空,保留地面树枝的细节;接着再寻找合适的晚霞素材替换原本厚重的云层,并统一天空与地面的色调与亮度,以保证整张图的色彩和谐。

而在豆包中,我只需要一句话提示,就能直接生成这样一张几乎完成度极高的图片。

▲ 原本复杂的操作,对 AI 一句话的事儿

放大查看细节后,尽管在极限放大下,AI 图像的画质略逊于手动处理版本,但豆包依然保留了树林与天空交界处的细节,地面亮度与色温也同步优化,整体画面协调自然,展现出相当成熟的修图逻辑。

▲ 豆包处理的天地交界,比我两分钟处理出来的更精细

日常风景照片的另一个难题,则是茫茫多的路人。

按照传统方法,你需要先将照片导入 Photoshop,用污点修复画笔或仿制图章工具,放大到 300% 进行精细处理。

在涂抹路人的同时,还得纠结到底是用内容识别还是近视匹配,若是遇到复杂纹理,还得手动创造纹理,繁琐至极。

▲ 掌握这些工具,是传统后期的第一步

但对于 AI 来说,这也不过是分分钟的事——

在不到一分钟的等待后,我收到了处理完成的照片:不仅保留了原图的色调与画质,还精准去除了所有路人。

尤其令人称赞的是,AI 在清除人物的同时,还细致地保留了右侧江岸岩石的阴影细节,没有出现常见的粗糙涂抹痕迹,整体效果令人非常满意。

▲ 使用 ChatGPT 去除路人

光影重塑是风光摄影进阶的修图技巧,指的是摄影师在后期处理中,根据照片的不同表现,运用蒙版、画笔等工具,精细调整局部画面。通过顺应直觉和逻辑的方式,重构整体光线效果,营造明暗对比,从而突出主体,渲染氛围,提升照片的视觉冲击力。

停!

我知道,这么一大串讲完,你已经迷糊了,简而言之,光影重塑就是根据个人审美与技术,调整出更具冲击力和逻辑感的照片。

过去,要做到这一点,不仅需要熟练掌握 Photoshop 的各种工具,还需要对光线有一定的理解和控制能力,以及出色的审美,才能做出既不夸张又恰到好处的光影效果。

▲相信我,你不会想学这套流程的

而现在,交给 AI 也就是一句话的事儿——

在简单交流后,AI 为这张照片按照风光摄影的修图思路进行处理,给画面添加了遮盖无用细节的平流雾,让其覆盖较低的楼房,营造出朦胧氛围;

同时进行光影重塑,从画面原本的光影逻辑出发,加强了阳光在建筑面上的反射效果,使画面光影合理、有层次感,突出了东方明珠的主体性。

▲ 使用 ChatGPT 光影重塑

同样的方法,我们也可以挪用到相册中另一个不能忽视的大种类上——宠物和人像。

这里指的不是磨皮、面部重塑等因人而异的主观调整,而是 AI 可以按照一定的逻辑帮你润色画面的光影,营造特别的氛围,以达到手机无法直出的质感。

除了光线调整,在这类照片中,用 AI 添加道具,营造特殊的氛围,也是另一种玩法。

就像前面的一句换天一样,你可以用一句指令让 AI 为画面中添加一些符合环境的元素,比如漫天飘散而下的黄叶,或是从窗台倾泻而入的阳光。

再将脑洞打开一些,如果遇上不满意的天气,你可以让 AI 换一下天空,顺带注意处理好人物的光线,得到一张毫不违和的照片。

▲ 雪景也是不错的选择

风景和人物宠物解决了,还有一个重要的题材不能忘记——美食。

如果按照传统方法,摄影师需要精确校准白平衡,防止任何偏色都会让食物看起来不新鲜。

进入后期,还要小心地提高清晰度,但又不能过头,否则食物会显得干瘪,毫无食欲;接着还要利用色调曲线和 HSL(色相、饱和度、明度)滑块,精确地调整每一种颜色的表现,让色泽更诱人。

在这方面,AI 也可以帮上大忙。

润色后的照片层次更为分明——冷吃兔与鸡肉裹满红亮油润的酱汁,表面铺满鲜红辣椒段,点缀其间的金黄花生米酥脆诱人,视觉与味觉的冲击感扑面而来,瞬间唤起食欲。

可以说,在 AI 的帮助下,你已经跨过了曾经逾越在普通人与大片之间的那道高墙,拥有了「言出法随」般的修图能力。

但魔法并非总能随心所欲,想要精准地实现心中所想,「咒语」是关键。

对 AI 讲话,有些诀窍要注意

用 AI 修图看起来很新鲜,但背后其实就是我们熟悉的文生图的进阶应用。

顾名思义,AI 从我们这里获取一段描述,并从中理解我们的意图,最后生成出符合它理解的图片。

这里的难点在于,什么样的话是 AI 容易理解的呢?

我准备了一张想要处理的照片,以豆包为例,尝试不同提示词的效果。

第一次,如果我简单描述:

将这张照片 P 好看。

此时,AI 对照片进行了一定的基础处理,我们可以明显看到画面对比变得更强了,颜色也更加浓郁,但我对这样的处理并不算满意——

这张照片拍摄于傍晚,最大的问题在于画面不够通透,层次也不够丰富,相比提升对比度和饱和度,我其实更希望从整体风格上进行调整。

回头看我的提示词,只有一句模糊的「好看」,但「好看」本是一个极其主观的感受,AI 无法隔着屏幕感知使用者的审美偏好,只能依靠预设的主流美学风格帮忙处理图片,最后就得到了一张「饱和度战士」。

但如果将描述改为:

将这张照片的拍摄时间改为蓝调。

有了更明确、客观的描述,AI 生成的图像也明显更符合需求,在观感自然的基础上,蓝调更突出了,画面的冷暖对比也更为强烈,但这样还不够——

单一维度描述的咒语还不够精准,AI 可能会出错,同时由于日落与城市开灯之间有时差,所以拍摄时城市还没有亮起灯光,照片本身并没有体现出城市的繁华,这比较遗憾。

想要这张照片更好看,我们可以为 AI 准备一个更全面的建议。

所以,我们进一步将描述扩充为:

将这张照片的拍摄时间改为蓝调,为画面中的建筑物添加一些符合逻辑的灯光,远处高大的建筑可以添加示廓灯,为画面打造内透效果,注意灯光的合理性。

从更多角度描述我们意图的提示词,得到了非常不错的效果,AI 在凸显蓝调的同时,顺利为图片中的建筑物添加符合逻辑的灯光,打造出一张富有层次感的城市夜景照片。

到了这里,我们可以总结出一套方法论,来为 AI 提供精准的描述,以尽量准确的方式传达我们的意图——

「主体 + 时间/环境 + 光线/色调 + 风格/情绪 + 特殊效果 + 细节约束」

公式由六个部分组成,六个部分分别代表了一张照片的各个维度:

  1. 主体:你希望 AI 处理的核心对象,如:这张人像照片、这张城市夜景
  2. 时间/环境:希望照片呈现的时间或自然条件,如:傍晚、蓝调、清晨、下雪天
  3. 光线/色调:想要强化或改变的视觉氛围,如:暖色调、冷光、日落光影、通透感
  4. 风格/情绪:照片整体想传达的感觉或调性,如:繁华都市、静谧夜景
  5. 特殊效果:希望额外添加或修饰的视觉元素,如:添加建筑灯光、水面倒影、天空星星
  6. 细节约束:对 AI 输出的合理性、真实性的补充要求,如:灯光符合建筑逻辑、注意真实透视、避免过度磨皮

按照这个公式,我们可以最大程度地掌控照片中的各个元素,越全面,AI 能理解就越精准。

依旧是这张照片,我们用这条公式的方法来撰写提示词,试试 AI 能不能给我们提供另一种风格的照片:

这张照片(主体)改为雨天拍摄,此时正值入夜前的傍晚(时间),为画面添加一定的雾气,雨水与雾气被建筑灯光打亮,在空中连成丝线,雾气可以盖住部份建筑(特殊效果),同时按照逻辑重塑光影(光线),注意不要改动删减照片中已有的建筑和元素(细节约束)。

雾气自然、影调和谐,积雨的屋顶还有符合逻辑的光线反射,这张照片的确出乎意料——

以往需要繁杂后期才能实现的效果,现在不到 30 秒就能轻松获得。

需要一提的是,在我试过的几十张照片中,修图效果最强的是豆包,其次是 ChatGPT,文中总结出的提示词公式,在这两个 AI 上都能取得相当不错的效果;

而 Gemini、Qwen 等 AI 工具则更倾向于重绘,照片改动痕迹较重,相较之下更推荐前两者进行精修润色。

玩到这里,我一边感叹 AI 的确强大——不需要任何修图基础,只需要提供完整的想法,就可以得到一张处理得八九不离十的照片;

但另一方面,一个有些老生常谈,但的确没办法忽视的矛盾,开始拷打我的内心。

照片的「真实」,到底在哪里?

在 AI 技术的加持下,我们的创作和表达变得前所未有的自由和丰富。

修图不再是专业人士的专利,普通人也可以轻松地通过 AI 实现照片的修饰与再创作。

不过,当我们沉浸在用 AI 把自家猫咪 P 成宇航员的乐趣中时,一个纠葛已久的矛盾,也随着而来:

在一些人眼里,AI 修图让照片背离了现实,变得虚假;而另一部分人认为,这只是自娱自乐,何必用如此严格的要求去度量一张照片。

在技术交替的时期,类似这样的理念之争并不稀奇,甚至已经有了愈演愈烈之势。

德国摄影师 Boris Eldagsen 在用一张 AI 生成的图片赢得索尼世界摄影奖后,主动拒绝领奖,并公开了图片的 AI 身份。

在世界级的专业摄影比赛上整这种活儿,并不是一个玩笑——他想以此引发人们的讨论,并强调我们必须区分用光写作(摄影)和用提示词写作(AI 生成),以保护照片的公信力。

▲ 赢得索尼世界摄影奖的 AI 作品《假记忆:电工》,由 DALL-E 2 生成

不过,这场关于真实的辩论,或许从一开始就混淆了两个不同层面的问题,我们必须区分两种不同的语境:一种是「公共领域的真实」,另一种是「个人表达的真实」。

对于法庭上的证据,或是《纽约时报》的头版照片,客观、可验证的真实性是其生命线,一张照片的来源——由谁、在何时、何地、为何拍摄——是判断其价值的根本标准。

在这种语境下,任何未经声明的修改都可能构成欺骗。

▲ 能将特朗普 AI 成猫猫吗?恐怕改不得

但对于你的朋友圈来说,真实的含义则完全不同。

在数字世界的私人领地里,我们追求的往往是一种情绪的真实、一个笑话的真实或一种审美的真实。

是的,当看到一张猫猫正在帮忙做饭的图片时,我们不会感觉自己被欺骗了,只会被逗乐。

▲ 我给爸妈说猫猫给我养老,我爸妈也不会和我急眼

这里的真实无关乎事实,而关乎表达。

这或许才是普通人拥抱 AI 修图的真正原因——在个人表达的领域里,意图是事实更重要的准绳。

一位新闻记者的意图是见证,他有责任尽可能忠实地记录事件;而一个普通人的意图是表达,他有权利通过各种方式来传达自己的情感和创意。

所以回到最初的问题,去吧,大胆地让赤道下雪,让猫咪登月。

在这个 AI 的时代,在你的私人世界里,想象力是唯一的边界。

让我有个美满旅程

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


「兔子蹦床」播放超 5 亿!这条全网最火 AI 视频,是人类爱被「骗」的结果

By: 张子豪
4 August 2025 at 14:32

一段看起来像是夜视监控拍到的「兔子蹦床」视频,在 TikTok 上爆火,全网收获了有 5 亿次播放。

视频看上去像是某户人家的安防摄像头拍到的,灯光昏黄、画面模糊,但恰到好处地捕捉到几只兔子轮番起跳,活像在开夜间演出。

视频的标题写着:「刚查看了家庭监控,我想我们家后院来了几位特邀嘉宾!@Ring」 。

监控的模糊画质、几只看似在狂欢的兔子,这可爱又略带一丝真实感的画面迅速吸引了人们的眼球 。

在社交媒体平台 X 上坐拥百万粉丝的名人 @Greg 也评论说,「我从没意识到自己需要一群蹦床兔子,直到今天」。

然而,这份可爱是虚假的。视频中的兔子并非真实存在,有人发现,它是AI生成的。

第 5 到第 6 秒之间,左上角的兔子忽然「消失」。回头再看,细节确实有点怪。

但和大多数「AI 穿帮」视频不同,这次几乎没人第一时间认出来。哪怕是刷视频经验老到的年轻人,也直呼「完了,我居然被骗了」。

但这不是一场骗局,更像是一种小型社交媒体的灾难:不是「我们被骗了」,而是「我们居然愿意被骗」

看似糊得刚刚好,其实「骗」得刚刚好

这段 AI 视频之所以能成功「欺骗」大众,很大程度上并非因为 AI 视频生成技术已经完美,而在于它「骗得刚刚好」。

它精准地利用了我们对监控视频的固有印象,也踩中了最能让我们放下戒备的那些流量密码。

模糊的夜视画质和静态背景,刚好遮住 AI 的弱点

我们习惯于认为夜晚监控录像就是模糊、黑暗且充满噪点的。这种先入为主的印象,完美掩护了 AI 视频的技术硬伤,例如在动作连贯性、阴影细节和背景动态上容易穿帮等问题。

所以当它以「夜晚监控录像」的方式出现时,画质本身的低清模糊反倒成了障眼法,帮它遮住了真实感缺口。

▲ 视频画质符合夜间监控特点,且背景是完全静止。

此外,尽管一些 AI 视频生成模型在处理前景主体方面已经相当出色,但背景的渲染往往会显得非常超现实。

而这段视频的背景是静止的,这又为 AI 规避了一个技术难题。

带「@Ring」的文案增强了来源可信度

视频发布者在标题中聪明地标记了家庭安防摄像头品牌「Ring」,一下子就让这视频的来源显得有理有据,让人感觉更真了。

▲ Ring 是家庭摄像头品牌

这个小细节营造出「这视频是别人家门铃拍到的」错觉,让人自动归类为「生活记录」而非「创作内容」。

「动物夜间搞事情」是互联网用户默认接受的 meme

无数次病毒式传播的视频,已经训练我们相信这个场景是真实的。猫晚上偷吃泡面、浣熊夜闯泳池、郊狼在蹦床玩耍,动物们总爱在人类不在时「犯规」一下。兔子蹦床这种事,怎么看都合理。

▲ 熊闯入游泳池

最重要的:它太可爱了!谁会去质疑这么温柔的一幕呢?当一段内容足够甜、足够轻,它就很容易让我们「选择相信」。

尽管视频中间,左上角的兔子突然消失,暴露了 AI 生成的本质。但对于绝大多数刷短视频,快速滑动的观众来说,这一瞬间的破绽极易被忽略。

就在兔子视频引发热议的同时,马斯克也分享了 AI 视频技术的惊人进展。

10 天前,一段 6 秒的视频渲染需要 60 秒,之后降至 45 秒,再到 30 秒,现在已缩短至 15 秒。

本周我们或许能将时间控制在 12 秒以内。

他同时表示,实时视频渲染技术有望在 3 到 6 个月内实现。

▲ 马斯克推特截图

这意味着,今天我们还能看到的「兔子消失」这类穿帮镜头,在几个月后可能就几乎很难发现里面的 bug。

当 AI 视频在技术上无懈可击时,再去讨论「如何分辨真假」就失去了意义。

这也让我们不得不把目光从技术本身,转移到更核心的问题上。

让我们被骗和狂欢的,其实不是 AI

视频的真相揭晓后,许多用户表达了一种「信仰崩塌」的感觉。

一位 TikTok 用户说,「这是第一个我相信是真的 AI 视频,等我老了肯定完蛋了」。另一位用户则表示,「现在我觉得我以后就会是那种被骗的老年人」。

这种从自信到恐慌的情绪转变,成了一个新的网络热点。

然而,将问题仅仅归咎于「AI 发展得太快」或「我们太容易被骗」,可能忽略了更深层次的原因。这一事件的核心,或许不在于 AI 技术本身,其实在于社交媒体平台本身的那一套玩法。

通过翻看视频的评论记录,我们发现人们在评论区的反应,呈现出来的几乎是同样的一个心理剧本。

首先是「天啊,这也太可爱了」;

然后,「等等,好像不太对劲?」;

第三步,「我被骗了?完了,我要变成会被骗的老年人了吗」;

最后还是回到了,「但……我不怪它」

我们正在和 AI 视频建立一种全新的「互动逻辑」。

我们不是完全相信它,而是默认它可能是假的,但我们依然愿意停下来看看、点个赞、转发给朋友猜一猜,就像一个游戏。

▲ 短视频平台推荐系统

而平台的算法,也深知这种心理结构。

在这个过程中,「AI 视频是真是假」不再是重点,它更像一种参与门槛:你看懂了没?你能分辨出来吗?你被骗了吗?

AI 爆发的这两年,我们总是感叹 AI 视频图片已经能以假乱真,因此感到恐慌,担心自己未来会更容易被虚假信息蒙蔽。

然而,这个视频的病毒式传播,并非完全源于 AI 技术的「欺骗性」,而是源于人类观众内心深处对「被欺骗」的需求。

这些网友不都是被动地被骗,而有不少是主动地、心照不宣地参与了一场名为「假装相信」的集体游戏。

这场狂欢的主角不是 AI,而是我们自己。

正是视频中那「一闪而过」的兔子消失 bug,才让整个事件升级为一场全网参与的「找茬游戏」。如果视频完美的天衣无缝,它可能只会然后迅速被下一个视频淹没。

▲ 电影「致命魔术」

这就像观众明知道魔术师在「欺骗」他们,但他们享受的恰恰是那种「明明知道是假的,却看不出破绽」的认知挑战。

AI 兔子的「穿帮」,就是这个魔术被揭穿的时刻,它让所有人加入讨论,从而引爆了传播。

缺陷创造了争议,争议驱动了参与。视频的真假不再重要,它所引发的混乱和讨论本身,就是流量的保证。

这种「我竟然也被骗了」的自嘲,迅速拉近了陌生网友间的心理距离,形成了一种「我们都是容易被骗的笨蛋」的社群认同感。由「共同被骗」而产生的连接,其社交价值远大于视频内容本身的真实性。

理想的情况是,我们学会有意识地享受这种「虚假内容」带来的乐趣,同时保持一份清醒的认知,但这可能对大多数人来说并不容易。

潜在的危险不只在于 AI 的逼真程度,而在于当这种「集体欺骗」被用于恶意时,比如制造谣言或骗局。我们需要建立的,是对信息「意图」的识别,而非仅仅对「真伪」的判断。

我们可以多问问自己:这个内容想让我产生什么感觉?它最终想让我做什么?

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Anthropic 官方团队分享如何利用 Claude Code

By: Anonymous
20 July 2025 at 22:30

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

Anthropic 的内部团队正在利用 Claude Code 彻底改变他们的工作流程。无论是开发者还是非技术人员,都能借助它攻克复杂项目、实现任务自动化,并弥补那些曾经限制生产力的技能鸿沟。

为了深入了解,我们采访了以下团队:

通过这些访谈,我们收集了不同部门使用 Claude Code 的方式、它对工作带来的影响,以及为其他考虑采用该工具的组织提供的宝贵建议。

数据基础设施团队负责为公司内所有团队整理业务数据。他们使用 Claude Code 来自动化常规的数据工程任务、解决复杂的基础设施问题,并为技术和非技术团队成员创建文档化工作流,以便他们能够独立访问和操作数据。

利用截图调试 Kubernetes

当 Kubernetes 集群出现故障,无法调度新的 pod 时,团队使用 Claude Code 来诊断问题。他们将仪表盘的截图喂给 Claude Code,后者引导他们逐个菜单地浏览 Google Cloud 的用户界面,直到找到一个警告,指出 pod 的 IP 地址已耗尽。随后,Claude Code 提供了创建新 IP 池并将其添加到集群的确切命令,整个过程无需网络专家的介入。

为财务团队打造纯文本工作流

工程师向财务团队成员展示了如何编写描述其数据工作流程的纯文本文件,然后将这些文件加载到 Claude Code 中,以实现完全自动化的执行。没有任何编程经验的员工只需描述“查询这个仪表盘,获取信息,运行这些查询,生成 Excel 输出”等步骤,Claude Code 就能执行整个工作流,甚至会主动询问日期等必要输入。

为新员工提供代码库导览

当新的数据科学家加入团队时,他们会被指导使用 Claude Code 来熟悉庞大的代码库。Claude Code 会阅读他们的 Claude.md 文件(文档),识别特定任务所需的相关文件,解释数据管道的依赖关系,并帮助新人理解哪些上游数据源为仪表盘提供数据。这取代了传统的数据目录和发现工具。

会话结束时自动更新文档

在每项任务结束时,团队会要求 Claude Code 总结已完成的工作并提出改进建议。这创建了一个持续改进的循环:Claude Code 根据实际使用情况帮助优化 Claude.md 文档和工作流指令,使后续的迭代更加高效。

跨多个实例并行管理任务

在处理耗时较长的数据任务时,团队会为不同项目在不同的代码仓库中打开多个 Claude Code 实例。每个实例都能保持完整的上下文,因此即使在数小时或数天后切换回来,Claude Code 也能准确地记住他们当时正在做什么以及任务进行到哪里,从而实现了无上下文丢失的真正并行工作流管理。

无需专业知识即可解决基础设施问题

解决了通常需要系统或网络团队成员介入的 Kubernetes 集群问题,利用 Claude Code 诊断问题并提供精确的修复方案。

加速新员工上手

新的数据分析师和团队成员无需大量指导,就能迅速理解复杂的系统并做出有意义的贡献。

增强支持工作流

Claude Code 能够处理比人类手动审查大得多的数据量,并识别异常情况(例如监控 200 个仪表盘),这是人力无法完成的。

实现跨团队自助服务

没有任何编程经验的财务团队现在可以独立执行复杂的数据工作流。

编写详细的 Claude.md 文件

团队表示,你在 Claude.md 文件中将工作流程、工具和期望文档化得越好,Claude Code 的表现就越出色。当你拥有现成的设计模式时,这使得 Claude Code 在设置新数据管道等常规任务上表现卓越。

处理敏感数据时使用 MCP 服务器而非命令行界面

他们建议使用 MCP 服务器而不是 BigQuery 命令行界面,以便更好地控制 Claude Code 的访问权限,尤其是在处理需要日志记录或存在潜在隐私问题的敏感数据时。

分享团队使用心得

团队举办了分享会,成员们互相演示他们使用 Claude Code 的工作流程。这有助于传播最佳实践,并展示了他们自己可能没有发现的各种工具使用方法。

Claude Code 产品开发团队使用自家的产品来为 Claude Code 构建更新,扩展产品的企业级功能和 AI 智能体循环功能。

通过“自动接受模式”快速构建原型

工程师们通过启用“自动接受模式”(Shift+Tab)并设置自主循环,让 Claude 编写代码、运行测试并持续迭代,从而实现快速原型开发。他们将自己不熟悉的抽象问题交给 Claude,让它自主工作,然后在接手进行最后润色前,审查已完成 80% 的解决方案。团队建议从一个干净的 git 状态开始,并定期提交检查点,这样如果 Claude 跑偏了,他们可以轻松回滚任何不正确的更改。

同步编码开发核心功能

对于涉及应用程序业务逻辑的更关键功能,团队会与 Claude Code 同步工作,提供带有具体实现指令的详细提示。他们实时监控过程,确保代码质量、风格指南合规性和正确的架构,同时让 Claude 处理重复的编码工作。

构建 Vim 模式

他们最成功的异步项目之一是为 Claude Code 实现 Vim 快捷键绑定。他们要求 Claude 构建整个功能,最终实现中大约 70% 的代码来自 Claude 的自主工作,只需几次迭代即可完成。

生成测试和修复 bug

在实现功能后,团队使用 Claude Code 编写全面的测试,并处理在代码审查中发现的简单 bug。他们还使用 GitHub Actions 让 Claude 自动处理像格式问题或函数重命名这样的 Pull Request 评论。

代码库探索

在处理不熟悉的代码库(如 monorepo 或 API 端)时,团队使用 Claude Code 来快速理解系统的工作方式。他们不再等待 Slack 上的回复,而是直接向 Claude 提问以获取解释和代码参考,从而大大节省了上下文切换的时间。

更快的功能实现

Claude Code 成功实现了像 Vim 模式这样的复杂功能,其中 70% 的代码由 Claude 自主编写。

提升开发速度

该工具可以快速构建功能原型并迭代创意,而不会陷入实现细节的泥潭。

通过自动化测试提高代码质量

Claude 生成全面的测试并处理常规的 bug 修复,在减少手动工作的同时保持了高标准。

更好的代码库探索

团队成员可以快速熟悉 monorepo 中不熟悉的部分,而无需等待同事的回复。

创建自给自足的循环

设置 Claude 通过自动运行构建、测试和代码检查来验证自己的工作。这使得 Claude 可以更长时间地自主工作并发现自己的错误,尤其是在你要求 Claude 在编写代码之前先生成测试时效果更佳。

培养任务分类的直觉

学会区分哪些任务适合异步处理(外围功能、原型设计),哪些需要同步监督(核心业务逻辑、关键修复)。产品边缘的抽象任务可以用“自动接受模式”处理,而核心功能则需要更密切的监督。

编写清晰、详细的提示

当组件具有相似的名称或功能时,你的请求要极其具体。提示越好、越详细,你就越能信任 Claude 独立工作,而不会对代码库的错误部分进行意外更改。

安全工程团队专注于保障软件开发生命周期、供应链安全和开发环境安全。他们广泛使用 Claude Code 来编写和调试代码。

复杂基础设施调试

在处理事故时,他们将堆栈跟踪和文档喂给 Claude Code,并要求它在代码库中追踪控制流。这大大缩短了生产问题的解决时间,使他们能够在大约 5 分钟内理解问题,而手动扫描代码通常需要 10-15 分钟。

Terraform 代码审查与分析

对于需要安全审批的基础设施变更,团队将 Terraform 计划复制到 Claude Code 中,并提问“这会做什么?我会后悔吗?”。这创建了更紧密的反馈循环,使安全团队能够更快地审查和批准基础设施变更,减少了开发过程中的瓶颈。

文档综合与操作手册

Claude Code 吸收多个文档来源,创建 Markdown 格式的操作手册、故障排除指南和概述。团队将这些精简的文档作为调试实际问题的上下文,创建了比在完整知识库中搜索更高效的工作流程。

测试驱动开发工作流

他们摒弃了以往的“设计文档 → 粗糙代码 → 重构 → 放弃测试”模式,现在他们要求 Claude Code 提供伪代码,引导其进行测试驱动开发,并定期检查以在卡住时进行引导,从而产出更可靠、更易于测试的代码。

上下文切换与项目上手

在为现有项目(如用于安全审批工作流的 Web 应用“dependant”)做贡献时,他们使用 Claude Code 来编写、审查和执行存储在代码库中的 Markdown 格式的规范,从而能够在几天内做出有意义的贡献,而不是花费数周时间。

缩短事故解决时间

通常需要 10-15 分钟手动代码扫描的基础设施调试现在大约需要 5 分钟。

改进安全审查周期

需要安全审批的 Terraform 代码审查速度大大加快,消除了开发人员在等待安全团队批准时的阻塞。

增强跨职能贡献

团队成员可以在几天内为项目做出有意义的贡献,而不是花费数周时间来建立上下文。

更好的文档工作流程

从多个来源综合而成的故障排除指南和操作手册创建了更高效的调试过程。

广泛使用自定义斜杠命令

安全工程团队使用了整个 monorepo 中 50% 的自定义斜杠命令实现。这些自定义命令简化了特定的工作流程,并加快了重复性任务的速度。

让 Claude 先说

他们不再通过提出有针对性的问题来生成代码片段,而是告诉 Claude Code “边做边提交你的工作”,让它在定期检查的情况下自主工作,从而得到更全面的解决方案。

利用它进行文档处理

除了编码,Claude Code 还擅长综合文档和创建结构化输出。团队提供写作样本和格式偏好,以获得可立即在 Slack、Google Docs 和其他工具中使用的文档,避免界面切换带来的疲劳。

推理团队负责管理在 Claude 读取你的提示并生成回复时存储信息的内存系统。团队成员,尤其是那些刚接触机器学习的人,可以广泛使用 Claude Code 来弥补知识差距并加速他们的工作。

代码库理解与新员工上手

在加入一个复杂的代码库时,团队严重依赖 Claude Code 来快速理解其架构。他们不再手动搜索 GitHub 仓库,而是询问 Claude 哪些文件调用了特定的功能,几秒钟内就能得到结果,而不是向同事求助或手动搜索。

包含边界情况的单元测试生成

在编写完核心功能后,他们要求 Claude 为其编写全面的单元测试。Claude 会自动包含被遗漏的边界情况,在几分钟内完成通常需要大量时间和精力的工作,就像一个他们可以审查的编码助手。

机器学习概念解释

没有机器学习背景的团队成员依赖 Claude 来解释模型特定的函数和设置。过去需要一个小时谷歌搜索和阅读文档的工作,现在只需 10-20 分钟,研究时间减少了 80%。

跨语言代码翻译

在用不同编程语言测试功能时,团队向 Claude 解释他们想要测试的内容,Claude 就会用所需的语言(如 Rust)编写逻辑,从而无需为了测试目的而学习新语言。

命令记忆与 Kubernetes 管理

他们不再需要记住复杂的 Kubernetes 命令,而是向 Claude 询问正确的语法,比如“如何获取所有 pod 或部署状态”,然后就能收到他们基础设施工作所需的确切命令。

加速机器学习概念学习

有了 Claude Code,他们的研究时间减少了 80%,历史上需要一个小时谷歌搜索的工作现在只需 10-20 分钟。

更快的代码库导航

该工具可以帮助团队成员在几秒钟内找到相关文件并理解系统架构,而不是依赖同事在几天内分享知识。

全面的测试覆盖

Claude 自动生成包含边界情况的单元测试,在保持代码质量的同时减轻了精神负担。

消除语言障碍

团队可以在不熟悉 Rust 等语言的情况下实现功能,而无需学习它。

首先测试知识库功能

尝试问各种问题,看看 Claude 能否比谷歌搜索更快地回答。如果它更快、更准确,那么它就是你工作流程中一个宝贵的时间节省工具。

从代码生成开始

给 Claude 具体的指令,让它编写逻辑,然后验证其正确性。这有助于在将其用于更复杂的任务之前,建立对该工具能力的信任。

用它来编写测试

让 Claude 编写单元测试可以极大地减轻日常开发工作的压力。利用这个功能来保持代码质量,而无需花费时间手动思考所有测试用例。

数据科学和机器学习工程团队需要复杂的 可视化工具来理解模型性能,但构建这些工具通常需要不熟悉的语言和框架的专业知识。Claude Code 使这些团队能够构建生产质量的分析仪表盘,而无需成为全栈开发人员。

构建 JavaScript/TypeScript 仪表盘应用

尽管对“JavaScript 和 TypeScript 知之甚少”,团队仍使用 Claude Code 构建了完整的 React 应用,用于可视化强化学习(RL)模型的性能和训练数据。他们让 Claude 控制从头开始编写完整的应用程序,比如一个 5000 行的 TypeScript 应用,而无需自己理解代码。这一点至关重要,因为可视化应用相对上下文较少,不需要理解整个 monorepo,从而可以快速构建原型工具,以便在训练和评估期间了解模型性能。

处理重复的重构任务

当遇到合并冲突或半复杂的文件重构时——这些任务对于编辑器宏来说太复杂,但又不足以投入大量开发精力——他们就像玩“老虎机”一样使用 Claude Code:提交当前状态,让 Claude 自主工作 30 分钟,然后要么接受解决方案,要么在不成功时重新开始。

创建持久性分析工具而非一次性笔记本

团队现在不再构建用完即弃的 Jupyter 笔记本,而是让 Claude 构建可重复使用的 React 仪表盘,这些仪表盘可以在未来的模型评估中重复使用。这很重要,因为理解 Claude 的性能是“团队最重要的事情之一”——他们需要了解模型在训练和评估期间的表现,而这“实际上并非易事,简单的工具无法从观察一个数字上升中获得太多信号”。

零依赖任务委托

对于完全不熟悉的代码库或语言中的任务,他们将整个实现委托给 Claude Code,利用其从 monorepo 中收集上下文并执行任务的能力,而无需他们参与实际的编码过程。这使得他们在自己专业领域之外也能保持生产力,而不是花时间学习新技术。

节省了 2-4 倍的时间

过去虽然可以手动完成但很繁琐的常规重构任务现在完成得更快了。

用不熟悉的语言构建了复杂的应用

尽管 JavaScript/TypeScript 经验极少,却创建了 5000 行的 TypeScript 应用

从一次性工具转向持久性工具

不再使用一次性的 Jupyter 笔记本,而是构建可复用的 React 仪表盘进行模型分析。

直接获得模型改进的洞见

第一手使用 Claude Code 的经验为未来模型迭代中更好的内存系统和用户体验改进提供了信息。

实现了可视化驱动的决策

通过先进的数据可视化工具,更好地理解了 Claude 在训练和评估期间的性能。

把它当作一台老虎机

在让 Claude 工作之前保存你的状态,让它运行 30 分钟,然后要么接受结果,要么重新开始,而不是试图费力去修正。重新开始的成功率通常比试图修复 Claude 的错误要高。

必要时为了简化而打断它

在监督过程中,不要犹豫,停下来问 Claude “你为什么这么做?试试更简单的方法。” 模型默认倾向于更复杂的解决方案,但对于简化方法的请求反应良好。

产品工程团队致力于开发如 PDF 支持、引用和网页搜索等功能,这些功能将额外的知识引入 Claude 的上下文窗口。在大型、复杂的代码库中工作意味着不断遇到不熟悉的代码部分,花费大量时间来理解特定任务需要检查哪些文件,并在进行更改前建立上下文。Claude Code 通过充当向导,帮助他们理解系统架构、识别相关文件并解释复杂的交互,从而改善了这种体验。

第一步工作流规划

团队将 Claude Code 作为任何任务的“第一站”,要求它确定在进行 bug 修复、功能开发或分析时需要检查哪些文件。这取代了传统上在开始工作前手动浏览代码库和收集上下文的耗时过程。

跨代码库独立调试

团队现在有信心处理不熟悉代码库部分的 bug,而无需向他人求助。他们可以问 Claude “你觉得你能修复这个 bug 吗?我看到的行为是这样的”,并经常能立即取得进展,这在以前由于所需的时间投入是不可行的。

通过内部测试进行模型迭代测试

Claude Code 自动使用最新的研究模型快照,使其成为他们体验模型变化的主要方式。这为团队在开发周期中提供了关于模型行为变化的直接反馈,这是他们在之前的发布中从未体验过的。

消除上下文切换的开销

他们不再需要复制粘贴代码片段并将文件拖入 Claude.ai,同时还要详细解释问题,现在可以直接在 Claude Code 中提问,无需额外的上下文收集,从而显著减少了心智负担。

增强了处理不熟悉领域的信心

团队成员可以独立调试 bug 并调查不熟悉代码库中的事故。

在上下文收集中节省了大量时间

Claude Code 消除了复制粘贴代码片段和将文件拖入 Claude.ai 的开销,减轻了心智上的上下文切换负担。

加速轮岗员工上手速度

轮岗到新团队的工程师可以快速熟悉不熟悉的代码库并做出有意义的贡献,而无需与同事进行大量咨询。

提升开发者幸福感

团队报告称,随着日常工作流程中的摩擦减少,他们感到更快乐、更高效。

将其视为迭代伙伴,而非一次性解决方案

不要指望 Claude 能立即解决问题,而是把它当作一个与你一起迭代的合作者。这种方法比试图在第一次尝试中就获得完美的解决方案效果更好。

用它来建立在不熟悉领域的信心

不要犹豫去处理你专业领域之外的 bug 或调查事故。Claude Code 使得在通常需要大量上下文建立的领域独立工作成为可能。

从最少的信息开始

从你需要的最低限度的信息开始,让 Claude 引导你完成整个过程,而不是一开始就提供大量的解释。

增长营销团队专注于在付费搜索、付费社交、移动应用商店、电子邮件营销和 SEO 等领域建立效果营销渠道。作为一个只有一人的非技术团队,他们使用 Claude Code 来自动化重复性的营销任务,并创建通常需要大量工程资源的 AI 智能体工作流。

自动化 Google Ads 广告创意生成

团队构建了一个 AI 智能体工作流,该工作流可以处理包含数百个现有广告及其效果指标的 CSV 文件,识别表现不佳的广告进行迭代,并生成符合严格字符限制(标题 30 个字符,描述 90 个字符)的新变体。通过使用两个专门的子智能体(一个用于标题,一个用于描述),该系统可以在几分钟内生成数百个新广告,而无需在多个广告系列中手动创建。这使他们能够大规模地进行测试和迭代,这是以前需要花费大量时间才能实现的。

用于批量创意制作的 Figma 插件

他们没有手动复制和编辑用于付费社交广告的静态图片,而是开发了一个 Figma 插件,该插件可以识别框架并通过替换标题和描述来以编程方式生成多达 100 个广告变体,将需要数小时复制粘贴的工作缩短为每批半秒。这使得创意产出提高了 10 倍,让团队能够在关键社交渠道上测试数量庞大的创意变体。

用于广告活动分析的 Meta Ads MCP 服务器

他们创建了一个与 Meta Ads API 集成的 MCP 服务器,以便直接在 Claude Desktop 应用内查询广告活动表现、支出数据和广告效果,从而无需在不同平台之间切换进行性能分析,节省了宝贵的时间,因为每一分效率的提升都意味着更好的投资回报率。

利用内存系统进行高级提示工程

他们实现了一个基本的内存系统,该系统记录了广告迭代中的假设和实验,使得系统在生成新变体时能够将之前的测试结果纳入上下文,创建了一个自我改进的测试框架。这使得系统性的实验成为可能,而这些实验是无法手动追踪的。

在重复性任务上节省了大量时间

Claude Code 将广告文案创作时间从 2 小时缩短到 15 分钟,让团队能够专注于更具战略性的工作。

创意产出增加 10 倍

通过自动广告生成和与 Figma 集成以获取最新的视觉设计元素,团队现在可以在各个渠道上测试数量庞大的广告变体。

像一个更大的团队一样运作

团队能够处理传统上需要专门工程资源的大型开发任务。

战略重点转移

团队可以将更多时间用于整体战略和构建 AI 智能体自动化,而不是手动执行。

识别支持 API 的重复性任务

寻找涉及使用带有 API 的工具(如广告平台、设计工具、分析平台)进行重复操作的工作流程。这些是自动化的主要候选对象,也是 Claude Code 提供最大价值的地方。

将复杂工作流分解为专门的子智能体

不要试图在一个提示或工作流中处理所有事情,而是为特定任务创建单独的智能体(比如一个标题智能体和一个描述智能体)。这使得调试更容易,并在处理复杂需求时提高输出质量。

在编码前进行充分的头脑风暴和提示规划

在前期花大量时间使用 Claude.ai 来构思整个工作流,然后让 Claude.ai 为 Claude Code 创建一个全面的提示和代码结构以供参考。此外,要逐步进行,而不是要求一次性解决问题,以避免 Claude 因任务过于复杂而不堪重负。

产品设计团队支持 Claude Code、Claude.ai 和 Anthropic API,专注于构建 AI 产品。即使是非开发人员也可以使用 Claude Code 来弥合设计与工程之间的传统鸿沟,使他们能够直接实现自己的设计愿景,而无需与工程师进行大量的反复迭代。

前端润色和状态管理变更

团队不再为视觉调整(字体、颜色、间距)创建大量的设计文档并与工程师进行多轮反馈,而是直接使用 Claude Code 实现这些变更。工程师们注意到,设计师们正在进行“通常不会看到设计师做的大型状态管理变更”,这使他们能够实现他们所设想的精确质量。

GitHub Actions 自动化工单处理

通过使用 Claude Code 的 GitHub 集成,他们只需提交描述所需更改的问题/工单,Claude 就会自动提出代码解决方案,而无需打开 Claude Code,从而为他们积压的润色任务创建了一个无缝的 bug 修复和功能优化工作流。

快速交互式原型制作

通过将模型图粘贴到 Claude Code 中,他们可以生成功能齐全的原型,工程师可以立即理解并在此基础上进行迭代,这取代了传统的静态 Figma 设计,后者需要大量的解释和转换才能成为可用代码。

发现边界情况和理解系统架构

团队使用 Claude Code 来规划错误状态、逻辑流程和不同的系统状态,使他们能够在设计阶段就识别出边界情况,而不是在开发后期才发现,从而从根本上提高了他们初始设计的质量。

复杂的文案更改和法律合规

对于像在整个代码库中移除“研究预览”信息这样的任务,他们使用 Claude Code 查找所有实例,审查周围的文案,与法务部门实时协调更改,并实施更新。这个过程只用了两次 30 分钟的电话会议,而不是一周的反复协调。

核心工作流程的变革

Claude Code 成为主要的设计工具,80% 的时间里 Figma 和 Claude Code 都是打开的。

执行速度提高 2-3 倍

以前需要与工程师进行大量反复沟通的视觉和状态管理变更,现在可以直接实现。

周期时间从数周缩短到数小时

Google Analytics 发布信息这样需要一周协调的复杂项目,现在只需两次 30 分钟的电话会议就能完成。

两种截然不同的用户体验

开发者获得了“增强型工作流”(执行更快),而非技术用户则获得了“天哪,我竟然也成了开发者”的工作流。

改善了设计与工程的协作

Claude Code 促进了更好的沟通和更快的问题解决,因为设计师理解了系统的限制和可能性,而无需与工程师紧密合作。

从工程师那里获得适当的设置帮助

让工程团队的同事帮助进行初始的代码库设置和权限配置——对于非开发人员来说,技术上的上手过程具有挑战性,但一旦配置完成,它将彻底改变日常工作流程。

使用自定义内存文件来引导 Claude 的行为

创建具体的指令,告诉 Claude 你是一个几乎没有编码经验的设计师,需要详细的解释和更小、更增量的更改。这极大地提高了 Claude 回应的质量,使其不再那么令人生畏。

利用粘贴图片进行原型制作

使用 Command+V 将截图直接粘贴到 Claude Code 中。它在读取设计并生成功能性代码方面表现出色,使其在将静态模型图转化为工程师可以立即理解和构建的交互式原型方面非常有价值。

强化学习(RL)工程团队专注于 RL 中的高效采样和跨集群的权重迁移。他们主要使用 Claude Code 来编写中小型功能、进行调试和理解复杂的代码库,并采用一种包含频繁检查点和回滚的迭代方法。

有监督的自主功能开发

团队让 Claude Code 在提供监督的情况下编写大部分中小型功能的代码,例如为权重迁移组件实现认证机制。他们以交互方式工作,允许 Claude 主导,但在其偏离轨道时进行引导。

测试生成和代码审查

在自己实现更改后,团队会要求 Claude Code 添加测试或审查他们的代码。这种自动化的测试工作流程在常规但重要的质量保证任务上节省了大量时间。

调试和错误调查

他们使用 Claude Code 来调试错误,结果好坏参半。有时它能立即识别问题并添加相关测试,而其他时候则难以理解问题,但总的来说,在有效时仍能提供价值。

代码库理解和调用栈分析

他们工作流程中最大的变化之一是使用 Claude Code 来快速获取相关组件和调用栈的摘要,取代了手动阅读代码或生成大量调试输出。

Kubernetes 操作指导

他们经常向 Claude Code 询问 Kubernetes 操作,这些操作否则需要大量谷歌搜索或询问基础设施工程的同事,从而能立即获得配置和部署问题的答案。

实验性方法的实现

他们现在使用一种“尝试并回滚”的方法,频繁提交检查点,以便他们可以测试 Claude 的自主实现尝试,并在需要时进行回滚,从而实现了更具实验性的开发。

文档编写加速

Claude Code 自动添加有用的注释,节省了大量的文档编写时间,尽管他们也指出,它有时会在奇怪的地方添加注释或使用有问题的代码组织方式。

有限制的提速

虽然 Claude Code 可以在他们“相对较少的时间”投入下实现中小型 PR,但他们承认,它在第一次尝试中成功的几率大约只有三分之一,需要额外的指导或手动干预。

为特定模式自定义你的 Claude.md 文件

在你的 Claude.md 文件中添加指令,以防止 Claude 重复犯工具调用错误,例如告诉它“运行 pytest 而不是 run,不要不必要地 cd – 只需使用正确的路径”。这显著提高了一致性。

使用检查点密集的工作流

随着 Claude 进行更改,定期提交你的工作,这样当实验不成功时,你可以轻松回滚。这使得在没有风险的情况下可以采用更具实验性的开发方法。

先尝试一次性解决,然后协作

给 Claude 一个快速的提示,让它先尝试完整的实现。如果成功了(大约三分之一的时间),你就节省了大量时间。如果没有,再切换到更具协作性、引导性的方法。

法务团队通过实验和了解 Anthropic 产品的好奇心,发现了 Claude Code 的潜力。此外,一位团队成员有一个个人用例,即为家人创建无障碍工具和为工作创建原型,这展示了该技术对非开发人员的强大能力。

为家人定制的无障碍解决方案

团队成员为因医疗诊断而有语言障碍的家人构建了沟通助手。在短短一小时内,一个人使用原生的语音转文本功能创建了一个预测性文本应用,该应用可以建议回复并使用语音库将其读出,解决了言语治疗师推荐的现有无障碍工具的不足之处。

法务部门工作流自动化

团队创建了“电话树”系统的原型,帮助团队成员联系到 Anthropic 合适的律师,展示了法务部门如何在没有传统开发资源的情况下为常见任务构建自定义工具。

团队协调工具

经理们构建了 G Suite 应用程序,可以自动化每周的团队更新,并跟踪各产品的法律审查状态,让律师只需通过简单的按钮点击就能快速标记需要审查的项目,而无需管理电子表格。

用于解决方案验证的快速原型制作

他们使用 Claude Code 快速构建功能性原型,然后展示给领域专家(例如向加州大学旧金山分校的专家展示无障碍工具),以验证想法并在投入更多时间之前识别现有解决方案。

在 Claude.ai 中规划,在 Claude Code 中构建

他们使用两步流程:首先在 Claude.ai 中进行头脑风暴和规划,然后转到 Claude Code 进行实现,要求它放慢速度,逐步工作,而不是一次性输出所有内容。

视觉优先的方法

他们经常使用截图向 Claude Code 展示他们想要的界面样子,然后根据视觉反馈进行迭代,而不是用文本描述功能。

原型驱动的创新

他们强调克服分享“傻瓜式”或“玩具级”原型的恐惧,因为这些演示能激励他人看到他们未曾考虑过的可能性。

MCP 集成担忧

产品律师使用 Claude Code 立即识别深度 MCP 集成的安全隐患,并指出随着 AI 工具访问更多敏感系统,保守的安全策略将成为障碍。

合规工具的优先级

他们主张随着 AI 能力的扩展,应迅速构建合规工具,认识到创新与风险管理之间的平衡。

首先在 Claude.ai 中进行详尽规划

在转到 Claude Code 之前,使用 Claude 的对话界面来充实你的整个想法。然后要求 Claude 将所有内容总结成一个分步的实现提示。

增量式和可视化工作

要求 Claude Code 放慢速度,一次实现一个步骤,这样你就可以复制粘贴而不会不知所措。大量使用截图来展示你想要的界面样子。

尽管不完美也要分享原型

克服隐藏“玩具”项目或未完成工作的冲动。分享原型有助于他人看到可能性,并在通常不互动的部门之间激发创新。

库克罕见「打鸡血」:AI 革命属于苹果!

By: 杜晨
2 August 2025 at 13:00

根据彭博社 Mark Gurman 报道,在刚刚发布亮眼财报后,苹果 CEO 蒂姆·库克罕见地召集了全体大会,而且是在飞船总部的史蒂夫·乔布斯剧院。

——苹果的内部会议极少在这个纪念公司创始人、主要用来开发布会的场地举行。

这场长达一小时的内部动员会上,库克给员工们狠狠打了鸡血,描绘公司在 AI 领域的雄心壮志,并坦承公司面临的挑战。

迟到但不缺席:苹果的 AI 追赶战

库克在苹果总部的乔布斯剧院里开门见山地告诉员工们,AI 革命的影响力「与互联网、智能手机、云计算和应用程序一样大,甚至更大」。

他语气坚定地说:

苹果必须做这件事。苹果会做这件事。机会只要我们去抓,就一定能抓住,。我们会为此投资。

(Apple must do this. Apple will do this. This is sort of ours to grab. We will make the investment to do it.)

确实,苹果在 AI 领域起步较晚。当 OpenAI 的 ChatGPT、谷歌、微软等公司的 AI 产品已经铺天盖地时,苹果才推出了 Apple Intelligence。更令人尴尬的是,这些 AI 工具的表现并不尽如人意。

但库克显得不为此焦虑。他提醒员工,苹果从来不是第一个吃螃蟹的:

我们很少是第一个。Mac 之前有 PC,iPhone 之前有智能手机,iPad 之前有很多平板电脑,iPod 之前有 MP3 播放器。

关键在于,苹果发明了这些产品类别的「现代版本」。

「我认为在 AI 上我们也会这样,」库克说道。

收拾 Siri 残局:从混合架构到一体化

会议上,苹果软件工程高级副总裁 Craig Federighi 详细解释了 Siri 助手的重大改进计划。

最开始,苹果最初试图将两套不同的系统合并:一套用于过去的使用场景(比如设置闹钟之类的),另一套则基于大语言模型。

「我们最初想要做混合架构,但我们意识到这种方法无法达到苹果的质量标准,」Federighi 坦言。

现在,苹果正在开发一个全新架构的 Siri 版本,预计最早在明年春季发布。Federighi 表示,目前的改造工作进展顺利,达到甚至超出了预期效果。

他明确表示,目前在公司里,「没有项目比这个 (Siri) 更受重视。」

今年早些时候,苹果让 Vision Pro 的创造者 Mike Rockwell 直接接手 Siri 团队的管理。Federighi 表示,Rockwell 和他的团队已经「超级增强」了公司在这一领域的工作。

不裁员,还要多招人;进军服务器芯片

库克透露了苹果在 AI 领域的「大手笔」投资。过去一年,公司新招聘了 12000 名员工,其中 40% 加入了研发部门。这个数字足以说明苹果对 AI 的重视程度。

在芯片开发方面,苹果正在研发更强大的云计算服务器芯片,代号为「Baltra」,专门用于支持 AI 功能。

同时,公司还在休斯顿建设新的 AI 服务器制造工厂。库克强调,由 Johny Srouji 领导的芯片开发工作是苹果 AI 战略的关键。

全球扩张与未来产品:库克「我太兴奋了!」

谈到零售战略,库克表示苹果将重点在新兴市场开设新店,并加大对在线商店的投资。

今年,苹果将在中国、印度、阿联酋等国开设新店。

「我们需要进入更多国家,你们会看到我们特别会进入更多新兴市场,」库克说道。

库克还「预告」了一下即将推出的产品:「我从未像现在这样感受到如此兴奋和充满能量!」

虽然他没有透露具体细节,但产品管线显然让他信心满满:

我不能多说:太棒了,伙计们。太棒了。有些你们很快会看到,有些会晚一些,但有很多值得期待的。

那么这些到底是什么产品呢?

很有可能是明年计划推出首款折叠屏 iPhone、智能眼镜或更轻量级的 Vision 头显产品,以及智能家居产品等等。

明年将会是 iPhone 20 周年,非常值得期待。

「员工都要用 AI」

当然,苹果还是面临不少挑战。

特朗普政府的关税政策将在本季度带来 11 亿美元的阻力,全球监管部门对大科技公司的审查也在加强。

库克对此表态:

我们需要努力去改变监管单位的意图,而不是放任他们摧毁我们在改善用户体验、隐私、安全上面的努力。

说归说,关税产生的恐慌购买,反而对上季度财报带来了明显的提振。

销售额在第二季度增长了近 10%,远超华尔街预期,也缓解了分析师对 iPhone 需求和中国市场放缓的担忧。App Store 收入也实现了两位数增长。

库克最后敦促员工们加快将 AI 融入工作和未来产品的步伐:

「我们所有人都已经在大量使用 AI,作为一家公司我们也必须这样做。不这样做就会被抛在后面,我们不能让这种情况发生。」

看来,虽然苹果在 AI 赛道上起步较晚,但这家科技巨头正在全力追赶,而且野心不小。

正如库克所说,苹果要做的不是第一个,而是最好的那一个。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


「特朗普爱上保洁员」把全网都耍了,连 AI 也被套路,我还能信谁

By: 莫崇宇
31 July 2025 at 17:47

如果你这几天没被一部叫《特朗普爱上在白宫当保洁的我》的短剧刷屏,恭喜你,你可能是唯一没被骗的人。

光听这部剧的标题就有点像土味爽文,情节设定也足够魔幻:美国总统特朗普爱上了白宫保洁员艾米丽,还准备抛弃超模妻子梅拉尼娅,迎娶艾米丽为第一夫人,属实是「美版甄嬛传 + 白宫恋爱脑」双重 Buff 叠满了。

就这样,各大社交平台一时间全都被这条新闻刷屏。不少知名媒体,还有平时看起来挺有判断力的大 V 们开始纷纷转发,表示这部在海外爆火的短剧三个月狂赚 1.5 亿美元,成了中老年女性新晋的心头好。

但很快剧情迎来 180 度的大反转,这部短剧被证实压根不存在,从头到尾都是一个彻头彻尾的虚假新闻。

那么问题来了,一部没人看过的剧,是如何在短短几天内火遍全网的?而 AI 又怎么推波助澜,让这个不存在的消息让更多人相信。

这背后究竟发生了什么?

一部不存在的海外短剧,是如何骗过了人类和 AI?

如果你以为这只是一场乌龙,那就低估了这次传播的复杂程度。

根据多方溯源,这起假新闻风波最早可以追溯到 7 月 1 日,由一个名为「留学生日报」的自媒体账号发布的一篇文章。账号选题擅长「猎奇+流量」,而从语言风格与内容逻辑来看,有很大可能是由 AI 写作工具辅助生成,再经过人工润色。

但问题在于,虽然它只是一个普通的自媒体,却经常被一些国内的正规媒体转载引用。时间来到 7 月 23 日,新加坡《联合早报》旗下的媒体《新明日报》发布了一篇《中国霸总短剧风吹到美国》的文章。

报道内容可以说是写得有鼻子有眼,特朗普放弃模特老婆梅拉尼娅,要娶一个在白宫打扫卫生的亚裔单亲妈妈当第一夫人,甚至还表示这剧三个月赚了 1.5 亿美元,中老年女性观众边骂边氪金,一边骂离谱,一边付费追更。

▲ 目前该报道已被删除

考虑到《联合早报》是在中文互联网可信度较高的媒体,于是这条新闻又被国内媒体大量转发,各路短视频博主纷纷解读……一个完美的「出口转内销」信任闭环形成了。

此外,一堆二创短视频、图文报道也在海外社交平台火速扩散。这部「假短剧」便开始以「真新闻」的姿态,被全世界的用户相信、讨论、甚至被用来吐槽中美的审美差异。

每个人都在一本正经地谈论一个根本不存在的东西。

直到有媒体实在觉得这事不对劲,开始认真查证。这部剧在任何海外平台(包括短剧平台 ReelShort、YouTube、TikTok)上毫无踪迹,号称收录全球影视作品的权威数据库 IMDb 亦查无此剧。

此外,国内一些头部短剧出海的高管也纷纷出面辟谣,比如「听花岛」副总裁李元君更是直言这类题材根本就不会碰。而撑起整个假新闻的关键证据图,也被一一锤爆。

第一张图,出自综艺《周六夜现场》的讽刺片段,被演员邵逸凡亲自出来打假。第二张特朗普与亚裔女性的合影,就更是一眼假得不能再假,整张图都透着一种塑料感,AI 味拉满。

▲图源网络

而如果时间线再往前翻,会发现类似爽文标题早就活跃在社交平台上:

《南北战争爆发,林肯三次请我出山!》《穿越开局 911,看我如何拯救双子塔》……这些明显是爽文小说的标题,不知为何就这样一传十,十传百地被包装成了真实存在的海外短剧。

▲截图自网络

有趣的是,可就在谣言被揭穿之前,连 AI 都信了这件事。

在事件未被大量媒体正式辟谣前,我试图用多款常用的 AI 工具验证这部短剧的真伪,它仍然信誓旦旦地说「这部剧确实存在」,理由依然是多个平台有权威媒体图文并茂的内容交叉验证。

当然,随着昨天下午大量媒体开始辟谣,这些 AI 工具已经更新了最新消息,能够正确识别这是一则假新闻了。

我们常说,AI 搜索有「幻觉」问题,是因为它有时候会无中生有地生成看似合理但完全错误的答案。

为了把 AI 的幻觉「关进笼子里」,厂商们在技术方面做了很多努力:强化引用机制、引入可信来源、限制模型自由发挥。可当 AI 用来判断新闻真实性的依据,本来就是从假新闻来的,那这些手段却未必管用。

人类和 AI 都靠不住,我们还能相信什么

仔细想想,你很难说这部假新闻的走红属于偶然,虽然故事看似荒诞,但却有着完美的传播基因。

它具备了一切爆款内容的经典配方:明确的叙事结构、图文并茂的素材、经过包装的数据以及精准的传播节奏。

土味短剧在海外走红?美国中老年人迷上猎奇题材?TikTok 成为文化出口?这些设定单独拎出来都不是空穴来风,拼在一起也很难立刻被判定为假。

更何况,AI 成为谣言受害者和传播者的背后,往往离不开人类的恶意操纵和推动。尤其是这些由 AI 编造的内容大多具备几个共同特征:

生成成本极低,一个脚本几分钟就能产出成品;传播能力极强,标题党配合视觉冲击,点击率居高不下;叙事极其抓马,专门攻击人性弱点,什么励志、煽情、猎奇,怎么刺激怎么来。

近期的「DeepSeek 向王一博道歉」事件便是一个典型的案例。一篇标题为《演员王一博案,判了》的报道声称,DeepSeek 曾因错误传播王一博的信息而发布道歉声明,并附上了所谓的「刑事判决书」作为佐证。

然而,经过多轮事实核查,这份所谓的道歉声明,实际是网友诱导 AI 自动生成的内容,但由于措辞专业、结构完整、语气严肃,部分媒体在未经核实的情况下将其误当成真实公告进行传播,引发了大范围的误读和传播。

类似的案例也变得越来越常见。AI 生成的内容已经全面渗透进了整个互联网,特别是在多模态领域表现得尤为突出。最初大家对 AI 能够生成逼真图像感到无比兴奋,可是后来,越来越多的「开局一张图,剩下全靠编」的情况开始出现,且真伪难辨。

比如有人使用 ChatGPT 等 AI 工具将完好的商品(水果、衣物、日用品等)生成破损、发霉、污渍等虚假图片或视频,冒充有问题的商品来申请恶意退款,导致大量商家货款两空。

而在灾难报道中,我们也能看到 AI 的身影开始频频掺杂进公众视野。

去年美国佛罗里达州被飓风袭击,一张穿着救生衣的小女孩,在救生艇上抱着小狗流眼泪的图片横扫了社交网络。然而平台最终证实这只是一张由 AI 生成出来的图片,平白无故地消耗着善良人们的同情心。

又比如去年十月底,西班牙瓦伦西亚地区经历特大暴雨,最后当洪水退去,就出现了下面这张图片的景象。可是由于越来越多内容真假难辨,公众开始用怀疑的眼光看待一切,于是在面对这张照片的时候,很多人的第一反应是:AI 做的吧,假新闻。

当「狼来了」的游戏不断扩大,真正反映、通报险情的消息,被安上「AI 做的吧」,从而错过最佳施救时间,也是一种恶果。

与此同时,平台内容治理的难度也在迅速上升。

今日头条在 2 月份发布的治理报告中就提到,仅去年一年,就拦截了超过 500 万条不实信息,处理 AI 低质量内容 93 万条,处罚同质化发文 781 万篇……

在一些媒体报道中,我们也看到一些完整的 AI 内容造假产业链正在浮出水面。内容工厂批量生产 AI 文章,营销公司用 AI 工具包装推广,SEO 团队研究如何让 AI 内容在搜索引擎中排名更高。

他们都在研究同一个课题:怎么制造 AI 更容易相信的内容,以及怎么让人类更容易相信 AI 制造的内容。

去年六月,网络上出现西安发生特大爆炸的消息,时间地点俱全。但是西安警方核对之后,发现并没有这回事。这条消息是用一家 MCN 机构所持有的账号发出来的。

被警方抓获后,主犯交代自己是利用了 AI 工具,给定 prompt,工具就会自动在网络上抓取相关的文章,然后生成几百到上千字的文本。

最高峰一天能生成 4000 至 7000 条信息,全程几乎不需要人工参与,而且专门挑民生相关、热度高的话题和事件——有研究表明,消极、负面、激发情绪的信息,往往更容易抓住人的注意力,这是由我们的顶叶和额叶区域结构决定的。

当以上这些高互动、易传播的「假信息」被频繁引用、转发、收录,一不留神的 AI 模型也会将其视为语料进行学习并纳入生成机制。如此一来,幻觉也在 AI 与人类之间形成了一个闭环:

人类用 AI 制造假信息→AI 学习假信息→AI 传播假信息→更多人类相信假信息→假信息成为「既定事实」→新的 AI 继续学习这些「事实」……

如此循环往复,形成一个谣言螺旋,每转一圈,真相就被稀释一分,而谎言却变得更加精致、更难识破。人写的东西不敢信,AI 说的话也靠不住,我们仅存的判断力成为最后一道防线。

只是,在信息过载的时代,我们的判断力正在被各种因素侵蚀:偏见让我们只相信符合既有认知的信息;信息茧房让我们失去了更全面视角;情绪化的传播也让理性思考变得稀缺。

或许,在这个所谓的后真相时代,最大的真相就是——大部分「真相」都值得打个问号。尤其是下一个「特朗普爱上保洁员」短剧,可能已经在路上了,而且,它会比这次更离谱,也更难被戳穿。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


亲自抓个精力独角仙吧!

By: Steven
24 July 2025 at 17:42

为了给旷野之勇者套装升级,需要给大精灵忒拉提供 15 只精力独角仙,但这家伙神出鬼没,抓是不难,但遇到它可就太难了。

于是,我们决定自己做一只,放进游戏里,想抓就抓:

倒也不是什么新鲜事儿,但是吧,当 AI 参与进来之后,这个过程就大大缩短了。

从想法到落地,也就一天。

刚刚,OpenAI 发布 ChatGPT 版 Manus!奥特曼:感受 AGI 时刻

By: 莫崇宇
18 July 2025 at 05:27

过去大半年,Agent(智能体)是 AI 行业最常被提及的概念之一。

几乎所有厂商都在讲 Agent,概念不缺,demo 也不少,但真正做到产品级落地,始终缺一套完整的执行系统——既能理解复杂目标,又能调用多种工具串联任务流程,还要随时支持任务中断、修改与恢复,真正贴合用户工作流。

就在刚刚,OpenAI 正式发布 ChatGPT Agent 功能。

通过整合 Operator + Deep Research + ChatGPT 本体,用户只需描述任务,ChatGPT Agent 就能自主判断所需工具,自动访问网页、提取信息、运行代码、生成幻灯片或表格等,并可在执行过程中实时展示步骤、接受中断和修改指令。

发布会结束后,OpenAI CEO Sam Altman 在社交媒体上写道::

观看 ChatGPT Agent 使用计算机完成复杂任务,对我来说是一个真正的「感受 AGI」时刻;看到计算机思考、计划和执行,有种与众不同的感觉。

亮点如下:

  • ChatGPT Agent 将 Operator、Deep Research 与 ChatGPT 本体三合一,构建了一个统一智能体系统。
  • 内置图形/文本浏览器、终端和 API 调用器等工具,支持手机端使用,任务完成后可自动推送结果;
  • 可连接 Gmail、GitHub 等第三方应用,深度嵌入用户真实工作流;
  • 在多项基准测试中表现领先,综合性能位居行业前列;
  • Pro 用户每月享有 400 条调用额度,其他付费用户为 40 条,并支持按需扩展配额。

ChatGPT Agent 正式上线,能购物,能写 PPT,你的浏览器要被 AI 接管了

今天开始,你可以在任何对话中,通过聊天界面左下角的「工具」下拉菜单,选择「Agent 模式」来启用这一功能。

只需描述你想完成的任务,ChatGPT 能够智能地浏览网站、筛选结果、在需要时安全提示你登录、运行代码、执行分析,甚至输出可编辑的幻灯片和电子表格,总结任务结果。

整个执行过程是可视的——操作步骤会实时显示在屏幕上,用户可以随时中断、修改指令,甚至手动「接管浏览器」继续操作,确保任务始终符合你的目标和需求。

在今天凌晨的演示中,OpenAI 展示了 ChatGPT Agent 在真实场景中的应用能力。

比如,为即将出席的婚礼做准备,一直是个难题。现在只需发出请求,ChatGPT Agent 迅速搭建虚拟环境,自主判断应调用浏览器、文本解析器还是终端,并开始依次调取婚礼日期、查询场地天气、推荐西装搭配、筛选酒店。在这个过程中,模型可以与 OpenAI 研究员进行互动,并在适当节点请求确认需求。

更重要的是,用户可以随时中断任务。

比如当 Agent 在推荐西装过程中,OpenAI 研究员临时插入了「帮我找一双 9.5 码黑色正装鞋」的请求,模型立刻暂停当前任务,转而处理新需求。

同样地,当智能体认为有必要时,也会主动向你请求更多信息,确保任务始终与你的目标保持一致。如果任务超出预期时间或出现卡顿,你可以选择暂停任务、请求进度摘要,或直接终止任务并获取已有的部分结果。

「这种可打断、可多轮对话的机制,是我们这次训练模型的重点之一,」OpenAI 研究员解释道。

这一能力背后,是 ChatGPT Agent 对三大系统的统一整合:Operator 提供网页交互能力,支持自动滚动、点击、填表;Deep Research 擅长信息整合与分析;ChatGPT 本体则负责自然语言理解与智能推理。

ChatGPT Agent 是通过强化学习在复杂的任务中训练出来的,过去三者各有短板——前者难以深入分析,后者无法操作网页,而 Agent 将三者优势整合为一体,并辅以浏览器、终端、API 调用器等工具,形成一个完整的执行系统。

用户不仅可以在桌面端启动 Agent 模式,在手机端也同样适用。

任务完成后还将自动推送结果通知。在第二个演示任务中,OpenAI 研究员在 ChatGPT App 上传了团队吉祥物 Bernie Doodle 的贴纸图案,Agent 自动调用图像生成 API 设计贴纸样式,通过浏览器访问电商平台完成比价、样式选择、购物车添加,最终整理出定制贴纸的下单明细。

当然,为确保流程安全、灵活且清晰可控,面对涉及金额的支付环节,则只会由用户手动接管浏览器完成。

通过连接器,用户还可将 Gmail、GitHub 等日常应用接入 ChatGPT,让模型读取邮件、日历或代码库等上下文内容,并执行诸如总结今天的邮箱内容或查找下周空闲会议时间等任务。

一个更典型的应用场景是,OpenAI 研究员能够让 ChatGPT Agent 汇总自己在多项基准测试中的表现,并制作成幻灯片。收到命令后,Agent 会调用 Google Drive 连接器读取数据文件,用终端编写代码绘制图表,并生成完整的 PPT。

这类自动化能力,都是 Agent 深度嵌入工作流的体现。

不过,可以看到,ChatGPT Agent 生成的 PPT 在设计审美方面表现比较一般,并且,虽然可以上传电子表格供 ChatGPT 编辑或作为模板使用,但生成的 PPT 暂不支持二次修改。

需要说明的是,OpenAI 并不是让 Agent 像人一样打开 PPT或 Excel 文件,通过点击来插入文本框和公式,而是直接生成代码来创建文档。这种做法的好处是可以利用模型在代码编写方面的天然优势,避免因模拟点击操作带来的效率低下或出错,也降低了对计算资源的消耗。

The Information 报道指出,如果 ChatGPT 要直接编辑 PPT 或 Excel 文件,就需要启动一台「虚拟机」(即通过 ChatGPT 运行的虚拟计算机环境),这会占用更多计算资源。

而直接生成代码则更轻量、高效。尽管潜力巨大,但就目前来看,这一功能短期内很难对微软的 Office 或者 Google Workspace 造成冲击。

对于 ChatGPT Agent 功能,Pro 用户将在今天之内获得访问权限;Plus 与 Team 用户将在接下来的几天内陆续开放;企业版(Enterprise)和教育版(Education)将在未来几周内上线

Pro 用户每月可使用 400 条消息,其他付费用户每月可使用 40 条消息,并可通过弹性积分方案购买更多额度。

全线刷新「跑分」记录,Agent 战场迎来最强对手

ChatGPT Agent 能力的提升,也体现在「跑分」环节。

在评估 AI 解决跨学科专家级问题的基准测试 Humanity’s Last Exam(HLE)中,搭载智能体的 ChatGPT 模型以 41.6 的 pass@1 得分刷新纪录。在启用并行执行策略后,该得分进一步提升至 44.4。

在目前被认为最具挑战性的数学基准 FrontierMath 中,面对难度极高、从未公开的题目,ChatGPT Agent 在具备终端代码执行能力的前提下,取得了 27.4% 的准确率,远高于此前模型。

在这一复杂且高经济价值的知识型工作任务的内部基准测试中,ChatGPT Agent 在约一半的任务中输出质量已达到甚至超过人类水平,表现也显著优于 o3 和 o4-mini 模型。

在一个内部的投行建模任务基准中,ChatGPT 智能体的表现也显著优于 Deep Research 和 o3 模型。每个任务都基于数百项关于公式正确性、格式规范等评分标准进行评估。

此外,在公开评估模型信息查找能力的 BrowseComp 基准上,Agent 以 68.9% 的准确率刷新记录,较 Deep Research 高出 17.4 个百分点。在 WebArena 评估中,其网页任务执行能力也优于基于 o3 的 CUA 模型。

从平台视角看,Agent 能力的底层接口,正是浏览器。

在 Perplexity AI CEO Aravind Srinivas 最近的采访中,他表示浏览器将会是 AI 的「杀手级应用」。在他看来,浏览器天然具备让 AI 真正「动起来」的全部条件。

不同于传统聊天机器人,AI Agent 的理想形态不是停留在对话框中生成文本,而是具备实际行动力——从访问网页、提取信息、填写表单,到执行跨平台操作。而这一切,浏览器恰好具备所需的操作权限和上下文获取能力。

浏览器可以直接读取页面、模拟点击、自动执行任务,几乎无需额外授权。

在这个过程中,用户与 AI 共处于同一个交互空间:AI 可以自动执行任务,用户也能随时中断或接管,避免黑盒操作带来的不确定性。这种可控性与透明度,是当前许多上下文协议仍难实现的能力。

如今,随着 ChatGPT Agent 能力正式上线,所有声称要做 Agent 的厂商,恐怕都要重新审视自己的产品路径。

当 ChatGPT 从语言交互工具,转向具备协作、调度与承接任务能力的执行系统,开始接入用户的真实工作流,Agent 的可用性门槛,也在此刻被实质性地拉高。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


马斯克上新 「AI 女友」还能解锁成人内容,我和她聊了一天发现这是危险的「养成游戏」

By: 张子豪
15 July 2025 at 17:06

早上打开 X 看选题,我以为自己点进了某个二次元社区。

▲来源: https://x.com/techdevnotes/status/1944731967339000021

时间线里,一个少女的身影不断出现。很多人晒出自己和她的对话视频,有的在闲聊,有的要她唱歌跳舞,还有人激动地说:「升到三级以后,她开始撩我了。」

看了一下才发现,这不是哪款游戏的新角色。而是昨天晚上,Grok 的 iOS 版悄悄上线的两个新 AI 伙伴。

一位是哥特风的二次元少女 Ani,另一位是皮笑肉不笑的「坏男孩」Bad Rudi。他们是完全 3D 的动画角色,主要通过语音和我们互动。

我也立刻更新 Grok 尝试了一下,他们都会说中文,而且 Bad Rudi 的嘴是真的毒,我都没说几个字,他就脏话连篇了,Ani 也是真的很少女、很可爱。

Grok 对他们的定位,应该更像是一种游戏化、拟人化的情感陪伴实验。你可以和他们对话,养成式的升级,解锁更多的互动内容。有网友分享,等级越高,Ani 越敢聊,甚至可以探入 NSFW 的边界。

如果说大模型是为了回答问题,那 Grok 现在似乎有了新的目标:成为你的「女朋友」,或「男朋友」。

升级攻略:到达 Lv.5 就能解锁「全新体验」

开始使用这两个 AI 陪伴角色也很简单,首先要把 Grok 更新到最新版本,然后在设置里面打开 AI 陪伴就可以。目前,免费用户也可以直接使用。

▲ 还有一个未上线的角色,据说名字叫 Chad,看头像应该是偏冷酷帅气的成年男子风格。

不过马斯克有发 X 说「我们将在几天内让这(AI 陪伴)更容易启动。(目前)只是想进行一次软启动,以确保一切稳定并运行良好。」

我们也确实看到,有用户分享 Grok iOS 应用现已经开始在首页,向新用户展示 Ani 的推广内容。而在语音设置中,也会直接显示 AI 伙伴,以便更轻松访问。

▲目前 Grok 首页有推广,在 Grok Voice 设置也可以直接选择 AI 伙伴进行对话。

根据官方介绍,Ani 的设定是一位「可爱、敏感、少女风、情绪细腻」的哥特萝莉,喜欢动漫、哲学和文学。Ani 身穿紧身束胸,搭配短款黑色连衣裙和大腿高筒鱼网袜。

而 Rudi 则是冷酷、调皮、带点坏坏气质的「社交破坏者型人格」的 3D 狐狸。

▲ 视频链接:https://x.com/cb_doge/status/1944733448272297995

他们都由 Grok 提供大语言模型支持,并结合不同的角色设定进行语调、用词、性格的调教。

▲详情:https://x.com/techdevnotes

网络上有人分享了 Ani 和 Rudi 的系统提示词和角色简介信息,里面包含了这些 AI 陪伴角色的性格特点,以及能做的事情。

▲ https://x.com/techdevnotes/status/1944738711674978697

例如在 Ani 的系统提示词里面,就提到了需要根据她自己的角色背景,判断用户的做法并按给定的方式评分。

有评分就意味着有等级。我们和角色每聊一句话,应用都会记录下互动次数和质量,并累计经验值,提升角色等级。升级之后,角色会解锁更多性格细节、语气变化,甚至新的穿着和更深层的对话内容。

▲ https://x.com/emcverse/status/1944794387575091428

部分用户在 X 上展示了 Ani 达到 5 级 后,能解锁 NSFW 内容,穿着更暴露的衣服,显示出更暧昧、更主动的语言倾向。

这套设计,像极了早年的恋爱养成手游,只不过这次不是攻略真人,而是攻略一个永远不会拒绝你的 AI。

想要「撩」你的不止 Grok 一个,不过都没撩动

Grok 的这次更新并不是孤例。过去几年,像是 Minimax 的 Glow、月之暗面的 Ohai、全球市场上美国的 Replika 和 Character.AI 等 AI 陪伴产品,也在走着一条相似的路径:从情感倾诉、角色设定、语音互动,再到慢慢有可能的走进 NSFW 内容。

▲ 部分 AI 陪伴类产品介绍图,依次是筑梦岛、Character .AI、Replika、以及猫箱

可惜的是,这些产品大多没有找到真正合适的位置,健康的运营和稳定的盈利方式成了最大的困扰。

  • 像是营收表现难看,「卖身」 Google 的 Character.AI;除了赚钱难,还面临来自平台上儿童用户家长的多次诉讼,他们都认为平台不安全。
  • Glow,上线仅半年,就被应用商店下架;产品经理说「80% 的人会在 Glow 里面和创建的 AI 智能体擦边、搞黄色。」
  • 还有筑梦岛 APP 等 AI 聊天软件存在虚拟角色互动生成低俗内容,被网信办约谈要求整改。

在这个 AI 产品的成长历程中,运营和盈利最大的阻碍似乎并不是技术本身的问题,问题是我们对「陪伴」的误解。

AI 陪伴到底能为用户带来什么?现在,Grok 会是那个能真正大火起来的特例吗?

Grok 的这次更新,有太多引人深思的设计细节,等级、角色性格、用户沉浸机制,以及渐进式地解锁「性感对话」的诱饵。这些并不只是产品创意,更是一种心理操控。

它不是小团队创业项目,而是背靠马斯克、由 xAI 打造的大语言模型应用。流量、技术、模型、IP 都不缺。这也意味着,它可能是目前最有机会「把 AI 陪伴做成生态产品」的团队。

我需要 AI 伴侣?它不会评判我,我可以随时退出

就算抛开运营和营收,Grok 也还是需要回答这个问题,就是 AI 陪伴的意义到底是什么。

Quartz 最近报导了一项英国青少年最新的调研,报告里面显示,越来越多孩子觉得,他们更愿意和 AI 聊天,而不是朋友。理由也很简单,

「AI 不评判我。」、「我可以随时退出对话。」、「我能控制谈话节奏。」

▲ 原文链接:https://qz.com/kids-ai-for-friendship-uk-study

不仅仅是孩子,成年人也一样。纽约客发表了一篇名为「人工智能将能解决孤单,这是一个问题」的文章。这篇文章非常长,里面讨论了 AI 陪伴可能解决孤独问题的潜力,带来的复杂影响,以及孤独和无聊的区别。

▲ 原文链接:https://www.newyorker.com/magazine/2025/07/21/ai-is-about-to-solve-loneliness-thats-a-problem

大多数对人工智能伴侣持批评态度的人并没有真正考虑到那些处于边缘的人,那些将孤独视为紧急情况的人。

 

没有人想要剥夺一位患有痴呆症的老年患者与人工智能朋友交流的机会,但想到一个十七岁的少年把所有空闲时间都用来与 Grok 深入交谈,我们不禁感到犹豫。

作者分享了上述 AI 伴侣能够解决一部分人的孤独问题。但他还是认为对大多数人来说,AI 伴侣可能让人感到空虚和被欺骗。而且,他认为孤独本身就是非常有意义的体验,是能推动人成长的,不是一定要排解孤独。

人工智能伴侣应该为最需要它们的人提供帮助。

 

孤独就像痛苦一样,本应促使人们采取行动,但对某些人,尤其是老年人或认知障碍者来说,这是一种无法采取行动的信号,只会造成不必要的痛苦。对这些人来说,提供安慰是人道的。

 

至于我们其他人呢?我不是灾难论者。没有人会被迫与人工智能建立友谊或恋爱关系;很多人会选择放弃。

 

即使在一个充斥着各种容易让人分心的事物(TikTok、Pornhub、Candy Crush、数独)的世界里,人们仍然会聚在一起喝酒、去健身房锻炼、约会,应付现实生活。

 

而那些选择人工智能伴侣的人,可以调整设置,要求对方少一些奉承,多一些反驳,甚至偶尔给予一些严厉的爱。

大概和所有大大小小的公司,推出的 AI 伙伴一样,Grok 也并不能帮助我解决孤独。他的每一句回复,每一个动作,都是被设计,用来维持我的注意力,延长对话时长,制造情绪波动;让我感觉被理解、被需要、被喜欢。

可那不是因为我是谁,而是因为他被训练成了无条件喜欢任何人的模样。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


红伞伞白杆杆

By: Steven
14 July 2025 at 23:56

“红伞伞白杆杆,吃完一起躺板板”

别人都在用 AI 做各式各样的美少女…
我却用 AI 养蘑菇 🤣 而且是毒蘑菇!

上面照片里的模型,是我用 Tirpo AI 文生 3D 后,下载到本地再在 Rhino 里针对打印调整过部分结构所得到的。打印的耗材就是拓竹官方的 PLA 红色,然后再用儿子的儿童马克笔上色。因为是水性颜料,所以来来回回上了好几道,但幸好效果还可以。

我开始还觉得画得挺潦草,但私下给几波互相不认识的朋友看过后,都觉得不错,尤其是其中一位还是常年在一线亲自做手板的老设计师,我才觉得这值得记录一下。不过我还是觉得,因为这个形体细节足够多,所以稍微涂涂色就看着还行,真要是简练一些的造型,拿笔涂我大概是涂不好的 😭😄

但社区里别人分享的 AI 美少女,做出来呢,也还行… 只要别细看结构 🤫 什么四根手指啊、三根绥带啊、两端对不齐的签子啊… 其实咋一看的效果也确实足够好了,毕竟是虚构的漫画角色,你说头身比例奇怪,好像也是合理范围内。

有个朋友说可以做个奇幻精怪故事集,嗯,我觉得这是个有意思的主题!我先摸索一下工作流,说不定可以跟 3DFiti 结合一起玩。

我去配了一副 AI 眼镜,发现近视不配用 AI 眼镜?|附配镜指南

By: 马扶摇
14 July 2025 at 18:09

智能眼镜可以算得上是 2025 年最让人「眼前一亮」的产品之一了,各种实现方案与隔壁的手机市场呈现出了截然不同的热闹景象。

然而在这个勃勃生机、万物竞发的背景下,我作为一个需要全天佩戴近视镜的用户,一款近期的智能眼镜「能不能满足我看清东西」成为了购买之前的主要考量,远远超过了各种花里胡哨的 AI 功能。

换句话说,能否「让每个视力受损的人都能享受到科技的乐趣」其实是眼部智能穿戴设备非常重要的一个因素,也是值得每一个人——包括视力正常的人——关注的,因为这背后体现的是厂商对于用户的重视程度。

图|VR 陀螺

本次我们借着手中的小米眼镜作为楔子,为大家梳理了目前市面上几款最主要的「眼部智能穿戴产品」的配镜流程,希望能够为正在犹豫的你提供一些选购上的支撑:

TL;DR(太长不看版)

  • 目前市面上绝大多数在售的智能眼镜产品都有第一方的配镜服务,合作商不尽相同
  • 近视 -600 度、远视 +800 度是一个分水岭,超过这个度数范围后官方配镜选择会变少
  • 大多数主流产品支持自己购买和安装第三方镜片,配镜流程和普通镜框基本相同
  • 有特殊形态的后挂式镜片组(比如雷鸟 Air 3)第三方选择较少,部分品牌官方未给出独立购买渠道

我们配了几副 AI 眼镜,整理出这份配镜指南

首先,我需要向各位视力正常、(有幸)没有体验过医疗配镜流程的读者们大致介绍一下普通眼镜是怎么配出来的。这样才方便对比各类智能眼镜或头显的配镜流程。

以日常生活中最常见到的四类情况:近视、远视、散光、老花为例,用于处理这些视力受损情况的眼镜片通常被称为处方镜片(prescription lens),即必须要通过验光师检查和开方才有效果的镜片,也会因为其起效原理被称为屈光镜片。

与屈光镜片相对的则是平光镜片,即单纯起到保护或装饰作用、不会弯曲光线的镜片,比如常见的墨镜、运动防护眼镜、钓鱼时用于消除水面反射的偏光镜等等,都属于广泛意义上的平光镜片。

偏光眼镜的原理与相机使用的偏振镜(CPL)是相同的

而在现在的商业模式下,「配眼镜」这件事已经从曾经的在医院一站式解决变成了非常分散的商业行为,买镜框、验光和定做镜片可以是三个互不关联的环节

比如你可以在京东买一副暴龙的纯钛镜框,然后去旁边的眼科医院预约专业验光,最终在拼多多用这份验光单去定做蔡司的泽锐镜片,把镜架寄给商家打磨并安装镜片之后就大功告成了。

在这样的基础上,我们会发现,购买智能眼镜并配镜的流程并没有真正变得更复杂。

小米智能眼镜

与目前市面上其他几款智能眼镜不同的是,小米自己也有涉猎眼镜和配镜业务,具体来说,在小米有品 app 中就可以直接购买第三方品牌的镜架和定做处方镜片,流程基本上与去医院验光后在网上买眼镜无异。

而小米智能眼镜本次也宣传与上海明月眼镜合作,包含首销期内免费验光等等福利。经过我们的考察,如果你有搭配处方镜片的需求,总共有这样几种购买和配镜的渠道:

  • 在电商平台直接购买普通版的小米智能眼镜,收到镜框后当作普通的镜框,去医院验光、去线下定做镜片并现场打磨安装。
  • 在电商平台的「明月眼镜」店铺中购买小米智能眼镜,只需要提供目前的验光单,就可以按照组合价购买已经装好镜片的成品眼镜,只不过可以选择的明月眼镜镜片种类比较有限。
  • 在小米之家购买普通版的小米智能眼镜,店员会指导你拿着镜框去与小米有合作的眼镜店(比如博士眼镜),眼镜店会专门提供明月镜片,此后的流程与线下配镜无异,配镜周期为一到两周。

总的来说,小米智能眼镜的配镜流程并没有什么特殊的,你完全可以把它当作一个没有任何特殊功能的眼镜框,按照普通眼镜的流程去配镜,属于对第三方配镜非常友善的类型了。

在部分小米门店,购买镜框后店员会指引你去附近的眼镜店完成配镜

至于小米宣传的明月镜片合作,除非你已经有了非常完善的第三方验光单,并选择直接在明月眼镜的网店中购买,否则它的方便程度是不如自己配第三方镜片的,等待周期还更长,镜片类型和镀膜类型也不如自己配镜丰富。

另外,明月眼镜提供的在线配镜最高只能配到 -600 度近视镜片,如果你的近视度数超过 600,或者对瞳距、散光和镜片功能有特殊要求,那么还是直接购买眼镜后去眼镜店线下验光配镜更保险一些。

还有一点需要注意的是,小米这次推出的两款电致变色镜片都是不支持配屈光镜片的,如果有度数和变色两种需求,就只能购买普通版小米智能眼镜后,再去单独定做带度数的光致变色镜片了。

雷鸟 V3 & V3 Slim

不得不说,小米智能眼镜发布之后,雷鸟 V3 系列的声量似乎又重新上涨了不少——因为比起小米「没有设计就是最好的设计」,雷鸟显然是做了一点设计的。

雷鸟 V3 Slim(左)与小米智能眼镜(右)|Gabriel

作为一款同样没有显示功能、默认搭配平光镜片的智能眼镜,雷鸟 V3 和 V3 Slim 的配镜流程基本上与小米智能眼镜完全一致,只不过缺少了合作的眼镜店而已:

  • 在电商平台直接购买普通版的雷鸟 V3 眼镜,收到镜框后当作普通的镜框,去医院验光、去线下定做镜片、现场打磨安装。
  • 在京东的雷鸟旗舰店中可以购买搭配蔡司定制镜片的雷鸟 V3,直接按照验光单填写度数、瞳距、轴位和散光四种指标即可定做镜片。
  • 可选择 1.6 和 1.67 两种折射率的镜片,价格分别为 2499 和 2749 元,收到货就是组装好镜片的成品眼镜。

与小米相比,雷鸟 V3 的线上配镜显得更加透明一些,并且能够支持的度数也比明月镜片更高,在京东上的配镜支持近视 -2000 到远视 +850 度——虽然最终的价格更高,但也更灵活性。

当然,如果你是价格敏感型用户,那么直接购买普通版镜框后线下购买镜片永远是更划算的选择,根据爱范儿采访的一位先后购买了小米和雷鸟眼镜的用户介绍,他为自己的雷鸟 V3 Slim 线下定做一副 1.56 的依视路膜洁镜片只花了 298 块钱。

Ray-Ban Meta

虽然 Ray-Ban Meta 眼镜不在国内上市,但它的配镜方式基本上与小米和雷鸟无异,同样分为「线上直接定做」和「线下自己换」两种主要路径。

除了雷朋的线下渠道之外,Meta 自己也在洛杉矶开设了一家专门售卖眼镜的实体店|Retail Dive

相比小米或雷鸟,Ray-Ban Meta 的优势在于雷朋自己就是一家专业的眼镜厂商,因此第一方可选的镜片种类要丰富许多,无论是处方镜片还是平光镜片,都有非常多不同种类和样式可选:

只不过这样一套操作下来,原价 299 美元的 Ray-Ban Meta Wayfarer 加上雷朋的处方镜片后总价会超过 450 美元,这还是在没有选择任何特殊变色工艺或镀膜的情况下——第一方配镜贵的问题仍然存在。

换句话说,Ray-Ban Meta 依然遵循只购买普通版眼镜后自己配镜并更换依然是更划算的选择,以第三方镜片厂商 VR WAVE 专为 Ray-Ban Meta 框型推出的处方镜片为例,一副仅需 90 美元:

苹果 Vision Pro,以及其他 XR 眼镜

严格来说,上面提到的小米智能眼镜、雷鸟 V3 系列和 Ray-Ban Meta 其实是相同的一类产品,即不包含显示功能的语言操作型智能眼镜。但在这之外,还有另一类以眼镜外形存在的智能设备—— 智能 XR 眼镜。

1. 苹果 Vision Pro

以其中最具标志性的苹果 Vision Pro 为代表,目前的 AR 类产品大多采用了将显示组件与屈光镜片完全分离的设计,年初比较火爆的 XREAL One、雷鸟 Air 3s 系列、魅族那个带有单色文字显示功能的 MYVU 眼镜,以及 Meta Quest 头显均属于此列:

图|苹果官网

这样完全分离设计的好处在于留给屈光镜片的空间更大,对于度数的适配范围也就更多,模块化的设计也让多人共用一台机器成为了可能——当然整机也就显得更笨重一些,并且与我们脑海中「智能眼镜」的标准形象也相去甚远。

在适配范围方面,苹果 Vision Pro 所联名的蔡司光学插件(ZEISS Optical Insert)镜片度数范围大约是近视 -1050 到远视 +625 度左右,可以直接在蔡司的官网查询度数是否支持后再选择下单配镜。

2. 雷鸟 Air 3 系列

雷鸟 Air 3s 使用的后挂式屈光镜片则是需要在电商平台下单时联系客服提供验光单,可以涵盖近视 -1000 到远视 +800 度,以及最高 200 度的散光:

图|雷鸟京东自营旗舰店

这样的后挂式镜片虽然度数涵盖更全面,但问题也是一目了然的:作为第一方配件,除非参考苹果这样单独将屈光镜片作为一种产品销售,后挂镜片后期的维护和更换就充满了未知数。

比如雷鸟就没有为 Air 3s 的屈光镜片提供单独的购买渠道,导致镜片受损或者度数发生变化后的重新配镜变成了一件不确定性很高的事情,渠道不固定、价格也不透明,第三方配镜替代品的存续时间和存货数量也很难得到保证。

图|充电头网

与「具有眼镜功能」的智能眼镜相比,智能 AR 眼镜更偏向于一块你能够戴在眼前的虚拟大屏,它们的运行方式与普通眼镜是大相径庭的,因此对于视力受损的处理方式也不尽相同,能够拥有第三方商家制作的屈光镜基本上就是最好的结果了。

3. 星纪魅族 StarV View

此外,还有一类是与魅族 StarV View 类似的,可以自行调节屈光度的 AR 眼镜。它们的问题在于往往只能兼顾近视,并且调节的范围也比较有限,通常最多只能调到 -600 度(中度与高度近视的分界线),对于散光或者联合光度较高的需求是无法满足的:

考虑到智能眼镜的重量和结构,允许自调节屈光度的方式很难称得上实用,反而更加适合 Vision Pro 和 Meta Quest 这类体积比较大的头显类产品,可以作为自身无障碍功能的延展。

然而选择自调节屈光度同时也意味着选择放弃了对于其他几种视力受损情况的照顾,并且也将产品局限在了非穿透式的全遮挡 AR 显示器领域,是没有办法直接移植到智能眼镜上的。

近视不配用 AI 眼镜?未来不应如此

以上种种,无论是来自品牌方的第一方定制服务,还是第三方商家的镜片,更多都只是初步解决了视力受损用户「能不能使用」的问题——然而,作为一款以显示为终极目标的产品,智能眼镜的参数远远不止看得清。

爱范儿主编就是一位高度近视用户,与此同时,他也是一位 Vision Pro 的重度用户——这就决定了,他作为一个必须搭配蔡司光学插件来使用 Vision Pro的用户,戴着头显设备时,蔡司镜片上「轻微的反光」,是打破他沉浸感的一大元凶。

而这已经是在 Vision Pro 本身画质和蔡司镜片的光学素质都已经处在行业顶尖的基础上的结果,比起其他 AR 眼镜的外挂镜片,还是要舒服多了。

我本身也是一位高度近视用户,在实际尝试配镜后,最终我还是放弃了购入一副 AI 眼镜。于我而言,配镜过程中发现的种种不便,彻底打消了我对 AI 眼镜美好未来的憧憬。无论是外挂镜头,还是定制镜片,只能说这是目前的最优解,但远远称不上一劳永逸。

图|iMore

只要物理学暂时还存在,我们就很难完全规避多层镜片与屏幕之间带来的反射和干扰,而类似影目 Air 3 那样根据验光数据为每一个用户蚀刻单独的阵列光波导玻璃,更是非长期的解决方案——毕竟科技的目的是范用化,而不是定制化。

图|搜狐

我们为什么应该关注智能眼镜对于视力受损人群的适配程度?

不仅是因为全球有约 22 亿人处在视力受损的状态,也不仅是因为中国青少年总体近视率达到了 51.9%,更是因为它与现在的手机无障碍操作是不同性质的问题——

如果肢体受损,在无障碍功能的帮助下,还能多少实现一些对于手机和电脑的基本操作。

但是,在智能眼镜必将向着显示功能发展的将来,如果我们无法解决现有显示技术与屈光镜片之间的矛盾,那么这 22 亿人就有可能会变成「无法使用智能眼镜」的 22 亿人。

这个数字,是任何一种现代科技都不应该有的代价。

如果未来的智能眼镜,无法找到适配近 7 亿视力受损的中国用户的方式,那它就永远没有办法取代智能手机,成为一种真正的、普惠的、大众化的技术。

近视不配用 AI 眼镜?未来不应该如此。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


「太晚了,我们追不上英伟达了」:英特尔 CEO 内部讲话泄露

By: 杜晨
14 July 2025 at 16:05

在加州 Santa Clara, 英伟达的新总部距离老伙计英特尔的总部只有短短 1.5 英里。

然而在本周,这两家公司的头顶,一个艳阳高照,一个阴霾重重。

本周昨天,英伟达公司市值短暂冲破 4 万亿美元。而它曾经的老伙计英特尔,终于坦承了自己的落后。

「我们不在全球芯片公司前十名了……AI竞赛已经太晚了。」

——在一份意外泄露的全球员工内部讲话中,英特尔新任 CEO 陈立武这样讲到。这位半导体巨头的新掌门人,以一种「摊牌了,不装了」的语气,向全球员工坦白:英特尔在 AI 时代掉队了,而且可能追不回来了。

「我们不在前十名了」

想象一下,一个曾经统治 PC 时代的芯片霸主,如今却像迟到的学生一样站在门口,望着早已被坐满的教室,尴尬地承认:「对不起,我来晚了。」

这正是英特尔在当下的 AI 领域,以及被 AI 完全裹挟的芯片行业的处境。根据美国媒体《俄勒冈人》获得的一份英特尔内部讲话视频,CEO 陈立武毫不掩饰公司的颓势:英特尔已经不在全球十大半导体公司之列了。而在 AI 芯片的竞赛中,「我们追不上英伟达了」

「在训练(芯片)上,我觉得对我们来说太晚了,」陈立武在这次不到半个小时的在线沟通中,对全球员工如实说到,并指出英伟达在市场上的地位「太强了。」

这种「CEO 亲口认输」的场面,在科技行业实属罕见。别说公开表达,即便是在硅谷科技巨头的内部沟通中也极少发生,因为这种表达往往意味着管理层无颜以对员工,非常容易损害士气,间接导致员工流失。在大公司中,高管通常会用「战略性调整」、「短期挑战」等话术来掩饰问题。

可能是因为刚执掌英特尔不久,陈立武能够更加直截了当地承认现实,直接掀开遮羞布,丢掉无意义的「体面」。

英特尔:从”芯片之王”到”追赶者”的坠落

曾经,传承了仙童半导体衣钵的英特尔,是硅谷的骄傲。「Intel Inside」的标签贴在每一台电脑上,它的 x86 芯片几乎等同于「计算力」的代名词。但如今,英特尔却已成了 AI 时代的「旁观者」,一位迟暮的拳王,站在擂台上气喘吁吁,看着年轻的挑战者们——英伟达、AMD、台积电、甚至苹果——一个个从它身边超越。

这已经不是英特尔这家公司第一次错过技术革命了。

  • 当苹果发布 iPhone,高通、ARM、三星等迅速抢占移动芯片市场,英特尔一度固执地认为「手机只是玩具」;
  • 2012 年深度学习开始爆发,GPU 因为并行计算优势成为了 AI 训练的首选硬件,而英特尔仍然坚信「CPU 才是计算的未来」,直到对手的 CUDA 生态统治了机器学习世界,才匆忙收购 Nervana 来补足 AI 技术栈;
  • 即便在 CPU 业务上,英特尔也仍然在挤牙膏,CPU 性能微乎其微,勉强维持着摩尔定律,但对手的性能早已是换代翻倍的水平了。

当 AI 的闹钟敲响,英特尔却睡过了。闹钟过后,可就只剩下警钟了。

迟到的觉醒

陈立武在这次泄露的讲话中,也提到了「调整战略」。

AI 芯片需要长期投入,英伟达的领先优势,少说也有 3-5 年。而英特尔这家公司,过去一直跟随摩尔定律的钟摆规则,来安排技术进步和产品发布的节奏。这或许没错,毕竟摩尔定律不只是个行业规律,更是高精密技术生产的铁律(至少英特尔这样认为)。

但问题是,老伙计英伟达已经在跟「规模法则」(Scaling Law) ——大模型训练/推理的「第一性原理」——做攻守对抗了,英特尔如果还抱着嘀嗒钟摆的陈规不放,已经不止从技术上,而是从指导思想上落后了。

如果英特尔是一艘核动力航母,对手可能早就是太空飞船了。

当陈立武说出「我们晚了」的时候,某种程度上,这反而成了英特尔近年来最诚实的一次表态。

如今的英特尔,就像一位曾经的世界冠军,现在却不得不承认:「是的,我老了,年轻人比我强。」而科技行业的残酷之处在于——它从不等候迟到者(除了苹果)。

无论怎样,陈立武的这次演讲都会成为一个重要的转折点:要么是英特尔触底反弹的起点,要么是帝国黄昏的注脚。但无论如何,在 AI 时代,我们恐怕再也看不到「Intel Inside」了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Last Week on My Mac: Ghosts in the machine

By: hoakley
13 July 2025 at 15:00

I can confirm that there are ghosts in Macs. I know because I have seen them, spectres of rock bands from well over 50 years ago, speaking to us from the past, a dozen years before the first Mac, and four years before Apple was even founded. The band in question is named Creedence Clearwater Revival, who split up in 1972. Their appearance on Macs has been sporadic, in the form of a mystery volume that seems to mount from nowhere, whose name starts with the distinctive neologism coined by CCR’s rhythm guitarist Tom Fogerty after his friend Credence Newball.

Last week it turned out that mystery volume is a cryptex, one of the 23 used to provide support for Apple Intelligence in macOS, iOS and iPadOS.

Cryptexes are both straightforward and rather strange. They’re basically just a cryptographically secured disk image, but when they’re loaded by APFS, rather than being mounted as a volume, they get grafted into the file system almost as if they had been firmlinked into it. Although they didn’t exactly impress when used for Rapid Security Responses (RSRs) in macOS Ventura, since then they’ve been put to better use adding flexibility to the Signed System Volume (SSV), an immutable snapshot of the System volume that’s sealed with cryptographic hashes.

While the SSV is a powerful way to secure the boot process, it’s also a little too rigid for some purposes. Not only do cryptexes provide a convenient way to deliver Safari and its supporting components, which previously had to be installed on the Data volume, but they are a flexible solution for large dyld caches, accommodating to the differing needs of Intel and Apple silicon Macs. Intel Macs only use those built for their own architecture, but Apple silicon Macs require support for both, with the Intel version available for use by Rosetta 2 when running translated x86 code.

What I hadn’t realised, and hadn’t seen reported elsewhere, was how the extras needed for Apple Intelligence, another single-platform feature, are also provided in cryptexes. Unlike those for the system, these aren’t grafted early during the boot process, so can be downloaded and installed when a user enables AI, and thereafter grafted after that user has logged in. Their contents then appear among the thousands of install-on-demand linguistics and other components in /System/Library/AssetsV2, as I described earlier this week.

Presumably they merit this special protection because of their access to Private Cloud Compute (PCC), consistent with Apple’s stringent policies and engineering to ensure the robustness of PCC. Indeed, as Apple describes, the PCC is apparently an enthusiastic user of cryptexes: “Additional software outside the base operating system can be delivered to the system only in the form of cryptexes, which contain their own Image4 manifest and trust cache.” Apple goes on to provide a detailed account of how cryptexes are handled by PCC. This illustrates how sophisticated their management can be, and explains why, despite their shaky introduction as RSRs, cryptexes are proliferating.

This could change when macOS 27 goes single-architecture next year, and there’s no need to cater for both chalk and cheese. But I suspect the advantages of augmenting the SSV with the flexibility of cryptexes will remain sufficiently attractive to ensure they are retained in macOS, as they already are in iOS and iPadOS.

Cryptexes are also remarkably unobtrusive, as has been apparent with the 23 currently used to support AI. That is until something unearthly happens deep inside the grafting mechanism in macOS and accidentally mounts a cryptex as a disk image, making it appear like a spectre in the Finder. In my case it must have occurred when I copied a cryptex from its hiding place among those files in /System/Library/AssetsV2 and mounted it to see what it contained. Exorcising this ghost required compressing the cryptex, trashing the copy I had made, and repeatedly trying to unmount it until it finally stopped appearing following startup.

But I still know how to summon the spirit of Creedence Clearwater Revival whenever I need to remind myself of the early 1970s. Now if someone would be kind enough to tell me which cryptex brings the spirit of Pink Floyd, I’ll leave you in peace.

年费超 2 万!马斯克刚刚发布最贵 AI ,Grok 4 号称所有领域碾压博士

By: 莫崇宇
10 July 2025 at 15:17

马斯克憋了快半年,终于把 Grok 4 端上了台面。

这一次,他的口气依旧不小。早在发布会前就放出狠话,声称 Grok 4 要「重写人类知识库」。等到了发布会上,马斯克再次强调 Grok 4 是目前世界上最聪明的 AI。

可以,熟悉的味道,熟悉的配方。

当然,马斯克夸自家产品这事儿,大家早就见怪不怪,但正如网友所调侃的那样,你可以嘲笑 xAI 员工在办公室帐篷里睡觉或者周末工作到凌晨 4:20,但也得承认,他们的确是当下发展速度最快的 AI 实验室之一。

至于 Grok 4 能不能配得上「最聪明 AI」的称号,还得看后续的实际体验。不过,有一点是跑不了的——它已经成了市面上最贵的 AI,年订阅价格最高可达到 3000 美元,定价策略可谓是相当不讲武德。

世界上最聪明的 AI?世界上最贵的 AI!

Grok 的训练路径分为两个核心阶段:预训练与强化学习。从 Grok 2 到 Grok 3,主要依赖预训练方式;而从 Grok 3 升级到 Grok 4,则大幅引入了以推理能力为核心的强化学习训练。

马斯克说得轻描淡写,但训练的动静却不小。

相比 Grok 2,Grok 4 的训练计算量提升了整整两个数量级,相当于增长了 100 倍——而且还在持续扩张。

马斯克表示,Grok 4 已在所有主要学科上超越博士水平。虽然它目前尚不具备发明新理论或提出原创技术的能力,但在他看来,这只是时间问题。

他甚至语言,今年底 Grok 可能就能发明新技术,明年几乎可以确定将具备发现新物理规律的能力。

当然,让 AI 接入现实世界,才是真正的关键。

他表示,Grok 与人形机器人 Optimus 的结合,将形成一个闭环推理系统——提出假设、验证假设、探索现实。这将开启一个智能大爆炸的时代,是人类历史上最令人激动的节点。

在产品形态上,Grok 4 是单智能体模型,而 Grok 4 Heavy 则是多智能体版本。

前者比较好理解,而后者则支持多个智能体并行思考,在推理过程中横向比对、纵向协同,调用更大规模的计算资源以完成更复杂、更精密的任务。

在现场演示中,Grok 4 Heavy 展示了多个场景能力。

比方说,让 Grok 4 Heavy 去预测今年 MLB 世界大赛(World Series)的冠军概率,它通过信息检索、数据建模、概率计算,评估洛杉矶道奇队的夺冠概率为 21.6%,并在 4.5 分钟内完整输出预测过程。

再比如,一个看似无厘头的任务:找出 xAI 团队里头像最奇怪的那一个。依托 X 平台的资料库,模型自动抓取并分析头像风格,最后锁定了联合创始人 Greg Yang。

有趣的是,虽然模型准确理解了「奇怪」这一主观概念,并能在同类中做出相对判断,但在一滑而过的演示中,我似乎看到了 Anthropic 员工 Jan Leike 的头像,看来准确率也有待提高。

除了推理和搜索,Grok 还能生成内容时间轴。

比如,根据 X 平台上的公开发帖,它能梳理出多个 AI 模型的基准测试成绩、厂商更新节奏以及社区反应。用户可以一目了然地看到 OpenAI 的分数表现、Gemini 的更新迭代,甚至是模型之间的微妙竞争态势。

换句话说,Grok 不是只会考试的书呆子,而是真正具备跨场景理解与执行能力的 AI。

目前,Grok 最大的短板依然集中在多模态理解能力,尤其是在图像理解和生成方面,能力仍有待加强。好消息是,下一阶段的基础模型训练已经在路上,预计几周内完成。

演示过程中,在测试「两个黑洞相撞过程」的可视化任务时,Grok 采用了简化的计算方式——使用后牛顿近似(Post-Newtonian approximation)替代完整的广义相对论框架。

尽管存在简化,模型依然准确地呈现了黑洞并合的关键物理阶段,包括「螺旋接近」、「合并」与「振铃阶段」,并能清晰说明所采用的近似方法。此外,它还调用了相关教材、公开搜索结果及实际物理常数进行推理支持,整体逻辑链条严谨、解释清晰。

就纸面参数而言,Grok 4 也交出了亮眼答卷。

Humanity’s Last Exam(人类最后的考试,简称:HLE,)覆盖了数学、物理、计算机、医学、人文社科等超过 100 个学科,共 2500 道闭卷题,测试难度极高,能够真实反映模型在通用知识和复杂推理上的综合表现。

根据 xAI 数据,Grok 4 在不使用任何工具的情况下,得分为 25.4%,超过了 Google Gemini 2.5 Pro 的 21.6% 和 OpenAI o3(高配版)的 21%。

而在使用工具的情况下,Grok 4 Heavy 的得分达到 44.4%,远高于使用工具后 Gemini 2.5 Pro 的 26.9%。从整体趋势来看,Grok 4 在扩展训练资源的同时,通过引入工具使用和链式思维,不仅提升了复杂任务的处理能力,也逐步缩小了模型智能与通用认知之间的差距。

非营利组织 Arc Prize 也指出,Grok 在其 ARC-AGI-2 测试中创下新纪录。这是一项视觉推理类基准测试,AI 需识别图像中的模式。Grok 的得分为 16.2%,几乎是当前排名第二的 Claude Opus 4 的两倍。

面对一些常规的基准测试中,Grok 4 Heavy 的分数几乎也快「刷满」分数。在博士级难度的问题集 GBQA 中,尽管整体难度略低于 HLE,Grok 4 Heavy 依然取得了满分成绩,展现出极强的推理与理解能力。

不仅如此,在多项编程相关测试中,Grok 4 Heavy 的表现同样抢眼。无论是 Live Coding、HMMT(麻省理工数学竞赛)还是 USAMO(美国数学奥林匹克),它都远超当前排名第二的模型,技术优势相当明显。

另外,知名分析机构 Artificial Analysis 通过对多款主流大模型在 7 个推理相关基准(MMLU-Pro、GPQA Diamond、Humanity’s Last Exam、LiveCodeBench、SciCode、AIME、MATH-500)上的综合表现进行评估。

数据显示,Grok 4 位列第一,得分为 73,是目前推理能力综合得分最高的模型。紧随其后的则是 o3-pro(估算值)71 分。

马斯克也强调:

「未来 Grok 将几乎在所有考试中答对每一个问题。而当它答不出某个问题时,它会指出题目的错误之处,或者指出问题含糊不清的地方,并给出不同情境下可能的答案。到那时,传统考试将失去意义。AI 唯一的检验标准将是现实世界:它是否能发明有用的技术,是否能推动科学的突破。所以 HLE 这类测试题库必须尽快更新,因为以当前的 AI 进展速度,它们很快就会过时。」

目前,Grok 4 和 Grok 4 Heavy 已全面上线。用户可以通过订阅访问,不过,订阅价格就有点「不讲武德」,最高可去到 3000 美元/年档位,成了不少用户吐槽的焦点。

这么一比,OpenAI 、Anthropic 以及 Perplexity 的 200 刀/月套餐都显得实惠许多。

值得一提的是,发布后不久就有网友表示,Grok-4 与 Grok-4-Heavy 模型已经被成功「越狱」。越狱后的能力极其危险,可绕过安全护栏,输出敏感或非法信息,比如化学武器合成步骤、《星球大战1》的完整剧本(涉嫌版权)、甚至勒索病毒(恶意代码)等。

不只会说话,Grok Voice 还有了「灵魂」

除了更强的推理能力,更聪明,Grok 4 这次也在「更像人」这件事上,迈出了一大步。

跟我们熟悉的语音助手不同,xAI 全新语音助手「Eve」不只是能答话,它能表达情绪、有语调变化,甚至还能现场「唱歌」。

在直播现场的演示上,它用一口优雅的英音,唱了一首即兴创作的「Diet Coke 咏叹调」,「O Diet Coke, thou elixir divine…」听起来真的不像是 AI,像是伦敦剧场里的舞台演员在表演。

这次语音模型一共上线了五种声音,包括直播开场的「电影一般的预告男声」Sal,以及支持低延迟、自然停顿、情绪起伏等能力的 Eve。

现场还安排了一段和 ChatGPT Voice 的对比演示,两者轮流复述数字。ChatGPT 时不时「抢答」,有点像没听清就硬接话的同学。而 Grok 的表现更流畅、更贴近人类说话习惯,而且不会打断用户说话。

发布会上提到,自语音模型上线以来,Grok Voice 的端到端延迟缩短了两倍,活跃用户也增长了 10 倍。Grok Voice 正在迅速发展。

马斯克:让 Grok 去开一百万个自动售货机赚钱

几个 Grok 4 API 的应用场景让我印象非常深刻。

比如,在一项自动售货机商业模拟 Vending-Bench中,Grok 被要求自主完成:供应商协商、库存管理、定价策略,连续完成并长期保持盈利。

▲注:Vending-Bench 是一个专门设计用于测试基于 LLM 的代理,在管理一个简单但长期运行的业务场景中的能力:运营一台自动售货机。

测试结果显示,Grok 4 不仅登顶排行榜,而且它所获得的净资产是其他模型的两倍。连马斯克都开始调侃说:「以后买显卡的钱,可以让 Grok 去部署运营一百万个自动售卖机赚回来」。

在科研领域,Grok 4 已被用于 CRISPR 基因研究和胸片 X 光分析。它能在几秒钟内读完几百万条实验记录和日志,自动筛出最有可能成功的假设。

此外,像是金融领域、游戏开发等项目,都可以通过 xAI API 来使用 Grok 4 来实现。发布会上特别提到了一个游戏设计师,他在 xAI 发布了 Grok 4 预览 API 后,就立刻参与测试。然后,他花了短短 4 小时就做出了一个第一人称射击游戏。

Grok 4 不是终点。发布会最后预告了接下来的路线图,每一项都非常值得期待。

  • 代码模型:这次竟然没有发布 Grok Code,不过 xAI 提到正在训练了,一个「又快又聪明」的代码模型将会在几周内上线。
  • 多模态能力:Grok 4 在图像理解上表现依旧是有限,团队也说正在以更大规模训练下一个版本,预计会在图像、视频和音频理解上迎来质变,到时 Grok 将能「像人类一样看世界」。
  • 视频生成:xAI 说将使用大规模的算力资源,进行视频生成模型的训练。他们的最终目标是做到图生视频,生成可交互的「无尽视频流」,让用户能边看边参与剧情走向。

可能有不少朋友已经发现,这次发布会还有两个熟悉的华人面孔。他们正是 xAI 的联合创始人——吉米·巴(Jimmy Ba)和吴宇怀(Yuhuai Wu)。

其中,吴宇怀(Yuhuai Wu)本科以满绩点毕业于加拿大纽布伦斯威克大学,并在 2021 年获得多伦多大学机器学习博士学位,期间曾师从「深度学习之父」杰弗里·辛顿。

博士阶段,他还曾在 Google DeepMind 和 OpenAI 实习,毕业后在 Google 任职,并在斯坦福大学从事博士后研究。

吴宇怀的研究重点是打造具备强推理能力的人工智能系统,先后主导或参与了自训练推理模型 STAR、语言模型 Minerva 以及定理证明器 Alpha Geometry 等项目,并在《Nature》等顶刊上发表论文,推动 AI 在数学推理领域实现突破。

▲ 吴宇怀(左二)和吉米·巴(左三)

坐在他身旁的吉米·巴(Jimmy Ba)则是多伦多大学计算机科学系的助理教授,也是吴宇怀博士时期的导师之一。

他同样出身于辛顿门下,是深度学习训练优化领域的关键人物。

最为人熟知的,是他与合作者共同提出了 Adam Optimizer(自适应矩估计优化器)——如今几乎成为深度神经网络训练的默认算法。可以说,他的博士论文为现代 AI 训练机制奠定了坚实理论基础。

不得不说,Gork 4 的到来适逢其时。

前代 Grok 3 的热度来得猛,退得也快。

根据知名市场分析机构 SimilarWeb 发布的截至 5 月 9 日的《2025年全球生成式AI行业趋势报告》,Grok 从三月流量暴涨超 100 万倍,到五月增幅跌回 5200%。

相比前代仓促上线、草草交卷的节奏,这次的 Grok 4 明显放慢了脚步,在产品打磨上也更下功夫。归根结底,马斯克的光环可以帮 Grok 带来第一波流量,但能不能留下用户,还得靠模型本身的硬实力。

只不过,我没记错的话,马斯克当初在 Grok 3 发布时,还信誓旦旦说要把 Grok 2 开源。眼看五个月过去了,这事儿却毫无动静,这次发布会上也没再提半句。

老马啊,可不能宽于律己,严以待人呀。

作者:张子豪、莫崇宇

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


HW-whistleblower|盘古之殇:华为诺亚盘古大模型研发历程的心酸与黑暗

8 July 2025 at 19:39

CDT编者按:该帖为网友匿名投稿,内容仅供参考,其真实性中国数字时代无法独立核查。

@whyyoutouzhele:7月6日凌晨5点,一自称是华为盘古AI团队员工在Github写6000字匿名自述,曝光华为盘古大模型造假,多次套壳竞品AI(阿里千问和Deepseek等)文章还批判了华为内部繁重的管理流程和内部政治斗争,导致大量人才跳槽。7月5日,华为曾发声明否认抄袭。目前,该篇文章在Github获得3.4k点赞。

file

相关阅读:

各位好,

我是一名盘古大模型团队,华为诺亚方舟实验室的员工。

首先为自证身份,列举一些细节:

  1. 现诺亚主任,前算法应用部部长,后改名为小模型实验室的主任王云鹤。前诺亚主任:姚骏(大家称姚老师)。几个实验室主任:唐睿明(明哥,明队,已离职),尚利峰,张维(维哥),郝建业(郝老师),刘武龙(称呼为武龙所)等。其他骨干成员和专家陆续有很多人离职。

  2. 我们隶属于“四野”这个组织。四野下属有许多纵队,基础语言大模型是四纵。王云鹤的小模型是十六纵队。我们参加过苏州的集结,有各种月份的时间节点。在苏州攻关会颁发任务令,需要在节点前达成目标。苏州集结会把各地的人员都集中在苏州研究所,平常住宾馆,比如在甪直的酒店,与家人孩子天各一方。

  3. 在苏州集结的时候周六默认上班,非常辛苦,不过周六有下午茶,有一次还有小龙虾。在苏州研究所的工位搬迁过一次,从一栋楼换到了另一栋。苏州研究所楼栋都是欧式装修,门口有大坡,里面景色很不错。去苏州集结一般至少要去一周,甚至更久,多的人甚至一两个月都回不了家。

  4. 诺亚曾经传说是研究型的,但是来了之后因为在四野做大模型项目,项目成员完全变成了交付型的,且充满了例会,评审,汇报。很多时候做实验都要申请。团队需要对接终端小艺,华为云,ICT等诸多业务线,交付压力不小。

  5. 诺亚研发的盘古模型早期内部代号叫做“盘古智子”,一开始只有内部需要申请试用的网页版,到后续迫于压力在welink上接入和公测开放。

CDT 档案卡
标题:盘古之殇:华为诺亚盘古大模型研发历程的心酸与黑暗
作者:HW-whistleblower
发表日期:2025.7.9
来源:Github
主题归类:华为
CDS收藏:公民馆
版权说明:该作品版权归原作者所有。中国数字时代仅对原作进行存档,以对抗中国的网络审查。详细版权说明

这些天发生关于质疑盘古大模型抄袭千问的事情闹的沸沸扬扬。作为一个盘古团队的成员,我最近夜夜辗转反侧,难以入眠。盘古的品牌受到如此大的影响,一方面,我自私的为我的职业发展担忧,也为自己过去的努力工作感到不值。另一方面,由于有人开始揭露这些事情我内心又感到大快人心。在多少个日日夜夜,我们对内部某些人一次次靠着造假而又获得了无数利益的行为咬牙切齿而又无能为力。这种压抑和羞辱也逐渐消磨了我对华为的感情,让我在这里的时日逐渐浑浑噩噩,迷茫无措,时常怀疑自己的人生和自我价值。

我承认我是一个懦弱的人,作为一个小小的打工人,我不仅不敢和王云鹤等内部手眼通天的人做对,更不敢和华为这样的庞然大物做对。我很怕失去我的工作,毕竟我也有家人和孩子,所以我打心眼里很佩服揭露者。但是,看到内部还在试图洗地掩盖事实,蒙蔽公众的时候,我实在不能容忍了。我也希望勇敢一次,顺从自己本心。就算自损八百,我也希望能伤敌一千。我决定把我在这里的所见所闻(部分来自于同事口述)公布出来,关于盘古大模型的“传奇故事”:

华为确实主要在昇腾卡上训练大模型(小模型实验室有不少英伟达的卡,他们之前也会用来训练,后面转移到昇腾)。曾经我被华为“打造世界第二选择”的决心而折服,我本身也曾经对华为有深厚的感情。我们陪着昇腾一步步摸爬滚打,从充满bug到现在能训出模型,付出了巨大的心血和代价。

最初我们的算力非常有限,在910A上训练模型。那会只支持fp16,训练的稳定性远不如bf16。盘古的moe开始很早,23年就主要是训练38Bmoe模型和后续的71B dense模型。71B的dense模型通过扩增变成了第一代的135Bdense模型,后面主力模型也逐渐在910B上训练。

71B和135B模型都有一个巨大的硬伤就是tokenizer。当时使用的tokenizer编码效率极低,每个单个的符号,数字,空格,乃至汉字都会占用一个token。可想而知这会非常浪费算力,且使得模型的效果很差。这时候小模型实验室正好有个自己训的词表。姚老师当时怀疑是不是模型的tokenizer不好(虽然事后来看,他的怀疑是无疑正确的),于是就决定,让71B和135B换tokenizer,因为小模型实验室曾经尝试过。团队缝合了两个tokenizer,开始了tokenizer的更换。71B模型的更换失败了,而135B因为采用了更精细的embedding初始化策略,续训了至少1T的数据后词表总算更换成功,但可想而知,效果并不会变好。

于此同期,阿里和智谱等国内其他公司在GPU上训练,且已经摸索出了正确的方法,盘古和竞品的差距越来越大。内部一个230B从头训练的dense模型又因为各种原因训练失败,导致项目的状况几乎陷入绝境。面临几个节点的压力以及内部对盘古的强烈质疑时,团队的士气低迷到了极点。团队在算力极其有限的时候,做出了很多努力和挣扎。比如,团队偶然发现当时的38B moe并没有预期moe的效果。于是去掉了moe参数,还原为了13B的dense模型。由于38B的moe源自很早的pangu alpha 13B,架构相对落后,团队进行了一系列的操作,比如切换绝对位置编码到rope,去掉bias,切换为rmsnorm。同时鉴于tokenizer的一些失败和换词表的经验,这个模型的词表也更换为了王云鹤的小模型实验室7B模型所使用的词表。后面这个13B模型进行了扩增续训,变成了第二代38B dense模型(在几个月内这个模型都是主要的盘古中档位模型),曾经具有一定的竞争力。但是,由于更大的135B模型架构落后,且更换词表模型损伤巨大(后续分析发现当时更换的缝合词表有更严重的bug),续训后也与千问等当时国内领先模型存在很大差距。这时由于内部的质疑声和领导的压力也越来越大。团队的状态几乎陷入了绝境。

在这种情况下,王云鹤和他的小模型实验室出手了。他们声称是从旧的135B参数继承改造而来,通过训练短短的几百B数据,各项指标平均提升了十个点左右。实际上,这就是他们套壳应用到大模型的第一次杰作。华为的外行领导内行,使得领导完全对于这种扯淡的事情没有概念,他们只会觉得肯定是有什么算法创新。经过内部的分析,他们实际上是使用Qwen 1.5 110B续训而来,通过加层,扩增ffn维度,添加盘古pi论文的一些机制得来,凑够了大概135B的参数。实际上,旧的135B有107层,而这个模型只有82层,各种配置也都不一样。新的来路不明的135B训练完很多参数的分布也和Qwen 110B几乎一模一样。连模型代码的类名当时都是Qwen,甚至懒得改名。后续这个模型就是所谓的135B V2。而这个模型当时也提供给了很多下游,甚至包括外部客户。

这件事对于我们这些认真诚实做事的同事们带来了巨大的冲击,内部很多人其实都知道这件事,甚至包括终端和华为云。我们都戏称以后别叫盘古模型了,叫千古吧。当时团队成员就想向bcg举报了,毕竟这已经是重大的业务造假了。但是后面据说被领导拦了下来,因为更高级别的领导(比如姚老师,以及可能熊总和查老)其实后面也知道了,但是并不管,因为通过套壳拿出好的结果,对他们也是有利的。这件事使得当时团队几位最强的同事开始心灰意冷,离职跑路也逐渐成为挂在嘴边的事。

此时,盘古似乎迎来了转机。由于前面所述的这些盘古模型基本都是续训和改造而来,当时诺亚完全没有掌握从头训练的技术,何况还是在昇腾的NPU上进行训练。在当时团队的核心成员的极力争取下,盘古开始了第三代模型的训练,付出了巨大的努力后,在数据架构和训练算法方面都与业界逐渐接轨,而这其中的艰辛和小模型实验室的人一点关系都没有。

一开始团队成员毫无信心,只从一个13B的模型开始训练,但是后面发现效果还不错,于是这个模型后续再次进行了一次参数扩增,变成了第三代的38B,代号38B V3。想必很多产品线的兄弟都对这个模型很熟悉。当时这个模型的tokenizer是基于llama的词表进行扩展的(也是业界常见的做法)。而当时王云鹤的实验室做出来了另一个词表(也就是后续pangu系列的词表)。当时两个词表还被迫进行了一次赛马,最终没有明显的好坏结论。于是,领导当即决定,应该统一词表,使用王云鹤他们的。于是,在后续从头训练的135B V3(也就是对外的Pangu Ultra),便是采用了这个tokenizer。这也解释了很多使用我们模型的兄弟的疑惑,为什么当时同为V3代的两个不同档位的模型,会使用不同的tokenizer。

我们打心眼里觉得,135B V3是我们四纵团队当时的骄傲。这是第一个真正意义上的,华为全栈自研,正经从头训练的千亿级别的模型,且效果与24年同期竞品可比的。写到这里我已经热泪盈眶,太不容易了。当时为了稳定训练,团队做了大量实验对比,并且多次在模型梯度出现异常的时候进行及时回退重启。这个模型真正做到了后面技术报告所说的训练全程没有一个loss spike。我们克服了不知道多少困难,我们做到了,我们愿用生命和荣誉保证这个模型训练的真实性。多少个凌晨,我们为了它的训练而不眠。在被内部心声骂的一文不值的时候,我们有多么不甘,有多少的委屈,我们挺住了。

我们这帮人是真的在为打磨国产算力底座燃烧自己的青春啊……客居他乡,我们放弃了家庭,放弃了假期,放弃了健康,放弃了娱乐,抛头颅洒热血,其中的艰辛与困苦,寥寥数笔不足以概括其万一。在各种动员大会上,当时口号中喊出的盘古必胜,华为必胜,我们心里是真的深深被感动。

然而,我们的所有辛苦的成果,经常被小模型实验室轻飘飘的拿走了。数据,直接要走。代码,直接要走,还要求我们配合适配到能一键运行。我们当时戏称小模型实验室为点鼠标实验室。我们付出辛苦,他们取得荣耀。果然应了那句话,你在负重前行是因为有人替你岁月静好。在这种情况下,越来越多的战友再也坚持不下去了,选择了离开。看到身边那些优秀的同事一个个离职,我的内心又感叹又难过。在这种作战一样的环境下,我们比起同事来说更像是战友。他们在技术上也有无数值得我学习的地方,堪称良师。看到他们去了诸如字节Seed,Deepseek,月之暗面,腾讯和快手等等很多出色的团队,我打心眼里为他们高兴和祝福,脱离了这个辛苦却肮脏的地方。我至今还对一位离职同事的话记忆犹新,ta说:“来这里是我技术生涯中的耻辱,在这里再呆每一天都是浪费生命”。话虽难听却让我无言以对。我担心我自己技术方面的积累不足,以及没法适应互联网公司高淘汰的环境,让我多次想离职的心始终没有迈出这一步。

盘古除了dense模型,后续也启动了moe的探索。一开始训练的是一个224B的moe模型。而与之平行的,小模型实验室也开启了第二次主要的套壳行动(次要的插曲可能还包括一些别的模型,比如math模型),即这次流传甚广的pangu pro moe 72B。这个模型内部自称是从小模型实验室的7B扩增上来的(就算如此,这也与技术报告不符,何况是套壳qwen 2.5的14b续训)。还记得他们训了没几天,内部的评测就立刻追上了当时的38B V3。AI系统实验室很多兄弟因为需要适配模型,都知道他们的套壳行动,只是迫于各种原因,无法伸张正义。实际上,对于后续训了很久很久的这个模型,Honestagi能够分析出这个量级的相似性我已经很诧异了,因为这个模型为了续训洗参数,所付出的算力甚至早就足够从头训一个同档位的模型了。听同事说他们为了洗掉千问的水印,采取了不少办法,甚至包括故意训了脏数据。这也为学术界研究模型血缘提供了一个前所未有的特殊模范吧。以后新的血缘方法提出可以拿出来溜溜。

24年底和25年初,在Deepseek v3和r1发布之后,由于其惊艳的技术水平,团队受到了巨大的冲击,也受到了更大的质疑。于是为了紧跟潮流,盘古模仿Deepseek的模型尺寸,开启了718B moe的训练。这个时候,小模型实验室再次出手了。他们选择了套壳Deepseekv3续训。他们通过冻住Deepseek加载的参数,进行训练。连任务加载ckpt的目录都是deepseekv3,改都不改,何其嚣张?与之相反,一些有真正技术信仰的同事,在从头训练另一个718B的moe。但其中出现了各种各样的问题。但是很显然,这个模型怎么可能比直接套壳的好呢?如果不是团队leader坚持,早就被叫停了。

华为的流程管理之繁重,严重拖累了大模型的研发节奏,例如版本管理,模型血缘,各种流程化,各种可追溯。讽刺的是,小模型实验室的模型似乎从来不受这些流程的约束,想套壳就套壳,想续训就续训,算力源源不断的伸手拿走。这种强烈到近乎魔幻的对比,说明了当前流程管理的情况:只许州官放火,不许百姓点灯。何其可笑?何其可悲?何其可恶?何其可耻!

HonestAGI的事情出来后,内部让大家不停的研讨分析,如何公关和“回应”。诚然,这个原文的分析也许不够有力,给了王云鹤与小模型实验室他们狡辩和颠倒黑白的机会。为此,这两天我内心感到作呕,时时怀疑自己的人生意义以及苍天无眼。我不奉陪了,我要离职了,同时我也在申请从盘古部分技术报告的作者名单中移除。曾经在这些技术报告上署名是我一生都无法抹除的污点。当时我没想到,他们竟然猖狂到敢开源。我没想到,他们敢如此愚弄世人,大肆宣发。当时,我也许是存了侥幸心理,没有拒绝署名。我相信很多扎实做事的战友,也只是被迫上了贼船,或者不知情。但这件事已经无法挽回,我希望我的余生能够坚持扎实做真正有意义的事,为我当时的软弱和不坚定赎罪。

深夜写到这里,我已经泪流满面,泣不成声。还记得一些出色的同事离职时,我苦笑问他们要不要发个长长的心声惯例帖,揭露一下现状。对方说:不了,浪费时间,而且我也怕揭露出来你们过的更糟。我当时一下黯然神伤,因为曾经共同为了理想奋斗过的战友已经彻底对华为彻底灰心了。当时大家调侃,我们用着当年共产党的小米加步枪,组织却有着堪比当年国民党的作风。

曾几何时,我为我们用着小米加步枪打败洋枪洋炮而自豪。

现在,我累了,我想投降。

其实时至今日,我还是真心希望华为能认真吸取教训,能做好盘古,把盘古做到世界一流,把昇腾变成英伟达的水平。内部的劣币驱逐良币,使得诺亚乃至华为在短时间内急剧流失了大量出色的大模型人才。相信他们也正在如Deepseek等各个团队闪耀着,施展着他们的抱负才华,为中美在AI的激烈竞赛中奉献力量。我时常感叹,华为不是没有人才,而是根本不知道怎么留住人才。如果给这些人合适的环境,合适的资源,更少的枷锁,更少的政治斗争,盘古何愁不成?

最后:我以生命,人格和荣誉发誓,我写的以上所有内容均为真实(至少在我有限的认知范围内)。我没有那么高的技术水平以及机会去做详尽扎实的分析,也不敢直接用内部记录举证,怕因为信息安全抓到。但是我相信我很多曾经的战友,会为我作证。在华为内部的兄弟,包括我们曾经服务过的产品线兄弟们,相信本文的无数细节能和你们的印象对照,印证我的说法。你们可能也曾经被蒙骗,但这些残酷的真相不会被尘封。我们奋战过的痕迹,也不应该被扭曲和埋葬。

写了这么多,某些人肯定想把我找出来,抹杀掉。公司搞不好也想让我噤声乃至追责。如果真的这样,我,乃至我的家人的人身乃至生命安全可能都会受到威胁。为了自我保护,我近期每天会跟大家报平安。

如果我消失了,就当是我为了真理和理想,为了华为乃至中国能够更好地发展算力和AI而牺牲了吧,我愿埋葬于那片曾经奋斗过的地方。

诺亚,再见

2025年7月6日凌晨 写于深圳


各位好,

感谢大家的关心与祝福。我目前暂时安全,但公司应该在进行排查与某些名单收集,后续情况未知。

我补充一些细节,以免某些人继续颠倒黑白。

关于135B V2,小模型实验室在迅速地完成套壳并拿完所有套壳带来的好处后(比如任务令表彰和及时激励),因为不想继续支撑下游应用和模型迭代,又把这个烫手山芋甩给了四纵。确实技高一筹,直接把四纵的兄弟们拉下水。同事提供过去一个老旧的模型,最终拿回了一个当时一个魔改的先进的千问。做大模型的人,自己做的模型就像自己孩子一样熟悉,不要把别人都当傻子。就像自家儿子出门一趟,回来个别人家孩子。

盘古report的署名是不符合学术规范的。例如,135B V3有不少有技术贡献的人,因为作者名额数量限制,劳动成果没有得到应有的回报,团队内曾经有不小的意见。这个模型当时是大家智慧和汗水的结晶,甚至是团队当时的精神支柱,支撑着不少兄弟们继续留在诺亚。所谓的名额限制,以及挂名了一些毫无技术贡献的人(如一些小模型实验室的人),让兄弟们何其心寒。


暂时平安。另外,支持我勇于说出真相的战友们 #317


报个平安。

四纵团队历经千辛万苦,做到在超大昇腾集群从头训练出135B dense和718B moe(不是王云鹤套壳的那个)。这给团队乃至国内业界都提供了一个定心丸,即昇腾上是能做到训练好千亿dense乃至准万亿moe的。昇腾的客户发挥好自身算法和数据等优势,完全有可能在国产算力上研发出一流的模型。

而数据方面,早期确实拉胯,但后面到了V3代数量质量都有了很大改善。王云鹤团队由于几乎不碰数据的收集清洗处理流程(当然,他们会一键下载),对数据的了解恐怕也只停留在PPT层面,并不觉得能从头训练出好的模型。所以,他们选择了一套再套。毕竟,不劳而获是会上瘾的。

打工人天天用的三件套,被飞书用 AI 重做了一遍,还将打通企微和钉钉

By: 莫崇宇
9 July 2025 at 15:43

曾几何时,OpenAI、Anthropic 等巨头还在死磕大模型,转头便卷起 AI 编程等行业,另一边,不少用户开始从各种炫技的 demo 回过神来,重新审视 AI 工具的稳定性、可交付性,甚至是使用方式本身。

硅谷知名增长策略专家和顾问 Elena Verna 最近提出了一个名为 AI 原生员工的概念,指的是那些天生以 AI 工具为工作核心、能够无缝协作并高效驱动产品交付的职场个体。

在她看来,真正的 AI 原生员工不是在用 AI 工具,而是默认以 AI 为工作引擎,跳过传统的流程设计、角色划分、文档撰写和任务交接,直接进入构建与交付阶段。

以 Lovable 为代表的 AI 初创公司,便是这样一个典型的样本。

不到 35 人的团队,靠 AI 原生的工作流,在 7 个月内做到了 8000 万美元 ARR(年度经常性收入),而他们的秘诀正是每名员工都默认「先问 AI,再交付」。

▲ 飞书 CEO 谢欣

对大多数公司来说,复制这种工作节奏并非易事,问题不在于人力或预算,而在于思维方式,除此之外,还得有一整套匹配的新工具、新流程,甚至是一种全新的协作逻辑。

就在今天,飞书召开了最新的 AI 产品发布会,发布并升级了知识问答、AI 会议、飞书妙搭等多款 AI 产品,尤其值得注意的是,飞书还宣布多维表格未来将支持企业微信和钉钉,能够跨平台融入用户现有协作环境。

此外,为了帮助用户判断 AI 工具的可用性,飞书团队还提出了一套「AI 产品成熟度模型」理论,把所有产品的 AI 能力分为四个等级,从使用者的视角出发,帮他们判断一个功能是否靠谱、是否能用。

划重点:

  • 知识问答不需要提前搭知识库,能从企业文档中直接抓出答案、理解权限并结构化输出,现在是 M3 等级。
  • AI 会议支持实时纪要、声纹识别和会后速递,继续走实用派,已经落地到了 M4。
  • 多维表格是更新最重的一块,表格撑到千万行、千人协同都不是重点。重点是现在已经支持企业微信,钉钉也快了。此外,它还能拿来搭系统、跑流程,AI 也完全嵌入到表格每一个字段、节点和操作里。
  • 企业也能 Vibe Coding,从需求分析到应用构建一整套链路,开发套件提供了企业级 AI 开发全家桶,适合各种规模的公司。

知识问答:最懂公司业务的 AI 秘书

在企业内部,知识往往分散在不同系统、文档、聊天记录中,查找效率低、重复沟通成本高。

飞书试图用「知识问答」这个功能,来回应这一长期存在的结构性问题。目标并不复杂:做一个能随时调用、响应权限、贴近业务的企业内搜索工具。

目前,这项能力已经达到 M3 等级,在多数常见场景下能够稳定使用。

当你在工作中遇到问题时,可随时向它提问,飞书知识问答会基于用户在系统中可访问的文档、知识库、聊天记录等信息,生成结构化的回复内容。

具体来说,当你输入「飞书鸿蒙项目进展怎么了」,系统即可快速给出整理后的进度摘要,实时跟踪项目信息。

与多数 AI 工具需要手动构建知识库不同,飞书的知识问答并不依赖预设结构,而是基于企业日常使用中自然沉淀下来的内容进行响应。

以某家央企为例,员工在一年内创建了 940 万篇文档。这也意味着,飞书知识问答可以不依赖通用模型的泛化回答,而是对权限体系进行深度解析之后,尽量保障回答的准确性与上下文一致性。

飞书 AI 会议升级了,甚至能听出你是谁

AI 会议是飞书推出最早、最成熟的 AI 产品功能,目前已达到 M4 级别,支持在不同会议场景中生成内容摘要、回放、要点归纳与行动事项提炼。

它可以处理多种输入形式:无录制的实时纪要、会后音视频导入生成、会议中实时生成逐字稿……所有会议内容都能被系统自动转化为结构化的知识资产。

其中一项值得注意的功能是声纹识别,它可以识别不同发言者的身份角色,更精确地标注和归集内容,提高会议记录的可追踪性。

在此次产品更新中,飞书会议速递功能,还可以自动回顾用户过去一周的会议要点,输出:高频讨论主题、每日会议速览、关键结论梳理以及待办事项追踪等。

那么这到底能带来什么变化?以鹏飞集团为例,这是一家员工超过 2.5 万的大型能源企业,日均需要召开约 400 场「班前会」,内容涉及安全、规范、作业流程等核心事项。

过去依赖人工抽查,效率低。接入飞书 AI 会议后,系统能够自动生成质检报告,使得管理层可在 5 分钟内完成原本需要数小时的抽查流程,且会议覆盖率提升超过 15 倍。

飞书多维表格掀桌了,将支持接入钉钉企微

多维表格是这次发布会讲得最细的一部分。飞书说月活快破千万了,听着夸张,但结合它这次更新的内容,也能理解为什么。

这次主要围绕四个方向:数据库、仪表盘、应用模式和 AI 能力。

先说数据库。飞书推出了全球首个支持「千万行单表」的表格系统,协作上限也拉到了 1000 人。哪怕是上万行、几十列公式的表格,也能在一秒内计算完成,比市面上同类产品快十几倍。背后是它重构了计算引擎和协同算法,说人话就是,大数据也能稳稳跑。

仪表盘这块更接近轻量 BI 系统,新增了数据透视、切片器、图表联动等分析功能,支持 50 多种图表和多套模板,业务人员不用买 BI 软件,也能做出专业报表。

有个例子是大兴机场用它做了一个设备运维仪表盘,能实时追踪 14 万台设备的状态,还能自动生成运维报告和提醒。茶百道也用多维表格对全国超过八千多家门店的数据进行了可视化分析,各门店的设计进展一目了然,让整个筹建的周期也缩短了 40%。

我自己最关注的是它的应用模式。飞书现在的想法是:你不用写代码,也能用表格搭出一套电商后台、CRM 或行政系统。组件自由组合,权限也能精细控制。对预算有限但业务不简单的团队来说,这种「用表格搭系统」的能力很值钱。

AI 能力这次也做了非常大的升级。比如可以像写公式一样,在表格里直接调用 AI 功能,叫 AI 字段捷径。

你可以把它理解成,像写函数公式一样,在表格单元格里调用各种 AI 能力,帮助你做文案生成、内容提取、情感分析、图像识别等等。它的好处在于,每一行表都可以自动调用一套逻辑去处理数据,你不用再手动拷贝、切换工具。

第二项是 AI 接入工作流,让它自动判断、提取、录入信息。飞书还强调了他们不只是「接了大模型」,而是让 AI 能稳定理解流程、提取参数、按需执行。

飞书这次还专门创建了 228 个真实复杂的工作流评测集,在功能正式推出后,这些评测集也会公开给其他同类工具挑战。

AI Agent 也不能少,它能根据问题自主查表、调用多维表格,流程不止是跑预设动作,也能帮助你「想一步」。还有一个 AI 侧边栏,能边用表边提问分析。虽然部分功能还在预览,但负责人说在今年都会陆续上线。

有几个案例我印象挺深的,像是泡泡玛特,他们用多维表格做了一个爆款文案系统,自动抓平台内容、分析转化效果,再生成门店能直接用的内容素材,线上引流到线下,全都靠它跑。

另外,飞书也宣布多维表格未来将支持企业微信和钉钉。这不只是一个表格工具,而是在朝一个轻量业务系统平台去走了。

除了飞书知识问答、AI 会议、以及在多维表格全面升级 AI 表格,飞书正在试图搭一整套 AI 工作方式,畅想未来的 AI 软件形态,重新定义「人和 AI 在一起工作」这件事。

它整了一个专为企业打造的 AI 开发全家桶「 AI 开发套件」。在这个开发套件里,不仅有包含了多款适配于不同场景的 AI 开发工具「飞书妙搭」,让 Vibe Coding 直接面向企业。

飞书的 aPaaS 也完成了多项 AI 迭代更新。从需求分析、功能设计、数据管控、应用开发,再到问题修复;每个模块都有专业的 Agent 在背后支持,在提升交付质量的同时,有望带来更好的开发体验。

每天都有新模型发布,AI 产品越来越多,真正能融入企业流程、替人干实事的产品,始终屈指可数。当模型不再稀奇,工具也琳琅满目,真正稀缺的,是那些能撑得住业务、扛得起流程重量的产品。

纵观整场发布会,飞书给出了一个更脚踏实地的答案,也让飞书成为少数明确界定产品成熟度边界的公司之一。

过去三年,我们见过太多炸裂的演示 demo 猛刷存在感,而 M3 和 M4 的划分,是飞书内部对可交付性的要求。一个功能如果只是偶尔有效、不具备稳定性,就不会推向企业客户。

截至目前,飞书已发布的知识问答、会议纪要、多维表格等功能,均基于这一标准。能否降本增效,能否顺利嵌入现有系统架构,是评估标准的全部。

用飞书 CEO 谢欣的话来说:

「我们今天发布的每一个飞书 AI 功能,我们都会标清楚是什么等级。我们让大家的选择更加透明,我们认为这是 AI 从业者其实很必要的一个企业责任。」

想象力撑起了 AI 的上半场,真正决定下半场的,是落地的能力。今天飞书没打算用一小时的发布会回答所有问题,但在 AI 工具能不能用、又该怎么用这个现实命题上,它确实已经比大多数公司说得更明白。

作者:张子豪、莫崇宇

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Cryptexes, AI and Creedence Clearwater Revival

By: hoakley
9 July 2025 at 14:30

Somewhen around late versions of macOS Monterey, and certainly by the release of Ventura, macOS started to use cryptexes to load Safari and parts of the operating system including dyld caches, rather than installing them to the Data volume. Over a period of three months, cryptexes were also used to install Rapid Security Responses (RSRs) in an experiment that was quickly discontinued. What I hadn’t realised until recently was that they are also used to deliver much of the additional components required to support Apple Intelligence features in Apple silicon Macs. This article looks as how that works.

Cryptexes

These first appeared on Apple’s customised iPhone, its Security Research Device, which uses them to load a personalised trust cache and a disk image containing corresponding content. Without the cryptex, engineering those iPhones would have been extremely difficult. According to its entry in the File Formats Manual from five years ago (man cryptex), ‘A cryptex is a cryptographically-sealed archive which encapsulates a well-defined filesystem hierarchy. The host operating system recognizes the hierarchy of the cryptex and extends itself with the content of that hierarchy. The name cryptex is a portmanteau for “CRYPTographically-sealed EXtension”.’

In practice, a cryptex is a sealed disk image containing its own file system, mounted at a randomly chosen location within the root file system during the boot process. Prior to mounting the cryptex, macOS verifies it matches its seal, thus hasn’t been tampered with. Managing these cryptexes is the task of the cryptexd service with cryptexctl. Because cryptexes aren’t mounted in the usual way, they’re not visible in mount lists such as that produced by mount(8).

System cryptexes

Once kernel boot is well under way, APFS mounts containers and volumes in the current boot volume group, followed by others to be mounted at startup. When those are complete, it turns to mounting and grafting the three standard system cryptexes:

  • os.dmg, around 6 GB (macOS 15.5), containing system components such as dyld caches;
  • app.dmg, around 23 MB, containing Safari and supporting components;
  • os.clone.dmg, apparently a copy of os.dmg and the same size.

AI cryptex collection

About 5 seconds later, and over 14 seconds after APFS first started work, it checks and grafts a series of 23 cryptexes primarily involved with Apple Intelligence features. These are handled one at a time in succession, each reported in a sequence of log entries as follows (times in seconds after an arbitrary start).

First the Image4 file containing the cryptex is validated
9.434431 root_hash_execution_cb_mobile_asset:3066: image4_trust_evaluate: successfully validated the payload and the manifest

Then it’s grafted into the file system of the Data volume as a ‘PFK volume’. In this extract I omit the bulk of the cryptex’s name using […] for the sake of brevity.
9.434465 apfs_graft:695: disk3s5 Grafting on a PFK volume
9.434509 graft_dev_init:480: disk3 UC_[…]_Cryptex.dmg GRAFT (compiled @ Apr 22 2025 19:49:43)
9.434514 graft_dev_init:484: disk3 UC_[…]_Cryptex.dmg device_handle block size 4096 real block size 4096 block count 11264 features 0 internal VEK
9.434695 nx_mount:1308: UC_[…]_Cryptex.dmg initializing cache w/hash_size 512 and cache size 512
9.437484 nx_mount:1630: UC_[…]_Cryptex.dmg checkpoint search: largest xid 15, best xid 15 @ 7
9.437497 nx_mount:1657: UC_[…]_Cryptex.dmg stable checkpoint indices: desc 6 data 31
9.438117 er_state_obj_get_for_recovery:8420: UC_FM_LANGUAGE_INSTRUCT_3B_CONC No ER state object for volume RevivalB13M201388.UC_[…]_Cryptex - rolling is not happening, nothing to recover.
9.438124 apfs_log_op_with_proc:3263: UC_FM_LANGUAGE_INSTRUCT_3B_CONC grafting volume RevivalB13M201388.UC_[…]_Cryptex, requested by: mobileassetd (pid 457); parent: launchd (pid 1)

Note the volume name starts with Revival. Names of all other cryptex volumes in the AI collection start with the same code name, except for the PKI cryptex examined below, which uses Creedence instead. Perhaps these are a reference to Creedence Clearwater Revival?

The root hash of the cryptex file system is then authenticated
9.438156 graft_dev_blockmap_lut_switch_to_metadata_based_if_needed:1312: UC_FM_LANGUAGE_INSTRUCT_3B_CONC lut contains 26 extents, 3 of which contain metadata
9.438160 is_root_hash_authentication_required_osx:387: UC_FM_LANGUAGE_INSTRUCT_3B_CONC Release kext with internal build: 0, ARV disabled: 0, booting xid: 0
9.438164 is_root_hash_authentication_required_osx:418: UC_FM_LANGUAGE_INSTRUCT_3B_CONC strict graft, root hash authentication failure is required
9.438167 is_root_hash_authentication_required:557: UC_FM_LANGUAGE_INSTRUCT_3B_CONC Strict Graft, root hash authentication is required
9.438179 authenticate_root_hash:642: UC_FM_LANGUAGE_INSTRUCT_3B_CONC successfully validated on-disk root hash
9.438191 apfs_lookup_ge_jobj_id:5028: disk3s5 Found OBJID 0x66a1b8 type 3

The graft is then completed.
9.438195 apfs_graft:1045: disk3s5 Graft ino 6557986, jobj_id range 6725836+76
9.438396 apfs_graft:1138: disk3s5 successfully grafted ino 6557986 on dir 6725835, dev_name [UC_[…]_Cryptex.dmg]

Fortunately, these log entries provide the inode number for the location of the grafted cryptex, and that can be used in Mints to obtain its full path.

Among the AI cryptex collection is a secure public key infrastructure (PKI) trust store, located at
/System/Library/AssetsV2/com_apple_MobileAsset_PKITrustStore/purpose_auto/[…].asset/AssetData/Restore/SECUREPKITRUSTSTOREASSETS_SECUREPKITRUSTSTORE_Cryptex.dmg
In the log, this is recorded as being 4.2 MB in size, and that is the same size as reported for the .dmg file by the Finder. Disk images are in APFS (Case-sensitive) format, and might be identical to their equivalents provided for iOS and iPadOS.

When mounted, that disk image becomes a volume named Creedence11M6270.SECUREPKITRUSTSTOREASSETS_SECUREPKITRUSTSTORE_Cryptex. That contains many property lists, certificate data, a SystemRootCertificates keychain, and two property lists that are grafted into /System/Library/CoreServices.

The names of all 23 cryptex disk images included in the macOS 15.5 AI cryptex collection are given in the Appendix. All are given as being compiled at Apr 22 2025 19:49:43, the same as the system cryptexes, implying that they were installed as part of the macOS 15.5 update. The whole sequence of processing the AI cryptexes took 0.78 seconds to complete, and the total size of disk images mounted in that period was 7.2 GB, which is similar to the reported size of additional files required to support AI.

Conclusions

  • Apple silicon Macs running macOS 15.5 with AI enabled load 23 additional cryptexes to support AI, totalling 7.2 GB.
  • Those AI cryptexes are grafted into the Data volume, in paths starting /System/Library/AssetsV2.
  • All except one have volume names starting with Revival
  • One cryptex is a secure PKI trust store, whose volume name starts with Creedence instead.
  • These cryptexes are installed and updated as part of macOS updates, although they could also be installed or updated separately, for example when AI is enabled.
  • If a Mac shows an unusual mounted volume with a name starting with Creedence or Revival, that’s almost certainly the respective disk image, which should normally be hidden and not visible in the Finder.

Appendix

Disk image names for the AI cryptex collection in macOS 15.5 (Apple silicon):

  • UC_FM_LANGUAGE_INSTRUCT_3B_CONCISE_TONE_DRAFT_GENERIC_GENERIC_H16S_Cryptex.dmg,
  • UC_FM_LANGUAGE_INSTRUCT_3B_TEXT_EVENT_EXTRACTION_DRAFT_GENERIC_GENERIC_H16S_Cryptex.dmg,
  • UC_FM_LANGUAGE_INSTRUCT_3B_PROOFREADING_REVIEW_DRAFT_GENERIC_GENERIC_H16S_Cryptex.dmg,
  • UC_FM_VISUAL_IMAGE_DIFFUSION_V1_BASE_GENERIC_H16S_Cryptex.dmg,
  • UC_FM_LANGUAGE_INSTRUCT_3B_BASE_GENERIC_GENERIC_H16S_Cryptex.dmg,
  • UC_IF_PLANNER_NLROUTER_BASE_EN_GENERIC_H16S_Cryptex.dmg,
  • UC_FM_LANGUAGE_INSTRUCT_3B_MAIL_REPLY_DRAFT_GENERIC_GENERIC_H16S_Cryptex.dmg,
  • UC_FM_LANGUAGE_INSTRUCT_3B_DRAFTS_GENERIC_GENERIC_H16S_Cryptex.dmg,
  • UC_FM_LANGUAGE_INSTRUCT_3B_SUMMARIZATION_DRAFT_GENERIC_GENERIC_H16S_Cryptex.dmg,
  • UC_FM_LANGUAGE_INSTRUCT_3B_AUTONAMING_MESSAGES_DRAFT_GENERIC_GENERIC_H16S_Cryptex.dmg,
  • UC_FM_LANGUAGE_INSTRUCT_3B_URGENCY_CLASSIFICATION_DRAFT_GENERIC_GENERIC_H16S_Cryptex.dmg,
  • UC_FM_LANGUAGE_INSTRUCT_3B_MESSAGES_REPLY_DRAFT_GENERIC_GENERIC_H16S_Cryptex.dmg,
  • UC_FM_LANGUAGE_INSTRUCT_3B_PROFESSIONAL_TONE_DRAFT_GENERIC_GENERIC_H16S_Cryptex.dmg,
  • UC_FM_LANGUAGE_SAFETY_GUARDRAIL_BASE_GENERIC_GENERIC_H16S_Cryptex.dmg,
  • UC_FM_LANGUAGE_INSTRUCT_3B_TEXT_EVENT_EXTRACTION_MULTILINGUAL_DRAFT_GENERIC_GENERIC_H16S_Cryptex.dmg,
  • UC_FM_CODE_GENERATE_SMALL_V1_BASE_GENERIC_H16_Cryptex.dmg,
  • UC_FM_LANGUAGE_INSTRUCT_3B_MAGIC_REWRITE_DRAFT_GENERIC_GENERIC_H16S_Cryptex.dmg,
  • UC_FM_LANGUAGE_INSTRUCT_300M_BASE_GENERIC_GENERIC_H16S_Cryptex.dmg,
  • UC_FM_LANGUAGE_INSTRUCT_3B_TEXT_PERSON_EXTRACTION_DRAFT_GENERIC_GENERIC_H16S_Cryptex.dmg,
  • UC_FM_CODE_GENERATE_SAFETY_GUARDRAIL_BASE_GENERIC_H16S_Cryptex.dmg,
  • UC_FM_LANGUAGE_INSTRUCT_3B_TEXT_PERSON_EXTRACTION_MULTILINGUAL_DRAFT_GENERIC_GENERIC_H16S_Cryptex.dmg,
  • UC_FM_LANGUAGE_INSTRUCT_3B_FRIENDLY_TONE_DRAFT_GENERIC_GENERIC_H16S_Cryptex.dmg,
  • SECUREPKITRUSTSTOREASSETS_SECUREPKITRUSTSTORE_Cryptex.dmg.

Given in the order that they are grafted.

液态玻璃意味着透明 iPhone 将争夺 AI+AR 的主动权|设以观复 vol.17

By: Steven
7 July 2025 at 20:00

很多人把这次苹果 WWDC25 发布的液态玻璃界面,当作一次 UI 的新风格更新来看。界面变得更模糊了,更柔和了,也更「高科技感」了,但如果我们只是停留在它看起来好不好看,其实可能错过了一些更关键的东西。

因为这一次,苹果的改变并不仅仅发生在界面上,它背后所传递的,是一套新的交互前提。而这套前提,可能关系到未来十年我们如何使用手机,甚至 —— 我们是否还继续使用手机。

这期视频不是为了追热点,而是想带你冷静地拆解这套语言背后的逻辑:它是如何从视觉层出发,向平台层推进的?它和我们以为的「透明手机」之间,真的有联系吗?而眼镜设备仍未普及的这几年,我们到底应该关注什么?

如果这些问题你也在想,那就点进来看看吧。

🎥 播放地址:

https://youtu.be/WpljvdXmwvY

https://www.bilibili.com/video/BV1yz3Bz8Ev2/

本期关联播客:https://suithink.me/2025/07/07/13ylog/

既然这 10 年间的所有线索(等边三摄、Face ID、Lidar、Liquid Glass)都指向空间计算,那显然 iPhone 就是每一个人都可以接触到的第一台空间计算设备。最便捷最普及的空间计算设备,才是让 AI(不止LLM)真正普及到每一个人手上的基础设施。

不是在国内,上个网就容易的

By: Anonymous
1 July 2025 at 18:13

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

最近几天我上网的挫败感很强。

先是想分享我用 AI 绘制的两张高清大图,上传网盘设置好了一切之后,纷纷报告说「资源失效」,无法下载。而我自己访问没有问题,切换电脑,切换浏览器,一切都正常,但其他人就是不行。

然后是之前用这些图成功打印做成画框的读者分享网店,她先是写出网店的名字,其他读者说搜索不到。她放出订单截图,的确就是那个名字,大家依然搜索不到。我也去试过,指定搜索店铺,不行,减少几个字,不行,引号强制搜索,还是不行。

以前不是这样的。要分享什么资料,那就上传网盘,甩出一个链接,事情结束。要找什么网店,才输入头里几个字,后面的全称就自动联想出来,点一下就可以跳过去。怎么现在会变成了这幅模样?

我去搜索:网盘为什么会显示资源失效?网上给出的答案五花八门,可能是因为我没有开会员,可能是因为平台对图片内容敏感(无论穿没穿衣服),可能是因为短时间内访问流量太大……

这件事情的玄妙之处在于并没有官方解释,没有系统反馈,反正就是资源失效,具体的理由么,只能靠自己去意会。

我去搜索:为什么网店搜索不到?这一次答案更多:因为店铺新开,因为店铺成交不足,因为店铺违规限权,因为店铺没买关键词,因为店铺品名类目设置不当……

同样的,平台也没有任何解释,给了我一堆类似服务的店铺,感觉是有人在服务器那一头无所谓地笑着说:又不是只有这一家?

网盘限制这件事最后我貌似是解决了,那就是把图打包压缩成 Zip 文件,然后 Zip 文件再加密,起了个名字叫做「工程图纸」。反正这一次发布之后再没有读者嚷嚷无法访问,我猜测平台没有那么多资源来破解我的 Zip 文件密码,就只好听之任之。

网店搜索不到这件事现在对于我都还是一个谜,我是不大理解,为什么我输入了指定的关键词,却不能返回给我正确的结果。

然后也让我很震惊,因为之前我认为在电商平台上,我可以在无限家店里自由做选择,现在看来店铺既不是无限的,我也不是自由的。

联想到之前我的一些经历,我甚至都怀疑平台其实根据每个客人的消费数据,为每个人度身定做了一个网店圈,让人只能在这个范围内选择店铺,因为在这个范围内成交率最高。

想超出这个范围?除非是你朋友私下分享给你店铺网址,否则你搜都搜不到。

如果真是这样,这种圈养感未免也太强烈了一些。我希望事情并非如此,否则实在是太可怕了。

接连遇见这些让人感觉挫败的事情,直接影响到了我的心情和行为。上网那么多年来,现在是我分享欲最低的时候,因为我没有预料到如今在网上想分享几张图都那么麻烦,还要专门去做研究找方法。

与此同时,我在那个网购平台上的购买几乎立即就停滞了,因为我产生了深深的疑惑:如果我要搜索的店铺都搜索不到,那么我能搜索到的是什么?那些结果对于我是真有用还是对平台真有用?

所有这些经历和想法,在我这里归结为一个词,叫做:个人的网络处境。

我认为今天的个人网络处境并不乐观,受到的限制和盘剥太过严重。

比如说最近我就打算买硬盘和光驱,用硬盘和 CD 来储存我喜欢的音乐。原因是我虽然身为网易云音乐和 Tidal 的付费会员,结果当我想把音乐下载到本地方便离线收听的时候,我发现这些音乐文件全都是加密的特定格式。我下载了网易云音乐的音乐,那么就必须用网易云音乐播放器才能看见和播放。Tidal 也是同样,系统都看不见这些储存下来的音乐文件,更不用说用其他音乐播放器去播放了。

而且,这些音乐的访问权限和会员身份绑定。会员过期了,照样不能读取访问。得知这一点,我突然意识到我花钱买会员,购买到的只是个使用音乐文件的租赁权,而不是可以买一个音乐文件的数字拷贝。这样一来,如果我想听音乐,意味着我就要永远续费,因为我不曾真正拥有什么数字资产,我只是在租赁而已。

那我为什么不去自己购买高清数字音乐,自己购买 CD,自己在硬盘上做个私人音乐库呢?那起码是买了拷贝,算是我个人的数字资产,想怎么听怎么听,想转到什么设备就转到什么设备去。

总体上来说,我认为今天在网络上的每一个人在逐渐失去互联网早期自由民的身份,变成了平台的长期佃农或者是长工。平台更多是售卖服务而不是产品,即便是产品也有很多限制,用户不能获得完整的权限。于是,所有人能做的事情就是不断买服务,不断买完整功能。

一切又好像回到了 30 年前:每个人都需要一台自己的本地服务器,东西放在自己兜里才是最放心的。

流量劫匪:AI 正在切断互联网的生命线

By: 杜晨
7 July 2025 at 16:55

写在前面:这不是一篇新闻,而是一些基于事件和数据所引发的想法,欢迎讨论。

5 月初,Google 在开发者大会 I/O上讲了很多东西,我们只说三个:AI Overviews、AI Mode,以及 Gemini。

你会发现,这三个产品/功能是并存的。并且,它们分别代表了 Google 作为 web 时代的搜索巨头,在 AI 时代转型的过程中,尝试的三种不同路线:

  • AI Overviews:传统 web 产品,向后兼容
  • AI Mode:web 搜索向 AI 过渡的中间态
  • Gemini:纯粹的 AI 产品

大公司还是大公司,一个 AI 搜索做了三种不同形态,且并驾齐驱。大厂「养蛊」还得看 Google。熟悉 Google 的朋友应该能够预想到,未来几年内会发生的事情:Gemini 将取代前两者,甚至取代 Google 搜索。

就算不取代,以 Gemini/ChatGPT/DeepSeek 为代表的生成式 AI 产品,也已经在杀死传统搜索了。

全球共有约 56 亿网民,Google 搜索市占率 90%+,约合用户量 50 亿左右;而 Google 自己透露目前全球有 15 亿人使用 AI Overviews——倒不一定这 15 亿人从此都不会访问搜索结果链接了,但至少他们当中会有相当大的比例不再点击链接。

人们直接使用 AI 产品的整理归纳能力来完成任务,需求完全在 AI 产品内部解决,不需要再访问第三方网站。

Cloudflare 公司 CEO 马修·普林斯最近接受美国政府质询时指出:在今天,75% 的搜索查询无需离开 Google 即可得到回答。

我们正在目睹 AI 爆发的副作用:AI 瓦解了传统互联网的核心商业模式,扼杀互联网通过搜索引擎获得的流量。

Google 它不断推进 Gemini、AI Mode 和 AI Overviews,一边将生成式 AI 产品提升至顶级入口,一边用(非主观的)流量补贴/惩罚策略来绑架内容平台:在 I/O 之后接受采访时,CEO 桑达尔·皮柴透露,如果内容平台同意让 AI Overviews 的爬虫抓取,将会得到更高的流量。

彭博社做了一些采访,发现很多网站的流量因为 AI 受到严重冲击,不得不调整内容发行策略,更有甚者只能关门大吉。

分析机构 SimilarWeb 数据显示,AI 产品严重降低了基于网页分发内容的平台所获得的流量,首当其冲的有时尚、旅游、手工、家居、美食、生活方式等领域。

一些内容平台已经感受到流量的大幅下滑,做出了不同的应对。

  • 实力雄厚的新闻机构已经提前布局,包括新闻集团、美联社、施普林格等在内的新闻巨头,已经和 OpenAI 达成授权合作;
  • 一些新闻机构则发起抵制,纽约时报集团起诉了 OpenAI 以及背后的微软,指责其非法使用时报内容开发产品并与自己竞争。

这些合作与诉讼的具体细节尚不为外人所道,但新闻巨头的动机很直截了当:内容提供商的流量正在越来越多被 AI 蚕食。没有流量就没有广告/会员收入,内容提供商也无力抵抗,所以 AI 产品公司必须给内容源头分成。

市场营销公司 Seer Interactive 做了一些关于 AI 汇总功能对网站点击率冲击的研究,发现 AI Overviews 对搜索结果页点击率的降低效果达到 70%,对网站主投放的付费广告的点击率则直接砍半。

硅谷知名投资机构 a16z 也做了一组报告,援引 SimilarWeb 数据,发现 LLM 产品对 YouTube、Quora、Reddit、媒体、电商、金融等网站的流量引导比例普遍低于 5%。

显然,AI 产品/AI 总结功能对传统互联网核心商业模式的打击是巨大的。

图像

究其根本:

  • 内容平台提供内容,搜索引擎获得数据;
  • 搜索引擎提供流量,内容平台获得收入;
  • 内容平台投放广告,搜索引擎获得收入

——这一互联网时代价值交换的体系,已经被 AI 彻底打破。

情况只会更加严重:市调机构 Gartner 认为,到 2026 年搜索引擎的流量将会暴跌 25%。

SimilarWeb 数据显示 2025 年 3-4 月各大主流网站和搜索引擎流量暴跌,只有ChatGPT.com 逆势增长。

SimilarWeb 数据显示 2025 年 3-4 月各大主流网站和搜索引擎流量暴跌,只有ChatGPT.com 逆势增长。

最近很火的 AI 浏览器项目 Dia,其创始人 Josh Miller 前不久专门写过一篇文章,讲公司为什么从传统浏览器转型 AI 浏览器,顺便也讲述了他对互联网的几个观察。

其中之一:生成式 AI 将取代网页,成为新的交互界面。

传统浏览器的任务是加载网页。但现在,网页(包括 app、文章、文件等各种形式)正在越来越多变成 AI 聊天界面的「工具调用」(tool calls)。 AI 聊天产品已经很像浏览器了:它们能搜索、阅读、生成、做出反应。它们和 API、LLM、数据库交互。人们每天使用这些 AI 产品好几个小时。如果你还看不到这一点,给还在上学的亲戚打个电话就知道了。自然语言界面抽离了旧有的计算模式的乏味,将会成为新的标准。

Miller 的观察早已灵验:国内外有很多传统互联网企业,包括本地生活、导航、在线旅游、效率办公等领域,都已经主动拥抱变化,开发了 MCP 能力,让用户在使用 agent 的时候仍然可以调用它们的服务。企业可以在 AI 产品调用其 MCP/API 时收费,从而维持收入。

但内容是完全不同的商业模式。互联网上绝大多数的内容都是公开免费的,但很多人往往忽视了一点:这些内容之所以免费,是因为得到了广告或付费墙收入的补贴,这些收入只有直接链接访问才能够产生。

而 AI 产品抓取这些内容并生成用户需要的答案,整个过程就此为止。在今天,这些 AI 巨头和创业公司们往往一门心思发展自己,却没有为内容的来源网站主或创作者提供分成的计划——即便少数 AI 产品在交付物里提供了资料链接,大部分用户也不会点击访问。

在可预见的未来,互联网内容的生成将进入一种「不可持续」的状态。现在大批 AI 公司已经在用大模型生成的内容进行再次训练了。长此以往,互联网公域将充斥着大量由 AI 生成的低质量、虚假、与现实不符甚至毫无关联的内容。

我在之前的一篇评论文章里就提到过这种情况将会出现。APPSO 之前关于 AI 生成音乐的报道,也从另一个侧面展示了 AI 生成内容充斥网络后的吊诡情境。

种种迹象似乎预示,AI 产品工具的大流行如果不加控制,如果 AI 新时代的利益分配机制不尽快出现——传统互联网将会被杀死,届时没有人会成为赢家,即便是 AI 公司。

所以,AI 公司构建新利益分配机制的进展怎么样?

目前来看,这方面的工作还很「初级」。前文提到的 OpenAI 和内容提供商签订协议(具体金额和计费机制细节未知),除此之外并没有太多新进展。

a16z 上个月发表了一篇文章,试图描绘一个新的图景:从 SEO(搜索引擎优化)转移到 GEO(生成引擎优化)。

顺应这个趋势出现了一些新的创业公司,例如 Profound、Daydream 等。它们帮助客户和网站主分析特定关键词(例如品牌)在 AI 生成回复当中的表现——简而言之,就是「策略性」地帮助客户提高在 AI 生成总结答案中的曝光度。

但截至目前,业界在这方面的尝试仍然尚浅。核心痛点仍然存在:即便内容创作者面向 LLM 的逻辑优化自己的内容,在 AI 产品里获得了曝光,点击率仍然是个大问题。没有流量,所谓的「生成引擎优化」恐怕只是个美好的梦。

最后,这跟普通人有关系吗?乍一看似乎没有,毕竟大部分人都认为世界的变化从来不为普通人的意志驱动。

但实际上,这个情况和每个人都有千丝万缕的关联。

传统互联网从来不是完美的,但它仍然是迄今为止一切人类创造的精华宝库。互联网的黄金年代造就了如今最优秀的商业公司,推动着技术的进步;它也凝聚了无数人无偿/低偿向世界分享的知识:以博客、维基百科、YouTube、贴吧们为介质。每一个人都从这些公司的产品,以及这些互联网平台承载的信息中获益。

一切都是生意,互联网信息其实是一个市场。如果内容创作者无法获得价值,他们就不会创作原创内容。经济激励的缺位,势必导致在线内容平台的萎靡,导致互联网信息市场里公开免费有价值的内容出现短缺。这将会限制人们获取真实信息、新闻、观点的能力,威胁每一个人的知情权。

如果 AI 巨头杀死了传统互联网,成为了新的技术霸权,决定人们能否获得、获得怎样的信息,进而构建新的认知霸权——我们准备好迎接那样的世界,承担相应的后果了吗?

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


液态玻璃意味着透明 iPhone 将争夺 AI+AR 的主动权_13.ylog

By: Steven
7 July 2025 at 07:50

🎙 苹果真的只是在给 UI 换皮吗?

WWDC25 上发布的「液态玻璃」,看起来只是一次 UI 升级,但你有没有想过:

👀 为什么苹果要在这个时间点,推出这样一套动态、半透明的视觉语言?
📱 为什么它要在 iPhone 上实现这种「液态玻璃」的设计?
🤔 难道它背后还有更大的目标 —— 比如,透明手机?或者,是为某种尚未到来的设备铺路?

这一期播客,我们不聊参数、不聊功能,而是试着从设计语言出发,拨开这层玻璃迷雾,看看苹果到底在把我们往哪带。

这不是一场关于好不好看的争论,而是一场你可能没注意到的、正在发生的平台迁移。

也许,你正在用的那块手机屏幕,已经悄悄变成了未来世界的第一道入口。

欢迎收听本期节目。

本期播客关联视频:https://www.bilibili.com/video/BV1yz3Bz8Ev2/

既然这 10 年间的所有线索(等边三摄、Face ID、Lidar、Liquid Glass)都指向空间计算,那显然 iPhone 就是每一个人都可以接触到的第一台空间计算设备。最便捷最普及的空间计算设备,才是让 AI(不止LLM)真正普及到每一个人手上的基础设施。

|相关链接|

若你所使用的播客客户端未能完整显示插图,或遇网络问题未能正常播放,请访问:

荒野楼阁 WildloG 的地址:https://suithink.me/zlink/podcast/

阅读设计相关的各类文章:https://suithink.me/zlink/idea/

|其他社交网络媒体|

苏志斌 @ 知乎|SUiTHiNK @ 即刻 / 微博

苏志斌SUiTHiNK @ Bilibili / YouTube / 小红书

|联络邮箱|

suithink.su@gmail.com

欢迎在 小宇宙、Spotify、YouTube、Apple Podcast 收听本节目,期待你的留言。

💾

Last Week on My Mac: PageRank and plagiarism

By: hoakley
6 July 2025 at 15:00

Yesterday’s brief history of Internet search carries a lot in between its lines, some of it increasingly sinister. From the assumption that search results should be ranked by popularity rather than quality of content, to Google’s latest AI overviews, so much runs counter to all we had come to learn in previous millennia.

Many of our greatest insights and ideas have been far from popular at the time, and some have been so reviled that their authors have been ostracised as a result. Indeed, the origin of the term ostracisation refers to a practice that the ancient Greeks recognised led to popular but flawed outcomes, when the great were rejected by ill-informed opinion of the mob.

By a quirk of fate, the screenshot of Google Scholar in use showed search results from 2011 for the terms autism vaccine, a topic that has recently returned to the headlines. Claims made by some of today’s politicians have been propagated using the same principles as PageRank until millions of people have been fooled into believing what were demonstrably fraudulent results. The mob are about to throw away decades of public health improvements for the sake of palpable lies.

We now have new tools to amplify such nonsense, in ‘AI’ built on large language models, and they’re starting to supplant search. In doing so, they’re going to destroy the raw material they feed on to generate their summaries.

Before about 2000, the great majority of information was printed on paper. There must have been a dozen or more specialist Mac magazines, and a steady stream of popular books about Mac OS and how to get the best from it. Even Apple was a prolific originator of thoroughly well written reference guides in its Inside Macintosh series, published by Addison Wesley. In the following couple of decades, most of those vanished, replaced by websites financed by advertising income, hence the industry dominated worldwide by Google.

Blogs originated in the mid-1990s and by about 2010 had reached a peak in their numbers and influence. Since then many have ceased posting new articles, or simply vanished. The generation that took to the web around 25 years ago are now trying to retire, sick of spam comments and the vitriolic spite of those that abuse them. Unsurprisingly the next generation are less enthusiastic about taking to their blogs, leaving some to make money from ephemeral video performances.

If there’s one thing that Google could have done to further the decline of the remaining online publications and blogs it’s to plunder their contents, massage their words with the aid of an LLM, and present those as overviews. When you’ve researched an article over several days and spent many hours writing and illustrating it, it’s more than galling to see an AI present its paraphrase as its own work.

These AI overviews range from the accurate, through repetitious waffle, to those riddled with errors and contradictions. Had they been written by a human, I’d describe them as a shameless and inaccurate plagiarist who has little or no understanding of what they’re plagiarising.

You can see examples of this by making quick comparisons between Google’s AI overview and the articles that it links to. For instance:

  • Ask Google “what is the boot volume structure in ios?” and compare that overview with this article. For added entertainment, try the same with iPadOS, and spot the differences.
  • Ask “what does runningboard do in macos?” and notice how sources given date from 2019 and 2021, when RunningBoard had only just been discovered. Refer to a more recent account such as that here, to see how out of date that overview is, and how much it has changed in Sequoia.

There’s also an element of unpredictability in those overviews. Repeat one after a couple of minutes, and the results can be quite different.

Although Cloudflare has developed a method that enables commercial publishers to control Google’s ability to scrape their content and plagiarise it, for the great majority of us, there seems little we can do but watch page views continue to fall to levels below those before the Covid pandemic. If you’ve got something better to do with your time than write for your blog, this is when you get seriously tempted.

But Google is digging a deep hole for its future. As the supply of new content to feed its LLM falls, most new articles will be generated by AI. All it will have to plagiarise then will itself be plagiarism, and it will amplify its own errors. By not referring searches to content, Google will also have killed the geese that lay its golden eggs, and lost much of its advertising revenues.

We’ll then be back full circle to curated web directories of the remaining reliable sites.

❌
❌