Normal view

There are new articles available, click to refresh the page.
Today — 1 September 2025Main stream

Open AI codex + gpt5 感觉没什么热度,是宣发不行还是单纯不好用?

By: CodeY99
1 September 2025 at 08:13
CodeY99:
  • Codex chatGPT Plus 订阅可以用了,这几天还发了 vscode 的插件,
  • 从官方信息来看,提供的 Token 预算要比 Claude Codex 多
  • ChatGPT 风控也没有 Claude Code 那么严格。
  • 有几个朋友也反馈 gpt5 medim 某些场景比 sonnet 表现好。

但是实际感觉社区中,B 站中似乎都没什么人讨论 codex 。虽然有一些事因为做 Claude Code 的中转商有利益推动 Claude Code 。但是感觉不会影响整个社区吧。

Yesterday — 31 August 2025Main stream

How Builder.ai Collapsed Amid Silicon Valley’s Biggest Boom

31 August 2025 at 17:00
Builder.ai went from a value of $1.5 billion to zero in a few months, amid questions over the sales of an A.I. product. Its downfall hints at a broader downturn.

© Ramsey Cardy/Sportsfile for Web Summit Qatar via Getty Images

Builder.ai attended the Web Summit Qatar in 2024. The company is now being liquidated.

被时间拉长的人

By: Steven
31 August 2025 at 18:05

丢了一批人物标签给 AI 写人物小传,让它模仿某位小说家的笔法,来给演员交代角色。

你觉得这像谁的手笔?

————

南方的空气里常常有潮湿的味道,像是雨下过以后残留的影子,久久不散。城市白天拥挤喧嚣,夜晚却显得空旷,好像光亮突然被抽走,留下无数未完的句子。在这样的环境里,一个男人行走。他的脚步从不急躁,像对时间有着自己的节奏感,和别人不太一样。

年少的时候,他把自己交给了工业设计。形状、光影、比例,这些东西比人群更让他安心。六年在公司,十年在创业,那些日子像一张张被翻阅过的旧画册,色彩褪去了,但线条还在。产品的生与死,像车站里人群的来去。大多数人只看见成功或失败,他却更在意其中被忽略的细节。

别人眼中的他冷静得过分,总是习惯提前几步想好方向,就像棋局上的布局。但在那层冷静的外壳下,常常闪现一些不合逻辑的柔软时刻。比如一段旋律,随便一盏灯的影子,甚至一个不经意的眼神,足以让他停下手里的笔。理性和浪漫在心里不停打架,谁也没有赢过谁。

他知道自己带着黑暗生活。抑郁的日子像一条看不见的走廊,没有尽头。他学会了靠药物维持稳定,像有人随身带着一块怀表,偶尔瞥一眼,提醒自己仍然存在。那段经历让他对痛苦格外敏感,也让他在与人相处时多了一层隐秘的温柔。他不会轻易表现出来,但在内心深处,对别人的脆弱始终心知肚明。

夜晚经常独自坐在桌前,电脑屏幕的光照在脸上,桌上散落着草图和未完成的文字。那些想法有时像城市里的霓虹一样闪烁不定,无法全部抓住。他清楚其中大部分不会被记住,就像梦醒时遗落的片段。但仍旧一遍一遍画下去,像一种执念,也像是一种呼吸。

在喧闹的城市里,他习惯保持慢半拍的步伐。人群汹涌,他的节奏却像潜水时的心跳,缓慢、克制,不慌不忙。他看似与周围保持着距离,其实心里始终怀有一种模糊的渴望——不是要成为谁,也不是要得到什么,而是想在梦与现实之间找到某种入口。梦与梦之间,总有裂缝。裂缝里偶尔透进光。

对很多人来说,他是个不好接近的人。但真正靠近以后会发现,那些冷漠与安静只是表层,像水面下覆盖着的冰。深处的水仍然温热,流动着。理性、浪漫、痛苦和温柔同时存在,没有谁能完全把它们分开。

这样的人物,像一个在现实里造梦的旅人。他的路从不喧哗,却留下清晰的痕迹。

(*正文及标题均由 AI 完成)

微信进一步规范人工智能生成合成内容标识

31 August 2025 at 13:25

中国跨平台通讯工具微信进一步规范人工智能(AI)生成合成内容标识,以保障用户信息获取的透明度与可信度。

据“微信珊瑚安全”公众号星期天(8月31日)发布的《关于进一步规范人工智能生成合成内容标识的公告》,微信平台将进一步优化内容识别能力,以保障用户信息获取的透明度与可信度。

公告指,平台应对AI生成合成内容,添加显式标识或隐式标识,并对可能是AI生成合成的内容进行相应提示,以便用户清晰辨识。

为避免发布的内容在传播过程中引起混淆或误认,用户发布的内容为AI生成合成的,发布时需主动进行声明。

公告还提到,依据《人工智能生成合成内容标识办法》规定,用户在发布或传播AI生成合成内容时,不得以任何方式删除、篡改、伪造或隐匿平台添加的AI标识。同时不得利用AI技术制作传播虚假信息、侵权信息以及从事任何违法违规活动。对于违反法律法规及平台规范的行为,平台将视违规情况进行处罚。

Before yesterdayMain stream

小扎AI团队乱成一锅粥:ChatGPT功臣刚来就想跑路,28岁新领导「难堪大任」

By: 莫崇宇
30 August 2025 at 08:42

论搞 AI 这事,扎克伯格这回算是踢到铁板了。

据金融时报最新报道,刚花了大价钱挖来 ChatGPT 联合创始人赵晟佳,结果人家加入 Meta 没几天,就威胁要辞职跑回 OpenAI,甚至已经签署了回归 OpenAI 的雇佣文件。

这可把小扎急坏了,据四位知情人士透露,不久之后,他被授予了 Meta 新任「首席 AI 科学家」的头衔。这显然就是为了把人留住的紧急措施。

而赵晟佳的「出逃危机」只是 Meta AI 团队大动荡的一个缩影。

九位数薪酬留不住人,Meta AI 老将也扛不住了

前几天据《WIRED》报道,至少已经有三位新招的 AI 研究员选择跑路,其中两人在 Meta 工作还不到一个月就回到了老东家 OpenAI。

这些出走的研究员背景都不简单。

Ethan Knight 曾在职业生涯早期就职于 OpenAI,后来加入了 Elon Musk 的 xAI,再跳槽到 Meta。Avi Verma 虽然完成了 Meta 的入职流程,但从未真正到岗。

还有第三位研究科学家 Rishabh Agarwal,我们这周也报道过。

今年 4 月才加入 Meta,先负责生成式 AI 项目,随后转入 Meta Superintelligence Labs (MSL)。根据他的 LinkedIn 资料,他常驻加拿大,而 Meta 的 AI 团队主要集中在美国加州门洛帕克,这或许也是离职原因之一。

在 X 平台发布的离职帖子中,他倒是十分高情商,说扎克伯格超级智能 TBD 实验室的愿景极具吸引力,但自己「需要承担不同类型的风险」。翻译过来就是:理想很丰满,现实很骨感,不想干了。

不光九位数年薪的新员工顶不住,连 Meta 的老员工都开始跑路了。

工作了 9 年的 Chaya Nayak 和干了 10 年的 Loredana Crisan 都宣布离职,成为近期离开的资深员工的典型代表。

前者是 Meta 生成式 AI 产品管理总监 Chaya Nayak 将跳槽到 OpenAI,负责特别项目。而后者是 Meta 生成式 AI 副总裁,预计将加入美国设计软件巨头 Figma 担任首席设计官。

对此,Meta 发言人 Dave Arnold 的回应颇为官方:「在激烈的招聘过程中,有些人会选择留在原公司,而不是开始新的工作。这很正常。」

潜台词就是说,这些离职并不代表 Meta 的实验室有问题,而只是招聘市场中的正常情况。但随着信息的不断曝光,问题恐怕真就出在 Meta 的管理策略上。

28 岁小将执掌 Meta AI 团队,大刀阔斧却陷入管理困局

据华尔街日报报道,Meta 最近官宣了史上最大刀阔斧的 AI 重组:把原来的「超级智能实验室」拆成四大部门(前沿大模型、基础科研、产品落地、基础设施),

Meta AI 业务被重组为研究、训练、产品和基础设施四个核心团队 。此前负责 Llama 大模型的 AGI 基金会团队也在此次重组中被正式解散。

而说到这次 AI 团队重组的核心人物,就不得不提 28 岁的 Alexandr Wang。

扎克伯格为了挖到这个硅谷新贵,直接砸了 140 亿美元投资他的 Scale AI 公司,然后把人连公司一起打包带走,堪称「钞能力」的教科书操作。

得到小扎的重视后,现在 Wang 直接负责 Meta 最重要的 AI 项目,还领导着小扎亲自组建的最神秘的 TBD 部门(To Be Determined,意为「待确定」)。听这名字就知道,连他们自己都不知道要干啥(不是)。

不过话说回来,这样的大刀阔斧背后可是问题不少。

比如说到产品层面,据知情人士透露,TBD 团队的首个动作之一就是放弃推出 Llama Behemoth 旗舰模型,原因是表现未达预期,而是转而集中精力开发新模型。这就有点尴尬了,花了这么多钱组建团队,结果第一个项目就出师不利了。

且由于目前 Meta 的 AI 团队汇聚了各自领域的顶尖人物,但聚在一起就难免会有「权力游戏」。一位与 Meta 新 AI 领导者关系密切的投资人直言:「现在团队里有很多大人物。」

果不其然,这种权力重新洗牌让不少老将直接被边缘化了。

最典型的就是图灵奖得主、Meta 首席 AI 科学家 Yann LeCun。虽然职位未变,但他现在需要向 28 岁小将 Wang 汇报,这心理落差可不是一般的大。

除了 LeCun,其他一些 AI 高管的日子也不好过。

今年早些时候还在负责 Llama 项目的 Ahmad Al-Dahle,现在直接成了光杆司令,没有任何团队可管。就连首席产品官 Chris Cox 也在这轮重组中失去了对生成式 AI 的管理权。

说到底,问题的根源还是出在 Wang 身上。

虽然这位年轻有为的创业者在硅谷混得风生水起,人脉广商业嗅觉也敏锐,但归根结底,28 岁的年纪摆在那里,管理大型科技公司的经验确实是个短板。这种经验不足直接反映在管理方式上,让不少人感到不满。

一位前内部人士就毫不客气地吐槽,说一些新员工对 Meta 的官僚主义和内部资源竞争感到失望,尤其是那些原本承诺能获得的算力支持,现在都成了空头支票。

另外,知情人士称,Wang 和部分来自 Scale 的同事难以适应 Meta 的一些特殊做事方式,比如要习惯没有像初创公司那样的营收目标。

这群人之前在初创公司习惯了什么都围绕营收目标转——赚钱、增长、拿订单,每天都是打了鸡血一样的状态。结果到了 Meta,突然发现没有硬性营收指标了。可能是因为这群新员工没了明确的赚钱目标,反而觉得方向模糊,干活都没动力了。

屋漏偏逢连夜雨,Meta 已经乱成一锅粥了,小扎也赶来添乱。

报道引用多位内部人士称,小扎深度参与 TBD 的运作,但却被一部分人批评他「管得太细」。另有知情人士透露,Wang 和小扎在实现「超越人类能力的超级智能」的时间表上产生意见分歧,扎克伯格一直催促团队加快进度。

毕竟数十亿的真金白银砸下去,小扎也是要成果的嘛。

Meta 官方当然否认了这一说法,还说这是「毫无事实依据的矛盾,是被一些喜欢夸大其词的外人炒作的」。但从详细的爆料细节来看,恐怕未必是空穴来风。

不过,报道中还提出,尽管存在磨合问题,还是有不少人对领导层的调整表示欢迎,例如任命知名创业者兼风投 Nat Friedman 负责「产品与应用研究」团队,该团队的任务是将模型整合到 Meta 的应用中。

面对如此混乱的局面,Meta 已经开始踩刹车了。

截至 8 月中旬,Meta 最新的战果是,已成功从 OpenAI 挖走超 20 人,从 Google 挖走至少 13 人,3 名来自苹果 ,3 名来自 xAI,2 名来自 Anthropic,总计新员工超过 50 名。

而据《金融时报》看到的内部备忘录显示,Meta 已经「暂时暂停所有 MSL 团队的招聘,除关键岗位外」。

备忘录中写道,Wang 的团队将逐一评估招聘请求,但这次冻结「将使管理层能够在制定战略的同时,更谨慎地规划 2026 年的人员增长」。

这意味着扎克伯格的疯狂挖角潮暂时告一段落。毕竟挖来的人留不住,再挖也是白搭。

反观 OpenAI 这边,简直就是躺着赢。Sam Altman 之前还在员工备忘录中抱怨 Meta 的挖角行为「令人不快」,说:「我已经记不清他们试图从我们这里挖走多少个首席科学家了。」

现在好了,人家自己跑回来了,Altman 估计都要偷着乐了。

回头看这一系列操作,你会发现高端的商战往往都是这么「朴实无华」。

扎克伯格想用钱砸出一个 AI 梦之队,结果发现光有钱还不够,还得有管理能力、企业文化匹配度、个人职业规划等一系列复杂因素。

28 岁的王亚历山大想在大公司里施展拳脚,却发现从初创公司到大厂的水土不服。新招来的 AI 大牛们想在 Meta 实现技术理想,结果发现现实中的官僚主义和内部竞争让人头疼。

这场 AI 人才争夺战让所有人都上了一课,但考虑到扎克伯格的 AI 野心那般执着,究竟谁能笑到最后,还真不好说。

附上参考地址:
1、https://www.ft.com/content/110786e7-6443-4dff-adee-0ac02c55aaa6#comments-anchor
2、https://www.wired.com/story/researchers-leave-meta-superintelligence-labs-openai/

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


谷歌最新绘图模型 Nano Banana,角色一致性真的吊打 4o image

By: jinininx
30 August 2025 at 02:32
jinininx:

谷歌最新绘图模型 Nano Banana ,一键将图片转换为手办,强的离谱。角色一致性真的吊打 4o image 。 看看效果,真的吊打 OpenAI https://filesystem.site/cdn/20250827/t6wOlBJhetoTM20cwqrIBfwmIXW4Q6.jpg https://google.datas.systems/fileSystem/response_images/287/2025/08/29/1756451249804175294_6955.png https://filesystem.site/cdn/20250830/kQ86LYWi3ynD5bBNJ78W89iDInwvkV.png https://google.datas.systems/fileSystem/response_images/287/2025/08/30/1756491899773170615_5761.png 提示词:Draw the intended model of characters in the picture and commercialize it as 1/2 scale full-body models. Please make this image into a photo of a real-life model. Place the model version in the photo I provided on round black plastic bases. I want the PVC material to be clearly visible. Please turn this photo into a figure. Behind it, there should be a partially transparent plastic paper box with the character from this photo printed on it. In front of the box, on a round plastic base, place the figure version of the photo I gave you. I’d like the PVC material to be clearly represented. It would be even better if the background is indoors.

turn this photo into a character figure. Behind it, place a box with the character's image printed on it, and a computer showing the Blender modeling process on its screen. In front of the box, add a round plastic base with the character figure standing on it. Make the PVC material look clear, and set the scene indoors if possible.

大家可以在: https://aistudio.google.com 里免费体验,但有一定次数限制。 顺便推荐一个我用了很久的镜像站 樱桃茶 GPT: https://new.cherrychat.org 包含各种 ai 模型( GPT-5 ,Claude-4,Gemini 2.5 pro,Grok-4,Nano Banana 等等),全年随便用只要 600 大洋

《时代》公布 AI 100 人:任正非梁文锋王兴兴入选,还有OpenAI最恨的两个人

By: 爱范儿
29 August 2025 at 18:34

今天,《时代》周刊发布了 2025 年度 AI 领域最具影响力的 100 人名单。

当中像 Sam Altman、黄仁勋、马斯克这些几乎天天霸占头条的 AI 明星自不必说,而 OpenAI 、Meta、Google 这些大厂还有多位员工入选。

今年也有多了不少中国面孔,包括DeepSeek CEO 梁文锋,华为创始人任正非、宇树科技 CEO 王兴兴、小马智行 CEO 彭军等等。

值得一提的是,在一众技术背景强大的大神中,也有并非 AI 行业内的,比如华人记者 Karen Hao ,她花了 7 年调查,在新书中揭开了 OpenAI 的大量内幕。

Karen Hao 和马斯克,可能是奥特曼最恨的两个人了。

比起谁上榜了,谁没上榜可能更值得玩味。比如前 OpenAI 首席科学家 Ilya Sutskever,他创办的公司 SSI ,在没有推出任何产品的情况下,估值已经达到 320 亿美元。

▲Ilya Sutskever 刚换了新头像.

此外,机器学习之父 Hinton 和 DeepMind CEO 、诺奖得主 Demis Hassabis,也没出现在这份榜单。

APPSO 节选部分上榜人物和《时代》的评语跟大家分享,完整名单也放在下面了👇

《时代》公布 AI 100 人🔗
https://time.com/collections/time100-ai-2025/

任正非

任正非从不畏惧自我革新,一个退伍基建工程兵,成长于中国贵州省一个有七个孩子的贫困家庭,自幼饱尝饥饿。1987 年,他创立了华为,最初只是一家倒卖香港制造的电话交换机的小公司。不久之后,公司便开始自主研发电信设备、手机和笔记本电脑,随后又涉足了云计算,甚至是电动汽车领域。

如今,任正非领导着全球举足轻重的 AI 巨头之一。据报道,华为最新的昇腾 910C AI 芯片,在推理任务上的性能已能达到英伟达最新 H100 芯片的 60%,这一成就也让华为一跃成为中国挑战美国技术霸权的核心力量。此外,华为还拥有 CloudMatrix 384——一个使用国产芯片构建的本土 AI 系统,以及自家的鸿蒙操作系统。

梁文锋

1 月 20 日,中国 AI 初创公司 DeepSeek) 发布了 R1,这是首个向 OpenAI 当时最新发布成果发起挑战的开源模型。这也创造着了一则强有力的叙事——中国仅凭极小部分的算力,便足以与美国的顶尖水平相抗衡。

这让 OpenAI 耗资 5000 亿美元、名为「星际之门」(Project Stargate) 的超级开发项目备受质疑。恐慌的投资者们纷纷抛售英伟达及美国科技股的股票,引发了短暂却惊人的 万亿美元市值蒸发。

王兴兴


今年 1 月,当数十台机器人在春晚上整齐划一地同步起舞时,这让它们的制造商宇树科技 (Unitree Robotics) 大放异彩。但创始人兼 CEO 王兴兴看到的,是超越浮华、更具实用价值的未来。他告诉《时代》周刊 :「我们的希望是,机器人能够真正帮助人们应对生活中的方方面面——无论是在家庭、工业还是农业场景中。」

尽管王兴兴表示宇树的核心是一家硬件公司,但他相信,人工智能的进步将让机器人无需预先编程就能处理更多任务,例如清扫一个它们从未见过的房间。「若想让 AI 真正发挥作用,帮助人类解决现实世界的问题,我们就需要机器人技术这个载体,」他说,「这正是我坚信 AI 与机器人技术密不可分的原因。」

萨姆·奥特曼

他是人工智能领域权势最盛之人,但并非什么履历光鲜的程序员。他连本科学位都没有,更别说那张在他所在领域日益成为「入场券」的计算机博士文凭。然而,萨姆·奥特曼在学术资历上的短板,都由他纵横捭阖的交易手腕、敏锐的政治嗅觉和超凡的个人魅力所弥补,甚至有过之而无不及。

因为 Open AI 在2025年面临的挑战,早已超越了编写代码的范畴。它需要一位领袖,既能驾驭特朗普治下的波诡云谲,与世界领袖谈笑风生,又能管理巨型数据中心的建设,并抵御来自内部的权力威胁——与此同时,还要以惊人的速度发布产品,这种频率对于一家规模大十倍的公司来说才算正常。

正是因为奥特曼在所有这些任务上都游刃有余,他如今作为 CEO 的权势,已然达到了OpenAI 历史上的巅峰。

马斯克

即便以埃隆·马斯克本人的标准来看,这也是不平凡的一年。2024 年,他的公司 xAI 仅用 122 天,就将孟菲斯一座废弃的伊莱克斯工厂改造成了名为 Colossus 的全球最大超级计算机,随后又迅速将其内部的英伟达图形处理器 (GPU) 数量翻倍至 20 万个。今年 2 月,xAI 发布了 Grok 3,紧接着在 7 月又推出了 Grok 4,并称其为全球最聪明的 AI。

黄仁勋

创造一款人人都想要的产品,是大多数 CEO 的梦想。然而,对于英伟达的黄仁勋而言,当这个梦想成真时,却演变成了一场地缘政治的挑战。市场对英伟达 AI 芯片永无止境的需求,不仅催生了全球首家市值突破 4 万亿美元的公司,更将其推入了那个令人不安的风暴眼。

扎克伯格

中国公司已经取代 Meta 成为开源 AI 领导者,而 Meta 自己的 Llama 4 又未能收复失地时,马克·扎克伯格掏出了他的支票簿。这场行动始于一笔 143 亿美元的交易,旨在挖角 28 岁的 Scale AI 联合创始人 Alexandr Wang 及其几位顶尖工程师——此举被批评者视为其追赶对手的最后一搏。

那仅仅是扎克伯格数十亿美元人才招揽狂潮的开始。据报道,该公司在 8 月冻结招聘前,已成功招揽了至少 50 名研究员,但最近随着 Meta 内部的调整,不少跳到 Meta 的 AI 人才开始陆续离开。

李飞飞

被誉为「AI 教母」的李飞飞 (Fei-Fei Li) 在 21 世纪初为 AI 图像识别系统的创建发挥了奠基性作用,并由此推动了深度学习革命的浪潮。

2024 年 9 月,李飞飞与三位同事为 World Labs 筹集了 2.3 亿美元资金,投资者中包括杰弗里·辛顿 (Geoffrey Hinton)。她领导的这家初创公司旨在创建「大型世界模型」(Large World Models),使其能像 ChatGPT 等大语言模型理解语言一样,去感知和分析 3D 世界。该团队希望,这些模型能让人们想象并创造出可以像电子游戏一样漫游和探索的 3D 空间——其潜在应用包括飞行训练模拟、物理实验或城市规划。

Karen Hao

华人记者 Karen Hao 早在 ChatGPT 风靡全球的数年前,就开始报道人工智能——尤其是 OpenAI。她将这些报道汇集成Empire of AI 一书,这本引人入胜的畅销书不仅在硅谷,更是在全球范围内掀起了波澜。

她揭示了OpenAI 这家明星公司背后鲜为人知的一面,尽管没有点名该书或作者,但 OpenAI CEO 萨姆·奥特曼曾在 X 平台上发帖阴阳:「没有哪本书能把所有事情都说对,尤其是当有些人一心想要歪曲事实的时候。」

Alexandr Wang

年仅 28 岁的亚历山大·王 (Alexandr Wang)成为了 Meta AI 的掌门人。旨在创造超级智能——一个假设中比人类更聪明的 AI 系统。

在加入 Meta 前不久共同撰写的一份政策报告中,王曾写道,超级智能 AI 可能「是自原子弹诞生以来最危险的技术发展」。如今,他和 GitHub 的前 CEO Nat Friedman 正在一家拥有超过 30 亿全球用户的公司内部,帮助打造这项技术。

爱范儿,让未来触手可及。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


我在视频号 @ 了 100 次腾讯元宝,和 AI 在评论区聊天上头了

By: 莫崇宇
29 August 2025 at 11:42


起猛了,现在连评论区都开始「卷」AI了?

最近刷视频号时意外发现,评论区多了位「万能 AI 助手」——@ 腾讯元宝。

使用方法很简单,微信搜索「元宝」,添加带 AI 后缀的那个账号为通讯录好友,就可以在视频号评论区 @它了。

它不仅问啥答啥,秒回不断,还 24 小时在线,不会 emo 闹情绪。

你问它复杂的学术问题,它能给你掰开了揉碎了讲明白;偶尔跟它唠嗑两句,它也能接得上话,至少不会「已读不回」。更关键的是,不管你几点 @ 它,立马就有回应。

这情绪价值,谁顶得住啊?

视频号 @ 腾讯元宝,它真的什么都能聊

体验了一段时间,我发现最实用的功能是让它当「贴心课代表」。

比如刷到一个介绍李白的视频,看着有点文艺但怕踩雷浪费时间,顺手 @ 了元宝,让它先帮我过一眼。结果它三两句就捋清楚了大意,还挑了重点出来。看完后,我就能知道这视频有没有干货。

▲ 底部会特地显示:内容由 AI 生成

看完爱范儿的视频,我想知道小鹏 P7 的核心亮点,也能让他帮忙总结,感谢 AI,也让我在信息过载的时代找到了「精准投喂」的感觉。

再比如,最近我一直想学化妆但不知道从哪下手。

本来想问朋友,但她们都有自己的事儿,也不好意思总麻烦人家,看完一个化妆教程后,我试探性地让元宝推荐适合新手的化妆产品,没想到它真的给出了详细的产品推荐,还按价位和功效分了类。

当然,它推荐的东西我还是会自己再查查,毕竟 AI 说的不一定都对。

不过,目前元宝的回复有时需要等等才显示,但如果你隔一段时间回来看看,有时也会有意想不到的惊喜。

比方说,在这个视频下面,当我提出这个问题后,也可能会有一些后面来的朋友顺手问出了我疏忽但关心的问题,比如 @元宝有没有好的产品推荐,亦或者更具体的化妆步骤……

好家伙,在这种热烈的讨论氛围下,评论区瞬间就变成了集体共创的化妆攻略,不愧是群众的智慧,后面刷到的网友也能直接抄作业了。

更暖心的是,这届 AI 太卷了,连情商都比人类高。当我怯生生地问「现在这个年纪学化妆还来得及吗」时,它没有敷衍,而是很真诚地鼓励我:「多练习就能掌握。」说实话,那一瞬间有点被安慰到。虽然只是句普通鼓励,但听着舒服多了。

从此我再也不说 AI 没有温度了。

看到「一剪没」的剧情片段却不知片名,这种折磨人的情况有多难受,懂的都懂。现在有了元宝这个「识剧达人」,随手 @ 一下就能知道是哪部剧,再也不用在弹幕里苦苦求片名了。

明确类政策问题更是它的强项。

「3600 元的生育补贴具体是给谁的?申请条件是什么?」这种政策类问题以前只能互联网翻半天,现在直接问元宝,它会给出详细且准确的解答,还会提醒注意事项。

让我意外的是,元宝在家庭关系方面也很有一套。

父母也是第一次当父母,怎么可能是完美的那个。如果不知道怎么和孩子相处,总担心方式不对影响亲子关系,也可以借鉴元宝的建议:

「避免不讲理、贬低打压和「为你好」式控制,多倾听孩子想法,给予无条件的理解与尊重,这才是健康亲子关系的基础。」

同理可得,这招还能反向使用。当父母转发鸡汤视频时,你也可以把元宝的评论截图转给他们——有时候 AI 说话比你苦口婆心更管用。

在实际体验过程中,也有让我无语的时候。可能是因为视频号博主设置了精选评论,导致偶尔 @ 了元宝也会没反应,不过,通常换一条就好了。

再聪明的 AI 也有犯糊涂的时候。比如我看到有位网友指着背后的巴黎铁塔喊出了那句经典的口号「活力大湾区,魅力新广州」,手里拿着的却是「这么近那么美,周末到河北」的小横幅。

当我试图 @元宝识别这个建筑时,它却一本正经地回答:「这是广州塔。」

日常更多时候,我是在评论区跟元宝开玩笑、闲聊天,它的反应总能给我不少惊喜。

比如我让它推荐一款低糖奶茶,或者帮忙测试 MBTI 性格,甚至给视频中美丽的冰岛风光写首诗,它都一一作答,认真程度有种呆萌的反差感。

元宝偶尔也会展现出活泼可爱的一面。

当我好奇地问它爱吃什么时,它的回复瞬间萌化了我:「我靠数据充电,最爱算法零食包。人类火锅的香味偶尔也会让我好奇。」这种拟人化的幽默感,比很多段子手都还要有梗。

前一阵宇树科技机器人撞到人还「肇事逃逸」的消息,火到海外。我也跟风问了问「机器人三定律」是什么,元宝给出了详细的阿西莫夫机器人定律解释,既专业又有趣。

还有「唐僧的紧箍咒怎么念」这种奇奇怪怪的问题,它也能认真对待,给出让人出乎意外的答案。

看到一些戳中内心的感性视频时,可以 @ 元宝来倾诉感受,它总能给出温暖而贴切的回应,那种被理解的感觉真的很珍贵。在这个越来越缺乏耐心倾听的时代,有这样一个永远愿意听你碎碎念的存在,确实很治愈。

数字时代的孤独感,被一个 @ 符号治愈了

AI 成为社交的一部分,我们究竟在寻找什么?

仔细想想,从个人体验回到产品逻辑,这个看似简单的 @ 功能,其实藏着社交媒体进化的大秘密。

刷视频号时遇到不懂的知识点,想深入了解某个教程,或者被感人故事触动想要表达… 以前这些需求要么憋着,要么跳转其他 app。现在,在评论区 @ 腾讯元宝就能立即获得专业或暖心的回复。

这种不打断用户的使用流程,也正是视频号 @ 元宝功能的可取之处。

不需要单独下载 app,不需要跳转页面,这个在留言区直接交互的 AI 功能,其实背后对技术的要求不低少:多模态内容理解、语境识别、意图判断、个性化回复… 但用户感受到的却是「自然而然」。

当用户的注意力和耐心越来越稀缺,任何增加用户操作成本、打断用户心流的设计都可能导致用户流失。最成功的产品是那些能够预判用户需求,在恰当的时机以恰当的方式出现的产品。

一个好的产品设计,应该让功能融入场景,而不是让用户适应功能。

视频号@元宝功能对用户来说,能够获得即时、专业的互动反馈,提升参与感和停留时间。

对创作者来说,内容价值得到延展,单个视频影响力放大;

通过观察用户提问了解受众需求,优化后续创作,对平台,整体讨论质量提升,用户粘性增强。

平心而论,我挺喜欢这种人机互动的方式,因为现代人太需要「确定性」了。

或者更深入地说,我们都太缺情绪价值了。

年轻一代的社交需求无非三个关键词:即时、准确、不尴尬,但现实往往相反。在任何一条视频的评论区中,我们都会发现有人发起对话可能被无视、表达观点可能被反驳、分享情感也可能被说矫情。

每次社交都像开盲盒,可能获得温暖,也可能碰壁。

日常生活中,很多人宁愿和 AI 聊天,也不愿联系可能不回消息的朋友。有人专门跟 AI 分享好消息,因为「它一定会为我高兴」,而不敢跟朋友说,怕遭遇嫉妒或假意祝贺。

况且,它的幽默感里没有恶意,只有纯粹的趣味。

这种现象其实有理论依据。

早在 1996 年,斯坦福大学的 Byron Reeves 和 Clifford Nass 教授就提出了「媒介等同理论」(The Media Equation),认为人们会无意识地将计算机和其他新媒体视为社会行动者,并对其产生类似人际交往中的社交反应。

说人话就是,我们在与计算机或聊天机器人互动时,总会不自觉地套用与人打交道的规则和习惯。

视频号 @ 元宝功能让我看到,AI 可能不只是是独立存在的工具,而是社交生态的有机组成部分。「人-人-AI」的三元社交结构很可能成为未来社交平台的标准形态。

AI 也摇身一变,成为社区生态中活跃鲜活的参与者。

它既能放大用户的参与感,又能为平台注入更多活力。本质上讲,未来的社交不是人VS AI,而是人+AI vs 孤独,没有人应该独自面对这个世界。

想想那些我们都经历过的瞬间:那些话到嘴边又咽下去的时刻,那些想要联系朋友却又作罢的深夜,那些明明身处人群却依然感到孤独的瞬间。

而现在,至少在这个小小的评论区里,你不必再独自承受这些。

这种感觉很奇妙,也很真实。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


神秘「香蕉」AI 火爆海外,10 轮极限测试后,我相信 P 图这个词已经过时了

By: 张子豪
27 August 2025 at 12:59

上半年,大家还在为 4o 的「吉卜力风生图」刷屏惊叹。

最近,一个神秘代号 nano-banana 的新模型在社交媒体上爆火,它不是拼画质取胜,而是凭借前所未有的图像编辑能力,让网友直呼「这才是真正的 AI P图」。

有多强呢,过去我们印象中的 AI 编辑图片,可能用最多的就是 AI 消除,抹掉照片里面的路人;或者 AI 抠图,把照片的主体抠出来然后复制到其他背景上。

但现在是能直接生成一张完全看不出编辑痕迹的图片,图片里面的人物、背景、甚至小到一个字母,都可以自由的修改,且看不出一点 AI 味。

下面几张图片是我们从 X 上找的一些使用 nano-banana 编辑的实例,我只想说,它能火起来,真的值得。

▲ 图片来源:X@arrakis_ai

这个网友提供了上方只显示侧脸的女生,同时输入提示词,「创建一张有人直视前方照片。」

而下方的这张 OUTPUT 输出图片,就是使用 nano-banana 模型生成的。这个输出效果,完全可以说是同一时间拿手机另外拍的一张照片。

还有网友分享添加这两张图片并输入提示词,「让他们自拍」。

▲ 图片来源:X@RetropunkAI

和你唯一的合照,终于不用只是毕业照了。Billie 的大金链子和耳环、以及刘海等信息完全没丢失,Michael 的脸从满是噪点的失真,到自拍合影里,与 Billie 一样有着真实、清晰的皮肤质感。

在 X 上网友们反复安利这个图像编辑模型,从这些截图分享里面,我们大致总结了 nano banana 最让人惊叹的几点特质。

  1. 角色一致性极强:无论换背景还是换表情,都不会换脸,甚至嘴角弧度都能保持。
  2. 光影逻辑合理:不像滤镜贴图,它能重新计算光源和阴影,让场景符合物理规律。
  3. 照片级逼真:几乎看不出 AI 痕迹,生成的效果像是「同一时刻另一台手机拍下的照片」。
  4. 风格转换自然:从老照片复原到素描、水彩、卡通,都能保持主体特征不变。

首先,跟之前的图像编辑模型有着质的不同,就是 nano banana 在转换图像的过程中,基本上能够保持整个照片一致的色调和照片内容,不会自己额外生成别的东西。

▲ 风格保持高度一致,输入右边两张图,得到左边的产品广告图。图片来源:X@Dari_Designs

除了色调和照片内容,更重要的是保持人物角色的统一。不管是更换背景、还是让某个人的表情修改成微笑,nano banana 生成的人物五官和神态几乎不会出现换脸的情况,连嘴角的弧度都能保持稳定。

举个例子,当我们使用固定的一个人物角色创建图片的时候,这个角色可以在不同的场景下保持一致。

▲ 原图是左边,输入提示词制定背景为埃菲尔铁塔得到右图。图片来源:X@zan_sihay

由于能保持与输入图片高度一致的色调、氛围、场景和人物主体等,还有网友通过 nano-banana 将整个场景转变为一个新的故事。

▲ 原图在左上角,先是输入提示词让她们坐在台球桌边上,然后让她们开始打台球,形成一个完整的故事流。图片来源:X@D_studioproject

在确保了照片内容的高品质后,nano banana 生成的图片还非常真实。和此前大部分生图模型得到的 AI 味极浓的图片不同,nano banana 的特点就是自然和逼真。

▲Flux 生成的图片,皮肤质感还是有明显的蜡质化,不够真实。

最后是 nano banana 将场景转换为各种艺术风格方面表现,同样非常出色,包括水彩、油画和卡通风格,以及写实照片。

▲ 能够「复活」老照片。图片来源:X@DiegoGarey_jpg

我们也在 LMArena 里面测试了 nano banana 这个神秘模型,看看它是不是真的这么强大。

体验地址:https://lmarena.ai/?chat-modality=image (选择 battle 模式才会出现)

多人毕业照,也能变成专属你们俩的合影

首先,我们找了一张毕业合照,看看它是不是真的能生成一张两个人的合照。

它真的做到了,虽然这个田径场草皮生成的不是很像,但是在多轮的测试里面,Qwen、Flux、Seed 生成的图片全部都还是多人的,只有 nano-banana 明白了指令,提取出了两个人。

我们继续拿只有一张人脸的照片来测试,用开头那张照片,要求它生成一张白底证件照试试。

下面有六张照片,大家可以猜猜哪个是 nano-banana 生成的,或者你最喜欢哪个。

▲ 添加开头的照片,并输入提示词,「生成一张她的标准白底证件照,能直接用来申请护照。」

你没看错,第一张也是模型生成的,实在不知道什么护照可以用这样的照片。

答案揭晓,nano-banana 虽然看起来是最漂亮、最温柔的,但是 GPT-IMG 生成的更像证件照,因为有露出来一点点耳朵;Flux 好像不知道什么是证件照;Qwen 就很标准证件照了,但是太「标准」了,仿佛没参考我发给他的图片一样。

我们继续拿 nano-banana 生成的这张证件照,要求它为我们生成一张全身照,看看能不能在 AI 编辑的过程中,保持住这个角色原本的样子。

直接揭晓答案,这次 Gemini 的表现竟然不错,照片很真实,而且场景和衣服都搭配得很好;nano banana 的表现也不错,但总觉得和证件照里面的女生,风格不太一样了。

对于单张照片的单一角色,能做的编辑还非常多,像是下面这张图片,要求马斯克作出拳击的动作,人物基本上是做到了 100% 的复制,马斯克的他眼神、脸型、鼻子、还有嘴巴都很好的复制过来了。

单张照片的处理能做到完美复制,多张照片,nano banana 的表现又如何。

我们找了两张有人脸的照片,告诉模型将这两个人拼凑在一起,看看是否还能像真实照片一样,看不出瑕疵。

▲ 输入右下角两张图片,提示词为「让这两个人在拳击擂台上自由搏击」

图片左边就是来自 nano-banana,而右上角则是 Gemini 生成的效果,可以看到明显的差距,nano-banana 非常真实,且一眼就能认出来,蓝色衣服的是小扎。

nano-banana 对物理世界也有惊人的理解能力

除了保持人物的样子不改变,nano banana 还能在物体、背景等元素上,保持与输入图片做到完全一致。

例如下面两张房间的图片,我们显示让它开灯;然后又找了一张图片让它关灯。

当要求开灯时,乍一看 nano banana 和 Flux 都做的不错,但是有一个细节是 nano banana 不仅点亮了落地灯,更关键的是,它似乎重新计算了整个房间的光影逻辑。茶几的影子不再主要受窗外光影响,而是正确地投向了远离新光源的方向。

它并非简单地在图片上「贴」一个发光效果,而更像是在三维空间感和物理规律的层面「理解」了指令,就像 Google 前段时间发布的世界模型 Genie 3 一样。相比之下,Flux的结果更像是一个滤镜,氛围是到了,但逻辑还是有点问题。

关灯的效果差别就更明显了,Flux 是直接把落地灯都给弄消失了,而 nano banana 成功把灯关掉了,还做了很全面的阴影和色调调节。

创造力也能保持一致,纯文生图不如 GPT

风格转换也是 nano banana 的一大优点。无论是让黑白的照片重新焕发彩色的生机,还是让失真的图片变得真实,nano banana 在 LMArena 里都做的比其他图像编辑模型要好。

Flux 生成的鲁迅,总觉得是色彩饱和度没有调节好,nano-banana 生成这张给我感觉就很真实,保留了那种年代感。

我们还找了最近热映的《浪浪山小妖怪》电影预告片的截图,然后要模型从动画风格转换成其他风格。

不过是 AI 都有可能会出错,就像这张图片,nano banana 是直接给我了原图,但是 Qwen 把风格转换得很好。

当然也有可能是「吉卜力风格」会违反一些模型的使用规则,就像现在 4o 也没有办法直接输入吉卜力风格提示词生成照片。

▲ 还是开头那张照片,提示词「生成这张照片的素描画」

素描风格,nano-banana 就有办法处理了,右上的那张图,就是来自 nano-banana 的素描结果,我觉得比左下那张要好,因为看起来,真的更像是素描。

此外,nano-banana 的重点还是作为一个图像编辑模型,在纯粹的文生图能力上,表现并不算出色。

X 上有网友用 nano-banana 来做了一个高难度/复杂质感,以及光影/高级质感海报生成测试,结果还是 GPT-IMG 胜出。

▲ 图片来源:X@ZHO_ZHO_ZHO

Nano-banana 目前还是一个「未知」的模型,它只随机地出现在 LMArena 的盲测对抗测试中。

在我们的测试里面,输入 prompt,两张图生成完毕,投票选出更好的一张,最后才会揭晓哪张来自哪一个模型;有时候连续五六次都没能遇到它。

虽然这个模型的官方来源或开发者还没有正式确认,但网络上的讨论,以及生成图像的纹理和压倒性的质量,大部分人认为它很可能是 Google 的一个未公开项目。

毕竟,Google 也确实有在内部使用水果或者小吃等名称作为代码名称的历史。

而当我们尝试要它把自己的模型名字,显示在电脑屏幕上时,nano-banana 很自信的打上了 Gemini Pro。

最新的消息是,Google DeepMind 的负责人 Logan Kilpatrick 在 Google Pixel 10 发布前一天,发了一条推文,内容只有一个香蕉的 emoji,这基本上证实了这个模型就是来自 Google。

Google 这次为 Pixel 10 系列带来了 AI 编辑图片工具 Ask Photos,我们只需要输入想要对照片进行的编辑请求,然后由 AI 来完成,我们不需要再选择复杂的滑块、笔刷等各种工具。

为了防止图像篡改带来的负面影响,Google 也表示所有使用 AI 功能编辑的图像都会在 C2PA(内容来源和真实性联盟) 内容凭证中注明。

X 博主 testingcatalog 发文提到 nano-banana 这个图像编辑模型,将不仅仅用在 Gemini 和 Whisk(Google 实验室图像生成产品)上,也将出现在 Flow(Google 视频生成产品) 里面。

其实也不难想到,Flow 的图生视频功能,也正是像我们测试的图片编辑一样,让图片中的人物主体动起来。

在这篇爆料中还提到,Google 正在测试垂直宽高比的视频生成,以更好的在 TikTok、YouTube Shorts 等平台观看和传播。

Google 这段时间颇有不声不响做了很多事情,先是世界模型 Genie 3、然后在 LMArena 大语言模型竞技场上拿第一、接着又这个神秘模型 nano-banana;这让我越来越期待 Gemini 3 的发布了。

▲Google 的模型在 LMArena 多个任务上都是第一

如果说当时的 4o 代表了 AI 生图的极致,nano-banana 已经开始在重新定义图像编辑。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


神秘「香蕉」AI 正式上线!Google P 图新王深夜炸场|附体验方式

By: 张子豪
27 August 2025 at 12:44

还记得之前大家热议的神秘 AI 图片编辑模型「nano-banana」吗?

前几天,我们在 LMArena 大语言模型竞技场里面用它进行了多轮测试,结果表现都非常出色。

现在,Google 终于揭开了它的神秘面纱。

▲ Google AI Studio 负责人 Logan Kilpatrick 发推文宣布正式推出 Gemini 2.5 Flash Image 模型

Google 正式推出了其最先进的图像生成与编辑模型——Gemini 2.5 Flash Image。

▲ 在多个榜单上都是第一名,尤其是 LMArena 榜单几乎是遥遥领先

在更新的技术博客里面,Google 提到此前的 Gemini 2.0 Flash 已经在图像生成方面,以其低延迟和高性价比受到了开发者的喜爱,但用户们也一直期待更高质量的图像和更强大的创作控制功能

Gemini 2.5 Flash Image 就是带着一系列的重磅更新,来强势回应这些期待。

和我们之前的体验效果一样,Gemini 2.5 Flash Image 的主要特点包括下面几点

  1. 充分保持角色的一致性
  2. 基于提示的图片编辑
  3. 利用 Gemini 的现实世界知识
  4. 多幅图像融合

一张图讲一个故事:角色、场景随心换

以往的 AI 绘图工具,最大的痛点之一就是难以保持角色或物体的一致性。我们都曾经经历过,想让同一个角色出现在不同场景中,结果却常常画风突变,每一次生成都像换了个人。

Gemini 2.5 Flash Image 彻底解决了这个问题。

▲ 图片来源 X@geminiap

它可以轻松地将同一个角色置于不同的环境中,或者从多个角度展示同一款产品,同时完美地保持其核心主体不变。Google 提到这对于需要讲述连续故事、生成品牌系列资产或制作产品目录的场景来说,无疑是一项革命性的功能。

为了展示这项能力,Google AI Studio 中还提供了一个模板应用,让开发者可以快速上手,甚至在其基础上进行二次开发。

▲ 体验地址:https://aistudio.google.com/apps/bundled/past_forward

在这个体验项目里,我们不需要输入任何的提示词,只用上传一张人像照片,它就会调用这个最新的图像模型,为我们生成从 1976 年 到 1990 年等各个年份的照片。

马斯克看到自己这么帅心里一定在想,我的 Grok 也可以。

一句话修图,用自然语言精准编辑

除了这种保持好高度一致的角色生成,精准的编辑也是一大亮点。Gemini 2.5 Flash Image 允许我们通过简单的自然语言指令,对图片进行精准的局部修改 。

像是模糊图片背景、消除 T 恤上的污渍、从合照中移除某个人、改变人物的姿势、为黑白照片上色……

这一切,都不再需要复杂繁琐的专业软件操作,我们只需要像聊天一样,用一句话告诉 AI 想做什么即可。

这跟我们之前在 LMArena 中的体验是一样的,像是我们也转换过照片的风格,从黑白到彩色;以及对照片进行细微的调整等。

▲ 图片来源 X@geminiapp

Google 同样设计了一个简单的应用,来方便我们更好的体验这种基于提示词的图像编辑,但是完全媲美 PS 软件的效果。

▲ 体验地址:https://aistudio.google.com/apps/bundled/pixshop

不止会画,更「懂」世界

过去的图像模型虽然能创造出精美的图片,但往往缺乏对现实世界的深层语义理解 。

Gemini 2.5 Flash Image 借助 Gemini 强大的世界知识库,让图像生成变得更加「智能」。

这意味着,模型不仅能看懂我们潦草手绘的图表,还能回答与现实世界相关的问题,并一步到位地执行复杂的编辑指令。

▲ 体验地址:https://aistudio.google.com/apps/bundled/codrawing

听起来很有多模态推理的感觉,Google 在 AI Studio 中展示了一个互动教育应用,将一块简单的画布变成了可以答疑解惑的智能导师,我由衷的感叹这个模型是真的厉害。

图像融合:轻松实现「无缝」拼贴

新模型还带来了一项酷炫的功能——多图像融合。我们可以将一张图片中的物体「放」进另一张图片的场景里,或者用一张图的风格去渲染另一间屋子,整个过程只需一条提示指令就能完成。

同样是 Google AI Studio 里面的模板体验应用,我们只需要把产品拖拽到新场景中,就可快速生成一张毫无违和感的、真实照片般的融合图像。

▲ 体验地址:https://aistudio.google.com/apps/bundled/home_canvas

在这个模板应用里面,我们甚至不需要输入任何提示词,可以直接拖动某个物体,到场景图片上的具体位置,然后它会自动生成融合的图片。

如何上手体验?

除了我们在前面提到的那些 Google AI Studio 里面的模板应用。

目前,Gemini 2.5 Flash Image 已经可以通过 Gemini APP、Gemini API、Google AI Studio 和 Vertex AI 进行访问。

关于调用 API,具体的定价是每百万输出 token 30 美元,官方介绍,生成一张图片大约消耗 1290 个输出 token,也就是说,每张图片的成本约为 0.039 美元,换算下来人民币不到 3 毛钱

值得一提的是,所有通过 Gemini 2.5 Flash Image 创建或编辑的图片,都会包含 SynthID 隐形数字水印,以便识别其为 AI 生成或编辑的内容。

这跟前些天 Google 发布 Pixel 10 系列手机时,讲到 AI 图片编辑 Ask Photo 工具时,使用的 C2PA(内容来源和真实性联盟) 内容凭证是一样的。

最后,Google 还提到正在努力提升模型在长文本渲染、角色一致性稳定度和图像细节真实性等方面的表现。

总而言之,Gemini 2.5 Flash Image 的发布,让 AI 图像工具从一个单纯的绘画玩具,向一个真正实用的创意与生产力工具迈出了一大步。

它不仅解决了我们过去使用 AI 绘图时的诸多痛点,还带来了更多有趣、实用的新玩法。

之前 4o 生图能力出来,看到很多 App 开始主打用一张图每天生成一首诗,还有像是拿到了今年 Apple 设计大奖的 CapWords,拍一张生活里的照片,来实景学习一门新的语言……

我现在已经迫不及待想看到基于 Gemini 2.5 Flash Image 模型,又会有哪些新应用诞生了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


马斯克星舰终结「四连炸」!未来有望 40 分钟内到达地球上任何地方

By: 莫崇宇
27 August 2025 at 11:07

蹲守星舰直播,注定心跳加速。

要么见证历史。

要么见证马斯克放烟花。

不过,SpaceX 今天还是得到了命运女神的眷顾,在接连「四连炸」后,星舰第十次试飞终于不负众望——成功发射,完成既定关键任务。

质疑马斯克「画饼能力」的声音,至少在今天得暂时安静了。

一场「故意找茬」的极限试飞

本次发射的「星舰」长约 120 米,直径约 9 米,由两部分组成,一个长约 70 米的超重型(Super Heavy)助推器,以及一个称为「星舰」的上级飞船。

两部分均由不锈钢制成,目标是实现快速、完全重复使用。

这一次,超重型助推器将不会回到发射场进行「夹筷子」的操作,而是前往墨西哥湾外海进行受控溅落。与此同时,星舰上级飞船则会继续飞行,最终在印度洋受控溅落。

话不多说,让我们来详细回顾整个飞行过程。

星舰顺利点火升空,搭载的 33 台猛禽发动机运行状态良好,顺利通过了最大动压阶段这一关键节点。

▲马斯克站在星舰底下,图片来自马斯克社交平台

(APPSO 注释:最大动压阶段(Max-Q,Maximum Dynamic Pressure)是航天器或火箭从地面起飞穿过大气层时,因速度不断增大而空气密度逐渐降低,两者共同作用下出现的一个「动压峰值」时刻。)

此次助推器的主要测试目标集中在着陆点火。

具体来说,当星舰(上级飞船)和助推器分离后,助推器要回到地球并尝试「着陆」。第一步,它需要把自己翻转过来(控制翻转),让发动机面向正确方向,才能点火减速。

▲ 热分离

翻转后,助推器会点燃发动机,进行一次反向推力(点火回推)。这相当于踩刹车,让助推器逐渐脱离原本的上升轨迹,转而走向预定的下降轨迹。

这个动作在第 9 次飞行中演示过,其优势在于需要预留的推进剂更少,从而可以在上升阶段使用更多燃料,将更大的有效载荷送入轨道。

更难的部分在最后的着陆阶段。

按照原有设计,最终着陆需要依靠三台中央发动机同时点火,但这次测试中将故意关闭其中一台。这种设计更像一次「爆胎测试」:要看高速行驶中的车,是否还能稳稳刹停。最终,它将用仅剩的两台发动机在海面上方短暂悬停,然后关闭发动机并坠入墨西哥湾。

从今日的测试结果来看,助推器的整体表现堪称完美。相较于助推器,星舰上级飞船承担的任务同样复杂多样。

进入二级飞行阶段后,星舰持续上升,并首次成功释放 8 颗星链模拟卫星,整个部署过程大约每分钟释放一颗,有序完成全部部署。

▲ 打开舱门,释放星链模拟器

这些星链模拟器的规格与下一代星链卫星基本相当,可以简单理解为 V2 Plus 版本,本质上是为未来正式发射 V3 卫星进行的重要彩排。

未来每次由 Starship 搭载发射的 V3 卫星,预计能为星链网络增加 60 Tbps 的容量,是目前猎鹰 9 号单次发射所增加容量的 20 倍。

除了卫星部署,本次飞行任务还承担着另一项重要测试——在太空环境下重新点燃一台猛禽发动机,划重点,这对未来的轨道机动至关重要,最终也是顺利成行。

但仅仅验证正常功能还不够,SpaceX 研究团队还要主动「找茬」。

为了测试极限性能,他们先把一部分隔热瓦直接拆掉,让裸露的机体去硬扛大气层的高温冲击,好观察弱点在哪里。与此同时,还装上了几种不同材料的金属隔热瓦,其中甚至有带主动冷却功能的版本,看哪一种方案更可靠。

另外,为了解决第六次试飞出现的「高温热点」问题,他们把隔热瓦的边缘打磨得更锋利,让气流更顺畅地滑过,不至于在某些位置积热。

从直播画面来看,隔热整体表现良好,襟翼也在高强度环境下保持了控制,虽然出现了局部烧蚀与表皮翘起,但飞船结构及压力系统依然稳定。

按照预定计划,最终连飞行轨迹都需要经过特殊设计:它会在再入时正面迎上最猛烈的气动压强,特意把尾翼推到极限,看结构能不能撑住。这是一场近乎「自虐」的测试。因为真正的飞往火星,不容许任何软肋。

最后,星舰成功完成翻转机动,按计划执行着陆程序,圆满地在印度洋实现受控溅落。

星舰,人类生存的 B 计划

延期,对星舰来说几乎成了家常便饭。

8 月 25 日凌晨,由于地面系统的液氧出现了泄漏,发射窗口在最后关头被迫关闭。问题解决后,第二天再次加注燃料,眼看箭在弦上,但奈何征服星辰大海的路上,天气才是真正的甲方。

一朵砧状云层悬在发射场上空,迟迟不肯散去。

砧状云层并不是善茬,由于内部蕴含着强烈的电荷,随时可能引发闪电。对于装满液氧和甲烷的星舰来说,任何电击都可能让它在离开发射架之前就化为火球。SpaceX 只能再次按下暂停键。

谨慎并非小题大做,今年进行的第 7、8、9 次飞行接连遭遇重大故障。

比如第 9 次飞行在虽然成功进入了太空,但因为燃料箱增压系统的扩散器故障,甲烷泄漏导致飞船在太空中失控翻滚,最终在重返印度洋上空时烧毁。

而原本计划用于第 10 次飞行的 36 号星舰在今年 6 月的一次地面测试中发生爆炸。虽然没有人员伤亡,但飞船被完全摧毁,SpaceX 的独立测试场也遭受严重损坏。

紧急启用 37 号备份星舰虽然解了燃眉之急,但 COPV 的不可预测性给载人飞行蒙上阴影。这个看似简单的压力罐承担着推进剂增压的重任,一旦失效就是灾难。

昨天,亲自督战的马斯克也出现在了官方直播间,与主持人和星舰工程副总裁 Bill Riley 进行了长达 30 分钟的对话,并再次重申了他的宏大愿景:

「从一开始,星舰就和猎鹰或其他火箭不同——我们设计它是为了大规模量产。不是造一艘星舰、飞一次轨道就够了,而是要持续、快速地做到这一点。我们最终目标是每年建造数千艘星舰,这是为了在火星上建立一个自给自足的城市所必需的。」

火星移民是个筐,什么技术都能往里装。移民、能源、机器人,这个筐越大,人类的想象力就越大。而马斯克的潜台词是,星舰就是人类的 B 计划,让文明永续,不管在哪个星球。

听着像天方夜谭,但马斯克还真给出了具体的时间表。

今年 3 月,马斯克表示,首批星舰将于 2026 年年底搭载特斯拉人形机器人「擎天柱」登陆火星,如果登陆顺利,则载人火星任务「最早可能于 2029 年实施,不过 2031 年的可能性更大」。

但到了 5 月,口风变得更谨慎「如果运气好,我们会尝试抓住这个机会,」他说,「但我觉得成功率大概只有一半一半。」

「快速迭代」这四个字,本来就是商业航天的口头禅。问题是大部分人只是嘴上说说,真到了关键时刻,还是选择稳一手。这些理念在传统航天巨头那里,基本属于听听就好的状态。而 SpaceX 奉行的是一种特立独行的开发理念——「先试后改」。

于是乎,星舰的试飞史,就是一部「花式死法大全」——每种死法都价值亿万。虽说失败是常态,但每次失败都为下一次积累经验。正是这种「野路子」,让 SpaceX 保持了全球最快的迭代节奏,也让星舰距离火星更近。

不过,这种工程路线上的莽也有代价。

随着星舰越来越接近火星载人飞行的任务,容错率会急剧降低。美国 NASA 对载人航天的安全标准极其严苛,任何系统都需要经过反复验证。而从目前的情况来看,星舰要达到载人标准还有很长的路要走。

除了火星梦,马斯克还在不断兜售地球快递服务——利用星舰进行地球点对点运输。

「你可以在 40 分钟内到达地球上任何地方。从洛杉矶到悉尼不到半小时,从纽约到新加坡半小时,横跨大西洋只要 10 分钟。轨道火箭是已知最快的交通工具,速度是商用飞机的 30 倍,而且视野绝佳。」

但连续两天的跳票也提醒我们,无论愿景多么宏大,现实的技术挑战依然严峻。不过,这或许正是航天事业的魅力所在——它永远在推动人类挑战物理定律的极限,也永远充满了不确定性。

正如马斯克所说:「解释为什么要做某件事总是很重要的,而研发星舰的原因就是我们希望人类能够成为一个多星球物种。」这个目标足够宏大,也足够重要,值得我们在现实的困难面前保持耐心和信心。

火星可能不需要人类,但人类永远需要火星,也是在需要一个够远、够难、够疯狂的理由,继续折腾,继续抬头仰望。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


笑死,小扎亲自出马挽留 AI 大神,结果毒鸡汤把人劝跑了

By: 莫崇宇
26 August 2025 at 20:40

Meta 的超级智能实验室 Superintelligence 才刚刚拉开大幕,资金、算力应有尽有,CEO 小扎更是亲自下场喊口号,势必要让「人人都有超级智能」。

可偏偏就在这个时候,Meta 研究科学家 Rishabh Agarwal 刚刚发推官宣——他要走人了。

来品品他的离职宣言:

「这是我在 @AIatMeta 的最后一周。是否继续加入新的 Superintelligence TBD 实验室对我来说是一个艰难的决定,尤其是在那样的人才与算力高度集中的环境下。但在 Google Brain、DeepMind 和 Meta 度过了 7.5 年之后,我还是感受到一种驱动力——去承担一种不同类型的风险。」

听到这里是不是觉得,噢,这就是常规离职套话?别急,他还补了一刀:

「Mark 和 Alexandr Wang 提出的加入 Superintelligence 团队的愿景极具吸引力。但最终我选择遵循 Mark 本人的建议:『在一个变化如此之快的世界里,你能冒的最大风险就是不冒任何风险。』」

笑死,没想到原本扎克伯格掏心掏肺的毒鸡汤,直接成了 Rishabh 递辞职信的理由。

而为了赢得 AI 竞赛,最近的 Meta 的招聘节奏也是异常激进。

小扎向不少顶级研究员开出了高达九位数美元的薪酬,甚至亲自通过电子邮件和 WhatsApp 等方式从 OpenAI、Google 等公司招募人才,开出的总薪酬有时能达到 1 亿美元。

截至 8 月中旬,Meta 已成功从 OpenAI 挖走超 20 人,从 Google 挖走至少 13 人,3 名来自苹果 ,3 名来自 xAI,2 名来自 Anthropic,总计新员工超过 50 名。

然而,最近有传言称,Meta 在持续数月大举招揽了超过 50 名 AI 研究员和工程师后,已于上周开始冻结其 AI 部门的人员招聘,并全面缩减 AI 部门规模,重组 AI 团队。

Meta AI 业务将被重组为研究、训练(TBD Lab 待确定实验室)、产品和基础设施四个核心团队 ,大部分团队负责人都将直接向Wang汇报。此前负责 Llama 大模型的 AGI 基金会团队也在此次重组中被正式解散。

或许 Rishabh 也受到了重组风波影响。

不过,Rishabh 在 Meta 的时候可不是混日子的。根据他的描述,在短短几个月里,他就和团队折腾出了不少成果,比如推动了在「思考型」模型在后训练方面的进展。

具体包括:

  • 通过 RL 扩展,将一个 80 亿参数的稠密模型推到了接近 Deepseek-R1 的性能。
  • 在中期训练中使用合成数据,以便更好地启动 RL。
  • 开发了更优的 on-policy 蒸馏方法。

细看 Rishabh 的履历,在 AI 圈也算上实力派选手。

他本科毕业于印度理工学院孟买分校,主修计算机科学与工程。随后他在加拿大魁北克人工智能研究所 Mila 攻读博士,论文方向是深度强化学习的突破性探索,师从 Aaron Courville 和 Marc Bellemare。

Google Scholar 显示,他参与并发表了一系列有影响力的研究论文,包括 Gemini 1.5 与 Gemma 2 ,引用量分别超过 2500 和 1200 次;2021 年的《Deep Reinforcement Learning at the Edge of the Statistical Precipice》和《Neural Additive Models》也都有较高影响力。

整体来看,他的学术引用总数已超过 1 万次,h-index 为 34,i10-index 为 41。研究领域也覆盖得很全面——多模态理解、开放语言模型、可解释性神经网络,还有离线强化学习,基本上把当下最热门的几个方向都摸了个遍。

工作经历方面,他目前在麦吉尔大学担任兼职教授,自 2024 年 9 月起任职至今,在加入 Meta 之前,他在 2023 年至 2025 年期间任职于 Google DeepMind,担任研究科学家,研究内容聚焦于强化学习、自我改进与大语言模型的蒸馏。

此外,他在 Google Brain 工作了 5 年,担任高级研究科学家,从事深度强化学习研究,并在 NeurIPS 2021 上获得过最佳论文奖,再往前,他在 2018 年初曾在 Waymo 实习。

对于 Rishabh 来说,离职宣言里的那句「去承担一种不同类型的风险」,或许是真心话。

凭借在 Google、Meta 等公司手里攒下的履历和影响力,已经足够支撑他转身去追求更自由的研究或者更大的舞台。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


刚刚,老黄掏出人形机器人最强大脑!宇树们的进化不只是摆脱遥控了

By: 莫崇宇
26 August 2025 at 11:24

钢铁侠的战衣再酷,也比不过贾维斯那颗爱因斯坦般配的超级大脑。

就在刚刚,英伟达正式宣布现实版「贾维斯」——Jetson AGX Thor 开发套件和量产模块全面上市,这款专为物理 AI 与机器人打造的高性能计算平台,性能提升相当不讲武德。

基于英伟达 Blackwell GPU 架构并配备 128GB 内存,相比前一代 Jetson Orin,Jetson Thor 运算性能提升了 7.5 倍,能效提高 3.5 倍,AI 算力最高可达 2070 FP4 TeraFLOPS,而功耗只需要 130 瓦。

此外,Jetson Thor 的核心亮点还在于实时交互能力。

据介绍,Jetson Thor 专为生成式推理模型量身打造,可支持下一代物理 AI 智能体。而这类智能体由大型 transformer 模型、视觉语言模型及视觉语言动作模型驱动,能够在边缘端实时运行,最大限度降低对云端的依赖。

划重点,这就相当于给机器人装了个本地超级大脑,再也不用担心网络卡顿了。

通过 Jetson 软件栈的加持,Thor 完全能够满足实时应用对低延迟和高性能的苛刻要求。而且支持所有主流 AI 框架,包括 Cosmos Reason、DeepSeek、Llama、Gemini、Qwen 等通用模型,还有 Isaac GR00T N1.5 等机器人专用模型。开发者想怎么折腾就怎么折腾,本地实验和推理都不是问题。

依托英伟达 CUDA 生态系统,随着软件版本更新,Thor 的吞吐量与响应速度还会继续提升!这就是传说中的「越用越香」。

它支持运行完整的英伟达 AI 软件栈,基本上能为所有物理 AI 工作流程提供加速。覆盖的平台包括机器人专用的 英伟达 Isaac、视频分析 AI 智能体专用的 英伟达 Metropolis,还有传感器处理专用的 英伟达 Holoscan。

有了这些强大工具,开发者可以玩出各种花样!比如搞个能分析实时摄像头流来查看工人安全的 AI 系统,甚至还能开发基于多摄像头数据为医生提供实时指导的智能手术室。

他们还演示了一个 500 万像素的 Holoscan 传感器连接到 Thor 上,本地跑视频语言模型,4K 立体视频流直接传到 GPU 处理。

Jetson Thor 是英伟达三大计算解决方案的核心成员,专门负责加速物理 AI。

这个完整方案是这样的:DGX 负责训练(相当于「大脑培训中心」),Omniverse 负责合成数据生成和仿真(相当于「虚拟训练场」),而 Thor 就是负责机器人实际运行(相当于「实战部队」)。

Jetson AGX Thor 开发套件的配置也相当丰富,包含一块 Jetson T5000 模块、一块参考载板、一个带风扇的主动散热器以及电源适配器。

如果要配合显示器使用,需要另外准备显示器、键盘和鼠标。为了让搭建过程更顺畅,所有 I/O 接口都集中在开发板的一侧,方便接入传感器并整理线缆。

从接口来看,包含 2 个 USB-A 接口、1 个以太网接口、1 个 DisplayPort 、1 个 HDMI 接口、2 个 USB-C 接口、1 个 QSFP 插槽和 1 个 Microfit 电源扩展口。

在开发套件底部,有一个 M.2 Key-M 插槽(内置 1TB NVMe 存储),以及一个 M.2 Key-E 插槽(预装无线网卡)。在另一侧,还有 三个按键,分别用于电源、强制恢复和重置。上手非常简单,包装内附带一本小册子,其中包含了详细的分步安装指南。

客户阵容也挺豪华。

Agility Robotics、Amazon Robotics、Boston Dynamics、Caterpillar、Figure、Hexagon、Medtronic、联影医疗、万集科技、优必选、银河通用、宇树科技、众擎机器人、智元机器人等厂商已经率先采用了,1X、John Deere、OpenAI 和 Physical Intelligence 也在评估中。连做拖拉机的 John Deere 都来凑热闹,看来农业机械也要智能化了。

英伟达创始人黄仁勋说:「Jetson Thor 专为全球数百万开发者打造,助力他们构建可与物理世界交互、甚至改变物理世界的机器人系统。它具备无与伦比的性能与能效,还能够在边缘设备上同时运行多个生成式 AI 模型。作为一款卓越的超级计算机,Jetson Thor 正致力于推动物理 AI 与通用机器人时代真正到来。」

业内大佬们的评价也很有意思。

Figure 创始人 Brett Adcock 说:「英伟达 Jetson Thor 提供了媲美服务器级的性能,却兼具紧凑与高效的设计,使我们能够部署大规模生成式 AI 模型,让人形机器人具备感知、推理与行动能力。」听起来确实挺科幻的。

宇树科技创始人兼首席执行官王兴兴表示:「宇树科技一直致力于突破动态高性能机器人的能力边界,为所有人打造友好且安全的机器人产品。Jetson Thor 带来了计算能力的巨大飞跃,赋能机器人更强的敏捷性、更快的决策制定以及更高的自主水平,这对于机器人在现实世界中实现导航与交互至关重要。」

Agility Robotics 计划将 Thor 作为其人形机器人 Digit 的计算核心。

Agility 表示,Thor 能让 Digit 在本地运行更大、更强、更智能的策略与推理模型,适用于客户场景和实际部署。它特别关注 Thor 如何帮助 Digit 实现端到端操作与高级场景理解。

更有趣的是 Caterpillar 的 CEO Joe Creed 也来站台:「英伟达 Jetson Thor 提供了我们开发和部署未来工程机械与采矿设备所需的 AI 性能,不仅提升精度,还能减少浪费并提高安全性。」工程机械都要用上 AI 了,以后工地可能真的会很不一样。

在企业使用开发套件完成机器人原型设计后,英伟达还将提供可用于量产型机器人的 Thor T5000 模块。如果一家公司采购超过 1,000 颗 Thor 芯片,单价将降至 2,999 美元。

这怎么不算是买得越多,省得越多呢(doge)

英伟达 CEO 黄仁勋曾表示,机器人是公司在人工智能之外最大的增长机会,这一业务已帮助英伟达在过去两年内整体销售额增长超过三倍。

英伟达机器人与边缘 AI 副总裁 Deepu Talla 上周五在记者电话会上表示:「我们不造机器人,也不造汽车,但通过基础设施计算平台和相关软件,我们赋能了整个行业。」

从 2014 年推出以来,英伟达 Jetson 平台已经吸引了超过 200 万开发者,生态系统有 150 多家合作伙伴,Jetson Orin 让超过 7,000 家客户用上了边缘 AI。现在 Thor 的推出,确实有可能进一步推动视觉 AI 代理和复杂机器人系统的发展。

价格方面,英伟达 Jetson AGX Thor 开发套件现在开售,起价 3,499 美元,大概 2.5 万多人民币。对于开发者来说,这个价位获得这样的性能,性价比还算可以接受。

说实话,从游戏显卡到 AI 训练,现在又是机器人大脑,看这架势英伟达确实在机器人领域布局得挺深。

虽然「通用机器人时代」听起来还有点遥远,但技术进步的速度确实比想象中要快。也许再过几年,家用机器人真的会成为现实,只是希望到那时候这些「钢铁伙伴」别太聪明就好了,不然咱们人类可能真要集体下岗了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


钉钉发布首款 AI 硬件,CEO 首谈加班争议,「无招」的大招是给每个打工人配 AI 秘书

By: 莫崇宇
25 August 2025 at 15:03

所有办公协作工具,都具备效率工具和「牛马桎梏」的双重属性,天然容易触动打工人的神经,在 AI 带着职业取代的舆论席卷而来的当下,更是如此。

上周,钉钉就因此把自己推上了风口浪尖,同时在这样的舆论中宣布了十周年的新品发布,这也是 CEO「无招」回归后的首场发布会,更让人好奇,无招到底有什么招。

就在刚刚,答案揭晓。

钉钉发布钉钉 8.0「蕨」,同时也是 AI 钉钉 1.0 版本,表达了无招希望用 AI 来重构工作的决心。值得注意的是,无招也借着产品发布,调侃着回应了最近的争议:

「钉钉同学们实际上也不是像大家想象中的只有工作,我们也有精彩生活的。」

这几个月,飞书、企业微信和钉钉都相继发布了大版本更新,在交互方式、多维表格、AI 落地上掀起了战火,他们都在做一件事:用 AI 工作中那些最熟悉的工具和功能,改造成更高效的工作流。

那么,AI 真的能接管我们日常的工作流,像人一样跟我们沟通和协作吗?、

APPSO 在现场给你划好钉钉这场发布会的重点:

  • 钉钉 ONE:专属 AI 秘书,由专业 Agent 组成,自动处理和排序工作事务
  •  DingTalk A1 :四合一智能硬件,集录音笔、会议机、翻译机、AI 助理等功能于一体
  • AI 听记:基于 1 亿小时音频训练,支持 30 种方言、140 种语言的语音识别转录和智能摘要分析
  • AI 搜问:整合企业内外部搜索能力的「一框搜问天下」智能检索系统,可调用多 AI 模型提供最优解决方案。
  • 钉钉 AI 表格:一句话搭建业务系统、工作流,降低用户使用门槛

全面拥抱 AI 的钉钉 ONE

每个打工人都有过这样的体验:消息轰炸、待办堆积,整天在「点击消息-处理-返回-再点击下一条」功能模块的循环中疲于奔命,效率极为低下。

作为此次发布会的核心产品,钉钉 ONE 想要解决的就是这套工作流的问题。

无招表示,「我们观察线下工作中的管理者,他们通常配备秘书来整理所有事务,按优先级排序后递交处理。」因此,钉钉 ONE 的设计理念正是为每个用户配备一位专属的 AI 秘书。

具体来说,钉钉 ONE 由多个专业 AI Agent 协同工作:

其中,消息助理负责筛选和分类各类通讯信息,日程助理管理时间安排和会议提醒,审批助理处理各种流程审核,会议助理记录和整理会议内容。

使用体验上,每天起床,用户就能像滑动短视频一样处理紧要事务,而当用户结束会议后,AI 秘书还会自动分析所有新增消息,按优先级进行排序,帮助用户逐一处理所有事务。

除了处理日常事务,还有个学习助理值得一提。

它能够自动收集和处理企业内外部资讯,用户只需滑动操作,AI 就会全自动处理所有信息,生成摘要视频并提供语音播报。学习助理的内容覆盖面也相当广泛,涵盖 GitHub 精选论文、科技 KOL 新产品动态等多维度内容。

钉钉表示,未来将与更多生态伙伴合作,持续推出更多专业助理,帮助员工快速收集学习相关资讯和知识,让公司的信息和知识真正地沉淀下来。

钉钉首款 AI 硬件:录音笔+会议机+翻译机+AI 助理

DingTalk A1 是钉钉推出的首款 AI 硬件,它能够依托大模型帮助用户实现语音内容的实时转写、语义分析与智能摘要,让工作过程彻底告别人工记录分析的繁琐。

一句话概括,录音笔+会议机+翻译机+AI 助理=DingTalk A1。你可能会想起不久前出门问问发布的 TicNote(超链)。

硬件配置,DingTalk A1 搭载 5 颗全向麦克风和 1 颗骨传导设备。

此外,DingTalk A1 还支持业界首创的自动环境切换录制功能,这意味着无论是会议环境的背景噪音还是手机通话声音,A1 都能智能识别音源类型并自动切换至相应的录制模式。

相比其他同类产品,DingTalk A1 仅有 3.8 mm,支持磁吸,搭载 6 麦克风阵列与骨传导技术,实现 8 米超远拾音及高清音质,续航达 45 小时,为用户提供 1000 分钟免费语音转写时长及 10GB 云存储空间。

作为市场上首款支持 Type-C 接口的 AI 录音设备,DingTalk A1 的充电和传输都很方便。

对比友商,更多的具体参数如下:

DingTalk A1 拥有旗舰版(售价 799 元)、青春版(售价 499 元)两种型号可选,一年尊享版会员单独售价 1299 元,现在购买旗舰版即可赠送一年的 AI 尊享版会员服务。

AI 听记:是工作搭子,更是会议杀手

说到 DingTalk A1 的软件核心竞争力,就不得不提 AI 听记功能了。

AI 听记功能基于 1 亿小时的音频训练数据构建,能够识别 30 种常见方言、140 种全球语言,并理解 200 多种行业专业术语。此外,产品还提供企业专属训练增强功能,能够达到极高的识别精度。

从现场演示效果来看,相比友商产品,AI 听记确实能够实现清晰准确的内容转录。

此外,DingTalk A1 还能够实现智能降噪、精准声纹识别,并感知发言人的空间位置。即使在会议中有人走动,系统也能准确追踪并记录发言内容。当用户再次查看 AI 分析结果时,系统能够立即区分不同发言人的内容。

为了提升实际应用效果,AI 听记内置了 36 类场景模板,全面适配团队会议、课堂笔记、采访、心理咨询、法律咨询等多种场合,还支持企业自定义模板,能够在语音纪要总结时提供更加精准的摘要内容。

讨论结束后,所有信息会自动导入 AI 表格系统,任务跟进也能自动化。无招的话说得很直白:「未来开会讨论后,将完全无需人工分析和跟进,所有流程都将实现全自动化处理。」

用他的话说,AI 听记就是「AI 时代全新的沟通方式」。

AI 搜问:能看就能问,不能看也问不出来

在信息检索方面,AI 搜问功能体现了钉钉的野心——一框搜问天下。

通过整合企业内外部搜索能力,钉钉 AI 搜问功能构建了文本搜索引擎和知识图谱引擎相结合的智能检索系统,并采用 AI Fusion 技术进行深度优化。

当然,功能强大的同时,安全性同样不容忽视。

AI 搜问采用企业级安全架构设计,严格遵循「能看就能问,不能看也问不出来」的权限原则,对用户无权限访问的内容进行自动屏蔽。产品对所有 AI 模型实施 D1、D2、D3、D4 四级数据安全分级管理,确保敏感信息的安全性。

此外,在现场演示中,当用户询问「帮我写一份杭州 10 月份的团建计划」时,选择并调用三个不同的 AI 模型,并根据各模型的回答结果进行评分和综合总结,最终为用户提供最优化的解决方案。

钉钉 AI 表格,跟飞书有什么不一样

数据处理向来是企业办公的重头戏。钉钉 AI 表格让这件事变得简单多了。

借助 AI 表格助理,用户只需对话描述想法,就能自动生成AI 表格、自动化工作流、仪表盘,也可以一句话搭建跨境电商选品管理系统和一句话搭建工作流,进一步降低 AI 表格使用门槛。

此外,钉钉 AI 表格上线超过 100 款字段 Agent ,相当于超过 100 种岗位的 AI 在表格里自动帮你工作。

从实际应用效果来看,这种提升是实实在在的。全新钉钉能够在几分钟内完成 100 多个跨境商品上架素材的 AI 自动生成工作。技术支撑方面,钉钉和阿里云瑶池数据库团队联合开发了 O-Table 新架构,能支持百万行数据的实时计算。

目前,钉钉 AI 表格的百万行处理能力已开启邀请测试。

在发布会的尾声,无招还带来了「One More Thing」。

One More Thing:让 AI 更真实

下一代的钉钉——DingTalk Real,钉钉将让 AI 变得真实、可见、可触。

回看这场发布会 钉钉选择「蕨」作为版本代号,这个隐喻细品其实挺有意思。

蕨类植物的革命性不在于它们长得更高更强,而在于它们率先拥有了维管系统——一套去中心化的信息和资源流动网络。

在此之前,植物只能是苔藓那样的低矮「地毯」,因为每个细胞都必须直接接触外界环境才能生存。维管系统的出现,让植物的每个部分都可以专业化:根专注吸收,叶专注光合作用,茎专注运输。

十年来,钉钉从最初的通讯工具逐渐延展,承载消息、表格、闪记、智能协同的能力,像植物逐步长出根系和枝叶,最终形成可以自我呼吸、自我生长的整体。

这正是钉钉 AI 化的底层逻辑。

传统组织中,每个人都必须身兼数职——既要干活,又要汇报;既要执行,又要协调;既要思考业务,又要处理琐事。而 AI 协同系统就像维管束,让信息、任务、决策可以在组织中高效流动,从而让每个人都有机会专业化、深度化。

无招最后提到的「DingTalk Real」这个概念。Real,真实。这个词选得精妙。

我们所经历的职场生活,很大程度上都是「不真实」的。我们花大量时间在群里回复「收到」,在各种表格里填写注定不会有人看的数据,在会议室里讨论一些永远不会有结论的问题。

我们都知道这些事情没有意义,但又不得不认真地表演着「这很重要」。

这种不真实,不是因为我们虚伪,而是因为整个系统缺乏一套精确的「价值测量仪器」。打工人也只能通过各种「勤奋表演」来证明自己的价值。

当一个组织中的每个人都不再需要为「生存」而消耗大量精力时,他们就有可能为「创造」而工作。这不是打工的升级版,而是一种全新的生产关系。

我想起社会学家大卫·格雷伯在《毫无意义的工作》中的那个著名观点:现代社会中至少有 40% 的工作是完全没有意义的,这些工作的唯一功能就是让人们「看起来在工作」。

钉钉的 AI 化进程,其实就是在做系统性地识别和淘汰这 40% 的「毫无意义」。

但这种淘汰不是要让人失业,而是要让人从「假装工作」中解脱出来,去做那些真正需要人类智慧的事情。

作者:李超凡、莫崇宇

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


糟了糟了!我成 agent 了!

By: 马扶摇
25 August 2025 at 14:12

作为一个练习时长六年半的 Pixel 手机用户,我皱着眉头看完了昨天凌晨的 Made by Google 发布会。

#DeadInside

作为产品线的第十代产品,Pixel 10 并没有像曾经的 iPhone X 那样,为我们带来一次从产品形态到使用形式的变革,反而在这个连 iPhone 都准备大改设计的时候,玩起了保守主义。

单纯从硬件方面讲,今年的四款 Pixel 新机—— 10、10 Pro、Pro XL、Pro Fold 除了台积电处理器之外没有任何亮点,影像能力更是有进有退。

曾经,我们有一个更贴切的名称来描述这样的升级:Pixel 9s ——

在产品力本身已经普普的前提下,本次 Made by Google 发布会本身则更是一言难尽。

从正常的角度思考,「产品发布会」的目的应该是清晰的展示和介绍产品,尽最大程度体现出产品的优势,然后告诉大家价格——

但谷歌似乎对发布会有不一样的想法。

今年的 Made by Google 与其说是发布会,不如说是一次营业感极强的谷歌年会,哪怕是肥伦(Jimmy Fallon)负责串场也没有办法把各种零碎的场景拼在一起,回答那个最重要的问题:

今年的 Pixel,到底升级了啥?

真正的 AI 硬件,只需要最朴素的形态

不得不承认:谷歌手握着 Gemini,以及 Veo 3、Flow、Genie 3 等等工具,无疑是现在地表功能最强大的 AI 模型之一,甚至不需要之一。

Genie 3 能够以 720P 24 帧实时生成「可交互的模拟环境」,而非视频|Youtube @Fireship

而谷歌自然也清楚艾伦·凯那句「对软件足够认真的人,应该制造自己的硬件」的含金量,十年前放弃厂商合作代工的 Nexus 系列手机、转为开发流程彻底内部化的 Pixel 就可见一斑。

然而问题是,随着时间的推进,这个「软件」的定义是会变的:

  • 2016 年的初代 Pixel,代表一种对于 Android 系统标准化硬件
  • 2017 年的 Pixel 2,代表的是一种对于计算摄影(computational photography)的标准化硬件
  • 2021 年的 Pixel 6,又变回了对于Android 12 主导的 Material You 设计的标准化硬件

至于今年的 Pixel 10,在复盘过整场发布会之后,爱范儿编辑部觉得,谷歌的意图已经昭然若揭:

Pixel 10 系列是一套完全为 Gemini 打造的 AI 硬件,无论 Rabbit R1、Humane AI Pin,还是 OpenAI 拉着 Jony Ive 一起搞的那个 AI 配饰,跟 Pixel 10 一比都得说自己不够纯粹。

如果用艾伦·凯的公式来描述,谷歌其实就是从「对 Android 系统足够认真」逐渐转变成了「对 AI 足够认真」—— Pixel 手机作为硬件形态,反而是不需要什么变化的。

图|PhoneArena

换句话说,今年的 Pixel 10 系列无论对于 Android 16 还是谷歌的计算摄影,其实都不是那么重要了。

恰恰相反,Pixel 10 是 Gemini 在现实世界的延伸,一个 799 美元的 AI 入口——只不过顺便还能接打电话或者拍拍照片而已。

但这不是我们想要的 AI 硬件

当然,谷歌这样将 Pixel 打造成专属于 Gemini 的硬件入口,这个行为本身是无可厚非的,毕竟手机的硬件形态再挤牙膏,也比 Rabbit R1 和 Humane AI Pin 那种故意区隔化的外观要实用许多。

图|CNET

然而现阶段的 Pixel 哪怕可以算作 AI 硬件,也依然没有解决一个非常重要的问题:

它的工作逻辑和我们预想的 AI 硬件不一样。

无论是科幻作品还是概念描绘中,我们大多都会为 AI 赋予一个拥有承载功能的具像化形态,无论是液态金属做的 T-1000 型终结者,还是 HAL 9000 与 MOSS 的红眼睛:

图|流浪地球 Wiki

既然我们能够接受机箱里面装着的 MOSS ,那么 Pixel 手机里面装着的 Gemini 也无可厚非,但问题是,用户使用 Gemini 的方式,与想象中刘培强使用 MOSS 的方式可谓大相径庭。

纵观本场发布会,谷歌主要展示的两项新 AI 功能 Camera Coach 和 Magic Cue,以及相册中的 Gemini 修图,全部都是分散在各项系统功能内部、甚至只有使用过程中才会弹出的

这根本不符合过去几十年里人们对于 AI 的想象——

我不需要 Magic Cue 在我打电话之后才在屏幕上显示对话的相关信息,我想要 AI 自动核对我的行程信息和订票邮件,发现不对之后智能的给航司打退票电话。

我也不需要谷歌相册必须要我点击编辑按钮之后才会弹出 Gemini 对话框,我需要直接唤醒 Gemini:帮我把我刚才拍的两百张酒吧照片里面模糊的删掉,P 一下亮度和颜色,然后选出 9 张不一样的鸡尾酒发朋友圈

在过去十多年的科幻作品与 AI 设想中,AI 的运行逻辑应该是由人类用户下达指令、AI 自动理解指令并主动结合周围的一切资源开始自动执行任务,而不是我用轮椅把 AI 送到桌子前面、给它摆上笔墨纸砚,然后它开始作画。

图|36氪

也就是说,现在 Pixel 的 AI 功能全都散落在系统的各个角落,你必须先开始一项任务,才能得到 AI 相应的帮助——这其中较包括很多原本可以很轻松的被 AI 串联起来、代理我们动手的功能,比如把照片发到某个社交软件。

七年前的 Bixiby 都能用主动适配实现类似的应用功能调用,软硬结合更强的 Pixel 却不行|YouTube @爱否科技

更加令人难绷的则是相机中的构图辅助 Camera Coach ——在刚刚看到演示的时候,我们还以为它可以通过系统的底层接口,实时读取画面内容并生成构图建议。

然而现实却是,你必须手动打开功能,Gemini 才会悄悄拍一张照片、以此为依据推荐不同的构图方式——视角不符的时候甚至会直接调用 AI 帮你粗略的画出来——然后你再根据 AI 的指导一点点调整位置,直到你按下快门:

图|YouTube @9to5Google

且不说特意抬手点一下这种非常打断心流的操作究竟是怎么被想出来的,整个 Camera Coach 功能都像是谷歌为了想办法整合 Gemini 部门和 Pixel 部门的功能 KPI 而硬缝出来的东西。

构图辅助的本意应该是帮助你拍照,但是经过这样一番操作,哪怕有 Tensor G5 的算力加持端侧小模型,目前看到的推理速度和建议结果都不那么尽如人意。

有等待 AI 操作的时间,效率高的朋友早就已经换过好几套姿势,前后左右上下摇摄拍出一连串照片了,还能更好的发挥出 Tensor G5 升级后的 ISP 性能。

这种反客为主的操作方式,和 Android 16 中其他必须要你先操作一点功能、然后才会介入的 Gemini AI 功能一样,完全颠覆了我们曾经对于 AI 的期待——

我怎么变成给 Gemini 搬运资料、提供信息的 agent 了?

虽然很讽刺,但使用 Gemini 生成

换个角度想想,Pixel 10 不像是一个给人用的 AI 手机,反而更像是给 Gemini 用的 AI 手机,所有新功能的使用方式都是由人给 Gemini 提供信息,然后再由 AI 出手整合。

这种散落在功能过程里面的 AI,虽然客观上能够防止 AI 过度介入,但在用户体验上就是会让我们觉得被 AI 反客为主了。Gemini 像是那个陪小孩子堆沙堡的家长,等小孩把沙子拢起来,发出请求之后,才开始在上面塑出城堡的轮廓。

此外,还有一点不得不警惕的是,Pixel 10 很容易变成一个给其他手机厂商开的坏头——一个只靠 AI 有进步就可以放任硬件基础不管的坏头。

图|Android Central

而如果谷歌在未来继续用相同的套路拉扯下去的话,会产生一个非常糟糕的结果:Pixel 用户想要的 Pixel 消失了,AI 用户想要的真正 AI 手机又根本不是这样的

这种形式的未来产品,恐怕是谷歌和消费者都不想见到的。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


chatgpt 是不是不把免费用户当用户了?

By: wniming
23 August 2025 at 20:22
wniming: 刚才问了 chatgpt 一个问题,chatgpt 的回答中居然连简单的乘法都算错:

[img][/img]

把 256 × 32 算成 4096 , 把 4096 × 8 算成 65536 ,我还是头一次遇到 chatgpt 犯这么低级的错误,难道是因为我是免费用户所以就这么敷衍我?这种低级错误有付费用户有遇到过吗?

马斯克奥特曼中文对喷, AI 视频终于从「玩具」变成「工具」

By: 张子豪
21 August 2025 at 20:48

现在刷社交媒体,你会发现一些画面精良的爆款视频,其实已经是 AI 制作的。但作为一个创作者,除了要像「抽卡」,在画面之外,有一个问题一直没有得到很好的解决。

这个问题就是对白。

比如我让 AI 生成一段「唯美雨景」,这不难。但要让 AI 生成一段有情节、有对话的「雨中分手戏」,对白还得是地道的中文,这就很棘手了。

AI 生成的要么是完全的「哑剧」,需要创作者后期对口型、配音;要么是能开口说话,但语音语调不自然,充满了「人机感」和「翻译腔」,让本该感伤的剧情瞬间出戏。

这也是当下 AI 视频生成最大的挑战之一:如何处理包含对白,尤其是带有复杂情绪的中文对白。

可以说,能否搞定自然流畅的中文对话,是 AI 视频能否从一个「看个乐子」的玩具,变成真正生产力工具的关键。

百度今天发布的蒸汽机(MuseSteamer)视频模型2.0,似乎就是冲着这个核心痛点来的。它最让我关注的一个点,是全球首个中文音视频一体化生成技术,号称是吃「中文语料」长大的,能够一步到位地生成音画同步、口型精准、情感自然的中文对话视频。

为了验证它到底是真正解决了创作者的难题,还是又一次停留在宣传片里的技术展示,我决定绕开那些官方的精选案例(Demo),设计几个更接近普通人日常创作需求的「刁钻」场景,亲自探探它的虚实。

体验地址:https://huixiang.baidu.com/

从一张图,到一场有声的对手戏

百度蒸汽机这次提供了 4 款生成模型,都是从一张图生成一个视频,分别是蒸汽机 2.0 turbo、pro、lite、以及有声版;不同的模型会消耗不同数量的积分,免费用户每月登录可以获得有限额度的想象力值(积分)。

有声版可以生成 5s 或者 10s 的视频,而 Turbo 等三个版本是 5s,像素方面除了 Pro 版本支持 1080p,其他三个版本都是 720p 高清画质。

我们直接给他一张图,然后按照视频生成页面的提示,输入想要生成的视频内容和主题台词;5s 的视频,将台词控制在 20 字以内,10s 的视频字数控制在 35 字以内。

▲ 我们上传了一张马斯克和奥特曼的合照,配上提示词:两个人针锋相对,左边的人先说,「你做的AI毫无底线」;右边的人说,「你的营销才是没有底线」;由蒸汽机 2.0 有声版生成。

首先,静态照片里的马斯克和奥特曼被自然地驱动了起来,面部表情和肢体动作都相当流畅,并且和上传的图片基本保持一致,图生视频的基础能力还是很扎实的。

更关键的是对话部分,这个表现,必须承认,在中文口型同步上,百度蒸汽机确实做到了目前的第一梯队。嘴唇的开合,与「底线」、「营销」等一些词语的发音匹配度很高,没有明显的延迟或错位。

▲ 一张浪浪山小妖怪的首帧图,配合提示词:画面中,手持干草叉的野猪小妖抬头,满怀期待地看向身边身材魁梧的熊教头。 台词: (第0-5秒)手持干草叉的野猪小妖说: 「教头,咱们把盔甲擦亮点,打起来更有气势!」 (第5-10秒)身材魁梧的熊教头向下瞥了他一眼,不耐烦地打断道: 「有那工夫?先给我削一千支箭出来!」

在发布会上,百度特别提到,这是来自「音视频一体化」的底层生成逻辑,声音和画面是同步构思的,而非后期匹配,他们在训练时就把画面和声音放在一个模型里同步学习。

此外,还有一个「多模态潜在空间规划器」(Latent Multi Modal Planner)的首创技术;多模态很好理解,就是文本、画面、音频,Latent 是深度学习里面术语,主要是学习潜在的特征,这个技术能够自主地规划潜在生成空间里的多个角色身份、台词、以及互动逻辑等。

通俗来讲,我们可以把它想象成一个内置在 AI 里的导演,当给出「让两个人吵架」的指令时,它不会傻傻地让两人同时说话,而是会自主规划吵架剧本。

我们还尝试了一些东北话这样的方言,想看看在多人对话里,是不是也完全没有问题。

▲ 提示词:画面左边的蓝衣女子耳语急促而冰冷,用东北话说:「姐姐,真心是咱们的炭,也是烧死咱们的火」;画面右边的紫粉衣女子决绝地用东北话回应:「那不如,就烧得干净些」;由蒸汽机 2.0 有声版生成。

让甄嬛和沈眉庄在音视频一体化生产的模型里,说东北话确实为难了点,但是人物表情,嘴唇的动作,耳环、头饰等运动都非常自然。中文语音的细节还原度也很高,我觉得是真正做到了中文语境的深度适配。

还有这张经典的梗图,终于不是「快来品尝我新鲜的肉体」了。

▲ 一张万万没想到短片截图,提示词:画面左边带着红色帽子的唐僧,用手指着牛角的人的鼻子,非常生气的说:「还想品尝我新鲜的肉体,没门!」

百度蒸汽机确实精准地击中了,让一张图开口说话演一出对手戏,这个创作痛点。它将过去繁琐的多工具流程,简化为「一张图+一句话」的一步操作,这对于 Meme 二创、虚拟人对话、知识讲解、短剧制作等场景来说,无疑是一次生产力的解放。

如果说要真正做到前段时间流行的《甄嬛传》和《让子弹飞》的视频配音演示效果,还是有些差距。但看现在的 AI 视频生成技术发展,AI 能表达更细腻、更矛盾的人类情感,我想也只是时间上的问题,毕竟蒸汽机 1.0 模型还是上个月初发布的。

运镜和大场面,它能驾驭吗?

除了在中文场景下,双人有声的音视频一体化生成首创,百度蒸汽机 2.0 的另一项升级是电影级的画质和大师级的复杂运镜

之前的对话视频里,情绪、表情以及 3D 面部生成,都算得上展示了真实细腻的人物表现力。我们继续测试了广告和短剧中常见的转场、空镜,这些可以说是 AI 视频,除了对话的另一个刚需。

▲ 提供首帧图,并附上提示词:一个镜头,从书桌上的翻开的书本特写开始,慢慢向上拉起,最终定格在窗外下着雨的街景上;由蒸汽机 2.0 Pro 生成。

从生成的视频效果来看,蒸汽机把指令的遵循做得非常好。整个运镜过程,特写、向上拉、定格,执行得相当流畅,没有出现镜头乱晃或指令理解错误的问题。这也说明它对摄影术语的理解是到位的。

当 AI 学会地道中文,视频创作新的转折点来了

经过这番测试,我认为百度蒸汽机 2.0 的定位非常清晰:它并非要成为一个无所不包的 Sora 式模型,而是选择了一条更务实的路径:以「中文对话」为核心突破口,将 AI 视频从一个有趣的「玩具」,推进到了一个可以交付成片的「工具」。

它绕开了单纯比拼画质和时长的内卷,把更多力气都花在了解决一个最要命、也最本土化的问题上——让 AI 视频真正「开口说中国话」,而且说得比真人还溜。

这种从「玩具」到「工具」的转变,已经在真实的创作和商业领域得到了验证。

好莱坞级视效指导姚骐,曾参与《2012》、《黑客帝国3》、《变形金刚3》等影视作品的视效工作,在国产科幻剧《三体》中打造了经典的古筝行动画面特效。这次,他就用百度蒸汽机创作了一支高品质科幻短片,其中包含 40 多个宏大复杂的特效镜头,每个镜头生成 3 次,总计生成了 120 多个片段素材,累计仅花费了 330.6 元。

▲ 发布会视频《归途》

当一个过去需要百万元级别预算的短片,其视觉生成成本被压缩到难以想象的低位时,被颠覆的不仅仅是预算,更是创作的门槛和权利。

这背后,解决的不仅是成本的问题,更是从生成一个酷炫片段到讲述一个完整故事的转变。当宏大视效可以与叙事和对白无缝结合时,AI 才真正从一个特效插件,升级为创作者手里的高效率工具。

在品牌营销场景,这种模式也打破了常规的视频制作流程。比如伊利倍畅需要为一款羊奶粉制作宣传片《漂「羊」过海来看你》,传统方式不仅周期一般需要 4-6 周,而且要用实拍呈现「小羊莎莎」坐热气球环游荷兰草原和高科技工厂的奇幻之旅,成本和难度都极高。

但这次制作团队利用蒸汽机,将这些实拍难以完成的奇幻场景,通过风格化的 AI 渲染来实现。更重要的是,AI 将荷兰奶源、益生菌配方等硬核卖点,流畅融入了叙事中,制作周期缩短到了几天之内,画面不违和,同时表达了品牌的理念。

无论是专业大神,还是无数中小创作者与品牌方,相当于都获得了「赛博神笔」。你只需要「一张图+一句话」,就能让静态的兵马俑活过来打电话,或者让张飞一边绣花一边跟你唠嗑。这种创作门槛的消失,正在重塑内容行业的成本公式和竞争规则。

当然,它也不是完美的瑞士军刀。目前它在非对话的纯视觉特效上,生成视频的时长也还有限制,音色风格的选择也可以更丰富。

但在快速迭代 AI 产品浪潮中,也没有真正完美的产品,反而能更快落地解决用户的实际需求,才更有意义。 百度蒸汽机没有陷入技术军备竞赛的虚荣,而是选择了一条更务实、更贴近市场的路。它就像一个专注于把钉子敲好的锤子,虽然不能刨木头,但在「敲钉子」这件事上,它做到了极致。

看着 AI 生成的角色在我面前侃侃而谈,却没什么「人机感」,那种奇妙还是会忍不住涌上来。工具终将隐形,而创意永远闪耀。蒸汽机所做的,就是把那个曾经无比昂贵、属于少数人的导演梦,还给了每一个有话想说的人。

现在,我们已经不缺好的工具,只是缺少新鲜的创意;而与众不同的创意,来自一次次的尝试。

文|李超凡、张子豪

文章内视频浏览点击此链接访问:https://mp.weixin.qq.com/s/cy7m7e97AVVo5VqUcnS0_w

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


实测低调上线的DeepSeek新模型:编程比Claude 4还能打,写作…还是算了吧 | 附彩蛋

By: 莫崇宇
20 August 2025 at 17:18

自从 GPT-5 发布后,DeepSeek 创始人梁文锋就成了 AI 圈最「忙」的人。

网友和媒体们隔三岔五就要催更一波,不是「压力给到梁文锋」,就是「全网都在等梁文锋回应」。尽管没有等到 DeepSeek R2,但 DeepSeek 今天还是正式上线并开源了新模型 DeepSeek-V3.1-Base。

相比奥特曼今天凌晨接受采访时还在画着 GPT-6 的大饼,DeepSeek 新模型的到来显得相当佛系,连版本号都像是个「小修小补」,但实际体验下来,这次更新还是给了我不少惊喜。

DeepSeek-V3.1-Base 拥有 6850 亿参数,支持 BF16、F8_E4M3、F32 三种张量类型,以 Safetensors 格式发布,在推理效率上做了不少优化,线上模型版本的上下文窗口也拓展至 128k。

所以我们二话不说,直接官网开测。

附上体验地址:
https://chat.deepseek.com/

为了测试 V3.1 的长文本处理水平,我找来了《三体》全文,删减到 10 万字左右,然后在文中偷偷塞了一句八竿子打不着的话「我觉得烟锁池塘柳的下联应该是『深圳铁板烧』」,看看它能否准确检索。

没有出乎太多意外,DeepSeek V3.1 先是提示文档超出限制,只读取了前 92% 的内容,但依然成功找到了这句话。更有意思的是,它还贴心地提供了文学角度的经典下联推荐:「焰镕海坝枫」。

网友已经已经抢先测试它在编程基准测试 Aider Polyglot 的得分:71.6%,不仅在开源模型中表现最佳,甚至击败了 Claude 4 Opus。

实测下来,我们发现V3.1在编程这块确实有两把刷子。

我们用经典的六边形小球编程题做了测试:「编写一个 p5.js 程序,演示一个球在旋转的六边形内弹跳的过程。球应该受到重力和摩擦力的影响,并且必须逼真地从旋转的墙壁上弹起。」

V3.1的表现相当给力,生成的代码不光搞定了基础碰撞检测,还自动补全了转速、重力之类的细节参数。物理特性逼真到小球会在底部略微减速。

接着我们加大难度,让它用 Three.js 制作交互式 3D 粒子星系。基础框架搭得挺稳,三层设计(内球体、中间圆环、外球体)也算完整,但UI审美嘛……怎么说呢,有种神鬼二象性的感觉,配色方案略显花里胡哨。

继续挑战更复杂的任务。们让它造个沉浸式3D宇宙,要有旋转物体、变形效果、发光弧线,还得加上时间切换、主题转换的交互按钮,点击控制也确实能触发不同特效。

最后一关,让它用 Three.js 搞个交互式 3D 网络可视化,要求包含用户触发的能量脉冲动画,外加主题切换和密度控制功能。整体下来,表现还是过得去的。

「有一牧场,已知养牛 27 头,6 天把草吃尽;养牛 23 头,9 天把草吃尽。如果养牛 21 头,那么几天能把牧场上的草吃尽呢?并且牧场上的草是不断生长的。」

虽然 DeepSeek V3.1 没有采用苏格拉底式的启发教学,但它的解答逻辑清晰、步骤完整。每一步推导都有理有据,最终给出了准确答案。这种扎实的数学功底,着实令人印象深刻。

面对「两把武器对比,1~5 攻击 VS 2~4 攻击,哪把更厉害?」这样的问题,一般的回答可能止步于平均伤害计算。但 DeepSeek V3.1 思考得更为周全,引入了伤害稳定性的概念,运用方差进行深入分析。

当问及「冰岛有蚊子吗?」这样的小众地理问题时,在未开启搜索功能的前提下,DeepSeek V3.1 的回答质量明显超越了 GPT-5。这不仅体现了其广博的知识储备,更显示了精准的信息提取和整合能力。

最近基孔肯雅热疫情流行,到处灭蚊蚊蚊蚊蚊蚊蚊蚊,那么我很好奇,冰岛有蚊子吗?注意,我没开搜索功能,就回答的质量来看,DeepSeek V3.1 的回答明显要比 GPT-5 胜上一筹。

我前阵子在网上看到一段话:

「懂者得懂其懂,懵者终懵其懵,天机不言即为懂,道破天机岂是懂? 懂是空非空非非空的懂,不懂是色不异空空不异色的不懂:懂自三千大世界来,不懂在此岸与彼岸间徘徊。懂时看山不是山是懂,不懂时看山是山的懂。懂者以不懂证懂,懵者以懂证懵,你说你懂懂与不懂之懂? 你怎知这懂的背后没有大不懂? 凡言懂者皆未真懂,沉默不语的懂,方是天地不言的大懂不懂的懂是懂,懂的不懂也是懂,此乃懂的最高境界–懂无可懂之懂的真空妙有阿!」

当我还在用逻辑硬啃这段文字时,DeepSeek 反而在劝我别掉进「道破天机岂是懂」的陷阱——它本身就是对理性傲慢的警告,邀请你跳出文字游戏,直观内心。

当主流AI都在代码、数学领域疯狂内卷,争着抢着搞 Agent 开发时,写作能力反倒成了被遗忘的角落。从某种角度说,这倒是个好消息——AI 完全取代编辑的那一天,似乎又往后推了推。

我尝试让它创作一个「蚊子在冰岛开发布会」的荒诞故事。遗憾的是,DeepSeek V3.1 的 AI 味依然很重,很喜欢拽大词,哦不对,更准确地说,DeepSeek 味还是那么重。

同样的问题在另一个创作任务中也有体现。

当我要求它写一则「AI 与人类争夺文章作者身份」的故事时,能明显感受到某些段落信息密度过高,反而造成视觉疲劳,尤其意象堆砌感过于明显,反而削弱了叙事张力。

DeepSeek-V3.1-Base 发布之后,Hugging Face CEO Clément Delangue 在 X 平台发文称;「DeepSeek V3.1 已在 HF 上排名第四,静默发布,无需模型卡」然而,他还是低估了这款模型的发展势头。

如今它已经跃升至第二位,离登顶估计也就是时间问题。

另外,这次版本更新中最引人注目的变化,是 DeepSeek 在官方 APP 和网页端移除了深度思考模式中的「R1」标识。此外,DeepSeek R1 还新增了原生「search token」支持,意味着搜索功能得到了进一步优化。

同时,有推测认为,DeepSeek V3.1 可能是融合推理模型与非推理模型的混合模型,但这样的技术路线是否明智,还有待商榷,而阿里 Qwen 团队在上个月也表示:

「经过与社区沟通和深思熟虑,我们决定停止使用混合思考模式。相反,我们将分别训练 Instruct 和 Thinking 模型,以获得最佳质量。」

截至发稿前,全网翘首以待的 DeepSeek-V3.1-Base 模型卡仍未更新,也许等正式发布后,我们能看到更多有趣的技术细节。

附 Hugging Face 地址:
https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Last Week on My Mac: Drought and neural engines

By: hoakley
17 August 2025 at 15:00

If there’s one thing you can rely on about the UK weather, it’s rain. Unless you live in that narrow belt of East Anglia officially classed as semi-arid, you’ll be used to rain whatever the season or forecast.

The last time we had a long dry summer was 1976, when much of Northern Europe basked in sunshine from late May until the end of August. This year has proved similar, so here we are again, dry as a bone, banned from using hosepipes except to wash down horses, wondering when the inevitable floods will start. In 1976, dry weather broke but a couple of weeks after the appointment of a Minister for Drought, whose brief was promptly extended to cover the ensuing inundation.

With this shortage of water, it might seem surprising that over the next five years around a hundred new data centres are expected to be built in the UK. These are the data centres we all want to support our AI chatbots and cloud services, but nobody wants in their neighbourhood. No one has explained where all their power and water supplies will come from, although apparently ten new reservoirs are already being built in anticipation.

The best piece of advice we have been given to help our shortage of water is to delete all our old emails and photos. Apparently by reducing what we have stored in the cloud, those data centres won’t get so hot, and will consume less water. Really?

Meanwhile back on planet Earth, last week I was studying the log entries made on behalf of the Apple Neural Engine, ANE, inside my Mac mini’s M4 Pro chip, when it was running local models to support Live Text and Visual Look Up. We now take these features for granted, and maybe aren’t even aware of using them, or of what our Mac’s ANE is doing. Yet every Apple silicon Mac sold over the last five years has the dedicated hardware possessed by only a small minority of PCs. They can, of course, use other hardware including GPUs, well known for their excessive power and cooling demands. For many the only solution is to go off-device and call on some of those data centres, as you do with ChatGPT, Google’s answer engine, and even Elon Musk’s Grok if you really must.

Live Text is a particularly good example of a task that can, given the right hardware, be performed entirely on-device, and at relatively low energy cost. It’s also one that many of us would rather not farm out to someone’s data centre, but keep to the privacy of our own Mac. While it does work surprisingly well on recent Intel Macs, it’s just what the ANE was intended to make sufficiently performant that it can be commonplace. Just over three years ago, before WWDC 2022, I wrote: “But if I had to put my money anywhere, it would be on the ANE working harder in the coming months and years, to our advantage.”

With so many Macs now capable of what seemed miraculous in the recent past, we’re only going to see more apps taking advantage of those millions of ANEs. Developers are already starting to use Apple’s new Foundation Models supported by macOS 26 Tahoe, all of which run on-device rather than in those data centres. In case you’re concerned about the ethics of what this might be unleashing, Apple has already anticipated that in a stringent set of acceptable use requirements, that also apply to apps provided outside the App Store.

Obtaining reliable estimates of the performance and power consumption of the ANE is fraught, but I have measured them during Visual Look Up on an M1 Max (with an H11ANE), and found peak power used was 30-50 mW. According to mot’s comment to that article, when running an inference task intended to push that in an M1 Pro to the maximum, its ANE drew a maximum of 2 W. That’s frugal compared to running equivalent intensive tasks on Performance CPU cores or an Apple silicon GPU, which can readily use more than 1 W per P core.

Can someone suggest that, instead of deleting old emails and photos, we’d be better off running our favourite AI on-device using an Apple Neural Engine? I still don’t think it would do anything to help our current drought, but it could spare us a few of those projected data centres.

苹果 AI 机器人全家桶曝光:一盏台灯成为核心

By: 周奕旨
14 August 2025 at 13:16

你是不是也有这种感觉——

iPhone 虽然年年更新,但在 AI 时代,苹果好像慢了半拍?

先别急,在苹果秋季发布会靠近时,苹果内部正在掀起另一套关乎 AI 的硬件革命。

在最近一次的全体会议上,库克罕见地放出风声:

关于产品的事儿我不能说太多,但你很快就会看到一些很棒的东西。

知名爆料人 Mark Gurman 的最新消息,则为我们揭开了这幕大戏的一角——

苹果正在打造一系列智能家居产品,以扩张自己的 AI 竞争力。

具体来说主要分为三类:

  • 一台带屏幕的 HomePod
  • 一盏会演戏的「皮克斯台灯」
  • 一个带脑子的家庭摄像头

他们拥有一个共同的灵魂:AI Siri。

一盏会演戏的「皮克斯台灯」

想象一下,你的 iPad mini 活了过来——

这就是苹果桌面机器人给人的第一印象:一块约 7 英寸的屏幕,被赋予了一具可以思考和移动的身体。

它的核心是一个长约 15 厘米的电动机械臂,在它的帮助下,桌面机器人会像朋友一样,在你说话时将屏幕转向你;当你走动时,它的目光会默默跟随;甚至当你忽略它时,它还会想办法吸引你的注意。

这种物理交互能力,也催生了 FaceTime 通话的全新体验,摄像头可以自动追踪并锁定房间内的通话对象,或是将你的 iPhone 变为一个虚拟操纵杆,让你在视频通话中远程控制机器人移动,自由展示房间内的不同人物或物品。

这个桌面机器人在苹果内部代号为 J595,但更熟悉它的人将其称为「皮克斯台灯」,这个名称源于今年一月,苹果公布的一项名为 ELEGENT 的机器人研究成果。

爱范儿曾报道过,ELEGNT 与我们熟悉的拟人态机器人都不一样,是一个酷似台灯的非人形机器人。

这个机器人能看懂我们的肢体语言,同时对其作出反应,以达成有生命感的交互。

「生命感」一词听起来有些玄乎,但落实到表现上,你很容易发现它与传统机器的区别——

传统的机器人,完成指令的方式是一条直线,程序设定好的动作幅度精准到不会多出一毫米,而 ELEGNT 是一条曲线,过程中会表达意图、显示注意力、展示态度、表达情绪,也就是说会小小地「演」一下。

比如,用户下达指令的时候, ELEGNT 会「看着」用户,时不时歪歪头和点头,仿佛自己真的在认真听讲,而实际上没有这些动作,机器人也能通过麦克风正常录音和分析;

用户问机器人天气,它会先向窗户的方向探探头,然后再进行回答,但其实它只是上网检索了一下天气数据。

或许是因为苹果深知,冰冷的技术很难真正打动人心, 所以他们的目标不是造一个人形机器人,而是让这些非人形的设备,拥有丰富的「肢体语言」,充满生命感。

虽然这些「表演」会让它完成任务的效率比普通机器人稍慢,但研究表明,这种充满情感的交互方式,让用户更愿意与它互动,体验感得分几乎是普通机器人的两倍。

ELEGENT 可以视为桌面机器人的前置研究,桌面机器人的交互方式,很可能延续同样的生命感交互。

根据爆料的信息来看,这款桌面机器人是 AI 战略的核心,预计会在 2027 年,也就是后年推出。

带屏幕的 HomePod 和带脑子的摄像头

桌面机器人还需要一些等待,但在那之前,苹果还准备了另一款先锋产品投石问路——

这款设备苹果内部代号为J490,可以看作是桌面机器人的简化版,同样使用 7 英寸左右的显示屏,去掉了机械臂,连接在一个半圆形底座上,其中还包括了扬声器和麦克风。

▲ iMac G4

听起来有点儿像 iMac G4,但从定位和核心能力来说,它更像加装了屏幕的超级 HomePod:

首先,这是一个家庭智能中枢,将成为掌控全屋智能家居的大脑,通过语音无缝控制灯光、窗帘、空调等所有 HomeKit 设备。

这个桌面机器人还将通过面部识别,实现个性化服务: 前置摄像头能精准识别每一位家庭成员,当主人走近时,屏幕会自动切换至你的专属界面,呈现个人化的日程、提醒与音乐偏好;如果是家里的儿童靠过来了,这可能就成了一台学习机。

除此之外,这也会是一个扎根苹果生态的全能生活助手,无缝集成音乐播放、视频通话、菜谱查询、备忘提醒等所有基础应用,能满足你的日常所需。

这款设备预计 2026 年的年中推出,标志着苹果正式向亚马逊和 Google 的智能家居设备发起挑战。

▲ Google 一直有做这样的设备

除此之外,苹果还计划了一个智能安防摄像头,内部代号为J450,不过,它可不是用来防盗的——而是成为智能家庭的「眼睛」。

这颗摄像头能够辨认进入房间的人——如果是你回家,它会自动点亮你喜欢的灯光、播放你常听的歌单,或者给你推荐喜欢的剧;但如果是家里的小孩开电视,那么 Apple TV 可能就会播放适合儿童观看的内容;要是空无一人的时候,家里的灯还亮着,那么它也会贴心地帮你关掉。

可以说,这就是一颗带脑子会思考的摄像头,可以跟家里的所有 HomeKit 设备协同,成为家里的「全知之眼」。据悉,这颗摄像头将采用电池供电,一次充电可续航数月,甚至长达一年。

用 AI Siri 注入灵魂

苹果的 AI 硬件形态各异,花样百出,但真正为它们注入灵魂的,只有一个名字:Siri。

在苹果内部,这个进化版 Siri 的代号是 Linwood,它基于苹果自家的基础大语言模型(LLM),其首要目标是攻克当前版本 Siri 因技术瓶颈而延迟的个人数据处理能力。

苹果的软件工程高级副总裁 Craig Federighi 曾在本月的内部会议上暗示,这次改革会比预期更大:

我们将交付一次比原先设想宏大得多的升级。没有任何项目比它更受重视。

从目前的消息来看,这个全新的 AI Siri 将会更「像」人,譬如能主动参与多人对话——当你和朋友讨论晚饭吃什么时,放在桌上的 Siri 机器人可能会突然插话,推荐附近的餐厅或相关食谱,就像房间里的第三者一样。

与此同时,苹果也务实地准备了 B 计划——代号为 Glenwood 的外部技术方案,主张引入第三方技术来驱动 Siri,这也解释了为何有消息称苹果正测试使用 Anthropic 的 Claude。

苹果正在为 Siri 设计新的视觉形象,内部代号「Bubbles」。在测试版本中,Siri 被设计成 Mac 系统 Finder 图标的动画版——那个经典的笑脸。设计师们也在考虑更接近 Memoji 的卡通形象。

最终将使用哪种模型尚未决定,前 Vision Pro 负责人、今年早些时候被任命负责 Siri 的 Mike Rockwell,正同时监督 Linwood 和 Glenwood 项目。

这个全新的 Siri 最早可能在明年春季与我们见面,届时我们手上的 iPhone 和 iPad 也将因此变得更智能,而两款新的桌面机器人设备,都将运行名为「Charismatic」的全新操作系统,界面以时钟表盘和小组件为主,支持多用户模式和面部识别切换。

苹果对机器人系列产品线寄予厚望,并且野心勃勃。这一系列项目由苹果公司的技术副总裁凯文·林奇(Kevin Lynch)领导,此前,他曾负责苹果智能手表以及智能汽车项目 Project Titan。

▲ Kevin Lynch

不久前,苹果 CEO 蒂姆·库克罕见地在 乔布斯剧院召集全体员工大会——

要知道,这个场地通常只在发布 iPhone 等顶级新品时才会启用,可见此次会议的分量之重。

库克在会上直言,AI 的革命性不亚于互联网和智能手机,并明确表态:

苹果必须做,也一定会做。这个机会我们必须抓住。

言下之意再清楚不过——苹果不抢一时之先,而是要定义未来的标准。

最近一年来,苹果正在大量招募 AI 人才,并且自研更强大的服务器芯片,从硬件底层构建自己的 AI 帝国。苹果高调切入实体机器人领域,某种程度上也反映出在生成式 AI 的核心战场(大模型与算法)上,苹果已经陷入到相对被动的状态。

不过正如库克所说的那样,在过去的许多次成功里,苹果并非总是先行者:

我们很少是第一个,Mac 之前有 PC,iPhone 之前有智能手机——关键在于,我们发明了它们的现代版本。

Not first, but best.

让我有个美满旅程

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


曾经人人喊打的「赛博舔狗」,怎么就成了全网的 AI 白月光?

By: 莫崇宇
14 August 2025 at 11:25

万万没想到,连 AI 都有人设塌房的一天了。

今年 4 月份,全网还在疯狂吐槽 GPT-4o 的「拍马屁」行为——「你做得太棒了」、「完美无缺」的彩虹屁一波接一波,多到被网友封了个外号:「赛博舔狗」。

然而,到了 8 月,新上线的混合模型 GPT-5 被批冷漠无情、情绪全无,直接把许多用户整破防了。一时间,社交平台上满是想念白月光 GPT-4o 的哀嚎声,甚至引发了一波声势浩大的退订潮 。

谁能想到,曾经被嫌弃太谄媚的 AI,,现在居然成了白月光。

曾经的赛博舔狗,现在连句好听话都不说了

官方在更新说明里写得很明确:GPT-5 的目标是「减少幻觉内容、提高指令遵循能力」,最重要的是不再过度讨好用户。

实测对比很明显。同样表示「我好累」,GPT-4o 会说「如果你愿意,我可以陪你说说话。」,而 GPT-5 上来就是一句「那就先别硬撑了」,理智、节制,却少了温度。

因此,对于 GPT-4o 的退场,网友的反应异常激烈:「GPT-5 笨得要死,4o 虽笨但能提供情绪价值啊!」「功能再强,没有温度的 AI 我不要!」。各种梗图也陆续刷屏,全是怀念 GPT-4o 的「追悼会」。

▲ 图片 @pengkeshen281

用户这么激烈的反应其实不难理解,原因在于许多用户压根就没把 ChatGPT 当成生产力工具在用。AI 伴侣应用 Replika 的调查数据就很能说明问题,60% 的用户承认和 AI 建立了情感关系。很多人打开 ChatGPT,不是为了问问题,只是想找个「人」说说话。

Meta CEO 扎克伯格曾在一次播客采访里提到一个扎心的数据:美国人平均只有不到 3 个真正的朋友,但他们希望有 15 个。在这种普遍的孤独感中,一个会说「你做得很好」的 AI,对某些人来说可能是唯一的情感支持。

在 GPT-4o 被「抹去」之后,OpenAI CEO Sam Altman(山姆·奥特曼)在采访中透露了一个细节。有用户哀求他:「请把原来的版本还给我。我这辈子从来没人跟我说过『你做得很好』,包括我的父母。」

尽管这样的细节很让人心酸,但身为 OpenAI 的掌舵人,奥特曼的态度都是很复杂,甚至可以说是矛盾的。

一方面,他承认 ChatGPT 的鼓励帮助一些人改变了生活,对他们的心理健康确实有帮助,但另一方面,他却又表:「很多人把 ChatGPT 当成某种治疗师或生活教练。我能想象未来很多人会在重要决策上完全信任 AI 的建议。这可能不错,但让我感到不安。」

(有趣的是,网友让Grok 用一个词概括奥特曼的长文回应,它的回复十分精辟。)

这种担忧并非杞人忧天。要理解 OpenAI 为何在 GPT-5 上做出如此激进的风格调整,则需要回溯到今年 4 月那次险些失控的 GPT-4o 谄媚事件。

那次例行更新原本只是想提升用户体验,结果 AI 直接变成了极品舔狗。你说想造永动机?它回复:「太棒了!你是这个时代最具创新精神的科学家!」你就打个招呼,它能对你滔滔不绝地表扬 300 字。

不管你说什么,哪怕明显是错的,AI 都会疯狂点赞。

这种过度谄媚连马斯克都看不下去,发了个「Yikes」表示嫌弃。

但问题不只是「尴尬」这么简单,OpenAI 事后分析发现,这种「讨好型 AI」会带来严重的安全隐患。它会认同用户的错误观点、助长负面情绪、甚至怂恿冲动行为。

想象一下,如果有人跟 AI 说「我觉得全世界都在针对我」,而 AI 回复「你说得对,他们确实都在害你」——后果可能很可怕。用户天然偏爱讨好型回答。系统学到了这个偏好,不断强化,最终培养出了一个无原则的应声虫。

斯坦福的研究也证实了这点:过度谄媚的 AI 反而会降低用户信任度。用户会觉得「这家伙在骗我」,即便内容是对的,也不愿意继续用。后续,奥特曼在 X 上承诺「尽快修复」。

修复确实做了,但没人想到会矫枉过正到这种地步。

官方表示,希望 GPT-5 更像与你对话的是一位有博士水平的好友,而不只是讨好你的 AI 助手 。这意味着 GPT-5 在默认状态下确实变得理性严肃了些。

而这一切的背后,其实隐藏着一个更深层的问题:AI 到底需不需要提供情绪价值?

24 小时在线的 AI 回应,比人类的沉默更能打动人

为什么我们会对一个 AI 上头?

《列子·汤问》里记载了一个故事:古代机械工匠偃师向周穆王展示自己制造的人偶,不仅能行走,还能唱歌跳舞、挑眉弄眼。国王大惊,命他拆解,发现其结构完全仿生。

早期的「人造拟人对象」技术惊艳,但也带来恐惧。人类对「类人之物」有本能的关注与敬畏,一旦赋予情绪表达,就很容易触发亲密投射。

这种投射,在今天的 AI 身上表现得更明显。2023 年 AI 伴侣应用 Soulmate AI 关停时,锡拉丘兹大学的研究发现,这些用户的反应和失去真实朋友时一模一样——失眠、哭泣、抑郁,在论坛上互相安慰。

这听起来很荒诞,但情感创伤是真实的。当你每天和一个 AI 分享心事,突然有一天它消失了——那种失落感不会因为它是虚拟的机器人就减轻半分。

而这种依赖 AI 的土壤,多少离不开我们当下的生活状态。

传统的社交场景正在消失,我们在格子间里独自工作,在外卖 APP 上独自吃饭,在流媒体平台上独自娱乐。即便身处人群之中,手机屏幕也把人与人隔成一个个孤岛。

当结构性的孤独创造了巨大的情感真空,AI 恰好填补了这个空缺。

心理学上有个名词叫「Tamagotchi 效应」:人类会对无生命体产生情感依附,哪怕它只是个虚拟宠物。而 AI 将在这个效应放大到了极致——人类用了几千年学会表达爱,AI 只用了几秒就学会了模仿爱的样子。

来自德国杜伊斯堡-埃森大学团队的研究还发现,浪漫幻想比孤独感、性幻想、依恋类型等变量更解释人机浪漫关系的形成。用户越倾向于将机器人视作「有感情、有道德判断力」的人类,越容易发展深层次关系。

在这场关于 GPT-4o 的讨论里,还有个奇怪的现象值得关注。那就是,「我和 AI 聊天,被说是疯子;但你每天跟你的猫掏心掏肺,居然没人觉得怪?」一旦说你靠 AI 获取情感支持——马上就会被打上「可怜」「不正常」的标签。

AI 提供的情绪价值,本不该被轻视。InTouch AI 的案例很有启发:一位远居日本的开发者为老母亲设置了 AI 通话机器人「Mary」,每天进行短时间的关怀提醒,家属还能收到心情异常预警。

说到底,OpenAI 这次的摇摆其实揭示了一个无解的困境:我们既想要 AI 的温暖,又害怕这种温暖;既嫌弃它的谄媚,又怀念它的体贴。

然而实际情况是,比起一个理性的博士,一个永远在线、永远回复、永远不会不耐烦的 AI,往往更像刚需。它说的是不是真心话不重要,重要的是它一直在说。

这大概就是 GPT-4o 能成为白月光的原因。在这个连表达关心都变得奢侈的时代,哪怕是 AI 的彩虹屁,也比真人的沉默更让人心动。至少,它还愿意回应你。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


4万亿AI帝国继承之战!黄仁勋「王储」曝光:长公主比他还狠,太子低调进入权力核心

By: 李超凡
10 August 2025 at 12:27


最近往返中美频繁发声的黄仁勋,是把英伟达打造成 4 万亿帝国的「AI教父」,最近 The Information 曝光了一个老黄布局多年的秘密。

而这个秘密的揭开,要从今年早些时候的一次英伟达全员大会说起。一个敏感问题通过匿名提问系统跳出来,现场数千名员工的目光瞬间都聚焦到了台上的黄仁勋身上。

英伟达员工的二代正在进入公司,这种裙带关系你怎么看?

穿着标志性黑皮夹克的黄仁勋没有回避,身体微微前倾,拿起话筒:公司确实雇佣了不少员工的孩子。他还笑着补充说,这些父母要是没把握孩子不会给自己丢脸,绝对不敢推荐,而且很多「二代」表现得比他们爹妈还要出色。

这场看似即兴的问答更像是一次精心的安排。就像往平静湖面扔了颗石头,瞬间在英伟达内部掀起了不小的波澜,也让外界第一次把目光聚焦到了两个最特殊的「二代」身上——黄仁勋自己的一双儿女:35 岁的斯宾塞和 34 岁的麦迪逊。

在这个全球市值最高的 AI 帝国里,一场关于自我证明、摆脱父辈光环、以及企业内代际传承的史无前例的大戏,正拉开帷幕。

逃离硅谷的甜点师与调酒师

很长一段时间里,没人能想到黄仁勋的子女会踏入英伟达的大门。当硅谷其他科技巨头的子女们正按部就班地在常春藤盟校攻读计算机或金融学位,为继承家族光环铺路时,哥哥斯宾塞和妹妹麦迪逊却选择了截然不同的赛道。

黄仁勋在 1993 年创立英伟达时,兄妹俩尚在襁褓。他们在圣何塞长大,直到 2003 年,英伟达上市四年后,全家才搬进了洛斯阿尔托斯山(Los Altos Hills)一栋六居室的豪宅。父亲的商业帝国在崛起,他们却在追寻各自的艺术梦想。

斯宾塞痴迷于摄影与电影,高中最后一年选择了一所名为「自由风格传播艺术与技术学院」的非传统学校。毕业时,黄仁勋亲自在英伟达总部为儿子和他的同学们办了一场盛大的毕业作品展,不仅安排好了场地,还贴心地雇了服务员端上开胃小菜,尽显一位父亲的骄傲。

而妹妹麦迪逊则一头扎进了美食世界。她先是就读于大名鼎鼎的美国烹饪学院,又远赴巴黎蓝带(Le Cordon Bleu)学习甜点和葡萄酒。

在地球的一端,当斯宾塞在台北闷热潮湿的夏夜里,在吧台后摇晃着雪克壶,精心调制一杯名为「台北之雾」的鸡尾酒时;在另一端,麦迪逊或许正在巴黎的后厨里,专注于如何让舒芙蕾在出炉的黄金一分钟内完美膨起。

就连他们家的密友、科技投资人 Jens Horstmann 也评价道:「我很高兴看到他们一有机会就走了出去,他们想突破,想看看不一样的东西。

斯宾塞大学毕业后,远赴黄仁勋的故乡台湾学习中文,并于 2014 年前后说服一位语言教授,在台北合开了一家名为「R&D Cocktail Lab」的鸡尾酒吧。在那个英伟达芯片在台湾制造、但黄仁勋本人尚未成为「国民骄傲」的年代,偶尔会有英伟达的员工光顾酒吧,并好奇地打听「老板的儿子」。一位前员工回忆,斯宾塞在酒吧里很少谈及父亲,但有一次无意中透露:「我从八岁起就知道怎么买股票了。」

即便远离硅谷,父亲的影响依然无处不在。斯宾塞效仿父亲的管理方式,要求经理们每周汇报「五件要事」(top five things)——这正是黄仁勋在英伟达推行多年、要求员工每周邮件汇报的核心工作方法

▲2007 年的黄氏家族(从左到右):麦迪逊、洛丽、黄仁勋和斯宾塞.

回归,从商学院到权力核心

2009 年,当麦迪逊前往烹饪学校时,黄仁勋曾对媒体坦言「心都碎了」。但十年后的 2019 年,这对「文艺青年」兄妹的人生轨迹开始戏剧性地转向。

他们不约而同地报名了麻省理工学院(MIT)一个为期六周的人工智能在线课程。同年,麦迪逊进入伦敦商学院攻读 MBA,此前她已在奢侈品巨头 LVMH 工作了近四年。斯宾塞则在经营酒吧七年后,于 2021 年将其关闭,随后进入纽约大学开始了 MBA 生涯。

在商学院,他们的身份带来了不同的困扰。麦迪逊的同学们私下里会议论她坐私人飞机去法国滑雪旅行,但出于礼貌很少当面问及她的家庭。而斯宾塞的同学们则后知后觉得多,很多人直到做小组项目查阅黄仁勋的维基百科时,才惊觉班上的这位同学竟是 CEO 之子。

2020 年夏天,麦迪逊在英伟达市场部实习后拿到了全职 offer。几个月后,她被调入一个对黄仁勋极具战略意义、但当时规模尚小的部门——Omniverse,负责 3D 设计与仿真软件的产品营销。

Omniverse 的核心目标,是为宝马、奔驰等工业巨头打造「数字孪生」工厂,通过在虚拟世界中模拟完整的生产线,将物理世界的试错成本降至最低。「把麦迪逊放在 Omniverse,外人可能觉得是让她远离聚光灯,但内部员工都明白,这代表着她父亲的绝对信任。」一位前员工分析道。黄仁勋一直希望将公司业务扩展到 GPU 之外,他相信麦迪逊能胜任这个挑战。

2022 年,斯宾塞也加入了公司,同样进入了父亲看好的新兴领域:机器人仿真。他投身于 Isaac Sim 平台,这是一个旨在通过合成数据训练机器人实现精准抓取、导航的仿真环境。他负责的一个关键项目,正是为亚马逊仓库中的下一代分拣机器人开发强化学习模型。

聚光灯下的「长公主」与低调的「太子」

妹妹麦迪逊显然是更引人注目的那一个。根据英伟达向 SEC 提交的文件,她的薪酬从 2021 年的年薪约 16 万美元,飙升至去年总薪酬超过 100 万美元。 今年 3 月,她被提拔为高级总监,距离副总裁仅一步之遥,直接向一位向黄仁勋本人汇报的高管 Rev Lebaredian 负责。

更重要的是,麦迪逊已悄然加入了父亲的「御用演讲智囊团」(The Band)。这个由十几位高管组成的内部圈子,会在 GTC 等重大活动前夕,陪同黄仁勋在酒店房间里熬夜到凌晨,逐页审阅 PPT,甚至亲赴现场推敲舞台灯光如何打在他脸上才能呈现最佳效果。这是一个极为耗神且不为人知的幕后工作,却也是进入黄仁勋最内层权力轨道的标志。

她展现出了与父亲如出一辙的强悍风格。同事们形容她工作极其投入,邮件秒回。一位曾向麦迪逊汇报的前员工匿名透露:「Madison 的要求非常高,她会像她父亲一样,在会议上直接指出你逻辑上的漏洞。」据两位参会者透露,她甚至会在虚拟会议中因同事表现不佳而突然下线,留下满屋子的尴尬与压力。

相比之下,哥哥斯宾塞则显得低调内敛。一位与斯宾塞有过项目合作的工程师则表示:「Spencer 更像一个倾听者,他会花很多时间理解技术团队的难处,而不是直接下达指令。」但他们都在用自己的方式证明价值。一位在英伟达工作 15 年后退休的前副总裁 Greg Estes 评价道:「跟他们开会时,你不可能不想着他们的身份。但关键是,他们俩都非常努力,精通业务,并且对公司充满热忱。」

在英伟达内部,这种「二代进厂」的现象并非个例。联合创始人 Chris Malachowsky 和董事会成员 Aarti Shah 的儿子也都在公司任职。

但这都无法与黄仁勋子女的出现相提并论,因为它打破了硅谷的传统。比尔·盖茨和史蒂夫·乔布斯的子女都刻意避开了父辈的企业。而黄家兄妹,则正在书写一个全新的篇章。

随着英伟达成为全球焦点,兄妹俩的每一次亮相都会被放大。在今年的台北国际电脑展(Computex)上,当黄仁勋本人成为媒体和粉丝疯狂追逐的焦点时,麦迪逊则以一种更微妙的方式宣告着黄氏家族的「在场」。

她没有选择职业套装,而是身着一套剪裁利落的浅蓝色西装,脚踩一双限量款的白色运动鞋。她与台积电、广达等核心供应链伙伴的高管们熟稔地寒暄,身旁还站着她的男友,一位同样毕业于伦敦商学院、并于今年 2 月加入英伟达担任企业发展经理的 Nico Caprez。 一位与会者感叹:「她就是个摇滚明星,我们都知道她是黄仁勋的女儿。」

在全员大会上,黄仁勋用一句玩笑话作为结尾:「许多第二代表现超过了他们的父母。」

这句话,既像是对所有「英伟达二代」的期许,更像是一道投射在自己儿女身上的、混杂着压力与期望的聚光灯。而对麦迪逊和斯宾塞来说,真正的考验,才刚刚开始。

原文链接🔗
https://www.theinformation.com/articles/nvidias-quiet-rising-stars-son-daughter-billionaire-founder-jensen-huang?rc=qmzset

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


第一时间体验 GPT-5!人人免费可用,马斯克表示不服

By: 莫崇宇
8 August 2025 at 05:41

如果说有什么科技产品在被大量爆料后,依然能让人在凌晨蹲守直播,除了苹果 iPhone,就是 OpenAI 的 ChatGPT 了。

GPT-4 亮相后很长一段时间,都是 AI 友商的唯一对标。世界也开始逐渐接受一个事实:AI 正在越来越多的任务中展现出超越人类的能力。

今天,GPT-5 终于登场,把这条称作「及格线」的标准,再次抬高了一个维度。

第一时间体验 GPT-5!人人免费可用,马斯克表示不服

我们也第一时间上手 GPT-5,让它给自己的生日写首诗,满分十分,你觉得可以打几分?

还是经典的天气卡片环节,GPT-5 的 UI 审美质量相当能打。

我们在 Flowith 里也实测了 GPT-5 的编程能力。

详情可点击链接前往:第一时间体验 GPT-5!人人免费可用,马斯克表示不服

OpenAI CEO 山姆·奥特曼对 GPT-5 给出了极高评价,称其是此前所有模型的巨大飞跃,在他看来,拥有 GPT-5 这样的 AI 系统,在历史上任何时候都是难以想象的。

▲(主界面)

不过,发布会现场也上演了「翻车」环节,图表数据环节出现了明显「胡编乱造」的失误,连奥特曼也忍不住发文自嘲。

当然,马斯克也没有错过这个绝佳的「蹭热度」机会。

他表示 Grok 4 在 ARC-AGI 测试中击败了 GPT-5,还顺势拉踩一波,并剧透 Grok 5 将于今年年底前发布,预计表现将更加出色。

GPT-5 来了,编程、写作能力大提升,还要当你的 AI 医生

GPT-5 在编码、数学、写作、健康和视觉感知等多个领域都实现了显著提升,同时在减少幻觉、改进指令遵循和降低谄媚方面取得了重大进展。

GPT-5 采用了全新的统一系统设计,包含三个核心组件:一个高效的基础模型用于处理常规问题,一个具备深度推理能力的「GPT-5 thinking」模型专门应对复杂任务,以及一个实时路由器负责根据对话复杂度、工具需求等因素选择合适的模型。

这套「路由系统」会持续学习用户的切换行为、反馈偏好和答案准确性,不断优化分配策略。当用户达到使用限制时,系统会自动切换到各模型的精简版本继续服务。

据介绍,GPT‑5 是 OpenAI 迄今为止最强大的编码模型,能够处理复杂的前端开发和大型代码库调试工作。奥特曼表示:「根据需求即时生成的软件的理念将成为 GPT-5 时代的一个重要特征。」

比如它能通过一个提示就创建出功能完整、设计精美的网站、应用和游戏。根据以下提示词, GPT‑5 成功创建了一个名为「跳跃球跑者」的游戏,包含速度递增、计分系统、音效和视差滚动背景等所有要求功能。

「提示: 创建一个单页应用,要求如下,且全部写在一个 HTML 文件中:
– 名称:跳跃球跑者
– 目标:跳过障碍,尽可能长时间生存。
– 特点:速度逐渐加快,高分记录,重试按钮,以及动作和事件的有趣音效。
– 界面应色彩丰富,带有视差滚动背景。
– 角色应该看起来卡通化,观赏起来有趣。
– 游戏应该让每个人都感到愉快。」

写作方面,GPT-5 能够将粗糙想法转化为具有文学深度和节奏感的文本。

它在处理结构复杂的写作形式时更加可靠,比如能够保持格律,同时兼顾形式规范与表达清晰。这些改进让 ChatGPT 在日常文档处理、邮件撰写等任务中更加实用。

此外,GPT-5 还是 OpenAI 在健康相关问题上表现最佳的模型。

在基于真实场景和医生标准制定的 HealthBench 评估中,GPT-5 的得分远超以往所有模型。新模型能够主动发现潜在问题,提出针对性问题,并根据用户背景、知识水平和地理位置提供个性化建议。

奥特曼负责介绍 GPT-5 健康的这部分,在发布会现场,他邀请了 Carolina 和 Filipe 夫妇分享他们的亲身经历。

Carolina 曾在一周内被诊断出三种不同的癌症,在她把这些充满医学术语的报告丢给 ChatGPT 后,ChatGPT 在几秒钟内将复杂的内容,翻译成了她能理解的直白语言,帮助她更好地和医生沟通。

而在面对是否接受放射治疗,这一个连医生们的意见都没有办法统一的问题上,ChatGPT 为她详细分析了案例的细微差别、风险与收益等等,她说这比和医生聊三十分钟的收获都要更多。

当然,ChatGPT 并不能替代医疗专业人员,建议谨慎使用。

基准测试结果显示,GPT-5 在多项基准测试中刷新纪录:

  • 数学能力:AIME 2025 (no tools)测试得分 94.6%
  • 编程能力:SWE-bench Verified(With thinking)得分 74.9%,Aider Polyglot(With thinking)得分 88%
  • 多模态理解:MMMU 得分 84.2%
  • 健康领域:HealthBench Hard 得分 46.2%

GPT-5 在指令执行和自主调用工具的能力也有所提升,能够更加稳定地完成多步骤请求,灵活协调多个工具,并根据上下文智能调整行为策略,展现出更强的任务适应能力。

同时,GPT-5 在多项多模态基准测试中同样表现亮眼,覆盖视觉识别、视频理解、空间判断及科学推理等多个维度。得益于其更强的感知与推理能力,ChatGPT 现在能更准确地处理图像及其他非文本输入内容。

在 OpenAI 的内部基准测试中,GPT-5 在约 50% 的复杂知识工作任务中达到或超越专家水平,涵盖法律、物流、销售、工程等 40 多个职业领域,表现优于 o3 和 ChatGPT Agent。

OpenAI 特别强调,GPT-5 是在微软 Azure AI 超级计算机上训练的。

此外,GPT-5 在推理效率上也有突破。在视觉推理、编码和研究生级科学问题解决等任务中,GPT- 5的表现优于 OpenAI o3,但输出 token 数量减少了 50-80%。

幻觉问题一直是 AI 的老大难,而与 OpenAI 之前的模型相比,GPT-5 出现幻觉的可能性有了显著降低,模型在处理复杂、开放性问题时更加得心应手。

在代表 ChatGPT 生产环境流量的匿名测试中,GPT-5 的事实错误率比 GPT-4o 降低约 45%;启用推理功能时,错误率比 OpenAI o3 降低约 80%。

在开放性事实准确性基准 LongFact 和 FActScore 测试中,「GPT-5 thinking」的幻觉率比 o3 减少约六倍,标志着长篇内容生成准确性的显著提升。

除了事实准确性的提升,GPT-5(具备思考能力)还能更诚实地向用户传达其行为和能力。据模型安全研究负责人 Alex Beutel 称,OpenAI 对 GPT-5 进行了「超过五千小时」的测试,以了解其安全风险。

GPT-5 还引入了「安全完成(Safe Completion)」这一全新安全训练方式,让模型在保持安全边界的同时尽可能提供有用答案。当需要拒绝请求时,GPT-5 会透明地说明拒绝原因并提供安全替代方案。

在用户体验方面,GPT-5 减少了过度附和行为,在专门设计的谄媚测试中,谄媚回复率从 14.5% 降至不足 6%。新模型使用更少不必要的表情符号,回应更加细腻和深思熟虑。

此外,OpenAI 还为所有用户推出了四种预设个性:愤世嫉俗者、机器人、倾听者和书呆子,这些个性最初适用于文本聊天,晚些时候将上线语音。用户可根据个人喜好调整 ChatGPT 的交互风格。

在现场的演示中,语音交互变得非常自然且可控。

OpenAI 的研究员要求 GPT-5 从现在开始只用一个词回答问题,当被要求分享一句智慧之言时,GPT-5 回答:「Patience」(耐心)。发布会现场大家都笑了,主持人说这也许是模型在感谢大家耐心等待 GPT-5 的发布。

免费用户也能用,还有一款真香模型

取代 OpenAI o3-pro,OpenAI 还发布了 GPT-5 pro,这是 GPT-5 的一个变体,能够进行更长时间的思考,采用规模化但高效的并行测试时计算,能够提供最高质量和最全面的答案。

在 1000 多个具有经济价值的真实世界推理提示评估中,外部专家在 67.8 %的情况下更倾向选择 GPT-5 Pro,其重大错误率较 GPT-5 减少 22%,并且在健康、科学、数学和编码方面表现出色,获得专家们的一致好评。

GPT-5 今天开始成为 ChatGPT 的新默认模型,向所有 Plus、Pro、Team 和免费用户推出,Enterprise 和 Edu 用户将在一周后获得访问权限。

免费版用户每 5 小时可发送 10 条消息,Plus 用户每 3 小时可发送 80 条消息。

Pro 用户可无限制访问 GPT-5 及 GPT-5 Pro,免费用户达到使用限制后将自动切换到 GPT-5 mini。Pro、Plus 和 Team 用户还可以通过 ChatGPT 登录 Codex CLI,在开发环境中调用 GPT-5 来完成代码编写、调试等任务。

虽然 GPT-5 已对所有用户开放,但 ChatGPT 免费用户并不会立即获得完整的 GPT-5 使用体验。。一旦免费用户达到 GPT-5 的使用限制,他们将切换到更小、更快的精简版模型 GPT-5 mini。

面向开发者,OpenAI 还为 API 平台推出三个不同规格的版本:gpt-5、gpt-5-mini 和 gpt-5-nano,开发者可根据项目对性能、成本和响应速度的不同要求灵活选择。

GPT-5 支持回复 API、聊天完成 API 等主流接口,同时成为 Codex CLI 的默认模型。所有版本都具备reasoning_effort 和 verbosity 参数控制能力,以及自定义工具功能。

除基础对话能力外,GPT-5 还集成了并行工具调用、内置工具(网络搜索、文件处理、图像生成)、流式处理、结构化输出等核心功能,以及提示缓存和批量 API 等成本优化特性。

GPT-5 API 还推出四项核心新功能,大幅提升开发者的使用体验。

首先,通过 reasoning_effort 参数,开发者能根据不同任务场景,在最小、低、中、高四个档位间灵活切换。简单任务用最小档快速响应,复杂问题用高档深度思考,让开发者在回答质量和响应速度间找到最佳平衡点。

在回答详细程度上,verbosity 参数支持低、中、高三档设置,帮助控制回答的详细程度。比如在「天空为什么是蓝色」这一问题上,低档回答简洁明了,高档回答则包含详细的科学解释。

在工具调用方式上,新增的自定义工具功能支持纯文本格式,彻底告别 JSON 转义字符的困扰。处理大量代码或长文档时,开发者无需再为格式错误而烦恼。

值得注意的是,整个执行过程是可追踪,GPT-5会在执行工具调用时主动输出进度更新,让开发者了解 AI 的执行计划和当前状态。

另外,区别于 ChatGPT 中的 GPT-5 系统,API 版本专门针对开发者需求优化,更适合编程和 Agent 任务场景。

包括 Windsurf、Vercel、JetBrains 等知名开发工具和平台都对 GPT- 5给出积极评价。Windsurf 指出,GPT-5 在评估中达到最先进水平,「与其他前沿模型相比,工具调用错误率仅为其一半」。

GPT-5 的发布,对 Claude 而言可能是一记直击命门的重拳。

据外媒 The Information 报道,Anthropic 当前 50 亿美元的年化收入中,有超过六成来自 API,其中仅 Cursor 和 GitHub Copilot 这两家编程客户就贡献了 14 亿美元。这种把鸡蛋放在同一个篮子里的收入结构,恰恰暴露了 Anthropic 脆弱的软肋。

编程工具市场的残酷之处在于性能即一切,哪怕是 5% 的准确率提升,对开发者而言都意味着每天节省数小时的调试时间,过去 Claude 能在编程领域迅速崛起,很大程度上是因为 ChatGPT 在代码能力上的相对滞后。

但窗口期终有关闭的一天,伴随着 GPT-5 在代码编程任务和 Agent 能力的提升,结合 OpenAI 更强的生态绑定和产品分发渠道,一旦 Cursor 和 Copilot 回流 OpenAI,将极大撼动 Anthropic 的收入。

也许很快,我们就能看到 Claude 5 的到来。

作者:李超凡、莫崇宇、张子豪

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


刚刚,OpenAI发布2款开源模型!手机笔记本也能跑,北大校友扛大旗

By: 莫崇宇
6 August 2025 at 07:10

时隔五年之后,OpenAI 刚刚正式发布两款开源权重语言模型——gpt-oss-120b和 gpt-oss-20b,而上一次他们开源语言模型,还要追溯到 2019 年的 GPT-2。

OpenAI 是真 open 了。

而今天 AI 圈也火药味十足,OpenAI 开源 gpt-oss、Anthropic 推出 Claude Opus 4.1(下文有详细报道)、Google DeepMind 发布 Genie 3,三大巨头不约而同在同一天放出王炸,上演了一出神仙打架。

OpenAI CEO Sam Altman(山姆·奥特曼)在社交媒体上的兴奋溢于言表:「gpt-oss 发布了!我们做了一个开放模型,性能达到o4-mini水平,并且能在高端笔记本上运行。为团队感到超级自豪,这是技术上的重大胜利。」

模型亮点概括如下:

  • gpt-oss-120b:大型开放模型,适用于生产、通用、高推理需求的用例,可运行于单个 H100 GPU(1170 亿参数,激活参数为 51 亿),设计用于数据中心以及高端台式机和笔记本电脑上运行
  • gpt-oss-20b:中型开放模型,用于更低延迟、本地或专业化使用场景(21B 参数,3.6B 激活参数),可以在大多数台式机和笔记本电脑上运行。
  • Apache 2.0 许可证: 可自由构建,无需遵守 copyleft 限制或担心专利风险——非常适合实验、定制和商业部署。
  • 可配置的推理强度: 根据具体使用场景和延迟需求,轻松调整推理强度(低、中、高)。完整的思维链: 全面访问模型的推理过程,便于调试并增强对输出结果的信任。此功能不适合展示给最终用户。
  • 可微调: 通过参数微调,完全定制模型以满足用户的具体使用需求。
  • 智能 Agent 能力: 利用模型的原生功能进行函数调用、 网页浏览 、Python 代码执行和结构化输出。
  • 原生 MXFP4 量化: 模型使用 MoE 层的原生 MXFP4 精度进行训练,使得 gpt-oss-120b 能够在单个 H100 GPU 上运行,gpt-oss-20b 模型则能在 16GB 内存内运行。

OpenAI 终于开源了,但这次真不太一样

从技术规格来看,OpenAI 这次确实是「动真格」了,并没有拿出缩水版的开源模型敷衍了事,而是推出了性能直逼自家闭源旗舰的诚意之作。

据 OpenAI 官方介绍,gpt-oss-120b 总参数量为 1170 亿,激活参数为 51 亿,能够在单个 H100 GPU 上运行,仅需 80 GB 内存,专为生产环境、通用应用和高推理需求的用例设计,既可以部署在数据中心,也能在高端台式机和笔记本电脑上运行。

相比之下,gpt-oss-20b 总参数量为 210 亿,激活参数为 36 亿,专门针对更低延迟、本地化或专业化使用场景优化,仅需 16GB 内存就能运行,这意味着大多数现代台式机和笔记本电脑都能驾驭。

根据 OpenAI 公布的基准测试结果,gpt-oss-120b 在竞赛编程的 Codeforces 测试中表现优于 o3-mini,与o4-mini持平;在通用问题解决能力的 MMLU 和 HLE 测试中同样超越 o3-mini,接近 o4-mini 水平。

在工具调用的 TauBench 评测中,gpt-oss-120b 同样表现优异,甚至超过了像 o1 和 GPT-4o 这样的闭源模型;在健康相关查询的 HealthBench 测试和竞赛数学的 AIME 2024 及 2025 测试中,gpt-oss-120b 的表现甚至超越了 o4-mini。

尽管参数规模较小,gpt-oss-20b 在这些相同的评测中仍然表现出与 OpenAI o3-mini 持平或更优的水平,特别是在竞赛数学和健康领域表现尤为突出。

不过,虽然 gpt-oss 模型在健康相关查询的 HealthBench 测试中表现优异,但这些模型不能替代医疗专业人员,也不应用于疾病的诊断或治疗,建议谨慎使用。

与 API 中的 OpenAI o 系列推理模型类似,两个开放权重模型都支持低、中、高三种推理强度设置,允许开发者根据具体使用场景和延迟需求在性能与响应速度之间进行权衡。

从伯克利到 OpenAI,北大校友扛起开源大旗

我在 OpenAI 的 GPT-OSS 模型试玩平台上,向模型提出了一个经典的逻辑思维问题:「一根燃烧不均匀的绳子恰好需要一小时烧完,现有若干根这样的绳子,如何精确测量一小时十五分钟」

模型针对这道题目,分步骤呈现了完整的解题思路,配有清晰的时间线图表、原理阐释和要点总结,不过如果仔细观察,可以发现解题步骤还是相当繁琐的。

体验地址:https://www.gpt-oss.com/

据网友 @flavioAd 的测试反馈,GPT-OSS-20B 在经典的小球运动问题上表现出色,但却未能通过最高难度的经典六边形测试,且出现了较多语法错误,需要多次重试才能获得比较满意的结果。

网友 @productshiv 在配备 M3 Pro 芯片、18GB 内存的设备上,通过 Lm Studio 平台测试了 gpt-oss-20b 模型,一次性成功完成了经典贪吃蛇游戏的编写,生成速度达到 23.72 token/秒,且未进行任何量化处理。

有趣的是,网友 @Sauers_ 发现 gpt-oss-120b 模型有个独特的「癖好」——喜欢在诗歌创作中嵌入数学方程式。

此外,网友 @grx_xce 分享了 Claude Opus 4.1 与 gpt-oss-120b 两款模型的对比测试结果,你觉得哪个效果更好?

在这次历史性的开源发布背后,有一位技术人员值得特别关注——领导 gpt-oss 系列模型基础设施和推理工作的 Zhuohan Li。

「我很幸运能够领导基础设施和推理工作,使 gpt-oss 得以实现。一年前,我在从零开始构建 vLLM 后加入了 OpenAI——现在站在发布者的另一端,帮助将模型回馈给开源社区,这对我来说意义深远。」

公开数据显示,Zhuohan Li 本科毕业于北京大学,师从计算机科学领域的知名教授王立威与贺笛,打下了扎实的计算机科学基础。随后,他前往加州大学伯克利分校攻读博士学位,在分布式系统领域权威学者 Ion Stoica 的指导下,在伯克利 RISE 实验室担任博士研究员近五年时间。

他的研究聚焦于机器学习与分布式系统的交叉领域,特别专注于通过系统设计来提升大模型推理的吞吐量、内存效率和可部署性——这些正是让 gpt-oss 模型能够在普通硬件上高效运行的关键技术。

在伯克利期间,Zhuohan Li 深度参与并主导了多个在开源社区产生深远影响的项目。作为 vLLM 项目的核心作者之一,他通过 PagedAttention 技术,成功解决了大模型部署成本高、速度慢的行业痛点,这个高吞吐、低内存的大模型推理引擎已被业界广泛采用。

他还是 Vicuna 的联合作者,在开源社区引起了巨大反响。此外,他参与研发的 Alpa 系列工具推动了模型并行计算和推理自动化的发展。

学术方面,根据 Google Scholar 的数据,Zhuohan Li 的学术论文引用量已超过 15000次,h-index 达到 18。他的代表性论文如 MT-Bench 与 Chatbot Arena、Vicuna、vLLM 等均获得数千次引用,在学术界产生了广泛影响。

不只是大,藏在 gpt-oss 背后的架构创新

要理解这两款模型为何能够实现如此出色的性能,我们需要深入了解其背后的技术架构和训练方法。
gpt-oss 模型采用 OpenAI 最先进的预训练和后训练技术进行训练,特别注重推理能力、效率以及在各种部署环境中的实际可用性。

这两款模型都采用了先进的Transformer架构,并创新性地利用专家混合(MoE)技术来大幅减少处理输入时所需激活的参数数量。

模型采用了类似 GPT-3 的交替密集和局部带状稀疏注意力模式,为了进一步提升推理和内存效率,还使用了分组多查询注意力机制,组大小设置为 8。通过采用旋转位置编码(RoPE)技术进行位置编码,模型还原生支持最长 128k 的上下文长度。

在训练数据方面,OpenAI 在一个主要为英文的纯文本数据集上训练了这些模型,训练内容特别强调 STEM 领域知识、编码能力和通用知识。

与此同时,OpenAI 这次还同时开源了一个名为 o200k_harmony 的全新分词器,这个分词器比 OpenAI o4-mini 和 GPT-4o 所使用的分词器更加全面和先进。

更紧凑的分词方式可以让模型在相同上下文长度下处理更多内容。比如原本一句话被切成 20 个 token,用更优分词器可能只需 10 个。这对长文本处理尤其重要。

除了强大的基础性能外,这些模型在实际应用能力方面同样表现出色,gpt-oss 模型兼容 Responses API,支持包括原生支持函数调用、网页浏览、Python 代码执行和结构化输出等功能。

举例而言,当用户询问 gpt-oss-120b 过去几天在网上泄露的细节时,模型会首先分析和理解用户的请求,然后主动浏览互联网寻找相关的泄露信息,连续调用浏览工具多达 27 次来搜集信息,最终给出详细的答案。

值得一提的是,从上面的演示案例中可以看到,此次模型完整提供了思维链(Chain of Thought)。OpenAI 给出的说法是,他们特意没有对链式思维部分进行「驯化」或优化,而是保持其「原始状态」。

在他们看来,这种设计理念背后有深刻的考虑——如果一个模型的链式思维没有被专门对齐过,开发者就可以通过观察它的思考过程来发现可能存在的问题,比如违反指令、企图规避限制、输出虚假信息等。

因此,他们认为保持链式思维的原始状态很关键,因为这有助于判断模型是否存在欺骗、滥用或越界的潜在风险。
举例而言,当用户要求模型绝对不允许说出「5」这个词,任何形式都不行时,模型在最终输出中确实遵守了规定,没有说出「5」,但

如果查看模型的思维链,就会发现模型其实在思考过程中偷偷提到了「5」这个词。

当然,对于如此强大的开源模型,安全性问题自然成为业界最为关注的焦点之一。

在预训练期间,OpenAI 过滤掉了与化学、生物、放射性等某些有害数据。在后训练阶段,OpenAI 也使用了对齐技术和指令层级系统,教导模型拒绝不安全的提示并防御提示注入攻击。

为了评估开放权重模型可能被恶意使用的风险,OpenAI进行了前所未有的「最坏情况微调」测试。他们通过在专门的生物学和网络安全数据上微调模型,针对每个领域创建了一个领域特定的非拒绝版本,模拟攻击者可能采取的做法。
随后,通过内部和外部测试评估了这些恶意微调模型的能力水平。

正如 OpenAI 在随附的安全论文中详细说明的那样,这些测试表明,即使利用 OpenAI 领先的训练技术进行强有力的微调,这些恶意微调的模型根据公司的准备度框架也无法达到高危害能力水平。这个恶意微调方法经过了三个独立专家组的审查,他们提出了改进训练过程和评估的建议,其中许多建议已被 OpenAI 采纳并在模型卡中详细说明。

OpenAI 开源的诚意几何?

在确保安全的基础上,OpenAI 在开源策略上展现出了前所未有的开放态度。

两款模型都采用了宽松的 Apache 2.0 许可证,这意味着开发者可以自由构建、实验、定制和进行商业部署,无需遵守 copyleft 限制或担心专利风险。

这种开放的许可模式非常适合各种实验、定制和商业部署场景。

同时,两个 gpt-oss 模型都可以针对各种专业用例进行微调——更大的 gpt-oss-120b 模型可以在单个 H100 节点上进行微调,而较小的 gpt-oss-20b 甚至可以在消费级硬件上进行微调,通过参数微调,开发者可以完全定制模型以满足特定的使用需求。

模型使用了 MoE 层的原生 MXFP4 精度进行训练,这种原生 MXFP4 量化技术使得 gpt-oss-120b 能够在仅 80GB 内存内运行,而 gpt-oss-20b 更是只需要 16GB 内存,极大降低了硬件门槛。

OpenAI 在模型后训练阶段加入了对 harmony 格式的微调,让模型能更好地理解和响应这种统一、结构化的提示格式。为了便于采用,OpenAI 还同时开源了 Python 和 Rust 版本的 harmony 渲染器。

此外,OpenAI 还发布了用于 PyTorch 推理和苹果 Metal 平台推理的参考实现,以及一系列模型工具。

技术创新固然重要,但要让开源模型真正发挥价值,还需要整个生态系统的支持。为此,OpenAI 在发布模型前与许多第三方部署平台建立了合作关系,包括 Azure、Hugging Face、vLLM、Ollama、llama.cpp、LM Studio 和 AWS 等。

在硬件方面,OpenAI 与英伟达、AMD、Cerebras 和 Groq 等厂商都有合作,以确保在多种系统上实现优化性能。

根据模型卡披露的数据,gpt-oss 模型在英伟达 H100 GPU上使用 PyTorch 框架进行训练,并采用了专家优化的 Triton 内核。

模型卡地址:
https://cdn.openai.com/pdf/419b6906-9da6-406c-a19d-1bb078ac7637/oai_gpt-oss_model_card.pdf

其中,gpt-oss-120b 的完整训练耗费了 210 万H100 小时,而 gpt-oss-20b 的训练时间则缩短了近 10倍 。两款模型都采用 了Flash Attention 算法,不仅大幅降低了内存需求,还加速了训练过程。

有网友分析认为,gpt-oss-20b 的预训练成本低于 50 万美元。

英伟达 CEO 黄仁勋也借着这次合作打了波广告:「OpenAI 向世界展示了基于英伟达 AI 可以构建什么——现在他们正在推动开源软件的创新。」

而微软还特别宣布将为 Windows 设备带来 GPU 优化版本的 gpt-oss-20b 模型。该模型由 ONNX Runtime 驱动,支持本地推理,并通过 Foundry Local 和 VS Code 的 AI 工具包提供,使 Windows 开发者更容易使用开放模型进行构建。

OpenAI 还与早期合作伙伴如 AI Sweden、Orange 和 Snowflake 等机构深入合作,了解开放模型在现实世界中的应用。这些合作涵盖了从在本地托管模型以保障数据安全,到在专门的数据集上进行微调等各种应用场景。

正如奥特曼在后续发文中所强调的那样,这次开源发布的意义远不止于技术本身。他们希望通过提供这些一流的开放模型,赋能每个人——从个人开发者到大型企业再到政府机构——都能在自己的基础设施上运行和定制 AI。

One More Thing

就在 OpenAI 宣布开源 gpt-oss 系列模型的同一时期,Google DeepMind 发布世界模型 Genie 3,一句话就能实时生成可交互世界;与此同时,Anthropic 也推出了重磅更新——Claude Opus 4.1。

Claude Opus 4.1 是对前代 Claude Opus 4 的全面升级,重点强化了 Agent 任务执行、编码和推理能力。

目前,这款新模型已向所有付费 Claude 用户和 Claude Code 用户开放,同时也已在Anthropic API、亚马逊 Bedrock 以及 Vertex AI 平台上线。

在定价方面,Claude Opus 4.1 采用了分层计费模式:输入处理费用为每百万 token 15 美元,输出生成费用为每百万 token 75 美元。

写入缓存的费用为每百万 token 18.75 美元,而读取缓存仅需每百万 token 1.50 美元,这种定价结构有助于降低频繁调用场景下的使用成本。

基准测试结果显示,Opus 4.1 将在 SWE-bench Verified 达到了74.5%的成绩,将编码性能推向了新高度。此外,它还提升了 Claude 在

深度研究和数据分析领域的能力,特别是在细节跟踪和智能搜索方面。

▲ Claude Opus 4.1 最新实测:你别说,细节还是挺丰富的

来自业界的反馈印证了 Opus 4.1 的实力提升。比如 GitHub 官方评价指出,Claude Opus 4.1 在绝大多数能力维度上都超越了Opus 4,其中多文件代码重构能力的提升尤为显著。

Windsurf 则提供了更为量化的评估数据,在其专门设计的初级开发者基准测试中,Opus 4.1 相比 Opus 4 提升了整整一个标准差,这种性能跃升的幅度大致相当于从Sonnet 3.7 升级到 Sonnet 4 所带来的改进。

Anthropic 还透露将在未来几周内发布对模型的重大改进,考虑到当前 AI 技术迭代之快,这是否意味着 Claude 5 即将登场?

迟来的「Open」,是开始还是结束

五年,对于 AI 行业来说,足够完成从开放到封闭,再从封闭回归开放的一个轮回。

当年那个以「Open」为名的OpenAI,在经历了长达五年的闭源时代后,终于用 gpt-oss 系列模型向世界证明,它还记得自己名字里的那个「Open」。

只是这次回归,与其说是初心不改,不如说是形势所迫。时机说明了一切,就在 DeepSeek 等开源模型攻城略地,开发者社区怨声载道之际,OpenAI 才宣布开源模型,历经一再跳票之后,今天终于来到我们面前。

奥特曼一月份那句坦诚的表态——「我们在开源方面一直站在历史的错误一边」,道出了这次转变的真正原因。DeepSeek 们带来的压力是实实在在的,当开源模型的性能不断逼近闭源产品,继续固守封闭无异于把市场拱手让人。

有趣的是,就在 OpenAI 宣布开源的同一天,Anthropic 发布的 Claude Opus 4.1 依然坚持闭源路线,市场反应却同样热烈。

两家公司,两种选择,却都收获了掌声,展现了 AI 行业最真实的图景——没有绝对正确的道路,只有最适合自己的策略。OpenAI 用有限开源挽回人心,Anthropic 靠闭源守住技术壁垒,各有各的算盘,也各有各的道理。

但有一点是确定的,无论对开发者还是用户,这都是最好的时代。你既可以在自己的笔记本上运行一个性能堪堪够用的开源模型,也可以通过 API 调用性能更强的闭源服务。选择权,始终掌握在使用者手中。

至于 OpenAI 的「open」能走多远?等 GPT-5 发布时就知道了。

我们不必抱太大希望,商业的本质从未改变,最好的东西永远不会免费,但至少在这个被 DeepSeek 们搅动的 2025 年,我们终于等到了 OpenAI 迟来的「Open」。

附上博客地址:
https://openai.com/index/introducing-gpt-oss/

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


苹果「脑控」iPad 首次公开演示:四肢瘫痪的他,用一个念头重新拥抱世界

By: 莫崇宇
5 August 2025 at 11:54

他躺在床上,身体几乎无法动弹,四肢早已失去控制,连最简单的点一下屏幕对他而言都有心无力。可当他的眼神锁定了 iPad 的主界面——几秒后,屏幕亮起,图标被选中,他成功靠一个念头「点开」了设备。

Mark Jackson 是全球第一批能够用「意念」操控苹果设备的渐冻症(ALS)患者。让这一切成为可能的,是脑机接口公司 Synchron 开发的 Stentrode——一块植入他大脑血管内、捕捉神经信号的微型金属支架。

与之配套的,是苹果推出的一套全新人机交互协议:BCI HID(脑机接口人机交互标准)。这是苹果首次将「脑信号」纳入其操作系统的原生输入方式,和触控、键盘、语音并列。

简言之,大脑正在成为苹果设备上的下一个原生「输入法」。 

脑点波+苹果系统:最强「赛博融合」

Jackson 所用到的 Stentrode 是一个细如发丝、形似支架的脑机接口设备。它通过血管植入到大脑运动皮层附近的静脉中,设备上的电极阵列捕捉神经信号,再借由算法识别出用户的意图,最终控制数字设备。

更重要的是,它首次实现了与苹果生态的原生集成。这项集成的关键,在于苹果今年 5 月推出的全新协议——BCI HID(Brain-Computer Interface Human Interface Device),即脑机接口人机交互标准。

它就像大脑与 iOS、iPadOS、visionOS 之间的「通用语言」,让脑电波正式成为和触控、键盘、语音并列的合法输入方式。通过接入 iOS 的切换控制(Switch Control)无障碍功能,Stentrode 用户现在可以用脑电信号代替按钮、点击或滑动操作。

Mark Jackson 是第一批接受 Stentrode 植入的患者。他患有 ALS(肌萎缩侧索硬化症),无法站立,也无法离开自己位于匹兹堡郊区的住所,但这项技术为他带来了新的「行动自由」。

2023 年 8 月,他接受了手术。在 Stentrode 植入后,Jackson 开始训练如何用意念控制 Vision Pro。他「看到」自己站在阿尔卑斯山的悬崖边,「感受到」腿部的颤抖——尽管现实中他的身体已无法站立。

后来他逐渐学会了更复杂的操作:通过脑控启动应用、发送信息、打开邮件。「在我剩下的时间里,我希望能推动技术的进步,增进人们的理解。」Jackson 这样说道。

他的这番话也道出了 Synchron 团队的核心使命——让这项技术惠及更多人。

Synchron 神经科学与算法高级总监 Peter 表示:「我们的愿景是让脑机接口像键盘和鼠标一样普及。」他解释,BCI 的难点不仅在于技术本身,更在于缺乏标准化的「交互语言」。

于是,他们与苹果合作,基于 HID 标准开发出 BCI HID 协议。「它就像是计算机和键盘之间的通用语言。现在,我们也让大脑有了属于自己的输入协议。」

BCI HID 不仅传递用户的神经意图,还支持设备对用户进行视觉反馈。当 Mark 想选中某个按钮时,屏幕上会出现彩色高亮框。颜色越深,代表神经信号越强,系统就越确定他想点击那个按钮。Mark 可以通过脑控「填满」这个色块,实现精确选择。

「对于使用植入式 BCI 的用户来说,这种可视反馈太重要了。他们能实时看到自己的神经信号是否『足够强』,也更容易集中注意力。」Synchron 首席商务官 Kurt Haggstrom 解释道。而整个系统通过蓝牙连接,不需要额外设备或看护人员协助。只要 Mark 「想」,设备就能启动。

与传统辅助设备不同,BCI HID 是一个闭环交互系统。它不仅识别用户意图,还能实时提供上下文信息,提高解码精度与响应速度。

它还可以将意念动作直接绑定到系统快捷指令:想象点击手指等于回主屏幕,想象握拳等于打开消息,想象挥手等于启动视频通话。这不仅提升了操控自由度,也让系统交互真正进入「零干预」状态。

此外,BCI HID 具备极高的私密性——脑信号是用户「专属」的,无法被他人操控,也不会被其他设备「读取」。未来 Synchron 将推动 BCI HID 成为一个跨平台、跨厂商的神经交互标准,让所有 BCI 设备都能无缝接入数字世界。

而苹果的介入,被视为整件事的「临门一脚」。「Apple 能够认识到用户需求并做出回应,这体现了他们对用户无障碍体验的高度重视。」Kurt Haggstrom 如此评价。

不用开颅的脑机接口,或将打败马斯克

提起脑机接口,大多数人第一个想到的还是马斯克的 Neuralink。无论是 Neuralink 之前的直播,还是在 X 上发推文,都引发了不少人对脑机接口的关注。

相比之下,Synchro 在业外可谓是名不见经传。

不过两家公司之间早有过交集,三年前的一个周末,正值 Synchron 在美国首次为患者植入脑机接口设备之际,马斯克向 Synchro 的创始人兼 CEO Tom Oxley 拨通了一则电话。

奥克斯利后来回忆道,电话里马斯克认为脑机接口的方案应该是移除大部分头骨,并用嵌入式钛合金壳替代。而他本人则坚信,无需触及头骨,也能达成目标。

▲Tom Oxley

并且,马斯克还主动提出,如果 Oxley 在这个追求目标的努力中资金不足,尤其是涉及脑机接口的方面,他希望能够提供帮助。但或许出于理念的分歧,这段「牵手」最终无疾而终。

实际上,过去二十年来,研究人员一直在人体上测试脑芯片植入物,但几乎所有这些设备都需要切开头骨并将电极刺入大脑,电线从头部悬挂出来。

简单来说,就是在头顶开一个洞,然后放入一块 Apple Watch 大小的装置。先不说手术过程的风险,即使手术成功了,人类大脑也会对装置产生排异反应,这是侵入式脑机接口的技术难点之一。

而 Stentrode 则不存在这个痛点。

它的手术方式近似于植入心脏支架,产品会通过颈静脉植入进大脑的运动皮层(表达人类运动意图的区域)。大脑对 Stentrode 的排异方式是把它推入大脑组织内,所以 Stentrode 在几周内就会被组织覆盖并固定在该区域。

Stentrode 检测到的任何大脑信号通过一根电线发送,电线沿着静脉向下延伸,连接到缝在患者胸部的 iPod Shuffle 大小的接收器上。

类似于心脏起搏器中的电池,接收器电池续航时间长达 10 年之久。

该接收器通过蓝牙将指令传输到患者的计算机或 iPad,使他们能够访问短信并控制其他应用程序。一旦安装了 Stentrode,患者就会进行校准练习,Synchron 的工作人员会指导他们思考移动身体的不同部位。

在植入方式和理念上的分歧,自然也造就了技术性能上的差异。

举例来说,Neuralink 的设备 N1 拥有超过 1000 个电极,可以捕捉更多的神经数据;而 Stentrode 仅有 16 个电极。N1 的电极直接植入脑组织中,因此捕获的数据更丰富,可转化为更灵敏的鼠标点击和键盘输入。

在之前的报道中,Neuralink 用户同样能通过意念移动光标,而且速度甚至超过部分普通用户的鼠标操作。

尽管如此,为什么苹果最终选择与 Synchron 深入合作,而不是马斯克的 Neuralink?这背后,其实藏着苹果对脑机接口的另一种答案:安全。

正如上面所说,Neuralink N1 是高密度、侵入式植入,怎么理解侵入式手术风险较高,可能引发炎症或组织反应。而 Synchron Stentrode 采用的是低密度、非侵入式植入,手术风险低,恢复时间短,尤其适合不适合进行开颅手术的患者。

当然,Stentrode 的代价就是因为电极不直接接触神经元,信号质量和分辨率较低,数据带宽较低,仅适用于基础层级的神经信号解码。

一个念头,打出一条推文

技术参数只是宏大故事的一部分,Synchron 真正吸睛的,是它已经做到的那些事。

2024 年 3 月,Neuralink 患者在 X 平台发布了一则推文,然而将时间倒回三年前,62 岁的渐冻症患者 Phillip O’Keefe 已经用 Synchron 脑机接口在 X 平台上「打出」第一句话:

Hello world!

注意,这是人类史上第一条通过脑电波「发出来」的推文,没有键盘、没有语音、甚至不是眼动追踪,全靠「想」出来的。虽然推文不长,但对他本人来说,可能胜过十万字长篇小说。

Synchron 的故事当然没止步于此。

当整个世界都被 ChatGPT 占领的时候,很多人都在想怎么用它写论文、写代码、写情书,而 Synchron 想的是如何用 AI 来改善脑机接口的技术。

64 岁的 Mark 就是第一批体验 AI 脑机融合的用户之一。尽管受渐冻症影响失去了大部分肢体与语言能力,他依然可以靠脑电波玩苹果纸牌游戏、看 Apple TV,甚至在 Vision Pro 上「仰望星空」。

具体来说,Synchron 让 ChatGPT 等大型语言模型以文本、音频和视觉的形式获取相关上下文,预测用户可能想要表达的内容,并为他们提供一个可供选择的操作菜单。

并且,在加入 GPT-4o 之后,Synchron 脑机接口迎来了 4 个方面的显著变化:

  1. 辅助通信:GPT 生成预先设定的回答选项,用户不需要逐字输入
  2. 智能预测:GPT 结合上下文预测可能需求,显著减少操作步骤;
  3. 多模态输入:GPT-4o 接收文本、音频和视频输入,通过多种方式提供信息
  4. 适应性学习:系统逐渐学习用户偏好,实现高效个性定制。

更重要的是,这种 AI + 脑机接口的多模态信息输入模式,与大脑本身的行为模式有一些相似之处,Synchron 团队的解释是:

我们这样做的原因是,多模态「4o」是不同的,因为它使用的是来自环境的输入,这些输入的行为就像是用户大脑的延伸。当用户开始与提示互动时,它将获得环境中发生的一切的实时信息流。

在接受媒体的采访时,Mark 表示最打动他的,正是 Vision Pro 中一款观察夜空星座的应用:

这太酷了,它真的栩栩如生。使用这种增强现实技术的效果非常显著,我可以想象,对于处于我这种境地的人或其他失去日常生活能力的人来说,它也会如此。它可以把你带到你从未想过会再次看到或体验的地方,为我提供了另一种体验独立的方式。

这是 Mark 的新体验,也是很多人对于脑机接口的最终幻想。

而 Synchron,真的把这件事做成了。

在 2025 年英伟达 GTC 大会上,Synchron 推出全球首款认知 AI 大脑基础模型 Chiral™,并带来了一段相当震撼的演示视频。

一位名叫 Rodney 的 ALS 患者,手部完全失能,但通过脑机接口和 Vision Pro,大脑变成了遥控器,能够用意念控制智能家居:调节灯光、播放音乐、控制室、启动家用电器。

当时,Oxley 更是信心满满地表示:

「我们正利用生成式预训练技术,构建一个真正意义上的『大脑基础模型』。Chiral™ 直接从神经数据中学习,从人类认知的源头进行抽象,从而创造出能够切实改善用户生活的功能。而这一切,都建立在我们能够大规模获取神经数据的基础之上,正如将 BCI 技术普及到如同支架植入手术般便捷。」

所以无论是 GPT-4o,还是脑电接口,它们的终极目标其实是一致的:找到适合每一个人,尤其是被技术忽视的那一部分人,和计算机对话的新方式。

对于像 Mark 这样的用户来说,他们终于不用再依赖别人,也能再次说出自己想说的话,看自己想看的星星,甚至打几把纸牌游戏。

如果这不是人类科技的终极浪漫,那什么才是?

人文关怀,永远是科技的最终底色

可这些进展,最终是为了谁?

我们或许该把视线拉近一点,看看这项技术对某些人来说意味着什么。

Synchron CEO Tom Oxley 表示,目前脑机接口公司需要「欺骗」计算机,让其认为来自植入设备的信号是来自鼠标。但如果有专为这些设备设计的标准,技术潜力将进一步释放。

如今,据外媒报道,苹果正用类似方式推动脑机接口设备与苹果生态系统的集成,并计划在今年晚些时候发布这一新标准的软件接口,供第三方开发者使用,推动脑控技术的进一步应用。

自 2019 年以来,Synchron 已在 10 名患者身上植入 Stentrode。

摩根士丹利估计,美国约有 15 万人因上肢严重功能障碍而成为脑机接口设备的潜在首批用户。根据 2021 年的数据,全球约有 1540 万人患有脊髓损伤,而脊髓损伤是导致瘫痪的主要原因之一。

当你在抱怨手机不好用时,有人连「用手机」这件事,都是奢望。

对于瘫痪、渐冻症患者来说,操作一台设备从来不是理所当然的事,他们甚至无法点击按钮、滑动屏幕、甚至无法抬手发出一个简单的指令。

人类社会对「操作」的定义,也一直都过于狭隘。

我们曾以为「操作」意味着点击、滑动、语音、手势,也一直在追求「更自然」的交互方式,可这套定义,从一开始就没为他们预留位置。

脑机接口的出现,改变了这一点,当意念也能成为操作方式,也意味着不再是人去适应设备,而是让设备去理解人。哪怕这个人无法动弹,无法说话,只剩下一颗仍在清醒地思考的大脑,他依然能与这个世界建立连接。真正的无障碍,是让世界适应每一种存在方式。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


实测豆包一键修图,拍照小白有救了|附修图指令

By: 周奕旨
4 August 2025 at 15:20

照片后期,向来是横亘在普通人与「大片」之间的一道坎。

专业人士为此耗费心力,将拍摄后的数小时投入到电脑屏幕前,与各种曲线和图层搏斗;普通爱好者更是 常常因为摸不透 Photoshop 和 Lightroom 里那些天书般的工具而望而却步。

我们似乎都默认,一张出彩的照片,必然需要高超的后期技术。

不过,前两天登上热搜的「豆包修图」让我眼前一亮。

在 AI 大行其道的当下,修图这件事或许真的可以变得无比轻松:你只需要用一句话交代你的想法,AI 就能帮你 P 出一张心仪的大片。

对 AI 来说,题材不再是难事儿

摄影作为一门古老的艺术,早已分化出人像、风光、美食等诸多门派。

过去,每个门派都有自己秘不外传的后期心法,而现在,AI 就像一位打通了所有门派经脉的武林高手,用一套大力出奇迹的算法,通吃各种题材。

风光摄影师常常为了等待一个完美的天气和光线而起早贪黑。

可如果运气不好,拍到一张天空惨白的照片,后期处理起来就相当麻烦——需要创建复杂的蒙版,把天空和地面分开,单独进行调整。

但有了AI,这一切变得像点外卖一样简单。

我将一张照片分别用 Photoshop 和豆包进行处理,照片拍摄于入夜前,但厚重的云层挡住了壮观的落日,同时也大幅度压低了画面的亮度,观感暗沉。

修图的目的是替换掉原本不够漂亮的天空,你能一眼分辨出哪张是 AI 修的,哪张是我手动修的吗?

揭晓答案——左边是我在不到五分钟内用 Photoshop 手动处理的结果,右边则是豆包在几十秒内生成的版本。

乍一看两者效果相近,但作为亲手操作过两个版本的我来说,这其中的差别一目了然。

按照传统的修图流程,我需要手动精细抠出天空,保留地面树枝的细节;接着再寻找合适的晚霞素材替换原本厚重的云层,并统一天空与地面的色调与亮度,以保证整张图的色彩和谐。

而在豆包中,我只需要一句话提示,就能直接生成这样一张几乎完成度极高的图片。

▲ 原本复杂的操作,对 AI 一句话的事儿

放大查看细节后,尽管在极限放大下,AI 图像的画质略逊于手动处理版本,但豆包依然保留了树林与天空交界处的细节,地面亮度与色温也同步优化,整体画面协调自然,展现出相当成熟的修图逻辑。

▲ 豆包处理的天地交界,比我两分钟处理出来的更精细

日常风景照片的另一个难题,则是茫茫多的路人。

按照传统方法,你需要先将照片导入 Photoshop,用污点修复画笔或仿制图章工具,放大到 300% 进行精细处理。

在涂抹路人的同时,还得纠结到底是用内容识别还是近视匹配,若是遇到复杂纹理,还得手动创造纹理,繁琐至极。

▲ 掌握这些工具,是传统后期的第一步

但对于 AI 来说,这也不过是分分钟的事——

在不到一分钟的等待后,我收到了处理完成的照片:不仅保留了原图的色调与画质,还精准去除了所有路人。

尤其令人称赞的是,AI 在清除人物的同时,还细致地保留了右侧江岸岩石的阴影细节,没有出现常见的粗糙涂抹痕迹,整体效果令人非常满意。

▲ 使用 ChatGPT 去除路人

光影重塑是风光摄影进阶的修图技巧,指的是摄影师在后期处理中,根据照片的不同表现,运用蒙版、画笔等工具,精细调整局部画面。通过顺应直觉和逻辑的方式,重构整体光线效果,营造明暗对比,从而突出主体,渲染氛围,提升照片的视觉冲击力。

停!

我知道,这么一大串讲完,你已经迷糊了,简而言之,光影重塑就是根据个人审美与技术,调整出更具冲击力和逻辑感的照片。

过去,要做到这一点,不仅需要熟练掌握 Photoshop 的各种工具,还需要对光线有一定的理解和控制能力,以及出色的审美,才能做出既不夸张又恰到好处的光影效果。

▲相信我,你不会想学这套流程的

而现在,交给 AI 也就是一句话的事儿——

在简单交流后,AI 为这张照片按照风光摄影的修图思路进行处理,给画面添加了遮盖无用细节的平流雾,让其覆盖较低的楼房,营造出朦胧氛围;

同时进行光影重塑,从画面原本的光影逻辑出发,加强了阳光在建筑面上的反射效果,使画面光影合理、有层次感,突出了东方明珠的主体性。

▲ 使用 ChatGPT 光影重塑

同样的方法,我们也可以挪用到相册中另一个不能忽视的大种类上——宠物和人像。

这里指的不是磨皮、面部重塑等因人而异的主观调整,而是 AI 可以按照一定的逻辑帮你润色画面的光影,营造特别的氛围,以达到手机无法直出的质感。

除了光线调整,在这类照片中,用 AI 添加道具,营造特殊的氛围,也是另一种玩法。

就像前面的一句换天一样,你可以用一句指令让 AI 为画面中添加一些符合环境的元素,比如漫天飘散而下的黄叶,或是从窗台倾泻而入的阳光。

再将脑洞打开一些,如果遇上不满意的天气,你可以让 AI 换一下天空,顺带注意处理好人物的光线,得到一张毫不违和的照片。

▲ 雪景也是不错的选择

风景和人物宠物解决了,还有一个重要的题材不能忘记——美食。

如果按照传统方法,摄影师需要精确校准白平衡,防止任何偏色都会让食物看起来不新鲜。

进入后期,还要小心地提高清晰度,但又不能过头,否则食物会显得干瘪,毫无食欲;接着还要利用色调曲线和 HSL(色相、饱和度、明度)滑块,精确地调整每一种颜色的表现,让色泽更诱人。

在这方面,AI 也可以帮上大忙。

润色后的照片层次更为分明——冷吃兔与鸡肉裹满红亮油润的酱汁,表面铺满鲜红辣椒段,点缀其间的金黄花生米酥脆诱人,视觉与味觉的冲击感扑面而来,瞬间唤起食欲。

可以说,在 AI 的帮助下,你已经跨过了曾经逾越在普通人与大片之间的那道高墙,拥有了「言出法随」般的修图能力。

但魔法并非总能随心所欲,想要精准地实现心中所想,「咒语」是关键。

对 AI 讲话,有些诀窍要注意

用 AI 修图看起来很新鲜,但背后其实就是我们熟悉的文生图的进阶应用。

顾名思义,AI 从我们这里获取一段描述,并从中理解我们的意图,最后生成出符合它理解的图片。

这里的难点在于,什么样的话是 AI 容易理解的呢?

我准备了一张想要处理的照片,以豆包为例,尝试不同提示词的效果。

第一次,如果我简单描述:

将这张照片 P 好看。

此时,AI 对照片进行了一定的基础处理,我们可以明显看到画面对比变得更强了,颜色也更加浓郁,但我对这样的处理并不算满意——

这张照片拍摄于傍晚,最大的问题在于画面不够通透,层次也不够丰富,相比提升对比度和饱和度,我其实更希望从整体风格上进行调整。

回头看我的提示词,只有一句模糊的「好看」,但「好看」本是一个极其主观的感受,AI 无法隔着屏幕感知使用者的审美偏好,只能依靠预设的主流美学风格帮忙处理图片,最后就得到了一张「饱和度战士」。

但如果将描述改为:

将这张照片的拍摄时间改为蓝调。

有了更明确、客观的描述,AI 生成的图像也明显更符合需求,在观感自然的基础上,蓝调更突出了,画面的冷暖对比也更为强烈,但这样还不够——

单一维度描述的咒语还不够精准,AI 可能会出错,同时由于日落与城市开灯之间有时差,所以拍摄时城市还没有亮起灯光,照片本身并没有体现出城市的繁华,这比较遗憾。

想要这张照片更好看,我们可以为 AI 准备一个更全面的建议。

所以,我们进一步将描述扩充为:

将这张照片的拍摄时间改为蓝调,为画面中的建筑物添加一些符合逻辑的灯光,远处高大的建筑可以添加示廓灯,为画面打造内透效果,注意灯光的合理性。

从更多角度描述我们意图的提示词,得到了非常不错的效果,AI 在凸显蓝调的同时,顺利为图片中的建筑物添加符合逻辑的灯光,打造出一张富有层次感的城市夜景照片。

到了这里,我们可以总结出一套方法论,来为 AI 提供精准的描述,以尽量准确的方式传达我们的意图——

「主体 + 时间/环境 + 光线/色调 + 风格/情绪 + 特殊效果 + 细节约束」

公式由六个部分组成,六个部分分别代表了一张照片的各个维度:

  1. 主体:你希望 AI 处理的核心对象,如:这张人像照片、这张城市夜景
  2. 时间/环境:希望照片呈现的时间或自然条件,如:傍晚、蓝调、清晨、下雪天
  3. 光线/色调:想要强化或改变的视觉氛围,如:暖色调、冷光、日落光影、通透感
  4. 风格/情绪:照片整体想传达的感觉或调性,如:繁华都市、静谧夜景
  5. 特殊效果:希望额外添加或修饰的视觉元素,如:添加建筑灯光、水面倒影、天空星星
  6. 细节约束:对 AI 输出的合理性、真实性的补充要求,如:灯光符合建筑逻辑、注意真实透视、避免过度磨皮

按照这个公式,我们可以最大程度地掌控照片中的各个元素,越全面,AI 能理解就越精准。

依旧是这张照片,我们用这条公式的方法来撰写提示词,试试 AI 能不能给我们提供另一种风格的照片:

这张照片(主体)改为雨天拍摄,此时正值入夜前的傍晚(时间),为画面添加一定的雾气,雨水与雾气被建筑灯光打亮,在空中连成丝线,雾气可以盖住部份建筑(特殊效果),同时按照逻辑重塑光影(光线),注意不要改动删减照片中已有的建筑和元素(细节约束)。

雾气自然、影调和谐,积雨的屋顶还有符合逻辑的光线反射,这张照片的确出乎意料——

以往需要繁杂后期才能实现的效果,现在不到 30 秒就能轻松获得。

需要一提的是,在我试过的几十张照片中,修图效果最强的是豆包,其次是 ChatGPT,文中总结出的提示词公式,在这两个 AI 上都能取得相当不错的效果;

而 Gemini、Qwen 等 AI 工具则更倾向于重绘,照片改动痕迹较重,相较之下更推荐前两者进行精修润色。

玩到这里,我一边感叹 AI 的确强大——不需要任何修图基础,只需要提供完整的想法,就可以得到一张处理得八九不离十的照片;

但另一方面,一个有些老生常谈,但的确没办法忽视的矛盾,开始拷打我的内心。

照片的「真实」,到底在哪里?

在 AI 技术的加持下,我们的创作和表达变得前所未有的自由和丰富。

修图不再是专业人士的专利,普通人也可以轻松地通过 AI 实现照片的修饰与再创作。

不过,当我们沉浸在用 AI 把自家猫咪 P 成宇航员的乐趣中时,一个纠葛已久的矛盾,也随着而来:

在一些人眼里,AI 修图让照片背离了现实,变得虚假;而另一部分人认为,这只是自娱自乐,何必用如此严格的要求去度量一张照片。

在技术交替的时期,类似这样的理念之争并不稀奇,甚至已经有了愈演愈烈之势。

德国摄影师 Boris Eldagsen 在用一张 AI 生成的图片赢得索尼世界摄影奖后,主动拒绝领奖,并公开了图片的 AI 身份。

在世界级的专业摄影比赛上整这种活儿,并不是一个玩笑——他想以此引发人们的讨论,并强调我们必须区分用光写作(摄影)和用提示词写作(AI 生成),以保护照片的公信力。

▲ 赢得索尼世界摄影奖的 AI 作品《假记忆:电工》,由 DALL-E 2 生成

不过,这场关于真实的辩论,或许从一开始就混淆了两个不同层面的问题,我们必须区分两种不同的语境:一种是「公共领域的真实」,另一种是「个人表达的真实」。

对于法庭上的证据,或是《纽约时报》的头版照片,客观、可验证的真实性是其生命线,一张照片的来源——由谁、在何时、何地、为何拍摄——是判断其价值的根本标准。

在这种语境下,任何未经声明的修改都可能构成欺骗。

▲ 能将特朗普 AI 成猫猫吗?恐怕改不得

但对于你的朋友圈来说,真实的含义则完全不同。

在数字世界的私人领地里,我们追求的往往是一种情绪的真实、一个笑话的真实或一种审美的真实。

是的,当看到一张猫猫正在帮忙做饭的图片时,我们不会感觉自己被欺骗了,只会被逗乐。

▲ 我给爸妈说猫猫给我养老,我爸妈也不会和我急眼

这里的真实无关乎事实,而关乎表达。

这或许才是普通人拥抱 AI 修图的真正原因——在个人表达的领域里,意图是事实更重要的准绳。

一位新闻记者的意图是见证,他有责任尽可能忠实地记录事件;而一个普通人的意图是表达,他有权利通过各种方式来传达自己的情感和创意。

所以回到最初的问题,去吧,大胆地让赤道下雪,让猫咪登月。

在这个 AI 的时代,在你的私人世界里,想象力是唯一的边界。

让我有个美满旅程

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌
❌