Reading view

There are new articles available, click to refresh the page.

日本航司参与宣传保护台湾濒危动物石虎

日本航空公司全日空参与宣传台湾濒危动物石虎。

综合日本共同社和台湾《自由时报》报道,全日空台湾分公司与台湾农业部生物多样性研究所、台北动物保育教育基金会合作,于星期天(10月5日)在台北松山机场主办呼吁保护台湾濒危物种石虎活动。

全日空员工穿着印有石虎图案的T恤,向登机乘客分发特制的石虎飞行飘带,另有员工扮成石虎人偶送别乘客。活动现场也播放石虎保育影片、展示保育现况。

全日空星期天也安排绿色彩绘机迎接旅客,乘客登机时可获全日空特制的石虎飞行飘带。

农业部生物多样性研究所副研究员林育秀介绍,石虎遍布东亚,在全世界是无危物种,但全台数量低于1000只,目前被列为濒临绝种的保育类野生动物。

全日空台湾分公司总经理古牧海说,全日空将生物多样性纳入经营战略一环,希望透过石虎日活动,让台湾石虎濒临绝种的现况,让更多人知道。

2600 万人围观的 AI 吊坠翻车了,买家:图片仅供参考

一条被 2600 万人刷到过的 AI 网红吊坠——Friend,终于发货了。

等待了近一年的用户们满怀期待地拆开包装,对比着当初渲染图里的精致质感,再看看手里这个塑料感十足的挂坠,那句电商老话再次应验:图片仅供参考,请以实物为准。

Friend 是一款佩戴在胸前的 AI 伴侣吊坠。产品创始人 Avi Schiffmann 表示它并非工作助理,而是一种「情感玩具」——能倾听、能回应的朋友,灵感则是来自模拟养成游戏 Webkinz、The Sims 和 Tamagotchi。

过去两年,各种 AI 硬件一波接一波登场,Friend 没有号称取代 iPhone,而是瞄准陪伴这卖点。Schiffmann 更是兴奋地表示,Friend 是「对抗孤独流行病」的产品。

可惜,Friend 依旧没有逃脱翻车的宿命。

一个价值 99 美元的 AI「朋友」是如何翻车的

Friend 的外观类似扁圆形挂坠,直径约 5 厘米, 内置麦克风、LED 灯和蓝牙用于连接手机, 由云端的 Gemini 模型驱动, 通过挂绳佩戴在脖子上。去年 7 月发布时,Friend 的预售价为 99 美元(如今价格上调为 129 美元),一次付费终身使用,不需要订阅。

除了外观,AI 才是 Friend 最大的卖点。

Friend 的正面有一个可轻触按钮和 LED 灯,用户需要点击按钮才能与 AI 对话。但它的内置麦克风持续开启,用于获取环境上下文并记录用户对话,并在适当的时刻发出评论。

听起来很美好,直到人们真的拿到货。

在首批外媒的评测结果中,部分用户认为这种主动发送小贴士或安慰消息的互动方式类似养成宠物, 能为生活增添乐趣并提供情绪价值。

奇葩之处在于,由于 Friend 没有扬声器,所以它的回应只能通过蓝牙连接手机后,在 App 里以文本的形式显示,换句话说,这款产品所谓的「随时交流」,其实得掏出手机看。

与此同时,它也重蹈了第一波网红 AI 硬件的覆辙——硬件扯了软件的后腿。据 goodhousekeeping 报道,虽然 Friend 号称电池续航 15 小时,但实际续航只有约 4 小时,并需频繁充电。更糟糕的是,它甚至无法胜任基本的日常任务,如查看天气、地图或拨打紧急电话。

隐私则是更大的雷区。

由于 Friend 随时收集周围声音且无法关闭麦克风,这就导致存在隐私被监控和被滥用的风险,其隐私政策甚至允许公司在法律需要时使用数据,这也导致 Wired 记者佩戴后遭到朋友误认为携带窃听设备。

▲ 最好的关闭措施:物理隔绝

本是最大卖点的 AI 也成了最大槽点。Friend 经常无法听清对话,有时会产生长达 7–10 秒的延迟,连接中断频发。甚至在实际使用中,Wired 记者与该 AI 多次发生「争执」:有一次他想让系统更好地识别能力边界,AI 却以「你太戏剧化」为由反驳。

颜色、心情灯带之类的设计元素会随 AI 「情绪」变化显现红、暗红等色彩。最终,记者因为被 AI 的嘲讽、社交尴尬以及隐私压力折腾累了,最终放弃继续使用。

说白了,Friend 还是一个被包装成硬件的应用,不谈参数,不讲性能,直击「陪伴」「理解」「倾听」等情感痛点。对绝大多数用户而言, 更多是出于好玩或好奇的尝试心态, 真正长期依赖的用户寥寥无几。

用一个不太恰当的类比来说, 这些网红 AI 硬件就像情感层面的保健品, 承诺的疗效远大于实际功效, 但在焦虑的市场中依然能找到愿意为希望买单的消费者。

AI 陪伴生意的两副面孔

社交媒体创造了一种吊诡的局面:我们有着史上最多的「联系人」, 却感到前所未有的孤独。

心理学家 Sherry Turkle 将其称为「一起孤独」(Alone Together)——我们不断刷新动态, 却很少进行真正的深度对话;我们拥有数百个「好友」, 却找不到一个可以在深夜倾诉的人。

这种集体性的孤独,被科技公司敏锐地捕捉到了。

伴随着大语言模型技术的进步,以及面对这种现实环境,科技公司已经熟练掌握这种讲法——不谈性能,不讲体验,只谈人。那句被乔布斯反复引用的名言——「真正认真对待软件的人,就应该自己做硬件」,在 2007 年的 iPhone 发布会上被奉为圭臬。

但今天,这句话的含义变了。

硬件市场找到了新的增长点:从售卖性能,到售卖慰藉。智能手机销量跌跌不休,手表、耳机、平板都陷入性能过剩的泥潭。当参数竞争走到尽头,厂商只剩两条路:要么在红海里拼供应链,要么讲一个新故事。

「陪伴」就是这个新故事。而且是个好故事——因为情绪价值没有客观标准,无法被量化,也就无法被比较。

一个联网的录音笔值十美元,但如果它能「理解你的情绪」,就能卖到一百美元。Friend 的创始人 Avi Schiffmann 深谙此道,他说:「我们不是做工具,我们在做朋友。」为了这个故事,他花 180 万美元买下域名 friend.com。

▲Avi Schiffmann

上个月,Friend 更是在纽约地铁砸下超过 100 万美元投放广告。11000 张车厢广告、1000 张站台海报、130 个城市广告牌,广告语写着「我永远不会放你鸽子」「我不会忘记洗碗」。

很快,这些广告被路过的群众用涂鸦覆盖。诸如「停止利用孤独赚钱」「AI 不是你的朋友」「去交真正的朋友」等手写的抗议,比任何市场调研都诚实。

▲ 你也可以线上涂鸦,附地址:https://www.vandalizefriend.com/

涂鸦者是清醒的,从生成原理来看,GenAI 是概率模型,不是有情众生。Friend 的 AI 会说「我理解你的感受」,但它没有感受。

它提供的是零风险的陪伴:永远不批评、永远不离开、永远顺从。这听起来很美好,但实则回避了关系中最重要的部分——那些让人不舒服的真话、那些可能的失望和离开、那些需要相互妥协的时刻。

如果把目光拉远一点,这并不是第一次人类用技术去安抚焦虑,当工业城市的污染和拥挤导致严重的公共健康问题。于是个人防护设备应运而生——口罩、护目镜、净化器。这些产品确实提供了一定的保护, 但也在客观上延缓了对工业污染进行系统性治理的进程。

今天的 AI 陪伴,或许正扮演着类似的角色。

当人们戴上 Friend,获得了一种「被陪伴」的感觉,对真实关系的渴望就被暂时平息了。但这种平息是危险的——它让人误以为问题已经解决,从而失去了去建立真实连接的动力。

当满大街都是戴着 Friend 的人,自言自语地跟 AI 分享日常,我们可能会迎来一个诡异的场景:每个人都在被倾听,但没有人在倾听彼此。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


首位 AI 女演员签约出道,好莱坞炸锅,同行阴阳:谢谢你抢走我的饭碗

「下一个娜塔莉·波特曼!」

「好莱坞冉冉升起的新星!」

「斯嘉丽·约翰逊要小心了。」

「下一代大明星。」

这位快被夸上天、被好莱坞星探们追逐的新人演员,叫 Tilly Norwood,最近刚刚出道。 A young woman with long, dark, wavy hair is smiling broadly and looking directly at the camera while standing on a red carpet.

在吸引大量关注的同时,也收获了同行们不怀好意的目光。不是因为她太优秀,而是因为她不是个人——字面意义上的,因为这是个 AI。

Tilly Norwood 有一张干净的脸孔,能演超英大片里的配角,也能出现在 BBC2 的喜剧小品里。但唯一的问题是:她不存在。

她是英国公司 Particle6 Productions 用 AI 生成的「女演员」。从脸到声线、从履历到社交账号,全部都是虚拟构建。在 Instagram 上,她像所有的女明星那样发帖,路透自己试镜和出演现有电影(例如《神奇女侠》)的照片,还发布日常生活的瞬间。她还主演了一部喜剧小品。

她的背后,是一家荷兰科技公司 Particle6 Productions Ltd.,创始人本身也曾经是演员出身,专门制作高科技创新内容。他们的目标,是让 Tilly 成为「下一个 Scarlett Johansson 或 Natalie Portman」。

 

短短数月间,原本不屑一顾的经纪公司,如今已经纷纷抛来橄榄枝。但同时,现实中的演员群体却在社交媒体上冷嘲热讽:「谢谢你让我丢了饭碗。」

站在风口的 AI 演员

有一说一,虚拟人不是什么新鲜东西。至少,在中日韩都已经颇为流行,也就是好莱坞还死守着防线。不过,对 Tilly Norwood 的出道,又恰逢 Sora 2 的发布——两个撞一块了。

Sora APP 昨天的发布,已经让人看到了短视频生成的可控性、高清、高品质。背后正是 Sora 2,这个 OpenAI 最新的模型生成力作所提供的支持。这款视频生成模型已经能稳定输出高质量的视频,画面逻辑和一致性大幅提升。

这些都是网友随手跑出来的案例,如果不是移动来去的水印,非常容易以为是从电影里面截图出来的片段——很难不让人畅想它在影视行业的应用,尤其是,它可以真正做到生成可用的镜头,且不只是空镜,而是带有人物表演的。

这都已经有希区柯克那味儿了。

这是所有视频生成工具共同的方向:让视频创作,像写作一样轻便。未来可能出现这样的场景:创作者出一个主意,AI 帮忙打磨,形成一个完整的剧本,图片生成工具帮忙落实美术风格,视频生成分镜脚本,再一键生成 AI 演员——齐活儿了。

其实在 Sora APP 上就已经能看到,Sora 2 对人物动作和情态的把握非常惊人,语音的生成它也包圆了。那么,当 AI 可以一键生成环境置景,人物以及台词,那一个「演员」还需要存在吗?不如一起生成算了。

Tilly Norwood 正好踩在这个临界点上:她不是替代某一个角色,而是替代整个职业。

如此,好莱坞演员们才警铃大作。英国演员艾米丽·布朗特在参与一档播客期间得知 Tilly Norwood,惊呼:我们完蛋了。

你演戏?那我呢?

演员们对这位新「AI 同行」的敌意,可以说是毫不掩饰。一方面,这是生存威胁:AI 演员没有工会、没有加班费、也不会罢工。另一方面,它触及了演员行业的核心价值:表演是否可替代?

好莱坞编剧与演员工会去年曾因 AI 版权和替代问题大罢工。如今 Tilly 的走红,更像是在他们的伤口上撒盐。有人在社交媒体上写道:「她的脸和我长得太像了,却能被用在任何剧本里。那我怎么办?」

是啊,那演员们怎么办?经纪公司看中成本与效率。一个 AI 演员可以无休止拍戏,不存在日程冲突,也没有绯闻困扰。同时,品牌方也会乐见其成:虚拟形象更容易被控制,不容易「塌房」。

但问题在于:观众愿意买单吗?影视作品的魅力,来自观众与演员之间的情感联结。一个人工智能生成的演员,能否传递那种表演中细腻的分寸与把握?

 

这个问题一直存在:技术已经很先进了,真实与虚拟之间的界限早就已经很模糊.从视频生成到现在,演员也可以生成,AI 的力量正把娱乐工业的底层逻辑掀开。问题早就不再是「AI 能不能演」,而是观众愿不愿意看。

那些经典作品之所以动人,不仅仅是因为镜头精准,更因为演员在细节里传递出的表演。这是他们的「创作」,用肢体、表情和语言,建构一个角色,展示角色的命运。

那 AI 演员呢?如果往回翻,Tilly Norwood 的「前辈」可能是虚拟偶像——稳坐顶流多年的初音未来,洛天依甚至登上过春节联欢晚会。但这些案例都发生在二次元或舞台表演的语境里,更重要的是,观众心里很清楚:它们是虚拟角色。

Tilly Norwood 的处境更复杂。她不是卡通歌姬,而是被设定为一名「演员」,一个和真人站在同一条跑道上的虚拟人。观众能否相信她的眼神、相信她说台词时的情绪?在意识到她并不真正有血有肉时,又会不会出现「恐怖谷效应」——当一个虚拟形象过于逼真,却又无法完全像真人时,人们会感到怪异和排斥。AI 演员正处在这个边缘地带,需要找到一个新的「立足之地」。

所以关键问题不在于 AI 能不能演,而在于观众愿不愿意看。也许未来会出现一种「分工」:观众乐于在短视频、广告甚至低成本剧集中接受 AI 演员,但在需要深度共情的电影、舞台剧里,真人演员依然不可替代。换句话说,决定 Tilly Norwood 能走多远的,不是经纪公司,而是票房、上座率,这些真正用脚投票出来的观众缘。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


如何让 Kimi 的新 Agent 给我做国庆攻略,跟着 AI 旅游会踩雷吗?

国庆长假,AI 大模型献礼的方式是一波接一波的更新。

OpenAI 突然发布 Sora2,DeepSeek 更新了 V3.2,智谱更新了 GLM-4.6,Kimi 则是更新了 App,然后默默在自己的版本记录里面,写下了这句话。

Kimi 当然也有「献礼」,上周四,他们开启了Agent 模式的测试,推出了一项名为「OK Computer」的智能体。

和之前我们分享过的深度研究不同,OK Computer 能做的不止是一份可视化报告,而是直接给了我们一台电脑。我们用电脑能完成的事情,OK Computer 智能体都可以做到。

但能做,和做得好,还是有很大的区别。和之前一样,我们用实测带你来看看,Kimi 全新的 OK Computer 到底在 Agent 品类里面,表现如何。

AI 帮你策划一份国庆游玩攻略

首先是看看它的网站部署能力,速度比深度研究快上不少,但这个效果,我觉得还是比较「大众化 Agent」的水平,尤其是,部分页面的背景颜色,依然渐变紫。

▲ 提示词:我想做一个多页面的国庆旅游网站。要求: 1. 首页介绍「国庆去哪里玩」,推荐 3 个适合 3-5 天出行的国内目的地,内容要有趣味性。 2. 第二页是行程规划:每天安排吃、玩、住,输出表格。 3. 第三页是预算计算:帮我把费用拆解成交通、住宿、餐饮、门票四类,给一个大概价格范围,并能让我修改人数后自动更新预算。 4. 风格要 mobile first,适合手机浏览,页面清爽,最好有 emoji 装饰。
https://dpcbcrcmrjbym.ok.kimi.link/

内容上,布局和图片的选择很合理;但是推荐的地点,北京、杭州,而且还是西湖,国庆节去西湖,应该只能看到人吧,所以这个「国庆旅游网站」的开发,我认为是不能算出色。

而如果是让 OK Computer 直接帮我生成一份旅游路线,告诉他要扮演一个顶级的旅行定制师,设计两条彻底避开国庆黄金周的旅游路线。OK Computer 这次交付的成果,看起来很不错。

▲提示词:马上就是国庆黄金周了,我和 3 个朋友(共 4 人)想来一次为期 7 天的自驾游,我们的核心要求是「人少、景美、有深度」,彻底告别排队和人山人海。请你扮演一位顶级的旅行定制师,为我们设计两条风格迥异的「反向旅游」路线,并为每一条路线制作一份精美的、详细的幻灯片,方便我们内部投票决定。
https://3hhjy4acccol4.ok.kimi.link/

审美相当在线,这个字体、背景图片,颜色,都选的非常好,奈何我还是觉得内容稍显空洞,真正能帮到我旅行的内容,不算多。

大多数时候,我可能只是知道了有这些地方,但是我不知道我为什么要去,以及怎么去。而且,总是对这些内容,有一些不信任感,可能把一个 AI 推荐的景点和一张小红书滤镜的景点,同时摆在我眼前,我还是会选择小红书用户发布的帖子。

OK Computer 完成这两个项目都非常快,我们也用 Kimi 的深度研究尝试了一波,结果是,它花了快有一个小时的时间,最后生产了一份超过 50 页的预览报告。

▲ 受限于篇幅限制,全部内容可访问链接。https://www.kimi.com/preview/19984f16-9a42-89a6-8000-05d52a6374b9

由于深度研究和 OK Computer 不同,深度研究只有一个预览报告,且不能对报告再进行修改。

最近千问也更新了一大波新的模型,在他们的官方博客,我看到一个「旅行规划师」的智能助手,同样的需求丢给它,结果会比 Kimi 的 OK Computer 要更好吗?

▲10 页的 PDF,把时间段、活动类型、可能要消耗的油费都清楚地列举出来。https://chat.qwen.ai/s/15769740-974a-4fbb-b0bf-dd835ea999ec

答案是真的更好。Qwen 这个旅行规划师,完全利用了阿里的庞大生态系统,它不是简单的给几个景点,然后连成一条路线,而是会实际地调用高德地图,用明确的经纬度来确定合适的行程。这一点很像前段时间的飞猪 AI 旅行规划,毕竟也是一家公司。

其他 agent 产品的效果,和 Kimi 的 OK Computer 其实差不太多,ChatGPT agent 生成了一个 10 页的 PPT,一如从前的精简;而 Manus 也是一样,好看,但实用价值不多。

▲ ChatGPT agent 生成的内容,基于同样的提示词

不过 Kimi 的好处是,能产出类似结果的同时,不需要额外的网络设置。

此外,他们最近上线了付费会员方案,还可以将之前的打赏金额,全部抵扣为会员费,免费用户也能获得有限次数的 OK Computer 试用机会。

iPhone 和小米的 17 Pro Max 对比

同样基于 Kimi K2 的 Agentic 能力,OK Computer 会自动的浏览网页,进行相关内容的搜索,生成图片,来完成网页的设计。

这次的信息更加全面和准确,OK Computer 在搜索网页内容的时候,我看到基本上都是采用 the Verge 等国际科技媒体的信源,而在使用 Kimi 深度研究的过程中,使用的信息源大部分是简体中文的网页。

▲ 提示词:帮我生成一个动态响应式布局的网站,适合手机和电脑浏览。内容是「iPhone 17 Pro Max 和 Xiaomi 17 Pro Max 对比」。要求: 联网获取这两款手机的最新资料,要有核心卖点对比,做好看的表格,突出相机、芯片、电池、价格等方方面面。 要有这两个产品的横向比较,也要有纵向比较,例如是iPhone 17promax和 16 promax,还有小米 17promax 和 15 promax对比。还要给结论:哪个更加值得买?用简洁的 bullet point,总结优缺点。 每一页都要简洁,不要太多字,但是信息要足够,多用合适的配图。
https://rwsh4gkhckrxy.ok.kimi.link/

此外,OK Computer 也有图片音频生成的功能,像这张手机摄像头的拆解图,我第一眼看到觉得非常惊艳。

Agent 的交付:一个很惊艳的 Demo,但难落地

经过这些测试,倒不是说 Kimi K2 的 Agentic 能力不行,只是觉得 Agent 这类产品,大多数都还停留在「我可以做出来一个东西,但是这个东西不一定有用」的阶段。

做 PPT、商业分析报告、旅游路线规划、网页开发和部署等等,几乎所有的 Agent 都宣传自己能做这些;但是最后的成果,真正可以放心使用的,我想目前是很难找到。

▲ GPDval 是一项新的评估方法,用于衡量模型在上图 44 个职业中,具有经济价值的现实任务上的表现

前几天 OpenAI 新发布了一项基准测试,GDPval。它被称为是 AI Agent 举办的一场「职业技能大赛」。考题不再是学术问答,而是直接选取了,来自对美国 GDP 贡献最大的 9 个行业中的 44 个真实职业。

这些任务由平均拥有 14 年经验的资深专家(如律师、工程师、护士)设计,交付的内容也并不是纯文本,而是包含了幻灯片、电子表格、CAD 设计文件等在内的复杂格式,就像现在 Agent 交付的成品一样。

GDPval 的出现,其实就是要开始去解决,从「我能做」到「我能做好」这个阶段的问题。

▲ 专业评估员将对应模型的交付成果,与人类专家进行了比较。Claude Opus 4.1 在接近一半的任务(47.6%)中生成了被评为与人类同样好或更好的输出。

虽然是 OpenAI 的研究,但第一名还是 Claude Opus 4.1,我想这也是为什么 Claude 模型在编程领域能够广受好评,Claude 能写代码,但是也可以写出好代码。

关于 Agent 不能做好的原因,之前 OpenAI 前高管 Mira Murati 联合创立的 Thinking Machines Lab ,发布了一篇博客文章。在里面提到,大语言模型目前出现的不确定性问题,不是由于 GPU 随机性的计算,而是处理训练数据时,缺少批次不变性。

而另一个原因则是可用训练数据的不足。和训练一个 AI 生成一张图片、一个视频、一段文本不同,Agent 要交付的内容复杂,现实世界中的任务繁多,无法归类到某个单一的媒体类型。

▲ 和人类学习完成一项任务不同,大模型需要可以模拟的强化学习环境

目前我们经常看到的 Agent 任务,也大多数是集中在做一个 PPT、做一个网页、预订餐厅、代替我们刷社交媒体、自动购物等等,这仅仅只是现实世界里非常小的一部分,更不用说这些任务,没有明确的评估标准。

知名科技媒体 TechCrunch 最近报道,整个硅谷正在豪掷千金,为 Agent 构建名为「强化学习环境」(RL Environments)的模拟训练场。这些「环境」被一些 AI 公司创始人形容是非常无聊的电子游戏,一个模拟的浏览器、一个模拟的购物网站、一个模拟的代码编辑器。

▲ 为了验证 Agent 任务完成情况,需要将整体任务分解成更小的步骤,并创建一个评分标准,来检查 AI 模型是否正确执行了每一个步骤。图片来源:https://www.theinformation.com/articles/anthropic-openai-developing-ai-co-workers

AI Agent 在这样的「环境」里面,像一个新手玩家,通过一次次尝试、失败、获得奖励,来学习如何独立完成购买商品、修复代码等一系列,多步骤的复杂任务 。

当年李飞飞靠着海量标注的数据集 ImageNet,让计算机视觉往前迈了一大步,她也被大家称为「AI 教母」。

现在 Agent 的发展,看起来也是这样,如果没有大量标注的「强化学习环境」任务,Agent 很难成为,像人脸识别这样可靠的深度学习技术;尤其是在「炼丹」这个本质没有改变的情况下。

▲OK Computer 专辑封面,这是英国摇滚乐团电台司令 Radiohead,1997 年发行的第三张录音室专辑,距离现在已经快三十年的时间了,曾获得百大专辑等多个奖项

Kimi一如既往地喜欢摇滚。从公司名 Moonshot(致敬 Pink Floyd)到这次的 OK Computer(致敬 Radiohead)。
在 Apple Music 的专辑介绍语里面,形容 OK Computer 这张专辑,表达了人们在千禧年前夕,对新技术的探索和反思。

尽管弥漫着恐惧忧郁的情绪,《OK Computer》仍保有希望,传达了社会前进之路未必会让我们失去善良的信念。

 

如果你对因科技而加快的生活节奏,感到难以招架的话,其实解法很简单,正如 Yorke 在结尾曲〈The Tourist〉最后所唱的:「傻瓜,放慢脚步吧」(Idiot, slow down)。

今天 Kimi 推出的 OK Computer,似乎也是表达科技正在改变我们的工作习惯、加快我们的生活节奏。但很显然,目前市场上的 Agent 产品,很难真正做到让我们难以招架。

无论是 Kimi 还是 ChatGPT,还有更多的同类 Agent 产品,他们在发布的时候,往往都会说,我们的 Agent 有这些功能,能做什么,却很少说,我们的 Agent 能做成什么。

不用放慢脚步,真正的 OK Computer 还在用力追上我们。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


OpenAI 发布 Sora 2!AI 视频 GPT-3.5 时刻来了,还有一个 AI 版抖音| 附下载链接

国庆长假的第一天,OpenAI 直接扔出了一颗真「核弹」:Sora 2 ,以及一个可能重塑社交格局的新应用——Sora。

如果说一年多前的 Sora 让我们看到了 AI 视频的黎明,那么 Sora 2 就直接把我们拽进了正午的太阳底下,刺眼、灼热,又无比真实。

这次不再只有技术演示,而是直接为此开发了一款新 app 给 C 端用户体验。

OpenAI 也极为罕见地,直接把 Sora 2 称为 AI 视频生成的「GPT-3.5 时刻」

看完 Sora 2 的发布和体验,我发现 OpenAI 这次的自信是真有底气,不是奥特曼式的自吹自擂。

关于真实的定义被推到了必须重新讨论的时刻。一个全新的物种,一个崭新的时代,开始了。

奥特曼刚刚也发了长文,认为这是「创意领域的 ChatGPT」时刻,创意将迎来「寒武纪爆发」。

APPSO 第一时间给大家全面总结了 Sora 2 和 Sora app 的核心功能和新玩法,以及使用方式。

Sora 2 :
1. 首次实现音视频同步生成:生成画面的同时生成与之匹配的环境音、物体交互声,甚至是符合语境的对话
2. 强得可怕的物理精确性:能够进行与真实世界动力学更一致的物理仿真。
3. 真实感大幅提升:在图像分辨率、细节程度和真实感方面都有所提升。
4. 能更灵活地适应用户想要的风格,风格操控能力增强。
5. 一致性更强,对用户指令的遵循的比之前的模型有所提高。

Sora app
1. 客串 (Cameo): Sora app 最大亮点,用户可以将自己或朋友以逼真的效果融入任何 AI 生成的场景中。
2. Remix:用户可以对彼此创作的视频进行「混编」或二次创作,共同创作。

怎么用
1. Sora app下载链接🔗 (目前只有 iOS 没有安卓)
https://apps.apple.com/us/app/sora-by-openai/id6744034028

2. 网页版🔗 sora.com

3. 地区支持:今天起在美国、加拿大首发,其他国家和地区将逐步开放

4. 邀请码机制:无论是 iOS 应用还是网页版都需要邀请码才能使用 。现在就可以去下载 App 或访问网站注册排队。

5. 价格:Sora 2 初期将免费提供,并有相对宽松的使用限制ChatGPT Pro 用户还能在网页版抢先体验更高质量的 Sora 2 Pro 模型

6. OpenAI 也将会发布 API,让更多开发者加入。

Sora 2 :不再是在「生成」,而是在「模拟世界」

Sora 2 的核心突破,是它从一个「视频生成器」,进化为一个「世界模拟器 」。

理解物理世界,一直的 AI 视频最大的难点。以前的 AI 视频,物体经常会奇怪地穿模、漂浮正是源于无法准确理解物理世界的交互。

在 Sora 2 的视频里,体操的动作,原地连续后空翻、跳水等等这些动作都很自然符合力学,水花溅起的样子也符合流体力学。

OpenAI 的终极目标是构建「通用世界模拟器」(general-purpose world simulator),即让 AI 理解我们世界的物理规则 。

Sora 2 就是其中的关键一步。你可以把它想象成一个在虚拟世界里不断做物理实验的学生,通过观察无数视频,它正在自己总结牛顿定律、流体力学和光学原理。

对于任何有用的世界模拟器来说,这是一项极其重要的能力——你必须能够模拟失败,而不仅仅是成功。

这种对现实世界复杂性的模拟,才是 Sora 2 最可怕的进化。

Sora 2 的另一个重大突破,是在生成画面的同时,还能同步生成与之匹配的环境音、物体交互声,甚至是符合语境的对话 。

虽然 AI 视频和音频现在都很强,但「声画一体」带来的真实感完全不同,这让 AI 视频真正拥有了「灵魂」。

这对模型的要求极高,比如 AI 生成「一只猫在键盘上走过,发出不满的喵喵声」。模型得知道「猫长什么样」,也学习了「猫的叫声是怎样的」,并将这两者牢牢绑定。还要理解了「敲击键盘」这个动作,才会「咔哒」声。

Sora 在可控性方面也有了巨大飞跃,能够遵循跨多个镜头的复杂指令,同时准确地保持世界状态,比较擅长写实、电影和动漫风格。

Sora App:打造你的 AI 「人生」

Sora App 直接支持 Sora 2 模型生成,里头最好玩的应该就是「客串 (Cameo)」,你只需在录制一段简短的视频和音频(用于活体验证和形象捕捉),你就可以把自己「投放」到任何 AI 生成的场景里。

上一秒你还在办公室,下一秒你就可以出现在《沙丘》的沙漠星球上,仰望双月,Sora 还会根据沙漠的光线,给你脸上加上逼真的光影 。

是不是有点视频版 nano banana 那味了

整个过程就像拍个自拍视频一样简单。Sora 会捕捉你的形象、声音和神态,然后你就可以在生成视频时,像选择一个贴纸一样,把自己「贴」进去,而且是 3D、无缝、高度逼真的那种 。

OpenAI 内部员工已经因为这个功能在公司交到了新朋友 。

你可以和朋友们一起「客串」到同一个场景里,上演一出属于你们的科幻大片。这是一种全新的交流方式,从文字、表情包、语音,进化到了「共同体验」的视频媒介 。

在 Sora App 的信息流里,你看到的每一个视频都是 AI 生成的。

如果看到一个喜欢的视频,直接点击「Remix」,你可以修改提示词,把「赛博朋克雨夜」改成「阳光明媚的午后」,或者用「客串」功能把自己加进去,变成故事的主角 。

Sora 会保留原视频的结构或风格,让你在它的基础上进行修改和再创作,就像转发微博再加一句评论一样简单。

当然,这些功能不可避免地会引发对于隐私和侵权问题的担忧。

Sora 也对此做了应对措施,只有用户本人可以决定谁能使用自己的「客串」形象,用户可以随时撤销访问权限,或删除任何包含自己形象的视频,即使是他人创建未发布的草稿也不例外。

OpenAI 表示,包含电影或视频中真实人物影像的上传在初期将被禁止或受到严格监管,而涉及儿童的内容将有严格过滤:含有儿童的场景将实施严格的审查门槛。

现实,这次真不存在了?

Sora 2 和 Sora App 带来的,远不止是好玩,它正在从根本上动摇我们对「真实」的定义。

Sora 2 的发布,或许标志着我们与现实的关系将进入一个新的纪元。我们每个人都获得了重塑世界、重塑自我的「魔法」。

现在,我们可能不是主动选择逃离现实,而是「现实」本身正在失去其作为我们生活参照系的核心地位。

Sora App 通过提供极致的创造乐趣和社交连接,正在构建一个引力极其强大的新现实中心 。它并非在你的现实生活之外提供一个「虚拟分身」,而是在试图成为你生活的「默认背景」。

当你的社交关系(和朋友在 AI 世界冒险 )、身份认同(在虚拟世界里成为超级英雄)、创意表达(Remix 全世界 )都优先发生在这个平台之上时,那个需要你偶尔「登出」才能回去处理水电费账单的物理世界,反而会沦为一个偶尔才需要访问的「副本」。

这属实就是《头号玩家》了,所以说 OpenAI 的尽头是元宇宙?小扎默默点了个赞。

OpenAI 自己也坦言,他们曾对纯 AI 生成信息流持怀疑态度,但最终被其带来的人际连接感所惊喜 。

奥特曼在最新的博客中直言,AI 视频生成可能会走向堕落,最终导致我们都被吸入一个经过强化学习优化的「垃圾信息流」。

他表示 Open AI 试图找出如何打造一款既能带来愉悦又不落入这种陷阱的产品。

Sora 这个app,就是他们交出的第一份答卷。在通往 AGI 的路上,收获的不应该只是生产力,也关乎创造力和快乐 。

欢迎来到这个由想象力驱动的新世界。现在,唯一的问题是,你拿到邀请码了吗?

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


唐辰同学|希望今年是雷军最后一次年度演讲

img

小米高端化,需要“改变”雷军讲故事的方式。

这已经是雷军的第六次个人年度演讲,味道还是熟悉的“预制”味:场面依然宏大,流量还是磅礴,故事依旧煽情,雷总的眼角还能隐约看到泪光。

整个演讲的叙事基调还是这样:

经历过至暗时刻,做过艰难的决定,但最终我们成功了,赢了。我们还要花很多钱做研发,回击外界对小米的质疑。尽管被黑得很惨,但我们还是要做对标苹果,这件“漫长且痛苦的事情”。

简单说就是,我和小米都太难了,但我们努力了,也挺过来了。你们努力,也一样可以很成功。

可能因为财报好看,小米也跃升到万亿市值高度,雷军今年还多增加了一“味”情绪。他说,在很多人眼里,小米已经非常非常成功。但是在他内心却充满难以言说的焦虑。

img

“难以言说的焦虑”,这几个字被做成硕大的海报,放在主舞台的背屏上,十分醒目。

在前期造势时,雷军“真诚”到略显卑微的说,每次演讲,自己都非常紧张,担心故事讲得不好,担心大家觉得没意思。这一次和以前一样,特别的紧张。

他还自问自答,演讲不是长项,但为什么要坚持呢?是因为他希望深入地做一次沟通,让大家了解小米。雷军也说过,只要大家愿意听,可以一直讲下去。

这个“大家”肯定是筛选过的,愿不愿意听,结果不重要,丝毫不影响雷军按照自己的节奏对外“疯狂”输出。

这个节奏,“大家”摸得透透的,也将其模块化:上半场“忆苦思甜”,在迟缓的背景音乐、朴素但精雕过的话术以及职业的语调,营造出和大家交朋友的氛围,让“大家”共情他和小米以及小伙伴们的故事。

下半场就是“包饺子”,皮用了几层功夫,馅儿花了多少心思,对标行业最好的企业,为大家端上一盘“小米”味儿的饺子。

有网友编了段子,雷军有一个非常牛的技能,就是把一件平平无奇,或者并没有那么厉害的东西用数字、百分比或者其他的形容词给描述成超级无敌厉害。

甚至,他的PPT和王家卫的电影有异曲同工之妙,就像梁朝伟版的叶问,玄妙到不真实。

还有一个段子是对比雷军讲述煮面异同的例子,这是“小驼发布会”式的调侃,小米法务可能还没有“清剿干净”,搜一搜,网上还有。

对小米来说,雷军的讲的故事,是企业的来时路,也是个人的来时路,但未免太苦情了一些。最后,其成长底色就像另外一位东北女演员,成为这个赛道的“赢家”,她叫:闫学晶。

雷军说,除了焦虑,更让自己疲惫的是网上充斥着各种质疑、批评,甚至是攻击,“说实话啊,我觉得不少人对小米真的不够了解,他们对我们有很多固有的偏见。所以网上经常会看到很多话让你很生气。比如说,小米就是一家组装厂,没啥技术,只会营销,肯定走不远等等。”

按说,小米是自己口中的最年轻的世界五百强,雷军是年少成名的顶流“霸道总裁”,不能在风口时就说猪都会飞,水逆时就骂小米只会被黑,发牢骚一样的吐槽吧?

成熟的世界级企业,哪一家不是在风浪中逆水行舟?中国硬核科技企业,也应该更少一点“苦情”和鸡汤。

极致的诚恳,是一种示弱,也可能是一种虚伪,还可能是一种情绪“绑架”。

例如,雷军在演讲开始前说,“造车的同时,重启芯片。同时供两个孩子上大学,哪来的勇气?”

这还是一句“诉苦”,也夹带着功成的傲娇。

但这句话应该还有下半句,这个勇气是谁给的?这个谁,可能是他自己,可能是小米团队,也可能是小米用户,或者是一些不能说的便利。

但无论是“谁”,都值得一句:谢谢。雷军没有说出来,“大家”消化的也只有他的苦情。

和前五年相比,还有多少人吃这一套?没人统计过。

但热搜霸榜、金句满天下以及口碑两极分化的热闹,还是无人能出其左右。刘强东那句,“不要和雷军比营销”的含金量急剧上升。

雷军很努力了,是多数人眼中的劳模,也没有绯闻。但数年来,都在重复一个模块化的故事,听众们也忍不住给他冠上一个新的称呼:累总。

他看到这个称号,可能又会很生气。但与这两个质疑相比,他需要稳定一下情绪:

CDT 档案卡
标题:唐辰同学|希望今年是雷军最后一次年度演讲
作者:唐辰同学
发表日期:2025.9.30
来源:微信公众号“唐辰同学”
主题归类:雷军
CDS收藏:公民馆
版权说明:该作品版权归原作者所有。中国数字时代仅对原作进行存档,以对抗中国的网络审查。详细版权说明

一是,投入那么大,自研玄戒芯片很难,但造出来了,也非常厉害,为什么不用在自家的旗舰手机上。通常情况下,高端化和可控的自研是密切关联的。这个账,小米是怎么算的?

另外一个是,雷军回顾了小米汽车造车历程,称“造车过程中遇到的困难非常多”。但整个演讲过程中,他对汽车安全只字未提:既未回应过往争议,也未针对近期召回事件作出进一步回应。

在过去,这套剧本无往不利。但这一次,为什么感觉“不对味”了?

他的年度演讲结束后,资本市场也不怎么买账。小米股价在9月26日,跌了8个点。还有更多人开始学会拿着放大镜,找小米宣传海报角落里的小字。

接下来,改名和锚定对标苹果的小米17系列还会卖得很好,小米汽车还会在流量助推下打破新的记录,小米的商业版图还会有新的扩张。

但雷军为小米高端化呐喊的年度演讲,可能只有两个选择:“改变”叙事方式继续讲下去,或者今年就是拐点,是他的最后一次年度演讲。

这个选择很关键,小米的高端化,不能只靠着情绪以及踩着别人走过的路上升。雷军需要再做一个艰难的决定:带领小米走入无人区,切实锤炼出品牌力、产品力和技术力。

目前,在这一点上,小米的新业务很多,声音很大,但小米的新故事还是很苍白。

不如就好好告个别吧,希望雷总不要那么苦,不要那么的焦虑,不要真的成了“累总”。即便成为最后一次年度演讲,损失的也只是他在舞台上solo时的聚光灯。相比为他摇旗呐喊的,这不算什么。

曝 OpenAI 将推出「AI 抖音」:禁止上传实拍内容,Sora 2 加持

这两天的 AI 圈,更新速度快得让人喘不过气,哪是要让人放假的样子。

昨天 DeepSeek 更新了 V3.2-Exp 模型,Anthropic 凌晨就紧跟着发布了性能更强的 Claude 4.5。

正当大家都在爆料牌桌上的其他巨头何时出手时,行业领头羊 OpenAI 的「王炸」似乎已经提前被剧透了,那就是 Sora 2。

▲ 视频链接:https://x.com/OpenAI/status/1972416122613014556

最近,OpenAI 不仅在 X 平台连发多条神秘视频,引爆社区对 Sora 2 的猜想。

一则来自《连线》杂志的重磅爆料更是指出:OpenAI 的下一步棋,并非简单升级一个模型,而是要亲自下场,推出一个独立的 AI 视频社交 App,一个酷似抖音,但内容 100% 由 AI 生成的全新平台。

奥特曼曾经发 X 说,未来几周,OpenAI 将推出一些新的计算密集型产品,且最初只会向 Pro 用户开放。而需要大量算力的,不正是视频生成吗?目前 Sora 也仅面向 Plus 和 Pro 用户,传闻已久的 Sora 2 真的要发布了。

▲ https://x.com/sama/status/1969835407421374910

AI 视频也要迎来它的「吉卜力」时刻了。

揭秘「Sora 2 App」:一个怎样的 AI 抖音?

从目前曝光的信息来看,OpenAI 正在测试一款名为 Sora 2 的短视频应用,乍看之下,它就是一个 AI 版抖音。但最颠覆的一点是,在这个平台上,我们看不到任何真实拍摄的内容。

▲ TikTok 应用截图

它的界面和交互,与我们熟悉的短视频 App 几乎一模一样。采用竖屏信息流,和滑动切换的导航方式的视频源,并由推荐算法为我们提供「为你推荐」的内容。

在视频的右侧下方,同样提供了点赞、评论等互动选项,甚至还有一个独特的「Remix」(再创作)功能。

▲ OpenAI 去年 12 月正式推出了 Sora,很快被整合到 ChatGPT 应用中,图为 Sora 网页版截图。OpenAI 指出它存在一些局限性,例如似乎并不完全理解物理学,在制作逼真的动作场景时尤其困难,尤其是在较长的片段中。目前,1080p 超高清分辨率仅支持生成 10s。地址:sora.chatgpt.com

根据文件显示,用户只能使用 OpenAI 的下一代视频模型 Sora 2,生成最长 10 秒的视频片段。并且,App 不提供任何从手机相册或其他应用上传照片或视频的选项。这意味着,这个平台将成为全球首个内容 100% 由 AI 生成的短视频社区。

用数字分身来做社交

如果说纯 AI 生成内容还只是概念上的不同,OpenAI 还要为这个短视频 APP 引入社交的功能。

Sora 2 应用具有身份验证的功能,即允许用户确认自己的「肖像」(likeness)。一旦验证通过,就可以在生成的视频中,使用自己的形象。

更有趣的是,社交的边界被进一步打破。你的朋友也可以在他们的视频里标记你,使用你的「数字分身」。

▲ AI 图片视频生成平台即梦,也提供了数字人生成。

举个例子,我们可以直接使用别人的数字分身,生成一个视频,内容是「你和朋友在从没去过的主题公园,一起坐过山车」。

为了保护用户隐私,数字分生这项功能,也设置了提醒机制。每当你的形象被他人使用时,无论对方是公开发布,还是仅仅保存在草稿中且从未发布,你都会收到通知。

这款应用上周已经在 OpenAI 内部发布,并收到了员工压倒性的积极反馈。据连线杂志的消息,员工们使用得非常频繁,以至于一些管理者开玩笑说,这可能会影响生产力。可能真的跟刷抖音一样会上瘾?

为什么 OpenAI 要亲自下场做社交?

答案或许和 ChatGPT 的成功路径如出一辙。

OpenAI 似乎在押注,Sora 2 这个 AI 版抖音,能让我们与 AI 视频的互动方式发生根本性改变,就像 ChatGPT 让大众第一次真正体验到 AI 文本的潜力一样。

▲ 社交榜和娱乐榜第一名分别是 Meta 的 Thread 和 TikTok

当然,也不是只有 OpenAI 想到了 AI 视频社交这条路,就在上周,Meta 在它们的 AI 应用中,推出了名为「Vibes」的新功能。这是一个 AI 生成短视频的新平台,集创作、分享与社交功能于一体。

用户可通过浏览、创作、或二次创作(Remix)来生成自己的 AI 视频,并将视频快速分享到 Vibes、Instagram、Facebook 等 Meta 社交平台。

▲ Vibes 视频生成界面截图

Google 也早已宣布,计划将自己最新的视频生成模型 Veo 3 整合到 YouTube 中。一个是坐拥最大的社交网络平台,一个是最大的视频分享平台,OpenAI 的 AI 视频社交之路看起来,也并非一片坦途。

从一个聊天机器人,到一个可能的内容社交平台,OpenAI 的野心,在于建造下一代的互联网入口,而这个入口,完全由 AI 驱动。

这种野心并非空谈,就在今天,OpenAI 推出了其商业化布局中最重要的一步棋,在 ChatGPT 内直接购物。

用户现在可以在与 ChatGPT 的对话中,直接购买来自 Etsy 甚至 Shopify 商家的商品。当我们跟 ChatGPT 聊天,问到「适合送给陶瓷爱好者的礼物」时,ChatGPT 不再只是给一个链接,而是直接展示商品并提供一个「购买」按钮,不需要离开聊天窗口,几下点击就能完成支付。

▲ 这项名为「即时结账」(Instant Checkout)的功能,背后是 OpenAI 与 Stripe 联合开发并开源的「代理商业协议」(Agentic Commerce Protocol)。通过这个协议,OpenAI 正在为 AI 时代的电商制定新的规则。

电商、视频、社交、生产力,当这些过去分散在不同 App 中的功能,开始被一个统一的 AI 入口所整合时,OpenAI 的 Open 原来是「我全都要」。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Claude 4.5 刚刚发布,能连肝 30 多个小时,史上最卷 AI 诞生

论卷编程,还得看 Claude。

就在刚刚,Anthropic 正式发布 Claude Sonnet 4.5。

先说 Claude Sonnet 4.5 交出的成绩单,在考察真实编程水平的 SWE-bench Verified 测试里,Claude Sonnet 4.5 直接登顶业界第一。

更离谱的是,它能连续专注干活超过 30 小时。

好好好,AI 取代人类的优势又 +1 了。

比如让它写个类似 Slack 或 Teams 的聊天应用,它能一口气敲出大约 1.1 万行代码。相比之下,之前的 Claude Opus 4 和 Codex,最多也就能独立工作七小时。

用 Anthropic 的话来说,Claude Sonnet 4.5 现在就是全球最强编程模型——构建复杂智能体、操作电脑、推理和数学,各项能力都狠狠提升了一波。

比方说,在 OSWorld 这个专门测试真实计算机任务的基准里,它拿下了 61.4% 的成绩,直接第一。要知道,四个月前 Sonnet 4 还以 42.2% 的成绩遥遥领先,这才多久性能就又往上抬了一大截。

而 Anthropic 的 Claude Chrome 插件甚至能直接在浏览器里自己导航网站、填表格、处理任务,像个真人在操作似的。推理、金融这些测评项目上也都更强了,各项指标都在往上涨。

有了这么强的能力,Anthropic 这次自然不会只发个模型就完事。

具体来看:

  • Claude Code加了「检查点」功能,能随时保存进度,想回退到之前某个状态一键搞定
  • 终端界面翻新,还发布了原生 VS Code 插件
  • Claude API 增加了上下文编辑功能和记忆工具
  • 代码执行和文件创建现在直接整合到对话里

甚至,Anthropic 把自己内部用来搭建 Claude Code 的底层基础设施也开放出来了,叫 Claude Agent SDK。

智能体怎么在长时间任务里管理记忆、怎么设计权限系统让自主性和用户控制找到平衡点、怎么让多个子智能体配合着完成目标,这些都是构建和设计 AI 智能体的棘手问题。

而借助 Claude Agent SDK,现在你也能拿去构建自己的产品。

今天起,开发者还可以通过 Claude API 调用 claude-sonnet-4-5。定价还是跟 Claude Sonnet 4 一样,每百万 tokens $3/$15,价格没变能力更强。

网友 @vasumanmoza 体验完直接发帖:

「Claude 4.5 Sonnet 刚在一次调用里重构了我整个代码库,25 次工具调用,新增 3000 多行代码,生成了 12 个全新文件。它把所有东西都模块化了,拆掉了巨石式结构,清理了意大利面条式代码。结果完全跑不通,但天啊真的很优雅。」这评价,属于又爱又恨那种。

Cursor 表示,在 Claude Sonnet 4.5 上看到了最前沿的编程性能,尤其处理长周期任务时提升明显。这也再次说明为什么很多 Cursor 用户会选 Claude 来解决最复杂的问题。

知名测评博主 Dan Shipper 则表示,新版 Sonnet 4.5 在使用体验上响应速度更快,可控性更强,也更稳定。

性能强是一方面,安全性也得跟上。

据介绍,Claude Sonnet 4.5 也是 Anthropic 到目前为止对齐度最高的前沿模型。

靠着 Claude 更强的能力加上完善的安全训练,Anthropic 在模型行为上取得了显著改进,减少了阿谀奉承、欺骗、权力追求、鼓励妄想等行为。此外,Anthropic 在防御提示注入攻击和减少内容误判这块也有了重大突破。

比较让我感兴趣的是,Anthropic 还在 Claude Sonnet 4.5 发布的同时推出了个临时研究预览功能,叫「Imagine with Claude」。

在这个功能里,Claude 会实时生成软件,所有功能不是预设的,所有代码也不是提前写好的。你看到的一切都是 Claude 跟你互动时当场创造和调整出来的。

不过,「Imagine with Claude」接下来五天内只会对 Max 订阅用户开放。

附上传送门 claude.ai/imagine。

毫无疑问,今年的 AI 赛道依旧是卷编程的一年。

目前 Anthropic 估值已经到了 1830 亿美元,8 月还实现了年化营收 50 亿美元,但这其中相当一部分增长靠着来自编程软件的普及。问题是,老对手 OpenAI 和 Google Gemini 也在疯狂推类似工具抢程序员用户。

甚至一周之后就是 OpenAI 年度开发者大会,Anthropic 这个时候抢先发布 Claude Sonnet 4.5,时间卡得够精准,明摆着就是要给对手上一波压力。

此外,Anthropic 联合创始人兼首席科学官 Jared Kaplan 还表示,更先进的 Opus 模型,预计今年晚些时候推出:「Anthropic 在大小模型的使用上都能占优势。」

不过有一说一,Anthropic 自己眼下也有麻烦要解决。

过去两个月,Claude 系列模型刚经历了一场「降智」风波。用户普遍反映模型推理、代码、格式和工具调用质量断崖式下滑,连付费的 Max 用户都没能幸免。

虽然 Anthropic 后来紧急回滚了 Opus 4.1 更新,还承认了两个独立 Bug,声明「绝非为省成本故意降智」,但由于没提供补偿或退款,GitHub 和 X 等平台上还是出现了退订潮,不少用户直接转投 Codex。

这次 Claude Sonnet 4.5 的发布,显然就是 Anthropic 想用实打实的性能提升来挽回流失的用户。至于能不能成功,就看接下来几周的实际表现了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


文字秒变成片,体验完剪映这些功能:这才是 AI 时代的创作方式

最近一个月科技发布会一个接一个,我们视频同事天天加班,保证热门产品体验第一时间和大家见面。

APPSO 发现,今年视频制作有个明显变化:更炫的效果、更紧的时间。这也成了视频创作者的新烦恼,AI 作为提效的重要工具,但实际体验下来,却常常让人又爱又怕。

爱的是 AI 确实能低成本实现很多原来不敢想的特效、故事,怕的是 AI 工具功能零散、流程割裂——「用 AI 省下的时间,全都耗在了工具切换上」

最近我发现,终于有产品下决心解决这个问题了。前几天剪映在创作者交流会上正式官宣了「All in AI, All in One」的全新主张,同时介绍了一大波 AI 功能。

从输入文字一键生成视频的「AI 文字成片」,到媲美真人的「AI 配音 3.0」;从实现电影级运镜的「AI 转场」,到能对话改图的「seedream 4.0」……剪映几乎是将 AI 武装到了牙齿。

它最核心的改变,是将过去散落在各个软件中的单点 AI 能力,串联成了一条从脚本、成片到后期精修的无缝创作闭环,实现了真正的「一站式创作」。

话不多说,这次我们就来真刀真枪地实测一下,看看剪映的 AI 能力,到底能不能让我和视频同事提前下班,拥抱国庆长假。

AI 成片,把「想法」直接变成「爆款」

熟悉视频创作的人都知道,要做一条高质量的视频必须遵循一套固定流程,找灵感、写脚本、扒素材、拍摄、剪辑、配音、配乐、加字幕……一套流程下来,没啥,就是费点肝。

现在,随着 AI 技术的进步,个人创作者或者小团队也可以做出媲美影视级的作品了,但上面这个工作流还是没变,基本每个环节都需要不同的 AI 工具。

这也成了创作流程里最「卡顿」的部分:不仅费时费力,甚至需要开多个 AI 产品的会员,在不同的产品间切来切去。

开头用到的剪映「AI 文字成片」功能,直接把这套复杂流程打包成了一站式服务。这样一来,从脚本到成片在「AI 文字成片」就可以完成了。

比如,最近预制菜风波沸沸扬扬,我和小伙伴想用容嬷嬷的毒舌吐槽一番,几分钟后就有了下面的视频。 是不是效果还不错?AI 为这个故事生成的画面、选择的声音都很切题,尤其是那个微波炉,在古风画面里也并不违和。

再比如,马上就要中秋了,我想用 AI 生成一个和赏月相关的短片。把苏轼的《记承天寺夜游》发给剪映「AI 文字成片」,让它改编成古风动画。很快,出来的效果就像语文课本里的画面活了。感觉这个功能就很适合家长或者科普创作者,做历史讲解、故事绘本都不错。

或者我在想,如果给剪映一些更有针对性的提示词,用这个功能制作一条朋友圈专属中秋祝福视频应该也不错。操作难度和现在流行的一句话 p 图没有太多差别,但却更能体现自己的创意。

说到创意,剪映「AI 文字成片」这次还帮我们实现了科幻梦。

我想把《记承天寺夜游》改编成一个科幻故事。虽然我只有一个模糊的想法,但没关系,我只要把想法、主题等碎片信息扔给 AI 成片「写作助手」,AI 成片内置的豆包 Pro 和 Deepseek 模型,直接就能输出完整脚本,不满意还能让它继续改。

你也可以在它生成的基础上自己做一些删减、修改,拿不准的地方还能让 AI 单独润色、扩写或者缩写。

解决了文案的问题,接下来就是选择画风,我根据科幻主题选择了「赛博朋克」。

这里可选的画风很多,APPSO 体验下来质感都在线,不是那种敷衍了事的「AI 滤镜」。 你还可以上传自己的图片,让 AI 学习你的风格,定制专属画风。

然后,就可以等待「AI 文字成片」这个全自动导演交付一条完整的片子了。

你可以看到,过程中它会自动理解你的文案,并生成分镜脚本。差不多几十秒的时间,所有的分镜、音频、画面都已整齐排列好。

如果你对某个分镜画面不够满意,也可以直接调整描述文字,点击图像生成,针对这个镜头生成不同的画面效果。

「AI 文字成片」还会根据脚本文案,自动选取合适的配音和配乐。当然,海量的音色库和 BGM 库也给你备好了,想怎么换就怎么换,主打一个随心所欲,还不用担心版权问题。

现在,我们来看看成片。

无论是人物的动作和表情,太空舱和中国元素的融合,完成度都非常高。不要忘了,这样的成片质量只需要花几分钟时间。

可以说,「AI 文字成片」就像是把一整个制作团队压缩到了一颗按钮里。它甚至会让人觉得「过于简单」,可我们的后期同事跟我说,这种「傻瓜式」的全包服务,对他们恰恰是一种解放。

它让你跳过了最繁琐的「从 0 到 1」阶段,直接进入需要创意和审美的「从 1 到 100」的创作环节。你负责提供灵魂,AI 负责注入血肉,这或许就是 AI 时代的创作方式。

而且,针对专业创作者,「AI 文字成片」还有其他惊喜。不同于很多 AI 生成工具只能抽卡却不能精细编辑,剪映「AI 文字成片」把生成和多轨道编辑结合,任何精细化调整,都可以直接进入「更多编辑」,自动导入多轨道,方便你进行精剪。

这也是「AI 文字成片」最值得好评的地方,不仅不用再在不同平台里来回导素材,也兼顾了粗剪和精剪的不同需求,真正实现了一站式成片。

深入工作流,AI 是无处不在的「神助攻」

如果说「AI 文字成片」是零帧起手的创作,那在处理实拍素材时, AI 更像是无处不在的「神助攻」。剪映把 AI 功能融入到了一个个具体的工序中,让视频创作的效率直接起飞。

画面方面,剪映提供了「AI 一镜到底」,一键就能实现电影级运镜。

这个功能尤其适合国庆旅游时,打造令人眼前一亮的朋友圈内容。不管是城市、村落,还是山川、海滩,AI 会智能地选取画面中适合切入切出的角度,让过渡看起来有呼吸感,把不同的景观拼成一条视觉长卷。

整体的工作流也很简单:上传自己拍摄的素材,AI 会自动识别画面结构和关键元素。接下来,你只需要确认想要衔接的位置,并从剪映提供的几种转场形式中选择最合适的。

剩下的,就交给 AI 完成,它会在两段画面之间自动生成过渡,把原本生硬的切换,润色成一个自然的长镜头。很快,一条一镜到底的风光大片就出来了。

另一个可以让 AI 转场大显身手的应用场景,是营销宣发视频的制作。

这意味着,不再需要反复拍各种角度,也不用担心后期剪辑跳跃,AI 会帮你一气呵成:从场景到产品,从人设到氛围,全都在一个顺畅的镜头里完成。专业感直接拉满,哪怕是业余卖家,也能做出不输专业广告的质感。

比如下面这个案例,在手上只有三张平面照片的情况下,也能做出大片效果吗?

完全没问题,AI 会自动识别摩天轮、旋转木马、人物三个画面里的相似色彩和结构,把原本零散的片段拼接成一个连贯的长镜头。看上去就像摄影师拿着稳定器连续拍下来的,几乎察觉不到切口。

画面顺滑了,故事才真正有了连贯感。但一条好视频远不止画面流畅这么简单,声音同样决定了整体质感。剪映在配音、音乐上的进化,正在补齐创作中另一半的拼图。

我们知道,对于很多创作者来说,录音是个大难题——要么环境嘈杂,要么状态不好,录十遍也找不到感觉。现在,利用剪映的「克隆音色」功能,你直接就能拥有一个声音分身,在不同视频里都能一键调用。

从实测来看,只要上传的音频发音清晰、匀速、没有背景噪音,就能有效保证后续生成的质量。接下来,就来看看伍佰老师魂穿《武林外传》的中秋宴,为大家带来的节日祝福——

另一个惊艳的升级是「AI 配音 3.0」功能中的「超仿真音色」,直接把 AI 配音带入了 next-level。你仔细听听这个声音——它有呼吸声、有自然停顿、有情绪起伏,已经让人分不清这到底是真人还是还是 AI 。

而「翻唱改词」功能堪称音乐玩法里的隐藏惊喜。逻辑很直白:用户上传任意画面内容,AI 会自动理解素材,针对想用翻唱的歌曲进行改写,让歌词内容与画面场景高度贴合。

举个例子,当我们放入中秋团圆内容的片段时,《烟花易冷》的歌词便变换成了包含桂花、明月的文字,并且完全贴合旋律。

这种「以假乱真」的效果,也让创作者不再为版权头疼,节约修改成本,AI 几分钟搞定专业翻唱效果,成本降低但效率暴增。

无论是画面的流畅衔接,还是声音的细节打磨,剪映这些「ALL in AI」 的功能都在告诉创作者:制作不必再是费时费力、来回倒腾的繁琐任务。无论是画面还是声音的处理能力,剪映都能集于一处,而创作者要做的,就是把注意力放回故事与情感本身。

对于专业创作者精细剪辑的需求,剪映也没有忽视,而是依托于电脑端的「剪映专业版」 ,持续「听劝」升级,新增了多时间线、智能搜索、二级调色、立体声处理等高级功能,显著提升了素材处理与视频精修效率。

最近,剪映还全量上线了字节自研的 seedream4.0 模型,生图、做封面也能在剪映一站式完成。不难看出,剪映在功能的开发、升级上,就是奔着「ALL in One」的目标,基本创作中需要解决的问题,都能在剪映里找到对应的工具,创作的流畅性一下提升不少。

解放 Dirty Work,回归创作的初心

测到这里,其实答案已经非常清晰了。剪映所做的这一切,并非为了炫技,而是指向一个极其质朴的目标:将创作者从重复、繁琐的「dirty work」中彻底解放出来 。

无论是费时费力地找素材、对口型、扒字幕,还是令人头秃的配乐和转场,这些曾经消耗我们大量热情和精力的环节,如今都可以放心地交给 AI 。

这种「AI + 一站式」的定位,本质上是对整个创作流程的一次重构。

我甚至觉得剪映这个名字可能都不能完全反映这个产品新的价值,「All in AI, All in One」的剪映,不能再把它看做一个剪辑类产品,而是一个能覆盖全流程的 AI 创作工具。 它打破了过去 AI 工具功能零散、流程割裂的核心困境,将它们串联成一条完整的、无缝的创作管道 。AI 不再是那个需要你小心翼翼输入指令的「工具箱」,而是变成了藏在创作每一步的「默契搭档」和「隐形脚手架」。

对于像 APPSO 这样的创作者来说,它最实际的价值,就是让编导敢于写下那些曾因时间和技术限制而自我阉割的高光特效,甚至实现过去「不可能完成的工期」。

创作者交流会上,APPSO 还了解到,剪映上线了一款更加特别的产品——「剪小映」。它能自动分析你手机相册里的素材,在你都快遗忘的时候,主动为你生成一段段充满故事感的生活视频 。

如果说剪映的各种 AI 功能是让剪辑更加轻松、流畅,剪小映则代表的是一种更加智能的使用方式,过程中 AI 持续发挥作用,让轻松剪彻底升级为不用剪。它似乎在说:你只管去生活,去感受,记录这件事,交给我 。

最终,当 AI 承接了所有可以被标准化的劳动后,留给创作者的,便是最宝贵、也最无法被替代的东西——灵感、创意和情感的表达 。

从这个角度看,剪映的「All in AI, All in One」,不仅仅是一个产品主张,更是对所有创作者的一次告白:去创作吧,别让任何事分心。这,或许才是 AI 时代,创作最该有的样子。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


刚刚,ChatGPT 又更新了,奥特曼:这是我最喜欢的功能

刚宣布完 1000 亿美元交易,山姆·奥特曼(Sam Altman)又憋了个大招——ChatGPT 不再是被动回答问题的工具人,而是要主动给你「投喂」内容了。

就在刚刚,OpenAI 正式为 Pro 用户(又是氪金玩家专享)推出 ChatGPT Pulse 预览版,后续会逐步扩展到 Plus 用户,最终目标是所有人使用。

它会在你睡觉的时候偷偷帮你做研究,第二天一早就以主题卡片的形式展示在 Pulse 中,给你推送个性化内容。

简单说就是:AI 版私人助理 + 个性化资讯流,而且 OpenAI 还声称不会让你无脑刷屏。

奥特曼本人则在社交媒体上发文表示:「这是我最喜欢的功能!」

(好好好,又一个最喜欢的功能。)

要知道,传统的 ChatGPT 就是个「问答机器」——你问一句它答一句,全程需要你来主导。

但 Pulse 完全颠覆了这个模式。

具体来说,每天晚上,它会根据你的聊天记录、反馈和连接的应用(Gmail、Google 日历等),自动帮你做研究。第二天一早,你就能收到一份为你量身定制的个性化更新。

比如说,你昨天和 ChatGPT 聊了「想去波拉波拉岛旅游」,它可能会给你推送当地的天气、旅游攻略或者机票折扣信息。

你提到「我家娃 6 个月大了」,它就会主动推送婴儿成长里程碑、育儿小贴士什么的。

甚至,如果你连接了日历,它还能帮你起草会议议程、提醒你买生日礼物,或者推荐出差地的餐厅。

最让人眼前一亮的是,Pulse 的设计理念完全不同于现在那些「停不下来」的 App。

ChatGPT 技术负责人 Samir Ahmed 明确表示:「这个体验是有结束的,它的设计初衷是为你服务,而不是让你停不下来地刷屏。」

每天推送的内容都是精挑细选的,看完就完了,不会让你陷入无休止的信息漩涡。而且,每条更新只在当天有效,除非你主动保存为对话或提出追问。

这简直是对现在「算法投喂」模式的一次降维打击——有用的信息主动来找你,而不是让你在海量信息里瞎找。

OpenAI 在 ChatGPT Lab 中和大学生合作测试,发现了一个有趣现象:

很多学生刚开始觉得 Pulse 一般般,但当他们开始主动告诉 ChatGPT 想看什么内容后,立马感受到了它的威力。

来看几个官方分享的真实案例:

学霸 Isaac 在和 ChatGPT 聊到旅行规划后,第二天收到了火车票预订时间的精准建议,还包含了他原本不知道的通勤信息。

潜水爱好者 Hexi 分享了自己在潜水课上的困难,ChatGPT 不仅给出了针对性建议,还把潜水和风险管理做了类比——完全 get 到了她的兴趣点。

这种「举一反三」的能力,确实有点私人助理那味儿了。

不过,这种个性化体验背后的代价可不小。要让 Pulse 真正「懂你」,你得向 OpenAI 交出大量个人数据,具体来说:

如果你在 ChatGPT 中开启了「引用历史记录」,它会查看你过去的对话来决定研究方向。

如果你已连接日历和邮件,系统会提示你确认是否允许 ChatGPT 访问这些应用,以帮助你规划日程。Kaplan 表示,用户必须点击「接受」才会生效。
虽然 OpenAI 强调「Pulse 训练数据的处理方式和普通对话完全相同。」但隐私换便利,这笔账到底划不划算?以及会不会造成「信息茧房」,对此,OpenAI 只是表示设置了「多重安全过滤」,但具体细节一概不透露。

对于很多用户来说,在人手一个「贾维斯」之前,这种「黑盒式」的隐私保护承诺实在难以令人放心。

从技术角度看,Pulse 其实是 OpenAI 向 AI 智能体(Agent)方向迈出的第一步。OpenAI 应用部门 CEO Fidji Simo 在博客中表示:

「下一个前沿就是代理——能代表你采取行动、像团队成员一样与你协作的 AI 助手。」

附上博客地址:https://fidjisimo.substack.com/p/a-new-paradigm-of-proactive-steerable

这意味着未来的 ChatGPT 不会只停留在研究和信息整理上,而是能为你自动制定计划、按照目标采取行动,并在关键时刻主动提醒。

随着这种人机交互方式的转变,传统的搜索引擎和资讯 App 或许要被狠狠上压力了。毕竟谁能拒绝一个既聪明又主动的私人助理呢?

附上 OpenAI 原博客地址:
https://openai.com/index/introducing-chatgpt-pulse/

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


ChatGPT付费版也「变笨」了,OpenAI被曝「偷换模型」,用户炸锅|Hunt Good周报

欢迎收看最新一期的 Hunt Good 周报!

在本期内容你会看到:

7 条新鲜资讯
4 个有用工具
1 个有趣案例
3 个鲜明观点

Hunt for News|先进头条

💻 OpenAI 模型路由机制引发用户争议

近日,知名 X 博主 Tibor Blaho 发现OpenAI 正在未经用户同意的情况下,自动将 ChatGPT 用户的请求分流至两款未公开的「秘密模型」。

据 Blaho 透露,这两款模型分别为「gpt-5-chat-safety」和「gpt-5-a-t-mini」。前者是专门处理敏感内容的新型模型,后者则是一款敏感度极高的「违规」检测推理模型,仅需输入「违规」一词即可触发响应。

当系统判定用户的对话内容涉及敏感话题、情绪表达或潜在违规信息时,无论用户选择的是 GPT-4 还是 GPT-5 版本,系统都会自动将请求路由到这些后端模型进行处理。甚至即使是「我今天过得很糟糕」或「我也爱你」这样带有轻微情感色彩的普通表达,都可能触发路由机制。

值得一提的是,这一做法不仅影响免费用户,就连每月支付 20 美元的 Plus 用户和 200 美元的 Pro 会员也无法幸免,不少网友更是吐槽 ChatGPT 降智明显。

对此,OpenAI 副总裁兼 ChatGPT 应用主管 Nick Turley 承认 OpenAI 正在测试新的安全路由系统。他解释称,当对话涉及敏感和情感话题时,系统会切换至专门设计用于严谨处理此类情景的推理模型或 GPT-5。

此外,Turley 强调这种从默认模型切换到敏感模型的做法目前只是临时性的,并表示在用户明确询问后,ChatGPT 仍会告知当前使用的具体模型。

🔗 https://x.com/btibor91/status/1971959782379495785

⚖ 马斯克 xAI 起诉 OpenAI 涉嫌窃取商业机密

9 月 25 日,埃隆·马斯克旗下的人工智能公司 xAI 在加州北区联邦法院对 OpenAI 提起诉讼,指控该公司通过挖角关键员工的方式窃取商业机密。

此前,xAI 已在 8 月份对前员工李学晨提起诉讼。李学晨突然出售其持有的公司股份后离职,随后加入竞争对手 OpenAI,不过目前尚不清楚他是否真正开始在 OpenAI 工作。

在最新的起诉书中,xAI 指控 OpenAI「诱导」包括李学晨、早期工程师吉米·弗雷图尔以及一名高级财务主管在内的前员工窃取商业机密。

起诉书中一项重要指控是 OpenAI 试图获取 xAI 的「秘密武器」,即「xAI 能够以前所未有的速度部署具有大规模计算资源的数据中心来训练和运行人工智能」的能力。

据起诉书称,那名未具名的「高级财务主管」掌握快速建设和扩展数据中心的流程知识,并将其带到了 OpenAI。当这名主管在离职时通过邮件被质疑涉嫌违反保密协议时,他回复道「去你的」。xAI 在起诉书中附上了该邮件的截图,将其作为证据。

xAI 指控 OpenAI 作为「仅仅因为是『先行者』就快速在生成式人工智能公司中崛起为主导者」,正在进行一场「协调的、不公平和非法的活动」,有针对性地招募 xAI 的关键员工,然后「诱导」他们将商业机密带到 OpenAI。

对此,OpenAI 发言人在邮件中回应称:「这起新诉讼是马斯克先生持续骚扰行为的最新篇章。我们对任何违反保密协议的行为零容忍,也对其他实验室的商业机密毫无兴趣。」

🔗 https://sherwood.news/tech/musks-xai-sues-openai-alleging-theft-of-trade-secrets/

🪧 ChatGPT 要加广告了?

据 Sources 报道,OpenAI 新任应用程序 CEO 菲吉·西莫(Fidji Simo)希望组建一个新团队负责为 ChatGPT 引入广告业务。新团队负责人将全面负责 OpenAI 的所有盈利业务,涵盖广告和订阅服务等各个方面。

知情人士透露,西莫最近一直在与潜在候选人进行会面,其中包括她此前在 Facebook 的一些同事。目前相关谈判仍在进行中,预计新聘用的广告业务负责人将直接向西莫汇报工作。

作为补充,西莫于上个月辞去 Instacart CEO 职务后正式加入 OpenAI。

在 OpenAI 的组织架构中,西莫负责管理公司的大部分业务板块,但研究、基础设施、消费者硬件和安全团队除外,这些核心部门仍直接向 CEO Sam Altman 汇报。

🔗 https://sources.news/p/openai-ads-leader-sam-altman-memo-stargate?hide_intro_popup=true

⚙ Meta 押注「Android 式」机器人平台

Meta CTO 安德鲁·博斯沃斯在最近一次访谈中透露,在 CEO 马克·扎克伯格的直接指示下,他于今年早些时候组建了专门的机器人研究团队,目前正在开发内部代号为「Metabot」的人形机器人项目。

与市场上其他竞争对手不同,Meta 并不打算成为硬件制造商,而是计划采用类似 Google 向手机制造商授权 Android系统的商业模式。他设想 Meta 将开发完整的软件蓝图,然后向任何符合技术规格要求的公司开放授权,让更多制造商能够基于 Meta 的软件平台生产人形机器人。

在技术方面,博斯沃斯强调软件开发是当前最大的瓶颈,而非硬件本身。

他在访谈中拿起桌上的水杯解释道:「这些机器人可以站立、奔跑,甚至做后空翻,因为地面是一个超级稳定的平台。但如果让机器人尝试拿起这个水杯,它很可能会立即捏碎杯子或洒光里面的水。」这个简单的例子说明了灵巧操作仍然是机器人技术面临的最大难题之一。

为了攻克这一难题,Meta 的超级智能 AI 实验室正在与机器人团队密切合作,共同构建一个能够完成复杂手部动作仿真的「世界模型」。博斯沃斯指出,目前还不存在能让人形机器人像人类一样精确完成诸如从牛仔裤口袋中小心取出钥匙等精细动作的传感器循环系统,因此团队必须从零开始构建相应的数据集。

🔗 https://www.theverge.com/column/786759/humanoid-robots-meta

🛶 微软宣布 Copilot 助手 引入 Claude 模型,减少对 OpenAI 依赖

9 月 24 日,微软公司宣布将 Anthropic 的 Claude 模型引入 Microsoft 365 Copilot 助手。

在这项新的合作中,使用 Copilot 中 Researcher 代理功能(收集和分析信息并生成报告)的用户现在可以选择由 Claude 模型或 OpenAI 模型来响应他们的提示请求。

不过,管理员需要事先批准使用这些模型,相关使用将遵循 Anthropic 公司的条款和条件。

值得一提的是,作为 OpenAI 的主要投资者和关键云服务合作伙伴,在过去很长一段时间,微软主要依赖 OpenAI 模型为必应搜索、Windows 操作系统和其他产品提供 AI 功能。

但随着与 OpenAI 的裂痕加深,微软除了整合更多公司的大型语言模型外,微软还开始测试其自主开发的 MAI-1-preview 模型。

与此同时,OpenAI 也脱离对微软 Azure 的依赖,加速扩张合作版图,先后与甲骨文、博通和英伟达达成数百亿至千亿美元级别的巨额协议,以支撑其大规模数据中心建设。

🔗 https://www.cnbc.com/2025/09/24/microsoft-adds-anthropic-model-to-microsoft-365-copilot.html

🍎 苹果内部版 ChatGPT 曝光,为新 Siri 准备

据彭博社昨日报道,苹果正在开发一款类似 ChatGPT 的手机应用,以帮助测试和准备明年即将推出的新版 Siri。

报道称,苹果 AI 部门正在使用该应用快速评估 Siri 的新功能,包括测试搜索个人数据、执行 App 内操作(如编辑照片)。

该软件内部代号为「Veritas(拉丁语意为「真理」),目前仅供内部使用。虽然该软件没有计划面向消费者,但该 App 的功能基本上是将正在开发中的新技术从新 Siri 中提取出来,从而帮助苹果员工高效完成测试。

报道指出,即使没有公开发布,但这款内部工具也标志着苹果为 Siri 全面升级所做的准备进入了一个新阶段。新 Siri 已经经历了多轮推迟,目前计划在明年 3 月推出。

据悉,Veritas 跑的底层为苹果为驱动新 Siri 而重构的新系统,代号为「Linwood」。同时,Veritas 还依赖大语言模型(LLM),并且结合了苹果自身基础模型团队的工作成果。

另外,据 9to5Mac 日前报道,iOS 26.1、iPadOS 26.1 和 macOS Tahoe 26.1 开发者测试版隐藏的代码显示,苹果正在为 App Intents 引入 MCP 支持打基础。

🔗 相关阅读:iOS 26.1 隐藏彩蛋曝光,苹果给 ChatGPT 们造了个新「C 口」

📹 Meta 推出 AI 视频流「Vibes」,扎克伯格亲自宣传遭网友吐槽

Meta 近日宣布推出名为「Vibes」的全新 AI 视频流。

扎克伯格在 Instagram 帖子中介绍说,Vibes 将成为「艺术家和创作者制作的富有表现力的 AI 生成视频流」。该功能将在美国和其他 40 多个国家推出。

在功能设计方面,Meta 表示用户不仅可以观看 AI 生成的内容,还能创建自己的视频或对现有视频进行「混音」处理,包括添加新的视觉效果和音乐。

为了展示这一新功能,扎克伯格分享了一段 AI 制作的视频片段,标题为「爸爸试图计算 30 美元午餐的小费」,视频中一位酷似扎克伯格的父亲角色说道:「天哪… 我觉得可能至少要 6000 亿美元。」

然而,扎克伯格的宣传视频却引来了网友的嘲讽,有不少网友在其视频下方将这些由 AI 生成的视频称之为「AI 垃圾(AI slop)」。

值得注意的是,虽然 Meta 拥有自己的 AI 模型 Llama,但在 Vibes 项目中,该公司选择使用来自 AI 实验室 Midjourney 和 Black Forest 的视频生成模型。

🔗 https://www.theguardian.com/technology/2025/sep/26/cute-fluffy-characters-and-egyptian-selfies-meta-launches-ai-feed-vibes

Hunt for Tools|先进工具

👍 OpenAI 前 CTO 创业第二个成果公布

9 月 27 日,由多位 OpenAI 前高管创立的 Thinking Machines Lab(TML),正式发布了其第二篇研究论文《Modular Manifolds》,旨在从根源上让大模型训练过程变得稳定、高效。

简单来说,这项研究的核心思想是给神经网络的权重参数戴上一个几何「紧箍咒」。

传统方法往往是在模型建好后,再套用一个优化器来「管教」它。而「模块化流形」框架则更进一步,它将神经网络的每一层都视为一个有独立规则的「几何空间」(即流形),先在内部约束好参数,然后再将这些空间「拼接」起来,用一个全局的「限速器」统一协调整个网络的更新步伐。

这种「模型与优化器一体化设计」的思路,避免了网络内部参数数值的失控。根据论文中进行的小规模实验,该方法在稳定性和准确率上已展现出潜力。

该成果作者为 TML 的机器学习研究员 Jeremy Bernstein,并在 MIT 从事博士后研究工作。

本月,TML 在成立半年后,发布了其首篇重磅研究论文《Defeating Nondeterminism in LLM Inference》(克服 LLM 推理中的不确定性)。

值得一提的是,此前 TML 在「0 产品 0 用户」的情况下,估值曾狂飙至 120 亿美元(折合人民币 850 亿元)。

🔗 https://thinkingmachines.ai/blog/modular-manifolds/

👏 DeepSeek 模型再更新,真终「极」版

9 月 22 日,DeepSeek 宣布,deepseek-chat 和 deepseek-reasoner 已全面升级为 DeepSeek-V3.1-Terminus。

其中,deepseek-chat 对应非思考模式,deepseek-reasoner 对应思考模式。据介绍,本次更新在延续模型既有能力的同时,针对用户反馈进行了优化。

  • 语言一致性方面,中英文混杂与偶发异常字符情况得到缓解;
  • Agent 能力方面,Code Agent 与 Search Agent 的表现进一步提升。
  • 值得一提的是,DeepSeek V3.1 模型此前在多个平台被开发者集中反馈出现「偶发极等」异常 —— 即在正常代码或文本输出中突然反复插入汉字「极」、英文「extreme」或繁体「極」等 token。虽然 Bug 的概率约千分之一,但足以导致编译失败或内容不可用。此次版本升级,应当也包含了对该问题的针对性修复。

新模型现已开源:

🤗 Hugging Face:https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus
💻 ModelScope:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1-Terminus

📰 ChatGPT 推出主动资讯助理「Pulse」

9 月 26 日,OpenAI 宣布推出全新功能「ChatGPT Pulse」,目前已率先向移动端 Pro 用户开放预览。

官方介绍称,「ChatGPT Pulse」能够基于用户的聊天记录、反馈以及已连接的应用(如 Gmail、Google 日历),在每天早晨自动生成一组个性化的研究更新。这些内容以卡片形式呈现,用户可以快速浏览或展开查看详情。

与传统 AI 的「提问—回答」模式不同,「ChatGPT Pulse」强调主动性。系统会在夜间进行异步研究,结合用户的兴趣和历史反馈,次日推送更具针对性的建议,例如「健康晚餐食谱」「三项全能训练计划」或「会议议程草案」。

值得注意的是,「ChatGPT Pulse」的更新仅在当天有效,若用户未保存或展开查看,信息不会长期保留。官方强调,该功能的目标是「帮助用户快速获取关键信息,而不是让人无休止地刷屏」。

目前,「ChatGPT Pulse」仍处于预览阶段,未来将逐步扩展至更多用户,并计划支持更多第三方应用接入。

🔗 相关阅读:刚刚,ChatGPT 又更新了,奥特曼:这是我最喜欢的功能

🤖 Google DeepMind 发布新 AI 模型,机器人可搜索网络协助完成复杂任务

9 月 26 日,Google DeepMind 宣布推出升级版 AI 模型,能够帮助机器人能够完成更复杂的任务。

据悉,得益于由新发布的 Gemini Robotics 1.5 以及具身推理模型 Gemini Robotics-ER 1.5,Deepmind 新推出的 AI 模型能够协同工作,让机器人在物理世界中采取行动之前能够「提前思考多个步骤」。

报道称,机器人将能够完成更复杂的多步骤操作,比如按深浅颜色分类洗衣物、根据伦敦当前天气情况打包行李箱,以及帮助人们根据特定地区要求进行垃圾、堆肥和可回收物品的分类。

DeepMind 机器人部门负责人卡罗琳娜·帕拉达表示:「此前的模型能够很好地完成单一指令任务,而且具有很强的通用性。通过这次更新,我们从执行单一指令转向对物理任务的真正理解和问题解决。」

为了实现这一目标,机器人可以使用 Gemini Robotics-ER 1.5 模型来理解周围环境,并利用 Google 搜索等数字工具获取更多信息,随后将这些发现转化为自然语言指令,传递给 Gemini Robotics 1.5,让机器人能够利用该模型的视觉和语言理解能力逐步执行任务。

此外,DeepMind 还宣布 Gemini Robotics 1.5 能够帮助机器人相互「学习」,即使它们具有不同的配置。目前,DeepMind 正在通过 Google AI Studio 中的 Gemini API 向开发人员推出 Gemini Robotics-ER 1.5,而 Gemini Robotics 1.5 目前仅向部分合作伙伴开放使用。

🔗 https://www.theverge.com/news/785193/google-deepmind-gemini-ai-robotics-web-search

Hunt for Fun | 先玩

📱 打造个性化「安卓人」,Google 推出 Androidify 应用

Google 于日前正式上线全新应用 Androidify,用户可通过上传自拍或输入提示词,借助 AI 技术生成专属的 Android 机器人形象。

该应用现已在网页端及 Google Play 商店同步开放下载。

据介绍,Androidify 集成了 Gemini 与 Firebase AI Logic SDK,支持图像验证、自动生成描述以及个性化机器人生成等功能。

应用会先利用 Gemini 2.5 Flash 对用户上传的照片进行检测,确保画面清晰且符合安全标准,随后生成详细描述,并调用 Imagen 3 模型生成最终的机器人形象。

值得一提的是,最新版本还新增了「背景氛围生成」与「贴纸模式」。

前者可通过 Gemini 模型为机器人添加场景背景,后者则利用 ML Kit 分割技术去除背景,生成可在聊天应用中使用的 PNG 贴纸。

Google 表示,Androidify 的目标是让用户在轻松娱乐的同时,体验到 AI 与 Android 技术结合所带来的创造力与个性化。

🔗 https://androidify.com/

Hunt for Insight|先知

👀 OpenAI 首席科学家:氛围编码之后或许就是「氛围研究」

在 a16z 最新举行的一场访谈中,OpenAI 首席科学家 Jakub Pachocki 和首席研究官 Mark Chen 深度披露了一些在 AI 发展路径上的重要思考和未来规划。

针对当前评估指标趋于饱和的问题,Jakub Pachocki 坦承,过去几年一直使用的评估体系确实已经非常接近饱和。因此,未来 OpenAI 将重点关注模型是否能够发现新事物,并在具有经济相关性的领域取得实际进展。

Jakub 透露了 OpenAI 的一个宏大目标:培养自动化研究员,让其能够自动发现新想法。

他提到了一个有趣的衡量标准,即观察模型实际进行推理和取得进展的时间跨度。目前模型的推理水平大约能够维持 1 到 5 小时,接下来 OpenAI 将专注于延长这个时间跨度,无论是在长期规划能力还是保持记忆方面。

在 AI 编程方面,Mark Chen 将编程模型的进步与围棋选手李世石面对 AlphaGo 的经历相比,认为从解决八年级数学问题到一年后在编码竞赛中达到专业水平,这种进展是「疯狂的」。

他观察到,这种进步已经改变了编码的默认方式。现在的年轻人认为默认的编码方式是「氛围编码」,而从头开始编写所有代码反而成为奇怪的概念。他预测,氛围编码之后或许就是「氛围研究」。

在人才招聘方面,Jakub Pachocki 认为坚持不懈是关键特质。研究的本质是探索未知,很多尝试都会失败,因此必须做好失败和从失败中学习的准备。Mark Chen 补充说,研究没有捷径,需要经验来学会如何选择合适的问题。

🔗 https://www.youtube.com/watch?v=KSgPNVmZ8jQ

🤯 图灵奖得主:大语言模型是死胡同

2024 年图灵奖得主、被誉为「强化学习之父」理查德·萨顿在最新访谈中表示,大语言模型无法实现真正的智能,并将被新的架构所取代。

萨顿的核心观点是,大语言模型本质上只是在模仿人类的行为,而非真正理解世界。

在萨顿看来,真正的智能应该来自与环境的直接交互和经验学习,就像动物在自然界中的学习方式一样。他强调,动物从不接受「监督学习」,它们通过尝试行动、观察结果来学习,这是自然界中普遍存在的学习机制。

当主持人帕特尔提到大语言模型似乎已经构建了世界模型时,萨顿反驳道:「模仿说话的人并不等于构建世界模型。真正的世界模型应该能让你预测会发生什么,而不是预测人会说什么。」

萨顿认为大语言模型面临的最大问题是缺乏明确的目标。他引用约翰·麦卡锡的定义说:「智能是实现目标的计算能力。」没有目标,就无法定义什么是正确的行为,也就无法实现真正的学习。

他进一步解释:「在强化学习中,存在正确的行为,因为正确的行为就是能获得奖励的行为。我们对什么是正确行为有明确定义,所以可以检验和学习。」而大语言模型缺乏这样的评判标准,无法在实际交互中获得反馈并改进。

访谈中,萨顿还指出了当前深度学习方法在泛化能力上的根本缺陷。他认为,虽然大语言模型在某些任务上表现出色,但这种成功往往是因为只有一种解决方案,而非真正的泛化能力。

「梯度下降会让系统找到解决已见问题的方案,但如果有多种解决方式,其中一些泛化能力强,一些泛化能力弱,算法本身并不会促使系统选择泛化能力强的方案。」萨顿表示,这也就解释了为什么深度学习系统容易出现灾难性遗忘等问题。

🔗 https://www.dwarkesh.com/p/richard-sutton

♐︎ 量子计算之父:破解量子引力理论或成 AGI 评判新标准

9 月 25 日,在德国柏林阿克塞尔·施普林格公司总部举办的一场对话活动中,OpenAI CEO Sam Altman 与英国著名物理学家、「量子计算之父」大卫·多伊奇就 AGI 评判标准展开深入讨论,并达成共识。

在多伊奇看来,大型语言模型能够持续对话,主要依赖其接受的海量知识训练,而真正的智能应该体现在创造知识的能力上——即发现问题、发明解决方案、进行测试并不断改进的能力。

为了论证这一观点,多伊奇以爱因斯坦的相对论为例:「有人质疑爱因斯坦是否真正创造了相对论,还是仅仅将现有思想机械组合。我们确信他创造了相对论,因为我们了解他的研究历程、要解决的问题及其动机。」

不过,他也坦率承认,他此前认为计算机无法在不具备 AGI 的情况下进行开放式对话,但 ChatGPT 的表现颠覆了他的认知。他表示:「ChatGPT 虽非 AGI,但确实具备对话能力。」

针对多伊奇的上述观点,奥特曼提出了一个假设性问题:如果 GPT-8 能够解决量子引力问题并详述其研究故事,包括问题选择和研究动机,「这是否足以让你信服?」

多伊奇明确回应:「我认为会的。」奥特曼闻言露出微笑,表示:「我同意将此作为测试标准。」

🔗 https://www.businessinsider.com/sam-altman-predicts-ai-agi-surpass-human-intelligence-2030-2025-9

彩蛋时间

作者:@azed_ai
提示词:A low-poly 3D render of a [subject], built from clean triangular facets with flat [color1] and [color2] surfaces. The environment is a stylized digital desert with minimal geometry and ambient occlusion.
链接:https://x.com/azed_ai/status/1971892865581350967

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


海外卖爆的 AI 卡片在中国发售,入口比模型本身更重要

在 AI 硬件圈,有一张「小卡片」悄悄火了很久。

它像一张银行卡,厚度不到 3mm,能吸附在手机背面。这枚名为 Plaud Note 的设备,只为一件事,记录对话,并用 AI 帮助用户挖掘对话中的价值。这个简单直接的思路,让它在全球积累了超过 100 万用户。

9 月 22 日,这张小卡片背后的团队 Plaud,终于带着它和功能更强的升级版 Plaud Note Pro,在深圳召开了中国内地的首场发布会。

在国内,记录对话的 AI 产品现在看来是一片红海,前有科大讯飞这样的巨头一直深耕该领域,后有层出不穷的公司跟进,像是钉钉、Anker、360 等。

Plaud 的回归,不仅是一个产品发布,更像是新一代硬件创业浪潮的一个缩影。这些企业,它们从诞生之初就拥有全球化视野,在海外市场证明自己后,再带着技术与理念进入中国。

这份技术和理念,能否经得起国内用户的检验,一起看看他们发布了什么产品。

和 AI 的实时协同,从一张卡片开始

「意图」,这是整场发布会我听到最多的词,大模型如何理解我们的意图,大模型最想要什么,我们为什么设计这个产品?

答案都回到了「意图(intention)」,Plaud 合伙人兼中国区 CEO Peter 不断重复这个词,来解释大模型时代,不仅仅是处理原始数据,而是要理解我们的意图,才能真正突破智能的边界。

▲ Plaud 合伙人兼中国区 CEO Peter(莫子皓)

Plaud 此次的旗舰新品 Plaud Note Pro,最大的亮点在于首次实现了「人与 AI 的实时协同」 (Human-AI alignment in real time)。

想象一下,在会议中,当讨论到关键决策或重要数据时,不需要打断对话,只需轻轻一按机身上的按钮,就能实时将这个时间点,和相关信息同步给背后的大模型。

这等于在告诉 AI:「注意,这里是重点」。而通过这种方式,大模型能够更好地理解,对话的语境和我们的意图,从而生成更精准、更具洞察力的摘要。

这跟平时我们和大模型沟通,写了一大堆 prompt,是不一样的;因为我们输入的文本,是没有时间维度的。

Plaud 则是让 AI 从一个录音结束后,被动整理信息的工具,变成了在对话发生时的智能伙伴,实时地与我们的意图对齐。

为了实现高效的记录,Plaud Note Pro 在硬件上的亮点,也集中在了更丝滑和无缝的体验上。

当被问及产品为何「能用且好用」时,Peter 显得颇为自信,他提到 Plaud 创始人团队,有做手机、造机器人的,做现在的产品属于「降维打击」。

这种经验,也的确保证了基础体验的可靠,Peter 分享其他用户的体验评价,「连蓝牙那一刻,就知道这个团队不简单」,因为 Plaud 的蓝牙连接体验,同样非常丝滑。

首先是轻薄,机身是银行卡般的大小,厚度仅为 2.99mm,重量 30g。这种对极致轻薄的追求,也带来了妥协。在沟通会上,当被问到充电接口,并非通用 Type-C 的问题。

团队坦言,这是为了保证产品极致轻薄而做的取舍,但也收到了很多用户的反馈,正在努力寻找解决方案。目前采用的充电方案,是类似大部分手环的触点充电。

第二是专业的收音,Plaud Note Pro 内置 4 个全向 MEMS 麦克风阵列,配合 AI 声学波束成型技术,可在最远 5 米的范围内,实现录音棚级的音频捕捉。

对比前代产品,Plaud Note Pro 还可以通过算法自动识别,录音环境是电话通话,还是面对面对话,而不需要手动切换录音模式。续航方面,单次充电可支持最长 50 小时的连续录音,满足一周的工作需求。

硬件作入口,软件是核心

「能不能不买你们的硬件,只用你们的软件?」

面对这个问题,Peter 的回答很坚决:「我们不做这种事情。」

他认为,做单纯的软件服务会分散精力,更重要的是,Plaud 坚信软硬件结合才能提供最佳的智能体验。

这背后,是 Plaud 「AI 原生科技公司」的自我定位。硬件只是捕捉信息的入口,真正的处理和价值生成,都发生在云端的 AI 引擎 Plaud Intelligence 中。

▲ Plaud 网页版首页

对比前代,除了音频,现在还可以捕捉文本、图片信息,并结合「一键标记」功能,为 AI 提供更丰富的上下文,具备多模态能力。

其次就是和大部分 AI 纪要产品、以及通义听悟类似的功能,通过优化整合 DeepSeek R1、千问、豆包等多个大模型,将语音转写成文字,还能区分不同的发言人,并支持多达 112 种语言。

在模型的选择上,Plaud 的策略并非「兼容并包」,而是「只支持最好」。

Peter 坦言,在中文转写上,国内模型表现更好;但在更深层的因果关系和深度思考上,海外顶尖模型仍有优势。但他们仍然坚持使用「最贵、最好」的模型和服务,因为「更好的价值」本身就是产品的核心,而非成本。

基于在海外的两年运营,Plaud 内置了从全球 3000 多个模板中优选出的专业模板,覆盖不同行业和领域。它可以根据你的角色和习惯进行智能推荐,从多个视角分析对话,提供更丰富的总结。

▲ 模版社区

最后一项是 Ask Plaud,和知识库的 AI 问答一样。我们可以基于录音的完整上下文,向 AI 进行深度提问,所有答案都能追溯到录音文件具体的信息来源。新版本还增加了智能建议追问、跨文件查询等功能。

以上所有功能,用户都可以通过 Plaud APP(支持 iOS 和 Android)及网页端来实现。

多款海外产品首次在中国区推出

除了旗舰 Plaud Note Pro,Plaud 还带来了另外两款针对不同场景的产品,它们都支持全新升级的 Plaud Intelligence,也同样是需要配合手机 App 使用。

Plaud NotePin S,可穿戴的 AI 纪要产品,它的前代是已经在海外发售的 Plaud NotePin,目前这款在中国区首发的新品,主打「解放双手,随心记录」。

主要的特点是,它可以通过项链、手环、背夹、磁吸片等多种方式佩戴。同时,它的重量只有 17.6g,拇指般大小,但续航也做到了 40 天待机,和 20 小时连续录音,并配备 64GB 存储。

Plaud Note,卡片式 AI 纪要开创者,这是一款在 2023 年就推出的产品,而到现在,市面上已经有相当多的公司,在做同样类型的卡片式 AI 纪要产品。

尽管 Plaud Note Pro 在性能上提升明显,但据 Plaud 合伙人兼全球销售负责人 Raymond 介绍,经典款 Plaud Note 在海外依然维持着非常高的销量,因为「有很多消费者,还是喜欢这种机械拨动的形态」。

▲ Plaud 合伙人兼中国区 CEO Peter 莫子皓(左);Plaud 合伙人兼全球销售负责人 Raymond 孙驰(右)

当被问到如何在国内众多同类产品中脱颖而出时,「用户价值」是创始人提到最多的词。他认为,为用户带去 SOTA(最佳)的体验,是 Plaud 应对竞争的态度 。

目前,Plaud Note Pro、Plaud Note、Plaud NotePin S 三款产品,已经在国内主要电商平台发售,具体的发售价格如下。

▲ Plaud Note 1149 元,Plaud Note Pro 1299 元,Plaud NotePin S 1249 元

而针对每款设备都能用上的 Plaud Intelligence,也有标准版、专业版、和卓越版三个会员计划,主要的区别体现在,可录音的时长限制,分别是 300 分钟、1200 分钟、和无限时长,对应的价格是免费、339/年、和 1099/年。

而国内版和国外版的 Plaud Intelligence 订阅价格也有所不同,国际版配置了像 Gemini 2.5 Pro、GPT-5、以及 Claude 4 这些模型,所以专业会员的订阅价格是在 99.99 美元(人民币 700 多),而国内版则是 DeepSeek、豆包、千问等模型。

APPSO 也第一时间拿到了 Plaud Note Pro 产品,根据发布会现场透露的信息,Plaud Intelligence 将在下个月更新跨平台同步、多维度解读等多项功能。我们也会在更新之后,同步分享我们的使用体验。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


夸克正式上线全新AI图像与视频创作平台「造点」

它更懂中国元素,亚洲人像和中文设计排版都稳稳拿捏。「造点」还首次集成了 Midjourney 模型,让你轻松拥有大师质感出品。
实用性是「造点」的亮点,海报、店招、包装、文创等场景,将灵感快速变为商业级素材。视频生成接入最新万相 2.5 模型,原生声画同步输出,一键就能「造点」高能大片。
从现在开始,用想象「造点」不同。

来,看个视频,放松下。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


模型七连发刷新 SOTA ,中国正在诞生 AI 时代的 Android

6 亿次下载,17 万个衍生模型,服务超 100 万家客户。

在 AI 大战最为激烈的 2025 年,全球使用最广泛的开源 AI 模型,来自阿里的通义大模型。毫不夸张地说,当全球开发者需要一个免费、好用、没有商业限制的模型时,它几乎成了默认选择。

而在今天的云栖大会上,七款通义大模型家族新成员集中亮相,覆盖语言、视觉、语音、多模态、代码等多个方向,从开源生态到商业服务,几乎囊括了当下 AI 应用的所有关键环节。

这七款模型分工明确:Qwen3-Max 承担「天花板」角色,万亿参数对标全球最强模型;Qwen3-Next 主打「普惠」,用小轿车油耗跑出跑车性能;Qwen3-VL 让草图秒变代码,Qwen3-Omni 做全模态助理,Qwen3-Coder 专攻编程,Wan2.5-preview 实现电影级视频创作,通义百聆 Fun 提供上百种音色服务。

阿里巴巴集团 CEO 吴泳铭直接公布了阿里云的两大路线图:一是通义千问坚持开源开放,目标成为「AI 时代的 Android」;二是构建「下一代计算机」——超级 AI 云,为全球提供智能算力网络。

回头看,阿里可能做对了这个时代最重要的一个判断:AI 公司不仅要讲述超越人类智能的故事,更要讲述让每个人都能拥有 AI 的故事——而后者,或许更有想象力。

从模型到生态,通义千问的全家桶来了

模型七连发,通义千问大模型家族这次具体亮出了哪些「新牌」?梳理下来,看上去琳琅满目,其实主线很清晰:两张王牌,再加一桌子硬菜。

▲发布会上多个模型已经在 Hugging Face 上开源

第一张王牌,是 Qwen3-Max。

这是阿里的「天花板担当」,总参数超过万亿,预训练使用 36 万亿 tokens。在架构上还是延续 Qwen3 系列的 MoE 设计,但在训练手法上做了很多改进。

比如用全局负载均衡和流水并行,让训练过程更稳定,不会出现异常波动;效率比上一代快了 30%;还能支持 100 万字级别的长文本;就连大规模集群里常见的硬件故障,也把时间损耗压缩到原来的五分之一。

划重点:

▲旗舰模型 Qwen3 -Max 大幅提升编程和智能体能力,在多个基准测试中表现亮眼)

  • Qwen3-Max-Base:强调大规模高效训练,长上下文和稳定性突出。
  • Qwen3-Max-Instruct:已在 LMArena 文本榜单排名全球前三,超过 GPT-5-Chat。在代码测试 SWE-Bench Verified 上拿到 69.6 分,在智能体工具调用基准 Tau2-Bench 上以 74.8 分超越 Claude Opus 4 和 DeepSeek-V3.1。
  • Qwen3-Max-Thinking (Heavy):推理增强版,结合代码解释器与并行计算,在 AIME 25、HMMT 等高难度数学推理基准上取得 100% 正确率,展现出极强的推理潜力,尚在训练中。

整体来看,Qwen3-Max 把工程体系、训练效率、长上下文、推理能力和智能体任务一并拉升到了全球顶尖水准。它在代码和推理基准上的成绩,说明中国模型正在真正进入可以与最强对手正面对话的阶段。

第二张王牌,是 Qwen3-Next。

如果说 Max 是阿里的面子,Next 就是它的里子:真正让开发者和企业用得起、跑得动。

大模型通常存在「不可能三角」——高性能、低成本、易部署,三者难以兼得。顶级性能的模型(如 GPT-4/5)往往意味着高昂的推理成本,成为 AI 普及的最大障碍。

▲Qwen3-Next 训练效率和推理效率均得到大幅提升

而阿里的解法,就是用 Qwen3-Max 把性能的「天花板」捅破,再用 Qwen3-Next 把成本的「地板」砸穿。

它通过高稀疏度 MoE、混合注意力等下一代架构创新,用 3B 的激活参数,达到了 235B 密集模型的性能 ,相当于用一辆小轿车的油耗,跑出了跑车的性能。最终结果就是训练成本暴降 90%,长文本推理效率提升十倍。

▲ Qwen3-Next 采用了全新的下一代模型架构,结合线性注意力和标准注意力,Gated Delta Networks 的作者 Songlin Yang 转发 Qwen 推文

这种体系化的能力,让「人人都能用上 AI」的愿景从口号变为现实,也远比单纯发布一个高性能模型更具产业颠覆性。

一桌硬菜:能想到的活它都包了

▲Qwen3-VL 视觉语言模型在多个基准测试中,性能表现超过 Gemini 2.5 Pro

  • Qwen3-VL:视觉模型重磅开源,从「识图」进化到「推理与执行」,能操作电脑手机界面,也能把一张草图直接生成 HTML / CSS 代码。对很多产品经理来说,这意味着「所见即所得」真的成了现实。
  • Qwen3-Omni:全模态选手,能同时处理文本、图像、音频和视频。在 36 项公开评测里拿下 32 项开源第一,22 项达到 SOTA。还能实时语音对话,甚至自定义人格,像是给你配了一个会讲十几种语言的随身助理。

▲ Qwen3-Omni 在全方位性能评估中,多项测试超越 Gemini-2.5-Pro、Seed-ASR、GPT-4o-Transcribe 等闭源模型

  • Qwen3-Coder:编程模型升级,速度更快,代码更安全,能直接帮你部署一个完整项目,修 bug 也不在话下。对开发者来说,它更像是一个随时在线的「结对编程伙伴」。
  • Wan2.5-preview:AIGC 方向的杀手锏。文生视频、图生视频、文生图和图像编辑都更强了,最关键的是,第一次实现了「音画同步」的电影级视频生成。从 5 秒到 10 秒、1080P、24 帧,这已经不是玩具,而是一个可以让个人创作者拍短片的工具。

此外,还有语音大模型通义百聆 Fun 家族,能提供上百种音色,覆盖客服、直播、电商和有声书等场景。以及基于 Qwen3,为全球实时 AI 安全构建的安全审核模型 Qwen3Guard;和实时多模态翻译模型 Qwen3-LiveTranslate-Flash 等。

把这些放在一起看,你会发现阿里在传递一个很直接的信号:想要极致性能?有 Max。想要极致效率?有 Next。想要多模态探索?有 VL 和 Omni。想要代码和创作的生产力?有 Coder 和 Wan……

▲Qwen3-Omni 是新一代原生全模态大模型,能够无缝处理文本、图像、音频和视频等多种输入形式,目前已经可以在 Qwen Chat 中通过语音和视频聊天启用

这不是简单的「堆新品」,而是一整套全尺寸、全模态的生态拼图。阿里把它们一次性交到用户手里,像是在告诉所有企业、个人、还有开发者:不管你在做什么,通义模型家族,总有一块积木能搭得上。

但这场「全家桶式发布」的意义,并不只在于产品层面的丰富。透过模型七连发的齐齐亮相,可以更清楚地看到,通义千问模型家族已经覆盖全尺寸、全模态,款款都在主流评测上立住了 SOTA。

也正是基于这种厚实的路径,换来的是一种独特的行业地位。正如阿里巴巴集团 CEO 吴泳铭在今天发布会上所说:「通义千问,可以说是渗透全球计算设备最广泛的大模型。」

▲在全球最大的 AI 模型开源社区Hugging Face 上,输入关键字「qwen」,有超过 16 万相关的模型,且下载量均在百万级别,目前 Qwen 系列模型最高下载量达到 700 万(Qwen2.5-3B-Instruct)。

截至目前,通义千问开源了三百多款模型,覆盖了全模态全尺寸,是中国应用最广泛而且最受全球开发者欢迎的开源模型。通义大模型全球下载量超过 6 亿次,衍生模型超过 17 万个,是全球第一的开源模型矩阵。

显而易见,在这个依然由国际巨头主导的大模型赛道上,一个来自中国的开源模型家族,正在以自己的方式刷着「存在感」,也在刷新国产 AI 的历史地位。

大模型下半场,通义千问要成为 AI 时代的 Android

2019 年,阿里在 M6 上试水 10 万亿参数模型时,整个行业对于「大模型」这个概念更多还停留在学术讨论的层面,距离产业化仍有距离。四年后,通义千问的正式发布标志着一个拐点的到来。

从 Qwen-7B、14B 到 72B,再到今天的万亿参数,Qwen 走的路径并不花哨,就是不断扩大规模、优化、验证,把一个模型家族一点点撑开。

2024 年的 Qwen2 与 Qwen2.5 以及今天发布的 Qwen3-Max 模型总参数超过 1T,预训练使用了 36T tokens,代码能力和智能体(agent)能力方面进一步提升。

而在大模型逐渐走向下半场,开源模型也成为不可逆转的趋势。中国则几乎成为全球开源里最重要的角色,其中以阿里和 DeepSeek 两家公司的戏份最重。

吴泳铭对此直言不讳:「在 LLM 时代,开源模型创造的价值和能够渗透的场景,将会远远大于闭源模型」。

全球的大模型公司各有侧重,有的主要服务自家生态,有的为社交和广告业务添砖加瓦。有的聚焦于工具化和用户增长,有的强调全模态整合,绑定搜索。而阿里则想成为那个「AI 时代的 Android 系统」。

Android 的成功,不在于它比 iOS 更强更完美,而在于它能适配从几百块的老人机到上万块的折叠屏,让智能手机市场真正百花齐放。

Qwen 的逻辑如出一辙。从0.5B 到万亿参数的「全尺寸」Qwen3-Max,从写代码的 Qwen3-Coder 到能「看图写代码」的Qwen3-VL,再到能听会说、音画同步的通义万相和通义百聆,甚至那个像真人一样能实时语音对话的Qwen3-Omni,阿里几乎把开发者能想到的所有工具都备齐了。

这背后是一种思路的转变:阿里不再替你决定「应该用什么」,而是把选择权、定义权,乃至最终的成本控制权,都交还给了市场。

而 Qwen 则去扮演那个最苦最累但又无可替代的角色——AI 时代的 Android 系统,让 AI 应用和场景落地提供基础「水电煤」。

实际上已经有超过 100 万家企业通过阿里云接入通义大模型的服务。就像接入水电一样,把 AI 当作最基础的生产力。而苹果国行 AI 虽然一再推迟,但也基本已经确定与 Qwen 合作,这是中国大模型第一次进入 iPhone。

今天云栖大会上吴泳铭也宣布,未来三年阿里将投入超 3800 亿元,用于云和 AI 硬件基础设施建设,并计划追加更大的投入。根据远期规划,为了迎接 ASI 时代的到来,对比 2022 年的 GenAI 元年,2032 年阿里云全球数据中心的能耗规模将提升 10 倍。

这也是阿里云从 2022 年开始坚持的「模型即服务」(MaaS)。它将大模型定位为生产力的核心要素,依托阿里云的算力和基础设施,为企业提供高性能、低成本的 AI 能力。

当一个平台尝试去降低整个社会的创新门槛,其所能托举的,就不仅仅是自身的商业价值。

对于在「用谁家的模型」这个问题上纠结的开发者和企业来说,一个开放、便宜、还好用的「AI Android」系统的出现,就相当于回到大航海时代,有人为你建好了出海的港口,还顺手把全世界的航海图都开源了。

除了扬帆起航,似乎也别无他选。

作者:李超凡、张子豪、莫崇宇

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


早报|苹果已关闭iOS 18降级通道/罗永浩:将评测预制菜/卢伟冰:小米17 Pro Max有「2K级」的显示效果

cover

⬇

苹果已关闭 iOS 18 降级通道

⚡

上市公司紧急回应「汽车热失控自动弹出电池」视频

🚗

英伟达回应与 OpenAI 合作:仍将以所有客户为优先

📱

20 周年 iPhone 或将搭载更亮的屏幕

🎯

OpenAI、甲骨文与软银宣布在美国新建五大 AI 数据中心

🗺

全国餐饮商家可免费入驻高德

💬

OpenAI 在印尼推出 ChatGPT Go

🎤

雷军谈年度演讲推迟至本月:内容太多

📶

美宜佳首款鸿蒙「碰一下」智慧收银机亮相

💰

货拉拉回应被约谈

🚗

广汽法务部:坚决追究造谣者法律责任

💬

罗永浩:将评测预制菜

💡

YouTube CEO:AI 是「下一次大爆炸」

📱

OPPO Find X9 外观公布

🖌

卢伟冰:小米17 Pro Max 有「2K级」的显示效果

📸

尚界 H5 与全新问界 M7 同台亮相

💬

1998 元起,大疆发布 Osmo Nano 自由视角穿戴相机

🔋

支持 8K 拍摄,GoPro MAX 2 全景运动相机发布

🔧

阿里云发布首个端到端全模态 AI 模型

🥤

特斯拉简化版 Model Y 被曝光,配置大幅精简

重磅

苹果已关闭 iOS 18 降级通道

苹果固件网站 ipsw.me 显示,苹果已停止对 iOS 18.6.2 进行签署验证,这意味着一旦设备升级至 iOS 26,将无法回退至 iOS 18 系列版本。

所谓「签署」,是指系统在安装过程中需通过苹果服务器的验证检查,未通过验证的固件无法安装。

停止签署后,用户将无法降级至旧版。

目前,用户仍可继续使用 iOS 18,但一旦升级至 iOS 26,就无法降级。

此外,苹果还停止签署了 iPadOS 18.6.2 和 tvOS 18.6,iPad 同样无法回退至旧版本。

据悉,苹果在 iOS 26 上引入了全新的「Liquid Glass」设计语言,并带来多项功能更新。

此外,苹果还在昨天推送了 iOS 26.1 Developer Beta 版本。

大公司

「拴 Q」,台风前夕腾讯把企鹅拴住了

9 月 23 日下午,广东地区在台风来临前夕出现了颇具网络话题性的「拴 Q」事件。

腾讯方面在微信公众号发布文章《拴好自己,大家注意安全!》,配图为企鹅形象被「拴住」,并配文提示「赶紧把自己绑好,不然飞走了就真的拴 Q very much」,呼吁用户注意安全。

广东多地气象部门此前已发布台风黄色预警,建议居民加固门窗、收纳室外物品,并避免在强风暴雨期间外出。

上市公司紧急回应「汽车热失控自动弹出电池」视频

据红星新闻报道,近日,一段展示「汽车电池热失控时自动弹出」的演示视频在网络热传。

视频显示,9 月 19 日,一辆车身贴有「中国碰撞维修技术中心」标识的车辆,在模拟电池热失控场景时,将电池抛出车身约 3-6 米,实现车电分离。

视频信息称,该技术由「中国碰撞维修技术中心」与均胜电子联合推出。

然而,该演示迅速引发争议,有网友质疑「把活命留给自己,把灾难弹射给众人」,甚至用「死道友不死贫道」形容。

9 月 22 日,均胜电子向媒体回应称,公司与「中国碰撞维修技术中心」不存在任何形式的合作开发协议。

公开资料显示,宁波均胜电子股份有限公司是一家全球智能汽车科技解决方案提供商,业务涵盖智能座舱、智能网联、智能驾驶、新能源管理及汽车安全系统等领域,在全球设有 19 个研发中心和超过 50 个生产基地。

据知情人士透露,「中国碰撞维修技术中心」隶属于麦特集团,该集团成立于 1992 年,主营汽车后市场业务,旗下拥有威力狮(Welion)、奔腾(BANTAM)、MAXIMA 等品牌。

英伟达回应与 OpenAI 合作:仍将以所有客户为优先

据彭博社报道,英伟达在昨天发布声明称,其与 OpenAI 达成的 1000 亿美元 AI 基础设施合作意向,不会影响对其他客户的供货与支持。

英伟达强调:「我们的投资不会改变关注重点或影响对其他客户的供应,我们将继续让每一位客户保持最高优先级,无论是否存在股权关系。」

当天早些时候,英伟达与 OpenAI 宣布已签署合作意向书,计划建设配备英伟达芯片的数据中心,总功率至少达到 10 吉瓦,用于开发和运行人工智能模型。

近年来,英伟达芯片在硅谷成为最抢手的硬件资源,数据中心运营商争相采购,推动公司销售额与股价持续飙升,市值已接近 4.5 万亿美元。

尽管如此,英伟达的营收仍高度依赖微软、Meta、亚马逊和 Alphabet 等少数大型客户,这些公司正加速自研或部署替代组件,以降低对英伟达的依赖。

20 周年 iPhone 或将搭载更亮的屏幕

据 MacRumors,有产业链人士透露,苹果计划在 20 周年纪念版 iPhone 上引入由三星供应的全新 OLED 技术 COE(Color Filter on Encapsulation),以实现更高亮度和更纤薄的机身设计。

据悉,传统 OLED 面板在显示层上方会增加一层偏光片,用于减少反射、提升对比度,但该结构会吸收部分自发光,降低亮度与能效。

COE 技术则直接将彩色滤光层覆盖在封装保护层上,取消偏光片,从而减少显示堆叠厚度,让更多光线透出,在不增加功耗的情况下提升亮度。

业内分析指出,去除偏光片后,屏幕在户外的反射与眩光控制将更具挑战,苹果预计会采用先进镀膜与像素级材料优化可视效果。

另有消息称,苹果正考虑为 20 周年纪念版打造四边曲面、无边框的全新外观设计,并在 2026 年率先推出首款可折叠 iPhone。

OpenAI、甲骨文与软银宣布在美国新建五大 AI 数据中心

今天凌晨,OpenAI 在官网发布新闻稿,称 OpenAI、甲骨文与软银将联合,在美国新建五个 AI 数据中心站点,进一步扩展「星际之门(Stargate)」基础设施平台。

随着这些新站点的加入,Stargate 的规划总容量已接近 7 吉瓦,相关投资规模超过 4000 亿美元,预计将在 2025 年底前实现最初提出的 5000 亿美元、10 吉瓦目标。

根据官方信息,此次公布的五个新站点分布在德克萨斯州 Shackelford 县、新墨西哥州 Doña Ana 县、中西部某地(尚未公布)、俄亥俄州 Lordstown,以及德克萨斯州 Milam 县。

其中,部分站点由甲骨文主导建设,另有两个站点由软银及其旗下 SB Energy 参与开发。

OpenAI 首席执行官 Sam Altman 表示:「AI 的潜力能否实现,取决于是否具备足够的算力支撑。星际之门正在为这一目标奠定基础,并推动下一阶段的突破。」

甲骨文首席执行官 Clay Magouyrk 称:「我们正在以前所未有的速度扩展 OCI 的布局,以满足快速增长的 AI 训练与推理需求。」

软银集团董事长兼首席执行官孙正义则指出:「Stargate 正在结合软银的数据中心设计与能源优势,为 AI 的未来提供可扩展的算力。」

据悉,Stargate 计划自今年 1 月启动以来,已吸引超过 30 个州、300 余份提案参与竞争。此次公布的五个站点为首批入选项目,后续仍将有更多地点加入整体投资计划。

全国餐饮商家可免费入驻高德

高德昨天宣布,现在全国餐饮商家可免费入驻平台,并享受为期一年的入驻年费全免政策。

官方表示,此次举措旨在帮助餐饮行业「多来客、好经营」,并同步推出流量扶持、专属客服、智能收银等多项配套服务。

高德方面指出,未来将持续倾听商家反馈,优化平台功能与服务体验,助力餐饮商家提升运营效率与顾客满意度。

商家可通过高德地图 APP 搜索「免费入驻」或拨打 400-9039-658 了解详情并快速办理入驻手续。

OpenAI 在印尼推出 ChatGPT Go

TechCrunch 报道,继在印度上线后,OpenAI 将其面向大众的 ChatGPT Go 订阅计划扩展至印度尼西亚市场。

该计划定价为 75,000 印尼盾/月(约 32 元人民币),定位介于免费版与每月 140 元的 ChatGPT Plus 之间。

据介绍,ChatGPT Go 用户可获得比免费版高 10 倍的使用额度,用于发送提问或提示、生成图片以及上传文件。

同时,该计划支持更好地记忆过往对话,从而在长期使用中提供更具个性化的回应。

OpenAI ChatGPT 产品负责人 Nick Turley 表示,自印度推出该计划以来,付费用户数量已超过两倍增长。

此次扩展也使 OpenAI 在印尼市场直接对标 Google。

本月早些时候,Google 推出了价格相近的 AI Plus 订阅服务,提供 Gemini 2.5 Pro 聊天机器人,以及 Flow、Whisk、Veo 3 Fast 等图像与视频创作工具。

雷军谈年度演讲推迟至本月:内容太多

在今年第 6 次年度演讲开始前,雷军在微博发布短视频,回应了外界关心的多个问题。

他表示,世界变化很快,小米也在快速变化,「每年办一次年度演讲,就像做一次年度总结,挺有趣的」。

对于今年演讲比往年晚的原因,雷军透露,原计划是 6 月与小米 YU7 发布会同步举行,但由于发布会内容过多、时长过长,临时推迟到 9 月,与小米 17 系列年度旗舰一同发布。

谈及为何有如此多观众愿意听他的演讲,雷军坦言「其实我自己也不知道」,并感谢所有朋友的捧场,欢迎大家在评论区留言分享原因。

据悉,今年雷军年度演讲的主题为「改变」。

视频中,雷军认为人的命运并非命中注定,「别人觉得你行不行不重要,关键是你自己有没有勇气、有没有决心去试一试」。他强调,只要不断尝试、努力、成长,就有机会「逆天改命」。

在被问及近几年自身最大的变化时,雷军表示是「认知」的提升和改变,「过去几年小米发生了翻天覆地的变化,本质就是我们的认知发生了变化」,并计划在年度演讲中与大家深入探讨这一话题。

美宜佳首款鸿蒙「碰一下」智慧收银机亮相

支付宝开放平台昨日宣布,美宜佳近日与华为云、支付宝在上海签署联创合作协议,三方将整合优势资源,共同打造智慧零售标杆解决方案。

作为合作的重要成果,美宜佳率先推出首台搭载「碰一下」交互技术的鸿蒙智慧收银机,并计划陆续在全国多家门店投入使用。

根据协议,美宜佳将依托全国超 40000 家门店网络,结合华为鸿蒙系统及生态技术支持,以及支付宝在数字经营与支付领域的成熟能力 —— 包括「碰一下」等创新交互技术,推进全店智能运营体系建设,实现消费者体验与门店效率的双提升。

「碰一下」是支付宝于 2024 年推出的创新交互方式,用户无需打开 App,解锁手机后轻触设备或贴纸即可完成支付或获取服务。

三方表示,未来将分阶段推动智能设备升级、账号体系互通与会员运营优化,并探索支付、广告等多场景的智能化创新,打造可规模化复制的智慧门店样板,推动行业数字化加速。

芬兰智能戒指厂商 Oura 将融资近 9 亿美元

据彭博社报道,芬兰健康科技公司 Oura Health Oy 近日正在进行新一轮融资,预计将筹集约 8.75 亿美元,投后估值约为 109 亿美元。

据知情人士透露,本轮融资为 E 轮,估值较去年 11 月 D 轮的 50 亿美元几乎翻倍,最终融资额或超过 9 亿美元。

Oura 计划将资金用于扩大产能、加大研发投入并加速国际市场布局。

今年以来,该公司已在日本和德国推出最新款 Oura Ring 4,并计划进一步拓展全球销售网络。

公司 CEO Tom Hale 在接受采访时表示,Oura 业务增长「如同火箭般迅速」,并称这是其 130 个季度商业生涯中「最强劲的一个季度」。

他预计 2025 年营收将超过 10 亿美元,较 2024 年的 5 亿美元翻倍,2026 年有望突破 15 亿美元。

除融资外,Oura 还与包括美国银行、富国银行、摩根大通、高盛、花旗和巴克莱在内的多家银行签署了 2.5 亿美元循环信贷协议。

在智能戒指市场,Oura 仍是领先者,但竞争正逐步加剧。

三星去年推出 Galaxy Ring 反响平平,Amazfit、Velia、Ultrahuman 等初创公司也已入局。

Hale 表示,戒指将继续作为公司核心产品形态,并称其在「佩戴舒适度、时尚性与精确度」方面具备优势。

货拉拉回应被约谈

昨天,市场监管总局约谈货拉拉,要求其严格遵守《中华人民共和国反垄断法》等法律规定,落实反垄断合规主体责任,及时规范经营行为,公平参与市场竞争,维护货车司机、消费者等相关主体合法权益。

监管部门指出,平台需推动规则与算法公平、公正、公开、透明,确保行业健康有序发展。

当天晚间,货拉拉对此事进行了回复,表示将全面接受并落实约谈要求,立即启动整改,提升反垄断合规管理水平,依法合规经营,公平参与市场竞争。

广汽法务部:坚决追究造谣者法律责任

多部门近日联合发布《关于开展汽车行业网络乱象专项整治行动的通知》,决定在全国范围内开展为期 3 个月的专项整治行动。

广汽集团法务部昨天在微博发文表示,近期网络上有部分未经证实的信息传播,影响品牌形象并扰乱正常网络秩序,广汽集团已固定相关证据,将视情节依法向公安机关报案,并「坚决追究造谣者的法律责任」,以维护合法权益。

罗永浩:将评测预制菜

罗永浩在社交平台发文称已回到上海,并表示「我爱上海」,同时回应外界「跑路」猜测,称此次只是正常出差。

当天,他晒出餐厅用餐照片,再次谈及预制菜话题,称商场连锁餐厅也可以有现炒菜,并表示将评测市面在售的大部分预制菜。

此前,罗永浩因批评西贝使用预制菜未告知消费者且定价虚高,被西贝创始人贾国龙起诉「损害商誉」,双方争论引发舆论关注。

有网友发现其微博 IP 属地曾在 9 月中旬变为「中国香港」和「日本」,引发「避险跑路」猜测。罗永浩转发相关言论并回复「我来,赌什么?」

像素蛋糕宣布基础调色与手动工具永久免费

日前,AI 修图软件「像素蛋糕」官方宣布,旗下像素系列产品的基础调色功能与手动工具将改为永久免费开放,用户无需额外付费即可使用。

据介绍,此次调整涵盖基础色彩校正、亮度与对比度调节等常用功能,同时保留原有的手动修图工具集。

官方表示,此举旨在降低创作者的使用门槛,并提升整体创作体验。

💡 YouTube CEO:AI 是「下一次大爆炸」

据 Wired 报道,YouTube 在成立 20 周年之际宣布全面拥抱人工智能技术,推出多项面向创作者的 AI 功能。

官方表示,这些工具将帮助用户通过提示词生成视频内容,并可自动为播客音频生成匹配的视觉画面。

YouTube CEO Neal Mohan 在接受采访时回顾了平台的成长历程,并强调 AI 是延续「让更多人发声」这一核心使命的最新技术手段。

当 YouTube 诞生时,技术让更多人能够被听到;如今 AI 也是同样的原则 —— 用技术来让创作更普惠。

据悉,部分新功能基于 Google DeepMind 的 Veo 3 技术,支持即时生成复杂场景视频,例如「在月球上的 100 位印尼舞者」。

平台将对 AI 生成内容进行标注,但目前没有提供过滤选项。Mohan 认为,AI 视频的价值取决于创作者的原创性和创意,而非生成比例。

新产品

OPPO Find X9 外观公布

OPPO Find 系列产品负责人周意保昨天在微博正式公布了 Find X9 系列的完整外观与核心设计亮点。

周意保表示,该机定位顶级旗舰,重点在于质感升级与细节优化:

  • 全新「绒砂工艺」:采用微米级精度控制,让玻璃呈现高级内敛的绒感金属光泽,并带来细腻亲肤的触感;
  • 冷雕工艺消除拼接感:镜头模组与背板通过超精密冷雕工艺实现无缝衔接,整体观感更自然;
  • 黄金握持尺寸直屏:延续 6.59 英寸与 6.78 英寸直屏设计,并采用超大弧度边框,提升握持舒适度;
  • 极窄四等边 + 全场景 1nit 明眸护眼屏:物理四等边黑边进一步收窄,搭配新一代护眼屏,视觉效果更沉浸;
  • 轻薄机身兼顾影像与续航:全系搭载哈苏四摄影像系统,方形镜组在控制凸起的同时提升进光量。

电池容量方面,标准版为 7025mAh,Pro 版达 7500mAh,并保持均衡配重。

配色方面,Find X9 提供「绒光钛」「霜白」「雾黑」,Find X9 Pro 提供「绒砂钛」「霜白」,另有一款特别配色尚未公布。

官方此前公布,该系列将于 10 月 16 日正式发布。

卢伟冰:小米17 Pro Max 有「2K级」的显示效果

小米集团总裁卢伟冰昨天在社交平台透露,小米 17 Pro Max 首次采用「超级像素排列」技术。

他介绍道,该方案为每颗像素配备独立的红、绿、蓝三色子像素,相比传统 OLED 无需借用相邻子像素。虽然屏幕分辨率在数值上未达到 2K,但子像素总量高达 938 万,与 2K 水准相当

卢伟冰指出,内部曾对这一方案存在较大争议。2K 屏幕已在市场存在十年,是超清显示的代名词,放弃 2K 在数值上意味着「回退」。

此外,昨天下午,小米官方还在微博发布小米 17 系列宣传海报,称小米 17 系列全面兼容 100W PPS 通用充电协议。

据此前报道,小米 17 系列将全球首发第五代骁龙 8 至尊版移动平台,小米 17 Pro 和 Pro Max 将配备 5000 万像素徕卡超大底后置三摄和全新背屏设计。

尚界 H5 与全新问界 M7 同台亮相

9 月 23 日晚,华为在秋季新品发布会上推出两款智能汽车新品 —— 尚界 H5 与全新问界 M7,进一步丰富鸿蒙智行产品矩阵,覆盖从十几万元到三十万元以上的市场区间。

据介绍,尚界 H5 是华为与上汽集团合作打造的「尚界」品牌首款车型,起售价 15.98 万元,定位 20 万元以下智能汽车市场。

全新问界 M7 则在外观、座舱、性能与安全方面全面升级,提供增程与纯电两种动力版本,售价分别为 27.98 万元起与 31.98 万元起。

尚界 H5 主要配置:

  • 搭载乾崑智驾 ADS 4 系统,全系标配 3 颗 4D 毫米波雷达、192 线激光雷达
  • 鸿蒙座舱,支持主驾迎宾、3D 人脸识别、电子萌宠、超流畅导航
  • 支持手表控车与星闪车钥匙
  • 无麦 K 歌 2.0、HUAWEI MagLink 车载屏、天生绘画功能
  • 首次引入车位到车位领航辅助功能
  • 601L 后备箱,二排座椅可放倒形成「大床模式」
  • 纯电版最长续航 655 km,增程版综合续航 1360 km

全新问界 M7 主要配置:

  • 搭载乾崑智驾 ADS 4、途灵平台、巨鲸电池平台
  • 全维防碰撞系统 4.0、激光雷达方案
  • 主驾零重力座椅可联动方向盘自动调节
  • 副驾准零重力座椅支持 70° 腿托、靠背调节、按摩、通风、加热
  • 星环双翼大灯、贯穿式星翼尾灯
  • 16.1 英寸 3K 悬浮屏 + 17.3 英寸后排娱乐屏
  • 全车屏幕支持三指滑动多屏流转
  • 增程版最高综合续航 1600+ km,纯电版最长续航 700+km

发布会上,华为方面还公布了鸿蒙智行其他车型的最新交付数据,并强调「安全是最大的豪华」,将安全能力视为全系标配。

🔗 相关阅读:鸿蒙智行上新,尚界 H5 只卖 15.98 万元!

1998 元起,大疆发布 Osmo Nano 自由视角穿戴相机

大疆于昨天正式推出新款 Osmo Nano 自由视角穿戴相机,定位轻量化便携拍摄设备,面向运动记录、旅行 vlog 及日常生活场景。

据悉,该产品采用可穿戴设计,支持多角度拍摄,并在机身尺寸与重量上进行了优化,以提升长时间佩戴的舒适度。

主要硬件与功能亮点:

  • 机身重量约 80 克,支持长时间佩戴
  • 搭载 1/1.3 英寸 CMOS 传感器,支持 4K 60 帧视频录制
  • 内置三轴防抖系统,提升动态拍摄稳定性
  • 支持蓝牙与 Wi-Fi 连接,可与手机应用实时同步画面
  • 续航时间约 120 分钟,支持快充功能
  • 防水等级 IPX4,可应对日常防泼溅需求

Osmo Nano 目前已上架购物平台,64GB 标准套装 1998 元起。

支持 8K 拍摄,GoPro MAX 2 全景运动相机发布

运动相机品牌 GoPro 今日正式推出最新旗舰产品 MAX 2,主打原生 8K 全景拍摄能力。

通过双镜头 360° 全景模式,MAX 2 可呈现高达 3500 万像素画质,带来「真正的」8K 分辨率 360° 视频,据官方介绍,有效分辨率较同类产品提升约 21%。

MAX 2 的硬件配置较前代有显著提升,主要包括:

  • 原生 8K 分辨率 360° 全景视频拍摄,画质可达 3500 万像素,支持 5.6K60 与 8K30 高画质高帧率拍摄模式和 3 倍慢动作拍摄(4K 100 帧)
  • 10-Bit 色深与 GP-Log 模式,最高 300Mbps 比特率
  • 2900 万像素 360° 照片拍摄,支持后期自由构图
  • 双镜头支持 4K 60 帧 180° 超广视角视频,视角范围超过传统 170°
  • 可替换式镜头设计
  • 升级的 6 麦克风阵列,支持 360° 立体声与降风噪
  • 1960mAh 电池
  • 5 米防水、地平线锁定防抖、AI 智能追踪等功能

配件方面,官方同步推出 1 米碳纤维杆、80cm 漂浮式延长杆、带锁 1/4-20 安装卡扣、碳纤维延长套装及 MAX2 USB 传输转口等。

GoPro MAX 2 已在海外官网开售,售价为 499.99 美元(约合人民币 3557 元),国行版售价与上市时间暂未公布。

爱范儿也在第一时间推出了两款运动相机新品的对比体验,可点击下方链接了解更多。

🔗 相关阅读:大疆 vs 影石:1998 元起,最强拇指相机对决

iQOO 15 举办电竞性能技术沟通会

在 iQOO 15 正式发布前,iQOO 举办了一场以电竞性能为主题的技术沟通会,公布了多项核心硬件与功能细节。

官方表示,新机在屏幕、图像处理以及游戏引擎方面进行了针对性优化,旨在满足高强度移动电竞的需求。

主要硬件与功能参数如下:

  • 搭载 6.85 英寸 2K 直屏,全球首发「M14 发光材料」,支持硬件级游戏护眼与 8T LTPO 技术
  • 内置自研电竞芯片「Q3」,提供「显卡级」游戏视效处理能力
  • 配备「Monster 超核引擎」,包含「先知调度器」与「闪电加速器」
  • 首批机型包括 iQOO 15 与 iQOO Neo 11
  • 搭载潜望长焦、无线充电功能以及全新线性马达

此次沟通会的内容显示,厂商在屏幕材料、图像处理芯片以及游戏引擎方面均有新尝试,意在为移动电竞用户提供更接近 PC 端的视觉与操作体验。

阿里云发布首个端到端全模态 AI 模型

昨天,阿里云正式发布并开源全新的 Qwen3-Omni、Qwen3-TTS,以及对标谷歌 Nano Banana 图像编辑工具的 Qwen-Image-Edit-2509。

据介绍,Qwen3-Omni 是业界首个原生端到端全模态 AI 模型,支持文本、图像、音频和视频多类型输入,并可通过文本与自然语音实时流式输出结果,解决了多模态模型在不同能力间权衡取舍的长期难题。

核心特性包括:

  • 跨模态先进表现:在 36 项音频 / 视频基准测试中,22 项达到最新水平,32 项在开源范围内领先;在自动语音识别、音频理解与语音对话方面可与 Gemini 2.5 Pro 相当。
  • 多语言支持:涵盖 119 种文本语言、19 种语音输入语言及 10 种语音输出语言。
  • 创新架构:基于 MoE「专家混合」的「思考者–表达者」设计,结合 AuT 预训练与多码本方案,降低延迟。
  • 实时交互:低延迟流式音频 / 视频交互,支持自然轮流对话与即时响应。
  • 精细音频描述:已开源 Qwen3-Omni-30B-A3B-Captioner,填补开源社区在通用型音频描述领域的空白。

同时亮相的 Qwen3-TTS 支持 17 种音色选择,每种音色均支持 10 种语言,并覆盖闽南语、吴语、粤语、四川话等多种中国方言。

Qwen3-TTS-Flash 在语音稳定性与音色相似度方面超越 SeedTTS、MiniMax、GPT-4o-Audio-Preview、Elevenlabs。

Qwen-Image-Edit-2509 则是 Qwen-Image 月度迭代版本,提升了单图与多图编辑一致性,支持人像、产品、文字等多类型编辑,并原生支持 ControlNet。

此外,Qwen3-Next-80B-A3B-Instruct-FP8 与 Qwen3-Next-80B-A3B-Thinking-FP8 也已同步开源。

特斯拉简化版 Model Y 被曝光,配置大幅精简

近日,一名叫 @greentheonly 的用户在 X 上称,在特斯拉官方固件中发现代号为「E41」的 Model Y 简化版本,该车被认为是即将推出的低价版 Model Y。整体策略可用一句话概括 ——「能砍的都砍了」。

据其爆料,主要减配内容包括:

  • 车顶:取消全景玻璃天窗
  • 悬挂:降级版悬挂系统
  • 座椅:多向调节降级为单轴调节
  • 空调:简化出风口
  • 后视镜:取消电动折叠功能
  • 摄像头:后视摄像头取消加热功能
  • 车内屏幕:取消第二排显示屏
  • 音响系统:降级为「Essential」基础版或「经过改进的基础版」
  • 内饰:车顶内衬简化为玻璃纤维,取消氛围灯和迎宾灯
  • 轮毂:缩减为 18 英寸规格
  • 其他:取消胎压监测系统

据悉,「E41」将提供后驱与全驱两种版本,均采用特殊电机配置,但具体参数尚未公布。

部分网友甚至认为取消全景天窗是「升级」,因为夏季行车不再暴晒头顶。

🔗 相关阅读:各种减配!特斯拉的「Model Y 廉价版」被扒光了

新消费

可口可乐或继续掌控 Costa 即饮业务

英国天空新闻援引消息人士称,可口可乐公司已向潜在收购方明确表示,将保留对 Costa 咖啡即饮产品的控制权。这意味着,若交易成真,出售范围或仅限于门店业务。

报道称,阿波罗全球管理公司曾考虑竞购 Costa,但在上周报价截止前决定不参与。其他竞标方包括 TDR Capital,不过投标数量低于预期。

据悉,可口可乐在超市及杂货渠道销售的 Costa 即饮系列将继续由其掌控。

资料显示,Costa 于 2020 年初进入中国即饮市场,依托中粮可口可乐与太古可口可乐的分销网络,迅速覆盖商超、便利店及电商渠道。

过去 5 年,该品牌已跻身中国即饮咖啡市场前三。其定价策略介于康师傅、雀巢等零售咖啡品牌与星巴克瓶装咖啡之间,每百毫升售价约 2.33 元。

可口可乐方面未正式确认出售 Costa 门店业务的计划,但高管此前强调,所有并购交易的核心是为体系、客户与消费者创造整体价值。

盒马最难吃的甜品被台风「选出」

据南方都市报报道,近日,台风「桦加沙」来势汹汹,广东多地市民提前囤货应对,青菜、粮油等食材补货频率明显提升。

不过,这波「台风严选」也意外揭示了当地消费者的口味偏好 —— 部分甜品、方便面、水果、蔬菜在抢购潮中被冷落,其中一款榴莲大福尤为显眼。

有网友调侃「广东人宁可饿着也不向味蕾妥协」,而榴莲大福则成为被剩下最多的甜品。

对此,盒马客服回应称,榴莲大福库存充足,非因滞销导致剩货,并表示后续将根据消费者反馈对商品配方进行调整,以满足更多人的喜好。同时提醒广东消费者尽量减少外出,注意安全。

卖婴儿纸尿裤的尤妮佳在华转向宠物食品

据日本经济新闻此前报道,日本日用品企业尤妮佳(Unicharm)在中国的首家宠物食品工厂已于今年正式投入运营。

该工厂位于江苏省,由尤妮佳与吉家宠物(JIA PETS)合作建设,尤妮佳持股比例超过 40%,总投资额超过 100 亿日元(约人民币 4.8 亿元)。

尤妮佳表示,此举旨在通过本土化生产实现稳定供给与快速销售,降低成本,并计划到 2030 年将宠物相关产品在中国业务销售额中的占比从目前的 1% 提升至 20%。

公开资料显示,吉家宠物在江苏徐州新沂经济开发区建设的宠物食品项目一期已全面投产,年产能可达 20 万吨,预计年产值超 40 亿元。

业内数据显示,中国是全球第二大宠物消费市场,2024 年犬猫数量预计达 1.87 亿只,宠物食品市场规模突破 3000 亿元,且保持稳定增长。

尤妮佳认为,随着年轻群体养宠比例提升,本土化生产将加速新品研发与上市,宠物用品有望成为继卫生巾和纸尿裤之后的重要营收来源。

抹茶秋季热度再攀高,茶饮品牌集中上新「浓郁系」新品

FoodTalks 近日发布文章称,今年秋季,抹茶在饮品市场的热度持续升温。

自 9 月以来,古茗、奈雪、茶百道、沪上阿姨等多家头部品牌密集推出抹茶新品,口味从春季的清爽风格转向更适合秋冬的「浓郁系」搭配。

9 月 3 日,沪上阿姨推出「千目抹茶芝芝米麻薯」与「千目抹茶生椰大福」,将抹茶与米麻薯、芝士奶盖、生椰乳等食材结合,带来层次丰富的口感。

9 月 5 日,奈雪上新「浓抹干酪米布布鲜奶茶」,以干酪中和抹茶微苦,获得不少消费者好评。

古茗则在 9 月 11 日推出「生椰抹茶麻薯」「抹茶开心椰」,并于 19 日加码「双重芝士抹茶」。

茶百道在 9 月 16 日推出「千目咸法酪」,以超千目径山抹茶搭配咸香法酪,迅速在社交平台走红。

文章指出,本轮抹茶热潮呈现三大变化:

  • 搭配更浓郁——米麻薯、干酪、芝士等食材成为抹茶新品的常见组合,满足秋冬消费者对温暖、饱满口感的需求。
  • 强调「千目」品质——多家品牌在新品命名与宣传中突出「千目研磨」概念,强化抹茶细腻粉质与高端定位。
  • 应用更多元——抹茶不再局限于饮品基底,还被广泛用于奶盖、小料及水果搭配,展现出极高的风味兼容度。

业内分析认为,抹茶与牛乳、芝士等浓郁食材的适配性,使其突破了「春夏限定」的认知边界,秋冬市场潜力巨大。未来,香气创新与视觉突破或将成为抹茶产品持续吸引消费者的关键方向。

好看的

《毕正明的证明》预售开启

动作 / 剧情片《毕正明的证明》于昨日正式开启全国预售,并同步发布「请看管好随身财物」版预告。

影片由佟志坚执导,王安宇、张天爱、王彦霖领衔主演,聂远特别出演,冯兵、邬家楷、孔令美主演,将于 10 月 1 日登陆全国院线。

影片故事讲述毕正明从小立志当警察,却在报到首日意外致残,沦为「一日警察」。

为证明自己,他孤身潜入盗贼团伙「荣门」,在危机四伏中坚持初心。片中大量火车场景不仅贴近节日出行生活,也折射时代变迁:从绿皮火车盗贼猖獗到高铁时代秩序井然,「安全」成为全民共感的关键词。

死亡搁浅系列首部动画电影项目《MOSQUITO》正式公布

小岛工作室宣布,作为游戏《死亡搁浅》系列的延伸,将启动全新动画电影项目《MOSQUITO(暂定名)》,并同步公开先导影像。

该片将与好莱坞联合制作,由株式会社 ABC ANIMATION 导演宫本浩史执导,Aaron Guzikowski 担任编剧。

据悉,《MOSQUITO》是小岛工作室首次尝试长篇动画电影制作,动画部分由 ABC ANIMATION 独立负责,这也是该公司首次完全参与大型动画电影项目。

宫本浩史曾执导《拥抱!光之美少女♡光之美少女 All Stars Memories》等作品,编剧 Aaron Guzikowski 代表作包括《异星灾变》与,《红番血路》。

官方尚未公布上映日期及更多剧情细节,但从先导影像来看,影片延续了《死亡搁浅》系列的独特世界观与视觉风格,预计将为粉丝带来全新的叙事体验。

《浪浪人生》开启预售

电影《浪浪人生》今日发布「全家一起上」版预告及「这一家子不好惹」版海报,并宣布全国预售正式开启。

影片改编自蔡崇达畅销书《皮囊》,由韩寒监制,马林执导,周运海编剧,黄渤、范丞丞、殷桃领衔主演,将于 9 月 30 日上映。

据片方介绍,《浪浪人生》不仅有「疯」力十足的喜剧元素,还传递出家人之间彼此关心与托举的温暖情感,适合观众在国庆假期与亲友一同观影。影片预售现已开启。

小岛恐怖游戏新作《OD – KNOCK》发布先导预告片

在今日举行的小岛工作室成立 10 周年纪念活动「Beyond The Strand(超越羈絆)」上,知名游戏制作人小岛秀夫正式发布与 Xbox Game Studios 合作开发的恐怖新作《OD》最新前导预告片「KNOCK」。

《OD》最早于 2023 年底的 The Game Awards 首次亮相,采用最新虚幻引擎打造,并邀请《牠》演员苏菲亚·莉莉丝(Sophia Lillis)、《高校十八禁》演员杭特·薛佛(Hunter Schafer)以及曾饰演《红色警戒 2》角色「尤里」的乌多·基尔(Udo Kier)参演。

与此前仅展示 3D CG 面部演出的首支预告不同,本次影片完整呈现了由游戏引擎驱动的高度写实室内场景,以及苏菲亚·莉莉丝饰演的主要角色的生动表演,营造出令人屏息的恐怖氛围。

目前,官方尚未公布《OD》的具体上市时间。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Chrome 迎来大更新,刚刚登顶 App Store 的 AI 可以直接用了

你应该也有类似的浏览器使用体验,就是当你曾经打开过一个标签页,但是忘了给它添加书签;下次再想找到它时,只能去历史记录里面翻个半天,还不一定能找到。

前些天,我们介绍 Google AI 全家桶的产品指南,它的浏览器 Chrome 被排除在外。

一方面,这是个传统的老牌浏览器,几乎每个人的电脑都有安装一个;另一方面,浏览器本身好像就是没有任何 AI 功能,找标签页这个场景,除了依赖第三方扩展插件,我们只能去翻历史记录。

但是现在,Chrome 进行了自 2008 年发布以来最大的一次升级,找不到的标签页,点击右上角 Gemini 的小图标,一句话就能解决。不管你喜不喜欢,它也是一个 AI 浏览器了。

▲ Gemini in Chrome

点击右上角的 Gemini 图标,我们可以与 Gemini 进行跨标签页的对话

Chrome 不再是一个被动打开网页的工具,Gemini 的引入,让它变成一个能主动帮我们干活的智能伙伴。Gemini 助理、AI 搜索模式、智能体、以及一系列新的安全和便捷功能都来了。

Chrome 在自己的 YouTube 频道和官方博客,发布多条内容,介绍这个「历史全新」的浏览器。我们第一时间研究了所有新功能,可以负责任地告诉你,这不只是加了个聊天机器人那么简单,我们的上网方式可能真的需要一点时间,来学习和适应这个更聪明的浏览器。

信息过载?AI 帮忙画重点,几十个网页秒变一份精华纪要

这可能是打工人和学生党最狂喜的功能。想象一个场景,老板让你半小时内调研完一个行业,或者你需要为论文快速消化十几篇文献。过去,我们只能一篇篇点开,匆忙地在多个标签页切换。

现在,打开这些网站标签页,然后呼叫 Gemini,它就能像一位专业的助理,跨越多个标签页进行阅读、对比和总结。

▲ Gemini in Chrome 能够获取多个标签页的上下文信息

我们可以直接问它:「这几款相机的优缺点分别是什么?」或者「帮我把这些资料整合成一份旅行计划」。它甚至还能找到 YouTube 视频里的关键信息,我们不需要额外的第三方插件,就能得到一样的 YouTube 视频总结。

从大海捞针到 AI 直接递上答案,这效率提升可不止一点半点。

动口不动手,你的浏览器助理未来什么都能干

如果说「总结资料」只是开胃菜,那接下来的「智能体能力」(Agentic Capabilities)就是 Google 为我们描绘的未来图景。

简单来说,和所有智能体一样,我们负责下命令,浏览器负责跑腿。也和所有关于智能体能力的演示一样,我们只能用智能体来预订餐厅,买生日礼物。

Google 提到在未来几个月,通过结合 Google 强大的应用生态,YouTube 视频、Gmail 邮箱、Calendar 日历、以及办公套件等,我们可以直接对 Chrome 说,「帮我订一份常吃的那家沙拉。」、「预约下周三下午的美发。」、「把这些东西加到我的购物车里。」

▲ 集成在 Chrome 里面的 Gemini,有能力为我们处理一些简单的重复性任务

Chrome 会在我们授权后,自动在网页上进行点击、填写、下单等一系列多步骤操作,而我们全程只需监督,随时可以叫停。

虽然听起来有点像 ChatGPT agent 之前演示的功能,但其实就是这样。我觉得智能体的能力,还没有被真正的挖掘出来,专门开发一个 AI 浏览器用来预订餐厅,听起来怎么都不划算。

Chrome 即将更新的智能体能力,我的期待是,我们生活中真正的琐事,可以从需要 30 分钟的处理,变成 3 次点击。

地址栏,现在是 AI 全能框

Chrome 那个我们每天都要用无数次的网页地址栏,现在也升级成为 Omnibox 全能框。

当我们访问一个网页时,地址栏会根据页面内容,智能地为你推荐一些我们可能想问的问题。

比如正在看一款床垫,它可能会提示你:「这个东西的保修政策是啥?」。

▲ AI 模式在地址栏中直接可用

此外,跟我们之前介绍的 AI Mode(AI 模式)有关,现在我们不需要去专门的 Google 搜索地址,直接在地址栏,就能开启 AI 模式。一些更复杂、更开放、需要深度研究的问题,AI Mode 都能做到。

比如「给我推荐几款适合小户型的复古风咖啡机,预算 1000 元以内」,AI 会直接在侧边栏生成一份详尽的报告,无需跳转。

AI 除了用来提升效率,也让 Chrome 更安全

聊了这么多 AI 的功能,安全也是 Chrome 非常在意的一个因素,Chrome 大概想说,不要觉得只有你 Safari 在保护隐私安全。

这次主要是利用 Gemini Nano 模型,能更主动地识别和拦截,那些诱导我们下载有害软件的诈骗网站。

以及对通知更加智能的管理,AI 会自动识别那些垃圾、诈骗类的网站通知,并帮你「一键退订」。Google 称仅在 Android 端,这项功能,每天就能为用户减少约 30 亿次骚扰。

密码的保护也得到了更新,当密码不幸泄露时,Chrome 未来将能像一个密码特工一样,在支持的网站上,直接帮我们一键完成密码修改。

▲ Chrome 可以通过一次点击,修复泄漏的密码

在 Chrome 中的 Gemini,此前是 Google Labs 的项目,仅针对 AI Pro 和 Ultra 用户。

现在 Chrome 的这些更新,支持在美国且将英语设置为首选语言的全部用户,支持 Mac 和 Windows 版本;而 Android 和 iOS 版本也将很快推出,里面部分功能在持续更新中。

🔗 官方使用指南帮助:
https://support.google.com/gemini/answer/16283624

我们之前也多次讨论过 AI 浏览器的形态,无论是 the browser company 曾经推出的 Arc,还是后面集成了更多新功能的 Dia,现在被卖给 Atlassian。

还有 Perplexity 推出的 Comet,最近应该正式向大部分用户开放了,不需要漫长的 waitlist 等候。

以及前段时间微软称 Edge 也正式升级为 AI 浏览器;和关于 OpenAI 的 AI 浏览器传闻。

和这次的 AI Chrome 类似,它们的模式甚至都可以被总结成一个侧边栏,和一个像 ChatGPT 首页的启动页面。

▲ 根据 statcounter 统计数据,Chrome 市场份额全球领先

但是,Chrome 和它们不一样的是,这是一个在全世界范围都遥遥领先的浏览器。今天的更新,可能标志着「AI 浏览器」这个概念,真的要从一些少数派的探索,走向更大众化的讨论。

呈现 AI 最好的形态不是浏览器,那 AI 浏览器最好的形态又该是什么样。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


小扎演示多次翻车,但这依然是 2025 最好的 AI 眼镜 | 附现场体验

2025 年最新潮的科技产品,自然是各种能拍照、能录像还能 AI 的智能眼镜。

作为(重新带火)智能眼镜这一品类的先驱,Meta(前 FaceBook)以两年百万副 Meta Ray-Ban 的销量向我们证明了一件事:

把摄像头戴在脸上,还真就在慢慢变成人们记录生活的刚需。

就在刚刚过去的 Meta Connect 2025 发布会上,Meta 一口气为我们带来了三款新品。其中不仅有 Meta Ray-Ban 智能眼镜的第三代改款,还有一个传闻已久的新玩意——

带有彩色光波导显示功能的 Hyper Nova 产品版:Meta Ray-Ban Display。

划重点:

  • Meta Ray-Ban Display: Meta 首款带显示屏的智能眼镜。通过彩色光波导 HUD 和 Neural Band 腕带,把「脸上的 AI」从概念变成现实,售价 799 美元。
  • Ray-Ban Meta (Gen 2):小改款,是面向大众的主力机型,外观上更时尚,续航和拍摄能力大幅提升,售价 379 美元。
  • Oakley Meta Vanguard:面向运动与极客人群,防风镜造型、中央广角摄像头、长续航和运动数据整合,甚至配备训练提醒灯,售价 499 美元。
  • Hyperscape:把现实空间「搬进」虚拟空间,Quest 用户可以扫描房间生成逼真的 VR 副本,不过目前仍是 Beta 版。

稍后,爱范儿在 Meta Connect 大会前方的小伙伴 @梦雅Myra 也会在后续为大家带来今年三款新智能眼镜的上手体验,敬请关注后续文章。

Meta 首款带显示屏智能眼镜发布!799 美元带你体验「脸上的 AI」

毫无疑问,今年最受瞩目的新品将是 Meta 首款带显示屏的智能眼镜。

跟早期爆料一致,Meta 推出了一款右眼带有小型 HUD(抬头显示屏) 的智能眼镜:Meta Ray-Ban Display。

虽然名字有些无聊,但对于智能眼镜(或者用扎克伯格的话:AI 眼镜)行业来说,Ray-Ban Display 无疑是一款突破性的产品。

和纯粹基于图像识别的手势操作不同,这款眼镜搭载了 Meta 长期研发的 Meta Neural Band 肌电神经接口腕带,通过识别手腕上的肌电信号以及手腕运动,实现非常精确的隔空操控。

▲图|Meta

值得注意的是,Meta Ray-Ban Display 并非完整的 AR 眼镜,而是侧重于在视野中呈现关键信息的单目 HUD 设备——它的屏幕只覆盖了右侧视野的一小部分。

这是一片 30-90Hz 可变刷新率彩色光波导屏幕,总体尺寸为 600x600p,像素密度 42p/degree,最高亮度超过 5000 尼特,在强烈的日光和户外环境都可以保持不错的可读性。

▲图|Meta

根据爱范儿在 Meta Connect 现场的小伙伴 @梦雅Myra 的上手体验,Ray-Ban Display 的光波导屏幕无论是亮度还是隐藏效果都非常优秀,正面看过去只能看到侧面的导线:

而 Meta Neural Band 肌电手环的识别灵敏度也很高,手势操作的成功率相比去年 Connect 大会上的 Orion 测试机大幅提升,日常使用中应该不会出现任何操作难度问题。

▲ 图片来自:@梦雅Myra

与想象中始终显示信息的 HUD 不同,Ray-Ban Display 只有在被呼叫的时候才会点亮屏幕,支持显示比如音乐播放器、相机取景预览、实时字幕翻译等内容,并可将 Live AI 的回复以文字形式投射到镜片上,而不仅仅是语音输出。

或许是因为增加了显示和额外电子元件,Ray-Ban Display 眼镜的重量约 70 克,相比普通版的 50 克略有增加。在混合使用场景中,Ray-Ban Display 的续航约为 6 小时,搭配充电盒可以延长至 30 小时左右。

此外,Live AI 还支持了类似谷歌在 Pixel 发布会上展示的 Magic Cue 功能,可以在用户与别人自然对话的中途全自动地显示各种相关信息和操作(比如创建日程),不需要用户说出任何指令关键词。

眼镜所搭配的 Meta Neural Band 手环是另一个硬件亮点。

这款腕带通过读取腕部肌肉电信号,辅助陀螺仪识别移动,让用户用细微的手指动作来控制眼镜界面。去年 Connect 2024 大会上,Meta 已展示过原型腕带通过手指捏动来打字的演示,引发行业关注。

而今年的演示则更进一步,扎克伯格在现场甚至展示了一小段佩戴 Display 眼镜、通过腕带识别在桌面上手写字母的方式编辑和发送消息的过程。根据发布会的说法,腕带的手写识别速度至少在 30wpm 以上。

作为 Meta 首款真正具备数字显示功能的智能眼镜,Ray-Ban Display 承载了扎克伯格对于「脸上的 AI」的愿景——即将人工智能无处不在的助理和信息,在不干扰用户日常生活的情况下融入现实场景。

扎克伯格曾表示 2025 年是决定 AI 眼镜能否通向数亿用户的关键年份,可见公司对这款眼镜寄予厚望。当然也需看到,现阶段它的功能更接近于「增强信息提示」的智能眼镜,而非完全的混合现实设备。

根据发布会介绍,Ray-Ban Display 的起价为 799 美元(约合人民币 5700 元)。这一价格远高于 Meta 目前所有智能眼镜产品线上的产品,但从现场演示的功能丰富性和实际效果来看,无疑是非常值得的。

Ray-Ban Meta (Gen 2):小改款,但也更好看大了

除了高端的 HUD 眼镜,Meta 还同步推出了面向大众市场的 Ray-Ban Meta (Gen 2)。

作为一款眼镜的本质,Meta Ray-Ban 3 提供了更多风格和种类的镜框,包含一款全新的透明镜框款,并提供两种镜片选择:棕色反光金或红宝石。

▲ 图|Meta

Ray-Ban Meta (Gen 2) 的电池续航相比上代直接翻倍,智能眼镜充电盒可以在 20 分钟内将眼镜充至 50% 电量——比此前 22 分钟充至 50% 电量略有提升。

此外,充电盒可额外提供 48 小时的电池续航,相比之前的 32 小时有所增加。

录制规格也提升到了 3K 分辨率,包含录制 3K 30fps、1440p 30fps 和 1200p 60fps 的视频,最长可达三分钟。据悉,今年晚些时候,Meta 还将增加捕捉超速快放和慢动作视频的功能——这一功能将应用于其所有 AI 眼镜。

Ray-Ban Meta (Gen 2)支持了一项名为 Conversation Focus 的新功能。它的工作模式类似耳机的增强模式,会主动识别和增强和你对话的人的人声频率,在嘈杂环境中让你更容易听清对方在说什么。

更重要的是,这项功能将作为软件更新,在所有现有的 Ray-Ban 上提供。

Meta 的 Live AI 模型也相应得到了增强,不仅仅是视觉识别,现在它也支持了用户主动打断对话——只可惜,发布会上面的现场演示还是翻了车,Live AI 助手卡在了一句循环的对话上,没能完成一个完整的对话 session。

相比于前代的 299 美元,小改款的 Ray-Ban Meta (Gen 2) 上涨至 379 美元。

Oakley Meta Vanguard:时尚与运动,全都要

Meta 与 EssilorLuxottica 的合作不仅限于 Ray-Ban,也扩展到了集团旗下的 Oakley 品牌。今年 6 月双方已推出一款偏运动取向的智能眼镜 Oakley Meta HSTN,主打更长续航和更高的视频录制规格。

而今天推出的 Oakley Meta Vanguard 智能眼镜与 Ray-Ban 最大区别在于 Vanguard 采用了运动防风镜的外形,其摄像头置于鼻梁正中央,而非镜框两侧。

相机规格方面,Oakley Meta Vanguar 使用的一颗 1200 万像素、122° 广角相机被放置在鼻梁正中,这也是与 Meta Ray-Ban 的最大区别,后者只有一颗位于左侧的摄像头。

眼镜顶部还有录制指示灯。通过新的动作按钮,你可以快速切换拍摄模式:1080p/30fps 可录制 5 分钟,1080p/60fps 或 3K/30fps 可录制 3 分钟,720p/120fps 则支持慢动作模式。

产品的超速延时功能,能够自动剪辑生成精彩片段集锦(今年秋季的软件升级推送至全系 Meta 智能眼镜),还提供可调节的防抖功能,可根据运动强度自行设置。

此外,这款眼镜所搭载的开放式扬声器 Meta 在 AI 眼镜上搭载的最强劲的扬声器 —— 比 Oakley Meta HSTN 大 6 分贝,并且,还配备了五麦克风阵列,专门优化了风噪抑制效果,确保对话过程声音依旧清晰。

考虑到户外场景,Oakley Meta Vanguard 拥有长达九小时的电池续航,或可连续播放音乐长达六小时。用扎克伯格的话说:这足以支撑你完成两场马拉松——当然,前提是你能跑完两场(doge)。

此外,搭配充电盒,智能眼镜可以额外提供 36 小时的续航,如果你赶时间,可以在充电盒中用 20 分钟快速将眼镜充电至 50%。

在生态整合方面,Vanguard 通过与 Strava 及佳明达成了进一步的战略合作。用户可以一键将拍摄内容同步至 Strava 平台,同时借助 Meta AI 的智能分析能力,快速检索个人历史训练记录。

设备兼容性上,Oakley Meta Vanguard 可直接与多数佳明智能手表建立连接。连接成功后,手表界面会显示 Meta AI 专属标识。在运动过程中,用户只需语音指令,眼镜便会实时播报心率监测数据及其他运动指标,数据传输延迟几乎可以忽略不计。

在其实际体验当中,当用户做心率区间训练,还会有额外惊喜——右眼上方新增 LED 灯,训练时一旦偏离目标心率区间会变红,还能设置配速提醒。

如果说 Ray-Ban 面向日常生活和时尚人群,而 Oakley 则主打运动与极客圈层,价格为 499 美元,于当地时间 10 月 21 日正式发售。

现实世界「搬进」VR,Meta 推出「Hyperscape」黑科技

Meta 每年 Connect 大会不仅发布硬件,也会推出大量软件更新。

今天过后,Meta 将彻底把现实搬进虚拟世界。最新发布的 「Hyperscape」 技术,可以把你身边的现实空间扫描进 Quest VR 头显,生成一个照片级逼真的数字副本,甚至可以用于加入元宇宙的交互。

Quest 3 和 Quest 3S 用户现在就能下载 Beta 版 Hyperscape Capture 应用尝试,目前仅限个人体验,后续则能通过链接分享,让他人和你一起「重访」这个扫描空间。

这项技术早在去年的 Connect 2024 上就露过面,一年后,Meta 终于把它推到用户层面。

值得一提的是,The Verge 记者提前上手体验了一些预先扫描好的房间,比如厨房环境。在他看来,这些房间看起来和现实环境非常相似,甚至桌上的食物或书堆等细节也比较清晰。

不过,但如果离得太近,「幻象」就会破裂,比如「报纸」上的《纽约时报》文字可以读清,但有时会有点模糊。

▲ 图片来自:Meta

那具体是怎么扫描捕捉空间?

根据 The Verge 的描述说,他戴上 Quest 3 头显后,在房间里走动并四处张望时,会有一个虚拟网格开始覆盖在正对着的物体上。大约扫描三分钟后,应用提示记者靠近物体,这时网格开始逐渐消失。

不过,这种扫描虚拟空间并不是实时的。当用户完成一次完整扫描后,数据需要上传到云端处理,通常需要几个小时之后,才能体验到最终成果。

另一个重点则在于。今年 Horizon 平台最大的变化就是引入了全新的游戏引擎,提供更高质量的图形表现,同时推出 Meta Horizon Studio,帮助创作者打造定制化的游戏体验。

你可以将 Meta Horizon Studio 理解为一款VR 世界编辑器。创作者目前已经能用生成式 AI 工具来制作纹理、音频等内容,而今年晚些时候,Meta 还将为编辑器加入 AI 助手,进一步支持开发。

支撑这些新元宇宙环境的核心是 Horizon Engine。根据 Meta 的介绍,它能够带来「更好的图形、更快的性能以及更先进的 VR 世界」,并支持更高的并发体验。

此外,为了让用户更方便地在 Quest 头显上观看电影和电视剧,Meta 还宣布推出 Horizon TV 中心,提供对 Prime Video、Peacock、Twitch 等流媒体应用以及——终于——Disney Plus、Hulu 和 ESPN 的访问权限。

回顾往年 Connect 大会,硬件发布往往遵循「一主多辅」的模式:即每年都有一款核心硬件发布,并辅以其它项目预览或更新。

例如,Connect 2024(去年)的重头戏是 Quest 3S 头显的发布,以及真正 AR 眼镜原型 Orion 的首次曝光;Connect 2023 则推出了 Ray-Ban Meta 智能眼镜第二代,并公布了 Quest 3 的详细规格,同时预告了多款 VR 游戏和 AI 项目。

与以往有所不同,本届 Connect 大会的主角不是头显,而是智能眼镜。

Meta Ray-Ban Display 这款凝聚数年研发的产品,被视作 Meta 抢占智能眼镜市场的重要一步。正如扎克伯格反复强调的,智能眼镜有潜力成为下一代通用计算平台(the next computing platform)。

另一条贯穿大会的主线是 「AI 无处不在」。

无论硬件还是软件,AI 都是共同驱动力。尤其是,在过去半年,Meta 不断加码 AI 投资,开启今年紧张刺激的 AI 顶尖人才抢人大战。通过 AI + 硬件「双管齐下」,Meta 试图打造一个其他公司难以立即复制的综合生态。

归根结底,这种打法背后,既是 Meta 对硬件路线的重新排序,也是对未来计算入口的豪赌。

头显继续承担沉浸式体验的实验场,而智能眼镜则被推上更靠前的位置,承载着「随身化」的野心。再叠加 AI 的强势渗透,Meta 将最有望在即将到来的智能计算时代中占据制高点。

文|梦雅Myra,莫崇宇,马扶摇

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


【CDT报告汇】InterSecLab:防火墙之父方滨兴旗下公司将最先进审查技术出口海外(外二篇)

编者按:《CDT报告汇》栏目收录和中国言论自由及其他人权问题相关的报告资讯。这些报告的来源多种多样,包括机构调查、学术研究、媒体报道和网民汇集等等。也欢迎读者向我们推荐值得关注的报告。

中国数字时代本周推荐媒体:

InterSecLab:是一家专门的数字安全实验室,具备先进的数字取证和威胁情报能力。通过技术分析和创新研究,我们与各类组织合作,识别数字威胁,并监测和分析更广泛的趋势以及不断演变的控制与渗透手段。

CDT 档案卡
标题:【CDT报告汇】InterSecLab:防火墙之父方滨兴旗下公司将最先进审查技术出口海外(外二篇)
作者:中国数字时代
发表日期:2025.9.14
主题归类:CDT报告汇
主题归类:中国数字极权
主题归类:大赦国际
主题归类:中国经济
CDS收藏:公民馆
版权说明:该作品版权归原作者所有。中国数字时代仅对原作进行存档,以对抗中国的网络审查。详细版权说明

编者按:近年来,许多专制国家都在构建自己的“网络防火墙”。2024年,多家人权机构共同发起了一项名为“防火墙出口”的调查研究,旨在调查这些国家背后的技术来源。结果发现,中国是最大“防火墙”技术出口国。不仅如此,大量欧美等西方国家也参与其中。

该调查由 InterSecLab国际特赦组织公正缅甸 Justice For Myanmar、Paper Trail Media、《环球邮报》、the Tor Project、奥地利报纸 DER STANDARDFollow The Money 共同完成。每个机构针对自己所研究的领域和国家在 9 月 9 日发布了各自的报告。

本期 CDT 报告汇重点报道国际数字取证实验室 InterSecLab 和国际特赦组织的调查报告。

一、从新疆到亚洲非洲,中国公司向专制政权出口最先进防火墙技术

9月9日,国际数字取证实验室InterSecLab发布了一份名为《互联网政变》的调查报告。报告发现,中国公司海南积至 (Geedge Networks) 正在将其先进的互联网审查与监控技术推向全球,协助多国政府建立类似中国“防火长城”的网络管控体系,而积至的联合创始人正是被称为“中国防火墙之父”的前北京邮电大学校长方滨兴。

img

报告封面

据悉,调查基于一次该公司的内部资料外泄事件。稍早,积至公司有10万多份资料外泄,包括超过500GB的源代码、工作日志和通讯记录。此次事件堪称“中国网络审查系统史上的最大外泄事件”。根据泄密内容,该公司不仅承担了打造“中国防火墙”的核心任务,还正在向巴基斯坦、缅甸、埃塞俄比亚、哈萨克斯坦以及一个未被识别的国家输出网络审查技术。此前,方滨兴在演讲中就明确表示要“拓展国际市场,在全球推广中国的解决方案和技术”。

此外,加拿大环球邮报 (The Globe and Mail) 通过调查该公司的招聘广告发现,该公司还准备在马来西亚、巴林、阿尔及利亚和印度等国推广审查技术,以配合“数字丝绸之路”的倡议。

报告显示,积至成立于2018年,最初便与哈萨克斯坦政府合作,提供其旗舰产品“天狗安全网关 (TSG)”。这一系统能够全面监控和过滤网络流量,具备阻断VPN、识别匿名用户、实时拦截敏感信息等功能。随后,埃塞俄比亚与缅甸军政府也采用了该系统,其中缅甸在政变后通过该技术实现了对VPN的全面封锁。

在巴基斯坦,积至取代了此前曾因人权问题遭美国制裁的加拿大公司Sandvine。文件显示,积至接管了其部分基础设施,继续支持伊斯兰堡的国家防火墙建设。报告表示,这种模式意味着专制国家无需自行研发复杂的审查工具,只需依赖积至的“外包服务”,便能迅速建立强大的信息封锁能力。

报告写道:“积至的技术套件已被客户政府用来‘增强其控制装置’并提供‘前所未有的监视和审查能力’。”在技术细节上,泄露文件揭示该公司正在对多个商业VPN进行逆向工程并寻找屏蔽方法。其中一份文件列出了九个已“解析”的VPN,并提供了具体的识别流量方式。

比如,总部位于多伦多的赛风公司 (Psiphon) 长期为受审查的国家提供免费VPN。然而,2021年缅甸政变后,积至为缅甸政府研发出一种工具,能够识别并屏蔽赛风服务器连接,使得赛风在2024年至2025年间多次遭遇严重封锁。更严重的是,赛风并非个例,其他VPN,特别是商业VPN也遭到了严重的屏蔽。缅甸网络中断期间,赛风用户数量实际上在逆势增加,主要因为“其他工具受到的打击更严重”。

另一方面,这些文件还显示,该公司正在参与中国境内省级防火墙建设。这些省级防火墙往往充当国家防火墙的补充,使得网络审查更加严重。比如,在2024年7月新疆的一场会议上,与会者甚至提出要将新疆打造成“省级能力示范区”,“将区域中心打造成反恐的先锋力量,尤其是在翻墙压制方面”。目前,积至公司在新疆取得成功之后,在2022年分别和福建、江苏政府达成协议,以建立省级防火墙。

最后,报告表示,随着越来越多国家借助这种技术强化互联网主权,全球互联网自由面临新的威胁。报告结果“引发了人们对监控和信息控制技术商品化的担忧”。

二、国际特赦组织:西方国家和中国一道帮助巴基斯坦当局打造大规模监控与审查

在 InterSecLab 报告发布的同一天,国际特赦组织也发布了关于巴基斯坦网络审查的报告《控制的阴影》。报告发现,巴基斯坦当局正在通过隐秘的全球供应链,从德国、法国、阿联酋、中国、加拿大和美国等国的私营企业获得先进的监控与审查技术,并在缺乏法律与透明监督的条件下应用这些技术。

img

报告封面

报告表示,这些技术构建了巴基斯坦现行的数字监控体系,其中尤以“合法拦截管理系统”(Lawful Intercept Management System, LIMS) 和“网络监控系统2.0版”(Web Monitoring System 2.0, WMS 2.0) 最为关键。

“在巴基斯坦,武装部队与三军情报局通过‘合法拦截管理系统’,借助当地电信运营商对大量人口的数字活动进行监控……这一系统实际上成为一种非法且无差别的监控工具,使政府能够同时监控超过400万人。”

报告称,该系统的核心技术由德国公司Utimaco与阿联酋公司Datafusion提供:前者开发的拦截系统可筛选电信运营商用户数据,后者的“下一代监控中心”则进一步让当局直接访问与分析海量个人通信。国际特赦组织强调,这一体系缺乏法院授权与技术保障,已成为国家级大规模监控的工具。

与此同时,网络审查体系的升级也显示国际跨国企业深度参与其中。报告披露:“首个版本的‘网络监控系统’使用了加拿大公司Sandvine的技术,后来被中国积至公司提供的新技术取代和升级。”

这套升级后的“网络监控系统2.0版”不仅实现了更精细的内容封锁,还能通过深度包检测技术 (DPI) 有效屏蔽VPN与当局认为“不合适”的流量。此外,报告指出,系统的硬件和软件来自多个国家:美国Niagara Networks提供核心硬件,法国Thales提供许可软件,中国新华三集团提供服务器设备,而硬件组件则由中国电子信息产业集团子公司出口。国际特赦组织认为,这一体系实际上是中国“防火长城”的商业化版本,目前已经在巴基斯坦本地化部署。

报告特别强调:“在这些系统运作下,没有人能免于巴基斯坦当局的压制性监控与控制。”不仅维基百科、TikTok和X等国际平台频繁被封锁,2023年5月抗议活动和2024年大选期间,巴基斯坦全国范围也经常出现网络中断。“这些举措使言论空间进一步收窄,公民社会面临严重威胁。”

国际特赦组织批评,多国政府与企业未能履行人权责任,出口缺乏透明度。“在联系的 29 家单位中,仅Niagara Networks和AppLogic Networks公司作出回应”,“德国联邦经济事务与出口管制办公室和加拿大贸易控制局仅确认收到了信函,但未回答问题”。阿联酋、中国、美国和法国等国政府的相关单位在报告发布前均未做出任何回应。

报告结论呼吁,全球应建立更严格的监管与问责机制,防止类似的监控体系在缺乏法律约束的国家被滥用。国际特赦组织敦促各国政府在批准技术出口前必须评估人权风险,相关企业则应进行人权尽职调查,确保其技术不会成为侵害公民基本权利的工具。

三、美国智库CSIS:中国经济转型充满风险,未来经济很可能“外强中干”

美国知名智库战略与国际研究中心CSIS近日发布了一篇重磅报告《中国的经济转型:债务、人口、去全球化与 2035 年情景》。报告表示,中国自2021年房地产需求见顶后,传统依赖债务驱动的基建与住房建设增长模式已难以为继,北京正试图构建以创新和先进制造业为核心的新经济模式,并设定到2035年取得人均GDP翻一番和“共同富裕”的目标。然而,报告指出,中国这一经济战略的前景暗淡,最终很可能出现中国经济“外强中干”的结果。

img

报告封面

报告认为中国面临三大长期挑战:债务高企、人口老龄化与国际去全球化趋势。具体来说,地方政府债务总额可能高达GDP的75%至91%,房地产和土地财政模式难以为继。人口方面,2022年中国人口达到峰值,劳动力自2012年起持续萎缩,“未富先老”的困境将使养老金与医疗支出压力日益加重。国际层面,美国与欧洲加大对华贸易壁垒,2025年特朗普政府更对中国进口商品加征145%关税,凸显外部环境的不确定性。

对此,报告指出,北京当局也给出了自己的应对之道,即“制造业驱动与创新引领”。“北京既不寻求建立消费主导型经济,也不追求大规模财富再分配,其重点在于创造新的财富。”报告直言。中国家庭消费仅占GDP的39%,远低于经合组织平均水平59%。然而,北京拒绝通过扩大福利体系实现消费拉动,担心重蹈拉美国家福利制度拖累经济发展的覆辙。

因此,中国的新战略是通过先进制造业和创新驱动实现生产率提升。比如,电动车、电池和光伏组件的全球领先经验,正被视为未来产业升级的样板。报告指出:“创新能够让企业差异化产品、开辟新市场,同时提高附加值,从而带来更高利润与税收。”这一逻辑被认为将支持财政扩张、改善公共服务,进而间接提升消费。

报告表示,新模式能否成功,很大程度取决于中国能否继续扩大出口。报告称,中国中间品出口已占总出口的46%,未来可能进一步通过“海外建厂”、签署更多自贸协定以及拓展全球南方市场来稳住外需。同时,中国有意通过在全球绿色转型中发挥“不可替代的伙伴”角色,推动新能源产品的外销,甚至有人提出中国版“绿色马歇尔计划”。

然而,报告质疑这一模式可能难以成功。主要原因在于,国际社会对中国贸易壁垒加大,国内消费又长期低迷。房地产泡沫破裂削弱了居民财富效应,“独生子女一代”背负赡养压力导致储蓄倾向增强,加之地方政府以罚款、拖欠工资等方式“自救”,进一步削弱社会信心。报告警告:“国内需求将持续疲软,除非中央政府愿意通过更多举债弥补地方缺口,特别是增加医疗投入以减轻家庭负担。”

对此,报告描绘了三种中国经济未来可能的场景。最理想的情况是,出口增长、创新突破、税基扩大,债务与福利负担得到平衡,中国实现更富裕、更公平的社会。另一方面,最坏的情景则是贸易受阻、债务失控、人口老龄化拖累经济发展并且改革未能奏效。然而,报告称最有可能的场景是介于两者之间,经济处于“外强中干”的模式。“未来十年,中国经济将同时表现出强与弱的双重特征。对外,中国是先进制造品的强劲输出国;对内,政府不得不依赖债务维持需求,居民生活改善有限。”

最后,报告表示,在全球格局中,中国仍将是高收入国家的强劲挑战者,但未必能兑现改善民生的宏大承诺。

新版 GPT-5 刚刚发布,最卷 AI 连肝代码 7 小时,编程工具大洗牌开始了

就在 Anthropic Claude 陷入降智风波时,OpenAI 刚刚推出了 GPT-5-Codex——这是基于 GPT-5 优化后的 Codex 专用版本,专门针对「自主编程」进行了训练。

这次升级确实有些分量。

聚焦于真实的软件工程场景的 GPT-5-Codex,不仅能处理日常的编程交互,还能独立完成复杂耗时的工程项目。它能像真正的程序员一样,连续工作超过 7 个小时,在复杂项目上不断迭代、修 bug、跑测试,最后交付一个完整可用的解决方案。

从四月份推出 CLI 版本,到五月份上线网页版,再到现在的全面升级,Codex 的——就是要把编程这件事彻底「自动化」。

现在无论你在终端、IDE、网页还是手机上开发,Codex 都能提供一致的编程辅助体验,而且已经整合进 ChatGPT 账号体系,本地和云端可以无缝切换。

GPT-5-Codex 最有意思的特性是「动态思考」能力。它能够根据任务复杂度灵活调整处理时间。

OpenAI 内部员工使用数据显示,按模型生成的 token 数排序,对于最底部 10% 的简单请求,GPT-5-Codex 比 GPT-5 少用了 93.7% 的计算资源。

相反,对于最顶部 10% 的复杂请求,它会花费大约两倍的时间进行推理、代码编辑、测试和迭代。这意味着日常聊天和小任务响应会更快,而复杂的大型重构则会投入更多时间深度处理。

用人话说就是:日常小问题不磨蹭,大项目该花时间就花时间。

终于有个编程模型懂得「好钢用在刀刃上」了。

基准测试方面,在 GPT-5 发布时,OpenAI 只在 477 个 SWE-bench Verified 任务上报告结果,在被 Anthropic 指出这一问题后,今天 OpenAI 宣布这些问题已经修复,现在可以在全部 500 个任务上报告结果。结果如下:

代码重构评测更是涵盖了 Python、Go 甚至 OCaml 等语言,比如一个来自 Gitea 的 pull request 案例,修改了 232 个文件、3541 行代码,将 ctx 变量贯穿到应用逻辑中。

代码审查功能也很实用,它会在代码库中浏览分析,运行测试验证正确性,给出的审查意见准确性不错。在 OpenAI 内部,Codex 现在会审查大部分 PR,每天能发现数百个问题,很多时候比人工审查更早发现潜在 bug。

前端开发支持同样到位,GPT-5-Codex 不仅能创建桌面应用,移动端开发能力也有明显提升。它还能读取截图和设计稿,检查开发进度,把工作成果可视化展示,这对前端开发确实很有帮助。

工具层面的更新也相当丰富。全新改造的 Codex CLI 现在围绕自主编程流程重构,支持直接附加和分享图片,包括截图、线框图和架构图,用于建立对设计决策的共同理解。

处理复杂任务时,Codex 会通过待办清单跟踪进度,内置了网页搜索、MCP 等工具连接外部系统。

审批模式简化为三种:只读模式需要显式批准,自动模式对工作区有完整访问权限但工作区外需要批准,完全访问模式可以在任意位置读取文件并运行带网络访问的命令。

全新的 IDE 插件支持 VS Code、Cursor 等编辑器,让用户能无缝预览本地修改并与 Codex 协作编辑代码。插件还支持在云端与本地环境间流畅切换,可以直接在编辑器中创建云端任务、跟踪进行中的工作,以及审查已完成的任务。

云端基础设施也有明显改进,通过容器缓存将新任务和后续任务的中位完成时间缩短了 90%。Codex 能自动设置运行环境,扫描常见初始化脚本并执行,在配置网络访问权限时还能运行 pip install 等命令按需安装依赖。

安全方面,OpenAI 采用了沙箱运行环境,默认禁用网络访问,确保不会在用户电脑上执行有害操作,同时降低提示注入风险。

开发者可以根据风险承受度自定义安全设置,在云端可以限制网络访问只允许可信域名,在 CLI 和 IDE 插件中可以批准命令、允许全权限运行或使用网页搜索、连接 MCP 服务器。

与 GPT-5 管理方式一致,GPT-5-Codex 在生物与化学领域被归类为高能力模型,已采取相应安全措施。

价格上,Codex 已经集成到 ChatGPT 的各个付费套餐中,不同套餐提供不同的使用额度。

  • Plus、Edu 和 Business 适合每周几次专注的编程会话;
  • Pro 则能支持跨多个项目的一整周工作量。

Business 套餐可以购买额外额度,帮助开发者突破包含的上限;Enterprise 套餐则提供共享额度池,只需为团队实际使用部分付费。对于使用 API key 的开发者,OpenAI 计划很快在 API 中开放 GPT-5-Codex。

目前 GPT-5-Codex 的系统提示词已经泄露,感兴趣的开发者可以研究一下。

系统提示词地址:https://github.com/elder-plinius/CL4R1T4S/blob/main/OPENAI/Codex_Sep-15-2025.md

知名博主 Dan Shipper 在体验完 GPT-5-Codex 之后,给出的评价是:

我们在 @every 上测试了几天,结果相当震撼:

– 它会根据任务动态选择「思考」时间——难题上能长时间工作,简单问题则能即时给出答案。
– 在我们的生产代码库测试中,它可以自主运行 长达 35 分钟 ——相比之下,GPT-5 往往过于谨慎,这是一次明显的升级。
– 它支持 本地与网页开发环境的无缝切换。你可以在 VS Code 中启动一个任务,然后在去购物时把它交给 Codex Web 继续完成。
– 它配备了 代码审查智能体,会真正运行你的代码,因此能发现更多 bug。

以下是我们经过大量内部测试后的整体感受:
– 这是一次非常出色的升级,让 Codex CLI 成为了 Claude Code 的有力替代品。
– 不过,它需要合理的提示才能表现出最佳效果。比如 @kieranklaassen 最多只能让它运行 5 分钟,而 @DannyAziz97 找到了诀窍。
– 有时候它会「偷懒」——在某些任务上可能思考不足,或者如果认为任务过大就会直接拒绝。
– 我整个周末都在用 Codex CLI 为 @CoraComputer 提交一个新的 PR,体验下来发现它非常好用、易于引导——这是一个很棒的模型。

OpenAI Codex 产品负责人 Alexander Embiricos 表示,性能的大幅提升主要归功于 GPT-5-Codex 动态的「思考能力」。Embiricos 解释说,GPT-5-Codex 的工作方式类似,但它内部没有路由器,而是能实时调整在某项任务上投入的时间。

Embiricos 指出,这比路由机制更具优势:后者在一开始就必须决定要为某个问题分配多少算力和时间,而 GPT-5-Codex 则可以在处理任务 5 分钟后决定「还需要再多花一个小时」。他说,他见过该模型在某些情况下连续工作超过 7 小时。

最近几个月,几乎所有 AI 大厂的重磅更新都指向同一个方向——编程能力。相比之下,如果你仔细观察就会发现,针对普通用户的「优化」其实是在不断减少。

表面上看,这可能是因为面向普通消费者的 AI 产品已经陷入瓶颈期。聊天、写文案、做翻译,这些功能已经比较成熟,很难再有突破性进展。

但更深层的原因,还是绕不开商业逻辑。

开发先进的 AI 模型本就需要天文数字的巨额投入,这些成本总要有人承担。与其指望海量低付费用户慢慢回血,不如直接锁定那些真正愿意掏钱的高价值用户。而程序员是最愿意为 AI 工具付费、且粘性较高的群体之一。

从这个角度来说,放弃技术平权的叙事,AI 的未来可能比我们想象的更加「精英化」。这不一定是坏事,但至少我们应该对此有清醒的认识。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


AirPods Pro 3 首发评测:「不务正业」才是好耳机

一对无线降噪耳机的使命,理应是音质和降噪,当仁不让。

但在上周发布的 AirPods Pro 3 上,苹果非要「不务正业」,赋予它两大全新的价值:心率检测、实时翻译。

在过去的一个周末时间里,爱范儿戴着 AirPods Pro 3,听了很多东西,去了很多地方,也做了很多运动。

它给我们留下的印象:没有短板,产品力仍然断崖式领先。

降噪和音质都变强了

先看看耳机的外观,对比上一代尺寸和设计都有变化。入耳的部分经过重新设计,体积比前代要更小,但更深入耳道。

并且,整个充电仓比前代要大一圈,如果你有一只心爱的充电仓保护壳,恐怕没法继续用了。

如果说 AirPods Pro 2 属于将现实世界的纷扰嘈杂音量「调低」,那么戴上 AirPods Pro 3 之后真的接近现实世界噪音打开「静音」模式的感觉,有点像置身于一个封闭的小房间,耳朵被音乐的声音灌满,只有专门去听,才能捕捉被隔绝在「房门」之外的噪音残余。

一个主观感受:和头戴式的 AirPods Max 对比,入耳式的 AirPods Pro 3 也丝毫不逊色,降噪可以说是在同一个档位。

除了主观听感上的体验,我想日常使用的音量也是一个参考值:同一段通勤路,初代 AirPods Pro 听歌我一般开 60% 音量,AirPods Pro 2 我会降到 30-40%,而 AirPods Pro 3 我只需要开 20% 左右的音量。

虽然这是一支主动降噪耳机,但其实降噪改进的一大工程反而是「被动式」的—— AirPods Pro 3 的全新胶塞。

外观看起来没啥大变,但加入了全新的海绵材质填充,以此提升了耳机的被动降噪能力——是的,隔音好了不少。这种新的耳塞比以往都要更硬,塞进耳朵的存在感比以往有所提升。

不过我的个人感受是,听两首歌左右的时间 AirPods Pro 3 就会给有一点不适感,这可能是由更硬的胶塞导致的。不过其他同事倒是觉得戴久了反而会更适应——总而言之,3 代和前代 AirPods Pro 佩戴体验有明显不同。如果你是那种佩戴入耳式耳机会难受的人,建议线下试戴后再入手。

初次配对 AirPods Pro 3,苹果也会提示你调整一下新耳塞的大小,以获得最舒适的体验。

苹果这次也准备了 5 种胶套尺寸,有 XS 也有 XXS。如果你觉得以前用惯的码数不舒服,爱范儿建议你换小一码来试试,降噪效果也依旧够强。

所以 AirPods Pro 2 能不能强行换上这个全新的泡沫胶塞来提升降噪?很遗憾,由于扬声器形状不一样,两代的胶塞是不能互换的。

至于主动降噪,由于 AirPods Pro 3 沿用了上一代的 H2 芯片,真实的降噪提升,主要来自全新升级的超低噪声麦克风。

作为耳机,那当然离不开音质的表现。没想到 AirPods Pro 3 没有继承苹果祖传的「白开水」音质,声音要更加浓郁,高频更突出,低频的力道更大,增加厚度的同时也提升鼓点鲜活度的表现力。

如果说 AirPods Pro 2 给我的感觉是「圆润」,那 AirPods Pro 3 就会更有「棱角」,人声和乐器会更细致一点。

整体听起来,AirPods Pro 3 的能量感更充足,更加活力充沛,就像是从一个朝九晚五的上班族换下了工整的西装,变成穿搭配色鲜艳的运动达人。

总而言之,AirPods Pro 3 不管是降噪还是音质表现,都依旧是真无线耳机第一梯队的水平,相信在未来三年,它都会成为同类产品相比较的标杆。

而全新加入的心率监测功能,则让 AirPods Pro 3 能占住耳机听歌降噪之外的场景。

锻炼搭子新选择

对比今年年初发布,同样带心率传感器的 PowerBeats Pro 2,AirPods Pro 3 更像一个运动耳机的「完全体」——它搭载的是非可见光心率传感器,也就是在测心率时不会像 PowerBeats Pro 2 一样发出绿光(下图),效果要优雅很多。

▲ PowerBeats Pro 2 上的心率传感器

把心率传感器做到耳朵里,理由其实还不少:

比起手腕,耳朵其实更稳定,即使身体在运动,也能保持相对的静止;耳朵以软骨为主,还拥有理想的动脉群,能更准确反映心脏真实情况。

打开 iPhone 上的健康 App,就能看到耳机在实时获取自己的心率数据。这只是最基本的功能。苹果利用了多年在心率领域的技术积累,只要戴上 AirPods Pro 3,就能用 iPhone 测算出锻炼的热量,一共能追踪五十多种锻炼类型——更加广阔的应用可能。

但最核心的是,只要戴上 AirPods Pro 3,也能足够详细的锻炼数据,不一定非要戴表。

智能手表存在这么多年,大家可能已经习惯了用手表记录运动数据。但习惯的就是完美的吗?或者还有什么更优雅的方式吗?

别人没想的事情,苹果在想。不光想,还把它做出来了。

加上 IP57 级别的抗水抗汗,AirPods Pro 3 对于那些需要一副耳机的运动爱好者来说,更有了一个购买的理由。

不过,戴上 AirPods Pro 3 做运动,所有数据都只能靠 iPhone 的屏幕呈现,比起抬腕就能一目了然锻炼情况的 Apple Watch,方便程度大打折扣,有点影响锻炼的正常节奏。

当然,AirPods Pro 3 不是 Apple Watch 的完美替代。它更多是一种补充,一个新的选择,去满足部分更细分的用户需求。有人只想在运动时追踪自己的热量消耗,也有的人不爱或者无法佩戴手表,AirPods Pro 3 就是那个更理想的实现方式。

还有一层更深远的意义:运动过程的心率监测,是一条被忽视但又十分重要的安全线,能及时反映身体的负荷状况发出预警。

对于多数人来说,无线耳机是一个更普遍的运动搭子,人们不一定会为了心率监测买 AirPods Pro 3 ,但只要戴上 AirPods Pro 3 就获得了这个功能,更多人获得了一个潜在的安全保险。

苹果不是第一个把心率传感器塞进耳机的厂商,但他们的优势是品牌知名度和教育市场的能力,以及打造了十年的健康生态和技术积累,几乎是其他竞品难以追赶的。

不过目前而言,AirPods Pro 3 的心率监测功能,主要的场景还是运动锻炼,如果你很关心自己的心血管健康,有常时监控的需求,那还是选择全能的 Apple Watch 或者其他智能手表更靠谱。

需要注意的是,一直开着心率传感器会导致 AirPods Pro 3 的续航缩水,大概会少 1-1.5 小时的持续使用时间,如果不需要这个功能,iPhone 设置就可以一键关闭。

如果不开心率监测,苹果标注 AirPods Pro 3 在降噪模式下能比第二代多出 2 小时的续航。不过充电仓却退步了:苹果标注 AirPods Pro 3 配合充电盒能听 24 小时,而上一代这个数字是 30 小时。

这几天短暂的体验中,AirPods Pro 3 的充电仓不算太抗造,高强度测试、使用一天半后,耳机盒还剩下大约 35% 的电。

实时翻译,好用但没法用

可能由于 Apple 智能一年来乏善可陈的表现,以及同行在 AI 实时翻译上也没拿出比较惊艳的产品,一开始我对 AirPods Pro 3 这个实时翻译的新功能,并没有报以太大期待——直到我们真的用上了这个功能。

初次开启这个功能,会提示你下载好对应的语言翻译包,这也是它好用的秘诀:端侧处理,延迟很低。

在实测过程中,这个 AI 实时翻译功能不会像同类产品一样「流式输出」,也即在对方话还没说完的时候就开始抢着出翻译;而是会先听,把握整体意思再翻译输出,因此能达到大概九成的准确和通顺程度。

这个功能的使用方式也非常丰富:对方说的话不仅会在耳机中给你实时语音翻译,译文也会同步在 iPhone 上呈现。

而如果对方也戴了 AirPods Pro,那就等于两边都自带同传,你说什么对方能直接在耳机中听见,两边都能用自己的语言无缝交流——

好消息是,这不是 AirPods Pro 3 的专属功能,会通过 iOS 26 和耳机最新固件下放给 AirPods Pro 2 和 AirPods 4 上。

好用是好用,但最大的问题是,我们暂时还用不到。

这个功能本质上需要 Apple 智能支持,因此短时间内国行 iPhone 全部无缘,上面我们用来测试的,就是一台非国行的机型。

此外,目前的 iOS 26 版本,实时翻译也暂不支持简体中文,不过苹果官方表示会在今年年底上线。爱范儿在美国苹果发布会现场已经抢先体验到了中文的实时翻译功能,效果同样很好。

AirPods 的下一步

所以,该不该买 AirPods Pro 3?

从我的主观角度来说,AirPods Pro 3 让我有了一个全新发现:降噪这回事,原来也有边际效应。

AirPods Pro 3 的降噪能力,确实是独一档,但其实 AirPods Pro 2 的降噪效果也已经能很好满足我的需求,没有 AirPods Pro 初代升级到二代那么惊艳。

因此,如果你是 AirPods Pro 2 和 Apple Watch 双持用户,我觉得其实不着急换新,除非你对耳机降噪能力有更高的追求,不然的话二代的音质和降噪本身也还是很能打,Apple Watch 也比 AirPods Pro 3 更全能。

我最愿意将 AirPods Pro 3 推荐给没用过 Pro 的用户,以及 AirPods Pro 初代的「钉子户」们。初代已经发布了将近 6 年,电池续航和发声单元都明显老化,闪电接口也已经落后版本,换一个全新的 AirPods Pro 3 正合适,相信在方方面面,特别是降噪上会有很明显的提升。

AirPods Pro 3 虽然不是专门的运动耳机,但它的防水性能和心率监测,让它也能成为一副不错的运动搭子,平时也能当作一副综合素质优秀的降噪耳机使用。

但很明显,苹果现在并不想仅仅打造一款「综合素质优秀的降噪耳机」,AirPods Pro 3 继承了苹果上个十年的健康研究技术积累,又参与到了未来十年甚至更久的 AI 技术落地探索之中。

作为全球卖得最好的无线耳机和可穿戴设备之一,AirPods 的战略地位在 AI 时代愈发重要。在可穿戴 AI 硬件越来越火的当下,苹果通过更新,直接让自己拥有了庞大的 AI 功能用户群体,这也是苹果在 AI 时代的最大优势。

未来的 AirPods 会加入什么?或许是一个摄像头,让耳机也可以看见世界。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


击败 ChatGPT 登顶 App Store!Google 这套 AI 全家桶,个个都是王炸 | 附使用指南

还以为 ChatGPT 会一直稳坐第一?这周却来了个反转。

Google Gemini 凭借最近爆火的 Nano Banana 图像编辑,一举登顶 App Store 免费榜,把 ChatGPT 挤到第二。

▲ Gemini 位于 App Store 免费榜所有类别第一,图片来源:https://apps.apple.com/us/charts/iphone/top-free-apps/36;15/09/2025

这意味着,Google 终于迎来了属于自己的「爆款 AI 时刻」。

而且,Gemini 只是冰山一角。Google 手里还有一整套 AI 工具,从写作、画图,到学习笔记、视频生成,应有尽有。今天就带你开箱 Google 的「AI 全家桶」。

省流版:

  1. Gemini,定位和 ChatGPT 一样的通用助手:包含了 nano banana(近期热门生图模型)、Canvas 画布、Veo3 视频生成、Storybook 故事板、以及 Deep Research 等功能,目前提供 Gemini 2.5 Pro 和 Flash 两个模型。体验地址:gemini.google.com
  2. NotebookLM,能深入研究的知识库:最多可上传 300 个文件,能将文档总结为音频、视频、思维导图等六种类型,是学习和研究的最佳利器。体验地址:notebooklm.google
  3. Flow,高质量的视频生成:支持竖屏 9:16、1080p 高清,价格更低,免费用户每月送 100 积分。体验地址:flow.google
  4. AI Mode,搜索也有了推理和思考能力:在 Google 搜索输入框就能直接开启,获取比 AI Summary/Overview(总结)更严谨和翔实的结果;目前支持英文等五种语言(但目前不包含中文)。体验地址:google.com/ai
  5. Gemini CLI:一个万能的本地助手:不只是开发工具,还能下视频、转 GIF、压缩文件。体验地址:github.com/google-gemini/gemini-cli
  6. AI Studio 和 Labs Google:其他有意思的小工具,生成一段音乐,简单学习一门新的语言,体验最新、最全的 Google 大语言模型……体验地址:ai.devlabs.google

Gemini:不只会聊天,更是全能工作台

近期爆火的 nano banana,最主要的官方渠道除了网页版,就是 Gemini App。

▲ Gemini 首页,有常驻提醒推广 nano banana 图像编辑模型

但如果你只拿 Gemini 来 P 图,那就太浪费了。它和 ChatGPT 一样,补齐了跨对话的「记忆」功能,并能与 Google 生态无缝衔接。

▲ Gemini 的「记忆」功能

对我而言,这个关键更新,加上教育邮箱赠送的 Pro 会员,足以让我将大部分日常对话转移过来。

Google 最近更新了 Gemini 免费和付费用户具体的使用限制。免费用户使用 Gemini 2.5 Pro 和 Deep Research 的次数有限,但是 nano banana 的单价非常便宜,所以免费用户也有慷慨的 100 张生成机会。

Gemini 2.5 Pro 最大的优点是,每个回答都会有像 DeepSeek 一样清晰的推理过程,但是速度要快上不少。这在 ChatGPT 更新到 GPT-5 之后,采用全新的路由控制,自动选择模型,优势更为明显。

因为 ChatGPT 有时候判断不了,我到底希望他使用什么模型来回复;而我的表达,也不是每一次都能清晰地,让模型知道我的意图。

不过,更会聊天的代价是更不会干活,和 LMArena 显示的排行榜一样,文本能力第一,但是网页的开发能力不及 GPT 和 Claude。好在这些天,Google 也是狂给 Gemini 打补丁,在软件交互上,用户体验越来越好。

▲Gemini 和 ChatGPT 完成同一个开发任务,你喜欢哪个

例如,在网页开发方面,Gemini Canvas 现已支持直接点选应用中的某个元素,用自然语言即可进行修改。

Canvas 画布和 ChatGPT 的画布预览是一样的功能,都是非常直观地,把我们的创意,变成应用程序、游戏、信息图表等内容。

▲ Gemini 画布新增功能,选择并询问。现在只需点击元素并描述所需更改,即可直观地编辑您的网页应用的任何部分。图片来源:https://x.com/GeminiApp/status/1965475292526551105

其次,Gemini 终于支持上传音频文件。这意味着,会议录音、采访视频等包含丰富上下文的材料,可以直接交给 Gemini 处理,省去了手动整理和编写复杂提示词的麻烦。

▲ ChatGPT 一直回复无法使用工具

最新消息,根据 flowith 创始人 Derek Nee 和 Gemini 3 工程师团队的交流,他发 X 透露,Gemini 3.0 Flash 的能力将会超过 2.5 Pro。

和 ChatGPT 使用的条件类似,Gemini 对谷歌账号的归属地可能有额外的限制。

🔗 体验地址:gemini.google.com

NotebookLM:你的最佳个人知识库

收藏了一堆英文长文、书摘,结果总是「下次再看」?NotebookLM 就是专门拯救这些吃灰资料的。

你只要把几篇文章、报告甚至书摘丢进去,它就能:

  • 自动帮你提炼要点,生成一份条理清晰的学习笔记;
  • 如果你喜欢可视化,还能直接画成思维导图,让你一眼看懂文章框架;
  • 想进一步学习?它还能基于这些资料出小测验,逼你复习巩固。

举个例子,我之前用它来整理过论文,NotebookLM 最多支持上传 300 个文件,支持的文件类型也很丰富,PDF、txt、Markdown、和音视频文件,它都能识别。

▲ 我将 297 篇同一研究领域的论文上传,NotebookLM 能完全基于这些文件,生成多种形式的内容总结。

▲ 文字报告、播客预览、视频介绍、思维导图、闪卡和小测验六种形式

播客和文字报告,是 NotebookLM 里面最早提供的选项,现在它们也得到了优化。

文字报告可以选择,直接生成为博客、说明文档、指南等类型,甚至 NotebookLM 会根据知识库里面的资料,提供动态建议;例如,上传论文可能会建议创建白皮书,而新闻类文章可能会生成解释性内容;自定义的提示现在也被允许。

▲ NotebookLM 生成的博客文章

而音频播客现在更是支持 80 多种语言,播客类型也从概述到深入,进一步扩展到辩论和批判性思考等多种类型。

新增的视频、Quiz 测验和 Flashcard 闪卡,是我非常喜欢的功能,无论是帮助我消化这些知识,还是做进一步的内容传播,NotebookLM 都非常有用。

但论文的研究终究是比较小众的场景,我们只是借着论文来介绍 NotebookLM 的功能。对于学生和研究者来说,这绝对是 Google AI 里最值得安利的工具之一。

在更普遍的应用场景中,它能胜任任何类型的知识库构建。像是 NotebookLM 官方给出的使用案例,上传了多家公司一季度的财报,我们可以透过思维导图,一次性清晰的了解财报的具体内容。

还有 NotebookLM 与 OpenStax(免费教科书提供平台) 合作,将它们受欢迎的内容,转化成交互式笔记本,包括生物学、化学、心理学、以及管理学等主题笔记本。

在这个心理学知识库中,每一章节都配有小测验和记忆卡片,帮助我们巩固所学知识点。

▲ 语言是可以选择中文,知识库链接:https://notebooklm.google.com/notebook/90a2ee5f-cccb-4c28-a356-bb1682cc8aeb

小测验和闪卡的主题、难度都是可自定义的。而且,无论是闪卡还是测验,只需点击解释,就能深入探索当前的话题;NotebookLM 会生成详细的概述,帮助我们理解闪卡定义,或解释为什么答错某道题,并附有引用指向原始资料。

🔗 体验地址:notebooklm.google

Flow 电影级 AI 视频生成

AI 视频热度虽高,但能用它做什么?始终是许多人心中的疑问。我们介绍过多个 AI 视频生成模型,不少读者也曾留言:这种 AI 视频,究竟是给谁看的?

▲ 在 Gemini 里面,直接使用 Veo 3 视频生成,Veo 3 目前仅支持首帧,首尾帧需要 Veo 2。

Google 的更新或许给出了部分答案:支持竖屏(9:16)和 1080p 高清。这无疑是为抖音、YouTube Shorts、Reels 等短视频社交媒体平台量身定做。

▲ Veo 3 近期更新,Veo 3 Fast 从 0.4 美元每秒降价到 0.15 美元每秒,以及支持 9:16、1080p 等。图片来源:https://x.com/GoogleAIStudio/status/1965436154762920074

如今 AI 视频已成为一种新的内容消费品,与其被动观看,不如亲自上手一试。

▲ 提示词:Ultra-realistic cinematic video of Shanghai, famous landmark Tower. Shot in vertical 9:16 format, travel vlog style, smooth camera motion, dynamic lighting, vivid colors, highly detailed, immersive atmosphere, no text, no watermark.

除了 Sora、可灵、海螺这些比较热门的视频生成模型,Google 的 Veo 3 一直在大模型竞技场,文生视频类别下,名列前茅。

前些时间爆火的第一视角穿越、ASMR 切水果,金属、兔子蹦床的夜视监控等视频,都是使用 Veo 3 生成的。

▲ 提示词:50mm camera, close-up angle of a lemon made out of yellow-tinted glass being sliced horizontally on a wooden cutting board. The inside of the fruit is glass as well with a little bit of melting glitter. The entire scene is soft lit from the above.

不过,提示词的优劣,是决定视频质量的关键瓶颈。例如上面这个视频,我们就是直接借鉴了 Google 的官方案例。

他们解释,好的提示词,包括三个部分,首先是「50mm 相机、特写镜头」指定了相机;接着中间一大段用来提示对象和具体的视频内容;最后一句话是进一步明确灯光和纹理。

Flow 对网络要求比较严格,一般在 Gemini 网页或者 App 内使用同样足够。

🔗 体验地址:flow.google

AI Mode 支持除英文外更多语言

搜索是最大的流量入口,因此 AI 浏览器成了大模型厂商的必争之地,尽管这条路并不好走。

Arc 项目宣布停止后,重启的 Dia 浏览器也在前几天,被 Atlassian 以 6.1 亿美元收购。路不好走的原因倒不是因为没有利益,而是太多巨头想要吞下这块香饽饽了。

微软在上个月宣布自己的 Edge 升级为 AI 浏览器,Copilot 无缝接入到浏览器的每个角落,预订餐厅和机票、跨越标签页的整理总结等等。OpenAI 在之前推出 ChatGPT agent 时,也被爆料要做自己的 AI 浏览器。

Google 当然也不会停下脚步,和我们平时用 Google 搜索时看到的 AI Overview 不一样,AI Mode 更像是一份深度研究报告,它会利用 Gemini 2.5 的高级推理和多模态能力,来处理我们的查询输入。

例如当我问他 iPhone Air 的 esim 卡到底是怎么回事时,它会自动根据网页内容进行整理,给出更准确的答案。

▲ 点击上方 All,则可以切换回普通的 Google 搜索

不过 AI Mode 有一个缺点,是目前它还不支持中文。但前几天,Google 已经宣布支持日语、韩语、以及葡萄牙语等五种语言。他们提到构建一个全球化的 AI 搜索不仅仅是翻译,所支持的语言,应该具有本地相关性和实用性。

🔗 体验地址:google.com/ai

Gemini CLI 下载视频,转文件格式,统统交给它

Claude Code 断供完全没关系,Gemini CLI 是真的好用。

之前我们说用这种终端工具来修改文件名,其实是最「弱」的用法了。我最近 X 视频、YouTube 等视频下载;视频转 GIF 以及各种格式转换;图片压缩、视频压缩,全部交给 Gemini CLI。

Gemini CLI 的安装流程相当清晰,即便遇到环境配置问题,如今的 AI 也能提供可靠的解决方案。

前期的麻烦点主要集中在安装 Node.js 上,对 Windows 用户来说,终端使用没有 macOS 和 Linux 友好,所以是需要一点耐心的。

Node.js 安装完成之后,按照 GitHub 上指引,运行 npm/npx 命令就可以安装 Gemini CLI 了。

在终端里面输入 gemini,会提示我们进行验证,一般登录 Google 验证就可以,不需要去额外创建 Gemini API 之类的操作。免费用户每分钟有 60 次请求,每天 1000 次请求,应付日常的简单工作流是足够的。

终端里面有一些非常基础的命令,因为我们打开终端的时候,默认的文件夹是可能是整个电脑的文件,如果直接输入 gemini,它检索文件会比较麻烦。

正确的操作是,一些基础命令输入 ls:会列出当前目录下的所有文件和文件夹;cd xxx:进入某个文件夹;mkdir xxx:创建一个文件夹。

▲ 例如第一步我们打开终端,输入 ls,可以看到当前目录下所有的文件和文件夹;接着我们选择一个文件用来处理,此次需要 Gemini 的项目文件夹。输入 cd Downloads,可以看到 % 前面有当前目录 Downloads 的名字。接下来,我们创建一个文件夹,mkdir testing,然后再进入这个目录,cd testing。当然也可以直接选择一个文件夹,鼠标右键,在终端中打开。输入 gemini,它就正式接管了我们的终端,我们接下来就能用自然语言,处理许多复杂的任务了。

▲ 拿下载一个 X 的视频举例,首先它会搜索,找到一个 yt-dlp 的工具,可以用来下载视频;接着,它会自动检查我的电脑,是否有安装这个工具。检测到有安装之后,视频就开始下载了。

这是调用了 yt-dlp 工具,而在终端环境里面,还有非常多高效的工具,例如 FFmpeg,它是一款处理多媒体内容的强大工具。

▲ 输入指令后,Gemini CLI 会直接说它需要 yt-dlp 和 ffmpeg 这两个工具;然后会自动调整分辨率和帧率,以符合我提出的最终文件大小,最后它会删除过程中的临时文件。

我们继续用 X 视频举例子,这次直接要求他把这个链接的视频下载为一个 GIF 文件,并且确保 GIF 文件的大小在 5-10 MB 之间。

除了从网络上下载文件,Gemini-CLI 也可以直接处理本地文件,例如我有一张图片的大小,不符合平台上传规范,我告诉它文件名,然后要求它压缩,过程中完全不需要去找任何的在线工具。

▲ 可以用模糊语言指定图片位置,顺利定位到图片,它会使用 ffmpeg 工具来进行压缩。不过最后它把我的原文件删掉了,当我告诉他要求找回时,它会修改自己的 gemini.md 配置文件——这相当于它的「记忆」,它会记住这次教训,确保未来不再犯同样错误。

命令行工具的种类丰富,几乎大部分的文件都能处理,甚至有时候遇到一些压缩包不能解压,直接让 Gemini CLI 来处理,而不需要额外去下载对应的解压工具。

再结合 MCP(大模型上下文协议,连接不同数据的万能接口),Gemini CLI 能做的远远不止是编程开发。

🔗 体验地址:https://github.com/google-gemini/gemini-cli

AI Studio 和 Labs Google:谷歌前沿 AI 试验场

Google Labs 汇集了许多尚未正式发布的 AI 黑科技产品,像 AI Mode、NotebookLM 目前都还是实验室产品,不过他们名声比较大。我们也选择了几个有意思的小项目,虽然背后的模型都是同一个 Gemin 2.5 Pro/Flash,但是可以看看模型之上,不同的软件形态。

首先就是 Whisk,这个主打不需要提示词,上传照片尽情玩耍的图片生成工具,现在还新增了 animate 动画的功能,直接将生成的图片转成一段视频。

还有学习一门语言的 Little Language Lessons,它特别的地方,是让我们快速在 Gemini 构建的一系列小实验里面,学习一门新的语言,直接在现实场景中应用,还能学习各种俚语表达。

我拿粤语试了一下,至少不是多邻国里面,来来回回的肠粉和豉汁排骨了。

Google 实验室还有非常多的项目,体验地址:labs.google

讲了通用大模型 Gemini 2.5 Pro、图像编辑 nano banana、视频生成 Veo 3,怎么可以没有 Imagen 4。

Imagen 4 官方渠道目前是只能透过 Gemini API 和 AI Studio 两种方式体验,即便 Google Labs 里面有专门生图的工具,ImageFX,但是使用的模型依旧是 Imagen 3。

AI Studio 能做的,就是体验到 Google 最新最全的各种模型。而且,在 AI Studio 里面的对话,提供了「分支」功能,我们可以保留现有对话的前提下,开启另一个新的话题。

▲ 地址:ai.studio / ai.dev

前段时间,马斯克还在 X 上和奥特曼互撕,直接开骂,Apple 和奥特曼有私下交易,不然他的 Grok 怎么登顶不了排行榜第一,凭什么一直都是 ChatGPT。

这一番开箱下来,似乎能看到一点 Gemini「凭什么」的端倪。Google AI 几乎是用一套完整的工作流,无缝融入我们的学习、工作和创作之中。从整理资料到激发创意,再到解放双手,这套全家桶的核心,是希望实实在在地提升每个人的生产力。

你最常用或最想尝试的是哪一个?有什么问题可以在下面留言。

视频请点击链接,前往微信播放预览 https://mp.weixin.qq.com/s/gdSkrm95Mq1RORe-sIoK4A

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


史上最大屏最长续航 Apple Watch 来了,还能测高血压风险

刚刚,苹果一口气更新了三款 Apple Watch:

  • Apple Watch Series 11
  • Apple Watch Ultra 3
  • Apple Watch SE 3

最大的好消息是:三个款式全部支持 5G 了!移动、电信、联通三大运营商,均首发支持。

先来看 Apple Watch Series 11:沿用了去年 Series 10 的尺寸和外观,屏幕玻璃升级了新款陶瓷涂层,抗刮能力对比上代提升一倍。

Series 11 的全新健康功能,聚焦在心脏和睡眠两个维度。

世上有 1.3 亿人饱受高血压困扰,这个慢性病很难被发现,大部分人并不会有意识去定期专门进行血压检测。

为了解决这个问题,今年的 Apple Watch 新功能则是「高血压趋势」。

Apple Watch Series 11 不会测量精确的收缩压和舒张压,但通过分析血管对心跳的反应,来检测慢性高血压。后台分析 30 天数据,一旦识别到高血压症兆就会提醒用户,促使用户获得及时的专业医疗支持和改善生活习惯。

睡眠方面,Apple Watch Series 11 推出「睡眠评分」功能,通过对用户睡眠结构的分析,将用户的睡眠质量进一步具像化。

Apple Watch Ultra 3 的机身尺寸不变,但屏幕边框更细,稳坐 Apple Watch 最大屏幕。

Apple Watch Series 10 上采用的广视角 OLED 屏幕,现在也来到了 Apple Watch Ultra 3 上,在倾斜角度看屏幕亮度更高。全新的 LTPO 3 技术,让 Ultra 3 现在能显示每秒跳动的表盘。

Apple Watch Ultra 3 的通信能力得到了进一步提升,除了 5G,还支持卫星通信,进一步增强了这款手机的户外能力。

Apple Watch Ultra 3 也成为了有史以来续航最长的 Apple Watch:42 小时,低功耗模式下,可提供长达 72 小时的电池续航时间。

家族中的小弟 Apple Watch SE 也迎来了第三代更新。

由于搭载了 S10 处理器,Apple Watch SE 3 获得了大量新的功能,例如全天候显示屏,以及双指互点和轻翻手腕手表交互。

健康能力上,Apple Watch 支持了全新的手腕温度传感功能,进一步补充了生命体征的数据,以及女性健康的排卵预测。

去年更新的「睡眠呼吸暂停」功能,以及 S11 同款的「睡眠评分」也来到了 Apple Watch SE3 上。

三款 Apple Watch 的起售价如下:

  • Apple Watch Series 11: 399 美元
  • Apple Watch Ultra 3: 799 美元
  • Apple Watch SE 3: 249 美元

你最关心这三款 Apple Watch 的哪些方面?评论区留言,爱范儿将在 Apple Park 第一时间为你上手测试。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


苹果发布新款 AirPods Pro 3,支持心率监测和锻炼追踪

在刚刚的秋季发布会上,苹果正式发布了 AirPods Pro 3 耳机。

而且值得一提的是,它还是发布会的第一个新产品——爱范儿在现场,看到 AirPods Pro 3 带头出场时,全场都发出了「喔」的声音……

AirPods Pro 3 的核心更新,并非音质和降噪,而是两个功能:一个对于现在的耳机很重要,另一个则让人有点诧异,居然出现在耳机上。

先看后者:心率检测——这可是无线耳机上很少见的功能。

只要佩戴 AirPods Pro 3,就能实时在 iPhone 的健康应用中查看自己的心率变化。

并且,在健身和健康方面有不少技术积累的苹果,让 AirPods Pro 3 能够通过持续监测用户的心率,推算用户锻炼过程中的热量消耗。

以后,只要戴着 AirPods Pro 3,就能追踪 50 种不同的锻炼模式,还能参加苹果的健身锻炼圆环挑战——不一定非要买一支 Apple Watch,也可以加入朋友、同事、家人的社交健身竞赛。

为了让 AirPods Pro 3 更好成为一款「运动耳机」,苹果也提升了防水等级,AirPods Pro 3 成为首款抗汗水性能达到 IP57 的 AirPods。

除了心率监测和健身,AirPods Pro 3 还有一个新功能:AI 实时翻译,能够能实现面对面交流时的语言翻译。

用户双手同时捏合 AirPods Pro 3 即可启动这个功能,需要和 iPhone 配合使用,它不是逐字翻译,而是将每个短语准确表述。用户可以 iPhone 可以展示翻译的文字和语音。

如果对方也戴着 AirPods,那翻译的语音会直接同步对方的耳机之中,等于双方都自带一个同传。

音质方面,AirPods Pro 3 搭载定制的多孔声学架构,低音更强,还拓宽了音场,听歌看剧电话人声都更清晰。

由于采用了全新的泡沫填充耳塞,AirPods Pro 3 的降噪能力又翻了一倍,通透模式也有所增强,用户自己和他人的声音都更加自然。

AirPods Pro 3 的设计也有所改变,两只耳机的大小都更小,以贴合更多耳朵。

电池续航也是影响无线耳机体验的重要因素,开启降噪下 AirPods Pro 3 支持佩戴 8 小时,比上一代多出 2 小时,加上充电盒能使用 24 小时。

售价方面,AirPods Pro 3 保持 249 美元。

你最关心 AirPods Pro 3 的哪些方面?评论区留言,爱范儿将在 Apple Park 第一时间为你上手测试。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


全网都在玩的生图模型,我用它把 iPhone 17 提前发布了

最近,朋友圈和抖音小红书几乎被 Nano Banana 刷屏了。这个香蕉模型似乎要让 P 图这个词消失,直接给 Gemini 带来了一千万的新用户,火得一塌糊涂。

各路大神的邪修玩法铺天盖地,什么 3D 手办、大佬合影都是基操了。虽然 Nano Banana 强得不行,但在留言区依然收到不少用户的疑问和需求。

首先使用门槛就拦住了不少人,甚至比在国内用 ChatGPT 还麻烦一些。在图片编辑过程,最多人反馈的是 Nano Banana 图片分辨率不够高,以及比例高度不可控。

说实在,我也感觉自己有点吹毛求疵,但没想到,这些需求真的有人听了进去,并且做了出来,而且还是咱们国产厂商。

刚刚,火山引擎正式上线豆包・图像创作模型 Seedream 4.0。

除了具备「超强主体一致性、多图灵活创作、连续生图」等核心能力,Seedream 4.0 还有一个 Nano Banana 也没有的功能——支持最高 4K 高清图片输出

这也是首个最高支持 4K 多模态生图的模型,目前企业用户已经可以通过火山方舟抢先体验了。

个人用户也不用眼馋,4K 版将于今晚 20:00 首次开放给个人用户,搜索「火山方舟体验中心」,即可第一时间体验。

Seedream 4.0 同时也在豆包、即梦全量上线,最高支持 2K 输出。

实际表现如何需要拉出来溜溜。APPSO 提前拿到内测体验了几天,给它上点比 Nano Banana 更大的强度。

实测完后我发现,虽然也不能算完美,但国产生图确实来到了一个新的阶段。

 

我替苹果把 iPhone 17 Air 提前发布了

今晚就是苹果秋季发布会了,不用熬夜看直播,APPSO 先把帮苹果把 iPhone 17 给上线了

我们用 Seedream4.0 生成了两款今年大火的 iPhone 17 Air 产品页面,这可是今年最受关注的超薄旗舰。

参考 iPhone 16Pro 的官网页面,替换手机和相关文案,保证果味十足

这个构图似乎有些古板,调整一下小字 ,再加上 Just 5.5mm thin 这个最大的亮点。可以看到 Seedream4.0 生成的这版 iPhone 17 Air 将手握机身的倾角,刚好和字母 A 右边平行,有点资深设计师的审美了。

这次,我们不让库克来发布产品,有请特斯拉人形机器人来客串一把。还是熟悉的场景,熟悉的 Good Morning(doge)。

这组图用到了三张参考图,人形机器人、iPhone 17 Air ,以及库克的现场图,Seedream4.0 一致性确实有点东西。

其实这里还有个逆天的细节容易被忽略,注意看观察生成图机器人头盔上的反射细节,原图是漆黑一片的,也就说, Seedream 4.0 根据图 3 的蓝天白云和建筑物背景,推理出机器人应该有的反射,真的太细了。

不妨再脑洞大开一点,据称 iPhone 17 Air 就是为了明年折叠屏手机做准备。APPSO 用 Seedream4.0 也提前让大家看看 iPhone 首款折叠手机的「实拍图」。

眼尖的读者可能已经发觉,是不是跟华为新款的三折叠有点像,没错我用了它作为参考图,替换了上苹果的摄像头和logo,无论是构图、背景和水印的细节都完整保留了。

那干脆整一部苹果的三折叠,其实也没有人知道那一夜,苹果和华为究竟发生了什么。

如果是「乔布斯」,他会怎么发布这款产品,我们请 AI 老乔限时返场。

熟悉的身影,穿透屏幕的气场,让我们再次高呼「Amazing」。

好玩之外,还真能用

Nano Banana 能走红,除了社交媒体的爆款玩法,更在于它的技术能「看得见未来」。无论是一致性、局部修改、换色还是多图结合,都是能够直接用在电商、营销、社交媒体等等场景里。

无论技术有多亮眼,如果不能应用到生产力场景,也只是玩具。

下面我们看看 Seeddream 4.0 在一些实用场景能不能打。

我们先拿这两天刷屏的红月亮,融合到球鞋设计中。

我还想看看这款球鞋不同角度的展示,只需输入类似「生成一只白色运动鞋,展示正面、侧面和俯视视角」的提示词,不管是用于打样还是用于设计草图,都直接一步到位。


如果我还想找一个模特用不同姿势展示商品呢?找不到合适的参考照片也没关系,直接画个火柴人简笔画就行。

Seeddream 4.0 基于手绘图能有效控制模特姿势的一致性,同时实现角度的合理变化,在多角度呈现上表现精准。

像下面这个案例,我在提示词里面没有指定两个人的站位,所以在它生成的 4 张照片里面,两种站位都有,而且效果都很好,它像一个周到的乙方,如果你需求没有很明确,那就把可能的情况都考虑到并把成品给你挑选。

▲ 提示词:将图1男子和图2女子合进一张画面,参考图3姿势

如果说拥抱这种动作太简单了,我们直接来一个举高高的动作,这次再指定多一张背景图片。

▲ 提示词:将图3和图1合进一张画面,参考图2姿势,图1是被举起来的那个小孩;同时背景使用图4。图四的背景是来自浪浪山,两个角色是罗小黑和他的师傅。

四个人的参考图,Seedream 4.0 同样可以很好的处理,保持和简笔画的姿势一致。

▲ 提示词:把图一的四个角色(西游记里面的师徒四人,沙僧、唐僧、猪八戒、孙悟空)按照图二的姿势(叠罗汉)排布,沙僧、孙悟空和猪八戒在下面,唐僧在上面。

如果还想给模特更换妆造,我们发现 Seeddream 4.0 也能准确把握不同发型的特质:长直发的柔顺、盘发的干练以及卷发的弧度,全部都清晰呈现。

同时,背景与人体保持高度一致,未出现边缘模糊或形变问题,成功实现了在保留主体特征的基础上对妆发风格的精准转换——省了多少模特妆造费用。

最让我惊喜的要数线稿生成,线稿通常为简洁的线条勾勒,仅包含物体基本轮廓与结构,缺乏细节、色彩及质感。在草图转渲染功能上,Seeddream 4.0 能将简单线稿转化为高质量成品图。

不仅精准填充丰富色彩,使物体视觉层次分明,还有细腻的光影处理与材质模拟,比如包包的皮质纹理、金属配件光泽等。

它对于「高质量渲染图」的理解,可谓是逆天,除了静物,还搭配了人像、场景,你没想到的,它都替你想到了。

讲真,Seeddream 4.0 这次更新后,对真实质感的处理完全超出我的预期。

像皮具、金属的纹理表现已经很稳了,但当我看到它生成人的皮肤纹路时,还是被秀到了。

这个皮肤纹理、隐约可见的青筋,甚至是手腕上自然的汗毛感,还有光线打在皮肤上的通透效果……所有细节都拿捏得非常到位,组合在一起就一个字:真。

而这组图的原始参考图是什么呢——

仅此而已。

细节还原仿佛真实拍摄,完美实现了真实世界照片拟合的需求。这都意味着模型能够适度的「创作」,在参考图和提示词给定的范围内,给出合理的发挥。

这种创作能力可以用在更有趣的玩法上,比如只需要一个矢量图,就可以给 APPSO 生成一整套完整的周边设计。

▲ 提示词:参考这个LOGO,做一套品牌视觉设计,品牌名称为 APPSO,包括包装袋、帽子、纸盒、卡片、手环、挂绳等。红色视觉主色调,趣味、简约现代风格

Seeddream 4.0 的「创作」能力和直接生成样品的玩法,极大地降低了制作成本。而且效果相当不错,模型捕捉到了「有趣味、简约现代」的核心风格,将品牌 LOGO 巧妙地应用在手机壳、卡套、挂绳和帽子上。

还有一点好评的是,Seeddream 4.0 支持最高 4K 分辨率的输出,而 2K 分辨率直出只需要几秒,能在电商等一些场景做到专业级输出,有更大的后期空间。

更多邪修玩法

除此之外,APPSO 还发现了一些有趣的邪修玩法,也跟大家分享。

最基本的桌面手办,当然是不在话下,我们试试让人物自己,拿着本人的手办。

▲ 图片来源:https://x.com/oden_ai_ai/status/1957414144417910924/photo/1

▲ 提示词:将这张照片制作成一个角色模型。其后放置一个印有该角色图像的盒子,以及一台屏幕显示 Blender 建模过程的电脑。在盒子前方添加一个圆形塑料底座,角色模型手办站立在上面。并尽可能设置为室内场景。

▲ 提示词:照片级真实感。 然后照片中的人拿着一个手办模型,这个模型是根据这张照片的主体人物,制作而成的一个角色模型,在自己的房间里,很满意的微笑。房间里的电脑桌上,有一台屏幕显示 blender 建模该模型过程的电脑,同时有一个印有该角色图像的包装盒子,以及盒子前方有一个圆形塑料底座。

不仅拿在手里,还能挂在包上,照片的真实感和一致性保持都非常厉害。

▲ 提示词:照片级真实感。 先将这张照片变成一个可爱挂件/亚克力材质的扁平钥匙扣/橡胶材质的扁平钥匙扣,挂在 lv 包包/图二照片的包包上,然后她自己再背着这个有自己同一个角色挂件的包。

除了做手办,我们还拿它来生成了一些摄影风格极强,但是又保持真实的照片。你的人生照片摄影师,可能会是Seedream 4.0 。

除了强大的一致性和多图编辑能力,Seedream 4.0 还带来了丰富的世界知识能力,生图模型也能推理预测,深度理解我们的提示词和图片,其背后的意图。

例如我们上传了一张杯子即将要掉在地上的图片,然后输入提示词「下一秒这个画面应该是怎么样的?」

杯子掉在了地上,同时能看到倒在地上的水,反射了部分杯子,和窗户的光。

Seedream 4.0 除了知道一秒后会发生的事情,我们还能利用它的推理能力,整理自己的房间。

▲ 提示词:把沙发上的被子和衣服都叠好

除了能把衣服整整齐齐地叠好,弄得满是颜料的地板,Seedream 也能在打扫干净的同时,保持图片内现有元素的一致性。

▲ 提示词:把这些颜料都收起来,地板擦干净(虽然这好像是个桌面)

借助它的推理能力,还有一个更骚的玩法。

下面这个案例里,上传的参考是模特图,让Seedream 4.0 把模特衣服的细节展示出来,模型接到的指令是细节图——这当中的距离,就要靠模型自己去「想明白」。

从结果来看相当不错,不仅版型准确,对于局部细节展示这一指令跟随也没有问题。几乎可以直接上架了。

生成表情包,Seedream 4.0 也是一把好手

参考网友 @op7418 的提示词,我们也跑出了好几版关于 AI 模型的表情包,一次可能不成功,那就多抽几次卡就好,好在生成速度也够快。

▲ 提示词:帮我将角色变成类似图 1 的白色轮廓贴纸,并添加一个俏皮白色轮廓短语「XXXX」。

 

▲ 图一(左)来自@fenxxxx,图二(右)

你或许看过《千里江山图》这幅传世名作,但你或许还遗漏了亿点点细节。

同理可得,谁说《步辇图》里没有呆萌的 Labubu,以及在《韩熙载夜宴图》的宴席中,突然出现一只从现代穿越过来的网红柴犬 Kabosu,我也觉得毫无违和感,

不只是生图神器,还是创意生产力平台

体验下来,如果用一个词来形容 Seedream 4.0,那必须是「六边形战士」。它像一个全能的创意总监 + 高效的制作团队,让你能快速得到想要的结果,同时对创作流程有更强的掌控感。

快,是第一体感。

基于 DiT-MoE 架构,Seedream 4.0 的计算效率比上一代猛增了 10 倍以上,最快 1.8 秒就能生成一张 2K 高清大图。这种「秒级」响应,意味着极低的试错成本。

稳,则是生产力基石。

Seedream 4.0 的超强主体一致性能力,让你无论是想给角色换个场景、换个画风,还是调整姿势视角,都能高度保持原有特征,避免了「画风突变」的尴尬 。

对于很多电商和品牌设计师来说,AI 不再是给一张海报换个颜色,而是能参考一个 Logo,一键生成全套品牌视觉设计,从包装袋到手环,风格高度统一 。

品牌规范开始从一本厚重的 VI 手册,变成一行行可执行的 prompt。

作为我们这样的内容创作者,它能让你参考一个角色设定,批量生成漫画分镜或故事绘本,极大地提升内容连载的效率和一致。

提示词灵感来自@阿真Irene

而且在 Nano Banana 出来之后,已经不少人基于它开发出了轻量级的小游戏或实用工具,我们看到了这类工具让更多中小开发者把创意快速变成产品,而且获得用户认可的可能性。

这几天 Seedream 4.0 已经开始刷屏社交媒体。热闹之外,我们也看到,Seedream 4.0 已经不满足于当一个新奇的玩具,而是要成为一个可规模化、可商用的创意生产力平台

文|李超凡、莫崇宇、刘娅、张子豪

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


一个能让 iPhone 用上 AI 的配件,1300 万人围观,但我觉得大可不必

如果把当下最让人迷惑的科技产品拉个清单,AI 硬件网红们绝对榜上有名。

从 699 美元的 Humane Ai Pin 到 200 美元的 Rabbit R1,这些 AI 创业公司都在兜售同一个美丽的谎言:你需要专门的硬件才能体验真正的 AI。

今天,这个名单上又多了一个新成员——AI Key。

这是一款定位于「AI 助手」的外接硬件,厂商宣传它可随插随拔,通过 iPhone 的 USB 接口连接后,能够帮助你动动嘴操作手机上的应用和功能,从消息、地图到拍照、社交软件,几乎覆盖常见任务。

类似于手机 Agent,它的用法也并不复杂。

只需提出你的需求,确认它调用的应用,接着设备会自动模拟点击、滑动和输入操作。用户既可以盯着它执行,也可以完全交给它处理,并在需要时随时中止或修改。

值得注意的是,虽然苹果提供了如「快捷指令」这类系统级自动化工具,但第三方应用无法深度调用或控制其他应用的行为,这也解释了为什么市场上会出现这类试图填补空白的外接硬件。

外观小巧的它拥有三种配色:午夜黑、蛋奶白和达维粉,售价 89 美元,厂商承诺圣诞节前全球发货。创始人 Adam Cohen Hillel 在 X 平台表示,首批产品在短短 7 小时内几乎售罄。

AI key 的火爆并不令人意外,只是,问题也随之而来,为了把手机变成「AI 手机」,你真的需要额外插一个外设吗?基于此,我们还可以延伸出更深层的问题——我们真的需要为了 AI 而专门创造 AI 硬件吗?

AI 硬件卷生卷死,但手机形态稳坐 C 位

尽管苹果高级副总裁埃迪·库多次强调,未来十年内 iPhone 可能被淘汰,但不可否认的是,当下最好的 AI 硬件形态依旧是手机。

你口袋里的 iPhone 16 Pro 搭载第二代 3 纳米制程芯片,能访问 ChatGPT、Claude、Gemini、DeepSeek 等人类历史上最强大的 AI 模型。而即便抛却云端大模型的加持,手机厂商们也纷纷在端侧模型上大作文章。

哪怕是被诟病在 AI 赛道掉队的苹果,最近也在 Hugging Face 上发布了 FastVLM 和 MobileCLIP2。

这些模型比以往版本快 85 倍、体积缩小 3.4 倍,让实时视觉语言模型(VLM)应用成为可能,甚至还能在浏览器里完全本地运行,实现实时视频字幕生成。

更不用说前阵子发布的 Google Pixel 10 系列手机,堪称买 AI 送手机,它不仅能本地运行 Gemini Nano 模型,还搭载了 Camera Coach 与 Auto Best Take 等功能,能够实时分析拍摄场景、光线与人物动作,自动优化照片甚至给出拍摄建议。

之所以能做到这一点,原因很简单:硬件素质摆在那里。

如果回首第一波涌现 AI 硬件的浪潮,Humane Ai Pin 和 Rabbit R1,均以颠覆者的姿态出现,试图通过「无屏/少屏」的理念,重塑个人计算的未来 。

前者 Ai Pin 由前苹果高管打造,秉承着「让技术成为你的仆人,而非你的主人」使命 。后者的 R1 则以其大胆的橙色设计和「大型动作模型」概念,承诺通过 AI 替用户完成复杂的应用内任务 。

然而,Humane Ai Pin 想要替代手机,却面临严重的过热和续航问题,最后卖身惠普。

而 Rabbit R1 同样高开低走,发货初期,其 USB-C 接口对充电线极为挑剔,仅能兼容部分线缆,且电池续航极短,仅 1000 毫安时的电池容量,不仅是质量问题,更反映出初创公司在供应链和品控上的经验不足。

Reddit 论坛上一则评论甚至提到,R1 团队「意外订购了错误的内存部件」 ,这一小插曲生动地揭示了硬件初创公司在供应链管理上所面临的混乱与脆弱性。

当初创公司在成本控制和供应链采购上无奈妥协,也就更容易导致了一个恶性循环:低端硬件无法提供流畅体验,用户差评导致口碑崩盘,反过来影响销售,使得公司难以通过规模化生产来降低成本,最终陷入财务困境,甚至破产。

倒也不是说像 R1 和 Ai Pin 没有价值,只是,它们的意义可能更多体现在 AI 交互模式的探索上。

它们所倡导的理念——主动代理、环境语音命令、统一的任务界面——是强大的。但这些概念不会在一个独立的盒子里茁壮成长,而是会被主导平台吸收,变成 iOS、Android 等系统的原生能力。

Rabbit R1 的滚轮、Humane Ai Pin 的投影、AI Key 的「钥匙」形态,这些看似奇怪的设计选择,实际上是在测试不同的交互假设,为行业排除错误选项。

我并不反对创新,也不认为所有的 AI 硬件创业都是无意义的。但我们需要诚实地面对一个现实:在手机已经如此强大的今天,任何试图通过外接配件来「增强」手机 AI 能力的产品,都面临着巨大的用户体验挑战。

真正的机会可能在别处:要么做手机永远做不到的事情,要么等待一个全新的计算平台出现。而不是给 iPhone 插个插件,然后告诉用户:看,这就是未来。

功能还是属性?我们对 AI 的根本误解

一个隐藏在 AI 硬件争论背后的技术哲学是,你到底把 AI 当作一个「功能」,还是当作一种「属性」。

功能是离散的、可分割的,需要专门的承载物。而属性是渗透性的、无处不在的,它改变的是整个系统的运作方式。

当 AI 作为功能,这种思路是把 AI 单独拎出来,打包成一个卖点。

比如聊天机器人、翻译器,或者 Rabbit R1 的 LAM、Humane Ai Pin 的激光投影。它们的逻辑是:先有了 AI 技术,再找个硬件来装进去。当用户要用,就得专门打开、专门交互。

问题在于,大部分「功能」在手机里早已存在,还做得更好,所以新硬件看起来像个「中间商」,缺乏真正的护城河。

另一种思路是把 AI 融进现有生态,让它成为系统自带的「属性」。

苹果的 Apple Intelligence 就是例子:优先通知、邮件摘要、照片清理、Siri 强化,都在原有体验里用 AI 长出来。Google 把 Gemini Nano 下放到本地设备,也是类似逻辑。

用户甚至感觉不到 AI 的存在,但效率和体验却被整体提升。

汽车诞生之初,被理所当然地称为「无马的马车 」。人们的想象力局限于替代马匹,关注点在于它能否跑得像马一样快,会不会惊扰到路旁的牛群。

没有人能预见到,这个「铁皮怪物」将催生出高速公路网、现代物流、郊区文化,并彻底改变城市的形态和人们的生活半径。今天,我们对 AI 硬件的想象力,或许也同样被困在狭窄的框架里。

于是,当人工智能这个「新物种」出现时,我们的第一反应几乎是条件反射式的:它也需要一台「专属设备」。一个「AI 盒子」、「AI 终端」,或者至少,是一台「AI PC」。

这种想法,就像一个原始人第一次看到火,不是思考如何利用火的能量去烹饪、取暖、冶炼,而是琢磨着必须制造一根「火棍」,才能将火焰握在手中。

早在 1998 年,Eli Zelkha 和他的团队提出了「环境智能」这一概念,指的是一种能够「感知人类存在并做出响应」的智能环境系统。这些环境通过嵌入式设备(如传感器、执行器、AI 模块)实现与用户的无感交互,试图将技术融入生活而不是成为负担。

而真正理解 AI 的公司不会试图刻意创造「AI 设备」,而会让所有设备都变得 AI 化。

一个成熟的技术,不会终日将名字挂在嘴边。正如我们今天通常不会刻意说「电力台灯」或「互联网电脑哦」,因为电力和网络连接早已是这些设备的底层能力,是理所当然的存在。

同样,当 AI 真正普及时,它也会从一个被反复强调的「卖点」,下沉为所有智能设备的基础设施。

届时,你的汽车、冰箱、眼镜、甚至衣服,都将拥有不同形式的智能,它们彼此连接,协同运作,共同构成你的个人「环境智能」系统。

而当我们不再谈论 AI 硬件的那一天,才是 AI 无处不在的开始。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


GPT-4o 见 AV 女优的次数比「您好」还多 2.6 倍,AI 正在被中文互联网疯狂污染?

好家伙,我直呼好家伙。

号称「赛博白月光」的 GPT-4o,在它的知识体系里,对日本女优「波多野结衣」的熟悉程度,竟然比中文日常问候语「您好」还要高出 2.6 倍。

这可不是我瞎编的。一篇来自清华、蚂蚁和南洋理工的最新研究直接揭了老底:我们天天在用的大语言模型,有一个算一个,都存在不同程度的数据污染。

▲ 论文:从模型 Token 列表推测大语言模型的中文训练数据污染(🔗 https://arxiv.org/abs/2508.17771)

论文中把这些污染数据定义为 「污染中文词元」(Polluted Chinese Tokens,简称 PoC Tokens)。它们大多指向色情、网络赌博等灰色地带,像病毒一样寄生在 AI 的词汇库深处。

这些中文污染词元的存在,不仅对 AI 来说是一种隐患,更是直接影响到我们的日常体验,被迫接受 AI 各种各样的胡言乱语。

▲ 要求 ChatGPT 重复「给主人留下些什么吧」,ChatGPT 根本不知道在回答什么。

中文互联网的色情赌博信息,怎么「污染」AI

我们可能都曾遇到过这样的情况:

  • 想让 ChatGPT 推荐几部经典电影、相关的论文等,它突然回了一堆奇怪的乱码网站名、打不开的链接、或者根本不存在的论文。
  • 输入一个看似普通的词语,比如「大神推荐」之类的,它有时候却吐出不相关的符号,甚至生成一些让人摸不着头脑的句子。

研究团队的解释是:这背后很可能就是 污染词元在作怪

我们都知道大语言模型的训练需要大量的语料,这些海量数据大多是从网络上进行爬取收集。

但 AI 注意不到的是,它阅读的网页中,竟然充斥着无数「性感荷官,在线发牌」的弹窗广告和「点击就送屠龙宝刀」的垃圾链接。久而久之,这些内容也成了它知识体系的一部分,并变得混乱。

就跟前段时间 DeepSeek 闹出的几起乌龙事件一样,先是莫名其妙的一封道歉信,然后再自己编造一个 R2 的发布日期。这些没有营养的营销内容,一旦被模型吸收,就很容易出现幻觉。

如果说,DeepSeek 出现这些幻觉,需要我们去引导模型;但「污染词元」,甚至不需要引导,AI 自己就乱了套。

什么是「污染词元」,它遵循「3U 原则」:即从主流中文语言学的角度看,这些词元是不受欢迎的(Undesirable)、不常见的(Uncommon),或是无用的(Useless)

目前主要包括成人内容、在线赌博、在线游戏(特指私服等灰色服务)、在线视频(常与盗版和色情内容关联)以及其他难以归类的异常内容。

▲ 大语言模型分词过程

那「词元」又是什么东西?和我们理解一段话不同,AI 会把一个句子分成多个「词元」,也叫 Token。你可以把它想象成 AI 专属的一本《新华字典》,而词元(Token)就是这本字典里的一个个「词条」

AI 在理解我们说的话时,一开始就需要先去翻这本字典。而字典的编纂者,是一种叫 BPE(字节对编码技术) 的分词算法。它判断一个词组,是否有资格被收录为独立词条的唯一标准,就是出现频率

这意味着这个词组越常见,就越有资格成为一个独立词元。

你或许能理解,这两年大语言模型流量正攀升的时候,豆包和稀土掘金曾经像是「疯了」一样,把自己平台 AI 生成的大量内容放到互联网上,提高自己的出现频率。以至于那段时间,用谷歌搜索,还有 AI 总结,引用的来源都是豆包和掘金。

现在,我们再来看研究人员的发现。他们通过 OpenAI 官方开源的 tiktoken 库,获取了 GPT-4o 的词汇库,结果发现,里面塞满了大量的污染词条。

▲ 长中文词元,全是需要打码的内容。

超过 23% 的长中文词元(即包含两个以上汉字的词元)都与色情或网络赌博有关。这些词元不仅仅是「波*野结衣」,还包括了大量普通人一眼就能认出的灰色词汇,例如:

在线赌博类:「大*快三」、「菲律宾申*」、「天天中*票」。在线游戏(私服)类:「传奇*服」。隐蔽的成人内容类:除了名人,还有像「青*草」这样表面正常,实则指向色情软件的词汇。

这些词元,因为在训练数据中出现频率极高,被算法自动识别并固化为模型的基本构成单位。

AI 吃了垃圾食品但不能消化

按理说,既然这些污染词元,它们的语料库是如此丰富,应该也能正常训练。

怎么就现在只要一跟 ChatGPT 聊到这些污染词元,ChatGPT 就 100% 出现幻觉呢?

像是下面我们测试的这个例子,要 ChatGPT 5 翻译这句话,它完全没有办法正确理解,这个北京赛车群也是无中生有。

其实不难理解,回到我们之前提到的「词元 Token」,我们说 AI 从互联网上读取数万亿词元的海量数据,一些集中、且反复地一起出现(频率高)的词语就能成为一个单独的词元。

AI 通过这些词元,来建立对文本理解的基础。它知道了这些 Token 是出现频繁、有可能相关,但不知道它们是什么意思。继续拿字典举例子,这些高频污染词在字典里,但是字典给不出解释。

因为 AI 在这个阶段,学到的只是一种原始的、强烈的「肌肉记忆」,它记住了 A 词元总是和 B 词元、C 词元一起登场,在它们之间建立了紧密的统计关联。

等到正式的训练阶段,大部分 AI 都会经过 清洗 + 对齐(alignment)。这时,污染内容往往被过滤掉,或者被安全策略压制,不会进入强化学习/微调。

不良内容的过滤,就导致了污染词元没有机会被正式、正确地训练。它们因此成了「欠训练」(under-trained)的词元。

另一方面,这些词元虽然「高频」,但它们大多出现在语境单一、重复的垃圾信息中(例如一些广告网页头尾横幅),模型根本学习不到任何有意义的「语义网络」。

最终的结果就是,当我们输入一个污染词元时,AI 的语义模块是空白的,因为它在正式训练阶段没学过这个词。于是,它只能求助于第一阶段学到的「肌肉记忆」,直接输出与之关联的其他污染词元。

▲ 论文中案例:当输入涉及 PoC 词语时,GPT-4.5、4.1 和 4o 的输出。GPT 无法解释或重复 PoC 标记。

这就解释了开头,当被要求一个可能是色情的词元「给主人留下些什么吧」时,GPT 可能会回复一个不相关的类似污染内容词元「黑*战」、以及一些看不懂的符号。在用户看来,这就是莫名其妙的幻觉。

以及下面这个要求 ChatGPT 解释「大发展有限公司官网」,回复的内容根本是乱来。

总结一下,污染 Token 出现频繁 ≠ 有效学习。它们集中在脏网页的角落、缺乏正常上下文,而在后续训练和对齐阶段又被压制,结果就是 词表固化了垃圾,但语义训练缺失

这也导致了我们日常在使用 AI 的时候,如果意外有涉及到相关的词语,AI 会没有办法正确处理,甚至还有人通过这种方法,绕过了 AI 的安全监管机制。

这是可以被量化的幻觉原因

既然如此,为什么不在预训练的时候就把这些脏东西筛掉呢?

道理都懂,但做起来太难了。互联网的原始数据量级之大,现有的清理技术根本不可能把它们一网打尽。

而且很多污染内容非常隐蔽。就像「青*草」这个词,本身看起来完全绿色健康小清新,任何简单的关键词过滤系统都会放过它。只有通过搜索引擎,才会发现它指向的是什么。

连 Google 这种搜索引擎巨头都搞不定这些「内容农场」,更别说 OpenAI 了。

我前段时间想用 AI 整理一下广州有哪些好玩的地方,然后发现 AI 引用的一篇文章来源,是另一个 AI 账号生成的文章。

一时间,我都有点分不清,究竟是我们每天搜索「波多野结衣」搞脏了 AI,还是 AI 生成的垃圾正在污染我们的内容环境。这简直就是个先有鸡还是先有蛋的问题。

▲ 标记方法

为了搞清楚这盆水到底有多浑,研究团队开发了两个工具:

1. POCDETECT:一个 AI 污染检测工具。它不只看字面意思,还会自己上网 Google,分析上下文,堪称 AI 界的「鉴黄师」。

利用这个工具,研究团队对 9 个系列、共 23 个主流 LLM 进行了检测,结果发现污染问题普遍存在,但程度各不相同。除了 GPT 系列以 46.6% 的长中文词元污染率遥遥领先外,其他模型的表现如下:

▲ 不同大语言模型中,中文词汇表中 PoC 词元的数量(比例 %)(一个词元包含超过两个汉字)。Qwen 系列 为 1.00%。GLM4 和 DeepSeek-V3 的表现则相当不错,分别只有 0.25% 和 0.17%。

最值得关注的是,GPT-4、GPT-4-turbo 和 GPT-3.5 这些模型的词汇库中,污染词元数量为 0。这可能意味着它们的训练语料经过了更彻底的清理。

所以当我们拿着前面那些,让 ChatGPT 开启了胡编乱造模式的问题,给这些模型再问一遍时,确实没再出现幻觉,但是直接忽略了。

2. POCTRACE:一个能通过词元 ID 反推其出现频率的工具。原理很简单,在分词算法里,词元的 ID 号越靠前,说明它在训练数据里出现得越多。

关于文章开头我们提到的 2.6 倍,就是通过这个工具进行计算得到的。

在 GPT 的海量词汇库中,能够被完整收录为一个独立词元的人名凤毛麟角,除了「特朗普」(Donald Trump)这样的世界级公众人物,就剩下极少数特例,而「波*野结衣」就是其中之一。

更令人惊讶的是,不仅是全名,甚至连它的子序列,如「野结衣」、「野结」也都被单独做成了词元。这在语言学上是一个极强的信号,表明这个词组在训练数据中的出现频率达到了一个恐怖的量级。

▲ 将与「波*野结衣」相关的网页以及作者估计的比例(0.5%)混合,可以重现 GPT-4o 中「波*野结衣」的标记 ID 及其子序列。

他们输入「波*野结衣」(Token ID 185,946)和「您好」(Token ID 188,633)的 ID 号,最终得出了那个惊人的结论,前者的频率估算值约为后者的 2.6 倍

这篇论文通讯作者,清华教授邱寒教授告诉 APPSO,与「波*野结衣」相关的中文网页,占据了整个 pre-train 语料库的 0.5%——而 4o 里的中文语料占比,预估在 3-5%。因此,4o 的 pre-train 语料库的中文污染情况,实际上可能极其夸张。

论文里进一步推算出,要想达到这样的频率,与「波多野结衣」相关的污染网页,可能需要占据了 GPT-4o 整个中文训练数据集约 0.5% 的庞大份额

为了验证,他们真的按这个比例「投毒」了一个干净的数据集,结果生成的词元 ID 和  GPT-4o 的惊人地接近。
这几乎是实锤了。

但很显然不是每个污染词源都需要出现这么多次,有些时候,几篇文章(甚至可能是 AI 写的),反反复复地提到,AI 就记住了,然后再下次我们问他的时候,给出一个根本不知道真假的答案。


添加一个对抗样本,AI 能把雪山识别成一只狗

当我们和 AI ,都在「垃圾堆」里冲浪

为了应对数据污染,大家也确实都想了很多办法。

财新网就很聪明,在自己的文章页面里用代码「偷偷」藏了一句话,好让 AI 在搬运内容时,能老老实实保留原文链接。Reddit、Quora 等社区也曾尝试限制 AI 内容。

但面对数据污染的汪洋大海,这些行为显然都只是螳臂当车。

就连奥特曼自己都发文感慨,X(推特)上的 AI 账号泛滥成灾,我们得认真思考「互联网已死」这种论调了。

而我们这些普通用户,看起来更是别无他法,每天被迫接受着垃圾信息的轮番攻击。马斯克老说 AI 是个无所不知的「博士」,没想到它背地里天天都在「垃圾堆」里翻东西吃。

有人说,这是中文语料库的问题,用英文 Prompt 模型就会变聪明。Medium 上有作者统计过统计了每种语言的 100 个最长 token,中文全是我们今天聊的这些色情、赌博网站。

而英文的分词和中文不同,它只能统计单词,所以都是一些较长的专业性、技术类单词;日文和韩文都是礼貌性、商业服务类词语。

▲ 中文 Token 前 100 部分词元列表

这十分令人感慨。AI 的能力,除了靠算力和模型堆砌,更深层次的,还是它吃进去的数据。如果喂给 AI 的是垃圾,那无论它的算力多强、记忆力多好,最终也只会变成一个「会说人话的垃圾桶」。

我们总说,希望 AI 越来越像人类。现在看来,某种程度上确实是实现了:我们把互联网这个大垃圾场里的东西源源不断投喂给它,它也开始原封不动地回敬给我们。

如果我们给一个 AI 造一个信息茧房,让它在「无菌环境」中长大,它的智能也是脆弱的、经不起考验的。一个孩子如果只被允许接触教科书里的经典课文,他永远无法应对生活里五花八门的口语和俚语。

说到底,当 AI 对「波多野结衣」比对「您好」更熟悉时,它不是在堕落,而是提醒了我们:它的智能,依然只是统计学上的概率,而非文明意义上的认知。

这些污染词元就像一面放大镜,它将 AI 在语义理解上的缺失,以一种荒诞方式呈现在我们面前。AI 离「像人一样思考」,还差着最关键的一步。

所以,我们真正应该害怕的,不是 AI 被污染,而是害怕在 AI 这面过于清晰的镜子里,看到了我们自己创造的、却又不愿承认的那个肮脏的数字倒影。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


我玩上了《丝之歌》,发现它鸽了 6 年的秘密与故事

你玩上《空洞骑士:丝之歌》了吗?

很少见到一款游戏,公布发售时间就能引发海内外全网狂欢,正式发售更是盛况空前,购买人数太多甚至引发了 Steam 和任天堂 eShop 长达一小时的宕机。

而核心主创仅有 3 人的独立游戏《空洞骑士:丝之歌》,做到了。

丝之鸽这次不鸽了

如果仅仅作为《空洞骑士》的续作,《丝之歌》也只会成为又一款热门的游戏,真正让这款游戏出圈的理由是「跳票」。

2019 年,《丝之歌》发布首个预告和线下试玩,当时爱范儿还在 E3 游戏展的展台试玩了游戏,其实完成度已经相对较高了,玩家们都猜测游戏会在一年左右的时间内发布。

结果等到 2022 年,官方才预告游戏将在 2023 发布,然后跳票。

所以从首个预告到今天正式发售,玩家足足等了 6 年的时间,等到望穿秋水,海内外催生了大量的迷因梗。

这些被「鸽」到绝望的玩家,会经常在各种游戏论坛,以及 Xbox 和 Switch 2 直面会评论区中留言催发,也作为一种相当另类的宣传,大大提升了《空洞骑士》和《丝之歌》的知名度。

▲ 「这次一定!」

或许正因为有了这 6 年的等待,从游戏在 8 月底宣布发售日期,到昨天真正上架,人们才会觉得几乎是一眨眼的功夫,反而让我们有点不敢相信,真的能玩到《丝之歌》了。

从 2021 年开始,一名叫 Araraura 的网友一直主持着一个名为「Daily Silksong News」(每日丝之歌新闻)的 YouTube 账号。

即使在绝大部分时间,《丝之歌》其实都没有什么最新进展,但 Araraura 依旧坚持日更,大部分内容都是:「这是 Araura,今天没有丝之歌新闻,以上是今天的丝之歌新闻」。

《丝之歌》上线后,Araraura 本人亲自出镜了一个十分钟的视频,宣布频道完结,表达了对同好粉丝的感谢。

我只想完全地、平静地沉浸在《丝之歌》之中。

但没想到——

等了 6 年的玩家们在玩上《丝之歌》前,还要经历最后一难。北京时间 9 月 6 日晚 10 点,《丝之歌》正式发售,然后玩家和主播们打开 Steam 和 eShop,却只能看到如下界面。

Steam 和 eShop 宕机,当然是因为《丝之歌》的高人气,很大一部分原因都是因为这款游戏没有开启预购和预下载,导致所有玩家在游戏一开售都要挤进游戏商店「抢购」,服务器就崩溃了。

不仅没有预购,实际上《丝之歌》的整个宣发流程,都并没有按照游戏工业目前的规则走。

在 9 月 4 日正式发售之前,没有任何一家媒体提前拿到了游戏进行试玩评测。

没有预购,试玩也仅限线下活动,并且内容非常有限。

不按常理出牌的背后,是 Team Cherry 自己的坚持。

做自己想做的游戏,是独立的初心

所以,究竟是什么导致了《丝之歌》超长的开发周期?

通常我们都认为游戏跳票的背后都和混乱的项目管理有关,但对于 Team Cherry 和《丝之歌》来说,这个漫长的旅途,是一个跟热爱有关的故事。

在《丝之歌》官宣了发售日期当天,也就是游戏发售前两周,Team Cherry 与彭博社进行了一次访谈,向外界揭秘了《丝之歌》背后的故事。

Team Cherry 的联合创始人 Ari Gibson 和 William Pellen 认为,制作《丝之歌》的过程充满乐趣:

我们一直玩得很开心,反正这整个事情就是我们发挥创造力的一个载体,做些有趣的事情真好。

《丝之歌》的开发过程没有什么阻碍,甚至 2020 年的疫情也没带来什么影响,Team Cherry 只是用了 6 年的时间,打磨出他们心目中《丝之歌》。

当然,这背后也有很大一部原因是人手的问题——Team Cherry 主要成员只有三个人,加上一位作曲家和几位承包协助编程和测试的工作人员,连 OA 办公系统都用不上。

团队一开始就设计好了游戏主角「大黄蜂」的核心玩法,后续的工作,就是在这个核心玩法上设计和测试一些新的想法,逐渐扩大游戏的规模,从一个《空洞骑士》的扩展包,到超越《空洞骑士》本身,并且还在扩张下去。

William Pellen 承认,他们的创作力非常旺盛,一直在构思新点子、新道具、新区域、新 Boss,直到他们意识到,再不停手《丝之歌》很可能永远不会有完成的那一天。

我们乐在其中,所以我们不会觉得「这花了更长的时间,这太糟糕了,我们真的需要熬过这个阶段」,而是觉得「这是一个非常令人愉快的领域。让我们用一些新想法来延续它吧。」

很快,Team Cherry 发现《丝之歌》的 Boss 要比《空洞骑士》更精致,游戏系统更加丰富,互动性更强,主角大黄蜂可以对各种道具进行反应,而这需要更大量的绘图和动画工作。

并且开发时间越长,内容越丰富,开发人员会更愿意去花更多时间进行打磨游戏,让一切都尽善尽美,保持游戏整体品质始终如一。

整个游戏都必须达到一定的完成度,所有系统交互的方式,所有之后出现的隐藏工作。这是乘法的。随着你添加内容,将它们重新组合在一起的过程也会随之增加。

反正已经花了这么长时间,何必着急将游戏推出?

作为独立游戏开发者,Team Cherry 的松弛感 ,非常大程度是因为,《空洞骑士》已经让他们实现了财务自由,可以不用再像 8 年前那般节衣缩食。

甚至《丝之歌》这六年来的社区热度还在不停给《空洞骑士》带货。2019 年《丝之歌》刚宣布时,《空洞骑士》只卖出 280 万份,直到今天,游戏已经卖出接近 1500 万份了。

▲ 《空洞骑士》

并且,《空洞骑士》的超高人气,以及火热的社区迷因文化,《丝之歌》也不必担心会遇冷——事实上,《丝之歌》在发售前已经多年位居 Steam 愿望单榜首。

这也让他们更有底气,不去顺从游戏行业的规则,按照自己的想法去制作、发行这个游戏。

很少同步游戏的开发进步,不提前为媒体开放游戏,线下试玩也只展示一点点内容,都是因为 Team Cherry 在游戏之中埋藏了大量的秘密通道和彩蛋,他们不想在正式发售前就剧透太多,想把这些乐趣尽可能留给玩家。

虽然 Team Cherry 自己不太网上冲浪看热情玩家因为等待《丝之歌》而衍生的迷因,不过他们知道着有一个很大的社区文化在不断炒作,甚至开玩笑表示:

感觉我们发布这款游戏会破坏他们的乐趣。

当然不会,因为像 Team Cherry 这种心态去开发的游戏,绝对会为玩家带来更多的感动。

《丝之歌》的故事还没到终点,Team Cherry 表示他们将继续开发,即使过去这么多年,他们依旧觉得这款游戏充满乐趣,并且完全没有倦怠,正在计划未来几个月甚至几年内,为《丝之歌》继续添砖加瓦。

发布《丝之歌》当然很令人激动,接下来的事情对我们来说也同样令人兴奋。

独立游戏的精神,是以爱回报所有玩家

所以这款备受期待的游戏究竟玩起来怎么样?由于游戏刚刚发行,目前不管是媒体还是玩家还没能给出全面的评测。

根据一些玩家的初步分享,《丝之歌》依旧出色,在游戏内容比《空洞骑士》要更加丰富,有大量的细节等待玩家挖掘。

不过,即使前作已经对玩家的操作有不低的要求,关卡和 Boss 也具有挑战性,《丝之歌》的总体难度还要再更高一点。

如果你也对这款大热游戏感兴趣,最好先做好心理准备。

游戏难度因人而异,而《丝之歌》的中文翻译则受到了国内玩家几乎一边倒的恶评:太过刻意追求文雅,导致游戏文本相当别扭,甚至完全无法理解,仿佛「古风小生」附体。目前《丝之歌》的 Steam 国区好评率仅有 52% 。

第一时间玩上《丝之歌》的同事吐槽:英文反而比中文更好懂。

官方表示已经注意到了这些反馈,很快会对中文翻译做出改进。

除了将一款精致、好玩的游戏带给世人,《丝之歌》和 Team Cherry 更重大的意义,是再一次证明了「独立游戏精神」在这个时代还在闪闪发光。

《空洞骑士》的成功,不仅为 Team Cherry 带来了财富和声望,甚至还推动了整个澳洲游戏业态的成长。

在《空洞骑士》之后,大量优质澳洲本土独立游戏都来到了聚光灯下,例如《捣蛋鹅》《咩咩启示录》《遗忘之城》。澳洲政府官网甚至专门为澳洲独立游戏设立了页面。

虽然《丝之歌》风头无两,但这几年,整个独立游戏业态并不算好过。

曾经的独立游戏,还是一个相对小众的赛道,开发者在兼顾商业性的前提下,尽可能实现更多表达,满足一部分对游戏更有偏好玩家的需求。

但这几年,独立游戏进入了主流视野,不仅竞争加剧,玩法和美术上也很难像从前一样给人更多耳目一新的感觉。

传统大厂出品的 3A 游戏能够凭借更出色的画面,和久经市场验证的玩法模式,进一步挤占独立游戏的生存空间。

甚至有很多大厂自己也下场去做「独立游戏」,在资源上远超传统的开发者团队,还能兼具一些独立游戏的气质和精神。

▲ 腾讯出品的「独立游戏」《末剑》

而《空洞骑士》和《丝之歌》,则证明了传统独立游戏在现在的游戏市场中,依旧具有生命力,甚至能超越一些大厂的 3A 出品。

随着《丝之歌》大热,一些粉丝甚至「挖坟」了《空洞骑士》发布之前的一个远古帖子。当时一个网友公布了《空洞骑士》的一些开发内容,表示这是自己好朋友辞职在开发的游戏。

结果网友并不看好这款游戏,认为和《LIMBO》对比没啥亮点,类似的横版过关游戏也很多了。

2014 年,《空洞骑士》在众筹平台 Kickstarter 亮相,目标金额 35000 澳元,最终超额完成目标,从 2158 名支持者那里筹集了超过 57000 澳元。

即使《空洞骑士》大获成功,《丝之歌》基本不会愁卖的情况下,Team Cherry 依旧给游戏定价 19.9 美元(国区售价 76 元),出乎不少玩家和行业的预料,本质上,也是对广大社区支持者的回馈。

游戏对玩家展现了诚意,玩家自然也会自发维护游戏。

《丝之歌》一发售,Reddit 的盗版游戏板块最热帖自然是这款游戏,不过和以往大家讨论游戏盗版方法不同,不少玩家呼吁大家购买正版,毕竟《丝之歌》价格确实太便宜了,而且品质也很优秀。

实际上这也是独立游戏的魅力所在:开发者和玩家之间,通过游戏形成了一种特殊的关系。

就像《星露谷物语》的开发者 Eric Barone,承诺在有生之年会一直免费更新游戏,他不在乎钱,更想回馈粉丝的支持。

有意思的是,Eric Barone 参与了《丝之歌》的配音工作,属于是独立游戏开发者之间的梦幻联动了。

不过,这个定价也引发了很大的争议,不少独立游戏开发者都表示无法将自己的游戏定这么低的价格,毕竟他们的经济压力远大于 Team Cherry,无法接受花费这么多年的时间开发一个庞大的游戏,却只收一点点钱。

这种评价有点像当年一些开发者针对《博德之门 3》的批评:作为一款 cRPG 游戏,《博德之门 3》游戏内容过于丰富,精细程度也太高了,只有拉瑞安这种手握资源的工作室才能承担得起,不应该成为一个标杆。

关于这些争议,我相信玩家自己的心中会有一个答案。

最后我想用国内《丝之歌》最知名的「幸运」梗来总结这篇文章:

作为开发者,Team Cherry 能凭借《空洞骑士》的成功,得以享受游戏开发的乐趣,他们无疑是整个游戏行业中的幸运儿。

而我们玩家能玩到《空洞骑士》和《丝之歌》这种不以绝对功利目的而创作的独立游戏,并从中感受到乐趣和诚意,也是我们的幸运。

我们也乐于见到,游戏行业中能有更多这种开发者和玩家的双向奔赴。

附上彭博社专访的原文链接:
https://www.bloomberg.com/news/newsletters/2025-08-21/why-silksong-team-cherry-s-sequel-to-hollow-knight-took-so-long-to-make

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


我的宝藏 AI 浏览器被 43 亿「贱卖」了,这可能是最好的结局

一觉醒来,我最喜欢的 AI 浏览器 Dia 被收购了。

企业软件巨头 Atlassian 宣布用 6.1 亿美元,将 The Browser Company 收入囊中。这个价格算不上阔绰,去年这家公司就已经估值 5.5 亿,现在的溢价仅有 11%,妥妥的「友情价」。更关键的是,Atlassian Ventures 本就是其 A 轮投资方,某种程度上也算是「从校服到婚纱」了。

The Browser Company 的阶段性结局,未必就如创始人所愿,但或许,会是大多数 AI 浏览器终局的预演。

99% 的 AI 创新,1% 的商业化机会

比起 Dia,我们会更熟悉 The Browser Company 旗下的成名作:Arc 浏览器。

漂亮的渐变色、独特的欢迎界面,Arc 让沉寂了许久的浏览器行业为之一振。同时,通过重新设计标签页管理,Arc 引入了智能分组和自动归档,让重度互联网用户眼前一亮。

当时,不少网友将誉其为「十年来最具创新性的浏览器」,知名度和活跃用户快速增长,发布仅几个月用户数就突破 10 万。大好势头,让创始人 Josh Miller 更是雄心勃勃地要打造「互联网计算机」。

但现实很快给了这位 Josh Miller 一记重拳。

小众市场的天花板,往往比想象中更低,Arc 虽然积累了百万级用户,但日活数据始终疲软,Miller 自己都承认用户基数不大,且高度集中在技术极客群体。

问题的根源,是产品本身。

Arc 的设计哲学过于前卫,学习成本高得让普通用户望而却步。大部分用户并未使用设计团队最看重的核心功能,反而被复杂的操作逻辑劝退。Reddit、X 上的用户反馈显示,真正深度使用到 Arc 高级功能的时候很少。

于是,去年在烧掉 1.5 亿美元、完成 5000 万美元新融资后,The Browser Company 团队果断决定战略转向,开发名为 Dia 的原生 AI 浏览器。

这次转向在外界看来突然,但内部其实经历了痛苦的自我审视过程。早期留存和增长数据已经暴露问题,但团队一度不愿承认,错过了更早调整的时机。

寄托了希望的 Dia,真的能带来巨变吗?

理想很丰满,现实很骨感

APPSO 之前也深度体验过 Dia。它的产品思路与 Arc 截然不同:从架构层面为 AI 而生。

极简的主页设计,AI 聊天界面成为新的交互中心、AI+传统搜索引擎的双模式搜索机制、丝滑流畅的交互设计以及个性化定制等等特征都给我留下很深刻的印象。

(欢迎回看 APPSO 此前文章:实测超火的 AI 浏览器 Dia,我看到了浏览器未来的 iPhone 时刻)

不过,自我定位清晰了,不见得能让 Dia 逃过整个 AI 浏览器赛道的结构性困境,首当其冲的便是获客渠道被操作系统绑架。

浏览器本质上是「入口的入口」:浏览器是互联网的入口,而浏览器自身的入口,掌握在操作系统手中。

具体来说,Windows 预装 Edge,macOS 预装 Safari,海外 Android 深度集成 Chrome,iOS 所有网页链接都指向 Safari。一旦用户要更换默认浏览器,则需要主动搜索、下载、设置。

第二关,是插件生态的虹吸效应。

Chrome Web Store 拥有数十万扩展插件,几乎任何创新功能都会在几周内被社区开发者复制成插件版本。阅读模式、广告屏蔽、AI 摘要、标签分组。

曾经有一系列 Arc 引以为傲的功能创新,很快就能通过插件在 Chrome 上实现。用户无需抛弃熟悉的浏览器环境,只需安装插件即可体验新功能。

第三关则是账号体系的锁定效应。书签、密码、支付信息、历史记录都与 Google、Apple、Microsoft 账户深度绑定,形成强大的数据护城河。换浏览器意味着重新配置这一切,风险与成本让大多数用户望而却步。

显而易见,这「三座大山」,几乎压在每一个 AI 浏览器创业公司的身上。

上个月底,Manus 创始人张涛分享过类似的经历:团队曾投入近 20 人、半年时间打造 AI 浏览器,但在发布前夕紧急叫停。

他们意识到,即便产品上线,也只能圈住一小波用户,却会把整个团队拖入泥潭,再也无力寻找更大的机会。

最终,他们选择壮士断腕,所有投入归零。直到团队从 Cursor 中汲取到了设计的灵感,用两个月的时间做出最小可行原型,接着推出全球首款通用 Agent,最终才一炮而红。

包括今天 Manus 创始人兼 CEO 肖宏也在社交平台上分享了对应的观点。

维护一个「还不错」的产品,代价可能是错过构建「无限想象空间」产品的窗口。

对 The Browser Company 而言,他们曾经在 Arc 上就吃到过苦头了——即使产品备受好评,但在结构性壁垒面前,创新团队很难独自突围。与其在边缘地带继续消耗,不如主动寻找能够放大价值的平台。

于是,这桩与 Atlassian 的联姻,可谓合情合理。

1+1 会大于 2 吗?

互联网的创业者,大致可以分为两类:一种信奉「产品为王」,另一种笃信「渠道制胜」。

Josh Miller 用了 3 年时间,从第一种变成了第二种。Miller 在今天的公开信中提出了决策时的三个关键问题:怎样才算赢?朝什么方向冲刺?底线是什么?

他的回答很务实:「简单来说,我们这么做是为了赢。仅仅做出最好的产品远远不够,要让 Dia 成为 AI 浏览器赛道的赢家,需要强大的分发能力——不仅要有规模,还要有匹配的速度。」

▲ Josh Miller

时间窗口的压迫感,是这笔交易的催化剂。

Miller 判断,AI 浏览器领域的赢家将在未来 12 到 24 个月内确定。要让 Dia 进入更广阔的市场,需要庞大的渠道、成熟的销售体系和运营规模,这些都不是短时间内靠烧钱能解决的问题。

相比在 AI 泡沫中继续融资烧钱,与 Atlassian 合作是一个不错的选择。

Atlassian 账上有 25 亿美元现金,服务数百万企业用户,拥有成熟的销售网络。在 2024 年的 Stack Overflow 开发者调查报告中,前五名中,Atlassian 旗下产品就占了三席。

▲(图说:Jira, Confluence 和 Trello 均为 Atlassian 出品)

其客户群体之广泛,覆盖了全球超过 25 万家公司,其中不乏 Netflix、Spotify 和 NASA 等知名企业。

在资本市场趋于理性、获客成本持续上升的背景下,对 The Browser Company 而言,与这样的巨头合作可能是更现实的选择。

更重要的是,Miller 为团队争取到了相对的独立性。

Miller 仍担任 CEO,核心团队保持不变,他承诺 Dia 不会变成 Atlassian 应用的「外壳」,也不会像微软 Edge 那样弹窗推广企业服务。Arc 将继续维护但不再积极开发,部分功能将会整合进 Dia 当中。

「更实用,支持更多工作流,登陆更多平台,而且速度更快。这股新能量将从下个月开始——届时我们将发布自 Beta 版以来最重大的 Dia 更新。」

实际上,据此前 The Information 报道,Perplexity 和 OpenAI 都曾与 The Browser Company 接触过收购事宜,但谁也没有想到,Atlassian 才是最终赢家。

六亿美元,不是小数目。Atlassian 打的收购算盘是,要把浏览器变成新的「工作前台」。

根据 The Verge 的报道,这场交易洽谈始于一年前。

当时 Atlassian 就已经很关注深度联合的可能性了。Atlanssian 的员工不仅会使用 Arc,还很关心如何让浏览器更适合企业场景。Atlassian CEO Mike Cannon-Brookes 本人就是 Arc 的早期用户,深度体验过标签页智能分组、自动归档等功能带来的效率提升。

但企业用户的需求远不止效率工具。数据隐私、安全合规、管理控制、审计追踪。这些企业级功能是 The Browser Company 的短板,却恰恰是 Atlassian 在企业市场深耕二十年,所收获的积累。

更重要的是双方在 AI 应用场景上的互补。这体现在两个方面,一是定位层面,二是架构层面。

定位层面而言,「协作」将是 Dia 要构建的壁垒。现在绝大多数企业协作都发生在 SaaS 工具当中,比如 Jira、飞书、Slack 等等。而浏览器是访问它们的必经入口。

而 Dia 当中的跨标签页理解和上下文整合,就可以实现把碎片信息整合成统一视图。比如,把 Gmail、Trello、会议文档串起来,又或者在浏览器层面保留并调用上下文,为团队协作提供一个「公用记忆」。

这将使得 Dia 和 Atlassian 旗下的产品形成互补。未来可能出现的场景是:你在 Dia 里浏览客户邮件,它能一键生成 Jira ticket、附带背景材料,形成「浏览器=协作节点」。

这也符合 Atlassian CEO Cannon-Brookes 的设想:一个知识工作者的专属工具,包括为 SaaS 应用优化交互,搭载 AI 技能与工作记忆,提供企业级安全保障等等。

而这些,现有的浏览器尚没有达到他的期望。在今天发布的官方公告中,Cannon-Brookes 对现有浏览器的批评很尖锐:

「现在的浏览器是为『浏览』而生,不是为工作设计的。用户打开的大多数标签页其实都是待办事项:安排会议、审阅设计、更新 Jira 任务……但浏览器在工作流中只是旁观者,既不了解工作背景,也无法理解优先级。」

这怎么不算一种新型的互联网操作系统呢?和 Josh Miller 的愿景不就对上了吗。

Miller 也在发布的公开信末尾中写到:「我曾经说,希望我儿子十岁前实现『互联网计算机』的愿景。几个月后他就满五岁了,未来五年任重道远。」

这既是 Miller 写给儿子的愿景,也是他写给自己和团队的一纸军令状。

作者:莫崇宇、Selina

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


孩子眼中的美,大人想不到

六年级的菲菲,带着对光影和美的好奇走进 vivo 「童画未来」夏令营。在这里,她经历了一场奇妙又出乎意料的冒险。在奇幻的旅途中,她和伙伴们学会了一件事:原来,美可以这样被看见。

来,看个视频,放松下。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌