Reading view

There are new articles available, click to refresh the page.

Netflix Deal for Warner Bros. Adds New Twist to Rivalry With HBO

Netflix’s blockbuster deal to buy Warner Bros., including HBO, is the latest twist in a rivalry that has reshaped the entertainment industry.

© Jordan Strauss/Invision, via Associated Press

Ted Sarandos, now co-chief executive officer of Netflix, recently recalled his reaction to HBO’s refusal in 2010 to license its shows: Netflix had to make original programs of its own.

理想 AI 眼镜 Livis:首先是副好眼镜,这真的很重要

如果要给你的爱车买外设,你想到的一般是什么?

大概率是车衣、灭火器、安全锤、儿童座椅、户外电源之类的东西对吧。但理想说:停停停,我这里还有一个新东西——

这就是理想最新发布的 AI 智能眼镜「Livis」,一副好眼镜、一副好墨镜、一个好音响、一个好相机,还有一整天的长续航。

当然,它也能顺便帮你控制理想汽车——

爱范儿收到的理想 Livis 智能眼镜是科技灰亮光配色,搭配一对蔡司平光感光变色镜片,被太阳光照射后会变成灰色的墨镜。

根据我们目前体验的感受来看,这或许就是现阶段最聪明的「车用墨镜」了。

当然,作为一副智能眼镜类产品,我们必须同时从「智能」和「眼镜」两方面去评价。而这次理想 Livis 做得最好的一点,就在于它先是一副好眼镜、然后才是一个智能的眼镜。

其实仅从外观和设计上,我们就能看出,理想 Livis 将产品重点放在「做个好眼镜」上的优先级是很高的。

理想 Livis 在保证长达 18 小时典型使用时间的前提下,做到了仅仅 36g 的裸框重量,即使加上镜片,整机的重量也能维持在 50g 上下。

按照理想的说法,Livis 就是目前世界上最轻的智能眼镜。

而为了让 Livis 作为一副眼镜更好用,理想也在镜片上花了不少功夫。理想 Livis 的镜片合作方为百年光学大厂蔡司,从透明到墨镜,无论平光还是远近视,都有非常丰富的镜片选择。相比于其他同类智能眼镜,蔡司镜片的加持让 Livis 在清晰度上获得了明显优势。

此外,理想 Livis 作为一款主打配车使用的产品,直接标配了支持无线充电功能的眼镜盒,实现随充随用、随放随充。

而在眼镜的基础功能之外,理想 Livis 的主要功能体现在这三点上:音响、相机,以及智能控车。

其中最突出、也最让我们在体验时感觉到惊喜的,就是理想 Livis 的音乐能力。

作为一副开放式耳机,它配备了一套「双磁路三明治扬声器」,利用智能调频,让近场(人耳位)声音加强,远场(路人位)声音抵消,实现了开放式耳机防漏音的功能。

而 Livis 的实际音质表现也的确有点东西,甚至是爱范儿目前体验过的智能眼镜里面音质最好的一个。

和一般的开放式以及骨传导耳机不同,理想 Livis 的扬声器支持空间音频效果,加上支持立体收音的 4 麦克风阵列,通过眼镜录音再回放的时候,不仅人声很清晰,而且能够听出声音的来源方向。

此外,理想还给 Livis 眼镜画了一个相当令人期待的饼:这款眼镜后续可以通过 OTA,解锁更进一步的车机互联玩法,支持上车后作为头枕音响使用——直接解决了目前所有理想车型都不支持头枕音响的问题。

那么目前智能眼镜最流行的记录功能,理想 Livis 做得怎么样呢?它的传感器为 1200 万像素的索尼 IMX681,视场角达到了 105 度,抓拍响应时间也来到了相当优秀的 0.7 秒,几乎已经和手机的拍照速度相同了。

值得一提的是,理想 Livis 支持拍摄实况照片,能够在摁下快门后保持录制 3 秒钟的视频,这个功能在智能眼镜上很少见。

至于录像方面,理想 Livis 的表现就不如 Ray-Ban Meta 这种有直播属性的智能眼镜了,Livis 单次录像的长度被限制在了三分钟,总时长为 47 分钟。画幅则支持横向或竖向的 4:3 与 16:9 共计四种,基本涵盖了所有社媒形式。

而对于一款「车厂眼镜」最根本的需求——智能控车方面,理想 Livis 则交出了一份令人满意的答卷。

首先,Livis 需要通过手机上的「理想同学」app 进行连接,佩戴眼镜的时候可以直接呼叫和调用最新版的 MindGPT-4o 模型的理想同学 agent,唤醒仅需 300ms,对话响应时间也压缩到了 800ms。

佩戴理想 Livis 眼镜时,你不需要掏出手机、也不需要抬起手腕解锁手表,只需要对着空气说一句「理想同学」,就能控制车上的空调冰箱后备箱,也能很方便的查询当前车辆位置和续航里程等信息。

在我们的实际体验中,用 Livis 呼叫理想同学不仅响应非常快,它也支持上下文连续问答,app 中的「记忆功能」也可以成为语音记事本,让它帮你记住一些零碎信息——比如帮你记住车停在了「北京西站南广场东」。

不过目前 Livis 搭配理想同学 app 也有一些局限,比如它没法创建或者写入日程提醒,只能帮你记住文字信息,并且也没有条件触发提醒,记住的信息都需要你主动去问。如此种种,还不够方便。

换句话说——给 Livis 下指令、随口聊聊天问问信息还行,想让它当一个「随车秘书」就不太方便了。

总之,对于一款「汽车周边」,理想 Livis 眼镜基本达到了我们对于眼镜、智能以及控车的期待,更何况哪怕抛开所有「智能」的部分,它依然是一款相当不错的蔡司眼镜。

理想 AI 眼镜 Livis 的起售价为 1999 元,整镜国补后 1699.15 元,而配备 1.60 折射率的透明屈光镜片到手仅需 2005.15 元。这价格在外面单买蔡司镜片可能都不够,理想还给你送一副智能眼镜。

▲ 理想 AI 眼镜 Livis 各版本售价

对于非车主来说,这是一副支持线上配镜、蔡司加持且音质不错的智能眼镜,听歌、拍照、录像、随时问答。

而对于车主而言,不仅能用上方便无感的语音车控,Livis 还能取长补短、变身成为车载的头枕音响,说不准等以后功能更加完善了,还能实现语音召唤车辆驶出车位、AI 智能聚合变成你的随车秘书等等高级功能,想想都刺激。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


终于发布的Gemini 3,什么是它真正的王牌?

Gemini 3 Pro 预览版上线那一刻,很多人心里的第一反应可能是:终于来了

遛了将近一个月,这里暗示那里路透:参数更强一点、推理更聪明一点、出图更花一点,大家已经看得心痒痒了。再加上 OpenAI、Gork 轮番出来狙击,更加是证实了 Gemini 3 将是超级大放送。

这次 Gemini 3 的主打卖点也很熟悉:更强的推理、更自然的对话、更原生的多模态理解。官方号称,在一堆学术基准上全面超越了 Gemini 2.5。

但如果只盯着这些数字,很容易忽略一个更关键的变化:

Gemini 3 不太像一次模型升级,更像一次围绕它的 Google 全家桶「系统更新」。

模型升级这一块的,Google 已经把话说得很满了

先快速把「硬指标」过一遍,免得大家心里没数:

-推理能力:官方强调 Gemini 3 Pro 在 Humanity’s Last Exam、GPQA Diamond、MathArena 等一堆高难度推理和数学基准上,全部刷出了新高分,定位就是「博士级推理模型」。
-多模态理解:不仅看图、看 PDF,甚至还能在长视频、多模态考试(MMMU-Pro、Video-MMMU)上拿到行业领先成绩,说看图说话、看视频讲重点的能力,提升了一档。
-Deep Think 模式: ARC-AGI 这类测试证明:打开 Deep Think 后,它在解决新类型问题上的表现会有可见提升。

从这些层面看,很容易把 Gemini 3 归类为:「比 2.5 更聪明的一代通用模型」。但如果只是这样,它也就只是排行榜上的新名字。连 Josh Woodward 出来接受采访都说,这些硬指标只能是作为参考。

换句话说,「跑了多少分」只是一种相对直观的表现手法,真正有意思的地方在于 Google 把它塞进了哪些地方,以及打算用它把什么东西连起来。在这一个版本的更新中,「原生多模态」显然是重中之重。在这一次的大更新中,「原生多模态」显然是重中之重。

如果要为当下的大模型找一个分水岭,那就是:它究竟只是「支持多模态」,还是从一开始就被设计成「原生多模态」。

这是 Google 在 2023 年,即 Gemini 1 时期就提出来的概念,也是一直以来他们的策略核心:在预训练数据里一开始就混合了文本、代码、图片、音频、视频等多种模态,而不是先训一个文本大模型,再外挂视觉、语音子模型。

后者的做法,是过去很多模型在面对多模态时的策略,本质还是「管线式」的:语音要先丢进 ASR,再把转好的文本丢给语言模型;看图要先走一个独立的视觉编码器,再把特征接到语言模型上。

Gemini 3 则试图把这条流水线折叠起来:同一套大型 Transformer,在预训练阶段就同时看到文本、图像、音频乃至视频切片,让它在同一个表征空间里学习这些信号的共性和差异。

少一条流水线,就少一层信息损耗。对模型来说,原生多模态不仅仅是「多学几种输入格式」,这背后的意义是,少走几道工序。少掉那几道工序,意味着更完整的语气、更密集的画面细节、更准确的时间顺序可以被保留下来。
更重要的是,这对应用层有了革命性的影响:当一个模型从一开始就假定「世界就是多模态的」,它做出来的产品,与单纯的问答机器人相比,更像是一种新的交互形式。

从 Search 到 Antigravity,新总线诞生

这次 Gemini 3 上线,Google 同步在搜索栏的 AI Mode 更新了,在这个模式下,你看到的不再是一排蓝色链接,而是一整块由 Gemini 3 生成的动态内容区——上面可以有摘要、结构化卡片、时间轴,虽然是有条件触发,但是模型发布的同时就直接让搜索跟上,属实少见。

更特别的是,AI 模式支持使用 Gemini 3 来实现新的生成式 UI 体验,例如沉浸式视觉布局、交互式工具和模拟——这些都是根据查询内容即时生成的。

这个思路将一系列 Google 系产品中发扬光大,官方的说法是更像「思考伙伴」,给出的回答更直接,更少套话,更有「自己看法」,更能「自己行动」。

配合多模态能力,你可以让它看一段打球视频,帮你挑出动作问题、生成训练计划;听一段讲座音频,顺手出一份带小测题的学习卡片;把几份手写笔记、PDF、网页混在一起,集中整理成一个图文并茂的摘要。

这部分更多是「超级个人助理」的叙事:Gemini 3 塞进 App 之后,试图覆盖学习、生活、轻办公的日常用例,风格是「你少操点心,我多干点活」。

而在 API 侧,Gemini 3 Pro 被官方明确挂在「最适合 agentic coding 和 vibe coding」这一档上:也就是既能写前端、搭交互,又能在复杂任务里调工具、按步骤实现开发任务。

这一次最令人惊艳的也是 Gemini 在「整装式」生成应用工具的能力上。

这也就来到了这次发布的新 IDE 产品:Antigravity。在官方的设想中,这是一个「以 AI 为主角」的开发环境。具体实现起来的方式包括:

-多个 AI agent 可以直接访问编辑器、终端、浏览器;

-它们会分工:有人写代码,有人查文档,有人跑测试;

-所有操作会被记录成 Artifacts:任务列表、执行计划、网页截图、浏览器录屏……方便人类事后检查「你到底干了啥」。

在一个油管博主连线 Gemini 产品负责人的测试中,任务是设计一个招聘网站,而命令简单到只是复制、复制、全部复制,什么都不修改,直接粘贴。

最终 Gemini 独立完成对混乱文本的分析,真的做了一个完整的网站出来,前前后后所有的素材配置、部署,都是它自己解决的。

从这个角度看,Gemini 3 不只是一个「更聪明的模型」,而是 Google 想用来粘住 Search、App、Workspace、开发者工具的那条新总线。

回到最直觉的感受上:Gemini 3 和上一代相比,最明显的差别其实是——它更愿意、也更擅长「帮你一起协作」。这也是 Google 对它赋予的期待。

压力给到各方

跳出 Google 自身,Gemini 3 的 Preview 版本实际上给整个大模型行业,打开了一局新游戏:多模态能力应用的爆发势在必行。

在此之前,多模态(能看能听)是加分项;在此之后,“原生多模态”将基本配置——还不能是瞎糊弄的那种。Gemini 3 这种端到端的视听理解能力,将迫使 OpenAI、Anthropic(Claude)以及开源社区加速淘汰旧范式。对于那些还在依赖「截图+OCR」来理解画面的模型厂商来说,技术倒计时已经开始。

「套壳」与中间层也会感到压力山大,Gemini 3 展现出的强大 Agent 规划能力,是对当前市场上大量 Agentic Workflow(智能体工作流) 创业公司的直接挤压。当基础模型本身就能完美处理「意图拆解-工具调用-结果反馈」的闭环时,「模型即应用」的现实就又靠近了一点。

另外,手机厂商可能也能感到一丝风向的变化,Gemini 3 的轻量化和响应速度反映的是 Google 正在为端侧模型蓄力,结合之前苹果和几家不同的模型大厂建立合作,可以猜测行业竞争将从单纯比拼云端参数的「算力战」,转向比拼手机、眼镜、汽车等终端落地能力的“体验战”。

谁最强已经没那么重要了,谁「始终在手边」才重要

在大模型竞争的上半场,大家还在问:「谁的模型更强?」,参数、分数、排行榜,争的是「天赋」。到了 Gemini 3 这一代,问题慢慢变成:「谁的能力真正长在产品上、长在用户身上?」

Google 这次给出的答案,是一条相对清晰的路径:从底层的 Gemini 3 模型,往上接工具调用和 agentic 架构,再往上接 Search、Gemini App、Workspace 和 Antigravity 这些具体产品界面。

你可以把它理解成 Google 用 Gemini 3 将以原生多模态为全新的王牌,并且给自己旗下生态中的所有产品,焊上一条新的「智能总线」,让同一套能力,在各个层面都得以发挥。

至于它最终能不能改变你每天用搜索、写东西、写代码的方式,答案不会写在发布会里,而是写在接下来几个月——看有多少人,会在不经意间,把它留在自己的日常工作流中。

如果真到了那一步,排行榜上谁第一,可能就没那么重要了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


还在用 Gemini 3 写 ppt?太土了,来看看最酷炫手势互动(附提示词)

Gemini 3 发布之后这些日子里,我逐渐感到疑惑:为什么总让 AI 写网站写 PPT,Gemini 都发到第三代了,不能干点更有意思的事吗?

要那种科幻感强的、效果酷炫的、难度系数高的,但小白也能做的。比如这种:

或者这种:

Gemini:手势交互?没问题,包的。

在开始之前,先准备好 Gemini 3,这里是一点点的注意事项👇🏻

目前有三种方式开启玩耍:Gemini 客户端 Canvas 模式、Google AI studio-Playground 和 Google AI studio-Build。

其中,最不推荐的是客户端,亲测无法有效拉起摄像头,并且,下面都是手势互动项目,举着手机,手自然也是没法做操控的。

后两者中,Build 是直接形成一个 app,你可以分享给其它朋友,缺点是 tokens 有限。而 Playground 会生成一套代码,需要下载到本地再打开,一旦换个电脑就可能运行不了,但优点是几乎没有 tokens 限制,每天一百万,量大管饱。

考虑到交互项目比较消耗 tokens,所以 Playground 更为合适,个别小项目用 Build 也可以,这就看个人情况而定。

Jarvis

Jarvis HUD 面板是在推上超过二十万次浏览的热门爆款,手势操控仪表球,就像钢铁侠操控 Jarvis 那样,酷毙了。

参考 prompt 如下:

create a webapp using vanilla js, html, css, modern threejs, mediapipe. it should be a sci-fi tony stark / iron man / jarvis experience focused on simulating an AR heads up display experience. full screen webcam input shown. add a heads up display that tracks the user’s head (offset to the right), with live updating metrics. a minimal 3D world globe should be shown on the left center of the screen, that should be able to be rotated / sized by the user hand gestures

在 Build 模式下,亲测完全可以实现一次成型,Gemini 会自动安排任务、编写代码,调用不同的接口,进度条显示完成后,点击 Preview 就能直接打开——记得放行摄像头权限。

 

Gemini 3 自己就把效果设计安排得明明白白:左手是放大缩小,右边是转动,双手进入摄像头范围后会显示触控点——这些都是 prompt 里没有的,都是它自己的「想」出来的。搭配大屏幕或者投影,真的很有 Jarvis 既视感。

左边的地球建模和右边的面板的内容都是可以改变的,最初 Gemini 3 让右边的面板显示人体体温(显然是凭空编的),后来被我改成了「实时显示左侧地球模型的直径」。反正 vibe coding 一下,想怎么改怎么改。

雨滴控制

Jarvis 都有了,惊天魔盗团不也得安排上。

看电影时只有特效,但现在,有 Gemini 3 了。参考 prompt 如下:

用 HTML+JS+ML 模型做个网页应用,通过摄像头检测手势,实现用手势来控制雨滴动画的暂停、静止和升格效果。动画效果保持在雨滴垂直方向,风格参考电影《惊天魔盗团》

这个 prompt 的第一轮表述完全是按照我看电影之后的想法写的,每个细节都可以通过 vibe coding 再调节。根据第一轮 prompt,Gemini 会加入它自己的设计,比如这具体的手势就是它想出来的。

虽然是用 AI 做的,但是在识别手势动作时非常灵敏,包括不同手势之间的切换都能够快速响应。

3D 粒子

控制雨滴曾经是非常复杂的特效技术,就在《惊天魔盗团 2》上映之后,有一个饮料公司做了一支广告,通过控制雨滴,实现静态的粒子效果。

那么参考「控雨术」,Gemini 完全可以实现上面这种结合实拍和速度控制才能出现的效果,最接近的就是 3D 粒子。所以我又做了一个 3D 粒子效果的交互案例。

非常酷炫!prompt 参考如下:

用 Three.js 创建一个实时交互的 3D 粒子系统。通过摄像头检测双手张合控制粒子群的缩放与扩散,提供 UI 面板可选择爱心/花朵/土星/佛像/烟花等模型,支持颜色选择器调整粒子颜色,粒子需实时响应手势变化。界面简洁现代,包含全屏控制按钮

一次成型,最后出来的交互非常丝滑,尤其是对于手势的识别很准确又灵敏。

【小技巧】

涉及到颜色、布局、UI 设计等等细节,如果每次都用 vibe coding 的方式来调节,表述起来会很麻烦。并且每一次 vibe code 都存在抽卡的情况,所以有一个非常实用的技巧是:加上自定义模块,尤其是颜色、大小等,这样可以完全自主搭配自己喜欢的配色方案。

技能五子棋

由雨滴想到粒子,由粒子想到移动,由移动想到——五子棋!我终于可以做技能五子棋了!!

仔细想想,五子棋不也是一个手势控制、飞来飞去的交互方式吗!飞沙走石移动棋子,力拔山兮移动棋盘,全都安排上!

Prompt 参考如下:

做一个手势互动小游戏「技能五子棋」:主页面为五子棋棋盘,默认已经摆放好棋子。当用户做出「单手甩手」的动作时,棋子会跟随甩动的方向飞出棋盘。当用户做出「双手甩动」的动作时,棋盘会跟随甩动方向飞动

Gemini 自己完成了物理逻辑和手势之间的衔接,我的 prompt 只需要描述效果,而具体的速度向量计算、检测阈值,都不用我管。

它甚至还重新命名了「技能」:万象天引。

这叫飞沙走石啊 Gemini 老师!

节奏音乐游戏

综合上面的几个尝试,Gemini 的毋庸置疑,而且回想一下这些技能树:手势识别、色彩变化,这些组合起来,不就是小游戏吗?

于是我尝试了更复杂一点的项目:节奏游戏。

音游玩过很多了,但是零经验小白真要做一个游戏、怎么给 Gemini 形容我想达到的效果,还真是花了一点脑筋 ,后来第一版 prompt 如下:

做一个用手势操控的音乐游戏,主界面为四条音轨,用户上传音乐文件后,四条音轨上按节拍出现光点,用户需要用手势准确拍击出现的光点,背景为复古合成波(Synthwave)风格,背景、音轨和光点的颜色可以自定义调节

这基本上是我能想到的雏形,根据第一版 prompt,Gemini 选择了 Pygame 作为游戏引擎,继续使用 MediaPipe 做手势追踪,并且加入了 Librosa 用来分析音乐。

选择复古合成波风格是因为它有明确的视觉标志——Gemini 也识别出来了——落日、霓虹渐变色、网格和驶向地平线的道路,非常适合节奏音游。

果然做游戏比前面的一些小交互复杂多了……先是只能识别一只手,得调整;然后是无法上传音乐,得调整;到了第三版才稍稍有点样子

但是在体验过中我发现一个比较 bug 的地方:判定线的位置离屏幕边缘太近了,而摄像头的识别范围是有限的,我的手稍微放低一点就无法被识别。

一开始我尝试的方法是,把判定线移动到屏幕居中位置,保证我的手始终能在摄像头捕捉范围内。

但是又出来一个问题:光点出口和判定线之间的距离过短,留给我的反应时间也很短,更别提点击动作还有一点点点的延迟,整个可玩性大大下降。可是放太低就还是会出现手掉出识别范围的情况。

一时之间我还真想不到这个矛盾该怎么办,于是,我直接去问了 Gemini 能怎么解决。

它直接指出了这个问题的症结所在,并且提出了「视觉欺骗」的方式来优化体验,并且加了一个自定义滑块来调节偏移,这样一来无论手在什么位置,都可以通过调节滑块来对齐判定线。

天才。

后来我还指出,感觉光点的出现跟节奏不太一致,为了解决这个问题,Gemini 又加了一个滑块用来调节延迟。虽然我仍然认为它并没有很好地分析节奏型,但是这个滑块的设计还是很有效,尤其是解决了戴着蓝牙耳机导致的延迟。

【一些小技巧】

本质上,只要有 prompt 就有抽卡的情况存在,但抽卡未必就不好。当碰到非常硬伤的 bug,比如始终无法调用摄像头、无法上传文件等等,vibe coding 时反复修改也没效果,不如就直接「新建项目」。核心功能反映在代码上,彼此之间有所牵连,重新跑一遍,让 AI 整体性地补足,远比一点点 vibe coding 要更有效率。当然,能看懂代码就会更有效率,可以针对性地解决。 只不过,对于完全的零码选手来说,还不如直接重新抽卡。

在 AI 之前,做手势交互的应用,得先学点儿 Touch Designer,最好还懂点儿部署。这些都得一点点翻教程,反复研究,在这个过程中搞不好就被劝退了。

有了 AI 之后有多简单,自然不用多说。更关键的是,手势交互原本的门槛远比生图、做 PPT 要更复杂,却又能让小白零码选手快速领略到做应用的乐趣。

唯一留下的,是对审美的挑战。在这些案例里能看到,Gemini 有点审美,但不多,设计、配色等等都是差强人意。代码的「硬」技能它可以掌握,留给我们的,就是对于审美的挑战。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


继 Nano Banana 2 之后,国产 AI 生图又杀出「一致性标杆」,Vidu 生图限时无限免费

说实话, AI 生图工具有时候真的让人又爱又恨。

刚认识的时候(第一次生成),你会觉得它惊为天人,哪哪都好;可一旦你想跟它深入发展(做成系列图、落地进工作流),它就开始「掉链子」,陷入抽卡玄学。

这种「只能看不能打」的状态,真拿它干活就会无比「拧巴」,在 Nano Banana 这样的工具出现后,事情终于开始改变,原来 AI 是可以被更精确控制的。

现在,终于也有国产 AI 接力,进一步把这条路跑通。Vidu Q2 最新上线的文生图、参考生图、图像编辑功能就是这个路子:卷完「好看」,它开始死磕「稳定性」。

这次 Vidu Q2 直接把技能点全加在了「一致性」上。什么概念?就是把「人设崩坏」、「产品变形」、「画风突变」这些老大难问题统统按在地上摩擦。

简单说,它不只是想让你发个朋友圈炫技,而是真想让你拥有一套能「从头用到尾」的实用创作流。

在最新的 AA 榜单里,Vidu Q2 首次上线的图像编辑能力甚至超越了 OpenAI 的 GPT-5,最难能可贵的是,作为成立才 2 年多的创业公司,用技术实力说话,跟 Google、字节这种大厂并列前三,追赶 Nana Banana Pro,直接把「省心」两个字拿捏了。

Vidu 还搞了一个长达 1 个月的「免费大礼包」,敞开大门让大家薅羊毛。即日起至 12 月 31 日,Vidu 会员生图「免费」,无论是参考生图、文生图还是图像编辑,统统随便造。标准版和专业版会员每月也有 300 张免费额度,旗舰版更是免费无限生图。

今天我们就趁着这个「无限续杯」的机会,拿 Vidu Q2 的生图功能狠狠考验一下,看看它到底能不能拯救我们的发际线。

开局一张图,剩下的全靠它「脑补」

Vidu 在一众 AI 工具中,是最早就把「围绕一张图持续参考创作」当成核心能力来打磨的。在国内多参生图中支持的输入图数量最多,一致性也最高

在最近 Vidu Q2 的更新里,这项能力又被往前推了一大步:不仅支持更复杂的多参考组合,还大幅降低了生图门槛——设计师、导演、甚至是喜欢创作的普通用户,都可以用自己熟悉的方式提供主体图和环境参考,由模型一键复刻动作、位置、布局、纹理、光线、色彩等,自动去「对齐要求参考图、保持角色不变」。

多参生图

在多参生图场景下,我们给 Vidu Q2 参考生图的输入非常接近真实工作流:一张是最近的全运会「顶流」大湾鸡,另一张是希望出现的场景氛围,夕阳下外滩的观景台。

然后我就写了一句简短的提示词,剩下的全交给它。

结果出来,我直接「瑞思拜」。

它不是那种傻瓜式的把主体抠图贴上去,而是真的在这个场景里「重算」了光影。主体的光影方向会跟环境一致,动作也随着指令准确变化。

甚至我让它变成喷绘印在汽车上,连车身上的倒影色彩都给你算得明明白白。

更关键的是,多次生成不同构图和姿势时,许多都能保持高度一致,比如大湾鸡胸前的图案、头顶的彩色冠,这一点在传统靠 prompt 调参的生图流程里往往很难做到。

这就很灵性了。对于品牌方来说,以前要把一个 IP 形象放到不同场景里做海报,得建模、渲染、P 图,现在?几秒钟搞定,而且那种「违和感」完全消失了。

空间一致性

更绝的是 Vidu 对空间关系的理解能力,当我要求「大湾鸡穿梭在故宫雕花栏杆中」时,Vidu 并没有像其他 AI 那样跟栏杆穿模,或者变成恐怖片现场。

它居然先根据环境图「脑补」了故宫的空间结构,让大湾鸡自然地走在走廊空间中。

再来上个难度,让 AI 角色参考复杂武打动作。

过去 AI 角色无法准确还原你设计的复杂动作,不是动作变形就是人物在打斗过程中变了一个人。而现在通过 Vidu Q2 参考生图则解了 AI 创作者的燃眉之急,可以一键复刻动作,让你的 AI 主角也能拥有十八般武艺。

如下面的案例中,两个动漫主角精准还原了图 1 中的打斗姿势,同时人物服装、面部细节、空间位置关系都保持了极高的一致性。

这种对「空间」的理解,让参考生图不再只是贴背景,而是真正具备了为分镜、镜头调度服务的能力

这种对空间的理解力,用来做电影分镜或者像最近很火的《疯狂动物城 2》那种合影海报,简直不要太好用。

比如下面的案例,同一张图+不同镜头提示词,即可生成足球少年踢球的特写、远景、足球特写等,并通过图生视频,剪辑为一个完整的叙事镜头。对于短剧动漫影视制作,省去了一个画面需要多次拍摄或者绘制大量分镜的环节,妥妥的生产力提效工具。

再通过 Vidu Q2 图生视频功能,输出两人在足球场上抢球的精彩视频:

在风格一致性方面,传统 AI 文生图功能想象力很好但是往往一致性表现很差,风格前后不一致、人物融合的情况屡见不鲜,而 Vidu Q2 不仅支持上百种动漫风格,而且还能在生成的连续多图中保持风格的一致性和故事的连贯性。

比如让 Vidu Q2 文生图几句话生成四格漫画,不仅风格、人物保持前后一致,细节稳定,而且几句话让它一次性拉出完整故事:

从这些案例可以看到,Vidu 在参考生图上的升级,并不是停留在「把图生得像」这一层,而是把「主体一致性」和「空间理解」一起纳入考量:一方面,它能围绕参考图,稳定地生成人物不同角度、不同氛围、不同风格、光线下的一整套画面;另一方面,又能把环境图当成真实空间来处理,而不是简单的背景贴图。

不只是玩具,是实打实的「实战神器」

如果说参考生图解决的是「第一张图怎么定」,那 Vidu Q2 全新上线的图像编辑则真正让这张图进入日常工作流,实现更加精细化的画面控制,满足实际商业化场景需求。

Vidu 在这一块的定位很直接:覆盖 90%的常见图片编辑场景——加元素、减元素、换背景、换颜色、调光线、变焦、比例切换,都可以用自然语言完成,在连续修改的过程中又始终保持主体的一致性。

在替换与局部编辑的测试里,我试着把一张车站广告换成马斯克,要是以前,我得抠图抠到眼瞎,但现在就几秒就能搞定,直接一键复刻。

以后看到爆款广告、爆款封面,可以像这样大批量一键复刻,4K 直出,直接上架,做广告、社媒不要太轻松。

类似的,下面的案例里,要求是为三个女孩加上酒杯——Q2 不仅完成了该要求,还根据光线涉及了酒杯的折射,完善了三个人的手部细节。

图片编辑是真正的「实战型」能力,尤其是电商或者社媒营销这样的场景。很多产品图的前期其实只有一个简单线稿:设计师给的是草图,运营要的是立刻就能上架的主图。

这就是图片编辑可以大展拳脚的时候,我们用 Vidu 做了一次完整的草图 → 上色 → 材质替换的演练。先是生成了家具的线稿图,然后直接一键用于参考生图,在 prompt 中指定好材料和风格。

Vidu 通过材质渲染,一步到位,做出细节满满又准确的实物图。紧接着还是一键复用,变换家居风格的提示词,沙发在不同家居风格的实景展示就出来了。

同一商品想要变换材质,也可以轻松实现。

可以发现,Vidu Q2 在图像编辑上的能力,其实正是把「多参生图时代的底层能力」落到了实处:识别谁是画面里的主体,把他/她/它锁定住,然后允许你用大白话对其周围的一切做增删改,甚至跨越多张图和一段视频。

这就好比以前你是开手动挡得调各种参数,现在 Vidu 给你整了个自动驾驶。你只需要把心思花在创意上,剩下的粗活累活,它全包了。

这里面还涉及到另一个非常有用的能力:保存主体。我们可以将上述 Q2 文生图/参考生图/图像编辑后的图片一键保存为主体,把这个 IP「收进了角色库」,后续在 Vidu 的参考生视频中,都可以直接调用主体。

之后无论是换背景、换动作,还是把他/她放进新场景,只要选中这个角色、IP,模型都会严格保持人物一致,不会出现下一秒生成的主角和前一秒不一样的情况。

参考生图——保存主体——参考生视频,Vidu 打通了从灵感到成片的一站式工作流,再也不用在不同平台来回切换了,简直是短剧动漫,广告电商从业者的福音,目前 API 已同步上线。

AI 内卷,别谈「颠覆」,先谈「干活」

对于创作者来说,以前用 AI 干活儿是一种怎么样的体验?大概就是痛并快乐着:上一秒它给了你一张惊为天人的神图,下一秒让你在接下来的十小时里,因为复现不出那个眼神而心态崩盘。

在 AI 创作工具演进的十字路口上,我们观察到了两种不同的产品哲学。

Midjourney 这类产品像一台性能强劲的「引擎」,只有硬核极客才能驾驭那些复杂的参数和咒语般的 prompt,试图把单张图片的审美上限推到极致。

够酷,够极客,但也够折磨人。

而 Vidu Q2 选择了一条更务实、甚至看似「无聊」的路——做一台谁都能开的「量产车」。它不再执着于制造随机的惊喜,而是死磕「稳」字。

这种把所有步骤都帮你封装好的「傻瓜式」链路,才是真正的生产力。毕竟,对于那些被甲方催着改稿、被运营催着上线的团队来说,比起灵机一动的「随机性」,更加需要可交付的「确定性」。

也许在某些极端艺术风格的探索上,它或许不如那些参数党工具来得狂野自由,甚至因为太追求稳定,少了一些「意外之喜」的灵气。

但对于那些对于深受「抽卡」折磨的创作者,Vidu Q2 提供了一种久违的安全感。

当行业在谈论 AGI 的宏大叙事时,Vidu 低下头,不再只是给你造虚无缥缈的梦,先帮你把手里的砖搬稳了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


夸克 AI 眼镜体验:超细镜腿没负担,还能给出手机旗舰级画质

「看起来很普通」,这句话对智能眼镜来说却是很高的评价,而这正是夸克 AI 眼镜最亮眼的地方。

就在昨天,阿里旗下的夸克正式发布了 S1 和 G1 两个系列共六款 AI 眼镜,起步价分别为 3799 元和 1899 元。我体验的是带显示的旗舰款 S1,而它给我的第一印象是:这可能是目前最接近普通眼镜的智能眼镜。

更细的镜腿、更小的光机

智能眼镜的痛点一直是镜腿的宽度。不同于市面上其它智能眼镜「宽腿粗框」的外形,夸克 AI 眼镜最独特的地方就是超细镜腿——从侧面看,它的镜腿只有 7.5mm 宽,是全球同类产品中最窄的,戴起来就和普通的眼镜框没有什么区别。

为了把镜腿做得更细,眼镜的电池被安排在了镜腿尾部,左右腿各一个。调整眼镜重心的同时,右侧的电池还被巧妙地设计成了可插拔的「换电」功能,日常使用中能够快速地延长续航时间。

超细镜腿压缩了显示光机的空间,但夸克还是通过定制方案实现了双目双光机,亮度最高可达 4000nits,实测在户外确实清晰可见。比较特别的是合像距可调节功能,可以在手机 App 中自定义不同功能界面的「显示距离」。

系统也为不同功能设定了不同的默认距离,例如需要和人面对面交流的「翻译」界面就设定在 2m,需要留意路况的「导航」就设定在 9m,不仅能降低眼球的压力,也能保障出行安全。

手机同款影像处理能力,表现超预期

说实话,我对于这款眼镜的画质预期并不高,目前的智能眼镜囿于体积和功耗限制,很难做到显示和拍摄两头都强。但实际用下来,它有挺多亮眼的表现。

光线充足的情况下能实现快速抓拍,日间的画质表现稳定,夜景照片经过和手机上类似的 RAW 域处理后也能获得低噪且色彩还原度很高的画质。

除了能直出 1080P 和 3K 两种分辨率的视频以外,防抖效果也很让我惊喜,骑行画面没有大幅度起伏,也没有防抖处理的残影。值得一提的是,配套 App 内为视频提供「AI 超分」、「AI 插帧」和「防抖」的后处理功能,最高能将视频提升至 4K@60fps 的规格。在硬件已经使出浑身解数以后,通过软件优化,也不失为一种好思路。

阿里亲生的眼镜,打通内部生态

同样属于 AI 方面的功能还有眼镜里搭载的阿里千问闭源模型,借助五麦克风阵列和骨传导技术,夸克 AI 眼镜能在嘈杂环境里准确拾音并很快地给出响应,除了常规的语音问答和调节眼镜本身的显示和声音以外,还能直接在眼镜端发起导航,或者拍照搜同款识别价格。

由于同属阿里系,夸克 AI 眼镜与淘宝、支付宝、高德等应用的整合较为深入。眼镜内的「识价」功能可以直接识别商品并显示淘宝同款价格,手机端使用高德地图发起导航能直接在眼镜中投屏显示,支付宝的「看一下支付」也终于是迎来了第一方设备的支持。

除此之外还整合了高德打车、飞猪旅行、阿里商旅、航班/高铁管家中的行程信息,直接通过眼镜画面进行实时通知。眼镜内的听歌功能打通了网易云及 QQ 音乐的会员曲库,还能在眼睛前直接显示滚动歌词。

夸克 AI 眼镜 S1 在设计上取得了明显进步,7.5mm 的镜腿让智能眼镜真正接近了普通眼镜的佩戴感和外观,显示效果和 AI 功能完成度较高,阿里生态的整合带来了显著的差异化优势。

智能眼镜本就是消费电子行业最大的趋势,而在人工智能、手机数码、传统视光等多个领域的玩家纷纷入局以后,这个趋势可能会比预期要来得更快一些。目前来看,夸克 AI 眼镜 S1,这份阿里交出的第一份答卷,表现着实亮眼。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


中日争端中,台湾人吃日料对高市早苗表达支持

简繁中文
纽约时报 出版语言
字体大小

中日争端中,台湾人吃日料对高市早苗表达支持

郭莉莉, PEI-LIN WU
台湾总统赖清德在总统府发布的一张照片,他正在食用含有日本海产的寿司。
台湾总统赖清德在总统府发布的一张照片,他正在食用含有日本海产的寿司。 Taiwan Presidential Office, via Reuters
随着寿司午餐和印有日本新首相头像的巧克力引发热议,台湾企业、官员和民众正在团结起来支持自己的邻居。东京方面此前表示,日本可能会在中国对台发动攻击时进行军事干预,引发了北京强烈反弹。
日本首相高市早苗本月表示,若北京企图夺取台湾可能会引发日本的军事回应。此后,北京派出军舰在靠近日本的争议水域巡逻,发布赴日旅游警告,并释放将限制日本海产品进口的信号。
这对台湾而言是痛苦的熟悉境遇——随着中国试图切断其国际支持,台湾面临日益加剧的经济与军事威胁。而面对北京坚持将这个民主岛屿视为中国领土的立场,日本民众对台湾的支持也在重新高涨。
当北京在2021年禁止进口台湾凤梨时,日本在那一年订购了创纪录的1.9万吨凤梨,日本首相安倍晋三——高市早苗的政治导师——还与台湾凤梨合影。
广告
现在台湾热切地投桃报李。台北政府已经取消了自2011年福岛核事故以来对日本食品进口的所有限制,包括海产品。就在周五宣布解禁的前一天,台湾总统赖清德发布了一段自己品尝寿司或在台湾设有分店的日本超市Lopia采购食品。台湾外交部周六呼吁民众吃寿司喝日本啤酒,配文附上台湾旗帜表情符号,后面是爱心符号和日本国旗表情符号。
“你们都吃些什么呢?也许,现在是吃日本料理的好时候了,”他说,但没有提及高市早苗的言论。这位总统表示,他午餐的寿司包含本地花枝和用台湾鸡蛋制作的玉子烧,彰显了台日“坚固的友谊”。
在芯片制造巨头台积电的所在地新竹,一名前县委员承诺,将向1000名当地居民每人发放1.8万日元(约820元人民币),供他们去日本旅行使用。(日本保守党党魁百田尚树此前曾表示,如果每个日本公民消费1.8万日元左右,就能弥补中国将限制日本海产品进口的信号。
前县委员孙金青告诉当地媒体,自从他周日宣布这一提议以来,他已经接到了70到80个电话。“高市早苗情义相挺台湾,我们台湾人也要相挺回去,”他告诉民视新闻网。
其他台湾政界人士也在社交媒体发布照片,展示自己品尝寿司或在台湾设有分店的日本超市Lopia采购食品。台湾外交部周六呼吁民众吃寿司喝日本啤酒,配文附上台湾旗帜表情符号,后面是爱心符号和日本国旗表情符号。
周一,在台湾南部城市高雄的一家Lopia商店里,印有赖清德吃寿司图片的彩色传单为“台日友好”寿司套餐优惠活动做宣传。51岁的IT从业者戴旭恭(音)正在挑选寿司和鳗鱼盖饭。了解到中国可能禁止进口日本海鲜后,他决定购买更多的日本产品。
周一,高雄一家日本超市内张贴着展现台日友谊的海报。
周一,高雄一家日本超市内张贴着展现台日友谊的海报。 Pei-Lin Wu/The New York Times
“身为台湾人本来就要支持日本,”他说。“人家都欺负你了,还不支持你的朋友?”
台湾最大的食品公司之一义美食品也在考虑批量生产一种限量版巧克力棒,其包装上印有高市早苗的照片。据义美公司发言人说,该公司首席执行长是在高市早苗当选后委托制作这款纪念品的。它不向公众出售。但在过去的几天里,该公司收到了“大约100个”想要购买这种糖果的顾客的询问。
广告
台湾地区距离日本本土不足110公里,面对中国在该地区不断扩张的军事存在,日台关系日益紧密。台湾分析人士指出,这正是习近平主席周一致电特朗普总统时强调“台湾回归中国”重要性的关键因素。
“很明显就是中国大陆应该是藉着华盛顿给东京施加压力,”台北国立政治大学外交教授黄奎博表示。“因为表示说你看我跟川普现在沟通很好,随时都可以通话。”
然而,在台湾,日本领导人对中国的强硬回应似乎激发了公众的支持,居民呼吁更多的人从日本购买“民主海鲜”和“自由扇贝”。
周一,新北市69岁的林月鑫上传了自己吃日本干贝的照片。
她向时报表示,众多日本网友留言致谢令她深受感动。
“真朋友之间本來就是要情义相挺。所以干贝就通通运过来吧,”她说。“他们不买的,我们就买;他们不去的,我们就去。”

Kiuko Notoya自东京对本文有报道贡献。

郭莉莉(Lily Kuo)是《纽约时报》报道中国记者,常驻台北。

Pei-Lin Wu是《纽约时报》记者/研究员,报道台湾和中国新闻。

翻译:纽约时报中文网

点击查看本文英文版。

免费下载 纽约时报中文网
iOS 和 Android App

点击下载iOS App 点击下载Android App
© 2025 The New York Times Company.

Nano Banana终于不是文盲了,但我可能会变「傻」

过去一个周末 Gemini 3 Pro Image 的能力被反复「折磨」,花样越来越多——噢,你问这是什么,它的另一个名字是 Nano Banana 2。这么跟个恶搞一样的名字,居然被保留下来了。

Nano Banana2 各方面能力超群,甚至是「友商」Sam Altman 也要点头的程度。

▲ 图片来自:The Information

夸夸只是夸夸,Nano Banana 第二阶段,其实标志着 AI 图像生成领域的一个重要转折点:从基于概率的「以此类推」,转向了基于理解的「逻辑构建」。更承载着一个特殊的意义:AI 不再只是冲着你的眼睛去,还冲着你的智商去。

大语言模型不再「文盲」

一直以来 AI 生图都有个绕不过去的问题:才华横溢,信手拈来,但有时候就跟喝高了一样控制不住,这从 Midjourney 时期就开始了,往后走逐渐好转,不过始终存在。

其中最大的 bug 之一就是文字。这导致在很长一段时间里,鉴别一张图是否由 AI 生成,最简单的办法就是看图里的字。

这是基于扩散模型(Diffusion Model)的先天缺陷:它将文字视为一种纹理,而非符号。

Nano Banana 2 最直观的突破,就在于它「识字」了。即所谓的 Text Rendering 文字渲染。

我的随手测试「生成一张复古电影海报,标题是《香蕉的复仇》,副标题用红色衬线体写 2025 年上映。」

如果是在以前尝试这个指令,大概率会得到一张极具艺术感的图「BANANA REVENGE」的某种变体尚且能保持清晰和正常,但小字往往经不住看了,甚至有时候主标题都会拼写成「BANNANA」。但在 Nano Banana 2 里,这些字符被准确、清晰、且符合排版美学地「写」在了画面上。

So what?这仅仅是省去加字的时间吗?

对普通用户来说可能是,而且还是一种「表情包自由」。你终于可以生成一张精准吐槽老板的图,配上精准的文案,不用再单独拉一个文本框。

而对于商业世界,这意味着 AI 图像生成从「素材(Material)」阶段,正式跨入了「成品」(Deliverable)阶段。

▲ 图片来自 X 用户@chumsdock

当 AI 能够准确地处理符号信息,它能交付的成果就更多样也更实用,包括但不限于电商海报、PPT 配图、甚至是数据图表。以前设计师用 AI 只能生成背景底图,关键信息还得自己贴。现在,AI 可以直接生成原型图,乃至带有数据标注的饼状图,或者一张文字完美贴合透视关系的广告。

这是商业交付的「最后一公里」,也是生图模型在信息传递层面的巨大进步。

从「猜概率」到「懂物理」

字渲染的成功是 Nano Banana 2 底层技术跃迁的一个极具代表性的缩影,更深层的变化在于:这只「香蕉」,长了脑子

也就是我们所说的基于「推理」的图像生成。

大模型本质上是一个概率统计机器。当你要求画一只「坐在玻璃桌上的猫」时,模型通过学习数亿张图片,在生成时,它只是重现像素的统计规律。

Nano Banana 2 的不同之处在于,它引入了 Gemini 3 语言模型的推理能力。在生成图像之前,它似乎先在「大脑」里构建了一个物理模型。它知道「猫」下面通常会有模糊的影子,以及玻璃板上、下的物品有不同的光线关系。

在我的另一个随手测试中,当要求它生成「一个复杂的化学实验室,桌子上放着装有蓝色液体的烧杯,背景是黑板上的分子式」时,它表现出了惊人的逻辑性:

烧杯里的液体会有正确的弯液面;玻璃器皿对光线的折射符合物理直觉;最重要的是,背景黑板上的分子式不再是乱画的线条,而是看上去像模像样化学结构的式子(虽然还是有瑕疵)。

当画笔有了「大脑」,交互方式变了

之所以如此强调文字生成这个本领,是因为 Text Rendering 是外在表现,反映的是 Reasoning 作为内在引擎。合在一起, Nano Banana 2 带给用户的最终体验,就是一块「会思考的画布」(The Thinking Canvas)。

Google 将这个模型深度整合进了它的生态系统,不仅仅是生成图片,更是「修改」现实,下一步,就是走进更严肃的领域:信息图、教案、讲解素材,等等等等。

整体上,图像生成往往用户给 20% 的指令,剩下 80% 靠 AI 脑补——以前是靠概率脑补(随机填色)。现在则是靠因果脑补,不仅画出了「结果」,还隐含了「过程」,这能够让画面的叙事性和感染力指数级上升。

它不再只是为了取悦你的眼睛,它开始试图取悦你的智商。像上面这种结构图,虽然吧不敢说 100% 符合机械工程标准,但钉是钉,铆是铆。「逻辑上的正确」,是它推理能力的直接体现。

然而任何事情都是一体两面的,当换一个角度看,这就可能意味着创造力的同质化

当 AI 能够完美地生成「符合商业标准」的图表、海报和插画时,它实际上是在拉平审美的平均线。所有的海报都排版正确、光影完美,但可能也因此失去了曾经设计中那些因为「不完美」而诞生的神来之笔。

▲ 图片来自X用户@dotey

更深层的问题在于真相的消逝。当上面所说的那种逻辑正确、信息「干货」多的内容,可以被批量生产,取悦智商从未如此容易,也从未如此轻飘飘。如果它决定了我从图片信息到文字信息的所有摄入,那……会是怎样的景象?

还有 Deepfake 这个老大难问题,已经是老生常谈了。虽然这次 Google 加上了 SynthID(一种人眼不可见的数字水印)来标记 AI 内容,但在视觉冲击力面前,技术的防伪标签往往是苍白的。制造「真实」变得如此廉价和便捷,我们对「眼见为实」的信仰将被彻底重构。

至于它叫「Nano Banana」还是「Gemini 3 Pro」,其实已经不重要了。重要的是,从这一刻起,我们在屏幕上看到的每一个像素,每一行文字,都可能不再来自人类的手指,而是来自机器的思考。

这既令人兴奋,又让人在某些时刻,感到脊背发凉。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


30秒做应用、实时写图文,「灵光」想用AI重塑创造力边界

想要在手机放一个 AI 助手,选项不少,但要么像个「高级复读机」,要么是信息的搬运工——天知道,我想要的是一个能真干活的助手,一个除了能说还能动手的「创意合伙人」。

今年你应该也感觉到了,AI 正在从「能聊」变成「能干」。OpenAI 搞了个 Atlas, Google 即将发布的 Gemini 3.0 让 AI 直接操作电脑……大家都在玩同一个方向:让说话变成操作,让对话变成动作。

刚刚,蚂蚁也推出了一个新的全模态通用 AI 助手灵光。它不跟你绕弯子,你开口,它动手——把你脑子里的想法,变成眼前能看、能用、能玩的东西。

从回答到表达,AI 也需要信息美学

灵光的落地页是熟悉的对话窗口,只需要用自然语言发起请求,比如「告诉我这罐饮料的热量」或「记录一下今天的饮食摄入」,极大地降低了上手时的学习成本,也让整个 App 显得比传统应用更流动。

看起来还是像聊天对话啊?其实,跟灵光的每一句对话,对它而言都是一次行动。下面是三个你很可能也会用到的真实例子。

最近因为全运会,广州也享受了一把网红城市的待遇,尤其是广州塔,每天都被游客包围。我问了灵光,「广州塔在建筑设计上有何特别之处?」它返送的不只是文字说明,还带上了一个可交互的 3D 建筑模型。

可以旋转、可以拉近看结构细节,可交互的形式让我清晰直观地感受到了广州塔双面扭转结构、斜交网状外筒的设计语言。

在和灵光的对话中,它不仅能告诉你答案「是什么」,还能让你看到答案「长什么样」。文本、图像、结构动画都整合在一起,整个问答体验,就像在对话里放进了一个实时生成的「解说图文」。不管是建筑专业学生、城市爱好者,甚至只是出于兴趣想多了解这座地标,都能真的省下了你一点点搜索、翻页、拼凑资料的时间。

紧接着,我补充了一个追问「那帮我规划一个附近的美食打卡行程吧」,它马上理解这个「附近」是广州,并直接生成了一张可缩放的交互地图,标注了六七家风格不同的小店,甚至还有「隐藏路线」。每个点位都能点开看推荐理由、评分、营业时间,甚至还顺带估算了步行路线。

惊人,直接在手机上就能生成可以交互的内容展示,放眼整个行业也并不多见。

如果说这两个案例是让人感受到「好看、酷炫」,那接下来要展示的,是灵光的「理性美」。

对于一个优秀的通用 AI 助手来说,一问一答显然是不够的,而是要能实现结构化的输出,也就意味着需要对信息语义的深度理解和再组织——不仅是检索信息,更能提炼信息点,智能理解语义并进行分层。

比如,碰到「为什么消费品牌正在出售中国区业务/为什么拟物风格的 UI 设计会退潮?」这些既需要宏观视野,也需要微观分析的问题,灵光的回应方式并不依赖大段大段的文字,而是先拆解出关键因素——如消费市场变化、品牌生命周期、股东压力等——再依此组织内容输出,形成一组因果清晰、逻辑递进的解释结构。

以标题+概括的卡片式风格,镶嵌在一个完整的图文里,可以避免枯燥,又不像 PPT/网页报告那样冗长无重点。这样的结构化输出不仅逻辑清晰,也在视觉上展现出一种「信息美学」:干净、聚焦、节奏舒适,不仅让信息吸收更高效,也模拟了专家型写作者的内容组织方式,让 AI 输出更像一份「讲得通」的深度内容,远不仅是「查得到」的浅层答案。

你可能已经想了一路了:这到底是怎么做到的?为什么能既结构清晰,又视觉友好,还能实时互动?

其实在接收到问题时,灵光会调动一套以代码生成为核心的内容创建流程。无论是图文、地图还是 3D 动画,底层都是由模型即时写出对应代码、样式和组件,再动态拼装呈现出来。要完成这些工作,并不是由一个大模型孤军奋战,而是由多个智能体协作实现:有的负责图像,有的负责布局,有的调取数据结构……像搭积木一样。

既整合不同内容体裁,又能适配常见的内容呈现方式,从而给出极其自然的内容。最终实现的效果,也更适合转发、截图、总结成「朋友圈可用」的内容——既有理性判断,又能传递个人观点和情绪

一句话、30 秒,给自己做个 App

如果说对话中能做图、做路线规划已经够神奇,那么接下来的能力接近「魔法」:用键盘敲一句需求,它就能直接帮你把一个小 App 搭好。

用 agent 生成应用,现在处于一个比较尴尬的位置:很多应用总是卡在「能理解、不能执行」的断点上。而灵光的「闪应用」瞄准的就是这个痛点,对话已经超越调用和请求工具的步骤,能够做到直接生成工具。

是的,不是生成一段代码、一个原型、一个建议,而是原地生成一个「即刻能用的工具」。实现想法终于不再是程序员专属的快乐,闪应用可以给每个普通人亲手「造东西」一个起点。

来看看它是怎么让「想法落地」变得这么轻巧的:我给它的第一个任务是,「我想要一个能把长文本拆分成更小段落的工具」。

仅仅 30 秒,一个可以设置段落数、自动分段文件的小工具就出现了,甚至不需要打开新页面,它会将生成结果直接嵌在对话流中,点开即用。

再来一个轻巧又实用的例子:做一个菜单翻译器,这里的要义在于:既能把外语菜名翻译成中文让我知道是什么,又能原样朗读出外语,方便我点菜。

理解文字,生成语言,组织界面,并且用声音反馈——这些能力以前得靠多个组件组合才能实现,可能还需要我详细解释代码逻辑,现在只用一句话,它就全都打包完成。

无论是出国旅行用来点菜,还是练习口语用来熟悉菜名表达,这样的小工具一经生成就能上手,真正做到了「即做即用」。这背后是一套完整的应用构建:不仅能输出前端页面,还能一并调用大模型的后端能力。不仅给你实现了代码,还免费给你上 UI 设计。像翻译、语音合成这些动态模块,全都集成在这个小工具里。

这样一来,生成出来的成品就不只是个 demo,而是真的能与用户实时互动、响应输入,具备完整的前后端逻辑闭环。

与其花时间翻遍整个应用商店,拿闪应用一分钟做一个完全贴合我个人需求的小工具,显然更快也更好。灵活、即时、零门槛。它不是通用解法,而是「为这一次定制」的临时小解决方案,却能激发普通人对「创造」的心理满足感——哪怕不懂开发,也能凭一句自然语言体验「自己做了个小应用」的快乐和分享冲动。

带着「眼睛」展开互动

实时视频已经是目前 AI 助手的「标准配置」了,灵光给这个功能起了个相当有创意的名字:开眼。还真挺贴切,不是靠打字输入,而是打开摄像头,如同给 AI 打开了眼睛,接受另一种自然语言:视觉语言。

比如举起手机对准一杯奶茶,屏幕上马上浮现出饮食建议、保存注意事项,还带着几个延展提问,满足你的好奇心:

这个功能在食品药品上非常方便,无论是给自己选,还是给父母买了新产品他们却不认识时,灵光开眼正好能大展身手。

开眼的特点在于,通过流式识别,超越简单的「认得一个东西」,而是变成了能做出响应、展开对话的智能视觉入口。它能理解你此刻潜在的意图,主动发起跟进动作,把一次镜头下的识别。变成一套连贯的行为链条。

比起那些只能识别 Logo 或商品的旧时代 AI 视觉,它明显走得更远了一步:不仅识别是什么,还试图理解你为什么看它、接下来可能需要什么。

也就是说,它把「摄像头」变成了另一个对话渠道,一种通过视觉引导交互的对话,真正意义上的「开眼」:带着「眼睛」展开互动。

把「创造」这件事交还给了每一个人

语言就是编码,需求就是原型。对话从来不是最终目的,它真正的价值在于:变成生产力的触发器。灵光打破了「提问—回答—再动手」的传统路径,把语言本身变成工具的起点。让「我有个点子」变成「我已经做出来了」之间的路径更短、更直觉。

原本需要懂代码、设计、产品逻辑的人才能做出的 App,现在用一句自然语言就能生成。普通人第一次可以用日常语言直接「生产」一个功能工具、一张内容卡片,或者一段交互流程,「自己做自己的产品经理」。这种从「会说话」到「能造物」的跃迁,标志着生产力门槛的全面打开。

在 AI 行业的下一阶段,拼的早已不只是「谁的模型更强」,而是「谁能把能力转成体验」。年初 DeepSeek 引领了中国在开源模型的浪潮,2025 年快结束了,我们在灵光上看到 AI 交互范式新可能性。它用非常具体的方式,示范了一条关键路径:从底层大模型,到中层工具能力,再到用户侧的应用产品。

这一次,「AI 能做什么」终于从实验室语言,变成了用户能用的日常动词。把「动手做」变成了「开口说」,也把「创造」这件事交还给了每一个人。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


第一波 2025 年度词汇出炉,一半毫无悬念,一半完全懵圈

近几年,各大词典评选的年度词汇中,AI 相关的新词异军突起。最新出炉的 2025 年柯林斯词典年度词汇,选择了「vibe coding」,这个今年几乎是最热门的 AI 技术。

如果再往回拨一点,稍早前牛津、韦氏、Dictionary.com 和剑桥等机构发布的一系列热点词,不难发现,AI 已经深刻影响了我们的语言,已然是生活中的高频词。

Vibe Coding:年度最热门技术词

「Vibe coding」在中文里并没有一个完美的翻译,比较流行的译法是「氛围编程」。这个词最早由特斯拉前 AI 总监、OpenAI 创始工程师 Andrej Karpathy 提出,形象地描述了 AI 能让人们「几乎忘记代码本身存在」也可以开发应用的情景。

不懂编程的用户,用自然语言对话,就生成计算机代码。开发者只需要告诉 AI 自己想要一个什么功能或应用,AI 就能自动生成,实现「凭感觉,写代码」的效果。

「Vibe coding」之所以能够登上 2025 年度词汇宝座,一方面从数据上能看出来——自 2025 年 2 月首次出现以来,这个词在媒体和社交平台上存在感飙升,贯穿了一整年。柯林斯词典的语言学家从包含 240 亿词汇的语料库中捕捉到了这一趋势,认为这个词充分反映了一年来语言的演变。

另一方面,这个选择揭示出 AI 技术在 2025 年的社会文化热度之强:程序员群体在讨论,普通用户也在谈论,「AI 可以帮我写代码」已成为大众认知的一部分。正如柯林斯官方博客所说,这个词「捕捉了我们与科技演变中的某些根本变化」,它不仅在硅谷科技圈内流行,更折射出 AI 作为「超强辅助」,已渗透日常生活的广泛文化转向。

今年的柯林斯 2025 年度词汇候选名单可谓科技味十足。同榜的还有「clanker」,这个词源自《星球大战》,不过,现在它多用于对 AI 聊天机器人的批评,类似于中文语境里说的「人工智障」。

「biohacking」指生物黑客式的自我改造;「broligarchy」调侃科技富豪把持权力的「兄弟寡头政治」等。这些五花八门的新词一起勾勒出 2025 年的图景:从工作到娱乐,AI 正重塑我们的语言和生活方式。

技术语言如何渗透生活

实际上,从去年起,各大权威词典发布的年度词汇中,就有多条都和 AI 热潮有千丝万缕的联系。

牛津词典:Brain rot 脑腐

英国牛津大学出版社把「brain rot」(脑腐)评为 2024 年的年度词汇,是去年讨论度最高的一个年度词汇。这个带点夸张的俚语,指的是「大脑或智力状态的退化」,主要是用来形容过度沉迷于碎片化数字内容,从而导致的迟钝、注意力退化等等。

2024 年人们越来越注意到,无节制地刷社交媒体,大量低质、无营养的信息让人「脑子生锈」。这个词生动地概括了在碎片化内容时代,身心都在接受信息过载的挑战。牛津语言部总裁卡斯帕·格拉斯沃尔评价说:「brain rot 道出了数字生活潜在的危险。」他认为,这个词标志着有关人性与科技的新一轮文化讨论。

在无人注意的角落,牛津去年的年度词汇候选列表里,还有另一个与 AI 直接相关的词,「slop」,意指「由人工智能生成的劣质网络内容」。虽然最后未当选,但它出现在提名中本身就说明,AI 生成的内容,数量已经到了惹人反感的地步。

无论是「brain rot」还是「slop」,都从不同侧面反映出 2024 年人们对数字内容生态的担忧,以及 AI 算法在其中扮演的复杂角色。

韦氏词典:Authentic 真实

韦氏词典在 2023 年选择的年度词汇,是「authentic」真实的,同时也有「本真」的意思。这个词存在已久,但在充斥 deepfake 和 AI 生成内容的一年里,它的脱颖而出,意义非凡。

2023 年与 AI 相关的新闻和讨论激增,引发了人们对「authentic」这一概念的关注和大量查询,搜索量暴增。正是因为 AI 可以轻易生成以假乱真的图像、视频和文本,人们也就越来越难分辨真伪。所以,对于「真实的、原汁原味的」的追求成为社会心理的一个重要主题。

韦氏词典主编彼得·索科洛夫斯基在解释这一选择时提到,「authentic」有「非伪造、真实可靠」之意,也包含「忠于自我」的延伸意义。它成为年度词汇,某种程度上是对科技充斥下社会心理的映射:当聊天机器人可以模拟人类口吻聊天,当 AI 可以模仿名人声音,我们比以往任何时候都更加珍视人与信息的真实性。

剑桥词典:Hallucinate 幻觉

英国剑桥词典则把目光投向了「hallucinate」幻觉。剑桥将其评为 2023 年的年度词汇之一,原因在于这个心理学动词在当年获得了全新的技术含义。

原本,hallucinate 主要用来指因为生病或服药副作用,导致出现幻觉、看见不存在的东西。不过在 2023 年,人们开始用它描述大语言模型「胡编乱造、产出虚假信息」的现象。

剑桥词典专门为此新增了 AI 相关义项,并表示这一新义「切中了 2023 年人们热议 AI 的核心原因」——生成式 AI 功能强大,但不是没有问题,「hallucinate」正好一语道破了 AI 最大的弱点之一。

值得一提的是,剑桥选择「hallucinate」紧随柯林斯词典将「AI」本身选为 2023 年度词汇之后。也就是说,从「AI」这种宏大的技术概念,到「hallucinate」这样具体描述 AI 缺陷的术语,AI 相关词汇在权威词典的年度榜单上实现了连纵霸榜,说明了眼下 AI 居高不下的热度。

从「vibe coding」到「hallucinate」,AI 相关词汇接连登上年度词汇榜,绝非巧合。

当 AI 改变世界时,也在改变着我们的语言;它们有的描述了 AI 给生活带来的便利,有的反映出人们对 AI 潜在问题的担忧,还有的表达了数字时代人们内心的矛盾与诉求。这一系列语言现象背后,恰恰是 AI 正以前所未有的深度,介入我们的工作、娱乐和社交。语言的变化又反过来成为时代的一面镜子,折射出科技与社会的碰撞。

One More Thing

柯林斯是今年较早发布年度词汇的机构,另一个是 Dictionary.com,但是他们选择了一个奇怪的词:67。读作「六、七」,而不是「六十七」。

Dictionary.com 组委会分析了大量数据,包括新闻标题、社交媒体趋势、搜索引擎结果等,发现从 2025 年夏天开始,对这个数字的搜索量有明显的增长,而且一直在增长。

这个词的意思大概就是「还行」「凑合」「及格线」,六分七分吧。确实有点抽象,不好理解。Dictionary.com 的组委会说,他们还在努力弄明白它到底是什么意思,但它的确展现了一个新词,如何随着年轻人的爱用、多用而迅速风靡全球。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


AI 生成的歌首次登顶权威音乐榜,还把人听哭了?

无人注意的角落里,权威榜单 Billboard 接二连三地迎来一批新歌手上榜,低调但行动快速,闷声就登顶了。

等一下等一下,大家发现:什么?又是 AI?

榜一《Walk My Walk》是 AI 生成的歌曲作品你,从数据来看,它不仅登顶了,还连续在榜了三周。对于任何一个新人来说,都是堪称「爆」了的成绩。

然而这不是人,只是 AI。Billboard 发现,登上自己榜单的 AI 歌手和歌曲,已经越来越多了。

冠军?什么来路?

其中一位 AI 歌手,Xania Monet ,出道两三个月,发过的歌却个个受欢迎。最新的《How Was I supoosed to Know?》在油管直接是百万播放量,这还没算 Tiktok 和 Instagram 的数据。

自夏天出道以来,Xania Monet 已在 Billboard 的多个排行榜上取得佳绩,不到两个月内,已创造超过 5 万美元收入。

AI 歌手并不是新鲜事,甚至,用 AI 做一个数字人形象,也不是新鲜事。但我确实想知道,Xania Monet 为什么会有如此的表现。

要知道,很多人不只是看不出来她是 AI,更加是觉得她的歌很好听,很动人。

这不高低得尝尝咸淡。听了几首之后,我很快意识到为什么:主题。

Xania Monet 的歌在旋律上并没有什么特别之处,这很正常,AI 生成的音乐,不会偏离主流形态太远,毕竟是数据算出来的。

唱法层面,该有的细节都有:颤音、转音、声区切换,但还是那句话,这些都是可以生成的。而且在一些细节上,还是有瑕疵。比如在一些高音时,很像是挂了 auto-tune,有点点轻微的「电音」感。

可是,她的歌全部围绕着当代人的 emo 情绪出发,歌词写得相当切中人心。

看看这个歌词,非常写实地描绘了恋人之中,只有一方付出,另一方只会闪躲的情态。这首歌就叫做《I asked for so little》,可以翻译成「我要的不多」,典型的苦情歌,受到欢迎完全不稀奇。

在这首《Still not choosing me》中,写的是为什么「我爱的人不爱我」,很常见的主题,经典永流传。没有人永远失恋,但总有人正在失恋着。

之前的视觉效果 AI 感还是很强,尤其是视频,基本上经不起细看。

但是到了她的大热单曲《How Was I supoosed to Know》,不仅是唱感情问题,还唱到了原生家庭伤痛:父母没有教过什么是好的「爱」,只能让孩子带着伤痕,「错把虚情当真爱」。

这不得掀翻了社交媒体,简直是 buff 叠满。

而且相比于早期简陋的动态歌词板,《How Was I supoosed to Know?》制作精良了不少,不仅没有粗糙的 AI 感,音乐编曲也好了不少。片尾一看,多了许多名字——背后有人了。

Xania Monet 出道没多久,就能够强势上榜,自然也引来了不少橄榄枝,很快就签了公司 Hallwood Media,经纪合约价值三百万美元。

难怪,有了公司,新歌档次都上去不少,登顶榜单也就不奇怪了。

等下,你说你去找了 Billboard,没看到这首歌?

登顶,但没完全登顶

这里的确有一个小小的信息差:Xania Monet 登上的是垂类电台榜单之一,Adult R&B Airplay Chart 成人 R&B 电台播放榜。

这是一个衡量美国成人 R&B 广播电台播放频率的榜单,以电台播放数据为口径。要知道,现在美国依然有大量覆盖全国或地区的 FM/AM 广播电台,这些电台每天仍然需要大量歌曲轮播,并且还是保持着人工编辑的体系。

Billboard 与一个叫 Mediabase 的监测机构合作,利用自动识别技术(audio fingerprinting),监控这些电台在每小时、每个地区播放了哪些歌,统计播放次数、时间段、地区等,最终形成榜单。

这意味着,Xania Monet 的歌想要被电台播放,仍然需要编辑加入到播放列表当中。她能登顶,恰恰意味着这些歌已经被不少 R&B 电台认可并轮播,进入了日常听众的耳朵中。

平时开着车、做着家务而随手打开电台的听众,可能根本不知道她是 AI 歌手。

这使得她登顶的榜单,意义更加独特:她恰恰是因为已经在社交媒体上很红了,才进入电台视野。

简单点说:Xania Monet 无论是在流量层面,还是在品质层面,都出现了一些「逆转」。尽管专业圈内人还是批评态度,一般听众却相当受感动。

类似的评论还有很多,般听众并不会细究创作过程,他们更关心歌曲本身能带来怎样的情绪体验。

不过,这并不意味着 AI 就已经登峰造极,可以写出打动人心的歌了——尤其是 Xania Monet 的例子里,她的旋律和演唱是由 AI 生成的,可是歌词,却完全是来自人类创作者。

Xania Monet 背后,是一位叫做 Telisha “Nikki” Jones 的创作者,她并非专业歌手,但是热爱写诗填词。今年她接触到了 Suno,尝试把自己写的诗歌和歌词输入进去,设定诸如「灵魂唱腔」「慢板 R&B 风格」「轻吉他配重鼓点」等一系列风格关键词,然后让 AI 创作出完整的歌曲。

歌词 100% 源自琼斯本人的经历和情感,例如《How Was I Supposed to Know?》,灵感正是来自 Jones 童年时就失去父亲的真实创痛,这些发自肺腑的诗句后来成为歌曲的核心。

歌词和主题的确是 Xania Monet 最出挑的地方,当然,歌曲和演唱也没有拖后腿,都是在平均水准之上的。主歌旋律通常舒缓真挚,副歌迸发情感张力。

在 Jones 的设定中,Monet 的嗓音突出灵魂乐质感,唱腔也一下就抓住了听众的耳朵。再加上歌词写得细腻动人,全部加在一起,这才能如此受到欢迎。

可以说,Xania Monet 提供了一个 AI 创作的「高分示范」:保证核心内容(主题歌词)的品质,同时完全原创,从而规避版权风险。从音乐作品到人设都走真情路线,而不是「为了 AI 而 AI」,把生成本身当噱头。

听众更容易把她看作一个有血有肉的新人歌手来欣赏,自然比面对一个夸张虚拟网红时更能产生好感。

最关键的一点:作品本身够打动人。这也是最「背反」的一点,回想我一开始听 Xania Monet 的歌时,已经知道了她是 AI,所以从未关注她的唱法,却能够一下子识别出歌词和主题是她的突出点。

这是不是意味着,AI 始终难以越过一道天堑,那种细腻幽深的情感,归根到底无法「生成」,只能来源于人自身。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


GPT 5.1 披「马甲」公测,免费可用,杀入年底大更新战场

Gemini 3 还没影子,GPT 5.1 已经在路上。7 号深夜,OpenRouter 平台上线了一个全新的隐名模型。已经有眼尖动作快的网友尝鲜体验,并且认为这就是披着马甲的 GPT 5.1,暂名:Polaris Alpha。

目前提供 API 调用(包括 OpenRouter),知识库截止时间为 2024 年 10 月,不支持推理模式。最大 context 容量 256K,单次最大输出 128K。

开发商信息保密,但是在网友的不懈努力下,成功「越狱」,让 Polaris Alpha 自曝了家门。

▲ 图片来自 X 用户 @LarryAtherton1

这倒也算不上实锤,可能只是训练数据的问题——很多模型都会输出来自专有供应商的数据。除非系统提示中明确说明,或者通过指令调优反复灌输,否则这些模型实际上并不「知道」自己是什么。

无论如何,目前暂时没有官宣,暂且就还是叫它 Polaris 吧。APPSO 也第一时间简单试用了一下。由于是通过 API,部分功能比如处理语音素材暂时受限,除此之外,Polaris 的表现,让人相当期待 GPT 5.1。

案头工作:流畅,一如既往

首先是一些比较基础的简单任务:根据要求写邮件。这是一封道歉邮件,跟嘉宾通报活动改期。我特地强调了口吻要既饱含歉意,又表示亲近,让 Polaris 感受一下。

算是中规中矩吧,信息齐全,行文逻辑清楚,语气不会有强烈的「人机感」。比较神奇的是,在打开 Search 模式的前提下,Polaris 会去检索一些道歉信的写法,而它的引用信息里,居然有淘宝百科…… 看上去 Polaris 覆盖的信息源越来越多,也越来越冷门了。

然后是需要创意想法的文案写作任务,prompt 我都给得很模糊,只要求有网感,适合在小红书上传播。

Polaris 给出了三种不同的风格,给出的文案非常完整。后面还给出了活动具体执行的方案。从这里已经可以看出来,措辞上颇有 GPT 系会有的文字风格。也有网友专门做了相似性统计——马甲快要披不住了。

文字风格仍然是每一个大语言模型的立身之本,毕竟现在最主流的应用场景就是案头工作。2026 年都快要来了,还给出「人机味」的文字,是不能被原谅的。目前 Polaris 的文风,有相当典型的「GPT」风味,很多网友都有同样的感受。

同时,对于 chatbot、聊天、陪伴等应用场景里,文风能否快速适应用户节奏,并且灵活「习得」个性化的口吻,也将是 GPT5.1 面临的挑战——全球用户要求 4o 回来的盛况,OpenAI 应该不想再经历一次了吧。

由于不能直接处理音频文件,我上传了转录后的播客文字稿,让 Polaris 整理提炼信息点,适当调整口语化的地方,重点是:根据不同的主题维度,拉出一个层次明确的提纲,同时保留时间戳。

输入目前看来可以超过 1w 字(单条发送),受限于 OpenRouter 每个窗口只能保存八条记忆的限制,超长输入会一定程度的影响输出稳定性。不过自我纠正能力不错,第一次跑的时候生造了并不存在的时间戳,重抽一次之后自行纠正了。

自从 GPT 5 之后,ChatGPT 的单个窗口容量明显增大,从社交媒体上的反馈来看,最高的 token 总数可以去到 60 万-80 万才达到上限。这对于个性化用户信息而言是个非常好的信号,但不可避免的是,超长上下文额之后,会出现记忆调度的失序,以及输出稳定性的下降。

这留给了 GPT 5.1 全新的挑战,如何在进一步扩大窗口容量之后,依然保持灵活准确的记忆调度。对于用户而言,几乎是第一秒就能感受到的决定性体验。

编程:超简单,超顺滑

OpenRouter 提供几种基础的编程工作实现和预览。我快速用它测了一下 Polaris 写小游戏的本事。

最直观的感觉是时间稍微有点久,差不多要个五分钟了。不过倒是不需要我提供复杂的 prompt,「设计一个贪吃蛇游戏代码」,就足够生成一个可以上手的小游戏。

甚至还提供不同的模式、设置,在 preview 里的试玩都很顺畅。另外又让它跑了一个打地鼠游戏,也是顺利完成。

网页设计也很 OK,我把上面生成出来的咖啡馆文案,丢回给 Polaris,让它设计一个活动的落地页。

Polaris 研究了整个文案,并且加入了一些补充,最后出来的视觉效果也不错,我挺喜欢它给按钮设计的发光效果,这似乎是它的一个「独家特色」,在其他网友的测试中也出现了:

▲ 图片来自 X 用户

从网上的其它测试是来看,它的美学表现值得期待。

▲ 图片来自 X 用户 @HarshithLucky3

这些基础工作都没有太大的问题,但老实说,现在 AI 编程的赛道堪称白热化,而 GPT 系产品在编程上,竞争力一直不算很强。GPT 5.1 实装后,在编程上的表现能不能有大突破,只有继续等待才能知道。

前阵子 Sam Altman 明确发话表示,年底时 ChatGPT 将推行 NSFW 模式(成人模式),在目前的 Polaris 上,似乎已经看得到苗头了。

如果是这样,那 Polaris 是 GPT 5.1 的证据又多一条,尤其是考虑到最近 OpenAI 已经在小范围内做年龄验证,这并非全量行动,而是针对不确定实际年龄的用户做定向推送。

成人模式的争议很大,实际执行也并不如想象中简单,除了验证,还有隐私信息识别、储存等一系列麻烦。到底能不能有一个平衡多方诉求的解决方案,还得看真正的 GPT 5.1 如何应对。

眼瞧着年底又是一场血战,Gemini 3 早就放出风声(虽然一直跳票),Nano Banana 2 也突然冒头。更别提前阵子 Kimi K2 Thinking 的发布,收获了海内外一大波关注,训练成本仅为 460 万美元。

OpenAI 仍然有着惊人的支出,虽然也有着惊人的活跃用户群,但盈利还看不到苗头。在一系列又强又便宜的中国模型的狙击下,GPT 5.1 能达到期望吗?

快知道了,网传 11 月中就将发布,到时或许会有答案。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


微信机器人 会的来聊一下

zhangpulin:

老婆公司在做私域电商的,之前是用机器人发品的,6 月份微信严格起来,封了一批号后,卖协议的哪个人不干了,导致一直手动发品,最近公司又裁员,发品工作量就翻倍了,一两百个微信群,一次只能转发 9 个,1 小时发一次( 09:00~22:00 ),完全没时间交流了,谁有协议,给介绍介绍呢,稳定点

❌