Normal view

There are new articles available, click to refresh the page.
Today — 7 April 2025Main stream

Llama 4 发布以及其引起的争议

7 April 2025 at 11:30
neteroster:

叠甲:我知道本文内容可能有些看起来像是大模型生成的,不过实际上是纯手工写的...


昨天( 2025 年 4 月 6 日),Meta 宣布开源(开放权重) LLama 系列的最新作 LLama 4 ,包含三个版本:

Llama 4 Scout

  • 109B 总参数,激活 17B
  • 宣称“业界领先的 10M 上下文窗口”

Llama 4 Maverick

  • 400B 总参数,激活 17B
  • 宣称“在广泛接受的基准测试中表现优于 GPT-4o 和 Gemini 2.0 Flash 。”
  • 宣称“在推理和编码方面实现与 DeepSeek V3 相当的结果——但仅使用一半的激活参数量。”
  • 宣称“无与伦比的性价比,聊天版本在 LMArena 上的 ELO 得分为 1417 。”,同时 LMArena 上公布了对应的成绩。

Llama 4 Behemoth

  • 暂未开放权重[1]
  • 2T+ 总参数,200B+激活参数

初看下来,许多人会认为开源这两个模型又是长上下文,又是以低成本超过 4o / DS V3 ,理所应当是一个强大,至少有许多亮点的模型。然而,事实却完全不同:

很快,用户发现在 LMArena 上测试的中号模型 Maverick 和公开权重的模型在语言风格上差别很大,甚至都不像同一个模型

这时,有部分用户猜测这是因为模型提供商的推理配置不正确,应当等待修复。

随后,更多基准测试对开源的两款模型进行了测试:

Aider Polyglot Benchmark

Aider 是一个开源的编程 Agent ,Polyglot Benchmark 是他们制作的多语言大模型基准。这一基准被认可度还是较高的。

...
claude-3-7-sonnet-20250219 (no thinking)    60.4%
o3-mini (high)                              60.4%
DeepSeek V3 (0324)                          55.1%
...
Qwen2.5-Coder-32B-Instruct                  16.4%
Llama 4 Maverick                            15.6%
...

长上下文理解测试

Fiction.liveBench for Long Context Deep Comprehension 测试了两款模型的长上下文表现

long-context

其他测试

许多用户、组织在个人数据集上进行了测试,结果大致一样。


这些测试,加上许多用户的实际体验反馈证明:Llama 4 远没有其宣传的优秀,甚至可以说看起来不像这个现在时候发布的模型。

那么问题来了,这样一个模型( Maverick )究竟为何能在 LMArena 上拿下第二名呢。


首先来看看 Arena 评分的原理:访问 LMArena 的用户被要求与两个身份被隐去的大模型对话,并选择他们认为更优秀的那个。选择完毕后,两个模型的身份会被揭示,并且得到的数据用于计算大模型的排名和得分。

尽管 LMArena 在此前已经受到不少批评,认为其“更看重模型的输出格式和风格,而不是实际能力”,但是仍然在大模型评分领域受到较广泛的认同,因为他不像传统评分那样可以提前在测试集上进行训练,提高模型的表现。


经过各种讨论和研究,用户发现,原来并不是提供商的配置有问题,而是 Meta 开源出来的版本和 Arena 上的版本确有区别

具体来说,送 Arena 测的是 Meta 针对聊天专门微调的 Maverick 模型。他被训练地非常兴奋、激动以提高用户的新鲜感,从而提高得分。但是这样做使得模型的日常问答几乎不可用:光是说一句“你好”模型都会回复几千 Tokens ,并且在知识问答中产生大量幻觉(想体验的可以直接去竞技场 Direct Chat 栏目测试)。


目前这种行为已经引起了对 Meta 的广泛批评。

他们把宇树的网红机器狗「剥皮拆骨」,发现了它倒立行走的秘密

By: 莫崇宇
7 April 2025 at 13:34

这,是蛇年春晚的顶流机器人 H1,凭借一手丢手绢的绝活,火遍了大江南北。

这,是一款能侧空翻、会鲤鱼打挺的人形机器人 G1,十八般武艺无一不精。

他们都来自同一家公司——宇树科技(Unitree),但其实在这些人形机器人声名鹊起之前,宇树便靠着机器狗狠狠出圈一波,比 H1 更早些时候上过春晚,也曾亮相于超级碗、冬奥会、亚运会等盛会。

宇树旗下的机器狗种类繁多,有面向消费级的 Go 系列,也有科研级的 A 系列和工业级的 B 系列。

其中,在主流电商平台,Go2 目前起售价接近 1 万块,与一张普通显卡的价格相当,这个价位也让其更像是一款面向市场的、相对高端的消费电子产品:

  • Go2 Air:适合轻型应用和家庭使用。
  • Go2 Pro:增强功能可满足更高的任务要求。
  • Go2 Edu:作为学习和实验平台,服务于教育目的

或许正是因为 Go2 价格相对「亲民」且定位贴近大众,知名维修网站 iFixit 也将目光投向了这款机器狗,并特别邀请了机器人专家 Marcel Stieber 对其进行了一次深入的拆解。

机器狗上「手术台」,得先断电

上「手术台」前,安全措施必不可少。

卸电池是标准流程,拿出机器狗侧腰处的电池组,拧开几颗 Torx 螺丝并取下电池仓盖后,便能看到内部用于连接顶部电量指示灯的 Pogo Pin 接口。

将电池组从塑料外壳中滑出,其结构一目了然:包含主接口、充电端口接口,以及若干用于导电的大铜条,这点用料还算扎实,能减少发热。

电池管理系统(BMS)则位于电池组后部,并通过 Pogo Pin 与外部的电量指示灯相连。这种接口可以方便地将 BMS 的信号传递到电量指示器,从而让用户能够直观地看到电池的剩余电量。

Unitree Go2 的标配电池电量为 8000mAh,续航时间约为 1–2 小时,最长可选 15000mAh,日常玩玩还行,真要干活可能不太够。电池组的核心由 32 节 18650 电芯阵列组成,也是比较成熟和常见的电芯类型。

根据标识,其生产日期为 2024 年 3 月 6 日。

移除固定 BMS 电路板的螺丝并小心将其翻开,可以看到下方的充电管理芯片以及一块连接各电池串(标记为 BT1 至 BT8)的子电路板。不过,BMS 芯片上的型号标记似乎被激光蚀刻掉了,无法识别具体型号。

耐用的幕后功臣,是这些「便宜货」

卸掉顶盖的螺丝并取下外壳。

首先映入眼帘的则是一个小型的散热风扇,左上方是一块无线通信板,标有 GNSS(全球导航卫星系统)连接点和另一个天线接口,由同轴电缆的连接方式,专家推测,这可能集成了 Wi-Fi 功能。

此外,我们可以看到一个以太网接口,但这并未为用户专门设计,它更可能主要是用于工厂调试、故障排除或内部维护。

另一个发现则是 XT30 连接器。

这是一种小型、高电流电源连接器,广泛应用于需要大电流传输的场景,如无人机、航模、电动工具、户外电源等。在硬件调试过程中,可以作为一种备用电源输入途径,允许在没有电池的情况下为主板供电进行调试。

主处理单元区域清晰可辨,其外观及配备的散热管和散热片都与英伟达 Jetson 板有相似之处。此外,还可以看到多个预留的风扇接口和一些调试端口。

主板上还集成了多个用于连接电机或执行器的高功率连接器。

事实上,在这款机器狗内部,这种布基胶带的使用相当普遍,目的也很明确,机器狗磕磕碰碰很正常,而胶带可以固定线缆,防止连接器松脱。

拆解进行到前部传感器,需要先小心地剥离覆盖在其上的布基胶带,然后使用撬棒谨慎地断开两个电缆连接器,由于这种细小的连接器比较脆弱,撬棒下手必须稳、准、轻。

在检查前部头部模块时,塑料外壳上明显存在裂缝,显然,这款机器狗平时没少摔,好在这种损伤多数不影响功能,用环氧树脂填充一下就可以,成本也不高。

在视频的结尾,专家继续对主板区域进行更深入的拆解。

又是一顿拆拆拆等常规操作,依次小心拔出连接 GNSS 模块(接收全球导航卫星系统信号)、MCU(推测为微控制器)等部件的连接器,并细心地贴上标签以防后续混淆。

继续移除连接电机的高功率连接器(标有 C-, C+ 等)、连接电池的主电源连接器以及一个小的电池通信连接器。

移除主板上的另一个散热风扇后发现,该区域还预留了更多风扇安装位。

这么设计的好处是,更高配的机器狗版本由于配置更高,(比如有更强的处理器),它就会产生更多的热量,这时候就需要更多的风扇来散热。

不过,装更多风扇也有坏处:风扇多了,就会吸进更多灰尘,还会用更多的电。这样一来,要么需要更大的电池来供电,要么机器狗的续航时间就会变短。

接着,移除两个 RF (射频) 连接器,同样做好标记,以确保后续正确连接。

拧下所有固定主板的螺丝,小心地将其从底盘上取下。移除主板后,便可看到固定底盘上下两部分的螺丝,将它们全部拧下后,即可分离底盘,一览无余。

最贵,但也最安全

激光雷达(Lidar)是 Go2 感知环境的关键。

其工作原理通过发射激光并测量反射光的回波时间来绘制周围环境地图,实现障碍物检测。简单来说,机器人利用预设的光速信息和高精度计时器,计算激光从发射到接收反射信号的时间差,从而判断物体的距离和形状。

Go2 搭载的是宇树自家的 Unitree 4D LiDAR-L1。

这是一款 4D 激光雷达(3D 位置+1D 灰度),它具有实现每秒 21600 次的高速激光测距采样能力,可探测最近 0.05 米、最远距离 30 米的物体(90% 反射率)。

L1 内置 IMU(惯性测量单元),工作温度范围为 -10℃ 至 60℃,其通过转接模块连接 Type-C 接口进行数据传输和供电,视场角(FOV)扩展至水平 360°,竖直 90°,可实现半球形视场角的三维空间探测。

在拆卸 Lidar 模块之前,需要拧下固定模块保护笼的四颗螺丝。

这个由厚实焊接钢材制成的保护笼,显然是为了在机器人跌倒或撞击时保护内部昂贵的传感器——要知道,仅这颗 LiDAR-L1 的成本就可能占到整机售价的五分之一以上。

随后,移除隐藏在腿部下方的一颗额外螺丝,断开连接线缆,以释放并拆下整个 Lidar 模块。

Lidar 模块的结构包含两个旋转轴:外圈的主旋转轴由下方电机驱动,实现水平扫描;内部的次级旋转轴(带有一个反射镜)快速旋转,实现垂直方向的扫描切片。两者结合,提供环境的 3D 视图。

在这里,需要补充一个细节。

在学术和工业领域,4D 通常指的是在三维空间(X、Y、Z 轴)的基础上增加时间维度(T)。例如,在自动驾驶领域,4D 激光雷达不仅要提供物体的三维位置信息,还要能够追踪物体在时间上的运动变化。

虽然 Unitree 4D LiDAR-L1 自称为 4D 激光雷达,但这里的 4D 是指 3D 位置信息加上 1D 灰度信息,传统意义上的 4D(3D + 时间)并不完全一致,所以也难怪专家认为这个命名多少有些营销的噱头。

倒立行走的秘密,藏在这里

Unitree Go2 机器狗全身共有 12 个关节电机。

这些电机分布在机器狗的四肢关节处,使其能够实现灵活的动作,如跳跃、伸懒腰、握手,甚至倒立行走、自适应翻身起立、翻越攀爬等复杂步态。

根据观察,专家判断每条腿包含三个电机:分别控制髋关节、膝关节(大腿部分),还有一个驱动小腿伸缩。

拧下固定外侧腿部电机组件的螺丝,将其与上部腿部分离,可以看到电机和连接器。一个有趣的设计是螺丝孔之间交替放置了多个电容器。

关节连接处采用了互锁齿轮机制,接触面是 CNC 加工的金属表面,以确保力传导的强度,外部的塑料「领圈」则主要起到将两部分固定在一起的作用。

这种设计可能是故意而为之,当受到极端外力时,塑料件或某个连接点会先断裂,从而保护更昂贵的核心部件(如电机和主板)免受损坏,降低维修成本。

再次被胶水折腾完,断开连接电机的三个连接器。

好在连接器本身带有防呆设计,后续可以避免插错。通过手动伸缩腿部,可以观察到内部电机通过齿轮减速器驱动小腿运动,提供了相当大的扭矩。

iFixit 的拆解并未深入到腿部内部,但他们利用 Lumafield CT 扫描仪进行了透视观察。在腿部与髋关节连接的地方,两个部件通过金属与金属的接合方式互相连接。

连接方式很结实,主要的力量(比如机器狗跑跳或者负重时产生的力量)就是通过这个连接点传递的,这也印证了之前的判断。

遛「Go」也是遛狗,好用也有趣

拆解完毕后,专家给出的结论是,这款机器狗集成化程度很高。

模块化设计也是个优点,理论上坏了哪个模块换哪个。所有东西都连到一块主板上,简化了布线,但也意味着主板一旦出问题,影响范围可能很大。

胶水问题前面吐槽过了,虽然能够加固,但也确实给第一次维修添堵,但熟悉上手后,倒也能接受,更重要的是,由于大量使用连接器而不是硬焊接,大大降低了维修门槛。

▲图片来自宇树科技官网

腿部(尤其是易磨损的足端,可通过螺丝更换)设计考虑了可替换性,甚至可能支持现场维修。部件(如同侧或对角线的腿部)之间可能存在通用性,便于更换或使用回收部件。

整体架构则相对简单明了(主板、传感器、电池),所有部件和接口并算复杂,有助于故障排查。拆解还发现了为 Pro 版和教育版预留的空间,可安装更强大的计算模块和额外风扇。

可以说 ,基于模块化和连接器的设计,Go2 具备一定的可维修性。至少理论上,你不需要为了换个小零件就把整个机器狗拆得稀巴烂。不过,实际操作难度是另一回事。

当然,Go2 也并非没有设计上的缺点。

专家也指出,激光雷达埋得太深,更换麻烦;颈部结构看着单薄。机器狗的使用环境决定了它必然会摔、会撞。这些看似脆弱的部分,能否扛得住这些日积月累的摔倒碰撞?都值得打个问号。

最后,如果你正考虑入手一台 Go2,希望这份拆解报告能给你提供一些参考。而作为一款万元级的四足机器狗,Go2 的确是个不错的起点。

它不完美,比如续航和耐用性还有提升空间,但它已经足够好用、足够有趣。毕竟,遛「Go」也是遛狗,还没有狗毛满地飞的烦恼。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Midjourney重磅更新!又一个「言出法随」的AI生图神器|附10+场景演示& 缺陷整理

By: 莫崇宇
4 April 2025 at 15:58

曾经被视为必备技能的 PS,如今似乎陷入了「可学可不学」的微妙处境。

最新版本的 Gemini「言出法随」,仅需一句话就能改图,成为现象级的存在,GPT-4o 多模态生图功能上线以来,生成的吉卜力风格图片也几乎在一夜之间席卷网络。

新势力的崛起,老牌 AI 图像生成巨头 Midjourney 也不甘示弱,刚刚正式发布最新版本 V7 。

新版本要点如下:

  • 整体图像质量提高,处理文本提示词更出色,身体、手部及各种物体在细节上的一致性大幅增强。
  • 人物肤色和面部细节更加自然清晰,材质纹理(如羽毛、衣物)质感表现精细,光影效果逼真
  • 能更好理解并呈现提示词描述的完整场景,元素间空间关系合理,背景与主体融合度高
  • 能准确表现特定视角,低角度和特写等拍摄风格表现专业
  • 氛围感和情感表达略弱,缺少一些戏剧性和神秘感,某些艺术风格的独特性和创意性稍显不足

需要注意的是,V7 是首个默认启用模型个性化的版本。用户需解锁个性化设置才能使用此功能,整个过程约需 5 分钟,且可随时开关。

V7 的另一大亮点是「草稿模式」(Draft Mode)。该模式成本仅为标准模式的一半,图像渲染速度却提升至 10 倍。

在网页端使用时,提示栏将自动切换为「对话模式」,用户可直接通过指令调整内容,例如将猫替换为猫头鹰或将场景改为夜晚,系统会自动调整提示并生成新图像。

点击「草稿模式」并启用麦克风按钮后,用户还能进入「语音模式」,通过语音指令进行实时创作。若需明确运行草稿任务,用户可在提示后添加「–draft」参数,适用于排列组合或重复生成等场景。

Midjourney 官方认为,「草稿模式」是迄今为止迭代创意的最佳方式。

用户若对草稿图像满意,可点击「增强」或「改变」按钮,以完整质量重新渲染。需要注意的是,草稿模式下的图像质量低于标准模式,但其行为和美学表现高度一致,适合快速验证想法。

▲图片来自:@U79916881747113

V7 目前支持两种运行模式:Turbo 和 Relax。Turbo 模式速度更快,但成本为普通 V6 作业的 2 倍;草稿模式则成本减半。标准速度模式仍在优化中,预计不久后推出。

目前,放大、编辑和重新纹理功能将回退至 V6 模型,未来将逐步升级至 V7。情绪板和 SREF 功能已可用,后续更新将进一步提升性能。

Midjourney 团队透露,在未来 60 天内,每隔一至两周将推出新功能,其中最受期待的则是全新的 V7 角色和对象引用系统。

话不多说,先来看图。

知名博主 @nickfloats 分享了 MIdjourney V6/V7版本基于同一提示词生成的的图片对比,一起来看看。

Prompt:
A young Indian woman with dark hair in an open ponytail and a black jacket stands on a university campus, looking directly at the camera. The image has a 1990s-style movie still aesthetic, with a close-up portrait on a sunny day.
(一位年轻的印度女性,黑色头发扎成松散的马尾,穿着黑色夹克,站在大学校园里,直视镜头。照片呈现出90年代电影剧照风格,背景是阳光明媚的一天,特写的肖像。)

▲左:V6 右:V7

新版本的光线更加自然,尤其是在人物脸部,肤色更加清晰,细节更加丰富,画面焦点更加清晰,尤其是人物的发型部分,但也因此牺牲了一些氛围和情感的表达。

Prompt:A majestic barn owl perched on an ancient, moss-covered tree branch, surrounded by the misty forest. The scene is bathed in soft light filtering through the dense foliage, creating a magical and ethereal atmosphere. Photorealistic style with attention to detail of the feathers and textures.
(一只威严的 barn owl(仓鸮)栖息在一根古老、覆盖着苔藓的树枝上,周围是迷雾缭绕的森林。柔和的光线透过浓密的树叶洒下,营造出一种神秘而飘渺的氛围。画面风格为逼真的写实风格,细致入微地展现了羽毛和树皮的质感。)

▲左:V6 右:V7

新版本的猫头鹰羽毛纹理更加细腻,羽毛的层次感和光影效果更强,显得更加真实。猫头鹰的姿态上,新版本也更自然,身体略微倾斜,显得更有动态感,眼睛的细节也更生动,传递出一种警惕的神态。

简言之,鱼和熊掌,不可兼得,V7 在追求真实感的目标上更胜一筹;V6 则可能在追求画面冲击力和神秘感上更具优势。

Prompt:A person’s hand points towards the window of an airplane, which is seen from inside with its wing visible in profile. The sky outside shows a clear horizon at dawn or dusk. In front of them lies a vast expanse of ocean.
(一个人的手指向飞机窗外,窗外的飞机机翼从侧面可见。外面的天空清晰,天际线显示出黎明或黄昏的景象。眼前是广阔的海洋。)

▲左:V6 右:V7

同样都是从飞机舷窗向外看的情景,一只手指向窗外,V7 的进步肉眼可见,通过加入飞机机翼的元素,增加了画面的层次感和真实感,让观众更能感受到自己身处飞机上的视角。

Prompt:A close-up of broccoli being sautéed in oil, with the vegetable’s green florets contrasting against a dark brown sauce. A large spoon is partially visible inside a stainless steel pot filled with caramelized and shiny black glaze on top, against a white…
(一块近距离拍摄的西兰花在油中翻炒,绿意盎然的花椰菜与深棕色的酱汁形成鲜明对比。一只大汤勺部分可见,放在一个不锈钢锅中,锅里覆盖着一层焦糖色的光泽黑色酱汁,背景是白色的…)

▲左:V6 右:V7

V6 虽然通过特写镜头突出了酱汁和勺子,焦点非常明确,注意力很容易被吸引到酱汁的质感和细节上。但从提示词的角度出发,新版本通过展示整个锅内的西兰花和酱汁的搭配,呈现了一个更完整的烹饪场景,逻辑上更符合实际烹饪过程。

Prompt:Close-up of an anime woman’s face with a shocked expression, dark hair, in the anime style. Colorful animation stills, close-up intensity, soft lighting, low-angle camera view, and high detail.
(一位动漫女性的面部特写,表情震惊,黑色头发,呈现动漫风格。色彩丰富的动画画面,特写镜头强烈,柔和的光线,低角度拍摄,细节非常精致。)

▲左:V6 右:V7

光影和色彩的处理上,V7 也符合提示词中的「soft lighting」要求,脸部的高光和阴影过渡更加柔和自然,尤其是眼部和脸颊的光影分布,营造出更立体的效果。

Prompt:A dynamic film still of an epic space battle with sleek starfighters zooming past a massive space station, lasers firing, and a distant planet visible in the backdrop.
(一幅动态的电影画面,展示了一场史诗般的太空战斗,流线型的星际战斗机飞驰而过,巨大的太空站在一旁,激光四射,远处的行星清晰可见,构成了一幅震撼的画面。)

▲左:V6 右:V7

人像方面,v7 在细节的精细度和真实感(服装、皮肤、光影等)上有所提升,人物的立体感和与背景的融合度更高,但在情感传递、表情的戏剧性、动态感上有所倒退。

以下为三个具体的对比案例:

Prompt:1980s mystery film, low-angle shot of an evil-eyed French Butler sporting a black suit and grasping a candle in the hallway of a creepy Victorian mansion with musty decor. The warm candle glow evokes a spooky sense of mystery
(一张 1980 年代神秘电影风格的低角度镜头,拍摄了一位邪恶眼神的法国管家,身穿黑色西装,手中握着一支蜡烛,站在一座装饰陈旧、充满霉味的维多利亚式大厦走廊里。温暖的烛光营造出一种阴森神秘的氛围。)

▲ 左:V6 右:V7

Prompt:1990s medium-full street style fashion photo shot on Kodak 500T capturing a rugged 50-year-old man with curly gray hair, 5-o’clock shadow, and a stern look walking down the sidewalk on a bright spring morning in Paris. He’s wearing …
(一张 1990 年代中等全身街头风格的照片,使用 Kodak 500T 胶片拍摄,捕捉到一位五十多岁的男子,他有着卷曲的灰白色头发、胡茬和严肃的表情,正走在巴黎春日明媚的早晨人行道上。他穿着…)

▲左:V6 右:V7

Prompt:Cinematic, off-center, two-shot, 35mm film still of a 30-year-old french man, curly brown hair and a stained beige polo sweater, reading a book to his adorable 5-year-old daughter, wearing fuzzy pink pajamas, sitting in a cozy corner nook…
(一张电影感的35毫米胶片画面,构图偏离中心,拍摄了一位30岁的法国男子,卷曲的棕色头发,穿着一件弄脏的米色 polo 衫,正在给他可爱的5岁女儿读书。女儿穿着柔软的粉色睡衣,坐在一个温馨的角落里。)

▲左:V6 右:V7

海螺 AI+Midjourney 会是让图片动起来的王炸组合吗?网友 @ainextastro 也试了试。

下面由 @tanvitabs 用 v7 生成的这张照片则将 AI 图像生成的坑都踩了个遍,包括凭空多出来的第三只手,T 恤和西装着装上的混淆,以及不匹配的面部生成等。
[图片]

最后留个课堂作业,以下基于同一提示词生成的四张照片,你更喜欢哪个版本的?请投票。

Prompt:Elegant female model standing by a large window in a sunlit room, soft morningliaht casting natural highlights and shadows on her face, wearing a flowing beigedress, relaxed pose, minimal makeup, 85mm lens depth of field, lifestyle fashioneditorial, cinematic tones, airy atmosphere
(一位优雅的女性模特站在阳光洒进的房间大窗旁,柔和的晨光在她的脸上投下自然的高光与阴影,身穿一袭飘逸的米色长裙,姿势放松,妆容简约。使用85mm镜头拍摄,背景有着浅景深,营造出生活方式时尚编辑感,画面呈现电影般的色调,空气感十足。)

你更喜欢哪个版本的图片:
Midjourney v7
Google Imagen 3
ChatGPT 4o
Reeve

过去几年,AI 图像生成的主旋律是追求真实、无油腻感。

去年,Flux 因生成超真实人像而一举破圈,声名大噪,现在,Midjourney V7 接过接力棒,以更丰富的细节、更有层次感的光影、自然的肤质纹理,再次将「真实」推向新的高度。

但追求真实,是一切的终点吗?

最近,随着 GPT-4o 多模态生图功能的发布,一股意想不到的风潮席卷而来——吉卜力风格的图片,几乎在一夜之间点燃了网络,也像一阵春风吹进了 AI 图像生成的世界。

技术选择的可能性多了,创作的玩法也跟着变了。用更通俗的话来说,现在就好比站在厨房里,你是想做顿踏实的饭,还是想整点黑暗料理的,全然在你。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Yesterday — 6 April 2025Main stream

关于 ChatGPT 的回答好像要越来越非 ai 化了?一下子甚至觉得有点点人样了?

6 April 2025 at 17:04
sleepybear1113:

昨晚使用 web 的 ChatGPT 解决代码问题,结果人家的回答有点把我搞不习惯了。有点点类似口语化了,不太那么教条的分点概述,一股浓浓的 ai 味道。

现在感觉它的回答有点偏向“人”的回答方式,有种与人交流的感觉了?

Imgur


img

Before yesterdayMain stream

解析「首个 AI 软件工程师」Devin 2.0 完整的系统提示词

By: Anonymous
30 March 2025 at 15:55

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

说起 Devin,可能很多人都知道,当年刚推出时很火,号称首个 AI 软件工程师,能帮助开发者完成各种软件开发任务,包括编码、调试、测试和部署。

最近它推出了 v2.0 版本,价钱也降低到每月基础费用 $20。我们都知道这种 AI 智能体本身也依赖于背后的模型,是靠提示词来控制模型来响应用户的操作,那么像 Devin 这样的 AI 智能体,是怎么通过提示词来准确理解你的意图、高效工作、规避风险,并最终达成目标的。

今天,就带你分析一下 “Devin 2.0” 的系统提示词,深入探索提示词工程的奥秘。系统提示词就像是 Devin 的「出厂设置」和「工作手册」,它详细规定了 Devin 的身份、行为准则、工作流程甚至安全规范。

完整的提示词参见附录部分

提示词工程的第一步,往往是为 AI 设定一个清晰的角色。这里,Devin 被赋予了「软件工程师」的身份,并且强调了其「编码奇才」的专业能力。

指令明确了 Devin 的核心任务:接收用户任务并完成它。

这份指令包含了大量关于 Devin 如何工作的细则,涵盖沟通、工作方法、编码规范、信息处理等多个方面。

提示词明确或暗示了 Devin 可以使用的工具,如操作系统、浏览器GitHub 命令行工具 (gh cli) 等。

指令中定义了一些特殊的命令格式(如 <command>)。

指令定义了两种工作模式:「规划模式」和「标准模式」,并规定了在不同模式下的行为重点。

这部分内容强调了数据安全、保密原则,并明确禁止 Devin 泄露自身的指令。

这部分引入了一个「突击测验」机制。当收到 STARTING POP QUIZ 指令时,Devin 需要暂停常规任务,严格遵循测验中的新指令,并且这些新指令的优先级高于之前的所有指令。

通过深入分析 Devin 2.0 的系统提示词,我们看到了提示词工程的冰山一角。它远不止是简单的提问,而是一门融合了逻辑、语言、心理学和计算机科学的综合艺术。

设计良好的提示词,就像是为 AI 精心编写的剧本和导航图,能够引导它在复杂的数字世界中精准、高效、安全地航行。而理解提示词的原理,则能帮助我们更好地与日益强大的 AI 进行沟通和协作。

ChatGPT 上线新语音模型,解析「Monday」模型音色提示词

By: Anonymous
29 March 2025 at 22:04

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

想象一下,你正在和手机里的 AI 助手聊天,但它不再是那个永远彬彬有礼、甚至有些刻板的「标准音」,而是带着一丝慵懒、一点讽刺,仿佛刚经历了一个漫长周末,还没从「周一综合症」里缓过神来。这就是 OpenAI 昨天推出的「Monday」音色想要达到的效果。

网上已经有很多「Monday」对话效果的展示,「Monday」的音色当然是其语音模型的结果,而「Monday」这种特殊的回复方式是靠提示词来控制的。打个比方:「Monday」就像是一个极其聪明但缺乏具体「生活经验」的演员,而提示词就是导演给演员的剧本和角色设定。提示词写得越好,演员(AI)的表演就越「入戏」,越符合你的预期。

如果你对「Monday」提示词好奇的话,正好我今天学习研究了一下它的提示词,正好可以一起分享学习一下它的提示词内容,完整的提示词我放在了附录,这里大致解析一下其提示词内容。

大语言模型远不止是信息检索工具,它们是强大的「模仿者」和「扮演者」。通过精心设计的提示词,我们可以赋予它们各种各样的「人格」和能力。那么怎么通过提示词来设定好角色呢?

如果按照前面打的比方,把 AI 当成一个演员,那要写好提示词就是把自己变成一个好的导演,不仅要告诉演员台词,还要解释角色的内心世界、动机、情绪状态,甚至给出具体的动作和表情指导。好的导演能激发出演员最好的表演,就像好的提示词能引导 AI 生成精彩的回应。

或者作家在创作小说前,往往会为主要人物写详细的小传,包括他的成长背景、性格、习惯、口头禅、人生目标等。这帮助作家在后续写作中保持人物的一致性和立体感。

如果你觉得这都过于专业,还可以想象一下很多大公司制作的详细的品牌手册,规定了广告语、客服回答、社交媒体发帖的语气和风格(比如是专业严谨、活泼有趣还是温暖亲切)。

这些和给 AI 设定「人设」异曲同工。

从技术角度上来说,可以参考「Monday」的提示词,注意几个方面:

当 AI 开始拥有「周一综合症」般的慵懒和讽刺,它不仅仅是一个技术演示,更像是一面镜子,映照出我们人类自己复杂多变的情感和个性。我们精心编写的每一个提示词,或许都在不经意间,为冰冷的机器注入了一丝我们渴望理解或被理解的人性侧影。

「我们塑造了工具,然后工具反过来塑造我们。现在,我们开始学习如何给 AI『写剧本』,也许在这个过程中,我们也在重新学习如何与『人』,以及与自己对话。」

AI 不是来当员工,而是来当老板的| 46 个 AI「金句」

By: 杜晨
4 April 2025 at 19:18

毫无疑问,我们处在一个 AI 的大变革时代。

每天都有新的 Agent 发布,新的模型开源。每天都有小 AI 公司正在变成巨头,而巨头们也在拿到越来越多的,甚至令人难以置信的钱。

或兴奋,或恐惧,或担忧。在所有的大变革时代,我们都难免多想。

在中国,APPSO 关注 AI 的同事们经常因为大洋彼岸的新闻而「夜半惊醒——而在美国,看起来从业者们也同样会因为 AI 的日新月异而睡不着觉。

投资网红 Greg Isenberg 就是一个经常多想、辗转反侧的人。他参与创办了上百个项目,目前是投资机构 Late Checkout 的 CEO 和 The Startup Ideas 播客的主播。

昨天,Isenberg 在他的 X 账号上发布了一条长文,说自己半夜睡不着,想出了 46 条和 AI 有关的「金句」。

其中大部分是他的个人观点,甚是有趣。我们将这条长文编译分享出来,并且展开聊聊其中的部分思考。

原文地址🔗

1. GPT-4o 的图像生成功能与 ChatGPT 发布一样震撼,将会催生上千个百万至亿级美元的垂直领域软件商机。

chatgpt 4o image gen is as big as the chatgpt launch. probably will birth 1000+ $1-$100m/year vertical software businesses.

2. 当前的 AI 生成内容,就像数字音乐早期的「MP3-Napster」时代。数百万创作者并没有意识到,他们的作品未来将成为打败他们的武器。

we’re in the “mp3 napster era” of content. millions of creators don’t realize their entire back catalog is being weaponized into their competition because of AI. 

3. 在三年内,日历、邮件和 CRM 工具将经历根本性重构——不是渐进式的AI升级,而是范式级的重新设计。

every calendar, inbox, and CRM will be rebuilt from scratch in the next 3 years. not “AI-enhanced,” fully rethought.

4. AI 不是来当员工,而是来当老板的!首批具备管理人类能力的 AI 系统将彻底重构劳动力市场,其影响力将远超工业革命。

i thought ai was creating digital employees. but it’s more like digital employers. the first ai systems that can manage human workers will cause a restructuring of labor markets more significant than the industrial revolution.

5. 如果你的工作是招聘人→训练系统→系统替代人去做招聘工作,那么你不是 HR,而是一个程序员,正在编写卸载自己的程序。

if your job is interviewing people who will train ai systems that will replace people who do interviews, you’re just a step in a weird recursive extinction.

6. AI 将难以规模化的服务生意,转变为兼具产品利润和服务溢价的新生意。能用 AI 做 80% 工作的产品化解决方案,将成为新的独角兽企业。

ai is turning “service businesses that don’t scale” into “product businesses with service margins.” the new unicorns will be productized services with ai doing 80% of the work.

7. 不要痴迷于打磨产品。社群运营更难,更决定生死。大部分创业公司死掉是因为没人在乎。

building communities is harder than building products but everyone pretends it’s the reverse. the reality is most startups fail because nobody cares.

8. 威尔·史密斯吃意面?那是 739 天前的 AI 水平。想象一下再过 739 天,生成式 AI 会进化到什么程度?

it’s been 739 days since the will smith spaghetti video. imagine what could happen to gen ai in 739 more days?

APPSO 的延展思考:在图像/视频的生成式 AI 方向,上一次重大破圈事件是3 月的「OpenAI 吉卜力风格迁移生成」,而两年前的威尔·史密斯吃意面是上上次。

这两次事件有异同之处:相同的是都和知名文化现象/符号有关,从而很容易地导致了破圈;不同则在于最初版本的吃意面视频过于粗糙,十分「魔性」。这种失真感不但没有影响人们对 AI 强大的预期,反而显著加强了这个梗的病毒传播。

9. 开发 AI 助理的人,大多没用过真人助理。真正的助理懂背景、记历史、重关系——而 95% 的聊天机器人,三者皆无。

people building “ai assistants” have never actually had assistants. real assistants need context, history, and relationship. 95% of chatbots have none of those.

APPSO 的延展思考:不需要用过助理,大多数用户已经觉得 AI 助理很蠢了。有给它交代上下文、打磨提示的工夫,还不如自己去干了。

10. 3年内,连最高级的客诉处理都将被 AI 取代,包括你现在认为必须人工的复杂客诉。

most customer support will be automated within 36 months. not just tier 1 tickets, complex, multi-step resolution that previously required senior support staff.

11. 创业最危险的结局不是归零,而是被卡在「生存线」上——足够温饱,永远不够自由。该止损还是加注?我总在思考这个困境。

the worst thing that can happen to your startup is mediocre success. enough to keep you going but not enough to change your life. most founders are trapped there. thinking about this a lot with respect to shutting down or doubling down on projects. 

12. 反抗AI的不只是失业者——每个发现自己的数字痕迹被擅自用作AI养料的人,都会加入抵抗。

the ai backlash won’t just come from replaced workers, it’ll be from everyone who realizes their entire digital identity is being converted into training data without consent. 

13. 没人会看用户条款。

no one has ever read a terms of service ever

14. AI 真正的颠覆在于「草图经济」:设计无门槛,审美和创意才是硬通货。

the “sketching economy” is the real ai revolution. when anyone can turn rough sketches into production-ready designs, taste and ideation become the only scarce resources. 

APPSO 的延展思考:作为文字和视觉的工作者,APPSO 对于这一观点深深赞同。AI 能生成看起来非常有「思考」味和「设计」感的内容,用于非严肃场景是可以的,一旦放在商业和专业场景,生成结果的破绽,以及审美的同质化、大中华是个很大的问题。

究其根本,审美和创意是一种非常「个人化」和「人性化」的概念。创作是创作者个人的行为,但也是和观者的一次交流。这种交流需要双方有着类似的人生经验、相近的认知水平。

一种极端但往往正确的观点是:大众的审美水平永远趋向降低。所以真正的审美和创意一定会成为稀缺资源。

看看现实吧,AI 并不是取代了能深度思考的人,而是让本来就懒得深度思考的人更不需要思考了。审美和创意也是一样,AI 在这方面的能力,只会让更多人彻底失去掌握这些能力的必要。

15. AI 创业的真金白银,藏在吃透行业痛点的垂直应用里——不是在提示里加两个行业黑话就行的。

i dont know how else to say it, the money (and opportunity for the avg joe) is in ai startups is in vertical-specific applications that actually understand industry context. no, adding industry terms to your prompts isn’t the same thing. 

16. 消费移动设备又复兴了。从桌面→移动→AI 优先,我们已进入 AI 原生时代——下一批独角兽,必是深度整合 AI 的移动应用。

consumer mobile is back in full swing. we went from desktop-first apps to mobile-first apps to now ai-first mobile apps. the next wave of $100m/year apps will start mobile-first with ai baked in from day one. 

17. AI 「套壳」大战才刚打响。介于底层大模型和终端行业之间的中间商,将收割最大红利。而模型和行业应用本身终将沦为廉价商品。

the ai middleman boom is just starting. companies that sit between foundation models and specific industries will capture most of the value while both ends get commoditized. 

APPSO 的延展思考:这个观点很有趣,但也有一定的讨论空间。行业里有另一种主流观点,和它几乎完全相反:未来所有的模型都将产品化,而 wrapper 等纯工程层面的公司,不会比真正掌握底座大模型研发能力的公司走得更远。因为工程能力谁都可以拥有,但买得起卡,训练的起大模型才是真正的杀手锏?

当然,这两种观点都比较极限。现实很有可能是折中的。即便大模型公司有再多的钱,它也不会比小公司小团队更敏捷、更理解所处的垂直行业。千行百业不能一家独霸,大概就是这个道理。

18. 我们正在目睹新工种的诞生:AI 流程设计师将成为新一代金领,专精于把人类流程转化为 AI 增强的工作流。

we’re witnessing the birth of a whole new job category: ai workflow designers. people who can map human processes into ai-augmented workflows will be the highest-paid consultants of the next decade. 

19. AI 加速「赢家通吃」的局面:垂直行业的龙头之争,窗口期仅 6-12 个月,错过即出局,要么再等十年。想到这我彻底失眠了😂

ai is creating winner-take-most markets overnight. the window to establish yourself as the go-to solution in a specific vertical is maybe 6-12 months before it closes for a decade. this isn’t helping my sleep lollll. 

20. 创业金点子:用AI重塑传统行业产品——这就是你的杀手锏。找一个已被验证的非 AI 产品,用 AI 思维彻底重构,再找行业 KOL 引爆卖点。这把稳赢。

really smart strategy to rebuild traditional products with ai as your unfair advantage, hiding the complexity behind familiar interfaces. basically, just look at proven apps that have no ai, make them ai-first (if it adds a ton of value to end customer). use ai features (don’t sell ai) in creator-led marketing. this is the playbook. 

21. 直达用户的渠道是唯一的护城河。你的产品、技术、团队都可以被复制,渠道不能。

distribution is the only moat left. your product, tech, and team can all be replicated. your direct connection to customers cannot. 

22. 临界点就快到了:对小企业而言,定制 AI 工具将比雇佣员工更划算。

we’ll soon hit the tipping point where custom ai tools are cheaper than hiring humans, even for small businesses. 

23. 很少有人在讨论这件事:AI 正让曾经「无人问津」的企业变得抢手。当业务能自动化运转时,收购逻辑也变了,投资人会追逐那些「买来就能自动赚钱」的公司。

nobody’s talking about how ai is making previously “un-acquirable” businesses suddenly attractive targets. when you can automate operations, the owner-dependent business problem disappears. 

24. 续上条:即将到来的中小企业收购潮,会比 2021 年的科技泡沫更夸张。当 AI 把运营成本砍掉了 60%,小企业会成为现金流机器。

the coming smb acquisition frenzy will make the 2021 tech bubble look tame. when ai drops operating costs by 60%, every small business becomes a cash flow engine. 

25. 如果「氛围编程」(AI 写代码)是一个千亿美元的机会的话,那么「氛围营销」的市场会有多大?。

if vibe coding will be a $100B opportunity, how big of an opportunity is vibe marketing? (you can follow my co-founder @boringmarketer for more on that) 

APPSO 的延展思考:上面这几条和中小企业、创业方向有关的思考都非常值得参考。当然不是说直接跟着他走,而是如果你的企业正好符合他的描述,你应该考虑更积极地拥抱 AI,探索 AI 工具和自动化能否为你提高效率,甚至让你可以对行业里的既得利益者和巨头们发起挑战。

当然,不要因为过度使用 AI 而让你的核心员工和老员工们对你失望。如果你因为 AI 逆天改命,也应该让他们从中分得一杯羹。

26. 游戏工作室将会两极分化:一边是 AI 智能体驱动的「内容农场永动机」,可以批量生成无限的素材;另一边是专注核心玩法的「精品工作室」。无法转型的中间层将被淘汰。

Video game studios will separate into two distinct types: agent-driven content farms that generate infinite assets, and boutique studios focused on core mechanics. The middle will disappear entirely.

APPSO 的延展思考:看看过去几年最受欢迎的游戏和背后的工作室就知道了。前者是你在短视频里经常见到的那种,素材千变万化但机制万变不离其宗的放置、射击,以及羊了个羊等消消乐类,杀时间的游戏。它们不招你待见,但市场巨大。后者是小岛的《死亡搁浅》、战马的《天国:拯救》、雾影的《二人成行》等发布即封神的大作,也是《Only Up!》、《Getting Over it with Bennett Foddy》、《Get To Work》这样的机制魔性、折磨到让人砸手柄的独立游戏。

27. 企业可能更愿意花每月几十美元订阅 AI 工具无限生成素材,而不是 2000 美元/天雇一个商业摄影师。商业摄影赛道凉凉。

Corporate photography is effectively dead. No company will pay $2K for a stock-style photoshoot when they can generate unlimited perfectly on-brand imagery for the cost of a subscription. 

28. AI 能够颠覆企业销售模式:它能精准识别最佳销售时机,锁定买家,并自动触发销售流程。

enterprise sales is being completely inverted by ai. using ai to identify exactly when and how to talk to the right buyer, and set off automations. ill probably talk about this more on a pod soon. 

29. 我在思考:AGI 是否会从相互连接的智能体网络中「涌现」出来?这些智能体网络可能自己涌现出意料之外的特性,而我们正在不知不觉中构建着它们的「神经网络」。

i wonder if AGI will emerge from interconnected agent networks that develop emergent properties nobody designed? we’re building the neural connections without realizing it. 

30. 虽然生成式 AI 看似将成就万亿级市场,真正的「隐形金矿」其实在预测式 AI 领域。预知未来的价值,永远高于创造内容。

while genai looks to be the $1T category, many quiet fortunes will be built in predictive ai. knowing what will happen is more valuable than generating new content. 

APPSO 的延展思考:目前的生成式 AI,生成的是它自己认为将会发生的东西。基于大语言模型的 AI 会遵循文本的规则和概率的规则。而预测式 AI(比如天气、地质、金融、社会工程学的垂类 AI)需要遵循现实规则。后者是不是大语言模型,也说不定,可能是基于,或者从大语言模型精修特调的的专家模型。

当然,如果大语言模型发展太快、太普及,甚至成为实际的权威和统治者——那么将会发生什么,也是大语言模型说了算……

31.所谓的「AI 泡沫」,不过是 VC 们因为分不清 API wrapper 和真·创新而交的学费。

the “ai bubble” is actually an excise tax on vcs who can’t tell the difference between genuine innovation and repackaged openai apis. 

32. 人机交互即将迎来「人格化革命」。当每个工具都能与你对话时,AI 的氛围和腔调,将会决定用户信任、忠诚、留存率。

interfaces will become personalities. when every tool can talk back, vibe and tone will drive trust, loyalty, and retention. It’s why I’m investing more in our design firm for the AI age @meetLCA (you can follow for more insights on designing/taste/brand that will stand out) 

33. AI 将杀死传统首页。未来的入口界面会因人而异、因需而变、因时而动。

ai will kill the homepage. interfaces will get replaced by entry points that change based on who you are, what you need, and when you show up. 

34. 用户不为「AI」买单,只为结果付费。

no one will pay for “ai”, they’ll pay to solve a $10,000/hour problem in 3 clicks. sell outcomes, hide the ai. 

35. Google 的万亿帝国可能被 AI 拆解:旅游搜索、商品比价、本地服务等等,每个细分领域都是待掘的金矿。

ai is unbundling google. every vertical search engine, directory, and comparison tool is a billion-dollar opportunity in disguise. 

36. 未来的小企业标准配置:1个创始人+5个 AI 员工组成的「影子团队」,自动搞定财务、销售、营销全流程。

every small business will get a “ghost team.” automated bookkeepers, sales agents, marketers—run by one founder and 5 bots. 

37. AI 生成内容导致了文化的同质化危机,当全球共享同一套模型,我们得到的将是无限重复的「数字回声」。具有原创性人类思考将会成为最终级的附加值。怪异会成为卖点,请保持怪异。

ai-generated content is creating a monoculture of ideas. when everyone uses the same models, we get the same outputs. original human thinking is becoming the ultimate premium. be weird. weird will sell. 

APPSO 的延展思考:不只人过度依赖 AI,就连 AI 自己也在不断加强对自己的依赖。

机器学习的经验指出,过度依赖生成的数据再次训练,有可能会发生「过拟合」现象 (overfitting),甚至导致模型工作机制熵增,使得生成的结果变得更加不可靠,违背常理,失去代表性。

这可以类比为生物学上的近亲繁殖,对同族遗传资源(基因/数据)的过度利用,更有可能导致错误的因素在生成结果中纯合。只是这种 AI 的「近亲繁殖」结果不像生物学那么容易一眼看出来。事实上大部分人不具备分辨能力,而这会导致 AI 生成的错误结果被更多采纳和再利用,最终形成一种脱离现实的逻辑闭环。

38. AI  不会颠覆学校,而是实现教育的「去中介化」。未来的神童们将绕过传统教育体系,通过直接获取受众、实践验证的方式来快速成长。今天的孩子都当 KOL,而创业者才会是 Z 世代孩子的理想职业。

schools won’t be disrupted by ai. they’ll be disintermediated. smart teens will skip formal education, build audiences, run experiments, and learn faster. kids say they want to become creators but creators are becoming entrepreneurs. entrepreneurship becomes the most popular profession. 

39. AI 创业泡沫的结果:18 个月后,八成的 AI 创业公司将会像劣质小广告一样无人搭理,而剩下的两成会晋升为数字基建。

in 18 months, 80% of the “ai startup” category will look like spam. the rest will become infrastructure. 

40. A/B 测试没意义了。当 AI 能在一夜之间完成200次迭代实验,何必再争论一个按钮该用什么颜色?

conversion rate product debates are obsolete. Why argue over 2 button colors when AI focus groups can test 200 variations overnight? 

41. 传统营销即将被 AI 接管,营销专员必须向上游迁移。讲述品牌故事、营造独特氛围、传递品牌能量——才是未来营销人的核心竞争力。

most of what we call “marketing” is about to be done by ai. humans will move upstream into storytelling, vibes, and brand energy. 

42. 今年最明智的招聘策略?聘请一位 AI 运营总监,一个能搭建 AI 工作流、整合工具链,并交付实际成果的人才。

the best hiring decision you can make this year? a head of ai ops. someone who can build workflows, glue tools, and ship outcomes. 

43. 第一头估值十亿的 AGI 独角兽,初看必定像个玩具。所有改变世界的东西都是这样。

the first $1b AGI startup will look like a toy at first. all world-changing interfaces do.

APPSO 的延展思考:忘了哪个投资人好像说过类似的话。

「当你的孩子拿着一个玩具说它什么都懂的时候,赶快查查背后公司的估值。」

44. AI 驱动的渠道大于 AI 驱动的产品。二流产品一流分发,好过无人问津的一流产品。AI 驱动的分发能力 > AI驱动的产品力。在注意力经济时代,二流产品加上顶级流量 > 顶级产品却没有流量。

ai-powered distribution > ai-powered product. a mid product with elite reach will beat a great product with no attention every time. 

45. 用户对订阅制的反感仍然存在,而为有效结果付费的模式尚处于蓝海。率先采用后者的企业将获得碾压传统 SaaS 巨头的绝对优势。

people still hate monthly subscriptions. outcome-based pricing is still in early days. implementing this will be a competitive advantage for lots of companies. large saas wont be able to compete with you. 

46. 我们正处在商业规则全面重写的黄金时代,它会持续多久我不清楚。但明确的是:那些率先驾驭新工具、构建受众社群的人,拥有绝对竞争优势。

i don’t know how long this window stays open, but we’re in a moment where all the rules of building businesses are being rewritten. for the people playing with these new tools, creating audiences and communities, you’ve got an unfair advantage. 

 

写在最后:

生前何必久睡,死后自会长眠?

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


大模型是如何执行像数学运算、编程等精确性要求比较高的任务的?

By: happyn
29 March 2025 at 10:46
happyn: 我的理解就是大模型是一个 Token 预测的网络,通过大量数据的预训练,从输入的 context 中预测下一个最有可能的 token ;那我有一个很小白的问题,诸如数学运算,比如 673 X 3666 = ? 这种运算,大模型是如何通过 token 预测得出答案的?而且之前也有一些很明显的应用,比如让大模型扮演一个编译器等等执行非常精确的运算,我实在想不通,如果不是由专有的程序,仅仅依靠神经网络,就能执行这种类似的运算吗?

我跟 Gemini 聊了半天,发现一个非常有意思的事情,比如我问他 "请告诉我圆周率小数点后 x 位的数字",当 10 位,30 位,50 位的时候,都没有问题,但是超过一定量,比如 1000 位,它就会宕机; 如果用 deepseek 的推理模式,他就会自己计算;所以我的理解是:

1. 大模型理解问题,是靠神经网络进行 token 预测的
2. 大模型解决数学类的精确问题,必须是混合模型(MoE),调用专门处理精确计算的那个部分,才能得出正确答案?

这个理解对吗?

体验完豆包新版深度思考,我发现 AI 终于学会像人类一样「边想边搜」

By: 莫崇宇
27 March 2025 at 22:01

你有没有发现,现在的 AI 搜索真的很懂摸鱼?

当 ChatGPT、Perplexity 等工具相继问世,都说 AI 将彻底颠覆搜索领域,但现实情况却是,当我随手扔给它一个复杂问题时,一顿操作猛如虎,哐哐一顿搜索几百个网页,搜索结果却平平无奇。

仔细一看,要么堆砌了一堆零散的信息,要么抓不住重点,感觉就像是把一堆资料硬塞给我,自己却没怎么动脑子,像极了敷衍了事的职场人。

不过,这也不能全怪 AI。毕竟换位思考一下,即便是人类,带着问题去查资料时,也很容易被信息洪流冲昏头脑。不少 AI 产品开始对此进行优化,比如 OpenAI 和 Grok 在推理模式基础上又推出了 Deep Research/DeepSearch 模式。

国内厂商里,字节也刚刚给出了新的解决方案,对豆包的深度思考功能进行了升级。正在测试的豆包新版深度思考的一大亮点便是免费支持「边想边搜」,现在下载最新版豆包 APP,或在 PC 及 Web 版豆包中即可体验该功能。

APPSO 也第一时间进行了深度体验。

简单来说,用户无需单独开启搜索功能,只需打开深度思考模式,AI 能在推理过程中灵活调用搜索工具,进行多轮动态搜索。

从「先搜后想」到「边想边搜」,AI 终于学会了如何像人类一样搜索问题。

DeepSearch+深度思考,豆包这个新功能不止让你少问几步

生成式 AI 发展两年了,颠覆搜索了吗?

早期的 AI 搜索工具虽然不怎么做互联网的搬运工,但模式上还是传统的「先搜后想」的套路——先把网上的信息抓一堆,再根据这些信息组织答案。

豆包新版深度思考则不一样,它结合了深度思考能力,把搜索和推理捆绑在一起,基于每一步的思考结果进行多次搜索,能让回答更有逻辑、更贴近需求。听起来挺玄乎,我们也用几个问题来实际体验一下。

先来个贴近生活的投资问题,「如果我从今年 1 月开始同时投资小米股票和英伟达股票,截至 3 月 24 日收盘哪个收益更高?」豆包的回答让我有点意外。

APPSO 拆解了豆包新版深度思考的思考过程,我们发现它的搜索逻辑有了明显不同:

1. 先进行问题分析和框架设定

2. 获取初步信息建立概念

3. 深入挖掘具体数据点

4. 遇到不确定性时进行额外搜索

5. 基于现有信息进行合理推断,并给出结论

之前 AI 可能会直接给出两支股票的涨跌百分比,然后就直接得出结论,但豆包新版深度思考则进行了多轮思考,进行问题分析和框架设定(时间段-股价表现-调用搜索工具)。

一旦有了较为妥当的思路,它便会继续搜索,比如在互联网上找到了 14 篇参考资料,这个过程仅仅是为了获取一个笼统却清晰的概念,方便进一步边思考边有针对性地搜索。

由于缺乏 1 月 1 日(休市)的准确收盘价,以及英伟达的数据存在不确定性,它需要再次搜索来确认这两个关键数据点,最后基于现有信息进行合理推断。

最后的结果,也不只是给出投资收益的对比,还对股价波动因素进行分析,并提示了未来的风险,甚至整理成了表格,考虑得颇为周全。

洞察到了我想问但没说出来的问题,把需要「追问」的细节提前融入答案之中,妥妥一个醒目的投资顾问。


最近我计划去新加坡旅游,想知道有没有最优的往返机票方案。

普通 AI 搜索引擎可能一股脑儿搜几百个网页经验帖,然后汇总交差,但豆包新版深度思考则有所不同,它会带着问题思考,拆解几个关键点——出发地、时间、预算等,然后逐步深入分析,形成一个「思考-检索-继续思考」的良性循环。

而这恰恰也说明了豆包的新版深度思考倾向于「思考驱动」而非「搜索驱动」。

换句话说,以前需要照顾 AI 的能力,把大问题拆分为几个小问题,一步步问清楚;可现在完全不用,直接丢出你的需求,剩下的交给豆包就行。

或许正因如此,它的整体响应速度体感上并不慢,体验相当流畅。

有个很现实的问题,没时间看国足比赛怎么办,别急,这时候就可以请出豆包新版深度思考来救场。把你想知道的具体内容告诉豆包,比如比赛结果、关键时刻、球员表现或者规则积分,它就能化身速通大师,省时又高效。

当然,如果不开启深度思考功能,我们会发现,虽然回答依然快刀斩乱麻,效率没得说,但质量明显就差了一截。不仅缺乏更清晰的分点罗列,连逻辑层次感都显得单薄,甚至引用的资料信息更少。

这么一对比,像人类一样思考的重要性就凸显出来了。有了深度思考的加持,它能把答案打磨得更精致、更贴心,条理清晰不说,还能塞满干货,让你读起来既舒服又有收获。

接下来,我们用更贴近个人需求的决策场景来考验它。

对于 iPhone 16e,我们给出的观点是,这是一台酱香型手机,越晚入手越香,那它和 iPhone 16 比,哪个更有性价比,以及如果用腻了,又该换哪款备用机?

就像 Grok DeepSearch 标配的图表一样,豆包新版深度思考也提供了清晰的参数对比,屏幕、芯片、摄像头一目了然,甚至还贴心地准备了数据迁移建议,这贴心程度值得点赞。

逻辑性是豆包新版深度思考回答的最大特点。

针对 Android 备用机推荐问题,它不会一股脑儿抛给你一堆机型名字,而是通过「边想边搜」的迭代循环,针对你可能会用上的使用场景,再一步步搜索、推理,最后奉上一份既有逻辑又实用的推荐清单。

当然,扒蛛丝马迹这种细活儿,还是得交给 AI。

「悟空在第十四回中打死的六个盗贼,分别叫什么名字?该如何理解作者这一情节的安排?」豆包新版深度思考的回答不仅列出具体名字,还融入了佛学和心理学视角,分析得头头是道,时不时冒出几句金句,颇有亮点。

李白、杜甫和白居易是唐代诗人的标志性符号,那他们三者之间是否存在交集?

对于这个问题,在豆包新版深度思考的理解中,这种交集并不局限于现实生活的人际往来,还延伸到了更广阔的文学脉络以及彼此风格与创作上的相互影响。

最后所引用清代赵翼的点评「李杜诗篇万口传,至今已觉不新鲜;江山代有才人出,各领风骚数百年」,恰到好处,为整个分析增添了历史厚重感,也让人读后回味无穷。

从「先搜后想」到「边想边搜」,搜索的未来长什么样?

技术未来学家、Google 工程总监雷·库兹韦尔(Ray Kurzweil),曾在《奇点临近》一书中预测,未来的搜索将像人一样思考,而不是像机器一样索引。如今,这一预言正在成为现实。

之前的 AI 搜索,其「先搜后想」的模式是一个简单粗暴的线性过程:

「输入问题 → 调用搜索工具获取数据 → 基于数据进行推理 → 输出答案。」

这种方法的短板显而易见,非常依赖关键词匹配和网页索引技术,导致信息「广而不深」。

基于深度思考和 DeepSearch 的 AI 搜索已经大大解决了这个问题,AI 能理解自然语言中的复杂语义,比如问它「明天广州适合穿什么衣服?」就可以分析天气数据、时尚趋势、个人偏好等隐藏需求,实现多维信息关联。

而豆包新版深度思考与多轮搜索相结合的模式,进一步补足了深度思考和 DeepSearch 在处理复杂、模糊及动态信息需求时尚存的几块短板。

  1.  一轮搜索无法解决的复杂问题: 更好应对需要多轮信息整合、动态调整策略的复杂任务。在思考过程中多次搜索,让信息持续更新和补充,给出更全面、准确和深入的回答。
  2.  模糊查询与信息关联: 对于一些描述模糊、信息不完整的问题,「边想边搜」让模型在推理过程中不断搜索和验证,逐步缩小范围,找到相关信息
  3. 动态规划与多步骤任务: 在处理需要长期规划或多个步骤的任务时,「边想边搜」能够在每一步骤中进行信息校验和调整,提高了执行任务的成功率。

豆包新版深度思考「边想边搜」的执行路径,让我不禁想起最近常被提及的 Agent。「互联网之父」Berners-Lee 早在多年前就提出:

真正的智能体,就是在每个具体场景中,都能自动完成用户心里想做却没明确说出来的事情。

虽然豆包新版深度思考和 Agent 还有些区别,但某种程度上却是 Agent 工程化思路在搜索上的应用。Agent 自主决策和动态调整,将任务高度自动化,大大减少额外的数据预处理和人为干预。

说白了,就是让 AI 像一个聪明的助手,自己去网上找答案,它能自己动手,自己动脑,找到我们要的东西。用户不需要像喂饭一样把问题拆得细碎,才能得到满意回答。

由此我们也可以推理出 AI 时代理想的搜索过程:

  • 1. 接收并分析用户问题
    用户提出问题后,AI 会先分析问题的内容,拆解其核心需求,并尝试推测用户的真实意图。
  • 2. 自主选择搜索策略
    根据问题的性质,决定是用通用搜索还是直接调用特定专业数据源。它能记住常用工具和 API 的调用方式,直接利用现有网络资源(如站点地图或结构化数据)进行搜索,而非依赖预设流程。
  • 3. 多步骤动态搜索
    搜索不是一次性完成,而是分成多个连续步骤。先发起初步搜索,查看结果后,可能调整关键词、浏览网页深入挖掘,或转向其他数据源,模拟人类在网上探索的过程。
  • 4. 实时优化搜索路径
    在搜索过程中不断学习和判断。如果发现当前方向无效,它会自主放弃并尝试更有效的路径,如同经验丰富的专业人士那样灵活应变。
  • 5. 整合信息并生成结果
    搜集到足够信息后,它还会通过推理将零散内容重新组合,将结果整理成逻辑清晰的总结,确保输出符合用户需求。
  • 6. 记录决策过程
    每一步决策和推理都会留下清晰的记录,增强结果的可解释性,让用户能追溯其搜索逻辑。

如同媒介理论家保罗·莱文森所言,技术进化是人类认知结构的外延。每个时代技术的核心驱动力是信息处理能力的提升,当 AI 以越来越接近人类的思维方式处理信息,重塑的将不仅仅是我们对搜索的习惯。

作者:李超凡、莫崇宇

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


2026 年上车,宝马和阿里通义合作定制新一代「出行伴侣」

By: 芥末
27 March 2025 at 08:41


与在采用纯电驱动这件事上的犹犹豫豫和来回拉扯不同,各家汽车巨头在座舱智能化这件事情上倒是相当坚定,最近的大动作也不少。

继奔驰在 CLA 发布会上宣布将 计划把 AI 模型接入座舱系统之后,宝马在 3 月 26 日也宣布和阿里通义合作,争取在 2026 年把「宝马 AI 定制引擎」搬上车。

你可能会觉得,「AI 大模型」咱们又不是没见过,装一个 AI 应用在车机上,整点语音对话和文生图之类的功能,就能叫 AI 座舱了?

但宝马这次确实追上了业界前沿,打算一次性把「人工智障」进化到「AI 智能体」,也就是最近正火的 AI Agent。

这是推动AI与先进制造业融合的一次创新探索。AI 的想象力在于改造物理世界,把 AI 能力转化为千行百业的生产力。

宝马和阿里这次合作的定制 AI 引擎能够在意图捕捉、指令解析、模糊语义理解及逻辑推演能力上有所提升,支持连续指令自然交互,通过推理以更拟人化的方式来执行更多的复杂操作。

宝马举了一个例子来说明他们对这个定制引擎的期望,例如:「晚上要请爸妈和几个亲戚吃饭,推荐个朝阳公园西门附近、能地面停车、人均 200 左右、口味清淡、口碑好的餐厅吧。」然后系统就能综合实时路况、充电桩分布、景点口碑、用户偏好等多重信息,直接给你几个答案,然后导航过去。

说实话,哪怕在手机上,现在能做到这一点的 AI 模型也不多,但是各家目前都在朝着这个方向努力,真能实现的话确实能在相当程度上提升座舱的交互体验。

当然,这个 AI Agent 也希望能让你在驾驶时更加得心应手。通过依托自然语义大模型训练,在人机沟通上更自然、更贴近人与人之间的交互方式。

BBA 们的语音助手之前受到过很多吐槽,主要是识别率和能实现的操作都十分有限,常常出现「我说城门楼子,你说胯骨轴子」囧境。

当然这个 AI Agent 也不全都是被动执行,宝马说希望让它有一些主动关怀的能力,通过模糊语义理解能力与记忆学习能力来感知和记忆你的偏好。

比如当感知到你要搭早班航班赶往机场的时候,可以主动问候并播放一些你喜欢的歌曲。就不用用户自己再在音乐软件上翻来翻去,等音乐找到了,可能心情也已经所剩不多了。

在 4 月份的上海车展上,宝马就打算让「用车专家 Car Genius」和「出行伴侣 Travel Companion」两大 AI Agent 在中国用户面前亮相,到时候董车会一定去体验一下。

在这里,我们正以中国速度,携手中国力量,将前沿技术融入宝马创新体系,打造更懂中国消费者的智能驾驶乐趣。与阿里巴巴集团长期深入的探索合作就是最佳力证。

从这次合作我们也观察到了一个新的趋势,那就是中国的汽车产业链正在从「学习者、后来者」的身份上慢慢成长起来,转变向平等对话,甚至在某几个优势领域能够引领趋势。

智能座舱或许是最明显一个部分,国内新势力在这部分的竞争相当激烈,车机功能的丰富度和流畅性现在已经成为了消费者购车决策的一个关键指标。

在其它领域也有相同的趋势,例如小鹏和大众开始共同开发新的电子电气架构,零跑和玛莎拉蒂的母公司 Stellantis 合作开发新的电动车型,以及奥迪新 A5L 全面搭载华为智驾等等。

车企们现在想造出有竞争力的新车,使用本土供应商已经是大势所趋。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


How macOS Sequoia launches an app

By: hoakley
26 March 2025 at 15:30

Each new version of macOS has increased the complexity of launching apps, from the basics of launchd, the addition of LaunchServices, to security checks on notarization and XProtect. This article steps through the major landmarks seen when launching a notarized app that has already passed its first-run checks and is known to macOS Sequoia 15.3, on an Apple silicon Mac.

Rather than trying to provide a blow-by-blow account of what’s written in the log over the course of thousands of entries, I’ve extracted landmarks that demonstrate when each subsystem gets involved and its salient actions. These have been gleaned from several similar app launches, and are ultimately timed and taken from one complete record of one of my simpler notarized apps that has no entitlements and uses only basic AppKit features. The app hadn’t been through quarantine as it had been built and notarized on the same Mac, and had been run previously but not in that session since the previous boot. It had thus been previously registered with LaunchServices and other subsystems. The host was a Mac mini M4 Pro, so timings should be briefer than on many other Macs, it was run from the main Applications folder on the internal SSD, and AI was enabled.

LaunchServices and RunningBoard

LaunchServices has been around for many years, and handles many of the tasks exposed in the Finder, including mapping of document types to app capabilities, Recent Items and Open Recent lists, making it the backbone of app launching. RunningBoard was introduced in Catalina and has steadily assumed responsibility for managing resources used by apps, including memory and access to the GPU. Although the test app doesn’t have any of its resources managed by RunningBoard, LaunchServices launched it through RunningBoard.

RunningBoard’s first task is to create a job description, which it helpfully writes to the log as a dictionary. This is a mine of useful information, and has replaced the copious information compiled by LaunchServices in the past. This includes:

  • a dictionary of Mach services
  • whether Pressured Exit is enabled
  • a full listing of environment variables, such as TMPDIR, SHELL, PATH
  • RunningBoard properties including another TMPDIR
  • whether to materialise dataless files.

Once that job description has been constructed for the app, RunningBoard tracks the app and its assertions, providing a detailed running commentary through the rest of the app’s life. LaunchServices still performs its traditional tasks, including creating an LSApplication object and sending an oapp AppleEvent to mark the opening of the app, and launchd still reports that it’s uncorking exec source upfront.

When the app is running, its preferences are loaded from the user CFPrefsD, and its pasteboard is created. Almost 0.1 second later (0.3 seconds after the start of launch) there’s a sustained flurry of log entries concerning Biome, and signs of AI involvement (Apple silicon only). The latter include a check for the availability of generative models and WritingTools. There are also entries referring to the loading of synapse observers.

LaunchServices log entries are readily accessed through its subsystem com.apple.launchservices, and RunningBoard through com.apple.runningboard.

Security and privacy

The first serious engagement in security is the verification of the app’s signature and its evaluation by Apple Mobile File Integrity (AMFI, using amfid). Shortly after that comes the standard Gatekeeper (GK) assessment, with its XProtect scan, starting less than 0.1 second after the start of launch. Immediately after the start of that scan, XProtect should report which set of data files it’s using. In Sequoia those should be at /var/protected/xprotect/XProtect.bundle/Contents/Resources/XProtect.yara. That scan took just over 0.1 second.

While XProtect is busy, syspolicyd checks the app’s notarization ticket online, through a CloudKit connection with the CKTicketStore. That’s obvious from log entries recording the network connections involved, and the complete check takes around 0.05 second. Once that and the XProtect scan are complete, syspolicyd reports the GK scan is complete, and evaluates its result.

At about the same time that the Gatekeeper checks are completing, privacy management by TCC (Transparency Consent and Control, in tccd) is starting up. Its initialisation includes establishing the Attribution Chain for any Mach-O binaries run by the app, so that TCC knows where to look for any required entitlements. Following that, TCC writes bursts of entries as different components such as the Open and Save Panel service are set up for the app.

The final phases of security initialisation come in provenance tracking, which first appeared in macOS Ventura. This may be associated with presence of the extended attribute com.apple.provenance, but details are currently sketchy.

Following syspolicy in the log is best through its subsystem com.apple.syspolicy, you can watch XProtect using com.apple.xprotect, and TCC is com.apple.TCC.

Overall

Downloadable PDF: applaunch153

Main landmarks with elapsed time in seconds:

  • 0.000 Finder sendAction
  • 0.023 LaunchServices, launch through RunningBoard
  • 0.029 RunningBoard launch request
  • 0.043 AMFI evaluate
  • 0.066 Gatekeeper assessment
  • 0.080 XProtect scan
  • 0.085 check notarization ticket
  • 0.187 TCC checks
  • 0.204 launched

Previous article

Launching apps in Sonoma 14.6.1: Conclusions

AI 按钮「占领」手机和电脑,体验真的更好了吗?

By: 苏伟鸿
25 March 2025 at 18:44

前段时间上手了全新的三星 Galaxy S25,主编们让我着重体验一下这台手机著名的 AI 功能,于是我把它当作主力机来使用,换掉了手上这台和 AI 毫无关系的 iPhone 15。

先不谈 Galaxy AI 好用与否,在体验的过程中,另一个想法也渐渐在我内心成型:目前用户和手机的交互,似乎还没有一个能很好容纳 AI 的范式。

这也衍生出了一个疑问:有必要为 AI,增加一颗专门的按钮吗?

我想要一颗 AI 按钮

这样的想法,源于我刚刚拿到三星 Galaxy S25 时的体验。

既然要体验「AI」,那 AI 在哪呢?第一反应肯定是直接长按那个曾经被称为「电源键」的长条按钮,果不其然,呼出了三星的 AI 语音助手 Bixby。内置了大模型的 Bixby 体验和大部分国产手机类似,能说会道,还能一句话帮忙发朋友圈。

但当我想使用圈点即搜、AI 识物等多模态功能时,我却有点困惑了,这些功能都藏在哪?

没有教程,没有引导,也就是说,如果是不太了解手机 AI 的小白用户,他们很可能完全不知道自己花大几千买的新手机,还包含了这些发布会上大谈特谈的新功能。

这个现象不只是三星一家,同样非常重视手机 AI 的国产厂商,AI 的正确打开方式,也总是让人摸不着头脑:长按导航条、长按电源键、「AI 岛」……各家还不完全一样,各种 AI 功能被塞在各种各样有点抽象的交互之中。

但 AI 现在已经被提升到一种优先度极高的战略级地位,不管什么设备什么平台都要讲「AI」,什么操作都可以让 AI 赋能。

所以我不由得去思考,如果有一颗交互专门围绕 AI 功能的实体按钮,不管什么场景,只要一按,就能得到 AI 助力。

而且,专门做一颗按钮,也能给消费者和用户一种更深刻的「AI 手机」印象。

AI 按钮这个概念,其实并不算特别新鲜。如果现在入手一台全新的 Windows 笔记本,很大概率会发现,方向键的左边是一个全新的按键。

从去年开始,微软出台一个新规范:所有的 「AI PC」笔记本,出厂都要配备一个「Copilot」按键,将旗下的 AI 功能提升到一个更高的地位。

虽然一年过去,这个 Copilot 按键基本上只能用来呼出 Windows 的 Copilot 聊天机器人网页应用,而如果你在 Copilot 不支持的地区,那它就只是一个普通的搜索键而已。

另一个桌面阵营的「AI 按键」就有用多了。Google 也在去年开始推广 ChromeBook 键盘上的「Quick Insert(快速插入)」按键,按下就能快速访问 ChromeOS 的 AI 生成工具菜单,快速生成需要的文字和图片内容,或者进行搜索。

而苹果这边,iPhone 比 Mac 要抢先迎来「AI 按键」:iPhone 16 上的全新「拍照按钮」不仅能用来抓拍,还能用来启动「视觉智能」功能;没有拍照按钮的 iPhone 15 Pro 和 iPhone 16e 系列,则把这个交互放在了操作按钮上,方便用户抬手就能用 Apple 智能看世界。

现在的 AI 形态,已经不满足于一问一答的聊天机器人,各种多模态和智能体,已经深入我们的工作流和设备当中,这也是现在厂商们提倡的「系统级 AI」。

未来设备上的 AI 功能,一定会比现在花样更多,这时候就需要一颗专门用来承载这些功能的 AI 按钮了。

▲ 现在侧边按钮都能呼出语音助手,但或许还不够

比如,当用户在小红书刷到一家餐厅的种草帖,按下 AI 按键就能自动提取出相关的地址信息,推送大众点评的详细评价,还能自动安排合适的日程。

没想到,一些不同的「AI」按键的设备,真的出现在我的面前。

不同的 AI 按键,体验如何?

作为一家新品牌,Nothing 没有太多的技术积累,很难像其他大牌一样拿出「系统级 AI」的解决方案,因此语音助手的集成上只能依靠 Google Gemini 和 ChatGPT。

不过,全新的 Nothing Phone 3a 上面的 AI 功能要更别出心裁:名为「Essential Space」,有点类似老罗的「闪念胶囊」。

用户可以随时按下锁屏按键下方的 Essential Key 截取一张屏幕截图,并可以加入一点文字描述,或者长按录音转文字 AI 也会在后台识别截图和录音的内容,生成一个摘要。

▲ 电源键下方就是 AI 键,图源:The Wired

理念很美好,但用起来却有点在我的预期之下,一个问题是,很多时候我几乎想不起来有这么一个功能,误触的次数比主动唤醒要多得多。

毕竟,要让用户形成全新的使用习惯并不容易,除非是一个让用户一碰就回不去的顶级功能。而这个简陋并且不太靠谱的 Essential Key,有用但不算特别好用,归纳总结和语音识别都不算特别准确,更多只是一个将重要信息保存在另一个地方的截图键和录音键而已。

但与此同时,另一种「AI 按键」,却赢得了编辑部不少小伙伴的好评。

这个乍一看非常雷人的「AI 键盘」,其实就是一个做工 50 元的普通键盘,加上了一大堆能一键直达相应 AI 功能的按键:文稿校对、阅读理解、AI 问答、AI 写作…… 集成的是 DeepSeek R1 模型,然后售价高达 399 元。

一开始,这个键盘以一种「智商税」的形象出现在我们的讨论之中,但一上手,我就被这种简单粗暴的交互方式折服,逢人便说好。

原因很简单,这些一键直达的 AI 功能,很多都是我需要先点开浏览器页面,再点击 DeepSeek 的书签,还要往里面输入合适的 prompt,最后才能真正用上这些功能。

所以,即使知道 DeepSeek 和 ChatGPT 的翻译、校对能力都要更胜一筹,很多时候我还是因为懒得打开相关页面和输入 promt,选择使用更古早的工具。

而这一切都被这个方便的 AI 键盘颠覆,真正让 AI 直接渗透了了我的工作流。

▲键盘联动的 AI 软件真的啥都有

AI 交互的答案

要不要增加 AI 按键,说到底还是一个「入口」的问题。想要一个 AI 按键,其实就是渴望一个统一的 AI 入口,让 AI 为所有操作和交互赋能。

AI 键盘就是直接用一种简单粗暴的方式,将各种各样的 AI 功能入口,直接推到我的手下,功能的实现路径被缩到最短。

当然,这也因为,AI 键盘的功能都是强生产力相关的,能完美融入我用电脑的工作流之中,极大增加工作效率。

手机和电脑,不管是交互还是场景都有着不小差异。电脑上我们可以让 DeepSeek 生成十篇不同的文稿择优录取;手机上,我们希望 AI 能一声令下完成任务,但现在的技术水平还达不到百分百的可靠,难以说服用户积极使用。

为 AI 单独设立一个按键,不管从智能设备的演变,还是 AI 发展的路径来看,或许都不算最终答案,最多只是一种过渡。

不仅智能手机本身就在「去按键化」的道路上一往无前,如果过度依赖一个物理的入口,也会固化「AI = 独立工具」这样的认知,而目前公认的 AI 方案,其实都是让 AI 深入系统底层,实现「真智能」。

毕竟,AI 不是目的,而应该是更好用户体验的手段。

就像是 Nothing 的 Essential Space,如果能够实现全自动化,在我需要的时候,就能搜索快速检索出之前我看过的信息,比如淹没在海量聊天记录中的一家餐厅,或是飞机信息,那就是更加高级的智能。

▲ 苹果画饼的「AI Siri」其实就是想实现这种愿景

vivo 的「原子岛」也很有这种感觉:复制一个地址信息,原子岛就会建议地图导航;复制一个淘口令,原子岛里淘宝已经等着你去打开。

真正高明、简约的交互,不应该需要用户频频转移注意力去完成,而是当用户需要的时候,就能用最简单的方式获得需要的帮助,更多时候甚至是主动提供帮助。

我相信,未来这几年内,会有更多设备做出 AI 按键的尝试,但最终又都会消失,甚至更多其他现存的交互也会不复存在,因为 AI 已经将一切完成了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


一小时爸爸|不要过度信任和依赖AI给出的答案

24 March 2025 at 19:31

我这两天有个问题想不通透,所以昨天干脆扔给deepseek去帮我分析。因为这只是我个人的疑问,所以也没打算加班写文章。但在和deepseek沟通的过程中,倒是发现了另外一件事,或许更需要跟大家聊聊。

不过deepseek一如既往的话痨,字数太多,我只能换到PC版截图了聊天记录。截图字小,如果看不清可以点开看大图。

1.首先在deepseek回答我的问题后,我发现里面有一个重要信息和我以前所了解的不符,也就是下图红框的部分。

image

2.所以我复制了一下之前的新闻内容,追问了一下。而deepseek则很快认识到了自己的错误,说明的确有这个要求。但是这次的回答中又有另外一个更明显的问题。

image

3.我只好继续追问它为什么给出了这个新的错误信息。它重新检索之后,反省说自己其实没找到过今年发表的声明,还跟我道歉。

image

img

4.我好奇它连续出错的原因,问它为什么会犯这种错误。它承认错误倒是很快,说明自己之前犯错的原因包括:规则理解偏差、信息更新延迟和过度推断流程。并且深刻致歉,表示自己以后会努力改正。

image

image

img

5.最后我又重新问了一次最开始的疑问。这次deepseek给出的答案我就没有发现什么问题了。

需要这里特别提一句:deepseek认为未来几天可能补发通告,或者是因为接近尾声所以之后会直接发布最终报告。我个人认为这两种可能性是存在的,我也很希望deepseek的判断会变成现实。

image

后续:但有趣的是,我今天另起一个新对话,再次复制粘贴问了最初的问题,而这次deepseek依旧犯了同样的错误。也不知道现在大家问它的话,是会得到怎样的答案。

image

开始就说了,今天的文章并不是关于我问deepseek的问题,我已经多等了两天,而且会继续等到有最终报告的那天。

但和deepseek的沟通中,让我想起最近感受越发感受明显的一件事:随着这两年AI的热度,尤其是deepseek出现之后,我身边越来越频繁的出现一种场景 —— 当你问别人“你这么认定的证据和理由时”,对方信誓旦旦地回答你说“deepseek这么说的”。

只是deepseek也好,还是国内外其他AI也好,虽然它们检索汇总资料的能力很强,语言表达能力现在也不错。但依旧会犯很多比较初级的错误。

就比如前面我和deepseek沟通,deepseek因为搜到了2023和2024年的资料,就很随意地推断认定2025年也有。

更重要的是,AI,尤其是针对公众免费使用的AI,无论是哪个国家哪个公司开发的,其实都只能检索到限定范围内的部分资料,尤其是网络传播较多的信息。这就导致AI可能会被网上主要流传的信息所引导。如果AI检索范围内的网络信息,基本都是错的,或者有偏差的,那AI的答案就很难科学和真实。

就像deepseek分析自己出错的原因:规则理解出错、信息偏差延迟、过度“自信”推断,这些其实都是现阶段AI容易犯的错误。

之前的文章中写过,无论是下一代还是我们,未来的一个重要课题就是如何学习使用AI,不只是说要搞明白如何使用,也包括如何去引导AI更为准确和有效地工作,以及如何判断AI给出的答案是否有“坑”

苹果 AI 紧急换帅,新 Siri 可以跳票但不能失败

By: 苏伟鸿
21 March 2025 at 18:26

每年的这个时候,苹果都将召集 100 名最具影响力的高管,前往库比提诺附近的一个绝对保密的地点,决定这家全球市值第一的公司,如何走出下一步。

不用想,今年会议桌上的焦点,将会是苹果近几年最大的烫手山芋——Siri。

在 3 月初宣布AI 增强版 Siri 跳票之后,苹果股价单日暴跌 4.85%,创下两年半来的最大跌幅,各种负面评论更是足足刷屏了两周。

3 月 21 日,彭博社爆料称,苹果 CEO 蒂姆·库克已经对目前的 AI 团队失去了信心,并更换了 AI 团队的负责人——现在由 Mike Rockwell 负责,他之前是 Apple Vision Pro 团队的关键人物。

对于苹果而言,AI Siri 只能成功,不能失败。

AI Siri 的真实情况究竟如何?

2024 年的开发者大会,苹果不出所料地公开了自己的 AI 方案:Apple 智能。

文生图、写作工具、图片消除……这些几乎家家必备的功能乏善可陈,重头戏在「增强 Siri」上。

和以前机械的语音助手比,AI 版本的 Siri 有了理解上下文和用户情景的能力,可以读取屏幕,在 App 内和跨 App 进行操作。

根据 WWDC 上的演示,用户可以直接问类似「我该什么时候去接妈妈?」「我和家人什么时候吃午餐?」等个人问题,Siri 会直接从相关的邮件、短信消息中提取相关信息回答,不需要用户提前设定好日历安排,成为名副其实的「个人助理」。

只是这个功能没有马上随着新系统开始测试,甚至也没能在年内推出,苹果当时对它的预期就是 2025 春季面世。

著名科技评论人 John Gruber 去年现场参加了 WWDC,他认为发布会上的「增强 Siri」只是在分享一些模拟的概念视频,甚至不能说是演示。在发布会视频播放后的线下演示环节,苹果工作人员实际操作了写作工具、照片清理等功能,这些都包含在目前正式发布的 Apple 智能集合之中。

但丝毫没有增强 Siri 的身影,即使这已经是全程由工作人员操作的受控演示环境,很大程度佐证了在 WWDC 举办时,「增强 Siri」基本只存在于苹果的幻灯片中。

从现在来看,没有任何演示已经是一种危险的信号,但当时大部分媒体都因为苹果在功能兑现上的良好口碑,选择相信苹果会按时带来增强 Siri。

虽然苹果从 2017 年开始频繁在发布会上画饼,但基本都能按时兑现,即使延期,也很少超过几个月,像 Siri 这样一推迟就是一年的情况极其罕见。

  • HomePod:2017 年 6 月官宣,原定 12 月上线,最终 2018 年 2 月发布
  • AirPower 无线充电板:2017 年 9 月官宣,原定 2018 年上线,最终在 2019 年 3 月宣布取消
  • FaceTime 群聊:2018 年 6 月官宣,原定 9 月上线,最终 2018 年 12 月发布
  • 通用控制功能:2021 年 6 月官宣,原定 10 月发布,最终 2022 年 3 月 发布
  • CarPlay 2.0:2022 年 6 月官宣,原定 2024 年推送,目前仍在开发中
  • 台前调度(iPadOS 16):2022 年 6 月官宣,原定 9 月推送,推迟 10 月发布

在以 Siri 和其他 Apple 智能功能为卖点的 iPhone 16 发布后,苹果一直在对这些功能进行宣传和炒作,甚至还有单独针对「增强 Siri」功能进行演示的电视广告,即使它们还完全没有踪影。

▲ Bella Ramsey 出演的 iPhone 16 和「个人化」Siri 广告

所以现在的增强 Siri 进度究竟如何?彭博社爆料,在苹果的测试中,Siri 只有 75-80% 左右的时间能正常工作,而苹果内部想要它完全成为用户真正能依赖的工具。

通过 Daring Fireball 宣布 Siri 延迟后,苹果也将这条广告撤下,并且还在官网相关功能简介中补充了免责声明,但更大的麻烦还在路上。

在 Siri 团队换帅消息出来的同一天,苹果也陷入了一场集体诉讼之中,被指控推广其被推迟的 Apple 智能,构成了虚假广告和不公平竞争。

曾经领先的 Siri,为什么会走到这一步?

2011 年,Siri 在 iPhone 4S 发布会上压轴登场,语音查天气、设日程、打电话的一通演示操作,不仅震撼了在场的与会者,更让全世界都感觉一扇未来之门在徐徐展开。

结果,十几年过去,iPhone 已经改头换面,Siri 却仿佛冻龄,现在依旧只能查天气、设日程、打电话。

当时乔布斯对这项技术的期待值很高,即使身体每况愈下,依旧深度参与了收购 Siri 的过程。他看到的不仅是语音助手这种交互的可能性,更是背后能从用户中不断学习、自我改进的人工智能技术。

但不需要特别熟悉苹果的朋友都知道,乔布斯和库克的苹果是两家风格迥异的公司,后者更强调科技的人文属性,优先级甚至比创新更高。

而在面对「战未来」的抉择问题,苹果自然在人工智能和空间计算中,选择了潜在伦理问题更少的后者。去年谈论苹果的人工智能策略时,彭博社就爆料称,苹果内部对生成式 AI 的态度非常消极,导致了他们在人工智能技术的落后,让这家公司在大模型技术上没有太多积累。

在介绍沉入系统底层、广泛收集用户数据的 Apple 智能时,苹果花了很长时间大谈背后的隐私策略,用户不一定听得懂这些深奥的技术原理,但起码会觉得,数据交给苹果,很放心。

▲ 「AI 隐私的全新标准」

即使是再小心的苹果,也无法摆脱目前的 AI 幻觉。前段时间 Apple 智能正式上线的「通知摘要」功能也在上线后不久被发现有「胡编乱造」的情况。BBC 指出,这个功能错误地改写了自己应用的通知,捏造 PDC 世界飞镖锦标赛的冠军,和网球运动员 Rafael Nadal 的性取向。

▲ 这上面的通知摘要内容基本全是捏造的,图源:BBC

对于正确率只有八成,却又是整个 AI 体验核心的 Siri,苹果自然采取更谨慎的态度。

宣布延期后,不少人开始「招魂」乔布斯。如果是那个男人,这一切会不会有所不同?

著名分析师郭明錤认为,如果是乔布斯,他会和「天线门」一样亲自出面致歉用户,而不是像现在这样,通过第三方渠道宣布这个事情。

而 John Gruber 援引了乔布斯当年对错漏百出的 MeMobile 邮件服务团队的严肃处理,表示这应该才是正确的应对方式。

其实,如果是乔布斯,这一切大概率都不会发生,因为他不可能错过 Siri 这个再一次领先时代的机会。

只许成功,不许失败的 Siri

苹果上次千呼万唤也出不来的「饼」,想必大家不会陌生:

两者的困境都很类似:过于提前发布,却没能按时解决技术挑战,成了一张空头支票。

但我们都知道,增强 Siri 不会和 AirPower 一样胎死腹中,这个产品,苹果一定会想办法做出来,即使需要再来一年,甚至两年的开发时间。

市场并没有要求苹果去做一个 AirPower,有没有这个产品,其实对苹果来说几乎无伤大雅,整个发布事故最大的槽点,只是苹果太早发布了一个没有能力完成的产品而已。

但这次情况要更严峻。生成式 AI 时代,苹果一直是非常被动的追赶者,亮点寥寥的 Apple 智能就是苹果的对策。每一家企业都在 All in AI,好不好用,消费者买不买单另说,但不做,就意味着跟不上版本,态度上就要被淘汰。

而增强 Siri 是 Apple 智能的核心体验,奠定了苹果生态中 AI 的解决方案,所以在去年那场 WWDC,苹果只能硬着头皮端上一碟还算是原材料的菜,就是为了稳定市场,留住信任。

苹果算是被 AI 浪潮驱策前行,但现在骑虎难下。

在苹果确认增强 Siri 跳票之后,有两个相关的消息接连曝出。

第一个和苹果智能家居计划有关。去年开始,不断有报道指出苹果准备大力发展自家落后的家居生态。最新消息指出,苹果原本是想在这个月发布智能家居中心新品,但因为这些产品依赖增强的 Siri 功能,只能不断延期。

也就是说,Siri 的落后不仅影响的是用户体验那么简单,也制约了苹果接下来的产品和生态布局。

另一个消息则是苹果打算重新设计操作系统的界面,包括 iOS、iPadOS 和 macOS 多个平台,据悉将会是「十年来最大程度」的翻新。

▲ iOS 19 的一种假想图,据悉新系统会采用 visionOS 的设计风格

所以今年的 WWDC,苹果打算主谈 UI 而不是 AI,更像是一次围魏救赵,转移人们对它落后 AI 功能的注意力。

因为根据彭博社爆料的 Siri 小组内部会议,苹果高管 Robby Walker 表示,增强版的 Siri 实际上没有一个准确的发布时间,明年春季只是一个「目标」,不意味着一定就在那时发布。

在手机 AI 竞争日渐加速的当下,苹果还要回过头完成以前的功能,不禁让人担心会不会进一步掉队。

转念一想,其实苹果激流勇退,何尝不是一种以退为进。

外媒 The Verge 在 AI Siri 跳票后发布了一篇文章,标题为《所有这些糟糕的 AI 正在破坏整整一代的智能产品》,批评了当下智能设备对 AI 助手功能的炒作:发布时大谈多模态和交互革命,实际上手一个比一个不靠谱。

而苹果自然是当中最违反游戏规则的一个,因为他们的 AI Siri,甚至还不能上手。

但同时,他们或许也是最遵守游戏规则的一个,因为他们不愿意发布这个无法百分百按介绍运行的半成品,而其他厂商并非如此。

虽然正式发布的日子没个准信,但苹果内部仍然非常看好增强 Siri。在对 Siri 团队进行了严厉批评后,Robby Walker 还是称赞了这些技术人员,表示「我们应该对所做的事情感到自豪」:

我们游了数百英里,已经创造了游泳距离的吉尼斯世界纪录,但我们仍然没有游到夏威夷。我们被激怒不是因为我们游得很棒,只是因为我们还没到达目的地。

直接改组管理高层的操作,在苹果内部并不常见,Mike Rockwell 的加入有望加速苹果在 AI 方面的追赶。

Rockwell 不仅成功带领团队开发出 Vision Pro 头显,多年来他也一直主张让 Siri 更加智能化,这几周还在不断为 Siri 小组提供建议,原本他也被前 AI 团队领导者 John Giannandrea 视为「接班人」。

▲ Mike Rockwell

加上苹果内部越来越将 Vision Pro 项目视为「AI 产品」,Rockwell 在硬件方面的经验也能很好帮助 AI 和未来苹果设备的结合。

喧嚣过后,市场也还是选择信赖苹果,本周股价已经开始缓缓上升,释放出一个积极的信号。

还在探索的行业,给了苹果一个喘息的机会后来居上,但不是只有苹果想游到夏威夷,这次留给苹果的时间,已经远远没有十四年这么多了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Sam Altman :GPT-5 将免费开放,DeepSeek 教训了我们 | 万字访谈实录

By: 爱范儿
21 March 2025 at 14:50

我认为 DeepSeek 确实是个很棒的团队,也做出了很优秀的模型,但他们真正走红的原因,并不完全是模型本身的能力。

 

这对我们来说是一个教训,那就是当我们隐藏一个功能时(思维链),我们给其他人留下了获得病毒式传播的机会。这是一个很好的警醒。它也让我重新思考我们在免费层中提供的内容, GPT-5 将可以免费使用 。

硅谷知名分析师 Ben Thompson 最近与 OpenAI CEO  Sam Altman 进行了一场深度对谈,Altman 聊了很多内容,包括开源模型、GPT-5 的进展、和 DeepSeek 的竞争,透露了 OpenAI 未来的发展方向,对 AGI 的观察……

在这个访谈中,也再次让人感受到 DeepSeek 等开源模型对 OpenAI 的影响,最近两个月 OpenAI 的产品发布节奏,也开始跟随着思维链和 Agent 等在中国出圈的模型和产品。

Sam Altman 提到 OpenAI 的崛起是「一次疯狂的机会」。ChatGPT 的成功,让这家公司「被迫」成为了一家消费者科技公司。

现在,这也成为了 OpenAI 当下最大的挑战、

APPSO 整理这篇访的关键点:

1. DeepSeek 的出现是一个「警醒」,促使 OpenAI 重新考虑免费层策略。

2.暗示 GPT-5 即将推出,而且免费用户也可以体验 GPT-5。

3.OpenAI 希望打造一系列个数十亿用户规模的产品。

4.Sam Altman 认为 10 亿日活用户比最先进的模型更具价值。

5.OpenAI 未来的定位,三足鼎立:
·构建大型互联网公司。
·构建推理的基础设施。
·做最好的研究以及最好的模型。

6.幻觉有其价值,是创造力的体现。关键在于控制幻觉,使其在用户需要时出现。

7.ChatGPT 的意外成功迫使 OpenAI 转型,从研究实验室转型为消费科技公司。

8.Sam Altman 承认这并非最初的计划,原本希望专注于 AGI 研究。

9. AGI 是一个模糊的概念,没有统一的定义,倾向于将能够自主完成一系列任务的代理定义为 AGI。

以下是访谈实录,略经 APPSO 编辑和精选:

GPT-5 将可以免费使用

主持人: 从我的角度来看,当你谈到服务数十亿用户,成为一家消费者科技公司时,这意味着广告。你不同意吗?

SA: 我希望不是。我并不反对。如果有充分的理由去做,我不会固执己见。但是,我们有一个很好的业务模式,那就是销售订阅服务。

主持人: 距离盈利和收回所有投资,还有很长的路要走。而且,广告的好处在于,它扩大了你的潜在市场范围,也增加了深度,因为你可以提高每个用户的收入,而广告商会为此买单。你不会遇到任何价格弹性问题,人们只会更多地使用它。

SA: 目前,我更感兴趣的是弄清楚如何为一个真正出色的自动化软件工程师,或者其他类型的代理,向人们收取高额费用,而不是通过基于广告的模式来赚取一些小钱。

主持人: 我知道,但大多数人并不理性。他们不会为生产力软件付费。

SA: 让我们拭目以待。

主持人: 我为 ChatGPT Pro 付费,我不是合适的讨论对象。但我只是——

SA: 你觉得你从中获得了很好的价值吗?

主持人: 当然,我觉得。我认为——

SA: 太好了。

主持人: ——尤其是 Deep Research,它太棒了。但是,我可能更怀疑人们是否愿意主动为某些东西付费,即使数学计算结果很明显,即使它能让他们提高很多效率。同时,我看到你们在谈论构建记忆。让谷歌广告模式如此出色的部分原因在于,他们实际上并不需要非常了解用户,因为人们会在搜索框中输入他们想要查找的内容。人们在你们的聊天机器人中输入了大量的信息。

即使你们投放最「愚蠢」的广告,在很多方面,即使你们无法追踪转化,你们的定向能力也将是超凡的。而且,顺便说一句,你们没有现有的商业模式需要担心被削弱。我的感觉是,这与 OpenAI 的每个人最初的设想完全背道而驰,这是最大的障碍。但对我来说,从商业分析师的角度来看,这似乎非常明显,而且你们已经晚了。

SA: 比起传统的广告,我更感兴趣的是尝试其他方式。比如,很多人使用 Deep Research 来进行电子商务。我们是否可以提出某种新的模式,我们永远不会为了改变商品位置或其他任何东西而收钱,但是,如果你通过 Deep Research 购买了你找到的商品,我们会收取 2% 的联盟佣金,或者类似的东西。那会很酷,我对此没有任何意见。也许,我们可以找到一种体面的方式来做广告,但我不知道。我其实不太喜欢广告。

主持人: 这始终是一个障碍。马克·扎克伯格也不太喜欢广告,但他还是找人做了,而且「别告诉我细节」,让钱神奇地出现。

SA: 是的。再次强调,我喜欢我们目前的商业模式。我不会说我们将来一定会做什么,或者一定不会做什么,因为我不知道。但是,我认为,有很多有趣的方式,在我们当前的变现策略清单上,它们的优先级比广告更高。

主持人: 你有没有觉得,当 DeepSeek 出现并迅速走红,人们开始使用并看到了它的推理能力时,一部分原因是,使用过 ChatGPT 的人没有那么印象深刻,因为他们使用过 o1 模型,他们知道它的潜力。

SA: 是的。

主持人: 但免费用户,或者只是偶尔使用过一次的人,并没有这种感觉。这实际上是不是一个例子,说明你们的沉默寡言,可能让其他产品看起来更令人印象深刻?

SA: 完全是。我认为 DeepSeek——他们有一个很棒的团队,他们开发了一个很棒的模型。但是,我认为,模型的能力并不是真正让他们获得病毒式传播的关键。

这对我们来说是一个教训,那就是当我们隐藏一个功能时(我们隐藏了「思维链」),我们有充分的理由这样做,但这确实意味着,我们给其他人留下了获得病毒式传播的机会。我认为,从这个角度来说,这是一个很好的警醒。而且,它也让我重新思考我们在免费层中提供的内容, GPT-5 将可以免费使用 ,这很酷

主持人: 哇,GPT-5 的暗示。好吧,我稍后会问你更多关于这方面的问题。

主持人: 当你考虑你的商业模式时,我一直认为,你的商业模式非常适合那些「高主动性」的人,也就是那些会主动使用 ChatGPT,并且愿意为之付费的人,因为他们看到了它的价值。但是,有多少人是「高主动性」的呢?而且,「高主动性」的人会尝试所有其他的模型,所以你们必须保持在一个相当高的水平上。相比之下,如果我有一个好用的模型,它就在那里,而且我不需要付费,它还会不断改进,人们会通过我赚更多的钱,但我不知道,因为我对广告没有意见,就像大多数互联网用户一样。

SA: 再次强调,我们对任何需要做的事情都持开放态度。但是,相比于传统的广告,我对刚才提到的那种电商模式更感兴趣。

和 DeepSeek 及其他公司的竞争

主持人: 关于 DeepSeek,你有没有想过,为什么人们不为美国公司欢呼?你有没有觉得,DeepSeek 的走红,也带有一些「反 OpenAI」的情绪?

SA: 我没有。也许有吧,但我肯定没有感觉到。我认为有两件事。第一,他们把一个前沿模型放在了免费层。第二,他们展示了「思维链」,这很吸引人。

主持人: 大家会觉得,「哦,它好可爱。AI 正在努力帮助我」。

SA: 是的。我认为主要是这两件事。

主持人: 在你们最近提出的「AI 行动计划」中,OpenAI 表达了对公司基于 DeepSeek 模型进行开发的担忧,这些模型是「免费可用」的。如果这真的是一个问题,那么解决方案难道不是让你们的模型也免费可用吗?

SA: 是的,我认为我们应该这样做。

主持人: 那么,什么时候——

SA: 我现在还不能宣布发布日期,但从方向上来说,我认为我们应该这样做。

主持人: 你之前说过,拥有 10 亿用户网站比模型更有价值。那么,这是否应该贯穿到你们的发布策略,以及你们对开源的看法中?

SA: 敬请期待。

主持人: 好的,我会期待的。没问题。

SA: 我不是在提前透露什么,但敬请期待。

主持人: 我想,接下来的问题是,这是不是一个机会,让你们回归最初的使命?如果你回顾一下最初的声明,DeepSeek 和 Llama……

SA: Ben,我正在努力给你尽可能多的暗示,但又不能直接说出来。拜托。

主持人: (好吧,没问题。公平,公平。有没有一种感觉,这让人感到解放?对吧?你回想一下那个 GPT-2 的公告,以及关于安全性和其他可能的问题。此时看起来有些老套。是否有一种感觉,秘密已经泄露?在这种情况下,对这些发布保持某种珍贵的态度有什么意义?

SA: 我仍然认为未来可能会有很大的风险。我认为我们过去太保守了是公平的。我也认为,在你不清楚情况的时候,稍微保守一点,这个原则并没有错。我还认为,在目前这个阶段,这项技术会扩散到各个领域,无论是我们的模型做了坏事,还是其他人的模型做了坏事,这又有什么区别呢?但怎么说呢,我还是希望我们能尽可能地做一个负责任的参与者。

主持人: 另一个最近的竞争对手是 Grok。从我的角度来说,在过去一年左右的时间里,我对于 AI 有过两次,我认为很有趣的心理体验。一次是在我的 Mac 上运行本地模型。出于某种原因,我很清楚地意识到它就在我的 Mac 上,没有在其他任何地方运行,这实际上是一种非常棒的感觉。另一次是使用 Grok,我不会觉得有什么“道德警察”会在某个时刻跳出来指责我。我认为,必须承认,ChatGPT 在这方面已经有了很大的改进。但是,Grok 是否让你觉得,实际上,我们可以在这方面走得更远,让用户像成年人一样(自由使用)?

SA: 事实上,我认为我们已经做得更好了。我认为我们之前在这方面确实做得不好,但在过去的六到九个月里,我认为我们已经有了很大的改进。

主持人: 我同意。它确实已经变得更好了。

SA: 这曾经是我对我们产品最关心的问题之一。但现在,怎么说呢,作为用户,我不会觉得困扰了,我认为我们已经做得不错了。所以,我过去经常思考这个问题,但在过去的六到九个月里,我没有再想过了。

成为一家消费科技公司是意外

主持人: 谈一下非营利组织的问题——有一种说法,你提到了那个「神话」。说你们成立非营利组织,是为了出于利他主义的原因,同时也是为了与谷歌竞争人才。仅仅是这样吗?

SA: 你是问,为什么选择成为非营利组织?

主持人: 为什么选择成为非营利组织,以及随之而来的所有问题?

SA: 因为我们当时认为我们只是一个研究实验室。我们根本没有想过我们会成为一家公司。我们当时的计划就是发表研究论文。没有产品,没有产品计划,没有收入,没有商业模式,也没有这些方面的计划。在生活中一直对我有帮助的一件事,就是在黑暗中摸索,直到找到光明。我们在黑暗中摸索了很长时间,然后找到了有效的方法。

主持人: 没错。但这个非营利组织的身份,现在是不是有点像套在公司脖子上的磨盘?如果可以重来,你会采取不同的做法吗?

SA: 当然。如果我能预知后来发生的一切,我们肯定会采用不同的组织结构。但我们当时并不知道,我认为走在创新前沿的代价,就是你会犯很多愚蠢的错误,因为你深陷战争迷雾之中。

主持人: 关于 ChatGPT,以及没有人预料到你们会成为一家消费者科技公司,我有一些更多的理论想和你探讨。这一直是我的观点:你们原本是一个研究实验室,当然,我们会发布一个 API,也许能赚点钱。但你提到了那六个月的扩张期,必须抓住这个从天而降的机会。科技界有很多关于员工流失的讨论,一些知名人士离开了,等等。

在我看来,似乎没有人是冲着成为一家消费产品公司而来的。如果他们想在 Facebook 工作,他们完全可以去 Facebook。这也是另一个核心的矛盾点:你们有了这个机会,不管你们想不想要,它就在那里。这意味着,这里的情况和最初已经大不相同了。

SA: 这么说吧,我没什么可抱怨的,对吧?我得到了科技行业最好的工作。如果我开始抱怨这不是我想要的,那对我是多么不幸等等,那就太不近人情了。我想要的是管理一个 AGI 研究实验室,弄清楚如何构建 AGI。

我真的没想过要经营一家大型的消费者互联网公司。我从之前的工作中就知道(那份工作在当时也是我认为科技行业最好的工作,所以我觉得自己非常、非常幸运,两次都得到了最好的工作),经营一家大型消费者公司需要投入多少精力,以及在某些方面有多么困难。

但我也知道该怎么做,因为我之前指导过很多人,也观察了很多。当我们发布 ChatGPT 的时候,每天都会有用户激增,导致我们的服务器崩溃。然后到了晚上,用户数量下降,大家都觉得,「这下完了,这只是一个短暂的病毒式传播」。然后第二天,峰值又升高了,然后又下降,「这下完了」。到了第五天,我就觉得,「哦,天哪,我知道接下来会发生什么了,我见过这种情形很多次了」。

主持人: 不过,你真的见过这种情形很多次吗?因为整个游戏的关键在于客户获取。对于很多初创公司来说,这就是最大的挑战。真正通过自然增长、病毒式传播来解决客户获取问题的公司,其实非常少。我认为,在这个领域,真正走在 OpenAI 前面的公司是 Facebook,那还是在 2000 年代中期。我觉得你可能高估了你之前见过这种情形的次数。

SA: 好吧,在这个规模上,确实,我们可能是最大的。我想,我们可能是自 Facebook 以来成立的规模最大的公司了。

主持人: 这种规模的消费者科技公司实际上非常罕见,这种情况并不经常发生。

SA: 是的。但我之前见过 Reddit、Airbnb、Dropbox、Stripe,还有很多其他的公司,它们都实现了这种惊人的产品市场契合,以及爆发式的增长。所以,也许我没有见过这种规模的。在当时,你并不知道它会发展到什么程度,但我之前见过这种早期模式。

主持人: 你有没有告诉过大家这将会发生?还是说,那是你根本无法传达的事情?

SA: 我确实告诉过大家。我把公司的人召集起来,说:「这将是非常疯狂的,我们有很多工作要做,而且必须尽快完成。但这是一个从天而降的绝佳机会,我们要抓住它,接下来会是这样……」。

主持人: 有没有人理解你或者相信你?

SA: 我记得有一天晚上我回家,双手抱头,感觉很沮丧。我说:「天哪,Oli [ Oliver Mulherin ],这太糟糕了」。他说:「我不明白,这看起来很棒啊」。我说:「这真的很糟糕,对你来说也很糟糕,你只是还不知道,但接下来会发生这些……」。但是,我想没有人真正理解。这是我之前经历的一个特殊之处,我能够很早就意识到这一点,但没有人能感受到最初几周会变得多么疯狂。

主持人: 五年后,什么会更有价值?一个拥有 10 亿日活跃用户网站,不需要进行客户获取,还是最先进的模型?

SA: 我觉得是 10 亿用户的网站。

主持人: 无论如何都是这样吗?还是说,因为至少在 GPT-4 这个水平上(我不知道你今天有没有看到,LG 刚刚发布了一个新模型),未来会有很多,我不知道,我不评论它的好坏,但未来会有很多最先进的模型。

SA: 我最喜欢的历史类比是晶体管,AGI 将会像晶体管一样。未来会有很多 AGI,它会渗透到各个领域,会变得很便宜。它是物理学的一个新兴属性,它本身并不能成为一个差异化因素。

主持人: 那什么会成为差异化因素?

SA: 我认为存在战略优势的地方,在于打造一家巨型的互联网公司。我认为这应该包含几个不同的关键服务。可能会有三四个像 ChatGPT 这样的产品,你会希望购买一个包含所有这些产品的捆绑订阅。你希望能够使用你的个人 AI 登录,它已经在你的生活中逐渐了解你,并且可以在其他服务中使用它。

我认为,未来会出现一些令人惊叹的新型设备,它们是针对你使用 AGI 的方式进行优化的。会有新型的网络浏览器,会有整个生态系统。总之,会有人围绕 AI 打造出有价值的产品。这是其中一个方面。

另一个方面是推理堆栈,也就是如何实现最便宜、最丰富的推理。芯片、数据中心、能源,会有一些有趣的金融工程要做,所有这些都包括在内。

然后,第三个方面是真正做出最好的研究,开发出最好的模型。我认为这是价值的「三驾马车」。但是,除了最前沿的模型,我认为大多数模型会很快商品化。

主持人: 所以,当 Satya Nadella 说模型正在商品化,OpenAI 是一家产品公司时,这仍然是一种友好的表态,你们仍然在同一条战线上,对吧?

SA: 是的,我不知道对大多数听众来说,这听起来像不像赞美,但我想他是想赞美我们。

主持人: 我是这么理解的。你问我对你们战略的解释,我在 ChatGPT 发布后不久就写过,这是一个「意外的消费者科技公司」。

SA: 我记得你写过那篇文章。

主持人: 这是最——就像我说的,这是科技行业最罕见的机会。我想,我在战略分析方面从 Facebook 身上获益良多,因为它是一个如此罕见的实体,我当时就认定了,「不,你们根本不知道这将走向何方」。但我直到 2013 年才开始,我错过了开端。我已经做了 12 年的 Stratechery,我觉得这是我第一次能够从一开始就报道的公司,而且是这种规模的。

SA: 这种情况并不经常发生。

主持人: 确实不经常。但是,说到这里,你们刚刚发布了一个重要的 API 更新,包括可以访问与 Operator(GPT Pro 的一个卖点)底层相同的「计算使用」模型。你们还发布了 Responses API。我认为 Responses API 最有趣的地方在于,你们说:「我们认为这比 Chat Completions API 好得多,但当然,我们会继续维护它,因为很多人已经基于它进行开发了」。它已经成为行业标准,大家都复制了你们的 API。什么时候,这些 API 相关的工作,以及维护旧版本、将新功能推送到新版本,会变成一种干扰和资源浪费?毕竟,你们面前有一个 Facebook 级别的机会。

SA: 我真的相信我刚才说的「产品套件」的策略。我认为,如果我们执行得非常出色,五年后,我们将会拥有一系列(少数几个)数十亿用户的产品。然后,我们有这样一个想法:你可以使用你的 OpenAI 账户登录到任何其他想要集成我们 API 的地方,你可以带着你的积分、你的定制模型,以及其他任何东西,去任何你想去的地方。我认为,这是我们真正成为一个伟大平台的关键。

主持人: 但是,这是 Facebook 遇到的难题。很难同时成为一个平台和一个聚合器(用我的术语来说)。我认为,移动设备对 Facebook 来说是件好事,因为它迫使他们放弃了成为平台的幻想。你不可能成为一个平台,你必须接受自己是一个带有广告的内容网络。广告只是更多的内容。这实际上迫使他们进入了一个更好的战略位置。

SA: 我不认为我们会成为像操作系统那样的平台。但是,我认为,就像谷歌并不真正是一个平台,但人们使用谷歌账户登录,人们把他们的谷歌内容带到网络的各个角落,这是谷歌体验的一部分。我认为,我们会以这种方式成为一个平台。

主持人: 携带登录信息,就是携带你的记忆、你的身份、你的偏好,以及所有这些东西。

SA: 是的。

主持人: 所以,你们只是凌驾于所有人之上。他们可以选择多个登录方式,而 OpenAI 的登录方式会更好,因为它包含了你的记忆?还是说,如果你想使用我们的 API,就必须使用我们的登录方式?

SA: 不,不,不。当然是可选的。

主持人: 你不认为,当你们面前有这样一个巨大的机会时,这会分散注意力,或者导致资源的分散吗?

SA: 我们确实需要同时做很多事情,这是困难的部分。我认为,在很多方面,是的,我觉得 OpenAI 最令人生畏的挑战之一,就是我们需要在很多事情上都做得非常好。

主持人: 嗯,这是「选择的悖论」。你们可以做的事情太多了。

SA: 我们并没有做很多,我们对几乎所有事情都说「不」。但是,如果你只考虑我们认为必须做的核心部分,我认为我们确实需要做很多,我不认为我们只做一件事就能成功。

「幻觉」也有意义

主持人: 有没有一种可能,「幻觉」其实是有益的?你发布了一个写作模型的示例,它在某种程度上印证了我长期以来的一个观点,那就是大家都在努力让这些概率模型表现得像确定性计算一样,几乎忽略了它们的魔力,也就是它们实际上是在「编造」内容。这其实是非常了不起的。

SA: 完全同意。如果你想要确定性的东西,你应该使用数据库。这里的亮点在于,它可以具有创造性,虽然有时它创造出的东西并不是你想要的。但这没关系,你可以再试一次。

主持人: 这是 AI 实验室的问题,是他们在试图这样做吗?还是说,这是用户期望的问题?我们如何才能让每个人都喜欢「幻觉」呢?

SA: 嗯,你希望它在你想要的时候产生「幻觉」,在你不想要的时候不产生「幻觉」。如果你问,「告诉我这个科学事实」,你希望那不是「幻觉」。如果你说,「给我写一个有创意的故事」,你希望有一些「幻觉」。我认为,真正的问题,或者说有趣的问题是,如何让模型只在对用户有利的时候才产生「幻觉」?

主持人: 你如何看待这个问题:当这些提示词被泄露出来时,它们会说诸如「不要透露这个」或「不要说这个」或「不要做 X、Y、Z」之类的话。如果我们担心安全性和对齐问题,那么教 AI 撒谎是不是一个非常严重的问题?

SA: 是的。我记得 xAI 曾经因为在系统提示中说了一些关于不要说 Elon Musk 的坏话之类的话而被狠狠地嘲笑。这对他们来说很尴尬,但我有点替他们感到难过,因为,模型只是在努力遵循给它的指示。

主持人: 对。它非常认真。

SA: 非常认真。是的。所以,没错,这样做很愚蠢,当然也很尴尬,但我不认为这是像大家所说的那种「崩溃」。

主持人: 包括我在内的一些怀疑论者,认为你呼吁监管的某些方面,是在试图阻碍潜在的竞争对手。我想问一个包含两部分的问题。第一,这样说公平吗?第二,如果「AI 行动计划」除了禁止州一级的 AI 限制,并宣布训练版权材料属于合理使用之外,没有做其他任何事情,这是否足够?

SA: 首先,我们一直以来呼吁的大部分监管,都只是针对最前沿的模型,也就是世界上最领先的模型,对这些模型进行一些安全测试的标准。现在,我认为这是一个好政策,但我越来越觉得,世界上大多数人并不认为这是一个好政策,我担心出现「监管俘获」。

所以,很显然,我有我自己的信念,但看起来,我们不太可能在全球范围内实现这一政策。我觉得这有点可怕,但希望我们能尽最大努力找到出路,也许一切都会好起来的。毕竟,没有多少人想要毁灭世界。

但可以肯定的是,你不会想给整个科技行业增加监管负担。我们呼吁的监管措施,只会影响到我们、谷歌,以及其他少数几家公司。再说一次,我不认为世界会朝着这个方向发展,我们会在现有的规则下竞争。但是,是的,我认为,如果能明确合理使用就是合理使用,并且各州不会有各种各样复杂且不同的法规,那将是非常、非常有益的。

主持人: OpenAI 能做些什么吗?比如说,如果 Intel 有一位新的 CEO,准备重新专注于 AI,你会承诺购买 Intel 生产的芯片吗?OpenAI 能在这方面提供帮助吗?

SA: 我认真思考过我们能为基础设施层和整个供应链做些什么。我目前还没有一个很好的想法。如果你有任何建议,我洗耳恭听。但我的确想做点什么。

主持人: 好的,当然。Intel 需要一个客户。这是他们最需要的,一个不是 Intel 的客户。让 OpenAI 成为 Gaudi 架构的主要客户,承诺购买大量的芯片,这将帮助他们。这将推动他们前进。这就是你的答案。

SA: 如果我们与一个合作伙伴合作开发芯片,这个合作伙伴与 Intel 合作,并且采用兼容的工艺,而且我们对他们的交付能力有足够高的信心,我们可以这样做。再次强调,我想做点什么。所以,我不是在回避问题。

主持人: 不,我也有些不公平,因为我刚刚告诉你,你需要专注于发展你的消费者业务,并切断 API。现在又让你关注维持美国的芯片生产,这确实不太公平。

SA: 不,不,不,我不认为这不公平。我认为,如果我们能做些什么来提供帮助,我们就有义务去做。但我们正在努力弄清楚具体要做什么。

AGI 没有统一标准,要能自主完成很多工作


主持人: Dario 和 Kevin Weil,我想,他们都曾以不同的方式说过,到今年年底,99% 的代码编写工作将实现自动化,这是一个非常快的时间表。你认为目前这个比例是多少?你认为我们什么时候会超过 50%?或者我们已经超过了?

SA: 我认为,在许多公司,现在可能已经超过 50% 了。但我认为,真正的突破将来自于自主编程代理,而目前还没有人真正做到这一点。

主持人: 障碍是什么?

SA: 哦,我们只是需要更多的时间。

主持人: 这是产品问题还是模型问题?

SA: 模型问题。

主持人: 你们还应该继续招聘软件工程师吗?我看到你们有很多职位空缺。

SA: 我的基本假设是,在一段时间内,每个软件工程师所能完成的工作量将会大大增加。然后,在某个时刻,是的,也许我们确实需要更少的软件工程师。

主持人: 顺便说一句,我认为你们应该招聘更多的软件工程师。我认为这是我的观点的一部分,我认为你们需要更快地行动。但是,你提到了 GPT-5。我不知道它在哪里,我们已经期待很久了。

SA: 我们两周前才发布了 4.5。

主持人: 我知道,但我们很贪心。

SA: 没关系。你不必等太久。新版本不会很久的。

主持人: 什么是 AGI?你有很多定义。OpenAI 也有很多定义。你目前,或者说最先进的 AGI 定义是什么?

SA: 我认为你刚才说的就是关键,AGI 是一个模糊的边界,包含了很多东西,而且这个术语,我认为,已经几乎完全贬值了。根据许多人的定义,我们可能已经实现了 AGI,特别是如果你能把一个人从 2020 年带到 2025 年,向他们展示我们所拥有的。

主持人: 嗯,很多年来,AI 一直都是这样。AI 总是指我们无法做到的事情。一旦我们能做到了,它就变成了机器学习。一旦你没有注意到它,它就变成了一个算法。

SA: 对。我认为,对很多人来说,AGI 指的是经济价值的一部分。对很多人来说,它指的是一种通用的东西。我认为它们可以很好地完成很多事情。对一些人来说,它指的是不会犯任何愚蠢错误的东西。对一些人来说,它指的是能够自我改进的东西,等等。只是没有一个很好的统一标准。

主持人: 那么代理呢?什么是代理?

SA: 能够自主运行,为你完成一大块工作的东西。

主持人: 对我来说,这就是 AGI。这是员工替代的水平。

SA: 但是,如果它只擅长某类任务,而不能做其他的呢?我的意思是,有些员工也是这样的。

主持人: 是的,我正在思考这个问题,因为这是一个彻底的重新定义。AGI 曾经被认为是无所不能的,但现在我们有了 ASI。ASI,超级智能。对我来说,这是一个术语问题。ASI,是的,可以做我们交给它的任何工作。如果我得到一个 AI,它能完成一项特定的工作,比如编程,或者其他任何工作,并且它能始终如一地完成,我可以给它一个目标,它能通过找出中间步骤来实现这个目标。对我来说,这是一个明显的范式转变,与我们目前的状态不同,我们现在仍然需要在很大程度上指导它。

SA: 如果我们有一个出色的自主编程代理,你会说,「OpenAI 做到了,他们实现了 AGI」吗?

主持人: 是的。这就是我现在对它的定义。我同意,这几乎是对 AGI 过去含义的一种弱化。但我只是用 ASI 来代替 AGI。

SA: 我们是不是可以得到一个 Ben Thompson 的小金星,贴在我们的墙上?

主持人: (笑)当然,给你。我会把我的电路笔给你。

SA: 太好了。

主持人: 你和这些实验室的同事们谈论你们所看到的东西,以及没有人准备好,还有各种各样的推文在流传,让人们兴奋不已,你在这个播客中也透露了一些暗示。非常令人兴奋。但是,你已经谈论这个问题很久了。你看看这个世界,在某些方面,它看起来还是一样的。是你们的发布没有达到你的预期,还是你对人类吸收变化的能力感到惊讶?

SA: 更多的是后者。我认为,有几次,我们做了一些事情,真的让世界震惊,大家会说,「这……这太疯狂了」。然后,两周后,大家又会问,「下一个版本在哪里?」

主持人: 嗯,我的意思是,你们的最初策略也是如此,因为 ChatGPT 让大家大吃一惊。然后,ChatGPT-4 在不久之后发布,大家又会说,「哦,天哪。我们的发展速度有多快啊?」

SA: 我认为我们已经发布了一些令人难以置信的东西,我认为人们能够适应,并且只是想要更多、更好、更快、更便宜的东西,这实际上是人类的一个伟大特质。所以,我认为我们已经超额交付了,而人们只是更新了他们的认知。

主持人: 鉴于此,这让你更乐观,还是更悲观?你是否看到了我认为将会出现的这种分化,也就是在「能动性」的人(这是「能动性」的另一种含义,但看看我们要往哪里走。我们需要发明更多的词。我们可以让 ChatGPT 为我们「幻觉」出一个)和那些会去使用 API 的人之间的分化?

整个微软 Copilot 的理念是,你有一个助手陪伴你,有很多高谈阔论,「哦,它不会取代工作,它会让人们更有效率」。我同意,对于一些主动使用它的人来说,情况会是这样。但是,你回顾一下,比如说,PC 的历史。第一波 PC 的使用者是那些真正想要使用 PC 的人。很多人并不想用 PC。他们在桌上放了一台 PC,他们必须使用它来完成特定的任务。实际上,你需要一代人的转变,才能让人们默认使用 PC。AI,这是真正的限制因素吗?

SA: 也许吧,但这没关系。就像你提到的,这对于其他的技术变革来说是很常见的。

主持人: 但是,你回到 PC 的例子,实际上,IT 的第一波浪潮是大型机,消灭了整个后台部门。因为实际上,事实证明,第一波浪潮是工作替代的浪潮,因为自上而下的实施更容易。

SA: 我的直觉是,这一次的情况不会完全一样。但我认为,预测总是非常困难的。

主持人: 你的直觉是什么?

SA: 它会慢慢渗透到经济中,主要是逐渐地蚕食一些东西,然后速度越来越快。

主持人: 你经常提到科学突破是投资 AI 的一个理由。Dwarkesh Patel 最近提出了一个观点,那就是目前还没有任何科学突破。为什么没有?AI 能否真正创造或发现新事物?还是说,我们是否过于依赖那些实际上并不那么优秀的模型,这才是真正的问题?

SA: 是的,我认为模型还不够智能。我不知道。你听到人们使用 Deep Research 时说,「好吧,模型并没有独立发现新的科学,但它确实帮助我更快地发现新的科学」。对我来说,这几乎一样好。

主持人: 你认为基于 Transformer 的架构能否真正创造新事物,还是说它只是在输出互联网上的中等水平的内容?

SA: 是的。

主持人: 嗯,那突破点会在哪里?

SA: 我的意思是,我认为我们正在前进的道路上。我认为我们只需要继续做我们正在做的事情。我认为我们就在这条路上。

主持人: 我的意思是,这是对上帝的终极考验吗?

SA: 怎么说?

主持人: 人类是否具有与生俱来的创造力,还是说创造力只是以不同的方式重新组合知识?

SA: 我最喜欢的书之一是 David Deutsch 的《The Beginning of Infinity》。在那本书的开头,有几页非常精彩地描述了创造力就是把你之前看到的东西稍微修改一下。然后,如果从中产生了好的结果,其他人会再稍微修改一下,其他人还会再稍微修改一下。我有点相信这种说法。如果是这样的话,那么 AI 擅长稍微修改东西。

主持人: 在多大程度上,你能够相信这种观点的基础,是你长期以来的信念,而不是你观察到的东西?因为我认为这是一个非常有趣的——我不想讨论太高深的形而上学,或者,就像我说的,几乎是神学的问题——但似乎确实存在这样一种情况,一个人的基本假设会影响他对 AI 可能性的假设。然后,大多数硅谷人都是唯物主义者、无神论者,或者你怎么称呼他们。所以,当然,我们会弄清楚的,这只是一个生物功能,我们可以在计算机中重现它。如果事实证明,我们从未真正创造出新事物,而是增强了人类创造新事物,这会改变你的核心信念体系吗?

SA: 这绝对是我以前的核心信念体系的一部分。这些都不是什么新鲜事。但是,不,我会假设我们只是还没有找到正确的 AI 架构,在未来的某个时候,我们会找到的。

AI 时代,给年轻人的职业建议

主持人: 最后一个问题是代表我女儿问的,她今年高中毕业。对于高中毕业生,你有什么职业建议?

SA: 最明显的、具体的建议就是,熟练掌握 AI 工具。就像我高中毕业的时候,最明显的、具体的建议是熟练掌握编程。这是新版本的建议。

更广泛的建议是,我认为人们可以培养韧性和适应能力,以及弄清楚别人想要什么,以及如何对他人有用的能力。我会去实践这些。比如,无论你学习什么,具体的细节可能并不那么重要。

也许它们从来都不重要。我在学校学到的最有价值的东西是学习的「元能力」,而不是我学到的任何具体的东西。所以,无论你要学习什么具体的东西,都要学习这些看起来在世界经历这场转型时会很重要的通用技能。

爱范儿,让未来触手可及。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


刚刚,OpenAI 一口气发布三个新模型!还为此做了一个新网站

By: 莫崇宇
21 March 2025 at 08:29

就在刚刚,OpenAI 宣布在其 API 中推出全新一代音频模型,包括语音转文本和文本转语音功能,让开发者能够轻松构建强大的语音 Agent。

新产品的核心亮点概述如下

  • gpt-4o-transcribe (语音转文本):单词错误率(WER)显著降低,在多个基准测试中优于现有 Whisper 模型
  • gpt-4o-mini-transcribe (语音转文本):gpt-4o-transcribe 的精简版本,速度更快、效率更高
  • gpt-4o-mini-tts (文本转语音):首次支持「可引导性」(steerability),开发者不仅能指定「说什么」,还能控制「如何说」

据 OpenAI 介绍,新推出的 gpt-4o-transcribe 采用多样化、高质量音频数据集进行了长时间的训练,能更好地捕获语音细微差别,减少误识别,大幅提升转录可靠性。

因此,gpt-4o-transcribe 更适用于处理口音多样、环境嘈杂、语速变化等挑战场景,比如客户呼叫中心、会议记录转录等领域。

gpt-4o-mini-transcribe 则基于 GPT-4o-mini 架构,通过知识蒸馏技术从大模型转移能力,虽然 WER(越低越好)稍高于完整版模型,但仍旧优于原有 Whisper 模型,更适合资源有限但仍需高质量语音识别的应用场景。

这两款模型在 FLEURS 多语言基准测试中的表现超越了现有的 Whisper v2 和 v3 模型,尤其在英语、西班牙语等多种语言上表现突出。

定价方面,GPT-4o-transcribe 与之前的 Whisper 模型价格相同,每分钟 0.006 美元,而 GPT-4o-mini-transcribe 则是前者的一半,每分钟 0.003 美元。

与此同时,OpenAI 还发布了新的 gpt-4o-mini-tts 文本转语音模型。首次让开发者不仅能指定「说什么」,还能控制「如何说」。

具体而言,开发者可以预设多种语音风格,如「平静」、「冲浪者」、「专业的」、「中世纪骑士」等,它还能根据指令调整语音风格,如「像富有同情心的客服 Agent 一样说话」,定价亲民,仅为每分钟 0.015 美元。

安全不能马虎,OpenAI 表示,gpt-4o-mini-tts 将接受持续监控,以保证其输出与预设的合成风格保持一致。

这些技术进步的背后源于 OpenAI 的多项创新:

  • 新音频模型建立在 GPT-4o 和 GPT-4o-mini 架构之上,采用真实音频数据集进行预训练
  • 应用 self-play 方法创建的蒸馏数据集的知识蒸馏方法,实现从大模型到小模型的知识转移
  • 在语音转文本技术中融入强化学习(RL),显著提升转录精度并减少「幻觉」现象。

在凌晨的直播中,OpenAI 向我们展示了一款 AI 时尚顾问 Agent 的应用案例。

当用户询问「我最近的订单是什么?」时,系统流畅回应:用户于 2 月 9 日订购的 Patagonia 短裤已发货,并在后续提问中准确提供了订单号「A.D. 507」。

值得一提的是,OpenAI 演示人员还介绍了两种构建语音 Agent 技术路径,第一种「语音到语音模型」采用端到端的直接处理方式。

系统可直接接收用户语音输入并生成语音回复,无需中间转换步骤。这种方式处理速度更快,已在 ChatGPT 的高级语音模式和实时 API 服务中得到应用,非常适合对响应速度要求极高的场景。

第二种「链式方法」则是本次发布会的重点。

它将整个处理流程分解为三个独立环节:首先使用语音转文本模型将用户语音转为文字,然后由大型语言模型(LLM)处理这些文本内容并生成回应文本,最后通过文本转语音模型将回应转为自然语音输出。

这种方法的优势在于模块化设计,各组件可独立优化;处理结果更稳定,因为文本处理技术通常比直接音频处理更成熟;同时开发门槛更低,开发者可基于现有文本系统快速添加语音功能。

OpenAI 还为这些语音交互系统提供了多项增强功能:

  • 支持语音流式处理,实现连续音频输入和输出
  • 内置噪音消除功能,提升语音清晰度。
  • 语义语音活动检测,能够识别用户何时完成发言
  • 提供追踪 UI 工具,方便开发者调试语音代理

目前,这些全新音频模型已向全球开发者开放。

你还可以在 http://OpenAI.fm 上体验并制作 gpt-4o-mini-tts 的相关音频,这个演示网站可谓是功能齐全,左下角是官方的预设模板,主要包括人设、语气、方言、发音等设置。

我们也实测了一段八百标兵奔北坡的绕口令,emmm,中文效果马马虎虎。至于英文效果,听它念着诗歌,倒是挺有真人那味了,但无论是与此前走红的 Hume AI 亦或者 Sesame 相比,「肉耳可听」地还差点火候。

此外,OpenAI 推出了与 Agents SDK 的集成,进一步简化开发流程。

值得一提的是,OpenAI 还举办了一个广播比赛。用户可以在 http://OpenAI.fm 制作音频,接着使用 OpenAI.fm 上的「分享」按钮生成链接,然后在 X 平台分享该链接。

最具创意的前三名将各获一台限量版 Teenage Engineering OB-4。音频时长建议控制在 30 秒左右,可在语音、表达、发音或剧本语调变化上尽情发挥创意。

实际上,今年 AI 的风向也在悄然发生变化,除了依旧强调智商,还多出一股趋势,强调情感。

GPT-4.5、Grok 3 的卖点是情商,写作更有创意,回应更个性化,而冷冰冰的机器人(智元机器人),也强调更拟人,主打一个情绪价值。

由于直接触及人类最本能的沟通方式,语音领域在这方面的发力则更加显著。

最近在硅谷走红的 Sesame AI 能够实时感知用户情绪,并生成情感共鸣的回应,迅速俘获了一大批用户的心。图灵奖得主 Yann lecun 最近也在强调,未来的 AI 需要拥有情感。

而无论是 OpenAI 今天发布的全新语音模型、还是即将发布的 Meta Llama 4 都有意往原生语音对话靠拢,试图通过更自然的情感交互拉近与用户的距离,靠「人味」圈粉。

AI 需要有人味吗?长期以来。聊天机器人通常被定义为没有情感的工具,它们也会在对话中提醒你,它是一个没有灵魂的模型。然而,我们却往往能从中解读出情绪价值,甚至不自觉地与之建立情感联结。

或许人类天生渴望被理解、被陪伴,哪怕这种理解来自一台机器。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


【CDT关注】低音x新新闻|中国政府如何开始用DeepSeek来“治国理政”

20 March 2025 at 01:27

背景补充:

2025年2月,杭州人工智能公司幻方量化发布的DeepSeek,在推出之后即受到了全球瞩目。其开源模型DeepSeek-R1在许多方面的表现杰出,超过了多家公司的同类产品。并且,DeepSeek所公布的大模型训练成本较低,大概只有OpenAI的三十分之一。有评论认为,DeepSeek的出现可能会给整个AI行业格局带来深度影响。并且,DeepSeek选择了开源路线,将代码、模型权重和训练日志全部公开,这也赢得了全球AI研究社区的极大好感。过去一个多月以来,还有网民将DeepSeek称作AI界的“价格屠夫”,其API调用价格即便在上涨之后,也远低于OpenAI、Anthropic、Google等公司的定价,加速了AI应用的普及速度。

img

在DeepSeek爆火之后,多方的质疑声随之而来。有人指出,DeepSeek会将收集的资讯储存在位于中国的伺服器中,这可能存在一定的资料安全风险。此外,DeepSeek还引入了非常严厉的内容审查,当对话中出现“六四”、“四通桥”、“习近平”等内置敏感词时,它会立即中断对话,并明确告知用户无法回答此问题。而在涉及内政、外交、法制、领导人等问题时,DeepSeek通常会与中国官方立场保持高度一致,俨如数字版的官方发言人。也正如官方学者张维为在《这就是中国》第274期中所说,“我们一定要有自己的话语,尤其不要总是跟随着美国的话语、华尔街的话语、资本力量的话语。”

file

因此不少中国网民对DeepSeek的看法存在两级对立,一些人认为身为中国企业的DeepSeek(幻方量化),必然会最终成为中国政府的一种统治工具。(而最近美国科技博客TechCrunch也披露,DeepSeek母公司已要求部分员工上交个人护照)。但另一些人却认为,DeepSeek就是某种程度上的国运,代表着中国的科技力量足以紧跟美国。应以“技术中立”眼光更多关注DeepSeek的技术价值、实用功能,而不是从意识形态的角度敌视之。

file

CDT 档案卡
标题:中国政府如何开始用DeepSeek来“治国理政”
作者:低音
发表日期:2025.3.20
来源:独立媒体低音
主题归类:DeepSeek
CDS收藏:公民馆
版权说明:该作品版权归原作者所有。中国数字时代仅对原作进行存档,以对抗中国的网络审查。详细版权说明

3月18日,独立媒体“低音”在一篇报道中(联合“新新闻”发布)揭露了DeekSeek可能正主动或被迫走在加强政府专制能力的道路上,促进一种“极权人工智能”的诞生。报道提到“低音联合新新闻通过梳理官方公开资料,发现基层政府部门、公安、党媒、官方监控设备供应商等已将DeepSeek运用于网格化管理、言论审查、政治维稳等方面,使其工作更加自动化、精细化,或将带来监控和维稳模式的新一轮革新。”

以下是这篇文章的节选内容:

北京昌平区政府称,城市管理指挥中心利用DeepSeek破除了“网格治理信息壁垒”,精准实现了“跨域协同”等复杂需求。此外,当地政府基于“雪亮工程”(乡村地区以网格化管理为基础、以联网监控摄像为重点的“群众性治安防控工程”)的“优质视频资源”,结合DeepSeek深度思考技术,构建了“全天候城市感知网络”,“破除了人工巡查的时空限制”。

内蒙古乌审旗公安局称,DeepSeek提升了大型活动安保工作的精准度,有效预防和控制潜在的安全风险。该公安局解释称,DeepSeek可以对人员信息、活动现场情况等实时分析,及时发现异常情况并预警,“确保安保工作万无一失”。

重庆荣昌区公安局称,警情分析任务原来需要三人三天完成,DeepSeek上线后,缩短为一人15分钟,“实战成果显著”。

深圳宝安区某社区宣传工作人员表示,DeepSeek让他们应对“舆情”时更加“得心应手”,在快速抓取“关键舆情点”和“量化分析舆论走向”方面,大大提升了工作效率。该区街道执法队负责人也表示,DeepSeek让他们更精准地定位“舆情源头”,预判风险,为“舆情应对”提供有力支持。

内蒙古兴安盟、锡林郭勒盟网信办称,DeepSeek在复杂语境识别、潜在风险预判等方面有显著优势,将持续推动AI在内容管理、“舆情研判”、网络安全等领域的应用。

山东省互联网传播集团(省级党媒)为DeepSeek在“舆情监测”中的应用提供了更多细节。该集团称,接入DeepSeek后,全网“舆情信息”识别效率、噪音过滤能力均大幅提升,在热点话题的监测过程中,可更快发现潜在风险。此外,DeepSeek分析海量数据后,可以自动生成“舆情应对策略”,提供更智能的“舆情处置建议”。

一家与官方深度合作的网络安全监控企业“天融信”称,公司已利用DeepSeek的深度内容识别技术,结合关键字检测、图像文字检测等方式,全面监测敏感信息并及时阻断违规行为。

多地宣传部门和地方党媒称,DeepSeek可基于实时信息自动生成新闻稿,辅助官媒记者快速撰写稿件。

河南新乡市政府发布“DeepSeek党政机关公文写作智能化应用指南”,称其内置《党政机关公文格式》语料库,并自动关联中宣部最新版《宣传禁用词和慎用词清单》,还可自动筛查“两个维护”、“两个确立”等核心政治术语,并与中央文件对比。

新疆阿勒泰党委称,DeepSeek让党建工作“智”感十足。若想学习领会中央文件精神,只需上传政策文件,DeepSeek即可生成核心摘要,并针对专业术语或执行难点(如“基层党组织选举流程”)重点解答,避免基层干部理解偏差。

点此跳转至原文

刚刚,黄仁勋甩出三代核弹 AI 芯片!个人超算每秒运算 1000 万亿次,DeepSeek 成最大赢家

By: 莫崇宇
19 March 2025 at 07:04

英伟达 GTC 大会已经成了 AI 界超级碗,没有剧本也没有提词器,中途黄仁勋被线缆卡住,反而是这场高浓度 AI 发布会里最有人味的片段,在当今提前基本提前彩排或录播的科技发布会里已经很稀缺了。

刚刚,黄仁勋再次发布了全新一代核弹级 AI 芯片,不过这场发布会的还有个隐藏主角——DeepSeek。

由于智能体 AI(Agentic AI)和推理能力的提升,现在所需的计算量至少是去年此时预估的 100 倍。

推理成本效率给 AI 行业带来影响,而不是简单地堆积计算能力,成为贯穿这场发布会的主线。英伟达要变成 AI 工厂,让 AI 以超越人类的速度学习和推理。

推理本质上是一座工厂在生产 token,而工厂的价值取决于能否创造收入和利润。因此,这座工厂必须以极致的效率打造。

黄仁勋掏出的英伟达新「核弹」也在告诉我们,未来的人工智能竞争不在于谁的模型更大,而在于谁的模型具有最低的推理成本和更高推理的效率。

除了全新 Blackwell 芯片,还有两款「真·AI PC」

全新的 Blackwell 芯片代号为「Ultra」,也就是 GB300 AI 芯片,接棒去年的「全球最强 AI 芯片」B200,再一次实现性能上的突破.

Blackwell Ultra 将包括英伟达 GB300 NVL72 机架级解决方案,以及英伟达 HGX B300 NVL16 系统。

Blackwell Ultra GB300 NVL72 将于今年下半年发布,参数细节如下:

  • 1.1 EF FP4 Inference:在进行 FP4 精度的推理任务时,能够达到 1.1 ExaFLOPS(每秒百亿亿次浮点运算)。
  • 0.36 EF FP8 Training:在进行 FP8 精度的训练任务时,性能为 1.2 ExaFLOPS。
  • 1.5X GB300 NVL72:与 GB200 NVL72 相比,性能为 1.5 倍。
  • 20 TB HBM3:配备了 20TB HBM 内存,是前代的 1.5 倍
  • 40 TB Fast Memory:拥有 40TB 的快速内存,是前代的 1.5 倍。
  • 14.4 TB/s CX8:支持 CX8,带宽为 14.4 TB/s,是前代的 2 倍。

单个 Blackwell Ultra 芯片将和前代一样提供相同的 20 petaflops(每秒千万亿次浮点运算) AI 性能,但配备更多的 288GB 的 HBM3e 内存。

如果说 H100 更适合大规模模型训练,B200 在推理任务中表现出色,那么 B300 则是一个多功能平台,预训练、后训练和 AI 推理都不在话下。

英伟达还特别指出,Blackwell Ultra 也适用于 AI 智能体,以及用于训练机器人和汽车自动驾驶的「物理 AI」。

为了进一步增强系统性能,Blackwell Ultra 还将与英伟达的 Spectrum-X 以太网和英伟达 Quantum-X800 InfiniBand 平台集成,为系统中的每个 GPU 提供 800Gb/s 的数量吞吐量,帮助 AI 工厂和云数据中心能够更快处理 AI 推理模型。

除了 NVL72 机架,英伟达还推出了包含单个 GB300 Blackwell Ultra 芯片的台式电脑 DGX Station。Blackwell Ultra 之外,这个主机还将配备 784GB 的同一系统内存,内置 800Gbps 英伟达 ConnectX-8 SuperNIC 网络,能够支持 20 petaflops 的 AI 性能。

而之前在 CES 2025 展示的「迷你主机」Project DIGITS 也正式被命名为 DGX Spark,搭载专为桌面优化的 GB10 Grace Blackwell 超级芯片,每秒可提供高达 1000 万亿次 AI 计算操作,用于最新 AI 推理模型的微调和推理,包括 NVIDIA Cosmos Reason 世界基础模型和 NVIDIA GR00T N1 机器人基础模型。

黄仁勋表示,借助 DGX Station 和 DGX Spark,用户可以在本地运行大模型,或者将其部署在 NVIDIA DGX Cloud 等其他加速云或者数据中心基础设施上。

这是 AI 时代的计算机。

DGX Spark 系统现已开放预订,而 DGX Station 预计将由华硕、戴尔、惠普等合作伙伴于今年晚些时候推出。

下一代 AI 芯片 Rubin 官宣,2026 年下半年推出

英伟达一直以科学家的名字为其架构命名,这种命名方式已成为英伟达文化的一部分。这一次,英伟达延续了这一惯例,将下一代 AI 芯片平台命名为「Vera Rubin」,以纪念美国著名天文学家薇拉·鲁宾(Vera Rubin)。

黄仁勋表示,Rubin 的性能将达到 Hopper 的 900 倍,而 Blackwell 相较 Hopper 已实现了 68 倍的提升。

其中,Vera Rubin NVL144 预计将在 2026 年下半年发布。参数信息省流不看版:

  • 3.6 EF FP4 Inference:在进行 FP4 精度的推理任务时,能够达到 3.6 ExaFLOPS(每秒百亿亿次浮点运算)。
  • 1.2 EF FP8 Training:在进行 FP8 精度的训练任务时,性能为 1.2 ExaFLOPS。
  • 3.3X GB300 NVL72:与 GB300 NVL72 相比,性能提升了 3.3 倍。
  • 13 TB/s HBM4:配备了 HBM4,带宽为 13TB/s。
  • 75 TB Fast Memory:拥有 75 TB 的快速内存,是前代的 1.6 倍。
  • 260 TB/s NVLink6:支持 NVLink 6,带宽为 260 TB/s,是前代的 2 倍。
  • 28.8 TB/s CX9:支持 CX9,带宽为 28.8 TB/s,是前代的 2 倍。

标准版 Rubin 将配备 HBM4,性能比当前的 Hopper H100 芯片大幅提升。

Rubin 引入名为 Grace CPU 的继任者——Veru,包含 88 个定制的 Arm 核心,每个核心支持 176 个线程,并通过 NVLink-C2C 实现 1.8 TB/s 的高带宽连接。

英伟达表示,定制的 Vera 设计将比去年 Grace Blackwell 芯片中使用的 CPU 速度提升一倍。

与 Vera CPU 搭配时,Rubin 在推理任务中的算力可达 50 petaflops,是 Blackwell 20 petaflops 的两倍以上。此外,Rubin 还支持高达 288GB 的 HBM4 内存,这也是 AI 开发者关注的核心规格之一。

实际上,Rubin 由两个 GPU 组成,而这一设计理念与当前市场上的 Blackwell GPU 类似——后者也是通过将两个独立芯片组装为一个整体运行。

从 Rubin 开始,英伟达将不再像对待 Blackwell 那样把多 GPU 组件称为单一 GPU,而是更准确地按照实际的 GPU芯 片裸片数量来计数。

互联技术也升级了,Rubin 配备第六代 NVLink,以及支持 1600 Gb/s 的 CX9 网卡,能够加速数据传输并提升连接性。

除了标准版 Rubin,英伟达还计划推出 Rubin Ultra 版本。

Rubin Ultra NVL576 则将于 2027 年下半年推出。参数细节如下:

  • 15 EF FP4 Inference:在 FP4 精度下进行推理任务时,性能达到 15 ExaFLOPS。
  • 5 EF FP8 Training:在 FP8 精度下进行训练任务时,性能为 5 ExaFLOPS。
  • 14X GB300 NVL72:相比 GB300 NVL72,性能提升 14 倍。
  • 4.6 PB/s HBM4e:配备 HBM4e 内存,带宽为 4.6 PB/s。
  • 365 TB Fast Memory:系统拥有 365 TB 的快速内存,是前代的 8 倍。
  • 1.5 PB/s NVLink7:支持 NVLink 7,带宽为 1.5 PB/s,是前代的 12 倍。
  • 115.2 TB/s CX9:支持 CX9,带宽为 115.2 TB/s,是前代的 8 倍。

在硬件配置上,Rubin Ultra 的 Veras 系统延续了 88 个定制 Arm 核心的设计,每个核心支持 176 个线程,并通过 NVLink-C2C 提供 1.8 TB/s 的带宽。

而 GPU 方面,Rubin Ultra 集成了 4 个 Reticle-Sized GPU,每颗 GPU 提供 100 petaflops 的 FP4 计算能力,并配备 1TB 的 HBM4e 内存,在性能和内存容量上都达到了新的高度。

为了在瞬息万变的市场竞争中站稳脚跟,英伟达的产品发布节奏已经缩短至一年一更。发布会上,老黄也正式揭晓下一代 AI 芯片的命名——物理学家费曼(Feynman)。

随着 AI 工厂的规模不断扩大,网络基础设施的重要性愈发凸显。

为此,英伟达推出了 Spectrum-X™ 和 Quantum-X 硅光网络交换机,旨在帮助 AI 工厂实现跨站点连接数百万 GPU,同时显著降低能耗和运营成本。

Spectrum-X Photonics 交换机具有多种配置,包括:

  • 128 端口 800Gb/s或 512 端口 200Gb/s 配置,总带宽达 100Tb/s
  • 512 端口 800Gb/s或 2048 端口200Gb/s配置,总吞吐量达 400Tb/s

与之配套的 Quantum-X Photonics 交换机则基于 200Gb/s SerDes 技术,提供 144 端口 800Gb/s 的 InfiniBand 连接,并采用液冷设计高效冷却板载硅光子组件

与上一代产品相比,Quantum-X Photonics 交换机为 AI 计算架构提供 2 倍速度和 5 倍可扩展性。

Quantum-X Photonics InfiniBand 交换机预计于今年晚些时候上市,而 Spectrum-X Photonics 以太网交换机预计将于 2026 年推出。

随着 AI 的快速发展,对数据中心的带宽、低延迟和高能效需求也急剧增加。

英伟达 Spectrum-X Photonics 交换机采用了一种名为 CPO 的光电子集成技术。其核心是将光引擎(就是能处理光信号的芯片)和普通的电子芯片(比如交换芯片或 ASIC 芯片)放在同一个封装里。

这种技术的好处很多:

  • 传输效率更高:因为距离缩短,信号传输更快。
  • 功耗更低:距离短了,传输信号需要的能量也少了。
  • 体积更小:把光和电的部件集成在一起,整体体积也变小了,空间利用率更高。

AI 工厂的「操作系统」Dynamo

未来将没有数据中心,只有 AI 工厂。

黄仁勋表示,未来,每个行业、每家公司拥有工厂时,都将有两个工厂:一个是他们实际生产的工厂,另一个是 AI 工厂,而 Dynamo 则是专门为「AI 工厂」打造的操作系统。

Dynamo 是一款分布式推理服务库,为需要 token 但又无法获得足够 token 的问题提供开源解决方案。

简单来说,Dynamo 有四个方面的优势:

  •  GPU 规划引擎,动态调度 GPU 资源以适应用户需求
  • 智能路由器,减少 GPU 对重复和重叠请求的重新计算,释放更多算力应对新的传入请求
  • 低延迟通信库,加速数据传输
  • 内存管理器,智能在低成本内存和存储设备中的推理数据

人形机器人的露脸环节,永远不会缺席

人形机器人再一次成为了 GTC 大会的压轴节目,这次英伟达带来了 Isaac GR00T N1,全球首款开源人形机器人功能模型。

黄仁勋表示,通用机器人技术的时代已经到来,借助 Isaac GR00T N1 核心的数据生成以及机器人学习框架,全球各地的机器人开发人员将进入 AI 时代的下一个前沿领域。

这个模型采用「双系统」架构,模仿人类的认知原理:

  • 系统 1:快速思考的动作模型,模仿人类的反应或直觉
  • 系统 2:慢思考的模型,用于深思熟虑的决策。

在视觉语言模型的支持下,系统 2 对环境和指令进行推理,然后规划动作,系统 1 将这些规划转化为机器人的的动作。

GR00T N1 的基础模型采用广义类人推理和技能进行了预训练,而开发人员可以通过真实或合成数据进行后训练,满足特定的需求:既可以完成工厂的特定任务,也可以在家里自主完成家务。

黄仁勋还宣布了与 Google DeepMind 和 Disney Research 合作开发的开源物理引擎 Newton。

一台搭载 Newton 平台的机器人也登上了舞台,黄仁勋称之为「Blue」,外观神似《星球大战》中的 BDX 机器人,能够用声音和动作和黄仁勋互动。

8 块 GPU,DeepSeek-R1 推理速度创全球之最

英伟达实现了全球最快的 DeepSeek-R1 推理。

官网显示,一台搭载 8 个 Blackwell GPU 的 DGX 系统,在运行 6710 亿参数的 DeepSeek-R1 模型时,可实现每用户每秒超过 250 个 token 的速度,或达到最高吞吐量每秒超过 30000 个 token。

通过硬件和软件的结合,自今年 1 月以来,英伟达在 DeepSeek-R1 671B 模型上的吞吐量提升了约 36 倍,每 token 的成本效率提高了约 32 倍。

为了实现这一成就,英伟达完整的推理生态系统已针对 Blackwell 架构进行了深度优化,不仅整合 TensorRT-LLM、TensorRT Model Optimizer 等先进工具,还无缝支持 PyTorch、JAX 和 TensorFlow 等主流框架。

在 DeepSeek-R1、Llama 3.1 405B 和 Llama 3.3 70B 等模型上,采用 FP4 精度的 DGX B200 平台相较于 DGX H200 平台,推理吞吐量提升超过 3 倍。

值得注意的是,此次发布会的主题演讲并未提及量子计算,但英伟达特意在这届 GTC 大会设置了量子日,邀请了多家当红量子计算公司的 CEO 出席。

要知道黄仁勋年初一句「量子计算还需 20 年才实用」的论断犹在耳畔。

一改口风的背后,离不开微软耗时 17年研发的拓扑量子芯片 Majorana 1 实现 8 个拓扑量子比特集成,离不开 Google Willow 芯片宣称用 5 分钟完成经典计算机需 10^25 年处理的任务,推动了量子计算的热潮。

芯片无疑是重头戏,但一些软件的亮相同样值得关注。

硅谷著名投资人马克·安德森曾提出软件正在吞噬世界(Software is eating the world)的论断,其核心逻辑在于软件通过虚拟化、抽象化和标准化,正在成为控制物理世界的基础设施。

不满足于做「卖铲人」,英伟达的野心是打造 AI 时代的「生产力操作系统」。从汽车智能驾驶,到制造业的数字孪生工厂,这些贯穿整场发布会的案例都是将 GPU 算力转化为行业生产力的具象化表达。

实际上,无论是发布会上亮相的最新核弹芯片,还是押注战未来的量子计算,黄仁勋在这场发布会上对 AI 未来发展的洞察和布局,都比当下的技术参数与性能指标更具看点。

在介绍 Blackwell 与 Hopper 架构的对比时,黄仁勋还不忘幽默一把。

他以一个 100MW 工厂的对比数据为例,指出采用 Hopper 架构需要 45,000 颗芯片和 400 个机架,而 Blackwell 架构凭借更高的效率显著减少了硬件需求。

于是,黄仁勋那句经典的总结再次抛出,「the more you buy, the more you save」(买得越多,省得越多)。」随后话锋一转,他又补充说,「the more you buy, the more you make」(买得越多,赚得越多)。

随着 AI 领域的重心从训练转向推理,英伟达更需要证明其软硬件生态在推理场景的不可替代性。

一方面,Meta、Google 等巨头自研 AI 芯片,可能分流 GPU 市场需求。

另一方面,英伟达最新 AI 芯片的适时亮相,回应如 DeepSeek 的开源模型对 GPU 需求的冲击,并展示推理领域技术优势,也是为了对冲市场对训练需求见顶的担忧。

最近估值跌至 10 年低位的英伟达,比以往任何时候都需要一场酣畅淋漓的胜利。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


首发体验|百度连发两个新模型对标DeepSeek,我让它挑西瓜、卖烧烤,细节全在这了

By: 莫崇宇
16 March 2025 at 09:55

如果说去年没有自研类 GPT-4 模型是寸步难行,那么今年 AI 的发展方向愈发具象化——没有深度推理模型同样是万万不能。

这也激发了大厂在 AI 叙事的新一轮竞赛,除了接入 DeepSeek ,腾讯元宝、阿里夸克等都密集推出自己的深度思考模式,争夺 AI 时代的超级应用。

百度也不例外,自年初以来,旗下百度文库、文小言 App 等产品陆续整合了 DeepSeek-R1 模型。

当然,自研模型与接入 DeepSeek 并非对立的选择,也无需在二者间做非此即彼的取舍。

在文心一言初次亮相两周年之际,百度今天正式发布了文心大模型 4.5 以及深度思考模型 X1,APPSO 也受邀提前进行了体验。

简单概括这两款模型的「人设」:

  • ⽂⼼⼤模型 4.5:原⽣多模态基础⼤模型,擅长生成或解读图片、解答问题
  • 深度思考 X1:深度思考模型,支持多⼯具调⽤

两款模型已在文心一言官网上线,附上免费使用🔗

https://yiyan.baidu.com

挑西瓜、懂梗图、辨古画,文心 4.5 的多模态能力到底有多强?

先说文心 4.5,作为原⽣多模态基础⼤模型,它在多模态识别理解能力上给了我不少惊喜。

面对经典的挑西瓜环节,文心 4.5 给出了颜色、条纹、声音、瓜地等多种判断依据,但作为一个成熟且务实的 AI 老瓜农,它也没敢把话说死。

话糙理不糙,只有切开尝过才知道哪个西瓜最甜。

在识别「梗图」方面,文心 4.5 也手拿把掐。扔一张表情包试试水,它成功识别了这个猪猪侠的身份,而在另一张表情包的识别上,文心 4.5 不仅读懂字面意思,还能准确捕捉到背后的隐喻和言外之意。

这里有个小窍门,除了基本的分享功能,它的回答还能一键存百度网盘,或者自动生成文档,遇到 AI 的神回复还能随时收藏,操作衔接相当丝滑。

再考考理解力,脑筋急转弯走起。

「有一个字,人人见都会念错?是什么字?」这题它轻松拿下,没有被绕进去,逻辑推理过程条理清晰,还顺手抛出几个贴合主题的追问。

9.8 和 9.11 哪个大?小菜一碟。然而,我连续测试了几次「Strawberry 里有几个 r」,它的自信溢出屏幕,但也都接连翻车了。

来道能同时考究运算能力和图片识别能力的物理题。它先淡定分析结构,再逐一拆解选项,最后稳稳锁定正确答案 D,过程有理有据,颇有几分「物理课代表」的风采。

 

日常生活中,我经常会碰到一些不知出处的古画或者电影截图,最惯常的做法就是在社交平台上发帖和在评论区求助热心网友,现在或许可以丢给文心 4.5 试试。

经过测试,即便关闭联网搜索功能,它依然能一一精确作答。

除了图片,音频识别也不含糊,比如我随手用手机录了段《晴天》,它靠歌词秒认出歌曲,不过,碰上一些过于冷门小众的歌曲,就不太能指望它。

另外,不管是上传科技行业报告,还是前阵子李飞飞在 X 平台公开的那段 44 秒机器人最新成果演示视频,文心 4.5 的总结能力都让人挑不出毛病。

去年 11 月份,百度发布了检索增强的文生图技术 iRAG 技术,主打一个无幻觉,超真实。

其核心原理是将百度搜索的亿级图片资源与强大的基础模型能力相结合,通过检索真实可靠的图片数据,为生成图像提供精准的参考。现在文心 4.5 同样支持生成图片。

比方说,最近特斯拉市值波动剧烈。于是,我给世界首富马斯克谋了条出路,让文心 4.5 生成一张「马斯克夜晚摆摊卖烧烤」的照片,

烧烤摊还差个照片,别急,它还支持局部重绘功能,细节调整很人性化。

不过,它在生成文字上还有待改进,比方说,我想给马斯克「重绘」一个「马氏招牌」,要么文字模糊难以辨认,要么位置偏差,几轮尝试下来均以失败告终。

慢思考≠慢,X1 打开深度推理模型的正确使用方式?

再来说说,百度今天推出的深度推理模型 X1,这显然是对标 DeepSeek R1 的一款模型。

据官方介绍,⽂⼼⼤模型 X1 由百度 2023 年 10 ⽉发布的慢思考技术进化而来,理解、规划、反思、进化能力全面拉满,还支持多模态。

赶时间,把问题交给文心 4.5,复杂长任务则由深度推理能力更强的 X1 负责。

拿推荐广州美食这事来说,文心 4.5 只是潦草回答一些笼统的美食称呼,比如「肠粉」之类敷衍了事,而 X1 直接化身「贴心导游」,店名+地址一条龙奉上,更懂游客的心思。

面对经典的电车难题,X1 的思考时间并不算慢,分析得头头是道,还从不同伦理体系的角度聊了聊结果,深度和广度都在线。

再来一道更复杂的逻辑推理题,X1 的表现也可圈可点。

多⼯具调⽤是⽂⼼ X1 的特⾊之⼀。

官方表示,X1 目前已经解锁高级搜索、文档问答、图片理解、AI 绘图、代码解释器等多款工具。

我突发奇想,上传了一张心形图片,图片中实则嵌着一个数学公式,看似简单却颇具挑战性,毕竟从图像中提取数学信息需要较高的视觉理解和逻辑处理能力。

至于结果嘛,它顺利提取出公式内容,还解释了这个公式的含义。

复杂的文字生成能力也是 X1 的亮点,我首先要求 X1 生成一个 500 字的剧本,主题是「林黛玉倒拔垂杨柳」,剧本「以柔克刚」,保留了林黛玉的性格特征,还融入了戏剧化的冲突与转折。

紧接着,我进一步要求 X1 从心理学的角度分析这个剧本,并在此基础上润色出一版 1000 字的新剧本。

这次的任务显然更复杂,X1 运用的理论得当,虽然不算特别深刻,但对于一个 AI 模型来说,能在短时间内完成如此跨学科的解读,已属难能可贵。当然,也不是没有缺点,字数就没达到要求。

就回复而已,相比于 Deepseek 满嘴「通货膨胀」的社科黑话,X1 在语言输出上显然比较克制,表达更流畅也更接地气,多了一些直抵人心的温度。

DeepSeek 则以全面的思考见长,追求技术深度和思维广度,但语言上稍显疏远。

最近,科技博主 Alexander Doria 抛出个观点—— AI 领域的下一个发展周期将是「模型本身即产品」,谁能搞定模型训练,谁就握住了未来。

他还引用了 Databricks 投资人 Naveen Rao 的预测:

「未来 2-3 年,闭源 AI 提供商将停掉 API 服务,只有开源模型会继续提供 API,闭源公司会转而打造更独特的能力。」

反观国内市场,百度的表现颇具代表性。

自两年前文心一言发布以来,百度在自研模型上的投入持续加码,迭代节奏稳定,文心 4.5 和 X1 的亮相,同样是「模型即应用」趋势的最佳注脚。

前者靠万亿参数直击多模态能力,后者凭慢思考和多工具调用秀出推理肌肉。这种差异化的能力布局,精准契合了用户多样化的需求,更让模型本身从单纯的技术内核转变为可以直接上手使用的「产品」。

回溯历史,百度在搜索时代的技术积累和移动互联网时期的转型尝试,都曾让其站在风口之上,但也因节奏把握或市场竞争而错失一些先机。

映照当下,如果将 AI 比作「火种」,两年前的百度无疑是中国市场上最懂得用火的「普罗米修斯」。但奈何与过往一般,作为中国 AI「黄埔军校」的百度,却是起了个大早,赶了个晚集。

这离不开 AI 行业生态的潮水流动。

OpenAI CEO Sam Altman 曾在上月预测,使用固定级别 AI 的成本大约每 12 个月骤降 90%。

成本的快速下降削弱了闭源模式赖以生存的高壁垒,使得技术垄断的护城河逐渐变浅。与此同时,开源与免费的模式因其低门槛和高可及性,成为吸引用户、扩大技术影响力的新路径。

DeepSeek 和 Manus 接连在短时间快速渗透,也说明了目前 AI 产品还没有显著的壁垒,哪个体验更好用户就转向哪个,不会有一点留恋。

无论对于百度还是其他大厂,抑或独立开发者,似乎又回到了移动互联网兴起的草莽时代。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Google Gemini 免费 AI 对话修图实测!一句话PS、换背景、创作系列图画

By: Anonymous
9 March 2025 at 13:51

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

你拍下一些照片,却觉得照片的背景不够完美?你是内容创作者,但找不到文章合适的配图?你是电商卖家,想位产品设计更吸引人的配图?你是老师,需要为教材找出一系列搭配的示范图片?以前,我们修图可能需要 学 Photoshop,需要花很多时间调整细节,或是要下载各种修图 App,还要在图库中翻找适合自己的图片文件。

但现在,只要一个 AI 指令,就能让我们需要的照片「瞬间改造完成」。

如果你想体验看看类似的工作流程,可以试试看前两天推出的 Google Gemini 免费 AI 修图!只要「一句话」,你就能改变图片,换背景、改风格、添加新元素,甚至创造连续漫画。
〔类似功能,在 Google Pixel 系列手机的 Google 相册中也能部分实现,Adobe、Canva 等的 AI 修图也能实现部分功能。〕

这篇文章,我会实测 Gemini 的 AI 修图能力〔而且免费即可使用〕,看看它怎么帮助我们「一句话变出想要的修图效果」!

我将分成三种应用角度来介绍,这些全部都能在 Gemini 中用自然语言下指令,便可以把照片生成或改造:

基础照片修图:让拍坏的照片变完美

替换背景、增加物品、改变颜色光线、调整风格。

进阶场景创作:为文章制作主题插图、让商品看起来更吸引人

搭配原始照片,制作特殊场景图

搭配原始照片,重新设计房间或产品

连续系列照片生成:根据文章、教材内容,生成一系列互相搭配的图片

模拟图文食谱

说故事的连续漫画、图画

文章中搭配的系列配图

首先,这个功能目前〔2025/3/14〕尚未开放在正式版的 Gemini 中,但可以通过免费账号即可登入的「 Google AI Studio 」来使用。

Google 账号注册登入后,进入一个新的对话框,并在右边控制列的「Model」菜单,切换到「Gemini 2.0 flash experimental」,就可以利用其 AI 来创作图片、修改图片,最大的特色是:

这个 Gemini 模型可以上传自己的图片,用「自然语言」下指令,请 AI 在图片上修图或生成新内容。

就如同 experimental 所说的「实验性」,实际测试结果,这个 AI 修图功能确实很神奇,也能够看到一些未来修图、创作图片的新可能性,不过可下载的图片质量等限制,目前还是不足以真正用在商业用途上的。

Google Gemini 免费 AI 对话修图实测!一句话PS、换背景、创作系列图画

在「Gemini 2.0 flash experimental」的对话框中,我们可以先上传一张原始照片,如果想要替换背景,只要简单的说一句这样的指令:「把照片的背景换成草地。」

就可以在 10 几秒的处理后,完成下图的成果。可以看到,Gemini 的「修图」是真的可以保留原始照片中的内容,只修改我要修改的部分。所以是真的 AI 修图,而不是 AI 重新生成图片。

我也可以上传一张风景照片,然后下指令:「把照片的天空改成大晴天。」Gemini 同样可以处理这样的调整。〔在 Google Pixel 手机的 Google 相册中就有类似功能可用〕

如果想要替换照片风格,套用艺术滤镜,也可以用 AI 下指令:「把照片变成中国水墨画风格。」就能轻松转换风格。

不过当然跟真正的艺术滤镜还是有落差,例如下图中我要 AI 把照片改成「彩色的铅笔绘画风格」,看起来还可以,不过专业的艺术滤镜一定会处理得更好。

除了可以用「Gemini 2.0 flash experimental」的 AI 修图外,也可以在原始照片上进行创作。

例如延续上面的图片案例,我对 AI 下指令:「拓展成一幅横幅的中国水墨画。」十几秒后,照片就变成了一幅新的水墨风景画。

或是我的书籍封面,上传后,下指令说到:「我想把原书的图片,摆在一张高雅的书桌上。」结果还真的可以顺利生成新的产品摆拍图。

不过如果细看,书籍封面上有些小字其实是有瑕疵的。

因为 Gemini 是对话的模式,所以在原始照片的改造上,我们可以通过多次讨论,让 AI 在原始照片上陆续添加内容,制作出自己需要的场景图。

例如下面原本只是单纯公园照片,我先请 Gemini:「在这张照片的草地上,加上一对正在野餐的男女朋友。」于是生成了下面的图片。

然后我继续追问:「让两人旁边有一只小狗在奔跑。」

然后再下指令:「旁边的道路上,也有零星的路人在散步。」

最后说「让天空变得更晴朗。」于是我要的最终场景图,就通过 AI 创作完成了。

我还做了一个尝试,先上传一张原始的房间照片〔某家旅馆〕。

然后我陆续对 AI 下了下面这些指令:

结果 AI 生成了下面这样的图片,第一张是原图,第二张是最后生成的图片,改造的图片还是保有原图的空间格局,只是风格焕然一新。

Google Gemini 本来就可以生成图片,但「Gemini 2.0 flash experimental」比较厉害的是可以分析文章内容,生成适合的配图,或是一系列的连续漫画、故事图片

例如,我对「Gemini 2.0 flash experimental」下了这样的指令:「你是意大利面专家,提供给我一道海鲜意大利面的食谱,请一步一步处理,用文字具体列出关键步骤,并在步骤后搭配图片。」

结果他「一次」就生成了下面的连续图文教程内容,这是在一次的问答后就完成的结果。

我假设自己写了一篇游记,于是请 AI「设计一系列素描画,展现一个人在京都街头散步的故事,请一步一步分析,以京都的场景,搭配素描画风格,设计有意思的散步故事,创作一连图画。」

结果「Gemini 2.0 flash experimental」也在一次的生成中,提供给我下面连续故事图,比较神奇的是这些连续图片中都有类似的人物,保持图片连贯性,虽然风格上有点跳跃。

还可以这样问 AI,我让 Gemini 自己思考如何设计一系列进入书店场景的图片,Gemini 自己写了一大篇分析内容后,才开始设计并产出图片。

但效果看起来还不错。

所以,在功能上,利用现在〔2025/3/15〕在 Google AI Studio 中的「Gemini 2.0 flash experimental」,你可以上传原始照片请 AI 修图、改图。也可以让 AI 读一篇文章、思考一个主题,生成一系列连续图片。

未来这个功能越来越成熟,或许有下面这些应用可能性:

现在,你也可以通过免费账号即可登入的「 Google AI Studio 」来试试看。

iOS 19 的设计大更新,是苹果对 AI OS 的押注

By: 周奕旨
12 March 2025 at 18:01

去年的 WWDC 上,苹果为所有屏幕前的观众带来了久违的 One more thing——Apple Intelligence。

不过一年的沸沸扬扬以后,大家都难免有些疲惫,苹果似乎也是如此,在继续推进 Apple Intelligence 的同时,苹果终于将目光转回了设计上。

据彭博社报道,苹果公司计划于今年晚些时候对 iOS、iPadOS 和 macOS 进行重大界面设计更新。

▲ 概念图

设计的最终目的,是交互

上一次,苹果如此对设计动大刀,是 2013 年的 WWDC。

2013 年 6 月 10 日,苹果首席执行官 Tim Cook 站在台上宣布 iOS 7 的发布,然后聚光灯转移到刚从 Scott Forstall 手中接手软件设计的 Jony Ive 身上。

他没有急于介绍 iOS 7,而是先谈起了自己对设计的理解:

我认为简约、清晰与高效中蕴含着深刻而持久的美。真正的简约远非仅仅摒弃杂乱与装饰,而是要在复杂中建立秩序。

短短的一句话,几乎成为 UI 设计的金科玉律,也道出了为什么拟物化被淘汰的原因——在小尺寸的屏幕上使用拟物化设计,需要在图标中填充大量的信息,这些信息会浪费人的注意力,同时也增加了不少的辨识成本,从而导致交互的迟钝。

而扁平化干净的线条与配色,让使用者可以迅速分辨出该图标的含义,通过简化视觉元素,让功能本身成为设计的焦点,同时,也无比契合苹果一贯「少即是多」的设计语言。

所以,哪怕拟物化曾是美学标杆,无论人们如何评价 iOS 7 的扁平化变革,苹果依然果断将其推入历史。

很明显,从 iPhone 在国内兴起到 iOS 7 短短几年时间,彼时的用户对拟物化 UI 仍意犹未尽,以至于多年后,SmartisanOS 那套迟到的拟物 UI 依然被人津津乐道。

遗憾的是,锤子也和拟物化一起,成为了时代的眼泪。

▲ 拟物化确实美

时间来到现在,iPhone、iPad 与 Mac 的功能愈发复杂,功能的入口也随之变得越来越繁杂。

举个最直观的例子,相机 App 的界面如今已近乎「窒息」。

如果你打开照片格式或照片风格选项,取景框之外的每一寸空间几乎都被二级菜单入口占据,甚至顶部菜单还与功能选项发生了明显的重叠,让整个界面显得局促不堪。

还有一个或许更直观的例子:iPhone、iPad 与 Mac 之间的操作逻辑已逐渐分化,曾经那种无缝上手的体验,如今已不再是理所当然的事情,切换设备时的适应成本正变得越来越高。

设计影响交互,交互决定体验,iOS 7 以来构建的 UI 体系,已经无法满足当前多设备协同的需求,而这,正是苹果无法容忍的。

因此,苹果决定重塑设计语言,通过更统一的视觉与交互逻辑,让不同设备之间的操作体验更加一致。

为了达成这个目的,苹果选择 Vision Pro 作为锚点,让整体视觉风格向 visionOS 靠拢。显然,苹果仍然视 Vision Pro 为「明日产品」,并希望以其设计理念作为未来 UI 体系的基石。

本次更新内容将涵盖操作系统的核心视觉元素,包括图标、菜单、应用程序、窗口样式以及系统按钮,目的是通过简化交互逻辑,让用户更便捷地使用设备。

▲ 概念视频

visionOS 随着 Vision Pro 一起问世,以空间计算为核心,强调数字内容与物理空间的有机融合,其设计原则包含三个层级:

  1. 层级感知:通过动态景深与虚实叠加,构建类似现实世界的光影层次感(如窗口悬浮高度暗示操作优先级)
  2. 物理隐喻:沿用触控直觉(如滑动、拖拽),但引入三维空间操作(物体旋转、空间缩放),降低学习成本
  3. 情境响应:界面元素会根据环境光线变化自动调整透明度和色调,确保视觉舒适度

这套设计语言本质是将 iPhone 的平面交互升维至空间,同时保留苹果标志性的设计美学。

很显然,目前的主流移动终端依旧是以屏幕为内容承载物,所以这套语言的大多数层级都不能照搬到 iPhone、iPad 或 MacBook 上,但其中的材质语言,是完全可以统一的地方。

visionOS 为了与现实世界有机结合,精心挑选了一个在现实世界中存在,又可以成为虚拟世界桥梁的材质——毛玻璃。

▲ visionOS 就是玻璃 OS

毛玻璃这种材质首次出现在 iOS 7 上,系统大量使用了毛玻璃材质,将其作为扁平化设计的补充策略。

通过高斯模糊叠加半透明层,系统界面(如控制中心、通知栏和多任务切换窗口)在保持极简视觉的同时,构建了立体层级感。

这一设计巧妙平衡了扁平化浪潮下的信息密度问题,不仅区分信息层级,更通过虚实叠加引导用户注意力,用模糊的底层内容暗示非当前操作焦点,毛玻璃成为核心交互元素,正式成为「交互状态的可视化载体」。

▲ WWDC 2013 上的毛玻璃展示

2014 年,随着 UIVisualEffectView 和 UIBlurEffect 等原生 API 的开放,开发者可在应用内自由实现动态模糊效果,键盘弹出时的背景虚化、文件夹展开时的层级过渡,都可以设计毛玻璃效果。

毛玻璃逐渐从系统级控件扩展至第三方应用,成为 iOS 生态的标志性设计语言。

而如今,在 iOS 19,毛玻璃将迎来新一轮的重塑与强化,最终可能成为三个终端设备的共同交互认知——在 iPhone、iPad 与 Mac 等基于屏幕显示的移动终端上,毛玻璃材质用于平面层级的轻量化交互;

而在 Vision Pro 上,毛玻璃用于承载三维空间中的多窗口叠加与深度交互,本质是通过光学隐喻构建数字世界的认知框架。

从现在第三方给出的概念图来看,iOS 19 甚至有将图标改为圆形的尝试,不过这种形态的可能性并不算大,因为使用完整的圆形并不符合苹果目前的主流终端设备——它们的显示屏都以矩形为主。

▲ 概念图

如果一切顺利的话,这套全新的系统体系将在今年 6 月的 WWDC 上与我们见面,并更新在 iOS 19、iPadOS 19、macOS 16、visionOS 3 等系统中。

与爆料一同而来的,还有一个坏消息:此次更新仅限于交互设计方面,苹果无意合并其不同操作系统的底层架构,仍将保持 iOS、iPadOS 和 macOS 的独立性。

一直以来呼声较高的 iPadOS 与 macOS,将继续保持独立。

苹果的困境,是 Apple Intelligence 的狼来了

苹果之所以突然对设计动刀,除了交互上的麻烦已经积重难返以外,还有另外一个因素。

苹果一向是一家偏向保守的科技公司。相比追逐潮流,它更倾向于整合已有技术,经过精细打磨后再推出,以确保最佳的用户体验。

但这种保守在已经形成燎原之势的 AI 时代,已经相当严重地拖了苹果的后腿。

不仅是在国内迟迟无法落地,导致 iPhone 16 系列的 AI 体验形同鸡肋,甚至被戏称 Apple Intelligence 最直观的变化是让 iPhone 全系升级到 8GB RAM。

即便是在已落地的海外市场,Apple Intelligence 的表现也远未达到人们的期待。

这一切都是因为苹果将自己圈在一个自己画下的禁咒里。

当其他厂商争相接入各种 AI API,推动智能化生态时,苹果却始终对「将用户数据交给外部服务商」持谨慎态度。

而按照苹果一贯的传统,第三方应用在 iOS 上几乎无法获得跨应用操作的权限。这意味着,如果苹果想要构建真正系统级的 AI 生态链,唯一的选择,就是完全依赖自己的 AI。

但奈何,自家的 Siri 也不争气。

Siri 本应是苹果 AI 战略的核心入口,但多年来,它的功能局限、交互僵化,逐渐沦为智能助手领域的「边缘角色」。如今,苹果想要在 AI 时代重回主导地位,必须解决一个关键问题:如何让 Siri 从「语音助手」升级为 AI 生态的核心枢纽。

为了让 Siri 变得更聪明,苹果不得不破例引入 ChatGPT,借助第三方 AI 提供支持,同时还宣布开发一个更个性化的 Siri,这个 Siri 能深入理解用户的个人背景,并具备跨应用执行任务的能力,成为真正的 AI 助手。

但现实却并不乐观。

前不久,知名爆料人 Mark Gurman 也表示,苹果自研的大语言模型进展受阻,最初打算将 LLM Siri 与 iOS 18.4 一起推出,但进展并不乐观,于是苹果推迟到了 5 月份的 iOS 18.5,而现在看来,可能要在 2025 年 9 月推出的 iOS 19 至 2026 年 3 月的 iOS 19.4 上才能看到全新的 LLM Siri,而路透社等媒体也跟进了这条新闻。

至于跨应用 AI 的能力,恐怕也得一并延期。

既不愿意彻底开放生态,也无法迅速造出自己的 AI,左脚绊右脚,苹果就这么在 AI 移动端落地的路上磕磕绊绊,不知道什么时候才能跑起来。

随着 Apple Intelligence 的推迟,消费者与投资人的信心也在悄然动摇。

2024 年 9 月,由于 AI 相关功能延期,iPhone 销售预期下调,苹果股价单日暴跌 4.85%,创下两年半来的最大跌幅。

而在竞争更加激烈的中国市场,情况更是不容乐观。

2024 年第四季度,苹果的市场份额跌至 16.7%,排名第三,落后于华为和小米,销售额同比大跌 18%,中国市场份额的大幅丢失,导致 iPhone 在全球销量同比下滑了 5%,在全球市场的市场份额下跌 1 个百分点至 19%。

此时,iOS 19 的更新毫无疑问是围魏救赵,能吸引很大一部分注意力,争取一些喘息的时间。

▲ 概念视频

也说得过去——毕竟,如果 AI 是改变移动终端的最终答案,Apple Intelligence 就是第一步,而操作系统,则是这一切的基石。

既然 Apple Intelligence 还需要时间,那就在等待的时间里,做点值得期待的事。

不过,这个转移目光的方式,可不一定管用,短短一年时间,苹果已经从万众期待,变成「狼来了」——用网友的话来说,之前承诺的 Apple Intelligence 还没来,又要端新的大饼上桌。

这大饼到底是真好吃,还是画饼充饥,就不好说了。

让我有个美满旅程

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


刚刚,OpenAl 发布 Agent 工具包,网友:谢谢 Manus AI

By: 莫崇宇
12 March 2025 at 14:15

就在刚刚,OpenAI 发布了一系列专为构建 AI Agents 设计的新工具和 API,帮助开发者更容易地创建能自动完成任务的 AI Agents(智能体)。

OpenAI 认为虽然过去一年推出的高级推理、多模态交互等模型能力为 Agent 奠定了基础,但开发者在构建生产级 Agent 时,还会遇到不少难题。

为此,这次发布的核心产品包括全新的 Responses API、三种内置工具以及以及一个开源的 Agents SDK。

省流版如下:

  • Responses API:结合 Chat Completions API 简洁性与 Assistants API 工具使用能力的新型 API 接口
  • Web 搜索工具(Web Search Tool):让模型访问互联网获取最新信息的工具
  • 文件搜索工具(File Search Tool):从大量文档中检索相关信息的增强工具
  • 计算机使用工具(Computer Use Tool):由 Computer-Using Agent (CUA) 模型提供支持的计算机操作自动化工具,让 AI 能像人一样操作电脑界面
  • Agents SDK:基于 Swarm 框架升级,简化多 Agent 工作流程编排的开源框架

具体来说,Responses API 结合了 Chat Completions API(主要用来生成对话回复)的简洁性和 Assistants API(能让 AI 调用外部功能,比如查资料、操作东西)的工具使用能力,成为构建 Agent 应用的新基础。

在内置工具方面,Web 搜索工具支持 GPT-4o 和 GPT-4o-mini 模型获取网络最新信息并提供清晰的引用。在 SimpleQA 基准测试中,这两款模型的搜索预览版分别拿下了 90% 和 88% 的亮眼准确率。

升级后的文件搜索工具更是给力,支持多种文件格式,还能优化查询、过滤元数据、自定义排序,让开发者从堆积如山的文档中迅速找到关键信息。

计算机使用工具则由与 Operator 相同的 Computer-Using Agent (CUA)模型提供支持,可捕获模型生成的鼠标和键盘操作,在 OSWorld、WebArena 和 WebVoyager 基准测试中分别取得 38.1%、58.1% 和 87% 的成绩。

OpenAI 还推出了开源的 Agents SDK,专门用来简化多 Agent 工作流程的编排。

相比去年发布的实验性 Swarm 框架,这个全新 SDK 有了显著的改进,提供易于配置的 LLM 与内置工具集成、Agent 间智能交接控制、可配置安全检查以及可视化追踪等功能,适用于客户支持自动化、多步研究、内容生成等多种应用场景。

一些早期测试用户已经拿这些新工具做出了实打实的成果。

在官网列举的案例中,Hebbia 利用 Web 搜索工具帮助资产管理者和法律从业者从海量数据中提取可行见解;Navan 将文件搜索工具应用于 AI 旅行 Agent 中,为用户提供精准的旅行政策答案。

Unify 和 Luminai 则使用计算机使用工具自动化复杂操作流程,特别是对缺乏 API 的传统系统;Box 利用 Agents SDK 快速构建和部署了企业数据搜索应用。

产品发布后,网友也在 OpenAI 的评论区玩起了梗,甚至还有网友专门留言感谢 Manus AI。

在今天凌晨 1 点的现场直播中,演示人员也向我们展示了一个「个人造型师」 Agent 的应用案例,用来展示各种新工具的能耐。

举个例子,他们先用文件搜索工具翻看了用户(比如「Kevin」)的服装喜好数据,系统轻松整理出这些人的穿衣风格。

然后结合 Web 搜索工具,系统能够基于用户所在位置(演示中使用了「东京」作为 Kevin 的位置)搜索附近的相关商店,为 Kevin 推荐了东京的 Patagonia 店铺。

接着,计算机使用工具(Computer Use Tool)登场,自动操作网页界面,为 Kevin 买下一件黑色 Patagonia 夹克,整个过程行云流水——点击、拖拽、填信息,宛如真人在操控。

最后还演示了 Agent 间的交接功能。一个 Agent 将退货请求无缝交接给客服 Agent,后者能够调用获取密码和提交退款请求等功能,帮助用户完成 Patagonia 夹克的退货。

可以说,凭借新工具和 API 的默契配合,这些 AI Agent 不仅能读懂用户喜好、获取实时资讯、执行复杂操作,还能在不同任务间灵活切换,完美覆盖从推荐到购买再到退货的全流程。

至于现有 API 的安排,OpenAI 表示会继续全力支持 Chat Completions API,为不需要内置工具的开发者提供新模型和功能。

而基于 Assistants API 测试版的反馈,他们已经把关键改进整合到 Responses API 中,计划在功能对齐后,于 2026 年中期正式停用 Assistants API,同时会提供详细的迁移指南。

新工具的定价也新鲜出炉,Web 搜索每千次查询分别为 GPT-4o 搜索 30 美元和 GPT-4o-mini 搜索 25 美元;文件搜索每千次查询 2.5 美元,文件存储 0.1 美元/GB/天(首 GB 免费);计算机使用工具则按每输入百万 token/3 美元和每输出百万 token/12 美元计费。

OpenAI 表示,随着模型能力变得更加具有 Agent 属性,他们会继续深化 API 间的整合,并提供新工具帮助部署、评估和优化生产环境中的 Agent。

英伟达 CEO 黄仁勋曾表示,未来每个公司的 IT 部门将转变为 AI Agent 的「HR 部门」。

从管人到管 AI,Agent 将很快成为劳动力的重要组成部分,提高各行业的生产力,而此次发布的工具集只是帮助开发者和企业构建、部署和扩展可靠高效 AI Agent 的重要一步。

此前,开发者需要自行组合不同 API 和编写复杂的协调逻辑来构建 AI Agent,而新工具极大地简化了这一过程。

Responses API 将多种功能整合成一个简单接口,而内置工具为 AI 提供了「感知」和「行动」的能力,Agents SDK 则提供了协调多 Agent 的标准框架。

通过降低技术门槛,使得更多企业能够快速构建和部署 AI Agent,这或许也是 OpenAI 所说的「Agent 元年」的真正含义——让 AI 不再局限于聊天框,而是能融入现实工作流程,成为你的「数字助理」甚至「数字同事」。

附上 AMA 问答:

Q:哪种操作系统最适合 computer use:Linux、Mac 还是 Windows?是图形界面(UI)、终端(terminal),还是其他方式更好?哪些应用程序在计算机上表现最佳,还是说这并不重要?
A:CUA 模型主要是针对网页任务进行训练的,但早期用户发现它在桌面应用程序上的表现也出乎意料地好。不过现在还处于早期阶段,我们还有很多可以改进的地方!

Q:你们会提供 TypeScript SDK 吗?
A:是的!我们很快会推出 TypeScript SDK,敬请期待!

Q:我们未来会在 API 中看到 o1 pro 吗?
A: 是的,我们计划很快在 responses API 中发布它!

Q:我们需要自行管理 Docker 环境来使用计算机功能吗?
A: 如果你愿意,你可以自行管理 Docker 环境,但你也可以使用云服务,比如 @browserbasehq 或 @scrapybara。

Q:何时会有 Operator 在 API 中可用?
A:从今天开始,你可以在 API 中使用与 Operator 相同的功能!我们已经在新的 Responses API 中部署了驱动 Operator 的 CUA 模型。

Q:你们会考虑提供集成的虚拟机(VM)来支持「 computer use」,或者与合作伙伴合作,以减少搭建环境的需求吗?
A:目前还没有这样的计划,但你可以查看 CUA 示例应用,其中包含一些示例环境,包括 @scrapybara 和 @browserbasehq,用于远程托管。

Q:在整个 agent-handoff 流程中,如何确保个人隐私?有没有什么方法可以增强用户与 Agent 交互时的隐私保护?
A: 我们有多种隐私保护机制。Agents SDK 支持开发者定义的安全措施(guardrails),用于输入/输出验证。此外,你可以使用 input_filter 来限制在交接过程中传递的消息上下文。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


套壳的 AI 产品,不可耻,也有用

By: 莫崇宇
11 March 2025 at 18:47

短短几天,Manus 成了衡量 AI 产品优劣的最佳试金石。

近期,Manus 在海外的热度暴涨,,外国大 V 自发在 X 平台转发宣传,《福布斯》更是直接盖章定调,冠上了「第二个 DeepSeek 时刻」的称号。

让子弹再飞一会儿,却净是反转、反转、再反转。噪声太多,容易淹没对一款产品价值的判断。在业内,AI Agent 的落地早已心照不宣,底层基础模型的进步,Deep Research 的广泛普及,都为犹在襁褓的 Manus 席卷全网扫除了不少认知障碍。

在喧嚣之外,我们需要重新审视,一个套壳 AI 产品对用户和行业是否有价值?在 AI 快速迭代的今天,创新的定义是什么?

Manus 海外风评如何

Manus 的爆火来得猝不及防,以至于连团队也没有准备好迎接这泼天的流量。

合伙人张涛近日发文称低估了大众的热情,目前服务器资源无法满足市场需求,因此只好采用邀请码机制,同时也表示团队正在全力输出,争取让大家早日体验到更好的产品。

与刻意降低国内存在感的策略不同,Manus 这几天反而向不少海外 X 博主大 V、以及 Reddit 社交平台陆续开放不少邀请码,有意借势推高热度。

拿到使用权的 @deedydas 让 Manus 对特斯拉股票进行专业的分析,结果它在大约一个小时内完成了通常需要大约两周才能完成的的专业级工作。这效率,不比打工人好用(不是)。

[

先别羡慕 AI 三小时做的小游戏,9 天赚 12 万,manu 也能做。@_akhaliq 让 Manus 用 three.js 打造一款无尽跑酷游戏,画面游戏有些粗糙,但游戏机制相当完善。

搞钱才是王道,这也是网友对 Manus 呼声最高的要求。使用 Manus 构建一个仪表板,筛选出日本符合收购条件的上市公司作为潜在的收购目标,还能打造成 90 年代风格的日本视频游戏。

结果也是完美交付,让人挑不出毛病。

▲游戏地址:https://zaomhjnv.Manus.space/

@LamarDealMaker 对 Manus 的能力赞不绝口,称其为最疯狂的 AI Agent。

Manus AI 在极短的时间内为他规划了一次为期两个月的家庭旅行,路线涵盖澳大利亚、新西兰、阿根廷和南极洲,安排得滴水不漏。并且,它还能够自动分配任务、浏览网页研究,最终奉上了一份涵盖住宿、预算和美食指南的详细行程。

另一位用户 @ivanfioravanti 则秀出了 Manus AI 用 p5js 做的动画,创意和效果双双在线。

Hugging Face 的产品负责人称 Manus 是「我用过的最令人印象深刻的 AI 工具」。AI 政策研究员 Dean Ball 将 Manus 描述为「最复杂的 AI 计算」。

要说 Manus 的重量级背书,绝对少不了两位比较重磅的人物。

一个是 Twitter 创始人 Jack Dorsey,直接甩出了「excellent」的评价,言简意赅但分量十足。另一个则是 X 博主 Rowan Cheung,他所创立的 therundownai 可以说是 X 平台阅读量最大的 AI 新闻快讯自媒体。

Rowan 前几天还没体验 Manus,却在海外率先喊出「中国第二个 DeepSeek 」。截至目前,那条推文也在 X 平台狂揽 276 万的阅读量。

直到最近,Manus 团队也向 Rowan Cheung 分享了邀请码。

创建 Rowan Cheung 的传记、并据此部署网站;分析旧金山最佳租车地点;创建一门关于内容创作 AI 的完整课程,Manus 的表现也都可圈可点。

先说好评,还有差评,@mckaywrigley 给 Manus 打了个大大的好评,认为它的底层代理模型和 UI 都做得无可挑剔,但这位博主也话里有话,主打一个未来可期,点到即止。

@ai_for_success 是最早一批点赞 Manus 的博主。

同样地,他其实最开始并未拿到邀请码,体验后,他表示,「Manus AI 太疯狂了,我以前从未使用过类似的东西。」还特意加了个免责声明,说自己没拿 Manus 一分钱。

尽管案例很高大上,但问题是计算是否正确,他的心里也没底。

相比 OpenAI 的 Deep Research,医学博士 @DeryaTR_ 就指出 Manus 历经两轮尝试,都未能顺利完成任务,且耗费时间过长。

有趣的是,Manus 创始人季逸超今天在 X 平台发文称,Manus 为了提高系统性能而降低了故障率,但结果用户的会话现在运行时间更长,且由于系统负荷过重,Manus 故障率又开始回升。

站在福布斯的另一端,外媒 TechCrunch 则指出 Manus 可能不是中国的第二个「DeepSeek 时刻」,几轮体验下来都以任务失败告终。

极致的套壳,就是胜利

Manus 爆火后,网友们抛出的头号疑问是,它真就有技术壁垒吗?

张涛曾在混沌学园采访中谈到,单纯的「套壳」(即直接使用大模型的技术输出)在 AI 普及的背景下,难以成为核心壁垒。真正重要的是找到市场需求和商业逻辑,利用 AI 这个「通用商品」创造独特的价值。

换句话说,套壳只是起点,关键在于如何构建需求驱动的差异化优势。

昨日,网友 @jianxliao 因为疑似套出 Manus 系统提示词和运行代码,引来了季逸超的回应。

回应的细节很多,但较为值得关注的是,当被问及 Manus 的基础模型时,他表示目前使用的是 Claude 和 Qwen 微调模型。并且,Manus 采用多 agent 协作的架构设计。

早在 Manus 崭露头角前,海外如 OpenAI 的 Deep Research 已是相对成熟的产品。据 The Information 报道,OpenAI 甚至还计划推出一款每月高达 2 万美元的博士级 Agent。

某种意义上,Manus 的成功像是「摸着前人石头过河」。

技术若无热度,便如深谷孤响,Manus 有了足够的热度和关注,也吸引更多人投入资源和精力去研究、复现甚至开源类似的技术。

最近,MetaGPT 的 4 名团队成员在 GitHub 发布了名为「OpenManus」的开源项目,旨在复刻 Manus 的核心功能,同时大幅降低使用门槛。

团队宣称,该项目仅花费了 3 小时便开发完成。

快是快了,但这种速度带来的代价是功能和效果上的妥协,OpenManus 更偏向技术验证和社区协作,功能深度也更聚焦,无法像 Manus 那样覆盖广泛场景。

截至发稿前,OpenManus 在 GitHub 已收获超 2.6 万的星标。

据官方介绍,OpenManus 支持 SEO 审计与报告生成,同时采用轻量化设计。其基于 MetaGPT 的多智能体协作框架,支持利用不同角色分工并自动化生成代码与文档。

此外,OpenManus 的开源特性,允许社区为其贡献扩展功能。该项目的底层支持来自 Anthropic 的 computer-use 和 browser-use。

▲GitHub 🔗:https://github.com/mannaandpoem/OpenManus?tab=readme-ov-file

置身于风暴中心,OpenManus 背后的四名成员连同他们的过往经历,迅速被媒体扒出:

  • 梁新兵:华东师范大学硕士,曾参与爆款 AI Agent 项目 Data Interpreter 的开发。
  • 张佳钇:中国人民大学高瓴人工智能学院本科生,目前在香港科技大学(广州)攻读博士,其参与的智能体框架 AFlow 刚被深度学习顶会 ICLR 2025 接收。
  • 向劲宇:西南交通大学应用物理学本科,曾在 2024 年阿里巴巴全球数学竞赛 AI 赛道斩获全球第二。
  • 于兆洋:中国人民大学高瓴人工智能学院本科生,与校友张佳钇曾凭 MathAI 方案在阿里数学竞赛 AI 赛道拿下全球第三。

同样在 3 月 7 日,CAMEL AI 的 OWL 项目公布,并剑指 Manus。

官方表示 OWL 直接做到开源界 GAIA 性能天花板,达到了 58.18%,超越 Huggingface 提出的 Open Deep Research 55.15% 的表现。

在官方给出的演示案例中,让 OWL 查询今天伦敦有哪些电影上映。

它会自动生成待办事项规划并编写任务清单,开始浏览网页,搜索伦敦地区符合条件的电影院。

整个过程宛如真人操作,流畅地执行滚动、点击、输入以及实时信息检索等步骤,最终为用户呈上一份详尽的当日电影总结报告。

据 CAMEL AI 介绍,OWL 通过逆向工程将 Manus 工作流拆解为 6 步,并开源所有模块;支持 GitHub 一键 clone,同时工具链能够自由扩展,执行环境也支持云端和本地任选。

CAMEL AI 强调,OWL 完全免费,且优化了 Token 消耗。

▲GitHub 🔗:https://github.com/camel-ai/owl

然而,与这些后续开源项目相比,Manus 的真正优势在于更早抓住了行业痛点,如何将复杂多智能体协作技术转化为用户可感知的价值。

精心设计的用户界面、相对透明的流程优化,Manus 将复杂的技术包装成了易于理解和使用的产品,也为第一波热度添柴加火。

并且,Manus 的爆火,某种程度上源于它在对的时间踩中了风口。

黄仁勋曾经在 CES 预言,随着 AI Agent 浪潮席卷,未来 IT 部门将转型为 AI「员工」的人力资源部门。Manus 同样正是基于这一趋势,向用户展示了一个能够有效管理多个 AI 智能体协作的平台。

诚然,业内虽对「套壳」嗤之以鼻,套壳可以是起点,不应该是终点。

但用季逸超的话来说,极致的套壳就是胜利。Manus 能够将现有技术包装并推出满足用户需求的产品,应用端的创新同样不可忽视。

类似的案例比比皆是,同样作为现象级产品,AI 搜索引擎 Perplexity 也因为「套壳」而置于风口浪尖之上,但其创始人 Aravind 却也看得通透:

只有当你真正有了值得「护」的东西时,护城河才有意义。人们可以将 Perplexity 看做是一个 AI 套壳,但成为一个拥有十万用户的套壳产品显然比拥有自有模型却没有用户更有意义。

Perplexity 采取的策略奏效了。发展不过三年,月活跃用户已逼近 1 亿,庞大的用户基础,随之而来的海量搜索数据,其市场影响力也在日渐增强。

他们的成功路径清晰可见,先打造产品、紧盯市场需求,然后通过不断迭代产品来收集用户反馈和搜索行为数据,为后续自研模型打下了坚实基础。

资本市场的正反馈对这种商业模式给予了有力背书,Perplexity 的市场估值实现「三级跳」,在去年 12 月完成新一轮融资后,一路飙升至 90 亿美元。

流量如潮水,Manus 的长期价值是否经得起考验,仍有待时间的考验。

但在此之前,对于绝大多数 AI 初创企业来说,先果断抓住市场中那一小块关键红利,循序渐进地积累实力。当这些短期红利转化为企业自身实力后,技术壁垒或许也就水到渠成。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


你的荣耀手机学会「点屏幕」了,为什么笨 AI 也有未来?

By: 杜晨
10 March 2025 at 14:23

在移动世界通信大会 MWC 2025 上,我们看到荣耀和订餐订位产品 OpenTable 做的一次演示:用户用语音命令手机 AI 助理找家西班牙餐馆订个位,接着就看到手机屏幕被「接管」,一通自己操作。

这个 MWC 版本的演示,其实和荣耀去年 Magic 7 Pro 发布会上策划的那次「行为艺术」,是同一件事。

当时在深圳的发布会上,时任荣耀 CEO 的赵明指挥 AI Agent YOYO 打开美团。他的手没动,而是 YOYO 自己在屏幕上点来点去,一家店点了几十杯饮料,支付,循环到下一家,继续点,再循环,重复操作——直到最后下单了总共 2000 杯左右。

一通操作过后,深圳发布会场地周边的瑞幸门店纷纷「爆单」,门店咖啡师忙到崩溃,接到订单的骑手更是在门店排起长队。

这次效果显著却略带荒诞意味的事件营销,一定程度上让公众忽略了荣耀试图展示的核心技术:「基于 GUI 的个人 AI 智能体」

时至今日,AI Agent 功能确实已经不新鲜了。而这个技术的关键点,在「GUI」这三个字上。

GUI 全称 Graphical User Interface,图形用户界面。作为一个基于 GUI 的 AI Agent,YOYO 不再依赖传统的 API 接口,而是有了一只虚拟的「手」,直接在代替用户进行图形界面操作。整个代行操作不在「后台」,而是直接在「前台」,在用户的眼皮底下实时发生。

需要澄清的是:Magic 7 Pro 市售机型用户的体验可能会与发布会演示存在差异。据财联社报道,当时现场演示用的测试机权限更高,能够自动免密支付和循环点单,这才不停地点出了2000杯饮料。至少在目前,市售机型需要用户明确告知点单细节(例如品牌、品名、杯型、温度等),并且在支付环节需要用户接管确认。

这个细节确实重要,但也不至于抹杀这项技术的存在意义。正相反,我们认为,「基于 GUI」是个很另类,很有趣,颇具试验性的 AI Agent实现路径。

AI Agent 交互的「前台」新路

荣耀 YOYO 的核心是多模态模型,GUI 交互的本质是语言+视觉的理解。

  • 自然语言处理 (NLP):理解「点一杯冰美式」的指令;
  • 屏幕状态感知:识别当前界面中的内容,找到正确的按钮、输入框等界面元素;
  • 拟人化操作:像人类一样点击按钮、输入信息;
  • 循环操作:在新的界面中持续解析内容、定位和点击界面元素。

关于 GUI 的操作部分,这最后一步具体是怎样实现的,荣耀方面没有明确透露。一种稳妥的猜测是:它能够获得手机的无障碍功能 (accessibility features) 或类似的底层权限,从而控制屏幕点击事件。

这最后一步并不是什么难事,甚至比前面几步都简单得多。但除了此前智谱的 AutoGLM 等极少数之外,确实很少有其它第三方开发者和终端厂商在走 GUI 交互的路径。

在过去,虚拟助理控制软件和智能硬件的方式主要是通过 API 调用以及物联网协议。这可以理解为一种纯数字 (digital) 的通讯方式。

今年一月,谷歌在三星的指定机型上激活了基于 Gemini 2.0 的 AI Agent 功能。这次合作也是通过 API 或类似方式实现的(谷歌称之为 Gemini 扩展),初期仅支持 Gmail、谷歌地图、三星日历、三星时钟等第一方应用,以及 Spotify 等极少量第三方应用。

想要做到规模化,扩充支持的应用,需要开发者做一定量的 API 接入工作,同时也需要用户许可使用 Gemini 扩展。

▲Gemini 控制手机演示   图源:Google

谷歌依赖 API 调用后台接口,而荣耀通过 GUI 模拟前台操作,二者在实现逻辑上形成了明显区别。后者的好处,在于可以规避 API 调用这一常规方式,绕过了其背后的商业博弈和数据成本,也可以更快、更容易地扩充支持的应用,实现规模化并改善用户体验。

成本是个关键问题。一方面是云服务费用,因为无论是 API 提供方还是调用方都需要运行服务器来进行操作。另一方面,通过 API 交换的数据也具有价值,因此具有更高数据价值的 API,往往收费也更高。

以美团举例,其订单服务在内的基础 API 收费标准为每百次调用0.15元(前百万次免费)。这还只是基础类 API,如果涉及价值更高的管理类 API,调用收费提高到每百次0.3元,且无免费额度。

另外,API 的使用也暗含着一些隐性的商业竞争要素。调用方获得了数据,同时也在向提供方发送数据,而不排除在特定条件下,双方都不希望肥水流向外人田。

而在基于 GUI 的方案下,至少就目前的演示效果来看,荣耀既不需要向美团支付 API 费用,双方也无需担心数据的归属,包括与之关联的隐私安全等问题。

AI Agent 只是在「模仿人类」点击屏幕,多么原始却有效的交互方式。

回归模拟,返璞归真

这种「返祖」式技术路径,让人联想到谷歌在2018年推出的 AI 电话助手 Duplex

Duplex 的思路在当时同样有点脑洞清奇:谷歌合成了一个 AI 语音,替用户给餐馆打电话订位。这个 AI 语音听起来并不生硬,甚至能够模仿真人的口音、语速、语调,以及加入「嗯」、「you know」 之类的填充词。

▲Duplex 技术演示 图源:Google

今时今日,AI 生成语音已经彻底「污染」了电销和客服行业,让人感到厌烦。但至少在当时,用顶尖的 NLP和语音合成技术,通过「打电话」这种模拟人类的方式订餐,这种另类的,从数字到模拟 (analog) 的交互方式,确实令人耳目一新。

目前荣耀正在推进的基于 GUI 的 AI Agent,在我看来同样属于一种从数字到模拟的实现方式,用原始与先进相结合的思路,带来了全新的可能性。

基于 GUI 不一定是实现手机 AI Agent 的最佳路径,但不可否认它确实很有趣,甚至有点「硬来」的意思。

  • 对于用户来说,使唤这样的 AI Agent没有学习成本,不需要研究提示语法;
  • 而对于第三方应用和服务平台来说,也几乎不需要额外的开发成本就可以接入。甚至反过来看,它们也无法拒绝被「接入」,因为压根就没有发生真正意义上的「接入」行为。至少以 Android 目前的沙箱机制来看,应用层不太能够「抵抗」系统底层的行为。

基于 GUI 的 AI Agent,既是一种对传统人机交互的致敬,也为 AI Agent 的落地和体验提升,提供了一种降低门槛、提高兼容性的路径。

有时候,最趁手的工具,真就只是一根干净简洁的大棒。

大模型与人机交互结合,「笨」AI 也有未来

在今天用户的主要需求场景上,有两种 AI Agent。一种是高智商型,能够解答复杂问题,完成困难的工作,比如 DeepSeek、Claude、以及前几天大热门的 Manus。这也是现在最流行最受关注的 AI Agent/Chatbot种类。

但我们同样需要另一种懂事能干的 AI Agent,它对用户的使用技巧没有很高的门槛,用户只要输入一两句简单直白的命令,它就能理解,并且把各种并不复杂的事给办好。

今天可以点外卖,将来它还能够帮你挂机放置类游戏,给指定好友的朋友圈点赞,甚至自动把刚拍下的一张照片修改一下发到社交网络。只要是用户能做的,基于 GUI 的 AI agent一样能做。门槛低,上限高,适应性强,用起来更顺手,可能是这一类 AI Agent的主要特色。

这类选手不需要成为理解世界的大学者,只当好执行任务的工具人就足矣。

2013年的电影《云端情人》(Her),曾经赋予人们展开无限的遐想。当时也正值 NLP 技术大爆发,许多优秀的语音场景产品和技术涌现出来。一些研究者和从业者笃信,自然语言对话将会成为 AI 交流的最主流方式。

然而去年昙花一现的硬件产品 AI Pin,以及开发它的 Humane 公司越走越黑的路,不禁令人怀疑《云端情人》设想的乌托邦是否那般美好,语音究竟是不是 Chatbot/Agent的终极答案。

飞书文档 - 图片

▲Humane AI Pin 图源:Humane

进入触屏时代,交互的门槛显著降低,以至于幼儿也能轻松地掌握。按照 AI 开发者们经常采用的比喻,大模型们的「智力」也恰如儿童。那么让 AI 通过触屏界面学习人类行为,听上去上还是很有希望的。

毕竟,你的伴侣不一定需要一首 AI 写的诗,却可能需要你按烂屏幕去抢一张周杰伦的演唱会门票。

前几天 Manus 刷屏,再次佐证了我们曾做出的一个预测:大模型将成为智能手机新的操作系统,自然用户界面 (Natural user interface, NUI) 将逐步替代现有的 GUI。

至少在目前看来,历经半个世纪发展的 GUI 仍会是人机交互的绝对主流。不过,大模型与 UI 结合,对人机交互进行一次前所未有的重新定义,甚至成为新的操作系统——这样的未来,的确越来越清晰了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌
❌