Normal view

There are new articles available, click to refresh the page.
Before yesterdayMain stream

lululemon 这件运动 T恤,为何连 F1 冠军也爱穿

By: 艾 梵
3 April 2025 at 12:00

弹射起步,高速过弯,极限缠斗,绝杀冲线…

F1 赛车——集尖端科技、极致速度与人类潜能于一体的顶级竞技。

在比赛中,车手需承受高达 5G 的过载力(相当于自身体重 5 倍的重力加速度,与战斗机飞行员相当),心率飙升至 190 以上,并经历高温,脱水和肌肉力量的考验和洗礼。

赛场之外,传奇背后,是每年超 2000 小时的高强度专业训练,将人体潜能推向极致。对运动员而言,一件舒适的运动 T 恤必不可少。

最近,lululemon 携手 F1 七冠王刘易斯·汉密尔顿(Lewis Hamilton)演绎全新 Metal Vent Tech 系列,邀请人们发现运动中的乐趣,活出分秒必争的生动。

「一衣多穿」的 Metal Vent Tech 系列一直是 lululemon 男士系列中的畅销产品,它既适用于 HIIT 综合训练、 力量训练,举重等高强度运动,也能应对动感单车、划船机、自重与爆发力训练等有氧训练。当然,也非常适合日常各类运动。

全新 Metal Vent Tech 系列在版型上,肩部和袖孔部位采用更加宽松的剪裁,抬高肩缝,为胸部提供更多空间,打造更加灵活的穿着感受。运动背心款抬高了袖口位置,加大遮覆面积,剪裁贴合不同男士身形,开练更自在,更柔韧有余。

品牌还推出了全新 Relaxed-fit 版型,提供相同运动表现支持的同时,版型更为宽松,满足不同个人偏好,让训练更专注。

▲lululemon 品牌大使汉密尔顿身着 Metal Vent Tech 系列和 Pace Breaker 系列

一件运动 T 恤里,藏了怎样的黑科技

购买一款手机,消费者往往会注重性能、参数、材质、手感、设计美学等诸多细节。

lululemon 也一直将 Metal Vent Tech 当作科技产品来研发,针对版型、缝线工艺和面料技术不断进行产品升级。

今天玩物志就来评测看看,这件经过多次迭代的 Metal Vent Tech 能否成为都市男性运动训练的安全感:

延续品牌一贯风格理念,这件运动 T 恤采用低饱和度配色和简约版型设计,能适配多种训练场景。

反光标识隐藏在下摆侧面,既是一个低调的 logo 设计,又能有效提升夜间运动安全性。

后摆略长于前摆,能避免在运动时弯腰或举手露出腰部,内侧藏着小小的英文彩蛋。

上手第一感觉,衣服轻盈且手感柔软,实测重量仅 132.3 克(M 码),能更好地减少衣物在运动中带来的注意力分散,让训练更专注。

采用特殊透气面料和科学孔洞设计,一体式的网面结构,能快速排出汗水并促进空气流通,保持运动时的干爽透气。

而我最欣赏的,则是 Metal Vent Tech 在缝线上的思考。

市面上不少运动 T 恤均采用多片式的缝合工艺,缝线越多,意味着对身体的摩擦系数越大。

Metal Vent Tech 运动 T 恤运用创新的「无侧缝剪裁」设计,直接消除侧缝摩擦源,避免了在高强度运动时传统缝线对腰部的摩擦。同时,这种设计能保持衣身的一体成型,特别适合需要反复动作的运动(如举重、划船机等)以及长时间训练。

除此之外,衣服也将必要的接缝(如肩线、袖口)减到最少,进一步避免在手臂摆动或躯干扭动时腋下和背部的摩擦,保护敏感皮肤,增加运动自由度。

放大 20 倍观察,能看到衣物表面闪烁的银光,这并非单纯的装饰,而是隐藏的「黑科技」。

针对运动时无法掩盖的汗味和异味尴尬,Metal Vent Tech 采用由 X-STATIC® 提供技术支持的 Silverescent™ 专利面料,将 99.9% 抗菌银线编入面料当中,有效抑制异味和细菌滋生,且更耐磨损、耐洗涤。

除了刚刚展示的薰衣草紫色,我穿上的这件橡木棕的配色,也非常百搭。

穿上 Metal Vent Tech 后,你能明显感觉它与普通训练 T 恤有很大不同。体感轻爽,不会对皮肤产生摩擦和压迫,几乎感觉不到衣服的存在。可以说,它是我穿过最舒适的运动 T 恤之一。

另一个显著的优点,则是版型。与旧款相比,全新的 Metal Vent Tech 提高了肩部缝线,让胸部线条在视觉上显得更加饱满,肩部更挺括。

无论在袖子长度、肩线、背部与腰部的剪裁设计,都能让人感觉衣服既宽松又贴合身体。

我的体脂率偏高,如果衣服版型不够优秀,很容易暴露缺点。但 Metal Vent Tech 不紧绷却显身材,藏住缺点,突出优点,很好地展示了身体的线条。

为了测试 Metal Vent Tech 的运动自由度和版型,我穿着它进行了各种力量训练和 HIIT 训练。

像蝴蝶机夹胸等上肢器械训练以及举重等力量训练,需要频繁大幅度地活动手臂,此类运动对训练服饰的袖子剪裁,还有衣服版型,舒适度等都有较大考验。

尽管静态时 Metal Vent Tech 呈现出合身的剪裁,但动态训练时却并没有不适的包裹感,宽容度足够。

新版本的袖口设计更为宽松,抬起手臂时也有富余空间,不会感到紧绷。

HIIT 摔球训练属于高强度有氧,容易大量出汗,衣服会频繁摩擦身体,而 Metal Vent Tech 的表现也令人惊喜。

不仅在动态运动中仍能保持透气性和合身剪裁,也能让身体获得充足的自由度和舒适感。衣服不会粘在身上,皮肤一直保持干爽。

一件运动 T 恤的「性能」评测

如果说一款卓越的手机应该配备强劲的处理器、流畅的操作系统、优良的材质和惊艳的外观设计,那么一件舒适的运动装备的自我修养应是:材质亲肤舒适、显身材、透气性佳且不易变形。

既然一款是「科技产品」,我们还希望进一步测试这件衣服的「性能」:

首先是暴力拉扯,是否耐穿、是否易形变是考验一件运动 T 恤的重要标准。

邀请了两位平时一起训练的朋友,让她们帮忙做个暴力拉扯测试,模拟衣服进行多次晾晒后的形变效果。

将 Metal Vent Tech 往两侧方向暴力拉扯 10 秒钟,再将其静置 1 小时左右,让 T 恤弹性纤维的形变趋于稳定,再进行前后尺寸数据对比,减少测量误差。

经过测量,拉扯前,M 码的 Metal Vent Tech 衣领到的前摆长度为 68cm,拉扯后,它的长度依然是 68cm,可见抗形变能力相当出色。

接下来是透气性测试。我们采用「热蒸汽传递法」,通过观察玻璃杯的起雾时间,来对比 Metal Vent Tech 和普通棉质 T 恤的湿气排出速度以及透气性能。

▲ 起雾时间越短,说明衣服透气性越好

可以看到,水蒸汽进入普通的棉质 T 恤后,需要较长时间才出现起雾现象,水蒸气排出速度较慢。长时间静置后,玻璃杯依然呈现「半透明」状态,说明湿气排出不充分,透气性不足,一部分湿气仍在衣服内循环。

对比之下,Metal Vent Tech 运动 T 恤起雾时间更短,10 多秒就让杯壁呈现「浑浊」状态,湿气排出及时且彻底,可见其透气性能比棉质 T 恤有更优秀的表现。

当然,我们还测试了衣服的防汗防臭效果。今天,我特地加大了运动量,平时 1 小时的运动时长,今天增加到 1.5 小时。

在进行不同的力量训练和有氧训练后,测试衣服的防汗防臭效果。

广州最近的天气将近 30 度,即使在空调房训练,也难免大量出汗。Metal Vent Tech 运动 T 恤不仅能一直保持干爽,不会粘在身体上,而且也不容易在腋下,背部等容易出汗的部位透出汗渍。

它的防汗防臭效果也相当不错,不仅自己闻不到身上有任何汗味,在场的健身伙伴也认证过没有异味。

既是运动生活方式品牌,也是科技公司

事实上,lululemon 从未将自己定义成运动服饰品牌,而是一家运动生活方式品牌。而在我们看来,它其实是一家不折不扣的科技公司。

注重科技研发,不断升级产品舒适度、功能性和版型的背后,是品牌强调「Made to feel 感受为先」理念的体现。

为了全方位覆盖不同细分领域的训练场景,lululemon 推出了涵盖瑜伽、跑步、训练、网球、高尔夫以及日常出行等多系列产品,凭借丰富的产品线精准满足不同运动爱好者的个性化需求。

lululemon 的技术创新也始终贯穿全品类,旗下拥有多种专利面料。比如品牌最具标志性的 Align™ 瑜伽裤,搭载专利 Nulu™ 面料,具有极佳弹力和延展性,以「裸感」出圈,同时还能修饰腿型,堪称运动服饰中的经典之作。

还有 2024 年推出的 ShowZero™ 男士休闲衫,采用创新型面料结构,与皮肤接触的内侧具有透湿性能,外侧则不易让汗水显痕,有效解决男士日常穿着中因出汗而导致的尴尬问题。

为此,lululemon 成立研发实验室并组建科学家团队,专门研究人们在运动中有什么感受,以此改良面料的软硬、透气度,以及衣服的剪裁、缝线,让产品更舒适,更好穿。

在产品被用户穿上之前,其材质、缝线都已经被无数的感受与体验所验证。

做到了技术为先,所以才能「感受为先」。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


早报|小米辟谣「雷军致用户和公众的一封信」/6 月发售,任天堂 Switch 2 发布/蔚来乐道总裁艾铁成离任

3 April 2025 at 08:55
cover

🎮

2500 元起,任天堂 Switch 2 发布

📃

北京正式出台《自动驾驶汽车条例》

🙅

小米辟谣《雷军致用户和公众的一封信》

😯

鸿蒙智行回应「享界追尾」:无事故发生

👜

乐道汽车总裁艾铁成离任

⛰

阿里通义「端到端多模态」大模型登顶全球趋势榜

📣

李想呼吁行业规范自动驾驶中文名标准

🚗

理想汽车首发「车载自主决策推理模型」

🤝

美国初创和 90 后「大牛」与智元机器人达成合作

🏭

奇瑞旗下多品牌重新调整

💭

世纪华通「数龙杯」开启作品征集

💡

微软 CEO:Scaling Law 正给 AI 带来巨大转变

👓

Meta 计划今年推出全新 AR 眼镜

📸

全新 OPPO Find X8 系列公布更多影像内容

📱

高通推出第四代骁龙 8s 移动平台

⌚

第四范式旗下品牌推出 AI 手表

🍕

必胜客「抽象双蛇披萨」引发热议

🏰

《猫和老鼠》将拍新电影

重磅

2500 元起,任天堂 Switch 2 发布

在昨晚的直面会上,任天堂带来了 Switch 2 游戏机的更多细节信息,并公布了发售日期: 6 月 5 日。先来看重点,售价方面如下:

  • 日本国内版 49,980 日元,折合人民币约 2,431.87 元
  • 多语言版本 69,980 日元,折合人民币约 3,405.01 元

值得一提的是,「日本国内版」Switch 2 只提供日文语言,其他国家和地区的玩家需要购买「多语言版本」,这个版本也支持日语。

具体配置方面,Switch 2 的亮点细节如下:

  • 全新 Joy-Con 2 手柄:采用更方便安装拆卸的磁吸式设计,配备霍尔摇杆设计,可以有效解决漂移问题,并且还支持「鼠标」模式;同时 Switch 2 依然能使用 Switch 的一代手柄;
  • 此前备受关注的「C 键」为 GameChat 功能专属按键:玩游戏时可以和朋友们连麦,并共享实时游戏画面;
  • 支持「游戏分享」的近场联机,可以和初代 Switch 一起开黑玩游戏;
  • Switch 2 全新升级的处理器,带来了更强的画面表现力:掌机模式下,Switch 2 支持最高 120fps 1080P 的画质,还支持 HDR、VRR 等现代游戏机功能;此外,Switch 2 内置 256GB 存储空间;
  • 任天堂还推出了全新的外接摄像头配件和全新 Switch 2 Pro 控制器。

游戏方面:

  • Switch 2 将支持三种游戏类型:分别是 Switch 2 的独占游戏、兼容 Switch 的游戏,以及 Switch 2 上得到增强的 Switch 游戏;
  • 目前公布的第一方游戏阵容:《马力欧卡丁车 世界》《咚奇刚:Bananza》《塞尔达无双 封印战记》《星之卡比 AirRiders》等等;
  • 支持多款第三方游戏:《赛博朋克 2077》《艾尔登法环》《双影奇境》《最终幻想 7 重制版》等等,值得一提的是还有一款 From Software 开发、宫崎英高作为游戏导演的独占新作《The DuskBloods》,本作更多详情会在 4 月 4 日公开;
  • 需要注意的是,在超过一万个 Switch 游戏中,有一百多个 Switch 游戏并不兼容 Switch 2,其中就包括《健身环大冒险》《Labo》等话题游戏;
  • 此外,Switch 2 兼容 Switch 游戏的方式,跟以前任天堂的主机不一样:以前是新硬件里包含了旧硬件,所以可以直接兼容。但 Switch 2 不包含 Switch 的硬件,所以是采用类似同声传译的方式来进行向下兼容,实时读取 Switch 软件的数据并且转换成 Switch 2 能运行的状态。
大公司

北京正式出台《自动驾驶汽车条例》

据北京日报报道,4 月 1 日,《北京市自动驾驶汽车条例》正式施行,支持自动驾驶汽车用于个人乘用车、城市公共汽电车、出租车、城市运行保障等出行服务,符合条件的自动驾驶车辆可开展道路应用试点。

《条例》中所指的自动驾驶汽车,是指可以由自动驾驶系统操作在道路上安全行驶的汽车,包括按照国家标准具备有条件自动驾驶、高度自动驾驶、完全自动驾驶功能的汽车。

值得关注的是,《条例》中明确了由北京市人民政府统筹确定和调整「自动驾驶汽车可以通行」的区域、道路,未经同意擅自利用自动驾驶汽车开展道路应用试点活动的,由交通部门责令停止违法活动,可以并处三万元以上十万元以下罚款。相关企业应当按照规定向北京市建设的自动驾驶汽车服务管理平台上传车辆运行数据。

小米辟谣《雷军致用户和公众的一封信》

而在昨日,网上突然传出一份以雷军之名的《致所有关心小米 SU7 事故的用户和公众的一封信》。信中提到了事故的善后工作包括承诺探寻真相、反思与行动、透明化沟通,以及用十年坚守兑现安全承诺等。其中提到:

  • 如果调查车辆存在问题,将立即停止相关车辆销售并无条件召回已经销售车辆;
  • 雷军将个人捐资 1 亿元成立「新能源汽车生命守护资金」;
  • 联合宁德时代启动「极端碰撞断电技术」联合攻关。

随后很快有业内人士称这个截图为假。并据证券时报方面联系小米,小米方面回应上述信件为假消息。

此外,小米 SU7 标准版车型的电池供应商宁德时代和比亚迪弗迪,均回应了事故车辆电池信息。宁德时代回应投资者表示「事故车电池并非其生产」;比亚迪方面则表示「不是业务部门是查不到此类信息的」。

公开信息显示,事故车车型为小米 SU7 标准版,其电池供应商有两家:宁德时代与比亚迪弗迪电池。均为 73.6kWh 的磷酸铁锂电池,此前小米官方并未公布事故车辆所搭载的电池品牌。

2025 年 3 月 29 日晚 10 时 44 分,一辆小米 SU7 标准版在安徽德上高速池祁段,猛烈撞击隔离带水泥桩,随后车辆起火,夺走了车内三名女孩的生命。

据小米官方 4 月 1 日回应称,公司尚未接触到事故车辆,因此对于「车门落锁」及「起火」的具体原因,暂时无法进行进一步的深入分析,但其确认事故车起火并非部分网传的「自燃」。

4 月 1 日晚,小米创始人雷军表示,对于该起事故心情十分沉重,并认为「自己不应该再等了,必须站出来」,其代表小米承诺:无论发生什么,小米都不会回避,我们将持续配合警方调查,跟进事情处理的进展,并尽最大努力回应家属和社会关心的问题。

鸿蒙智行回应「享界追尾」:无事故发生

近期,网传「享界 S9 于广深沿江高速发生追尾事故」,传闻中提及到有人员伤亡、车辆损毁严重。

4 月 2 日,鸿蒙智行发言人发文辟谣了上述信息,并表示已联系警方确认,确认了无上述事故发生。

对于此谣言,鸿蒙智行方面提醒,任何个人、组织都不应该拿生命开玩笑,网络并非法外之地。其还表示,针对恶意造谣、传谣的行为,公司已在第一时间报警,并将配合警方追究相应的法律责任。

乐道汽车总裁艾铁成离任

4 月 2 日,乐道汽车总裁艾铁成发布公告并宣布离职。文中艾铁成表示:

在过去的一段时间,乐道并未让旗下竞争力极强的 L60 车型,达到与它的产品力相匹配的销量,在营销层面,有很多的欠缺不足。我作为团队负责人,暴露了很多短板,辜负了大家的期待,深感歉疚,也必须为此承担责任。

此前,艾铁成在接受虎嗅采访时曾定下目标,称乐道汽车在今年 3 月完成交付破两万的目标,并声称达不到就「下课(离职)」。而据蔚来汽车 4 月 1 日的数据显示,乐道品牌今年 3 月仅交付新车 4,820 台,而 2025 年第一季度交付新车 14,781 台。

同日,原蔚来汽车能源业务负责人沈斐发文宣布,担任乐道汽车总裁。据公开信息显示,沈斐于 2015 年加入蔚来,为早期初创阶段的核心管理成员之一,也是蔚来管理体系最资深的高级副总裁。

接近未来管理层的人士通过界面新闻表示,本次调整意味着蔚来将向乐道投资更强的管理资源,以推动乐道提振销量,同时加强公司各业务单元的协调能力以及资源共享,尽快实现公司四季度盈利的目标。

阿里通义「端到端多模态」大模型登顶全球趋势榜

昨天下午,阿里通义千问宣布,旗下端到端多模态大模型 Qwen2.5-Omni-7B 登顶 Hugging Face 全球趋势榜。据榜单显示,Qwen2.5-Omni-7B 超越 DeepSeel-V3 最新版本、自家 Qwen2.5-VL-32B 等一众火热大模型。

Qwen2.5-Omni-7B 于 3 月 27 日发布,仅 7B 参数大小,支持文本 / 图像 / 音频 / 视频的跨模态理解;能够实时音视频交互,并且拥有自然流畅的语音生成。

性能表现上,Qwen2.5-Omni-7B 在各种模态下的表现都优于类似大小的单模态模型以及封闭源模型,例如 Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro;在多模态任务 OmniBench,Qwen2.5-Omni 达到了 SOTA 的表现。

目前,Qwen2.5-Omni 已在 Hugging Face、ModelScope、DashScope 和 GitHub上开源开放,用户可以通过 Demo 体验互动功能,或是通过 Qwen Chat 直接发起语音或视频聊天。

李想呼吁行业规范自动驾驶中文名标准

昨日,网传理想汽车 CEO 李想在朋友圈发文,呼吁行业应规范自动驾驶中文名标准。

李想表示,「L2、L3 什么的用户听不到,都是专业话术」,其建议统一自动驾驶等级名称,如「L2 = 辅助驾驶」「L3 = 自动辅助驾驶」「L4 = 自动驾驶」以及「L5 = 无人驾驶」,并强调「一个多余的中文字也不要有」。

李想认为,上述统一自动驾驶等级后,能避免夸张宣传造成用户使用上的误解。同时李想也呼吁,厂商在推广上克制,在技术上投入,对用户、行业、企业都长期有利。

目前,我国国标将驾驶自动化系统划为 6 个等级,分别为 0 级(应急辅助)、1 级(部分驾驶辅助)、2 级(组合驾驶辅助)、3 级(有条件自动驾驶)、4 级(高度自动驾驶)、5 级(完全自动驾驶)。

理想汽车首发「车载自主决策推理模型」

4 月 2 日,理想汽车 OTA 7.2 版本车机系统正式开启推送。其中最值得关注的,便是理想同学拥有了自主决策思考方式。

具体来看,本次 OTA 中,理想基于海量车载场景数据,以及通用推理模型深度思考训练数据,量身打造了自主决策推理模型,在保证模型效果的同时还大幅提升响应速度。借助推理模型,用户可以让理想同学解读影视文学作品,撰写生动故事,或者给出更详实的生活建议等等。

目前车主用户在理想同学的设置中,只需打开「深度思考」开关,理想同学能够根据问题内容自主决策是否深度思考,面对车控指令等简单问题时,能够保障响应速度。

此外,理想汽车 7.2 版本还包含了以下更新:

  • 智能电动方面,车辆中心能耗显示优化,新增了空调温度过高或过低和驻车状态开启哨兵等场景的能耗提示,优化消耗里程分布显示;
  • 新增全能儿童锁功能,整合儿童锁和专属童锁两种功能,主动规避儿童误触风险;
  • 新增本地音乐歌词显示功能,优化本地音乐播放页效果,支持显示全屏歌词、切换歌词和播放列表,并增加了歌词匹配功能;
  • 优化了跨屏点播功能,优化了视频应用的语音交互体验;
  • 配件管理新增了二排遮阳帘管理功能,适配理想汽车官方商城在售的二排侧窗遮阳帘配件。

美国初创和 90 后「大牛」与智元机器人达成合作

4 月 2 日,稚晖君旗下创企智元机器人宣布与国际顶尖具身智能公司 Physical Intelligence(Pi) 携手,一同还公布了一个重磅消息:90 后机器人大神罗剑岚博士将全面领导智元具身智能研究中心。

先看智元机器人与 Physical Intelligence 的合作:双方将围绕动态环境下的长周期复杂任务,在具身智能领域展开深度技术合作。智元方面表示,其与 Pi 的合作目前已经初具成效,可以实现一个通用模型根据不同的指令输入执行多个任务,也可以适配多种末端执行器。

据了解,Physical Intelligence 作为一家美国明星初创,于去年 3 月亮相,其团队中有大量机器人和 AI 领域的人才。信息显示,该公司在去年 11 月完成了 4 亿美元的 A 轮融资,融资后估值为 20 亿美元,主要投资者包括亚马逊创始人贝索斯、OpenAI、Thrive Capital 等知名公司或投资机构。

而关于罗剑岚博士:

  • 其出生于 1993 年,已在具身智能领域深耕 10 年,担任过 Google X、Google DeepMind 研究科学家;
  • 罗剑岚还曾与机器人学习领域的泰斗Stefan Schaal教授进行了一系列合作;
  • 在伯克利人工智能实验室(BAIR)担任博士后期间,他是 UC 伯克利人气副教授 Sergey Levine 团队的核心成员;
  • 此外,罗剑岚领导开发的世界上首个超人类的机器人真机强化学习系统 SERL/HIL-SERL,首次实现将任务成功率提升到 100%, 在全球范围内被广泛应用。

据智元官方介绍,罗剑岚将出任首席科学家并牵头组建「智元具身智能研究中心」,主导前沿算法研发与工程化落地。

奇瑞旗下多品牌重新调整

据 36 氪消息,奇瑞将再次对新能源产品线发起大型调整,原本属于奇瑞集团 iCAR 品牌旗下的产品线 QQ冰淇淋、大蚂蚁、小蚂蚁,已被剥离,整合至奇瑞品牌下。同时,奇瑞品牌还将发布另一款新能源产品「多米」。

目前,奇瑞集团共有奇瑞、捷途、星途、iCAR、智界 5 个品牌。其中奇瑞品牌历史最为悠久主打大众市场;而 iCAR 诞生于 2023 年上海车展前夕,目标为年轻一代的消费者。报道指出,iCAR 是奇瑞集团发布的首个独立新能源电动品牌,也被公司内部视为在新能源战略上迈出的重要一步。

而据知情人士透露,新品牌「多米」将由原先的凯翼拾月 Mate 换标改款而来,因而「多米」市场定位、售价也会与之接近。据悉,凯翼拾月 Mate 是一款五门五座的纯电车型,定位城市代步,定价为 5.98 万元起。

2023 年,奇瑞集团董事尹同跃曾对外界表示「奇瑞新能源起了大早,赶了晚集」,同时为奇瑞新能源定下目标:2024 年中要做到行业第三,年底做到第二。但据 2024 年底数据显示,奇瑞新能源车销量不到 60 万辆,排在第四位。

报道结合上述信息指出,奇瑞打算继续以车海战术攻入新能源汽车市场,而「多米」就是车海战术中的一张牌。除此之外,奇瑞还打算年内上市,因此其正想方设法在有限的时间内,提升新能源车的销量占比。

世纪华通「数龙杯」开启作品征集

4 月 2 日,由 A 股游戏行业龙头世纪华通发起,中国音数协游戏工委、浦东新区区委宣传部(文体旅游局)、上海市网络游戏行业协会指导,联合澎湃新闻等多方力量共同打造的「数龙杯」全球 AI 游戏及应用创新大赛(Digiloong GAIC)正式启动,即日起至 6 月 18 日,全球开发者可登录提交作品。

据悉,本届大赛聚焦 AI 技术在游戏开发与行业应用的双重突破,致力于通过人工智能技术深度赋能游戏研发全流程,拓展其在多元场景中的创新应用,加速前沿科技在互动娱乐及实体产业的规模化落地。大赛共分为 5 个环节:

  • 4 月 2 日至 6 月 18 日为选手报名及作品征集期;
  • 6 月 19 日至 7 月 1 日将对作品进行初选,符合要求的优秀作品即进入复选阶段;
  • 7 月 2 日至 7 月中旬将由专家评审组对复选阶段的作品进行打分,并公布入围名单;
  • 7 月底将进行线下决赛,选手现场回答专家评审组提问;
  • 8 月 1 日,在 2025ChinaJoy AIGC 大会上将会举办高规格的专家、选手分享及颁奖盛典。

赛事设置总额为 60 万元的奖金池,涵盖 6 大类别 15 个奖项,覆盖游戏创新、技术应用、内容设计、音乐呈现、视觉表达等多个维度。

比赛官网链接在这啦!👉https://aicht.sjhuatong.com/

💡 微软 CEO:Scaling Law 正给 AI 带来巨大转变

3 月 27 日,微软 CEO Satya Nadella 在日本微软 AI 巡回活动中发表演讲。

开篇,Satya Nadella 便聊到时下热门的 Scaling Law。他表示,伴随着深度学习带来的革命性突破,团队开始观察到一系列基础性的预训练 Scaling Law,正促使 AI 能力大约每六个月实现一次翻倍。Satya Nadella 还透露,计算领域所带来的 Scaling Law 也一同并入了发展的曲线中,事实上 AI 能力已缩短至「每三个月一次翻倍」。

指出,AI 快速发展带来了更低的使用价格,而真正问题在于,人类需要如何高效利用这些强大的 AI 能力。Satya Nadella 总结了三大根本性突破,来阐述了如何更好地发挥 AI 的能力,并重塑整个生活乃至社会领域:

  • 第一大突破在于用户界面。随着多模态模型的能力日趋强大,交互方式也变得越来越自然流畅,用户将可以直接与 AI 进行对话;AI 将能融入人类的周遭世界,变得更加无感,同时能够渗透到每一个部分,无论虚拟还是现实;
  • 第二点,人类还将获得在规划和推理方面强大的赋能。Satya Nadella 解释,AI 不再仅仅局限于处理输入和输出信息,用户可以让它进行长远规划、前瞻性思考以及复杂的逻辑推理;
  • 基于第二点,用户甚至可以赋予 AI 更为复杂的长期记忆能力和更丰富的上下文信息,从而确保它的回应和行动都有可靠的事实依据,即让 AI 能够基于特定的背景知识以及过往的交互历史来进行思考和运作。

因此 Satya Nadella 认为,上述三项核心能力 ——「自然的交互界面」「强大的规划与推理」「基于背景和记忆的事实依据」,将对整个技术栈产生极为深远的影响。此外,Satya Nadella 也表示,AI 应该予力全球每一个人、每一组织,并在所有人手上成就不凡。

新产品

Meta 计划今年推出全新 AR 眼镜

据彭博社记者 Mark Gurman 消息称,Meta 计划最早在今年年底向市场推出第一副带屏幕的眼镜,售价将超过 1000 美元,最高在 1300-1400 美元左右。作为对比,不带屏幕的智能眼镜 Ray-Ban Meta 售价 399 美元,折合人民币 3000 元左右。

去年,Meta 曾展示了「Orion」AR 眼镜的原型机;但本次爆料的机型代号为「Hypernova」,并非前者。具体配置方面:

  • 第一代的 Hypernova 只在右镜片的右下象限有屏幕,这意味着内容只会显示在用户的右眼,避免了面对他人时「翻白眼」看眼镜屏幕的问题;
  • 系统方面,Hypernova 预计将采用高度定制 Android 系统,并且 Meta 也暂时不打算为该设备提供应用商店;系统界面将采用圆形应用图标,水平排布系统主屏幕,类似 iPhone 和 Mac 的底部「dock」栏,接近当下 Meta Quest 的界面。此外,Hypernova 将十分依赖手机配合使用的 App。
  • Meta 还将升级 Hypernova 的摄像头配置。目前的 Ray-Ban Meta 摄像头为 1200 万像素,Meta 将其视为「iPhone 11」级别,而 Hypernova 或能配备一个等同于「iPhone 13」级别的摄像头。

对于这副眼镜的交互方式,Meta 准备了两种方案:

  • 眼镜镜框侧面的电容式触摸,用户可以滑动、点击眼镜腿来滚动和选取应用或照片;
  • 「神经腕带」,使用手势来控制眼镜,可以转手、捏合来滚动和选取项目,代号为「Ceres」的配件将在包装盒内随眼镜一起提供,这个方案也作为 Orion 的交互在去年进行过演示。

除了 Hypernova,Meta 还在打造「Supernova 2」的智能眼镜,这款产品将基于 Oakley 运动眼镜打造,不带任何显示功能,基本等同于 Ray-Ban Meta 的运动款,对自行车骑行等运动进行了优化。

报道指出,虽然 Hypernova 一代还没问世,Meta 已经在着手开发 Hypernova 2,将包含双目显示系统,预计在 2027 年推出。

至于 Orion 原型机的商用计划,据最新进展显示,产品名可能定为「Artemis」,目前 Meta 正在利用 Oriion 进行软件测试和应用开发, 最终将提供给开发人员,Artemis 的推出可能不会早于 2027 年。

但知情人士表示,上面的消息并不意味着 Meta 最终都会推出这些产品,因为 Meta 经常在开发过程中更改和取消产品。就目前而言,Meta 的混合现实部门 Reality Labs 内部也对产品计划有不少顾虑,有可能将 Artemis 和 Hypernova 合二为一。

全新 OPPO Find X8 系列公布更多影像内容

昨日晚,OPPO 举办影像科技之夜,并一同揭晓了更多全新 Find X8 系列的影像能力,具体如下:

  • 全新 OPPO Find X8 系列将首发搭载 LUMO 凝光影像系统,拥有超光感计算光学系统、超感知数字成像引擎、全链路原彩 ProXDR。
  • 全新 Find X8 系列搭载的超光感计算光学系统,将包含 15-135mm 黄金光学品质、行业首创超晶态蓝玻璃、超高速对焦系统,以及 Find X8 Ultra 所独立搭载的多模态色彩采集系统(支持分区色温感知);
  • 超感知数字成像引擎:拥有计算光学虚化引擎,能够精细化主题空间计算、渐进式空间重构渲染,并拥有真实色彩还原引擎、无影抓拍;
  • 全链路原彩 ProXDR:全球首个三通道光子矩阵计算,并支持全球首个全链路 ProXDR(照片、实况、视频),以及搭载全球首个原彩 ProXDR 实况。此外,OPPO 还联合小红书推出平台级原彩 ProXDR 观看、分享。

全新 OPPO Find X8 系列将在 4 月 10 日发布,届时将发布 OPPO Find X8s / X8s+ / X8 Ultra 等多款新品。

高通推出第四代骁龙 8s 移动平台

4 月 2 日,高通技术公司今日宣布推出第四代骁龙 8s 移动平台,该平台专为追求出色娱乐体验和创作体验的用户打造,旨在将旗舰性能和先进特性带给更多消费者,并为手游玩家和创作者提供强劲支持。

官方数据显示,第四代骁龙 8s CPU 性能提升 31%,GPU 更是提升了 49%(同时能效提升 39%),AI 性能也提升了 44%;AI 方面支持多模态生成式 AI,并拥有高通传感器中枢;此外,新平台还将拥有 AI 三 ISP、无限语义分割、蓝牙 6.0 等多项功能支持。

据悉,REDMI、iQOO、小米、OPPO 和星纪魅族等多家领先 OEM 厂商和品牌将率先采用第四代骁龙 8s,首批搭载该平台的商用终端预计将在未来几个月内面市。

第四范式旗下品牌推出 AI 手表

昨日,Phancy 携手兰博基尼、李小龙推出的两款 AI 手表正式亮相。

据悉,两款手表通过搭载 Phancy「AI 机芯」,即为用户提供 AI 智能体模组,以及 AI Agent 功能、操作系统等软硬件解决方案,让手表在轻奢、时尚的外表下,注入了丰富的 AI 能力。

具体来看,兰博基尼、李小龙 AI 手表中的智能化能力均来源于 Phancy 所提供的 AI 智能体模组、 AI Agent 功能以及操作系统等软硬件解决方案。通过将 Phancy 智能体模组嵌入到手表中,保障大模型、Agent、以及各类 AI 功能在手表上稳定运行。值得一提的是,Phancy AI 智能体模组可本地运行端侧大模型,无需调用云端。

Phancy 介绍,用户可通过语音、按键等多种方式唤醒手表中的 AI 助手,体验天气、股票、资讯等信息查询、翻译、同声传译、会议速记及纪要整理、智能导航、运动助手等丰富的 AI 功能。未来,AI Agent 能力还会持续扩充。

新消费

夸克上线「一键变方」AI 生图功能

近日,夸克 App 上线「一键变方」AI 生图功能。

官方介绍,用户在夸克中的「AI 生图」专区,只需要倒入想要风格转换的图片,选择「一键变方」,即可生成类似《我的世界》风格的图片,无论人、宠物还是风景,均可实现风格转变。

三星推出「手表控制电视」功能

据 Android Headline 近日报道,三星在其 2025 年电视新品中,推出基于 Galaxy Watch 打造的「通用手势控制」功能,旨在用户无需遥控器即可通过手势操作电视。

具体来看,用户只需要佩戴 Galaxy Watch 手表,完成指定动作,便可实现对电视的隔空操作,如捏合手势精准选定屏幕元素,推拉手掌控制媒体播放。

此前,三星 Galaxy Watch 上已配备了部分手势快捷指令,支持翻转手腕拒绝接听、捏合清除消息。

必胜客「抽象双蛇披萨」引发热议

近日,必胜客推出 2025 年愚人节限定「双蛇姐妹双修披萨」,其所谓 「双蛇」指的是芝心「白蛇姐姐」披萨和开心「青蛇妹妹」披萨,价格方面是两款任选只要 29.9 元。

然而,不少消费者购买后吐槽青蛇白蛇披萨实物与宣传图片相差甚远,更是辣评「抽象到没边」,纷纷在网上晒图。据网上晒出的图片显示,「双蛇姐妹双修披萨」像两条晒干的弯曲面包一样,躺在纸托盘中,令人毫无食欲。

而这还不是必胜客第一次「整活」:去年万圣节推出的「哥布林」披萨,是一只油炸牛蛙瞪着塑料眼球,趴在一份满是香菜堆的披萨。此外,必胜客还推出过香菜皮蛋猪血披萨、榴莲臭豆腐披萨、花生汤圆披萨等。

据一家上架该产品的必胜客门店工作人员向媒体透露,这款「双蛇姐妹双修披萨」属于愚人节限定款,仅在部分门店推出,过段时间就下架。店员表示,留意到了网上对披萨造型的吐槽,其称,虽然公司统一培训,但因为食材问题,手工制作时没办法达到很完美的效果。

好看的

《疾速追杀 5》官宣拍摄

近日的 CinemaCon 2025 上,狮门影业宣布将拍摄《疾速追杀 5》,基努·李维斯回归继续饰演 John Wick,导演查德·斯塔尔斯基继续执导。

前代作品《疾速追杀 4》在今年 3 月 14 日内地上映。影片讲述约翰·威克为求安宁前往大阪大陆酒店求助老友。但高桌会新领导人文森特·德·格拉蒙特侯爵决心铲除他,侯爵不但通过胁迫昔日好友孤立威克,还通过高额赏金吸引赏金猎人追杀威克。为打破宿命,威克向格拉蒙特侯爵提出生死决斗,重获自由。

《疾速追杀》系列电影于 2013 年开启首部拍摄,并于 2014 年 10 月 24 日美国上映。

《猫和老鼠》将拍新电影

华纳兄弟在 CinemaCon 2025 上宣布,将拍一部《猫和老鼠》的新动画电影,影片计划院线上映。

据悉,此前《猫和老鼠》真人 CG 电影于 2021 年 2 月 26 日在美国和中国大陆同步上映。影片改编自经典动画《猫和老鼠》,讲述了在繁华的大都市纽约,少女凯拉刚刚入职豪华大酒店就碰上了叫人头疼的难题,老鼠杰瑞的突然出现令酒店最近承接的世纪婚礼岌岌可危,于是她雇佣猫咪汤姆来解决大麻烦。

《命中罪爱》定档 4 月上映

电影《命中罪爱》宣布定档 4 月 12 日,并发布定档海报。

2002 年,海边小城德宁发生一起连环杀人案。赌徒孙兴旺被杀,接连东湖市场副主任朱志红及其义弟周亮被杀,三起凶杀案的作案手法相同。种种嫌疑证据,指向朱志红与周亮的结拜大哥江四鸣身上。警方在对江四鸣收网抓捕之时,江四鸣却遭遇袭击追杀。危急中警方出手,擒住真凶。以为可以结案,岂料内幕才掀起一角……

影片由赵非执导,张静初、芦芳生、余皑磊领衔主演,高冬平、李晓川、董畅、富冠铭、张宁浩、孔雁、钱波主演。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


iOS 18 迄今最大更新推送, 实测苹果的「5.5G」有什么不同

By: 苏伟鸿
1 April 2025 at 18:13

4 月的第一天,苹果 iOS 18.4 正式版如期而至,几乎可以说,这就是 iOS 18 发布以来最大的一次版本更新。

其中最值得关注的,当然是全新的 5G-A 网络支持,以及正式支持简体中文的 Apple 智能。

话不多说,下面一起来看看 iOS 18.4 有什么不容错过的全新功能。

5G-A 有多快?

iOS 18.4 首先为国行 iPhone 带来了 5G-A 网络的支持。5G-A 又名「5.5 G」,也刚好差不多在一年前这个时间节点,国内运营商纷纷启动 5G-A 商用,不少 Android 手机都早已跟进,苹果这波更新只能说虽迟但到。

5G-A 好处都有啥?虽然还不是 6G,但 5G-A 相比较 5G,速率更高,延迟要更低,前者的理论速率是后者的十倍。并且 5G-A 基站在每平方公里都支持超过 100 万台终端连接,意味着在人流密集的商场、演唱会 5G-A 的通讯会更顺畅。

不过,国内目前还没有完成 5G-A 的全面覆盖,目前只应用于一些主要城市的部分地区。爱范儿所在的 TIT 园区,刚好就能接收到 5G-A 信号。

升级 iOS 18.4 后,iPhone 15 和 iPhone 16(除 16e)系列在地区支持的情况下会显示「5GA」,iPhone 13 和 iPhone 14 系列,以及 iPhone 16e 据悉仅支持中国联通、中国电信的 5G-A 信号,并且不会在状态栏显示。

经过实测,5G-A 在测试速度和实测中,确实要比 5G 要更快一点,不过信号不佳的地方,支不支持 5G-A 都没啥不同。

Apple 智能会说中文了,但说得不是特别好

需要注意的是,这里的「中文版」指的是海外机型能用上支持中文的苹果 AI,而不是 Apple 智能上线国行 iPhone,国内的小伙伴想用上 AI 还要再等等。

就目前而言,Apple 智能的重头戏在文字生成的「写作工具」上。这个功能没有特定的入口,能够选取任何文字进行调用,可对文字重新润色、做成表格或者提取摘要。

▲ 图源:哔哩哔哩@大耳朵TV

「写作工具」更强的能力在文字创作上,用户可以选择写好的文字进行校对,也能选中文字进行改写。苹果提供了三种润色的风格:「友好」「正式」「简洁」,以面对不同的场合。如果有自己的想法,还能输入具体的修改需求。

▲ 「祝你休息愉快」是哪里的表达…..图源:哔哩哔哩@李大可爱玩

要是一个字都不想写,Apple 智能还能联动 ChatGPT,直接让它根据需求生成长文。

ChatGPT 的助力不仅限于写作工具,打开 Siri 的 ChatGPT 扩展后,也能直接用普通话调用更聪明的聊天机器人回答问题。简单的口头问题不用说,还能让其总结网页、识别图片、解数学题……总之,ChatGPT 有的能力,都能通过 Siri 在 iPhone 上更方便地实现。

▲ 图源:哔哩哔哩@李大可爱玩

接入 ChatGPT 的 Siri 可以说终于有了「智能助手」的能力,但更强的情景感知、跨应用和应用内操作等深度的系统级能力,还需要等待苹果自研的 AI Siri,而上个月苹果已经宣布这个功能将至少推迟到明年。

AI 通知摘要和全新的「优先通知」都正式上线支持中文。目前来看,一些简单的通知准确度会更高,而像是微信这些多条的聊天信息,AI 理解起来会有一点问题,摘要结果会不太准确。而打开「优先通知」之后,AI 会将它认为更重要的信息置顶显示。

▲ 图源:哔哩哔哩@李大可爱玩

iOS 18.4 还为 iPhone 15 Pro、iPhone 16e 两台没有相机控制的机型带来了视觉智能入口,用户可以设置可以用操作按钮呼出视觉智能,也可以在控制中心添加一个方便的开关,可以用来翻译看到的外文,或者调用 ChatGPT 识别物体了。

▲ 图源:哔哩哔哩@大耳朵TV

并非所有的 Apple 智能功能都已经支持中文,两个「文生图」功能——Genmoji 表情生成和图乐园图片生成目前依旧只支持英文。

就目前而言,Apple 智能的使用体验还算中规中矩,对中文的支持还有点水土不服。

最近苹果高管频繁访华,或许也意味着苹果正在努力推进国行 Apple 智能的进度,相信官网上的「为 Apple 智能准备好」很快能变成「支持 Apple 智能」。

其他值得一提的功能更新

如果你用的是国行 iPhone,刚好所在地也不支持 5G-A,那么 iOS 18.4 还剩下什么亮点?

首先控制中心新增了一个名为「环境音乐」的板块,包含四种风格的纯音乐歌单:「安睡助眠」、「放松减压」、「提升效率」、「平衡身心」,点击就能播放,播放界面类似 Apple Music,但要更加简单。

「照片」App 有不少细节上的变化:

  • 图库新增了一个「不在相簿中」的筛选选项,可以筛选那些没有被放入任何相簿的图片
  • 相簿选项新增一个「封面照片」的选项,点击后每个相簿的卡片会变成大图封面的样式,还新增了「按修改日期排序」的选项
  • 「照片」的设置选项中,有一个显示最近查看和共享的切换开关,它将在实用程序列表中显示或隐藏最近查看和最近共享的相册
  • 「最近删除」重新加回了一键全部删除和全部恢复

可以说,都是一些小的更新,不太可能扭转这个新「照片」应用惨淡的口碑。

全新的邮件「分类收件箱」也正式支持中文,可以在右上角的选项卡中切换。

就目前的情况来看,中文邮件的分类并不算准确,不建议使用。

▲ 苹果自己的「Find My」成「推广」了

App Store 中暂停应用下载的逻辑有所变化:以前是终止了就要重下,现在暂停后可以恢复下载。

Safari 浏览器中,点击搜索框现在会出现最近的搜索历史,这个新功能可以在设置中选择关闭。

还有全新的 7 个 Emoji:眼袋、指纹、甜菜、枯树、竖琴、铲子、萨克岛旗,想必这个「眼袋」将成为打工人的新宠。

如果你手头有 Vision Pro 头显和 AirPods Max,那么 iOS 18.4 还将为你带来两个特别实用的更新。

首先是一个全新的「Apple Vision Pro」应用,能够用 iPhone 方便地查看头显目前的状态,包括设备的型号、系统版本和序列号,以及镜片参数等等信息,苹果也会在这个 App 中推广新的 Vision Pro 内容,像是沉浸式视频、应用和游戏,还有一些使用 Vision Pro 的技巧和功能介绍。

值得一提的是,今天一同推出的 visionOS 2.4 也为海外 Vision Pro 用户带去了第一批 Apple 智能功能支持,包括写作工具、图乐园、 Genmoji 表情生成和自然语言搜索等功能。

更新 iOS 18.4 之后, USB-C 的 AirPods Max 支持 Apple Music 的 24 位 48kHz 无损音频播放,不过需要使用耳机附带的 USB-C 连接线,以有线的形式才能聆听。

来到第四个版本,iOS 18 也可以说进入到了「成熟期」,接下来的大版本更新预计都只会是小修小补,当然,对于国内用户来说,还有国行 Apple 智能这个大菜还没上。

说是「成熟期」而不是「完全体」,主要还是因为 Apple 智能的「心脏」——AI 增强 Siri 的无限期跳票,导致 iOS 18 注定无法实现一年前 WWDC 上面描绘的美好愿景。

距离今年的 WWDC 还有 70 天左右的时间,希望苹果今年这个要用上全新风格的 iOS 19,别再让我们失望。

你还在 iOS 18.4 中发现了什么新功能?欢迎在评论区告诉爱范儿。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


华为Pura X,设计的精妙,上手才知道

By: 艾 梵
31 March 2025 at 17:30

不管是鹰击长空,还是苹果花开,是劳作的马,还是悠哉的天鹅,是枝繁叶茂的橡树,还是蜿蜒的溪流,云卷云舒,日升日落,形式永远追随功能,此即规则。

100 多年前,建筑师路易斯·沙利文写了一篇小短文《高层办公建筑艺术思考 The Tall Office Building Artistically Considered》,知道这篇短文的人不多,但其中这句「形式永远追随功能(form ever follows function)」滥觞于建筑领域,发扬在工业设计领域,成为业内所有人都知晓的一条设计金线。

智能手机设计,可能是这个时代里影响人数最多的品类,在此之中,屏幕,成为设计里最重要的因素,几乎可以这么说,智能手机取代功能手机这场消费电子历史上最浩浩荡荡的代际革命,亦是一场屏幕革命,关乎屏幕尺寸,面积,以及屏占比。

智能手机及其屏幕有如此变化,暗线便是那句「形式追随功能」,理解了这句百年箴言,和 20 年左右的智能手机发展史,也就能理解大半华为Pura X,一部「阔 很有型」的新形态折叠屏手机。

形式:折叠的形态,阔型的范式

华为Pura X 当然是一部很不一样的手机,以至于需要多一点的理解成本,甚至可以说,给它下定义需要更多的真实体验。

3 月 30 日上午正式开售之后,我们可以在小红书等社交媒体上看到大量的用户真实评价,有意思的是,除了「看着好奇,上手真香」,整体大家表达了对这个「胖墩儿」手机的喜爱之外,华为门店的首销氛围热烈,销售人员训练有素也成为了加分项。

回顾智能手机演变史,触控屏幕取代功能机实体键盘、干掉正面指纹识别模块,从 iPhone 5 开始流行的 16:9 的屏幕比例,也进化到了如今的 20:9 全面屏,这些都是显而易见的变化。

究竟哪种手机屏幕比例和尺寸是最好的?

在不同的产品身上,我们能找到不同的答案,有人偏好带 mini 后缀的机型,轻巧精致;有人也喜欢双折叠,分屏工作起来事半功倍;还有人喜欢小折叠的时尚美丽。

因而,华为Pura X 的 16:10 屏幕比例虽不常见,但并不意味着它没有合理性。

华为Pura X「阔折叠」的定位,超然于业界常规定义的小折叠(上下折叠)和双折叠(左右折叠),当然也迥异于华为自家的三折叠,如果把之前华为 Mate X 外折叠形态算上,这已经算作是华为在折叠屏领域探索的第 5 种形态了。

正如前面所说,不说手机品类里面有各种各样的分类,时尚轻薄的,影像旗舰定位的,游戏性能取向的,三防户外的,大电池强防护耐摔耐用的等等,不同的定位,对应着不同的需求,处理这种需求和供给的对应关系,又恰是华为最为擅长的领域,就像折叠屏手机,华为在售的就有 4 种之多。

16:10 比例屏幕的合理性就在于它可以以更小的屏幕尺寸,获得更大的显示面积,在这里,「阔」也可以是一种状态,它并非粗糙的大,而是取巧的广。

因而,华为Pura X 展开之后,屏幕尺寸虽为 6.3 英寸,听起来比不少大屏旗舰机要小一些,但实际上它的显示面积达到了 115cm² 左右,与 6.9 英寸的 iPhone 16 Pro Max 屏幕面积几乎一致。

华为Pura X 真正是一款既小又大的产品,实现这样的矛盾统一,折叠形态与 16:10 的「阔」型屏幕二者合一,才有这样的效果。

同时,它还将重量控制在了 193.7 克(素皮版),宽度(折叠形态)控制在了 74.3 毫米,恰好一握,适合久握。

聊完了它的「异」,其实我们也能从它身上看到不少来自于华为基因的「同」。

实际上,身处华为 Pura 家族的华为Pura X,自然会有这个家族的诸多特质,约在一年前,华为 P 系列升级为 Pura 系列,「源自纯粹,生而独特」便是这个系列的出生宣言。

就独特这一点而言,华为Pura X 当之无愧,在没有细究它设计和 CMF(颜色、材质和工艺)的时候,它第一眼给人的感觉当然是独特,恰如去年Pura 70 系列以「锐意向前」和背部独特的三角形影像模组设计宣示先锋定位一样。

华为 Pura 系列讲究纯粹感,去掉冗余元素,以点线面来构建几何对称的秩序美感,华为Pura X 外屏方正,影像模组以同心圆均匀排列,井然有序。三款标准版奉行极简主义,黑白灰是时尚领域的永恒色,不会过时,也永远正当时,是大道至简。

这是秩序感。

典藏版是华为发挥设计能力和艺术理解能力的极佳试验场,型格红和型格绿严格来说不是单色系设计,而是鲜明的碰撞色。

以艺术灵感而论,这是借用了现代主义画家蒙德里安的几何抽象派画作,两个版本各自以三种不同颜色的色块按照精准比例切割分布,风格跳跃,碰撞激烈,但皮革质地又能让色块彼此包容起来,不至于突兀和矛盾。

在赋予手机外观设计艺术性这件事上,华为有自己独特的理解,作为精密工业和先进科技的集合体,手机和具象的、复杂的、怀旧的艺术风格并不搭调,而现代的、意象的、简洁的艺术风格才是相配的。

就像此前华为 Pocket 2 艺术定制版和荷兰时装设计师 Iris van Herpen 合作,在平面上做出了立体的艺术效果那样,时尚、艺术和技术,以现代的方式结合,才是华为擅长的。

在平面上呈现立体感上,这次的华为Pura X 典藏版依旧延续,只有通过手指手掌触碰才能感知的 0.05mm 皮革压纹,也正如传世油画远看是平面,近看却是由油画颜料构成的微型 3D 光影建筑一样。

这是艺术感和先锋感。

功能:内容需求,与 AI 新交互

对于功能机用户来说,实体键盘存在的意义,除了是因为触控屏幕在当时并不成熟之外,还是因为实体键盘对于电话拨号和短信打字这两个核心功能有优势,同时训练久了的肌肉记忆,能够依靠实体键盘实现盲操。

后来到多点触控电容屏时代的事情大家都经历过以及正在经历,点按划为操作基础的内容爆发性增长,从《愤怒的小鸟》到《王者荣耀》,从微博到小红书、抖音和 bilibili,从塞班版的手机 QQ 到微信……

曾经的电话和短信,大部分人使用频率已经相当之低,移动社交、视频和游戏内容消费成为智能手机的主要功能。

尤其是以抖音为代表的短视频内容,成为了如今智能手机用户的时间黑洞,近 10 亿抖音月活用户每个月要在这个应用上花费 46 个小时。

而异军突起的短剧则进一步吞噬着大量用户的手机使用时间。

「看」手机,就是现在手机最主要的使用方式,对于多数用户而言,手机主要作为一种内容输出设备而存在。

至此,「形式追随功能」的寓意就在此彰显,因为相比于其他 20:9 左右的屏幕比例的直板机,16:10 的屏幕比例,更适合书籍阅读、视频观看,社交内容和新闻资讯浏览,乃至图片审阅修改。

这就是 16:10 比例屏幕除了能以更小屏幕尺寸,获得更大显示面积之外的另一个优势。

实体书籍的内容呈现比例大约为 1.4:1,华为Pura X 更接近实体书比例的 16:10 屏幕显示比例能够给用户带来接近真实书本的阅读体验,这不仅仅是屏幕中一行可以显示更多文字,更能带来沉浸的,原生的阅读感受。

这个场景对我的触动尤为深刻,在信息严重过载和碎片化的时代,如此纯净和拟真的类纸质书阅读体验,宛如窗外风萧雨骤,屋内炉暖茶香。

观看视频也是类似,在横屏状态下,16:9 的长视频内容,华为Pura X 的显示面积较同尺寸直板机增加 30% 以上,竖屏 16:9 的短视频内容,显示面积也较同尺寸直板机增加 40%。

而在浏览小红书等社交平台的时候,华为Pura X 不仅仅是折叠屏,而是拥有横屏和竖屏两种形态,竖屏看,图片大;横屏看,左图片右评论,信息一屏显示完。

在生产力领域,华为Pura X 的屏幕尺寸和比例,更适合浏览单反相机拍摄的 4:3 比例原始样张,大屏的界面也更适合对图片进行筛选和初修。在 WPS 和钉钉等办公软件上,大屏和横竖双形态的先天优势,让华为Pura X 也能具备内容显示和移动操作的双重优势。

当手机内容消费成为手机主要功能这个产品锚点成立的时候,那么华为Pura X 的产品形态也随之成立,即便它在直板机和折叠屏两大类产品里,都显得相当特立独行。

疑问自然也不是没有,手机不仅仅是一种内容输出设备,还是内容输入设备,展开后的大屏,和折叠下的小屏,适合信息输入吗?

AI 是这个问题的答案。

随着 AI 介入手机交互越来越深入之后,手机端的输入效率和输出效果也远胜以往。

明面上,首款全面搭载鸿蒙操作系统 5 的手机。标志着华为终端全面进入鸿蒙时代,另一面,它很可能也是一款天生就适配 AI 的手机,全新小艺融合和盘古大模型和 DeepSeek,交互上更有「人感」了,表象上看,外屏右滑直接进入全新呼吸感视效界面,让小艺触手可及,可知可感;内在中,全新的「快思考和慢思考」双模式下,简单问题,小艺处理快效率高,代码编写、时空推理、创意写作等复杂问题,小艺又能深度思考,审慎推理,给出靠谱结果。

更多新的小艺技能瞄准的,就是降低交互和输入门槛。「小艺帮接」、「小艺时光机」和「小艺私语」这些功能都可以归结为让用户少操作,轻操作,甚至不操作,就能实现高效的交互和交付。

同理,华为Pura X 外屏的存在,也不仅是为了好看,在碎片化的、轻量化的高频场景,比如接打电话、出行和导航、包括运动和音乐娱乐,外屏都和相应的功能应用进行了适配,甚至包括地铁跑酷、天天消消乐这样的休闲游戏都可以在外屏上玩,这种属于外屏的轻量快捷操作逻辑,与上面说的大逻辑是一脉相承的。

在最初始,最熟悉的打字输入上,这里也有一个 AI 解决方案:Pura X 为用户提供了 AI 单手键盘功能,可智能识别左右手并弹出提示,点击提示就能切换到单手键盘模式。

可以这么说,华为Pura X 也只有在 AI 手机有所进展,从实验到实用转折的时候,才最适合出现。

长久以来,关于 AI 手机的一个矛盾在于,在智能手机传统交互方式已经如此成熟,并且用户形成了深刻的肌肉记忆时,AI 功能该以何种界面何种交互融入手机之中。

新形态的阔型设计折叠屏手机 Pura X 反而以特立独行入局,更适合去探索这样的命题。

一个小例子是,华为Pura X 首发搭载了 AI 眼动翻页功能,这个功能可以对眼球运动轨迹进行追踪,当用户看到页末时,会根据用户眼球运动自动翻页。

也正如前面所说,华为Pura X 是华为探索的第 5 种折叠屏形态,事实上我们也可以这么说,在整个折叠屏手机市场上,华为一直扮演着折叠屏市场拓荒者的角色,华为Mate XT 非凡大师自然不用多言,是肉眼可见地以高投入追寻工程和设计的极限。

华为Pura X 亦是,采用一个全新的 ID 设计,启用一个市场上寥寥的屏幕比例,意味着巨大的研发投入和商业风险,但现在智能手机行业的创新就是这样,已经没有不劳而获的可能,想要给消费者更先锋的体验,想要手机里的 AI 体验更顺滑,想要手机「既小又大」,想要手机轻便又坚固,想要手机时尚又隽永,每一个既要又要背后,都是投入。

更何况,折叠屏因为品类特性以及刚性成本,注定就是门槛和投入都高的领域,「阔 很有型」里面的这个「阔」,恰是开拓出来的「阔」。

一定程度上来说,造手机就像解勾股定律一样,勾股定律有多达数百种解法,有的简单,有的极为复杂,但数学界并没有在最简单解法出现之后就停止探索,而是探寻了更多的解法可能性,反过来,在探索更多解法的过程中,不仅数学方法论的创新,还推动了数学基础理论的发展。

去年,我们定义 Pura 系列不仅仅是寻找「最优解」,也是寻找「最新解」,当时的论断如今在华为Pura X 身上显得更适合,最优解是行业通过诸多内外部测试和反馈得到的结果,意味着不会出错,安全又保险,但「最新解」不一样,它更难,也更值得鼓励,就像华为的创新永远是向外求索寻找「最新解」,敢于做别人不敢做的产品,因为行业永远需要更多的可能性。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


拆掉索尼大楼 8 年后,我们在东京看到了 Sony Park 的完全体

By: 谢东成
29 March 2025 at 16:59

三流企业卖产品,二流企业卖服务,一流卖企业概念,超级企业卖大楼。

这是一个早年间广泛流传于社交媒体之上的梗,前三句直观地概括了不同层级企业的生存逻辑,最后一句是网友戏谑诺基亚和索尼出售总部大楼以换取资金改善财务状况的实例。

如果你对「索尼百叶窗」还有印象的话,那么你应该还会记得 2017 年的时候,索尼曾将位于日本东京银座的索尼大楼(Sony Building)进行了拆除。

在宣布拆除大楼的同时,索尼还宣布将这座有着 50 年历史大楼的外立面百叶窗,切割下来做成一份「特别」的纪念品——「索尼大厦百叶窗纪念品」并进行售卖。

每一块「索尼大厦纪念百叶窗」都是从索尼大楼的外墙上拆下来,再经由手工一个个地切割成纪念品的尺寸大小,然后镌刻上「Sony Building 1966-2017」的字样。售价 5000 日元,按照当时的汇率约合 300 元人民币一块。

看到这,你可能会想问,索尼拆了大楼还要卖建筑垃圾来赚钱?

但事实上,索尼将售卖百叶窗纪念品的收入,全额捐给了日本儿童救助(Save the Children)与索尼共同企划的「儿童灾害紧急复原项目」。

也与「卖大楼」的玩笑相反,索尼拆除索尼大楼的真实原因,并非源于资金周转需求,而是在索尼大楼建成的 50 年之际,索尼集团整体的业务已经步入了更多元化的层次。

于是在新时代谋求战略转型的过程中,建成于 1966 年的索尼大楼已经难以胜任「产品陈列室」的历史任务,索尼大楼亟需「重生」。

经过 8 年时间两个阶段的建设,银座索尼公园(Ginza Sony Park)在 2025 年 1 月 26 日正式面向公众开放。值得一提的是,这一天恰好就是索尼创始人盛田昭夫诞辰 104 周年的纪念日。

在索尼公园正式开放的前几天,爱范儿受邀前往日本东京,提前探访了这一座「索尼打造过最大的产品」。

拆除索尼大楼,索尼为什么要在寸土寸金的银座建造「公园」?

在到访银座索尼公园之前,这是我最好奇的一个问题。

根据日本国土交通省发布的数据显示,东京银座连续 19 年蝉联日本地价最贵的地段,用寸土寸金来形容银座地段也是一点也不为过。事实上,从 1966 年的日经新闻报道来看,索尼最初选址于此的时候,这块地皮已经是当时日本乃至全世界地价最贵的。

只不过索尼作为一家电子产品制造商,在银座建设 Sony Building 的初衷从来都不是要作为自己的总部办公楼,而是要成为索尼 1959 年在银座数寄屋桥开设的「产品陈列室」的延续,用一座前所未有的现代化设计建筑,来成为最能代表、展示索尼一切的综合展厅大楼(Showroom Building)。

▲ Sony Building(1966-2017). 图片来自:索尼官网

显然,无论是过往的 Sony Building 还是面前的 Sony Park,其实都是索尼面向全球「索粉」们所提供的一座独具索尼特色的开放空间。

所以,时任索尼总裁的平井一夫在 2016 年重建索尼大楼的项目演示概念书中也表示,「新的索尼大楼」应该是一个新的「索尼信息共享中心」,能够继续作为向全世界传播索尼品牌的枢纽而存在。

简言之,旧的索尼大楼,已经很难去回答「索尼是一家怎样的公司」这个问题,索尼需要「新的地标」来匹配索尼业务生态从硬件制造商向创意娱乐科技巨擘的转变。

▲ 银座索尼公园项目负责人 永野大辅(左);时任索尼总裁平井一夫(右)

尽管当时还未曾确立「新索尼大楼」是以公园的形式来建设,但平井一夫在考虑索尼大楼「重生」的过程里,反复提到的一个重要关键词就是「邀请」——让尽可能多的人能够进入到这个建筑之中,享受这片「很索尼」的公共空间。

当然,这个打造公共空间的概念其实也源自 Sony Building 本身。

在索尼大楼的设计过程中,索尼创始人盛田昭夫十分认可设计师芦原义信的想法,在面向十字路口的一角留出了 33 平米的开放空间打造为 Sony Square,作为银座花园(Garden of Ginza)对外开放。

在寸土寸金的银座地段留出如此大面积的公共空间,当时在许多人看来,这都是一种近乎疯狂的奢侈举动。

作为开放空间,索尼每年都会顺应时节在此处栽种不同的花(当然也是日本最名贵的花),在夏天还会在此处放置巨大的鱼缸,以「Sony Aquarium」的形式展示来自冲绳美丽海水族馆引进的海水鱼类,让此处变成一个流动开放式水族馆,为夏天的路人们带来一丝清凉。

所以,索尼选择打造「银座索尼公园」的初衷,就是想要延续 50 年来的「银座花园」概念,并更进一步将其演变为「银座公园」,更加大胆地持续为城市提供一个富有创造力的公共空间。

历经 8 年时间的,其实是一场「独一无二的实验」

如果说将一栋六层高的大楼拆除然后重建成一座公园,要耗费长达 8 年的时间,听起来效率并不是很高。但从不走寻常路的索尼,实际上是将重建索尼大楼这个项目看作是一场「独一无二的实验」。

整个重建过程分为了三个阶段,在花费一年时间拆除大楼之后,索尼 2018 年在原址的地皮表面建造了一个街心公众公园 Sony Park,并利用了原来大楼建筑地下四层的空间来设立了艺术展览、潮流商店、游戏厅、啤酒餐吧等多种娱乐空间。

索尼对这个 Sony Park 阶段的定义是一座「不断在变化的公园」,在密密麻麻的银座商都一角,设置了一片开放式的「绿洲」。官方数据显示,在开放运营的四年时间,Sony Park 接待了 854 万游客,还举办了无数的展览和活动。

于是当我来到全新的 Ginza Sony Park 之中,得以与该项目负责人永野大辅对话的时候,我特别好奇,这场实验到底给索尼带来了什么结论,这个过程让索尼从中得到了什么帮助或者启发?

永野大辅听完我的问题,脸上露出了自信的微笑并说这是一个很好的问题,看起来这个问题早已经过长足的思考,如今也得到了充分的答案。

▲ 索尼公园项目负责人永野大辅,他身后就是原索尼大楼楼顶的霓虹灯 logo

他指出了「三点启发」:不建高楼、开放空间安全性更高、开放场所应该怎样去吸引人。

首先是不建高楼的启发,相较于原来八层楼高的索尼大楼,开放式的街心公园 Sony Park 在地表只有一层,具有更强烈开放氛围的 Sony Park 在实际表现里,是远比以前的索尼大楼要更加吸引过往的游客和市民。

这样的启发也让索尼深刻地认识到,低层的建筑比起高层的建筑要更加吸引游客和市民。于是,当银座建筑物高度被限制在 56 米以内的同时,银座索尼公园更是刻意地将高度设置得更低,大概是这个规则的一半左右。

无论是从远处眺望,还是步入于其中,都让银座索尼公园看起来更加开阔,与周边的高密度建筑体系形成了鲜明的对比。

隐约觉得,这跟国画的「留白」意味,有着异曲同工之境。

其次,索尼的第二点启发是「开放空间的安全性更高」。这一点是我此前从未想到过的,永野大辅告诉爱范儿,将建筑物变成开放的形态会让周边街区都变得更加安全。

改建之初,我们担心如果将索尼大楼做成开放空间,安全性是否无法保证,我们该如何应对因开放空间带来的一些隐患,带着这样的忐忑,我们大胆迈出了这一步实验。经过三年的实验,这一举措拿到了满分的反馈,所以银座索尼公园的第一层,将以完全开放的空间面向大家。

▲ 银座索尼公园的第一步. 图片来自:索尼官网

第三点,是利用有主题、技术和艺术三元素叠加的创意活动来提高品牌效应。永野大辅认为,场所服务于人,所以过往 4 年的运营一直都在促使索尼去思考,场所活动要如何去吸引人?如何利用场所活动去提高品牌效应?

最终,索尼得出的成功经验,就是以「主题 × 技术 × 艺术」三个元素相乘,从而满足大家来到这个场所的各种需求,无论是短暂地休憩、周末的放松、恋人的漫步、亲子间的互动等等。

正是因为第一阶段的大胆尝试,且得到了较好的效果,所以大家看到的新银座索尼主题公园结合了此前的成功经验,开幕后,银座索尼公园将陆续开展展览活动,欢迎市民和游客前来体验。

索尼「最大的产品」,如何诠释索尼?

无论是我初次造访,还是朋友圈中在春节假期路过东京银座的朋友们,都很容易被这座 Ginza Sony Park 抓住眼球。

除了更加低矮开阔的建筑高度,它很直白地将主题混凝土结构展露在外的样子,也与周边临近的繁华大楼们形成了强烈的反差对比。用近乎原始的混凝土外墙,配合刻意降低的建筑物高度,的确能够体现出索尼公园想要作为「城市平台」的地位。

随着脚步走进,索尼公园建筑物的主题视野也拉近了不少,可以看到覆盖在混凝土建筑表面的不锈钢网格状框架,自然而然地成为了索尼公园与繁华闹市之间的松散边界。

索尼公园项目负责人永野大辅告诉我们:「当光线从框架的缝隙中射入,就像阳光透过树叶渗透进来一样,会不断地移动和变化。」

当然,除了可以作为功能性外立面,设置一些活动相关的海报或者装置,它也可以在对设施进行扩建的时候,充当类似「脚手架」一样的辅助角色。

在开业前夕,我们可以看到外墙上挂着一句日本人常在回家进门时,就对家人说的「我回来了」。

银座索尼公园还继承了索尼大厦所珍视的独特元素:提供公共空间的设计理念、「枢纽」建筑和垂直长廊风格。

正如前文所述,索尼公园的一楼是一个完全开放的空间设计,弱化了公园与城市的界限,内在空旷的中庭位置变成了数寄屋桥十字路口进入的人流的天然容器,可以让游客从不同的角度自然地进入,然后按照垂直长廊的引导,自由地前往公园建筑的上方或者下方。

作为一栋「面向城市开放」的建筑,索尼公园内部从下至上设置了一条「垂直长廊」,螺旋结构的楼梯和缓坡可以让观众从底部一直往上漫步,弱化了楼层之间的分隔,自然而然地去完成整栋公园的游览。

这条「垂直长廊」的灵感来自于索尼大楼的「花瓣结构」,设计师芦原义信为了有效利用索尼大楼原本不算宽敞的占地面积,绞尽脑汁地以一系列相连的楼层将整栋大楼连接起来,使其成为一条垂直的长廊。参观者可以毫不费力地乘坐电梯上升到建筑顶部,然后随着着螺旋走道逐渐下降到达其他楼层,在不知不觉间完成整栋建筑的浏览。

相比起只在地上六层建筑建设垂直长廊,全新的银座索尼公园则是从地下三层至地上五层(屋顶平台)都实现了垂直长廊的设计,让整个建筑物的每一个楼层能够通过一条垂直长廊来连接。

对我来说,此前探访过一些银座建筑都需要乘坐电梯前往,单个楼层的浏览范围其实有限,但频繁地转移楼层的话,要么排队乘坐狭窄的手扶电梯,要么花费更长的时间去等待直梯,体验都算不上很好。而索尼公园的楼梯设计,可以让我高效地往来不同的楼层,无形中也提升了在其中游览穿梭的兴致。

在看不见的地底,索尼公园保留了一些旧建筑的痕迹,甚至加固了原来属于索尼大楼的地下室外墙,创建了一个类似于浴桶一样的独立结构。

这种施工方法可以保护整栋建筑物免受银座地下流动的土壤或地下水的压力,同时也能保障重建项目可以获得和之前一样多的公共空间,无需新增更多的地下外墙。索尼也保留了原来的地下入口,与银座站的地下通道相连,也能直接连接到银座最大的地下停车场。

作为新时代索尼的「产品陈列室」,索尼并未打算在银座索尼公园之内塞满索尼的产品。为了吸引更多用户或者市民到来,索尼选择「主题 × 技术 × 艺术」的方式,在此处举办各种活动和展览,进而传递索尼的魅力。

随着银座索尼公园的开幕,索尼将同步设置开园以来的首个展会——「Sony Park 展 2025」。这是一个以索尼集团的六大业务为主题,与 6 组富有个性的艺术家共同创作的创意体验型活动。

受邀参展的 6 组艺术家的创意,将会与不同主题的索尼业务相结合,通过索尼的技术来还原艺术家的创意灵感。整个展会分为两个阶段,每个阶段将会有三位艺术家和展览分别展出。

首批开展的艺术家包括了 YOASOBI、羊文学和 Vaundy。爱范儿作为首批邀请到访银座索尼公园的中国媒体之一,也被特别安排分别体验了这三个展览。

首先是索尼金融与羊文学的展,是以「金融如诗」为题,聚焦在羊文学的两首歌里(其中一首是《More than words》),索尼为此重新打造了一套巨大的水盘光影装置,将歌词与水和光影一起交融。

我留意到在此处,索尼用上了他们引以为傲的 360 临场音效(360 Reality Audio)技术,声音效果非常震撼。

离场的时候,我们还能体验到索尼的触觉技术「Active Slate」,地板传来逼真的震动会让你觉得真的踩在了水道上。

YOASOBI 是和索尼半导体一起办展,以「心跳」为主题,来访者在入场之时会通过索尼的传感器设备,记录一段心率图谱,然后通过 AI 算法生成一个心跳图案。而后步入到投影互动装置之中,你就会发现,自己的心跳图案可以融入到 YOASOBI 《HEART BEAT》这首歌的声画当中。

最后我们走到了地下入口位置的旁边,看到了 Vaundy 与索尼音乐一起举办的「音乐如旅行」展。

他在 B2 区域设置了一个「音乐地层」,Vanudy 在这里放置了 200 首他自己珍藏的宝藏歌曲。观众可以在入场时,领取一个经典的索尼监听耳机(MDR-CD900ST)。

然后带着这个耳机走进展区之内,可以看到琳琅满目的歌曲名字以及对应的耳机接口,Vanudy 按照不同的音乐类型进行了区分,包括希望、爱情等等……

你只需要按照分类,看到自己感兴趣的曲名,就可以将耳机的 6.3mm 接口插进相应的歌曲接口,耳机就会自动播放相应的音乐了。个人感觉,这个形式还是相当有趣,可以发现一些在「猜你喜欢」的算法之外,也能引起情感共鸣的曲子。

源自创始人的精神:索尼要做别人未曾做过的事情

浏览完整座银座索尼公园之后,我对索尼的印象有了更加深刻的认知。

过去,我们时常会探讨「索尼究竟是一家怎样的公司?」——皆因索尼的业务在迈入二十一世纪之后,变得相当多元化,看似各行各业都有索尼的身影。

▲ 索尼品川总部大楼内的 Sony Square 一角

比如索尼 A9M3 相机拍下了可能是特朗普一生中最具张力的照片;索尼旗舰电视也是不少大户人家的首选;PlayStation 依然是备受追捧的游戏主机;知名动画作品《鬼灭之刃》是由索尼旗下的子公司 Aniplex 出品;与漫威联合制作的《蜘蛛侠》和《毒液》电影系列也在全球范围内热映……

但与此同时,索尼也这些年也推出过不少被认为是失败的产品,甚至在大好时势下眼睁睁地错失了移动互联网的最佳风口。在消费者眼中,曾经先进且独具个性的索尼 Xperia 手机,也黯然在中国大陆市场「断档」,更别说熟悉的 VAIO 电脑业务和元老级的锂电池业务也被索尼陆续出售。

但正因这些大刀阔斧的改革手段,聚焦更多元化的核心业务,剥离非核心资产,才让索尼从亏损的困境中突围而出。在 2024 财年,索尼预计将实现本世纪以来最亮眼的业绩表现,旗下的六大板块业务都分别实现了盈利,预计同比增长 11%。华尔街分析师认为,如今转型以创意娱乐为主导的索尼,有了更强的抗风险能力。

谈及现阶段的企业定位,索尼官方的定义是一家「建立在坚实技术基础上的创意娱乐公司」。

当我第一次听到这个略显抽象的企业定位时,就意识到要全面诠释索尼企业定位并非一件易事,只能通过一些具象的东西来加以理解。

在索尼位于东京品川的总部大楼,有一面索尼历史墙(History Wall),展示了索尼创立以来的重要产品和大事记。当中放置的一个用黄金铸造的小白鼠引起了我们的注意。

▲ 图片来自:kimoto-sbd

1955 年,索尼推出日本首台晶体管收音机 TR-55,虽开创了技术先河,但 3 年后随着晶体管成为主流,被大企业以规模优势超越。彼时评论家讥讽仍算是创业公司的索尼,是「大型企业的实验小白鼠」。

▲ 索尼晶体管收音机 TR-55,图片来自:索尼官网

虽然这个评价引起了当时索尼员工们的愤怒,但面对质疑,索尼创始人之一的井深大却将这一标签转化为精神动力:「开拓新产品若被视作『小白鼠精神』,何尝不是荣耀?」。后来,索尼更是用黄金铸造一个了小白鼠雕塑,既是对嘲讽的回应,亦是对索尼「敢为天下先」价值观的定格,并用以激励后来的索尼员工都要保持「创造未存在之物」的初心。

在这次索尼公园的采访过程中,项目负责人永野大辅告诉我们:

盛田昭夫作为创始人之一,他给我们的影响很大,所以我们想把他的一些想法或者精神世代的传承下去。不管是盛田昭夫先生,还是索尼,一个重要的 DNA 就是做别人没有做过的事情。

▲ 摆放在 Sony Park 顶层天台的 AFEELA 原型车

从这个角度来看,放弃可观的地产商业价值转而拥抱城市开放空间的银座索尼公园,其实是索尼「创造未存在之物」的空间载体,它理所应当成为了索尼迄今为止打造过的「最大的产品」——这栋独特的建筑物本身,也在诠释着索尼品牌创办时的初心:做别人不做的事情,做别人没有做过的事情。

从宣布拆除大楼,到出售大楼百叶窗周边,继而运营街心开放公园作为实验田,直至最终重建银座索尼公园,这长达 8 年的整个过程里,索尼都在践行「做别人没有做过的事情」这一点。显然对于索尼来说,坚持做别人从未做过的事情,就是一件最酷的事情。

总体看下来,无论是这个地段,还是这个建筑本身,以及未来这座公园的持续运营,索尼无疑都是需要去倾注大量的时间和金钱,才能一步一步地将银座索尼大楼,变成银座索尼花园,再变成一座银座索尼公园。

▲ 在 Sony Park 遇到了带着 AIBO 机器狗来观展的用户,它的名字是 さくら(樱花)

它与我们之前造访过的 Apple Park 等冠以「Park」之名的办公园区都不同,也超脱于常规意义的企业 Showroom。

从开放性来看,这座 Sony Park 的确是我们传统意义上的城市公园——它面向所有人都开放,至于索尼的产品与技术,都隐性地存在于这栋建筑之中,成为场所的一部分,不断更新且持续地服务到访的所有来客。

可以预见,全新的 Ginza Sony Park 能够为银座街区以及周边居民注入更多活力的同时,也能继续吸引全球各地的「索粉」们前来踊跃打卡。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


用ChatGPT新功能修了张图发朋友圈,结果私信全在问怎么做到的?

By: Selina
26 March 2025 at 17:46

在今天凌晨 OpenAI 发布新一代文生图功能的时候,大家还不是很清楚它的实力,还以为是跟在 Gemini 后头,带来一些迟到的升级。

GPT 不语,只是一昧地让用户案例震惊全场。

在最新的迭代中,OpenAI 带来了文生图功能上,突破性的指令遵循和一致性表现。只需最简单的文字 prompt,就可以实现高精度的图片细部微调——一切修改只需要在会话当中进行,无需任何按钮、笔刷等额外操作。

魔法不用笔刷,只用咒语

和 Gemini 类似,这次 OpenAI 的更新,重点不在于能做多写实、多复杂的图片,而在于指令遵循和一致性,并且是在只使用自然语言指令的前提下。

先来看一组比较入门级的食物照片,prompt 也非常简单:generate an image of coffee and bread。

随后,在原图的基础上要求改成冰咖啡、涂果酱。

除了杯柄之外,该加的加,该留的留,指令遵循非常出色。

涉及到人像的图片,也有稳定的表现。

仔细看的话,还是有一些小地方是在变动的,但最关键的人体动作、衣服皱褶、表情,都没有瑕疵。

在这组图的时候,碰到了内容风控,报错称不符合政策要求。不过,它理解到了原指令的意图,提出了修改方案。

这最后一张,也是生成效果最好最自然的一张。

画面内容简单的任务自然是手拿把掐,那么复杂一点的呢?

之前在 Gemini 的生图测试中,我们出过一张城市街头景象,效果非常惊人,再看一遍:

同样的 prompt,给 ChatGPT 执行,在画面效果上稍微差了一点,尤其是到夜晚这张,几乎已经看不到人群细节了。

当然这个问题比较偏向于是审美不同,在对关键元素的识别上是没问题的,甚至能捕捉到「茑屋书店」这样小的细节,字体生成也挺稳的。

除了直接用文字生成,还可以上传图片进行修改——这里,最震撼的一集来了。

在上传了 png 格式的 APPSO 标志之后,第一步简单的变个 3D 立体。

效果还可以,阴影方向不一致,但符合光线本身即可。接下来再做点调整。

震撼!这两次调整的 prompt,不过是二十来个字而已。

(甚至默认数码产品都是 Apple 的,一些没有说的属性真是偷偷藏不住呀。)

随后的小角度微调也很准确。

▲ Prompt:调整角度,使红色logo变成正面,其余保持不动

细节微调是这次更新非常大的亮点,能够准确将指令与相对应的细部关联起来,从而完成精确的局部修改。

▲ Prompt:调整角度,镜头从右前方拍摄,整体光线变暗,一束强光从右侧打亮机器的一部分,旁边搭配咖啡豆

指令中包含了光效、镜头角度、元素增补等关键内容,模型能够准确识别,而且整体性地进行调整。指哪改哪四个字,都已经说倦了。

这次的更新中,最意外的应该是在同一个会话中,生图和生文迅速切换的能力。

比如在下面这张图中,最早的指令是生成一个礼物包装指南。

首先给出来的是一个图文版——不算是错,我没有指明是要做图文版,还是文字版,指令是很模糊的。

在生成文字版之后,ChatGPT 主动询问是不是要做图文版,在收到确认的答复之后,给出了图文并茂的版本。

这意味着模型的准确反应,不仅体现在理解单一指令上,也体现在领悟用户潜在意图上,比用户「多想一步」

实际上,这也是此前 Deep Research 发布时就展现出来的能力。OpenAI 的深度检索,是少数会主动向用户询问、明确任务执行细节的模型。

类似的能力,这次迁移到了生图当中,从使用感受而言,比在 Deep Research 上的更直观可感。

例如可以用来制作日常的告示说明,图文一锅都「端」了。

 

整体来看,这次最惊人的肯定要属一致性和指令遵循的同步到位。

按照惯例,每次测评都应该有一些「使用指南」——这次真的没有发现什么注意事项,一切只要按照自己的想法,敲击键盘,输入文字,就行了。没有什么「技巧」或者「窍门」。

通过 prompt 生图及改图的一致性,是文生图非常关键的问题,它既跟模型能力相关,又和工程能力相关。在指令遵循和一致性有这么大的进步之前,主要是通过 prompting 来解决的,压力是在用户这一边

所以会有各种各样的 prompt 模版、攻略,教大家怎么「跟模型打交道」。但那不是自然语言交互应该有的状态,模型在面对人的时候,接受的就是用户最直接的指令——让人先学一通怎么写 prompt,着实很劝退。

Gemini 和 OpenAI 近期的更新,让热度有所降低的生图赛道又重新热闹了起来。它们也展示出了同一个共同点:一些修图改图产品,通过增加按钮、入口,来增加生图的可操控性,以此来对抗模型幻觉的日子,已经远去了。

一致性的问题解决的并不仅仅只是图片生成的问题,更加是「使用图片生成功能」过程中的小麻烦。某种意义上,也是一种工程层面的优化。

修改、生成都是可以用模型对文字指令的准确理解来实现——在这个层面上,「模型即产品」仍然成立。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


苹果全球副总裁访问爱范儿,他说从没见过这样的公司

By: 爱范儿
26 March 2025 at 17:33

昨天早上,爱范儿迎来一位重量级访客——苹果全球产品营销副总裁 Bob Borchers。

这位参与初代 iPhone 研发的苹果元老,拥有斯坦福大学的机械工程学士学位和麻省理工学院的硕士学位,出演过初代 iPhone 官方教学视频,在硬件整合、软件生态构建和市场营销策略上发挥了关键作用。

站在广州海珠区 T.I.T 创意园的红砖路上,Bob Borchers 轻触着 1956 年纺织机械厂遗留的鼓风机。一如苹果英国总部所在的巴特西发电站,爱范儿所在的 T.I.T 创意园,既是城市工业历史的见证者,也是数字时代的创新策源地。

30 年前我来过广州,但眼前的创造力超乎想象。

当 Bob 得知爱范儿和微信比邻而居时,他笑着掏出手机拍下这「科技和人文的交叉路口」。

步入爱范儿三栋办公楼构成的办公群落,Bob 被琳琅满目的苹果生态所吸引。打开 AirDrop,20 多台 Mac 瞬间浮现。

爱范儿每一位入职员工都标配 Mac。我们的交互式图文、制糖工厂的产品设计都出自于 Mac。

爱范儿创始人 Wilson 说。

得知团队涵盖导演、机械、化学、艺术等跨学科人才,Bob 频频点头:

科技本就应该打破边界,拧成一股绳(Technology needs to be integrated all together.)

作为一家数字潮牌,我们也为 Bob 展示了一些「不务正业」的东西:

在爱范儿明日实验室,我们展示了《明日产品年鉴》,这本精致的小册子记录着爱范儿对每一年「明日产品」的选择,我们希望它在若干年后能成为科技史的草稿。

Bob 很喜欢这本散着墨香的 catalog,他指着 AirPods Pro 助听器更新的一页,说他很喜欢这个功能。

他还惊讶地发现了初代 iPhone,并小心翼翼地拿起来它,用衣角将屏幕擦拭干净。

当我们提出能否留下签名时,他说用只能签在边上:

它的(背后)太美了,不能破坏。

在特别准备的体验环节,Bob Borchers 戴上 AirPods Max,聆听了爱范儿「数字国粹」单曲《口技:三声万物》,惊艳的音效令他眉飞色舞。

作为爱范儿的实验性作品,《口技:三声万物》把中国传统非遗口技与苹果空间音频技术结合,还原出百鸟争鸣、风雨交加的自然声场。

这波文化输出直接冲上 Apple Music 首页,经过新华社、China Daily、华尔街日报的报道,作品被传播至全球超过 165 个国家和地区。

在制糖工厂展区,Bob Borchers 快速掌握了「贴贴线」的磁吸收纳技巧,更对「AI 小电拼」的 App 功率调节功能眼前一亮,他说这很符合苹果软硬结合 Holistic 的方式。

对于制糖工厂在环保实践的创新,Bob 竖起了大拇指——此前,我们在中国多个高校发起了免费「以旧换新」的活动,凭任意废弃数据线即可免费兑换贴贴线,并将回收的数据线改造成艺术饰品,将可持续性转化为创造力的延伸。

Bob 还探访了爱范儿的线下社区空间——未来社 House。这座形如橙色糖果盒的建筑,集合咖啡馆、美术馆与露天剧场,曾举办「Shot on iPhone」街头拓印影展等活动。

就像 Apple Store 不仅是零售空间,更是灵感枢纽,
爱范儿创始人 Wilson 说,
我们认为任何可以交流的载体都是媒体,社区本身就是内容的生产者与传播者。

在未来社 House 二楼的天台美术馆,Bob Borchers 还与爱范儿首席内容官何宗丞围绕 Mac 展开了一场对话。Bob Borchers 提到,自己在广州与大家探讨 AI 应用场景时,着实被震撼到了:

人们正在发掘整个 Mac 产品线的惊人潜力,你可以在 M3 Ultra 上本地运行最大的模型,或者也可以使用 MacBook Air 进行 AI 任务。所以,Mac 真的是 AI 的最佳平台。

早在 40 年前,乔布斯曾把计算机比作一辆「思维的自行车」,Bob 说这个比喻依然成立——技术应如自行车般拓展创造力边界。Mac 的使命始终如一:打造最佳工具,让创造者塑造未来。正如自行车延伸出行范围,技术应该放大人类潜能。

(完整视频访谈将在本周发布)

爱范儿,让未来触手可及。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


早报|曝 iPhone18 将首发台积电 2nm 芯片/鸿蒙智行「尚界」或将 4 月发布/DeepSeek V3 突然更新

25 March 2025 at 10:38
cover

🤖

DeepSeek 无预告更新 V3 模型

🚗

消息称鸿蒙智行「尚界」发布在即

💻

成本降低 20%,蚂蚁集团使用国产芯片训练 AI 模型

📱

曝 iPhone 首发台积电 2nm 工艺

😯

美团正研发 NativeAI 产品

💰

比亚迪 2024 年营收超 7770 亿元

🤖

蔚来李斌:今年四季度必须盈利

❗

特斯拉回应「暂停 FSD 试用推送」:正在审批

🎓

法拉利 F1 车队回应「成绩取消」

🍭

华为前副总裁加入智元机器人,任董事长兼 CEO

💡

图灵奖得主杨立昆:LLM 无法产生真正的创新

🍬

制糖工厂 SlimBolt 细雳线 · 古蓝正式上线

📷

全新 OPPO Find X8 系列将于 4 月发布

🛠

中国福彩回应「AI 预测彩票」:系骗局

👾

京东外卖日订单破百万

重磅

DeepSeek 无预告更新 V3 模型

昨晚,DeepSeek 毫无预告的情况下,在 Hugging Face上放出了最新的 DeepSeek-V3-0324 模型。

先来看重点:DeepSeek-V3-0324 模型参数达 685B,目前在官方网站、APP 和小程序上已经可以体验(关闭深度思考)。

本次更新为小版本更新,并非此前呼声较高的 DeepSeek-R2,但依然有不少亮点,甚至在某些能力已经与 Claude 3.7 Sonnet 相当接近。从网友反馈的实测效果来看,V3-0324 有这些提升:

  • 编码能力已经接近 Claude3.7 了,比之前的老版本 v3 能力要强;
  • 提升幅度大约与 Sonnet 3.5 到 Sonnet 3.6 一样,甚至还要大一点;
  • 与 R1 相比,V3-0324 在生成前端代码方面有了明显改进;
  • 数学能力也有提升,能像推理模型一样能够解题。

DeepSeek-V3-0324 依然保持着开源的优良传统,而且是 MIT 开源许可,意味着比上一版更加开放了。

Hugging Face 链接 👉https://huggingface.co/deepseek-ai/DeepSeek-V3-0324/tree/main

大公司

消息称鸿蒙智行「尚界」发布在即

3 月 24 日,据财联社援引业内知情人士消息,鸿蒙智行「尚界」品牌计划于 4 月 10 日正式对外发布,届时将释放更多新品牌、新产品的相关信息。

有市场消息称,尚界首款车型将以上汽荣威旗下内部代号为「ES39」的车型作为雏形打造,新车在动力系统方面或将采用上汽的增程系统方案。据悉,上述车型将会是上汽的存量车型优化而来,但仅此一款;该车型的主要目的是降低华为智驾、智舱等方案的成本。另有接近华为的业内人士透露,「尚界」首款车型将于今年内正式发布。

报道指出,上汽集团与华为终端曾于今年 2 月在上海签署深度合作协议,根据协议双方将在产品定义、生产制造、供应链管理、销售服务等领域展开战略合作,打造全新新能源智能汽车。业内人士表示,华为与上汽集团的合作相较于其他「四界」的分工明确,要更为深入。

据了解,上汽集团于今年 1 月 13 / 14 日申请注册「尚界」「上汽尚界」等多个商标,但国际分类并不含 12(即包含电动运载工具、电动汽车、自动驾驶汽车、汽车等商品 / 服务分类);而在 2023 年 11 月,华为技术有限公司申请注册了国际分类为 12 的「尚界」商标,但该商标曾陆续转让给「四界」。

成本降低 20%,蚂蚁集团使用国产芯片训练 AI 模型

据彭博社援引知情人士消息称,蚂蚁集团使用中国制造的半导体开发了一种训练 AI 模型的新技术,能将相关成本降低约 20%。

消息人士表示,蚂蚁集团在训练模型时采用了包括阿里巴巴和华为在内的国产芯片,并使用了一种名为「专家混合」(Mixture of Experts,MoE)的机器学习方法。据称,这种训练方法取得了与英伟达 H800 等芯片相当的效果。其中一位知情人士透露,蚂蚁目前仍在使用英伟达的芯片进行 AI 开发,但在最新的模型中,主要依赖的是来自 AMD 和中国厂商的替代芯片。

具体来说,蚂蚁集团 CTO、平台技术事业群总裁何征宇带领 Ling Team 团队,打造了两款开源 MoE 模型:Ling-Lite 和 Ling-Plus。前者参数规模为 168 亿,后者参数规模高达 2900 亿。

公开论文显示,技术团队在模型预训练阶段使用较低规格的硬件系统,将计算成本( 635 万元人民币 / 万亿 Token)降低约 20%,达 508 万元人民币,但模型性能却能与 Qwen2.5-72B-Instruct 和 DeepSeek-V2.5-1210-Chat 相媲美。不过,论文中也指出,即使是硬件或模型结构的微小改动,也可能引发问题,比如导致模型的错误率突然上升。

此外,知情人士称,蚂蚁计划使用这两个新模型在医疗和金融领域提供 AI 服务。

昨日,据财联社报道,针对外媒对蚂蚁百灵大模型训练成本的信息,蚂蚁回应称:公司针对不同芯片持续调优,以降低 AI 应用成本,目前取得了一定的进展,也会逐步通过开源分享。

曝 iPhone 首发台积电 2nm 工艺

据工商时报报道,台积电 2nm 制程工艺有望今年量产,其位于高雄和宝山的工厂将是关键的生产基地。近日,台积电宣布将在高雄工厂于 3 月 31 日举行扩产典礼,首批晶圆预计 4 月底送达新竹宝山,此外,台积电也将在 4 月 1 日也开放接受预订下半年排程,而苹果有望率先锁定首批供应。

台积电法人预估,若台积电 2nm 工艺生产顺利,2025 年底的月产能将提升至 5 万片。法人还透露,台积电 2nm 已准备就绪,并且还一同打破了苹果 A20 芯片不会采用 2nm 工艺的传闻。

近日,分析师郭明錤也发文透露,2026 年发布的新款 iPhone(预测为 iPhone18)所搭载的处理器,将采用台积电的 2nm 制程工艺。郭明錤还提到,台积电的 2nm 良品率在三个月前已达到 60-70% 以上。

此外,行业分析分析显示,2nm 晶圆单片成本约为 3 万美元。另据 Wccftech 报道,为降低客户成本,台积电计划于 4 月推出「CyberShuttle」服务,让客户能在同一测试晶圆上评估芯片,以减少研发开支。

苹果 AI 中文版即将正式登场

今日,苹果向 iPhone 和 iPad 用户推送了 iOS / iPadOS 18.4 RC 更新(内部版本号:22E239),本次更新距离上次发布 Beta / RC 间隔 7 天。

其中 Apple 智能(Apple Intelligence)新增支持法语、德语、意大利语、葡萄牙语(巴西)、西班牙语、日语、韩语和简体中文,以及新加坡和印度的本地化英语。而这也意味着,国行版的苹果 AI 又能再进一步。

此外,iOS 18.4 引入了「优先级通知」功能,系统会自动判断哪些通知最为重要,并在锁屏上以醒目方式展示;而 AI 图片生成功能 Image Playground 新增「手绘风格」选项,用户可以生成类似手绘的图像。

此前,据彭博社报道,有知情人士透露,苹果公司计划在 2025 年中期之前,在国行版 iPhone 上引入 AI 功能。 在 2 月 13 日,在阿联酋迪拜举办的 World Governments Summit 2025 峰会上,阿里巴巴联合创始人、董事局主席蔡崇信确认了苹果与阿里巴巴共同中国 iPhone AI 功能一事。

同时,据 The Information 报道,有两位知情人士透露,虽然苹果公司已经与阿里巴巴达成合作,将为国行版的 iPhone 用户提供 AI 功能,但苹果仍在继续与百度合作,共同为中国的 iPhone 用户开发人工智能功能。

美团正研发 NativeAI 产品

昨日,美团核心本地商业 CEO 王莆中在「即刻」透露,美团正在做一款 NativeAI(原生人工智能)产品,愿景是「每个人都能有一个专属的生活小秘书」。

王莆中表示,美团正积极发挥内部的数据、场景和产业优势,从而布局上述的 NativeAI 产品,同时公司在招聘 AI 研发和产品人员。王莆中还透露,该项目由他发起,但并非带队者。

近期,美团 CEO 王兴参与公司 2024 年财报电话会议时曾透露,美团在人工智能技术方面的策略始终是「主动进攻」而非「被动防守」。王兴认为,每当有像人工智能这样颠覆性的技术出现时,唯一有意义的应对策略并非捍卫已有的东西,而是要利用自身所拥有的一切资源去主动进攻,这是唯一行之有效的应对策略。

据透露,目前已经开发了美团内部的大语言模型,名为 LongCat。通过将 LongCat 与其他模型相结合,为美团的员工推出了一系列工具,包括 AI 编码、智能会议与文档助手等等。

比亚迪 2024 年营收超 7770 亿元

昨晚,比亚迪公布其 2024 年全年财报,号称「比亚迪史上最强财报」。具体来看:

  • 比亚迪 2024 年营收 7,771.02 亿元,同比增长 29.02%;
  • 全年归母净利润 402.54 亿元,同比增长 34.00%(注:归属于母公司所有者的净利润);
  • 比亚迪 2024 年全球销量达 427 万辆,同比增长 41%;
  • 全年研发投入达 542 亿元,同比增长 36%。

值得关注的是,截至 2024 年末,比亚迪现金储备达到创纪录的 1,549 亿元,而有息负债从 2023 年的 365.5 亿元下降至 285.8 亿元,在总负债的占比只有 4.9%,处于行业最低水平。

此外,在业绩高速增长的同时,比亚迪积极履行社会责任,国内纳税总额达 510 亿,比同期净利润高一百多亿;其员工总人数近 97 万人,为解决就业作出积极贡献。

蔚来李斌:今年四季度必须盈利

据晚点 Auto 发文透露,蔚来创始人、CEO 李斌近日召开了一场蔚来小范围沟通会。李斌在会上阐述了蔚来今年及未来的发展方向。会上,李斌调侃表示,最近经常在微信上收到与蔚来公司治理相关的建议,挺有意思的,现在每天晚上都要说感谢。

李斌提到,蔚来最核心的任务就是要在今年四季度实现盈利,其强调,蔚来不能用过长的时间跨度去实现盈利目标。李斌表示,蔚来今年多款产品交付,到了第四季度,公司销售服务及换电站建设都将基本完成阶段性布局,若在第四季度未能完成盈利,对整个公司的长远发展、商业模式都将是非常大的考验。

在聊到「盈利」话题时,李斌谈及「蔚来最接近盈利是在 2021 年」,当时蔚来拥有 20% 以上的毛利率。而李斌也透露,目前公司正在实行「Cost Mining(成本挖矿)」「降本工作」等多个降本措施,其目的是为了蔚来品牌整车回到 20% 的毛利率,从目前的实行结果来看,回到 20% 毛利率并非「天方夜谭」。

同时,李斌也透露了蔚来及旗下品牌在今年的一些发展动作:

  • 新款「5566」主要在外观设计、内饰、座舱和自研芯片上有不小提升;(注:5566 指蔚来 ET5 / 5t、蔚来 ES6、蔚来 EC6 四款车型)
  • 蔚来自研的神玑智驾芯片可以完全平替英伟达 Thor,某些方面甚至更强,是全球首颗车规 5 纳米智驾芯片,性能非常精准、先进。蔚来将自己先采用该芯片,李斌还表示,如果其他公司愿意使用,神玑芯片也将开放;
  • 乐道还有一款大五座 SUV,名字可能是 L80。L90 三季度交付,L80 四季度交付;

苹果在华投资 7.2 亿清洁能源基金

3 月 24 日,苹果发文宣布加注一笔新的投资基金,旨在扩大中国的清洁能源产能,并表示该笔投资,是公司实现 2030 年将其供应链过渡到 100% 使用可再生能源的努力的一部分。

苹果方面称,其承诺投资高达 7.2 亿元人民币,以启动第二期中国清洁能源基金。有了苹果的这笔锚定投资,该基金的目标是每年为中国电网新增约 55 万兆瓦时的风能和太阳能发电能力,并且发电能力将随着更多投资者的加入而增长。据悉,苹果首个中国清洁能源基金已经超过既定目标,在中国 14 个省新建超过 1 千兆瓦的风能和太阳能项目。

除了帮助中国的电网变得更加清洁,新基金还将帮助推动苹果 2030 的进展。苹果称,其宏伟目标是在未来五年内全部碳足迹实现碳中和,包括整个供应链和产品的全生命周期。 作为目标的一部分,苹果将与供应商密切合作,促使苹果产品相关的生产中过渡到 100% 使用可再生能源。

苹果指出,目前苹果在中国约三分之二的生产由可再生能源驱动,100 多家供应商为这一进展做出了贡献。

Google Gemini Live 上线实时 AI 视频对话

昨日,据 The Verge 报道,Google 发言人亚历克斯・约瑟夫(Alex Joseph)在一封邮件中确认,Gemini Live 正式上线实时 AI 视频对话。而上述功能由 Google 一年前推出的 Project Astra 项目提供技术支持。

据了解,Gemini Live 所提供的实时 AI 视频对话,能够让 Gemini Live 了解用户的屏幕内容,亦或者通过设备摄像头进行周围画面的获取。在画面捕捉的同时,用户可以通过语音向 Gemini Live 提问,软件也将实时回答相关问题,值得关注的是,从官方公布的演示片中可以发现,上述功能或支持上下文记忆及理解。

距了解,Google 在去年 5 月的 2024 I/O 开发者大会上公布了 Project Astra 项目,其基于 Gemini 模型诞生,可在 Pixel 手机上完成本地运行。Google 表示 Project Astra 是最新的多模态 AI 项目,用户只需要打开手机摄像头,Project Astra 就可以直接为用户解释画面中的内容。

特斯拉回应「暂停 FSD 试用推送」:正在审批

近期,博主「胖虎 Shawn」发文称,据一线消息,特斯拉的 FSD 试用已确认暂停推送,恢复时间不详。并在评论区回复表示,「特斯拉只是暂停 FSD 试用,并未撤回 FSD,但暂停 FSD 试用的原因暂不知悉」。

而在昨日,特斯拉客户支持在公司副总裁陶琳的微博评论区中,回应了上述的「暂停 FSD 推送」消息:

根据最新发布的《关于进一步加强智能网联汽车产品准入、召回及软件在线升级管理的通知》要求,特斯拉团队正在完成 3.0 以及 4.0 硬件分别对应智能辅助驾驶软件的审批工作。各方都在积极推进相关进程,一旦准备就绪,便会尽快推送给大家。

据悉,特斯拉于今年 3 月 17 日宣布推出 FSD 智能辅助驾驶限时体验活动,活动日期从 3 月 17 日至 4 月 16 日,为期一个月。上述推送的 FSD 智能辅助驾驶支持「城市道路 Autopilot 自动辅助驾驶」:

在通行受控道路(道路使用者通过匝道入口和匝道出口进出的主干道)和城市道路上使用 Autopilot 智能辅助驾驶,会根据导航路线引导车辆驶出匝道和交叉口,在路口识别交通信号灯进行直行,左转,右转,掉头等动作。并根据速度和路线自动进行变道动作。在不设置导航路线时,会根据道路实际情况选择最优道路行驶。

法拉利 F1 车队回应「成绩取消」

3 月 23 日晚,2025 年 F1 中国大奖赛结束后,F1 官方发布声明称:

  • AlpineF1 车队的法国车手皮埃尔·加斯利、法拉利车队的摩纳哥车手夏尔·勒克莱尔,两人的赛车重量低于最低要求(800KG),成绩被取消;
  • 法拉利车队的英国车手刘易斯·汉密尔顿的赛车底部木板的厚度低于最低要求,同样被取消成绩。

昨日,法拉利 F1 车队通过个人社交媒体账号,发布声明表示,在国际汽联赛后的技术审查中,法拉利 F1 车队两台赛车由于不同的原因未能符合相关规定:

  • 夏尔所驾驶的 16 号赛车的重量低于最低限重标准 1KG;
  • 刘易斯驾驶的 44 号赛车底部木板厚度低于最低要求 0.5mm。

法拉利 F1 解释称,夏尔在当日执行了一停的策略,因此意味着他驾驶的车辆的轮胎磨损非常严重,从而导致他的赛车重量低于最低限重;而刘易斯驾驶的赛车底部木板磨损,则是由于车队在部件损耗预估上的微小偏差导致。

对于上述情况,法拉利 F1 车队表示无意获得任何优势,同时会从当日发生的事情中吸取教训,并确保以后不会再犯同样的错误。

华为前副总裁加入智元机器人,任董事长兼 CEO

据国家企业信用信息公示系统网站,近期上海智元新创技术有限公司(简称「智元机器人」)发生工商变更,公司注册资本增加至 8,045.8159 万元,值得关注的是,公司法定代表人由舒远春变更为邓泰华。据中证金牛座从知情人士处了解到,邓泰华已担任智元机器人董事长、CEO。

据了解,邓泰华是华为公司原副总裁、计算产品线原总裁。

而在昨日,据科创板日报报道,从知情人士方面了解到,智元机器人近期已完成了新一轮融资,腾讯领投。此次是腾讯投资在具身智能领域首次出手,本次有多家产业方及老股东跟投,包括龙旗科技、卧龙电气、华发集团、蓝驰创投等。据了解,智元机器人还在以 150 亿估值进行新一轮融资接洽。

据了解,智元机器人由原「华为天才少年」彭志辉(稚晖君)所创立,专注于具身智能。2024 年 9 月,智元机器人完成了 A++ 轮融资,并且估值已经超过 70 亿元人民币。近日,智元机器人正式发布其最新研发的全能探索机器人「灵犀 X2」以及首个通用具身基座大模型「智元启元大模型(Genie Operator-1)」。

💡 图灵奖得主杨立昆:LLM 无法产生真正的创新

在最近一期的 Big Technology Podcast 中,Meta 首席 AI 科学家、图灵奖得主 Yann LeCun 分享了他对当前 AI 技术限制及未来发展的深刻见解。

LeCun 明确指出,尽管当前的大型语言模型(LLMs)能够完成令人印象深刻的任务,但它们本质上仍是基于文本统计特征的复述和检索工具,无法产生真正的创新。他认为 AI 发展正面临收益递减的瓶颈,并表示即使通过合成数据或雇佣专家生成更多内容,系统在掌握基本逻辑方面仍然存在困难,投入与回报比例日益失衡。

对于当前 AI 行业的巨额投资,LeCun 认为这些资金主要用于建设未来几年所需的推理基础设施,而非仅为当下服务。他预测,虽然新范式不会在未来三年内完全成熟,但在 3-5 年内可能实现突破,与当前投资趋势基本一致。

谈及开源与专有模型的竞争,LeCun 表示开源正在展现出更快的进展速度。他以 DeepSeek 为例,指出一个自由的小团队能提出新颖想法,甚至重新定义方法,这表明开源模式在推动创新方面具有独特优势。

新产品

制糖工厂 SlimBolt 细雳线 · 古蓝正式上线

「蓝朋友」来袭!继糖橙、幻黑后,制糖工厂旗下重磅产品 SlimBolt 细雳线家族上线新色彩——古蓝。

细雳线是制糖工厂专为创作者及其使用场景打造的全新品类,是兼容 USB4 的全功能贴贴线。它颠覆式结合了「极细线径」「顶格高速」及「全磁吸」的全新体验,传输速度可达 3GB / 秒,真正做到一日拍摄,一秒传输。

春日贴贴,无论是性能还是颜色,这根蓝色细雳线都会是户外拍摄创作的好搭档。

扫码关注爱范儿小红书,在后台发送关注截图关键词「0325」抽三位小伙伴和古蓝色细雳线一起贴贴。

百度「秒哒」生成式应用开发平台上线

3 月 24 日,在百度 AI Day 上,百度正式宣布生成式应用开发平台「秒哒」全量上线。

官方介绍,秒哒是一款无代码工具,具有以下关键技术优势:

  • 无代码编程:整个开发过程中,不需要用户敲一行代码,只要描述需求,秒哒就能理解。同时,秒哒支持多轮修改,生成后继续和秒哒对话,提出修改 / 补充建议,就能即刻查看修改后的效果;
  • 多智能体协作:秒哒推出了「多智能体协作矩阵」,内置需求收集、应用生成、内容生成等十多个 AI 角色,能根据需求动态调整策略和行为,分配合适的智能体进行协作开发;
  • 多工具调用:秒哒集成了百度智能云多种工具和服务,包括数据检索、图像处理、地图定位、语音识别,以及云计算资源的管理和调度。秒哒还内置了进化式工作流,会根据用户使用习惯和反馈,不断优化智能体的决策逻辑和代码生成算法。;
  • 值得关注的是,秒哒支持用户用自然语言就能指挥多个智能体互相协作,完成应用开发。

目前秒哒已上线其官网。体验链接 👉https://miaoda.baidu.com

全新 OPPO Find X8 系列将于 4 月发布

昨日,OPPO 正式宣布将在 4 月 10 日,举行全新 OPPO Find X8 系列暨移动智能生态新品发布会。本次发布会将发布:

  • OPPO Find X8s / X8s+
  • OPPO Find X8 Ultra
  • OPPO Pad 4 Pro 平板
  • OPPO Watch X2 Mini 手表
  • OPPO Enco Free4 耳机

同日,OPPO 首席产品官刘作虎发文透露了更多关于 OPPO Find X8 Ultra 的影像系统信息。刘作虎表示,Find X8 Ultra 将采用「丹霞原彩镜头」方案,来解决复杂光源下,相机对人物肤色、环境色彩的还原不准这一问题。

刘作虎介绍,OPPO 为行业带来了首款能够对环境光进行智能分区计算,还原主体肤色与环境氛围的原彩镜头,并能判断出冷暖色分布的趋势。刘作虎强调,「丹霞原彩镜头」方案是一套完整的图像系统:

「丹霞原彩镜头」通过传感器精准捕捉画面中主体与环境的色彩信息,再结合算法对复杂的环境光线进行精准的分区识别与计算,最终还原出准确、美观且自然的肤色。

努比亚 Z70 Ultra 摄影师版入网图曝光

近日,据电信设备进网许可信息显示,努比亚 Z70 Ultra 摄影师入网。从入网证曝光的外观看,新机沿袭了努比亚摄影师系列的经典相机外观设计,左侧搭载物理滑动键,右侧支持一颗实体机械快门键,预计近期发布。

努比亚 Z70 Ultra 于 2024 年 11 月 21 日正式发布,采用 35mm 定制光学可变光圈主摄;长焦为 64MP 的潜望镜长焦,支持长焦微距以及 f2.48 的大光圈;超广角等效焦距从 18mm 变更为 13mm。

新消费

QQ 宣布调整短视频业务

3 月 24 日晚,腾讯 QQ 正式对外宣布,因运营策略调整,QQ 短视频业务自 2025 年 4 月 2 日起(若遇特殊情况可能延后调整),不再支持用户发布个人作品和浏览他人的作品等体验。用户过往的短视频作品将自动保存至 QQ 空间。而据QQ 短视频客服表示此举并非意味着「停运」,而是近期可能会调整,具体需要关注 QQ 短视频手机端官方后续调整。

QQ 短视频于 2020 年 4 月亮相,其从原来的 QQ 小世界更名而来。QQ 小世界最初定位为一个内容娱乐社区,支持用户上传图文和视频内容。随着市场趋势和用户需求的变化,小世界逐渐转向以短视频内容为重点。

本月初,澎湃新闻曾从相关内部人士处了解到,QQ 因伴随产品功能不断丰富,已逐渐显露臃肿,影响用户社交体验。在此背景下,QQ 开始深度变革,并进行「瘦身」,而 QQ 短视频业务便是其中之一。

此外有消息称,腾讯平台与内容事业群(PCG)近期对旗下的 QQ 业务线进行了部分业务人员的调整。调整主要针对 QQ 小世界团队,或将取消大量岗位,目前该板块人员规模约在 300 人左右。

美团测试「成人情趣」一级入口

据 Tech 星球获悉,美团成人情趣用品业务启动服务升级,并在近期,美团 App 开始测试一个名为「成人情趣」的一级入口,给予了较高的流量位置。

报道还指出,从去年开始,美团正在做一个成人店品牌,叫 LOVE LAB,隶属于美团买药,采用全托管自营模式,平台参与整体选品、店铺运营、商品供应链建设,目前其在深圳广州试点。据美团员工透露,他们要打造成人行业即时零售场景第一消费新知品牌。

据了解,美团 LOVE LAB 是专门经营成人用品行业的连锁门店品牌,以外卖店的形式经营。LOVE LAB 主要服务于有品质消费需求、中高消费能力的中年用户。据知情人士透露,LOVE LAB 可以提供商品更优质、隐私更完善、配送更快捷的消费体验。值得关注的是,LOVE LAB 于 2024 年 2 月上线首家合作门店,4 月便完成了经营爬坡。

中国福彩回应「AI 预测彩票」:系骗局

近日,中国福彩发文称,近期一些不法分子打着「AI 预测彩票号码,百分百中奖」的幌子,诱导购彩者付费购买所谓的「预测服务」,让不少人上当受骗。对此,中国福彩强调:所谓 AI 预测彩票号码,100% 是骗局。

中国福彩解释,彩票是一种概率游戏,每一种组合有着相同的中奖概率,并且每次开奖都是一次独立的随机事件,毫无规律可言。同时中国福彩也表示,即使 AI 能对历史开奖号码进行所谓的「复杂」分析,也无法预测下一次开奖号码,因为彩票的每次开奖都是独立事件,不受之前结果的影响。

中国福彩提醒:

  • 在追求幸运的同时,请务必保持清醒的头脑和理性的判断;
  • 请务必警惕,不要被那些虚假的承诺和诱惑所迷惑;
  • 提升自己的防骗意识,增强识别各类骗局的能力,坚决不上当受骗,保护好自己的财产安全。

京东外卖日订单破百万

3 月 24 日,京东黑办法发文宣布,京东外卖上线 40 天,日订单量已突破 100 万。

据京东介绍,「0 佣金」政策助商家获益,因此平台上现已拥有大量月销订单突破 2,000 单门店。据悉,目前京东外卖平台上,已有超 45 万家品质堂食餐厅为全国 142 城用户提供餐品。

值得关注的是,今年 2 月 19 日,京东宣布,自今年 3 月 1 日起,公司将逐步为京东外卖全职骑手缴纳五险一金,为兼职骑手提供意外险和健康医疗险。随后更是发文确认,京东将承担外卖骑手五险一金的所有成本。

好看的

《星际宝贝史迪奇》真人大电影确认引入

昨日,迪士尼电影宣布全新真人大电影《星际宝贝史迪奇》将引入中国内地,上映时间待定。

影片改编自 2002 年动画电影,讲述孤独的夏威夷小女孩莉萝和看起来调皮捣蛋的外星生物史迪仔的冒险故事。

《星际宝贝》真人电影由迪恩·弗雷斯彻-坎普执导,玛雅·基洛哈饰演莉萝,西德妮·阿古顿饰演饰演莉萝的姐姐兼监护人兰莉,扎克·加利凡纳基斯配音独眼霹雳,比利·马格努森等也出演,而故事主角「史迪仔」为电脑 CG 打造;影片将于 5 月 23 日北美上映。

阿根廷电影《荒蛮故事》中国定档

阿根廷电影《荒蛮故事》正式宣布中国内地定档,将于 4 月 11 日上映。

据了解,《荒蛮故事》由六个独立的短篇故事组成,讲述了航班复仇、深夜餐厅下药、路怒症引发血案、因为一张罚单爆破大楼、酒驾逃逸顶包、婚礼出轨的故事,以极端荒诞的方式展现了人在面对压力、背叛和不公时的本能反应,探讨了愤怒、复仇和社会不公等主题。

影片由达米安·斯兹弗隆执导,里卡杜·达林、达里奥·葛兰帝内提、艾丽卡·里瓦斯等主演,于 2014 年 5 月 7 日戛纳电影节首映,同年 8 月 21 日阿根廷上映。

漫威《雷霆特攻队*》宣布引进中国内地

3 月 24 日,漫威影业宣布旗下新片《雷霆特攻队 *》将引进中国内地,暂未定档。

《雷霆特攻队 *》改编自库尔特·布塞克的同名漫画系列,讲述一群曾经担任反派的角色组队为政府执行任务的故事。

影片由杰克·施莱尔执导,佛罗伦斯·珀、塞巴斯蒂安·斯坦、大卫·哈伯、怀亚特·拉塞尔等主演,将于今年 5 月 2 日北美上映。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


三个亿砸广告不如下乡刷墙?别再问为啥你奶也玩上AI了

By: Selina
24 March 2025 at 16:54

前阵子 Manus 出圈的时候,邀请码制度引发了一阵对于 AI 产品营销的讨论。再往前,还有过「国产 AI 的钱都花在投放上」的讨论。

正当所有人都在讨论花钱投放值不值的时候,元宝,以一种截然不同的姿态站了出来:


这就到了开始走下沉路线的时候了……?

看上去很像整活儿(实际可能也是整活),但要说不说,下沉路线并非想象中的那么离谱。

斯坦福大学最近发布了一项研究结果,分析了 2022-2024 间,多达上百万条数据集。这也是 ChatGPT 发布之后,大语言模型快速走入生活的两年,在各个人群中都快速渗透。

其中,撰写产品和服务投诉是一个 AI 可以发挥大用处的场景。斯坦福的研究人员调用了一个公开数据库,里面是美国消费者金融保护局维护的投诉数据,专门收集针对金融产品和服务的投诉。

研究人员发现,受教育程度较低的地区,有更多消费者借助 LLM 工具撰写投诉内容。虽然整体的采用率,还是城市地区更高(18.2%,对比农村地区的 10.9%),但是相比之下,受教育程度较低的用户,更倾向于使用 AI(19.9%,对比受教育程度更高地区的 17.4%)。

元宝的下沉路线投放,说不定是 next level,站在大气层也说不定呢?

曾经的 AI 营销:大力出奇迹

AI 产品在营销上,或多或少都有些「土味」操作。比如曾经投放力度冠绝群雄的 Kimi,就尝试过各种类型的推广。

比如电梯里的视频广告,暴力循环,洗脑型推广。

小红书网友锐评:被 AI 省下的脑力,终归是要还的。

还有官方下场打捞由用户做的动态视频。

Kimi 的推广风格跟它的产品定位分不开,主打城市白领人群,而且非常强调年轻、整活。

这种思路更多是利用了用户对「与非人类」交互的本能好奇,把聊天机器人人格化,把生成式算法包装得既有实用价值,又能提供情绪价值。

使用这样一款产品,就成了一种「身份标识」。思路不算新,但配合大规模大手笔的投放,曾经还是横扫了一大批用户的。

不过,论推广,没有谁比背靠鹅厂的元宝更无孔不入。短短的两周,曾经存在感一般的元宝,被一下子捧到了台前,而且是用尽一切方法的强捧。

从看广告下,下 App,拿奖励。

到开屏弹窗。

再到把下载链接放在微信搜索框里、朋友圈里、公号推荐流里,只有你想不到没有它做不到。路人被轰炸到要问一句:到底什么是元宝?

这一波投放,据说两周内花了三个亿,调动的腾讯系 app 不计其数——去农村刷墙,小菜一碟啦。

没有需求,就创造需求

在元宝上,我尝试问了一些农作场景的简单问题,比如「种植水稻,遇到强降雨怎么应对?」以及「母猪的产后护理有哪些注意事项?」


看上去还挺全面,但究竟是不是对的,只能专业的养殖户才能看得出来。就像让它做 excel 表格、word 修订这些我特别懂的任务,我一眼能看出问题来。但对于不够了解的领域,只能将信将疑。

这和模型的能力并不完全相关。元宝接入了 DeepSeek 之后,提高了生成的质量,并且提供了清晰的思维链过程,引用链接这些也更清楚了。

农作是一件相当依赖经验的事,对天气、季节、虫害的处理经验,很多并不是写在网上,而是记在农民脑子里。

2016 年时,安卓操作系统上有 561 个与农业食品相关的应用程序,iOS 操作系统上有 589 个。那时候就有不少大公司希望能给农业生产提供帮助,拜耳在德国推出过一款应用程序能识别不同农作物中两百多种有害生物和疾病,还能提供有效的控制措施。巴斯夫在英国推出了杂草识别,主打功能是鉴定出 140 种杂草。

可以看到,图像识别和深度学习等技术,进入农业生产的时间,比大众想象的要早很多。然而这实在是一个依赖经验的领域,农民真的会在种植水稻的时候,萌发去「问下 AI」的需求吗?很难想象。

然而这些技术手段,是不是真的能造福下沉市场,并不是重点。

斯坦福的研究里发现,受教育低的地区,使用 AI 的频率更高,乍一看很「反直觉」,但并不难理解:其它数据没有明显差异的情况下,它意味着这样一群用户,更容易依赖 AI。

在研究里对比了几个不同维度的数据,在 2023 年年初,城市地区和农村地区的差距并不大,但越往后,城市地区的均衡水平为 18.2%,城市化不高的地方仅为 10.9%。

也就是在城市地区,有更多的人使用 AI 工具,而农村地区相对较少——可是他们的使用频次高。

将地区与州平均水平的学士学位获得率进行比较,教育程度较低的地区到了 2024 第三季度,使用频次依然稳定在约 19.9%的水平。

看来是真好用,一用就放不下了——这可能才是刷墙的真正用意,所谓的占领用户心智。

元宝可能也很清楚这一点:现阶段的 AI 产品推广,只能通过符号化营销,凭空「创造需求」。「农村包围城市」的路线,对于 AI 应用的营销策略而言,未必就有效,只是需要这种方式打出声量。

技术复杂性,一定程度上让符号化成为必要手段。早期智能手机推广时,会把「移动设备」简单转化为「能看电影的手机」。毕竟要解释前者的话,得浪费不少口舌,可能还吃力不讨好。

对尚未体验过的服务,用户是缺乏需求想象力的。尤其在生成式 AI 身上,相比于工具化的软件、应用,效率的提升好量化,现阶段 AI 的「智能」程度缺乏普世度量标准,更缺乏具象的需求想象。

符号化的营销方式,主动建构、填补需求空白,从而让用户和产品建立关系。这是目前 AI 应用推广的「基础操作」,每一步既是因也是果。

不过这里有一个因素没法被左右:技术本身。去年上半年,谁能预计到年尾会闯出一个 DeepSeek,直接杀死了比赛。

到底能不能真正让产品和用户建立关系,冲破时间和使用习惯,只能由技术本身的进化决定。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


苹果 AI 紧急换帅,新 Siri 可以跳票但不能失败

By: 苏伟鸿
21 March 2025 at 18:26

每年的这个时候,苹果都将召集 100 名最具影响力的高管,前往库比提诺附近的一个绝对保密的地点,决定这家全球市值第一的公司,如何走出下一步。

不用想,今年会议桌上的焦点,将会是苹果近几年最大的烫手山芋——Siri。

在 3 月初宣布AI 增强版 Siri 跳票之后,苹果股价单日暴跌 4.85%,创下两年半来的最大跌幅,各种负面评论更是足足刷屏了两周。

3 月 21 日,彭博社爆料称,苹果 CEO 蒂姆·库克已经对目前的 AI 团队失去了信心,并更换了 AI 团队的负责人——现在由 Mike Rockwell 负责,他之前是 Apple Vision Pro 团队的关键人物。

对于苹果而言,AI Siri 只能成功,不能失败。

AI Siri 的真实情况究竟如何?

2024 年的开发者大会,苹果不出所料地公开了自己的 AI 方案:Apple 智能。

文生图、写作工具、图片消除……这些几乎家家必备的功能乏善可陈,重头戏在「增强 Siri」上。

和以前机械的语音助手比,AI 版本的 Siri 有了理解上下文和用户情景的能力,可以读取屏幕,在 App 内和跨 App 进行操作。

根据 WWDC 上的演示,用户可以直接问类似「我该什么时候去接妈妈?」「我和家人什么时候吃午餐?」等个人问题,Siri 会直接从相关的邮件、短信消息中提取相关信息回答,不需要用户提前设定好日历安排,成为名副其实的「个人助理」。

只是这个功能没有马上随着新系统开始测试,甚至也没能在年内推出,苹果当时对它的预期就是 2025 春季面世。

著名科技评论人 John Gruber 去年现场参加了 WWDC,他认为发布会上的「增强 Siri」只是在分享一些模拟的概念视频,甚至不能说是演示。在发布会视频播放后的线下演示环节,苹果工作人员实际操作了写作工具、照片清理等功能,这些都包含在目前正式发布的 Apple 智能集合之中。

但丝毫没有增强 Siri 的身影,即使这已经是全程由工作人员操作的受控演示环境,很大程度佐证了在 WWDC 举办时,「增强 Siri」基本只存在于苹果的幻灯片中。

从现在来看,没有任何演示已经是一种危险的信号,但当时大部分媒体都因为苹果在功能兑现上的良好口碑,选择相信苹果会按时带来增强 Siri。

虽然苹果从 2017 年开始频繁在发布会上画饼,但基本都能按时兑现,即使延期,也很少超过几个月,像 Siri 这样一推迟就是一年的情况极其罕见。

  • HomePod:2017 年 6 月官宣,原定 12 月上线,最终 2018 年 2 月发布
  • AirPower 无线充电板:2017 年 9 月官宣,原定 2018 年上线,最终在 2019 年 3 月宣布取消
  • FaceTime 群聊:2018 年 6 月官宣,原定 9 月上线,最终 2018 年 12 月发布
  • 通用控制功能:2021 年 6 月官宣,原定 10 月发布,最终 2022 年 3 月 发布
  • CarPlay 2.0:2022 年 6 月官宣,原定 2024 年推送,目前仍在开发中
  • 台前调度(iPadOS 16):2022 年 6 月官宣,原定 9 月推送,推迟 10 月发布

在以 Siri 和其他 Apple 智能功能为卖点的 iPhone 16 发布后,苹果一直在对这些功能进行宣传和炒作,甚至还有单独针对「增强 Siri」功能进行演示的电视广告,即使它们还完全没有踪影。

▲ Bella Ramsey 出演的 iPhone 16 和「个人化」Siri 广告

所以现在的增强 Siri 进度究竟如何?彭博社爆料,在苹果的测试中,Siri 只有 75-80% 左右的时间能正常工作,而苹果内部想要它完全成为用户真正能依赖的工具。

通过 Daring Fireball 宣布 Siri 延迟后,苹果也将这条广告撤下,并且还在官网相关功能简介中补充了免责声明,但更大的麻烦还在路上。

在 Siri 团队换帅消息出来的同一天,苹果也陷入了一场集体诉讼之中,被指控推广其被推迟的 Apple 智能,构成了虚假广告和不公平竞争。

曾经领先的 Siri,为什么会走到这一步?

2011 年,Siri 在 iPhone 4S 发布会上压轴登场,语音查天气、设日程、打电话的一通演示操作,不仅震撼了在场的与会者,更让全世界都感觉一扇未来之门在徐徐展开。

结果,十几年过去,iPhone 已经改头换面,Siri 却仿佛冻龄,现在依旧只能查天气、设日程、打电话。

当时乔布斯对这项技术的期待值很高,即使身体每况愈下,依旧深度参与了收购 Siri 的过程。他看到的不仅是语音助手这种交互的可能性,更是背后能从用户中不断学习、自我改进的人工智能技术。

但不需要特别熟悉苹果的朋友都知道,乔布斯和库克的苹果是两家风格迥异的公司,后者更强调科技的人文属性,优先级甚至比创新更高。

而在面对「战未来」的抉择问题,苹果自然在人工智能和空间计算中,选择了潜在伦理问题更少的后者。去年谈论苹果的人工智能策略时,彭博社就爆料称,苹果内部对生成式 AI 的态度非常消极,导致了他们在人工智能技术的落后,让这家公司在大模型技术上没有太多积累。

在介绍沉入系统底层、广泛收集用户数据的 Apple 智能时,苹果花了很长时间大谈背后的隐私策略,用户不一定听得懂这些深奥的技术原理,但起码会觉得,数据交给苹果,很放心。

▲ 「AI 隐私的全新标准」

即使是再小心的苹果,也无法摆脱目前的 AI 幻觉。前段时间 Apple 智能正式上线的「通知摘要」功能也在上线后不久被发现有「胡编乱造」的情况。BBC 指出,这个功能错误地改写了自己应用的通知,捏造 PDC 世界飞镖锦标赛的冠军,和网球运动员 Rafael Nadal 的性取向。

▲ 这上面的通知摘要内容基本全是捏造的,图源:BBC

对于正确率只有八成,却又是整个 AI 体验核心的 Siri,苹果自然采取更谨慎的态度。

宣布延期后,不少人开始「招魂」乔布斯。如果是那个男人,这一切会不会有所不同?

著名分析师郭明錤认为,如果是乔布斯,他会和「天线门」一样亲自出面致歉用户,而不是像现在这样,通过第三方渠道宣布这个事情。

而 John Gruber 援引了乔布斯当年对错漏百出的 MeMobile 邮件服务团队的严肃处理,表示这应该才是正确的应对方式。

其实,如果是乔布斯,这一切大概率都不会发生,因为他不可能错过 Siri 这个再一次领先时代的机会。

只许成功,不许失败的 Siri

苹果上次千呼万唤也出不来的「饼」,想必大家不会陌生:

两者的困境都很类似:过于提前发布,却没能按时解决技术挑战,成了一张空头支票。

但我们都知道,增强 Siri 不会和 AirPower 一样胎死腹中,这个产品,苹果一定会想办法做出来,即使需要再来一年,甚至两年的开发时间。

市场并没有要求苹果去做一个 AirPower,有没有这个产品,其实对苹果来说几乎无伤大雅,整个发布事故最大的槽点,只是苹果太早发布了一个没有能力完成的产品而已。

但这次情况要更严峻。生成式 AI 时代,苹果一直是非常被动的追赶者,亮点寥寥的 Apple 智能就是苹果的对策。每一家企业都在 All in AI,好不好用,消费者买不买单另说,但不做,就意味着跟不上版本,态度上就要被淘汰。

而增强 Siri 是 Apple 智能的核心体验,奠定了苹果生态中 AI 的解决方案,所以在去年那场 WWDC,苹果只能硬着头皮端上一碟还算是原材料的菜,就是为了稳定市场,留住信任。

苹果算是被 AI 浪潮驱策前行,但现在骑虎难下。

在苹果确认增强 Siri 跳票之后,有两个相关的消息接连曝出。

第一个和苹果智能家居计划有关。去年开始,不断有报道指出苹果准备大力发展自家落后的家居生态。最新消息指出,苹果原本是想在这个月发布智能家居中心新品,但因为这些产品依赖增强的 Siri 功能,只能不断延期。

也就是说,Siri 的落后不仅影响的是用户体验那么简单,也制约了苹果接下来的产品和生态布局。

另一个消息则是苹果打算重新设计操作系统的界面,包括 iOS、iPadOS 和 macOS 多个平台,据悉将会是「十年来最大程度」的翻新。

▲ iOS 19 的一种假想图,据悉新系统会采用 visionOS 的设计风格

所以今年的 WWDC,苹果打算主谈 UI 而不是 AI,更像是一次围魏救赵,转移人们对它落后 AI 功能的注意力。

因为根据彭博社爆料的 Siri 小组内部会议,苹果高管 Robby Walker 表示,增强版的 Siri 实际上没有一个准确的发布时间,明年春季只是一个「目标」,不意味着一定就在那时发布。

在手机 AI 竞争日渐加速的当下,苹果还要回过头完成以前的功能,不禁让人担心会不会进一步掉队。

转念一想,其实苹果激流勇退,何尝不是一种以退为进。

外媒 The Verge 在 AI Siri 跳票后发布了一篇文章,标题为《所有这些糟糕的 AI 正在破坏整整一代的智能产品》,批评了当下智能设备对 AI 助手功能的炒作:发布时大谈多模态和交互革命,实际上手一个比一个不靠谱。

而苹果自然是当中最违反游戏规则的一个,因为他们的 AI Siri,甚至还不能上手。

但同时,他们或许也是最遵守游戏规则的一个,因为他们不愿意发布这个无法百分百按介绍运行的半成品,而其他厂商并非如此。

虽然正式发布的日子没个准信,但苹果内部仍然非常看好增强 Siri。在对 Siri 团队进行了严厉批评后,Robby Walker 还是称赞了这些技术人员,表示「我们应该对所做的事情感到自豪」:

我们游了数百英里,已经创造了游泳距离的吉尼斯世界纪录,但我们仍然没有游到夏威夷。我们被激怒不是因为我们游得很棒,只是因为我们还没到达目的地。

直接改组管理高层的操作,在苹果内部并不常见,Mike Rockwell 的加入有望加速苹果在 AI 方面的追赶。

Rockwell 不仅成功带领团队开发出 Vision Pro 头显,多年来他也一直主张让 Siri 更加智能化,这几周还在不断为 Siri 小组提供建议,原本他也被前 AI 团队领导者 John Giannandrea 视为「接班人」。

▲ Mike Rockwell

加上苹果内部越来越将 Vision Pro 项目视为「AI 产品」,Rockwell 在硬件方面的经验也能很好帮助 AI 和未来苹果设备的结合。

喧嚣过后,市场也还是选择信赖苹果,本周股价已经开始缓缓上升,释放出一个积极的信号。

还在探索的行业,给了苹果一个喘息的机会后来居上,但不是只有苹果想游到夏威夷,这次留给苹果的时间,已经远远没有十四年这么多了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Sam Altman :GPT-5 将免费开放,DeepSeek 教训了我们 | 万字访谈实录

By: 爱范儿
21 March 2025 at 14:50

我认为 DeepSeek 确实是个很棒的团队,也做出了很优秀的模型,但他们真正走红的原因,并不完全是模型本身的能力。

 

这对我们来说是一个教训,那就是当我们隐藏一个功能时(思维链),我们给其他人留下了获得病毒式传播的机会。这是一个很好的警醒。它也让我重新思考我们在免费层中提供的内容, GPT-5 将可以免费使用 。

硅谷知名分析师 Ben Thompson 最近与 OpenAI CEO  Sam Altman 进行了一场深度对谈,Altman 聊了很多内容,包括开源模型、GPT-5 的进展、和 DeepSeek 的竞争,透露了 OpenAI 未来的发展方向,对 AGI 的观察……

在这个访谈中,也再次让人感受到 DeepSeek 等开源模型对 OpenAI 的影响,最近两个月 OpenAI 的产品发布节奏,也开始跟随着思维链和 Agent 等在中国出圈的模型和产品。

Sam Altman 提到 OpenAI 的崛起是「一次疯狂的机会」。ChatGPT 的成功,让这家公司「被迫」成为了一家消费者科技公司。

现在,这也成为了 OpenAI 当下最大的挑战、

APPSO 整理这篇访的关键点:

1. DeepSeek 的出现是一个「警醒」,促使 OpenAI 重新考虑免费层策略。

2.暗示 GPT-5 即将推出,而且免费用户也可以体验 GPT-5。

3.OpenAI 希望打造一系列个数十亿用户规模的产品。

4.Sam Altman 认为 10 亿日活用户比最先进的模型更具价值。

5.OpenAI 未来的定位,三足鼎立:
·构建大型互联网公司。
·构建推理的基础设施。
·做最好的研究以及最好的模型。

6.幻觉有其价值,是创造力的体现。关键在于控制幻觉,使其在用户需要时出现。

7.ChatGPT 的意外成功迫使 OpenAI 转型,从研究实验室转型为消费科技公司。

8.Sam Altman 承认这并非最初的计划,原本希望专注于 AGI 研究。

9. AGI 是一个模糊的概念,没有统一的定义,倾向于将能够自主完成一系列任务的代理定义为 AGI。

以下是访谈实录,略经 APPSO 编辑和精选:

GPT-5 将可以免费使用

主持人: 从我的角度来看,当你谈到服务数十亿用户,成为一家消费者科技公司时,这意味着广告。你不同意吗?

SA: 我希望不是。我并不反对。如果有充分的理由去做,我不会固执己见。但是,我们有一个很好的业务模式,那就是销售订阅服务。

主持人: 距离盈利和收回所有投资,还有很长的路要走。而且,广告的好处在于,它扩大了你的潜在市场范围,也增加了深度,因为你可以提高每个用户的收入,而广告商会为此买单。你不会遇到任何价格弹性问题,人们只会更多地使用它。

SA: 目前,我更感兴趣的是弄清楚如何为一个真正出色的自动化软件工程师,或者其他类型的代理,向人们收取高额费用,而不是通过基于广告的模式来赚取一些小钱。

主持人: 我知道,但大多数人并不理性。他们不会为生产力软件付费。

SA: 让我们拭目以待。

主持人: 我为 ChatGPT Pro 付费,我不是合适的讨论对象。但我只是——

SA: 你觉得你从中获得了很好的价值吗?

主持人: 当然,我觉得。我认为——

SA: 太好了。

主持人: ——尤其是 Deep Research,它太棒了。但是,我可能更怀疑人们是否愿意主动为某些东西付费,即使数学计算结果很明显,即使它能让他们提高很多效率。同时,我看到你们在谈论构建记忆。让谷歌广告模式如此出色的部分原因在于,他们实际上并不需要非常了解用户,因为人们会在搜索框中输入他们想要查找的内容。人们在你们的聊天机器人中输入了大量的信息。

即使你们投放最「愚蠢」的广告,在很多方面,即使你们无法追踪转化,你们的定向能力也将是超凡的。而且,顺便说一句,你们没有现有的商业模式需要担心被削弱。我的感觉是,这与 OpenAI 的每个人最初的设想完全背道而驰,这是最大的障碍。但对我来说,从商业分析师的角度来看,这似乎非常明显,而且你们已经晚了。

SA: 比起传统的广告,我更感兴趣的是尝试其他方式。比如,很多人使用 Deep Research 来进行电子商务。我们是否可以提出某种新的模式,我们永远不会为了改变商品位置或其他任何东西而收钱,但是,如果你通过 Deep Research 购买了你找到的商品,我们会收取 2% 的联盟佣金,或者类似的东西。那会很酷,我对此没有任何意见。也许,我们可以找到一种体面的方式来做广告,但我不知道。我其实不太喜欢广告。

主持人: 这始终是一个障碍。马克·扎克伯格也不太喜欢广告,但他还是找人做了,而且「别告诉我细节」,让钱神奇地出现。

SA: 是的。再次强调,我喜欢我们目前的商业模式。我不会说我们将来一定会做什么,或者一定不会做什么,因为我不知道。但是,我认为,有很多有趣的方式,在我们当前的变现策略清单上,它们的优先级比广告更高。

主持人: 你有没有觉得,当 DeepSeek 出现并迅速走红,人们开始使用并看到了它的推理能力时,一部分原因是,使用过 ChatGPT 的人没有那么印象深刻,因为他们使用过 o1 模型,他们知道它的潜力。

SA: 是的。

主持人: 但免费用户,或者只是偶尔使用过一次的人,并没有这种感觉。这实际上是不是一个例子,说明你们的沉默寡言,可能让其他产品看起来更令人印象深刻?

SA: 完全是。我认为 DeepSeek——他们有一个很棒的团队,他们开发了一个很棒的模型。但是,我认为,模型的能力并不是真正让他们获得病毒式传播的关键。

这对我们来说是一个教训,那就是当我们隐藏一个功能时(我们隐藏了「思维链」),我们有充分的理由这样做,但这确实意味着,我们给其他人留下了获得病毒式传播的机会。我认为,从这个角度来说,这是一个很好的警醒。而且,它也让我重新思考我们在免费层中提供的内容, GPT-5 将可以免费使用 ,这很酷

主持人: 哇,GPT-5 的暗示。好吧,我稍后会问你更多关于这方面的问题。

主持人: 当你考虑你的商业模式时,我一直认为,你的商业模式非常适合那些「高主动性」的人,也就是那些会主动使用 ChatGPT,并且愿意为之付费的人,因为他们看到了它的价值。但是,有多少人是「高主动性」的呢?而且,「高主动性」的人会尝试所有其他的模型,所以你们必须保持在一个相当高的水平上。相比之下,如果我有一个好用的模型,它就在那里,而且我不需要付费,它还会不断改进,人们会通过我赚更多的钱,但我不知道,因为我对广告没有意见,就像大多数互联网用户一样。

SA: 再次强调,我们对任何需要做的事情都持开放态度。但是,相比于传统的广告,我对刚才提到的那种电商模式更感兴趣。

和 DeepSeek 及其他公司的竞争

主持人: 关于 DeepSeek,你有没有想过,为什么人们不为美国公司欢呼?你有没有觉得,DeepSeek 的走红,也带有一些「反 OpenAI」的情绪?

SA: 我没有。也许有吧,但我肯定没有感觉到。我认为有两件事。第一,他们把一个前沿模型放在了免费层。第二,他们展示了「思维链」,这很吸引人。

主持人: 大家会觉得,「哦,它好可爱。AI 正在努力帮助我」。

SA: 是的。我认为主要是这两件事。

主持人: 在你们最近提出的「AI 行动计划」中,OpenAI 表达了对公司基于 DeepSeek 模型进行开发的担忧,这些模型是「免费可用」的。如果这真的是一个问题,那么解决方案难道不是让你们的模型也免费可用吗?

SA: 是的,我认为我们应该这样做。

主持人: 那么,什么时候——

SA: 我现在还不能宣布发布日期,但从方向上来说,我认为我们应该这样做。

主持人: 你之前说过,拥有 10 亿用户网站比模型更有价值。那么,这是否应该贯穿到你们的发布策略,以及你们对开源的看法中?

SA: 敬请期待。

主持人: 好的,我会期待的。没问题。

SA: 我不是在提前透露什么,但敬请期待。

主持人: 我想,接下来的问题是,这是不是一个机会,让你们回归最初的使命?如果你回顾一下最初的声明,DeepSeek 和 Llama……

SA: Ben,我正在努力给你尽可能多的暗示,但又不能直接说出来。拜托。

主持人: (好吧,没问题。公平,公平。有没有一种感觉,这让人感到解放?对吧?你回想一下那个 GPT-2 的公告,以及关于安全性和其他可能的问题。此时看起来有些老套。是否有一种感觉,秘密已经泄露?在这种情况下,对这些发布保持某种珍贵的态度有什么意义?

SA: 我仍然认为未来可能会有很大的风险。我认为我们过去太保守了是公平的。我也认为,在你不清楚情况的时候,稍微保守一点,这个原则并没有错。我还认为,在目前这个阶段,这项技术会扩散到各个领域,无论是我们的模型做了坏事,还是其他人的模型做了坏事,这又有什么区别呢?但怎么说呢,我还是希望我们能尽可能地做一个负责任的参与者。

主持人: 另一个最近的竞争对手是 Grok。从我的角度来说,在过去一年左右的时间里,我对于 AI 有过两次,我认为很有趣的心理体验。一次是在我的 Mac 上运行本地模型。出于某种原因,我很清楚地意识到它就在我的 Mac 上,没有在其他任何地方运行,这实际上是一种非常棒的感觉。另一次是使用 Grok,我不会觉得有什么“道德警察”会在某个时刻跳出来指责我。我认为,必须承认,ChatGPT 在这方面已经有了很大的改进。但是,Grok 是否让你觉得,实际上,我们可以在这方面走得更远,让用户像成年人一样(自由使用)?

SA: 事实上,我认为我们已经做得更好了。我认为我们之前在这方面确实做得不好,但在过去的六到九个月里,我认为我们已经有了很大的改进。

主持人: 我同意。它确实已经变得更好了。

SA: 这曾经是我对我们产品最关心的问题之一。但现在,怎么说呢,作为用户,我不会觉得困扰了,我认为我们已经做得不错了。所以,我过去经常思考这个问题,但在过去的六到九个月里,我没有再想过了。

成为一家消费科技公司是意外

主持人: 谈一下非营利组织的问题——有一种说法,你提到了那个「神话」。说你们成立非营利组织,是为了出于利他主义的原因,同时也是为了与谷歌竞争人才。仅仅是这样吗?

SA: 你是问,为什么选择成为非营利组织?

主持人: 为什么选择成为非营利组织,以及随之而来的所有问题?

SA: 因为我们当时认为我们只是一个研究实验室。我们根本没有想过我们会成为一家公司。我们当时的计划就是发表研究论文。没有产品,没有产品计划,没有收入,没有商业模式,也没有这些方面的计划。在生活中一直对我有帮助的一件事,就是在黑暗中摸索,直到找到光明。我们在黑暗中摸索了很长时间,然后找到了有效的方法。

主持人: 没错。但这个非营利组织的身份,现在是不是有点像套在公司脖子上的磨盘?如果可以重来,你会采取不同的做法吗?

SA: 当然。如果我能预知后来发生的一切,我们肯定会采用不同的组织结构。但我们当时并不知道,我认为走在创新前沿的代价,就是你会犯很多愚蠢的错误,因为你深陷战争迷雾之中。

主持人: 关于 ChatGPT,以及没有人预料到你们会成为一家消费者科技公司,我有一些更多的理论想和你探讨。这一直是我的观点:你们原本是一个研究实验室,当然,我们会发布一个 API,也许能赚点钱。但你提到了那六个月的扩张期,必须抓住这个从天而降的机会。科技界有很多关于员工流失的讨论,一些知名人士离开了,等等。

在我看来,似乎没有人是冲着成为一家消费产品公司而来的。如果他们想在 Facebook 工作,他们完全可以去 Facebook。这也是另一个核心的矛盾点:你们有了这个机会,不管你们想不想要,它就在那里。这意味着,这里的情况和最初已经大不相同了。

SA: 这么说吧,我没什么可抱怨的,对吧?我得到了科技行业最好的工作。如果我开始抱怨这不是我想要的,那对我是多么不幸等等,那就太不近人情了。我想要的是管理一个 AGI 研究实验室,弄清楚如何构建 AGI。

我真的没想过要经营一家大型的消费者互联网公司。我从之前的工作中就知道(那份工作在当时也是我认为科技行业最好的工作,所以我觉得自己非常、非常幸运,两次都得到了最好的工作),经营一家大型消费者公司需要投入多少精力,以及在某些方面有多么困难。

但我也知道该怎么做,因为我之前指导过很多人,也观察了很多。当我们发布 ChatGPT 的时候,每天都会有用户激增,导致我们的服务器崩溃。然后到了晚上,用户数量下降,大家都觉得,「这下完了,这只是一个短暂的病毒式传播」。然后第二天,峰值又升高了,然后又下降,「这下完了」。到了第五天,我就觉得,「哦,天哪,我知道接下来会发生什么了,我见过这种情形很多次了」。

主持人: 不过,你真的见过这种情形很多次吗?因为整个游戏的关键在于客户获取。对于很多初创公司来说,这就是最大的挑战。真正通过自然增长、病毒式传播来解决客户获取问题的公司,其实非常少。我认为,在这个领域,真正走在 OpenAI 前面的公司是 Facebook,那还是在 2000 年代中期。我觉得你可能高估了你之前见过这种情形的次数。

SA: 好吧,在这个规模上,确实,我们可能是最大的。我想,我们可能是自 Facebook 以来成立的规模最大的公司了。

主持人: 这种规模的消费者科技公司实际上非常罕见,这种情况并不经常发生。

SA: 是的。但我之前见过 Reddit、Airbnb、Dropbox、Stripe,还有很多其他的公司,它们都实现了这种惊人的产品市场契合,以及爆发式的增长。所以,也许我没有见过这种规模的。在当时,你并不知道它会发展到什么程度,但我之前见过这种早期模式。

主持人: 你有没有告诉过大家这将会发生?还是说,那是你根本无法传达的事情?

SA: 我确实告诉过大家。我把公司的人召集起来,说:「这将是非常疯狂的,我们有很多工作要做,而且必须尽快完成。但这是一个从天而降的绝佳机会,我们要抓住它,接下来会是这样……」。

主持人: 有没有人理解你或者相信你?

SA: 我记得有一天晚上我回家,双手抱头,感觉很沮丧。我说:「天哪,Oli [ Oliver Mulherin ],这太糟糕了」。他说:「我不明白,这看起来很棒啊」。我说:「这真的很糟糕,对你来说也很糟糕,你只是还不知道,但接下来会发生这些……」。但是,我想没有人真正理解。这是我之前经历的一个特殊之处,我能够很早就意识到这一点,但没有人能感受到最初几周会变得多么疯狂。

主持人: 五年后,什么会更有价值?一个拥有 10 亿日活跃用户网站,不需要进行客户获取,还是最先进的模型?

SA: 我觉得是 10 亿用户的网站。

主持人: 无论如何都是这样吗?还是说,因为至少在 GPT-4 这个水平上(我不知道你今天有没有看到,LG 刚刚发布了一个新模型),未来会有很多,我不知道,我不评论它的好坏,但未来会有很多最先进的模型。

SA: 我最喜欢的历史类比是晶体管,AGI 将会像晶体管一样。未来会有很多 AGI,它会渗透到各个领域,会变得很便宜。它是物理学的一个新兴属性,它本身并不能成为一个差异化因素。

主持人: 那什么会成为差异化因素?

SA: 我认为存在战略优势的地方,在于打造一家巨型的互联网公司。我认为这应该包含几个不同的关键服务。可能会有三四个像 ChatGPT 这样的产品,你会希望购买一个包含所有这些产品的捆绑订阅。你希望能够使用你的个人 AI 登录,它已经在你的生活中逐渐了解你,并且可以在其他服务中使用它。

我认为,未来会出现一些令人惊叹的新型设备,它们是针对你使用 AGI 的方式进行优化的。会有新型的网络浏览器,会有整个生态系统。总之,会有人围绕 AI 打造出有价值的产品。这是其中一个方面。

另一个方面是推理堆栈,也就是如何实现最便宜、最丰富的推理。芯片、数据中心、能源,会有一些有趣的金融工程要做,所有这些都包括在内。

然后,第三个方面是真正做出最好的研究,开发出最好的模型。我认为这是价值的「三驾马车」。但是,除了最前沿的模型,我认为大多数模型会很快商品化。

主持人: 所以,当 Satya Nadella 说模型正在商品化,OpenAI 是一家产品公司时,这仍然是一种友好的表态,你们仍然在同一条战线上,对吧?

SA: 是的,我不知道对大多数听众来说,这听起来像不像赞美,但我想他是想赞美我们。

主持人: 我是这么理解的。你问我对你们战略的解释,我在 ChatGPT 发布后不久就写过,这是一个「意外的消费者科技公司」。

SA: 我记得你写过那篇文章。

主持人: 这是最——就像我说的,这是科技行业最罕见的机会。我想,我在战略分析方面从 Facebook 身上获益良多,因为它是一个如此罕见的实体,我当时就认定了,「不,你们根本不知道这将走向何方」。但我直到 2013 年才开始,我错过了开端。我已经做了 12 年的 Stratechery,我觉得这是我第一次能够从一开始就报道的公司,而且是这种规模的。

SA: 这种情况并不经常发生。

主持人: 确实不经常。但是,说到这里,你们刚刚发布了一个重要的 API 更新,包括可以访问与 Operator(GPT Pro 的一个卖点)底层相同的「计算使用」模型。你们还发布了 Responses API。我认为 Responses API 最有趣的地方在于,你们说:「我们认为这比 Chat Completions API 好得多,但当然,我们会继续维护它,因为很多人已经基于它进行开发了」。它已经成为行业标准,大家都复制了你们的 API。什么时候,这些 API 相关的工作,以及维护旧版本、将新功能推送到新版本,会变成一种干扰和资源浪费?毕竟,你们面前有一个 Facebook 级别的机会。

SA: 我真的相信我刚才说的「产品套件」的策略。我认为,如果我们执行得非常出色,五年后,我们将会拥有一系列(少数几个)数十亿用户的产品。然后,我们有这样一个想法:你可以使用你的 OpenAI 账户登录到任何其他想要集成我们 API 的地方,你可以带着你的积分、你的定制模型,以及其他任何东西,去任何你想去的地方。我认为,这是我们真正成为一个伟大平台的关键。

主持人: 但是,这是 Facebook 遇到的难题。很难同时成为一个平台和一个聚合器(用我的术语来说)。我认为,移动设备对 Facebook 来说是件好事,因为它迫使他们放弃了成为平台的幻想。你不可能成为一个平台,你必须接受自己是一个带有广告的内容网络。广告只是更多的内容。这实际上迫使他们进入了一个更好的战略位置。

SA: 我不认为我们会成为像操作系统那样的平台。但是,我认为,就像谷歌并不真正是一个平台,但人们使用谷歌账户登录,人们把他们的谷歌内容带到网络的各个角落,这是谷歌体验的一部分。我认为,我们会以这种方式成为一个平台。

主持人: 携带登录信息,就是携带你的记忆、你的身份、你的偏好,以及所有这些东西。

SA: 是的。

主持人: 所以,你们只是凌驾于所有人之上。他们可以选择多个登录方式,而 OpenAI 的登录方式会更好,因为它包含了你的记忆?还是说,如果你想使用我们的 API,就必须使用我们的登录方式?

SA: 不,不,不。当然是可选的。

主持人: 你不认为,当你们面前有这样一个巨大的机会时,这会分散注意力,或者导致资源的分散吗?

SA: 我们确实需要同时做很多事情,这是困难的部分。我认为,在很多方面,是的,我觉得 OpenAI 最令人生畏的挑战之一,就是我们需要在很多事情上都做得非常好。

主持人: 嗯,这是「选择的悖论」。你们可以做的事情太多了。

SA: 我们并没有做很多,我们对几乎所有事情都说「不」。但是,如果你只考虑我们认为必须做的核心部分,我认为我们确实需要做很多,我不认为我们只做一件事就能成功。

「幻觉」也有意义

主持人: 有没有一种可能,「幻觉」其实是有益的?你发布了一个写作模型的示例,它在某种程度上印证了我长期以来的一个观点,那就是大家都在努力让这些概率模型表现得像确定性计算一样,几乎忽略了它们的魔力,也就是它们实际上是在「编造」内容。这其实是非常了不起的。

SA: 完全同意。如果你想要确定性的东西,你应该使用数据库。这里的亮点在于,它可以具有创造性,虽然有时它创造出的东西并不是你想要的。但这没关系,你可以再试一次。

主持人: 这是 AI 实验室的问题,是他们在试图这样做吗?还是说,这是用户期望的问题?我们如何才能让每个人都喜欢「幻觉」呢?

SA: 嗯,你希望它在你想要的时候产生「幻觉」,在你不想要的时候不产生「幻觉」。如果你问,「告诉我这个科学事实」,你希望那不是「幻觉」。如果你说,「给我写一个有创意的故事」,你希望有一些「幻觉」。我认为,真正的问题,或者说有趣的问题是,如何让模型只在对用户有利的时候才产生「幻觉」?

主持人: 你如何看待这个问题:当这些提示词被泄露出来时,它们会说诸如「不要透露这个」或「不要说这个」或「不要做 X、Y、Z」之类的话。如果我们担心安全性和对齐问题,那么教 AI 撒谎是不是一个非常严重的问题?

SA: 是的。我记得 xAI 曾经因为在系统提示中说了一些关于不要说 Elon Musk 的坏话之类的话而被狠狠地嘲笑。这对他们来说很尴尬,但我有点替他们感到难过,因为,模型只是在努力遵循给它的指示。

主持人: 对。它非常认真。

SA: 非常认真。是的。所以,没错,这样做很愚蠢,当然也很尴尬,但我不认为这是像大家所说的那种「崩溃」。

主持人: 包括我在内的一些怀疑论者,认为你呼吁监管的某些方面,是在试图阻碍潜在的竞争对手。我想问一个包含两部分的问题。第一,这样说公平吗?第二,如果「AI 行动计划」除了禁止州一级的 AI 限制,并宣布训练版权材料属于合理使用之外,没有做其他任何事情,这是否足够?

SA: 首先,我们一直以来呼吁的大部分监管,都只是针对最前沿的模型,也就是世界上最领先的模型,对这些模型进行一些安全测试的标准。现在,我认为这是一个好政策,但我越来越觉得,世界上大多数人并不认为这是一个好政策,我担心出现「监管俘获」。

所以,很显然,我有我自己的信念,但看起来,我们不太可能在全球范围内实现这一政策。我觉得这有点可怕,但希望我们能尽最大努力找到出路,也许一切都会好起来的。毕竟,没有多少人想要毁灭世界。

但可以肯定的是,你不会想给整个科技行业增加监管负担。我们呼吁的监管措施,只会影响到我们、谷歌,以及其他少数几家公司。再说一次,我不认为世界会朝着这个方向发展,我们会在现有的规则下竞争。但是,是的,我认为,如果能明确合理使用就是合理使用,并且各州不会有各种各样复杂且不同的法规,那将是非常、非常有益的。

主持人: OpenAI 能做些什么吗?比如说,如果 Intel 有一位新的 CEO,准备重新专注于 AI,你会承诺购买 Intel 生产的芯片吗?OpenAI 能在这方面提供帮助吗?

SA: 我认真思考过我们能为基础设施层和整个供应链做些什么。我目前还没有一个很好的想法。如果你有任何建议,我洗耳恭听。但我的确想做点什么。

主持人: 好的,当然。Intel 需要一个客户。这是他们最需要的,一个不是 Intel 的客户。让 OpenAI 成为 Gaudi 架构的主要客户,承诺购买大量的芯片,这将帮助他们。这将推动他们前进。这就是你的答案。

SA: 如果我们与一个合作伙伴合作开发芯片,这个合作伙伴与 Intel 合作,并且采用兼容的工艺,而且我们对他们的交付能力有足够高的信心,我们可以这样做。再次强调,我想做点什么。所以,我不是在回避问题。

主持人: 不,我也有些不公平,因为我刚刚告诉你,你需要专注于发展你的消费者业务,并切断 API。现在又让你关注维持美国的芯片生产,这确实不太公平。

SA: 不,不,不,我不认为这不公平。我认为,如果我们能做些什么来提供帮助,我们就有义务去做。但我们正在努力弄清楚具体要做什么。

AGI 没有统一标准,要能自主完成很多工作


主持人: Dario 和 Kevin Weil,我想,他们都曾以不同的方式说过,到今年年底,99% 的代码编写工作将实现自动化,这是一个非常快的时间表。你认为目前这个比例是多少?你认为我们什么时候会超过 50%?或者我们已经超过了?

SA: 我认为,在许多公司,现在可能已经超过 50% 了。但我认为,真正的突破将来自于自主编程代理,而目前还没有人真正做到这一点。

主持人: 障碍是什么?

SA: 哦,我们只是需要更多的时间。

主持人: 这是产品问题还是模型问题?

SA: 模型问题。

主持人: 你们还应该继续招聘软件工程师吗?我看到你们有很多职位空缺。

SA: 我的基本假设是,在一段时间内,每个软件工程师所能完成的工作量将会大大增加。然后,在某个时刻,是的,也许我们确实需要更少的软件工程师。

主持人: 顺便说一句,我认为你们应该招聘更多的软件工程师。我认为这是我的观点的一部分,我认为你们需要更快地行动。但是,你提到了 GPT-5。我不知道它在哪里,我们已经期待很久了。

SA: 我们两周前才发布了 4.5。

主持人: 我知道,但我们很贪心。

SA: 没关系。你不必等太久。新版本不会很久的。

主持人: 什么是 AGI?你有很多定义。OpenAI 也有很多定义。你目前,或者说最先进的 AGI 定义是什么?

SA: 我认为你刚才说的就是关键,AGI 是一个模糊的边界,包含了很多东西,而且这个术语,我认为,已经几乎完全贬值了。根据许多人的定义,我们可能已经实现了 AGI,特别是如果你能把一个人从 2020 年带到 2025 年,向他们展示我们所拥有的。

主持人: 嗯,很多年来,AI 一直都是这样。AI 总是指我们无法做到的事情。一旦我们能做到了,它就变成了机器学习。一旦你没有注意到它,它就变成了一个算法。

SA: 对。我认为,对很多人来说,AGI 指的是经济价值的一部分。对很多人来说,它指的是一种通用的东西。我认为它们可以很好地完成很多事情。对一些人来说,它指的是不会犯任何愚蠢错误的东西。对一些人来说,它指的是能够自我改进的东西,等等。只是没有一个很好的统一标准。

主持人: 那么代理呢?什么是代理?

SA: 能够自主运行,为你完成一大块工作的东西。

主持人: 对我来说,这就是 AGI。这是员工替代的水平。

SA: 但是,如果它只擅长某类任务,而不能做其他的呢?我的意思是,有些员工也是这样的。

主持人: 是的,我正在思考这个问题,因为这是一个彻底的重新定义。AGI 曾经被认为是无所不能的,但现在我们有了 ASI。ASI,超级智能。对我来说,这是一个术语问题。ASI,是的,可以做我们交给它的任何工作。如果我得到一个 AI,它能完成一项特定的工作,比如编程,或者其他任何工作,并且它能始终如一地完成,我可以给它一个目标,它能通过找出中间步骤来实现这个目标。对我来说,这是一个明显的范式转变,与我们目前的状态不同,我们现在仍然需要在很大程度上指导它。

SA: 如果我们有一个出色的自主编程代理,你会说,「OpenAI 做到了,他们实现了 AGI」吗?

主持人: 是的。这就是我现在对它的定义。我同意,这几乎是对 AGI 过去含义的一种弱化。但我只是用 ASI 来代替 AGI。

SA: 我们是不是可以得到一个 Ben Thompson 的小金星,贴在我们的墙上?

主持人: (笑)当然,给你。我会把我的电路笔给你。

SA: 太好了。

主持人: 你和这些实验室的同事们谈论你们所看到的东西,以及没有人准备好,还有各种各样的推文在流传,让人们兴奋不已,你在这个播客中也透露了一些暗示。非常令人兴奋。但是,你已经谈论这个问题很久了。你看看这个世界,在某些方面,它看起来还是一样的。是你们的发布没有达到你的预期,还是你对人类吸收变化的能力感到惊讶?

SA: 更多的是后者。我认为,有几次,我们做了一些事情,真的让世界震惊,大家会说,「这……这太疯狂了」。然后,两周后,大家又会问,「下一个版本在哪里?」

主持人: 嗯,我的意思是,你们的最初策略也是如此,因为 ChatGPT 让大家大吃一惊。然后,ChatGPT-4 在不久之后发布,大家又会说,「哦,天哪。我们的发展速度有多快啊?」

SA: 我认为我们已经发布了一些令人难以置信的东西,我认为人们能够适应,并且只是想要更多、更好、更快、更便宜的东西,这实际上是人类的一个伟大特质。所以,我认为我们已经超额交付了,而人们只是更新了他们的认知。

主持人: 鉴于此,这让你更乐观,还是更悲观?你是否看到了我认为将会出现的这种分化,也就是在「能动性」的人(这是「能动性」的另一种含义,但看看我们要往哪里走。我们需要发明更多的词。我们可以让 ChatGPT 为我们「幻觉」出一个)和那些会去使用 API 的人之间的分化?

整个微软 Copilot 的理念是,你有一个助手陪伴你,有很多高谈阔论,「哦,它不会取代工作,它会让人们更有效率」。我同意,对于一些主动使用它的人来说,情况会是这样。但是,你回顾一下,比如说,PC 的历史。第一波 PC 的使用者是那些真正想要使用 PC 的人。很多人并不想用 PC。他们在桌上放了一台 PC,他们必须使用它来完成特定的任务。实际上,你需要一代人的转变,才能让人们默认使用 PC。AI,这是真正的限制因素吗?

SA: 也许吧,但这没关系。就像你提到的,这对于其他的技术变革来说是很常见的。

主持人: 但是,你回到 PC 的例子,实际上,IT 的第一波浪潮是大型机,消灭了整个后台部门。因为实际上,事实证明,第一波浪潮是工作替代的浪潮,因为自上而下的实施更容易。

SA: 我的直觉是,这一次的情况不会完全一样。但我认为,预测总是非常困难的。

主持人: 你的直觉是什么?

SA: 它会慢慢渗透到经济中,主要是逐渐地蚕食一些东西,然后速度越来越快。

主持人: 你经常提到科学突破是投资 AI 的一个理由。Dwarkesh Patel 最近提出了一个观点,那就是目前还没有任何科学突破。为什么没有?AI 能否真正创造或发现新事物?还是说,我们是否过于依赖那些实际上并不那么优秀的模型,这才是真正的问题?

SA: 是的,我认为模型还不够智能。我不知道。你听到人们使用 Deep Research 时说,「好吧,模型并没有独立发现新的科学,但它确实帮助我更快地发现新的科学」。对我来说,这几乎一样好。

主持人: 你认为基于 Transformer 的架构能否真正创造新事物,还是说它只是在输出互联网上的中等水平的内容?

SA: 是的。

主持人: 嗯,那突破点会在哪里?

SA: 我的意思是,我认为我们正在前进的道路上。我认为我们只需要继续做我们正在做的事情。我认为我们就在这条路上。

主持人: 我的意思是,这是对上帝的终极考验吗?

SA: 怎么说?

主持人: 人类是否具有与生俱来的创造力,还是说创造力只是以不同的方式重新组合知识?

SA: 我最喜欢的书之一是 David Deutsch 的《The Beginning of Infinity》。在那本书的开头,有几页非常精彩地描述了创造力就是把你之前看到的东西稍微修改一下。然后,如果从中产生了好的结果,其他人会再稍微修改一下,其他人还会再稍微修改一下。我有点相信这种说法。如果是这样的话,那么 AI 擅长稍微修改东西。

主持人: 在多大程度上,你能够相信这种观点的基础,是你长期以来的信念,而不是你观察到的东西?因为我认为这是一个非常有趣的——我不想讨论太高深的形而上学,或者,就像我说的,几乎是神学的问题——但似乎确实存在这样一种情况,一个人的基本假设会影响他对 AI 可能性的假设。然后,大多数硅谷人都是唯物主义者、无神论者,或者你怎么称呼他们。所以,当然,我们会弄清楚的,这只是一个生物功能,我们可以在计算机中重现它。如果事实证明,我们从未真正创造出新事物,而是增强了人类创造新事物,这会改变你的核心信念体系吗?

SA: 这绝对是我以前的核心信念体系的一部分。这些都不是什么新鲜事。但是,不,我会假设我们只是还没有找到正确的 AI 架构,在未来的某个时候,我们会找到的。

AI 时代,给年轻人的职业建议

主持人: 最后一个问题是代表我女儿问的,她今年高中毕业。对于高中毕业生,你有什么职业建议?

SA: 最明显的、具体的建议就是,熟练掌握 AI 工具。就像我高中毕业的时候,最明显的、具体的建议是熟练掌握编程。这是新版本的建议。

更广泛的建议是,我认为人们可以培养韧性和适应能力,以及弄清楚别人想要什么,以及如何对他人有用的能力。我会去实践这些。比如,无论你学习什么,具体的细节可能并不那么重要。

也许它们从来都不重要。我在学校学到的最有价值的东西是学习的「元能力」,而不是我学到的任何具体的东西。所以,无论你要学习什么具体的东西,都要学习这些看起来在世界经历这场转型时会很重要的通用技能。

爱范儿,让未来触手可及。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


iPhone 里的「脏东西」,其实是音响好听的秘密|硬哲学

By: 肖凡博
17 March 2025 at 17:30

前段时间在看三星 S25 Ultra 拆解时,发现在扬声器里有许多白色小颗粒。后来找专业人士了解后发现,看起来像「脏东西」的白色粉末,其实是扬声器的一种腔体技术。

▲ 图片来源:JerryRigEverything

这些像异物一样小颗粒,专业上叫做 Bass 粉,是一种用于增强音响设备低音效果的技术,让低音听起来更低更纯粹。那它是怎么做到的呢?这就得从 Bass 粉的历史讲起。

一块海绵的发家史

在 20 世纪中期,随着音响设备趋向小型化,工程师们面临一个比较棘手的问题:如何在有限空间内产生高质量低音?

这里有一个小的背景知识,为什么在体积比较小的设备里,低音会比高音难做?拿生活中很常见的一个现象举例,我们分别对着「牛奶玻璃瓶」和「口服液小蓝瓶」里吹气,就会发现大瓶子的声音偏低,小瓶子的声音偏高。

当中的原理也很简单:大瓶子内部空间大,空气震动更慢,所以能产生低频声波;小瓶子空间小,空气震动快,只能产生高频声波;而且如果你真的有试过往不同大小的瓶子里吹气,应该还会发现,大瓶子要用力吹才能出声,小瓶子轻轻一下就能响。

所以要想低音又响又好,声腔大小(瓶子体积)、输出功率(吹气力度)一个都跑不了。当时的声学工程师最先尝试的方案是加上吸引棉。由于吸音材料上的多孔结构,可以很好地将环境回声吸收,并且减少驻波对最终音效的负面影响,而且在声腔内填充吸音棉后,可以将发声体积等效增加 40% 左右。

不知道有多少朋友还记得森海塞尔平头塞,那个时候戴着 MX375 最难受的一件事儿是,耳机头上的海绵罩不见了,卡在耳朵上非常难受,戴久了还会疼。

实际上,这个非常容易丢的海绵罩,不仅是可以提升佩戴的舒适性,还能优化声学表现。海绵材料能吸收高频段的「刺耳声」,使音色更柔和,海绵还能调节空气流动,影响低频响应,增强听感。

现在有很多架子鼓鼓手的底鼓里,都会塞个鼓枕,也是相同的道理。底鼓空腔会产生长时间共鸣,填充物通过物理阻尼吸收声波能量,让鼓声更短促、干净,适合需要精准节奏的音乐风格。

填充物能增强低频冲击力,它们压缩鼓腔内的空气,使鼓槌击打时的气流更集中,强化低频的「冲击感」,尤其在快节奏演奏中更清晰有力。鼓腔内阻尼被增强后,还可能降低底鼓的音调,使其听起来更低沉厚重。

虽说吸音棉可以满足工程师们的要求,但只能满足一点点,特别是在更小的设备上,填充体积变小的吸音棉,能起到的效果就微乎其微了。

后来他们发现,通过在腔体中加入粉末状多孔材料,可以有效提升低音响应。因为把粉末状多孔材料添加到原本的空腔中之后,增加有效体积(类似于小肠绒毛将其原本的吸收面积扩大了 600 倍)使音箱能够更有效地产生低频声波。

▲ 图片来源:Google

这种粉末状多孔材料,也就是前面提到的 Bass 粉,它除了能在有限空间里,增加声腔的有效体积,还能同时起到吸音的作用,这就和它的材质有关了,业内的声学专家向我们介绍:

Bass 粉通常由多种材料混合而成,具有优良的吸音或振动吸收性能。其主要成分可能包括玻璃纤维、陶瓷颗粒或其他多孔材料,Bass 粉通过吸附空气减缓因扬声器振膜振动导致的腔体气压变化,让振膜的振动更平滑,从而在小型音响设备中提升低音效果。

▲图片来源:Google

Bass 粉上的数多微孔,可以吸附大量空气,减缓因振膜振动引起的音腔内气压变化的同时,也就获得了相当于更大音腔体积的振动效果。

填充在声腔的 Bass 粉,并不是把声腔填得满满当当,一般来说粉的填充体积只会占到声腔体积的 25%-40%,在播放音乐时,特别是重低音的 EDM,Bass 粉会在声腔内飞舞起来,虽然我们看不到,但其效果可以用倒了水的 JBL Flip 来类比。

▲ 图片来源:YouTube

这种技术听起来很新,看起来很新,但实际上是一种比较成熟的方案。而且,用 Bass 粉和适用 Bass 粉的设备,一般都是音箱、耳机和手机等小型音响设备,因为腔体越大对低音效果的提升越不明显,大设备本身的声腔体积已经够用了,再增大等效体积意义不大,而且中高频原本振幅就不是瓶颈,因此效果也就没有那么明显。

所以,Bass 粉的作用简单用一句话就能总结:在有限空间内提升低音质量。

世界上最远的距离,是一直陪着你,却从未见过面

去年 iPhone 16 系列发布后,全世界拆解区的博主差不多都做了视频,但大家的拆解程度有所区别,有些把螺丝拧掉、主要元器件卸下就算完工。

有些修机区的大神还会把芯片、镜头等拆开,研究焊点和内部组装结构,熟悉维修方案和流程,以方便后续的工作。

▲ 图片来源:iFixit

当 iPhone 的扬声器被拆开后,一把白色颗粒从里面散了出来,好巧不巧,当时刚好遇上了「iPhone 电池爆炸」的低智谣言传播高峰,所以 Bass 粉被许多不明所以、图谋不轨的人,认成了「炸药粉」。

▲ 图片来源:yahoo

当然,这也和 Bass 粉本身的应用位置和场景有关,和屏幕、镜头、实体按键相比,它本身的存在感就几乎为零,即使身边大部分人的手机里,都有 Bass 粉,但肯定不能指望人人都是拆解专业和声学大师,只能说这帮声学工程师的嘴,是真的严。

iPhone 16 系列里的 Bass 粉,用一种很无语的方式出了圈,不过也算让更多人知道了这个已经存在多年的声腔技术。

说到苹果和 Bass 粉的结合,竟然已经是十年前的事儿了。2015 年,苹果在美国旧金山比尔·格拉汉姆公民大礼堂,发布了 iPhone 6s,这台外表和半代前的iPhone 6 没有区别的新机,其实用上了很多新技术。

▲ 图片来源:Google

首先是看得见的升级,就是已经成为历史的 3D Touch,第一次作为创新技术出现在了 iPhone 上,二维操控从此在 Z 轴上有了延伸,把平面升维成立体。

▲ 图片来源:Google

其次是看不见的,也就是在 iPhone 6s 的扬声器空腔中,用上了虚拟后腔技术,也就是填入了 Bass 粉。当时有不少入手新机的用户表示,感觉外放效果确实好了一些,也有些网站用「得到了前所未有的提升」来形容。

理论上说,Bass 粉的加入的确能使手机的音质和音量提升,特别是低频效果尤为明显,低音会更深沉,原因就如我们在上面解释的那样:等效容积变大,顺性更大,同样驱动力下振幅更大,音量就会提升。

除了苹果,其实目前市面上的中高端手机,基本都有采用 Bass 粉。华为在 2021 年发布的 Mate X2,除了麒麟 9000、徕卡四摄,还有大振幅双扬声器。这对扬声器,就是通过填充 240mg Bass 粉,实现了等效 1.2cc 后腔,不仅能做到对称式双扬,还将低音增加 180%,高频带宽增加 40%。

对于用户来说,最明显的感受就是在横屏看视频时,不会感觉两个喇叭的声音一大一小,特别是遇到汽车飞驰而过、飞机划过屏幕的场景,可以听出还原真实场景的立体声,视频也因为声音更大、低音更沉的喇叭,而更有沉浸感。

其实还有很多国产手机,例如 OPPO 和 vivo,都在用 Bass 粉工艺来提升扬声器的性能,去年才发布的影像新灭霸「vivo X200 Pro」 就是一个很好的例子。

站在现在往回看,Bass 粉早已是一种成熟的声腔技术,运用在各大厂商的各种小微型设备的扬声器里。当然,想要提升最终的音质,并不仅仅是腔体大小这一项指标,Bass 粉增大的等效腔体体积只是其中的一环,现在还有更先进的振膜材料和磁路设计:全金属的 Box。

目前,部分旗舰手机上搭载的较为先进的扬声器,是来自瑞声科技的 AAC Ultimate Speaker,这也是全球首款全频段手机扬声器。高低音融合模组方案,让高、低音单元各司其职,共用一个磁路。

▲ 图片来自:AAC Ultimate Speaker

华为 Mate 70 RS 上的「非凡大师非凡之音扬声器」,用的就是来自 AAC 的高低频双振膜同轴扬声器。

现在,智能手机在经历了形态肆意生长、颜色百花齐放、屏幕无边无际、影像剑指相机的发展阶段后,轻薄、便携又在这两年,成为了市场关注的焦点。手机作为一个综合性的移动设备,并不只承担某一方面的功能,而是已经深深嵌入我们生活中的各个角落。

所以在好用好看的基础上,手机还必须要是好带好拿的。特别是这两年折叠屏的崛起,更是让各种元器件的体积,得到了史无前例的挑战:电池得大,保证续航;像素得高,保证出片;手机得薄,保证手感。

扬声器跟着手机一起变小,但音质和声腔体积之间的矛盾也在同步变大。单看一个 Bass 粉,它的确没什么特殊的,在整个发声过程中能起到的作用也有限,所以单独将其拎出来讨论,只能讲明白技术细节,却道不清它真正的价值。

我们和手机的交互看似只有触控一个维度,但其实视觉、触觉、听觉都在影响着我们对「一台好手机」的判断。身边部分 Android 用户,初次上手 iPhone 16 Pro,都会感觉这手机质感不错,我们暂且不讨论苹果的信号和续航问题,单纯就「质感」来分析,能得出这个结论,大概就是因为以下几个原因:

  • CFM 品控好,上手不硌手,做工比较扎实,按键也没有松动;
  • 视网膜屏幕分辨率高,系统文字、图片边缘看不见齿痕;
  • 线性马达够劲,动程多样,有短有长、有强有弱,没有弹簧感;
  • 音响在同尺寸机型里,算好听。

你很难说当中的某一个部分对这台手机的整体质感起到了决定性作用,就像你很难说明森林里的某一棵树决定着当地的空气质量。

但正是每个微不足道的零散,才能汇成一个中流砥柱的结果。好比 Bass 粉也需要 240mg 左右才能完成它的扩容工作,单独的一粒或者几粒,完全没有可能提升丝毫音质。

Bass 粉和其他更为先进的声学技术一起,推动着产品小型化与性能平衡,它的虚拟增大音腔技术打破了「大体积=好低音」的传统限制,让我们看到了消费电子在变薄变小这件事儿上,还能也还在发展。

这项技术现在也逐步从消费电子延伸至汽车音响、智能家居等领域,在有限空间内实现影院级音效。

而对于每一个用户来说,在更小的手机上,听到音质更好的音乐,本身就是一件很值当的事儿。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


「工程的胜利」不仅在 Manus 自身,而是让整个智能体生态真正走上舞台

By: Selina
12 March 2025 at 17:23

自从发布以来,Manus 经过了一个堪比过山车的传播历程。

从一开始的惊艳,到被加速捧至高点,再到遭受套壳、营销的批评,一切都发生在短短一周内。

在各种各样的声音当中,我们找到了和 Manus 最为相关的一群人:正在参与 agent 以及配套设施的开发者们,聊了聊他们眼中的 Manus——不讨论营销和争议,仅仅是技术层面。

结论并不复杂:Manus 无疑是一款优秀的产品。以「套壳」为理由来否定 Manus,是它的无妄之灾。

同时,「缝合」一词,也并不公允。一个通用型 agent 的能力和潜力,不仅体现在链接了多少工具,更在于对于 agent 本身的认知。

那些围绕营销和套壳展开的争议,指向的是一个问题:Manus 的价值到底是什么?

横空出世的「全球首个」

快忘了上周盛况的朋友们,这里有一个快速回顾:3 月 5 号深夜,Manus 上线内测,在官方展示的视频中,放出了好几个原本只在 PPT 中才会出现的精彩使用案例,无一不展现出 Manus 独特的任务理解和执行能力。

老实说 Agent(智能体)并不新鲜,但 Manus 打出「全球首个通用型智能体」的说法,掀起了前所未有的讨论浪潮,也让「通用型 agent」走到台前。

由于内测使用需要申请邀请码,且发放速度慢,一时间造成了哄抢的局面——用例有多惊艳,用不上的人就有多焦虑。

这种邀请码的机制,阴差阳错地把 Manus 推到一个近乎诡异的热度,甚至被称为「又一个 DeepSeek 时刻」。

DeepSeek 是模型,Manus 是智能体,是截然不同的两种产品。然而某种程度上,二者的历程,确实有相似之处。

DeepSeek 做的是模型,但它并非是从零开始,而是在一系列已有的开源工作上,实现了工程上的胜利。

类似地,Manus 实际上并非第一个做通用型 agent 产品,在 2023 年同类产品就涌现过一轮。Manus 本身也从大量开源工作中获得帮助,团队此前曾经打造过 monica,一款集成式 AI 助手,积累了丰富的 agent 工程经验。因此,Manus 也同样被视为一种工程上的胜利。

工程上的胜利究竟是指什么?

这个问题必须回到「通用型 agent」是什么这个根本源头上。

人跟动物之间的区别在于制造和使用工具,这句话,放在 agent 身上也成立——普通 agent 和通用型 agent 的区别在于,后者能够主动调用工具。

「很多人觉得 agent 就是原来的对话机器人,接上数据库,就叫做 agent。实际上,一直以来 agent 的定义都是需要能使用工具,能真正的有所行动。」 William Lee 解释道,他从去年开始和创业团队一起开发针对 agent 的中台系统 ACI.DEV,就是在为 agent 类产品提供尽可能便捷的 API 调用服务。

在具体的产品使用上,工具调用能够把 agent 的能力边界,再推得更推远一些。活跃在 agent 开发社区的坚白,见识过 Manus 在执行上的能力:剪视频。

「剪的效果怎么样另说,但是它可以去做到,可以完成,不会拒绝你。」

原理并不复杂:剪辑的动作,可以在一定程度上以代码的方式来实现。又或者,一些在线工具可以被调用出来,完成剪辑的动作。

这样完成的剪辑当然是粗放的,成品跟人工剪辑无法相提并论,但就像坚白所说,Manus 不会拒绝这个要求,而是会主动寻找工具完成。「在过去的应用里,agent 可能会推荐给你一个剪视频的网站或者工具,但没有这样端到端的结果。」

他认为这反应了 Manus 团队的认知,是在一种更有高度的位置上。「我认为他们把代码,包括整个代码的运行环境,更多作为工具,而不是目标。」

曾经一些类似的项目,给出一段代码或者设置虚拟机,就已经是最终目的。而 Manus 的理解是,设计虚拟机跑代码,只是实现方式,它们是为了完成某种目的而存在

「我觉得是他们在认知上有领先」,坚白说,「大家都在说要把 agent 当成人看,但他们真的是认真思考了 agent 如何作为一个主体。」

Key differentiation

那么,虚拟机是那个让 Manus 脱颖而出的设计吗?

「虚拟机不是一个 creative 的设计,」同样是在做通用型 agent 产品的郑浅解释。

郑浅所在的公司 Convergence.ai,在 1 月时推出了同样属于通用型 agent 的产品 Proxy,在 webvoyage 基准测试中险胜 OpenAI。

不久前 Proxy 登上 Product Hunt 榜单,郑浅忙着带领工程团队应对突然涌来的流量。他们面对的是海外市场,可见通用型 agent,在海内外都是被寄于厚望的 agent 形态。

「OpenAI Operator 就是虚拟机,Manus 是给 browser use 之后,加了一个 coding execution,然后放到一个虚拟机里面去实现。」

Browser use,是一个在 Github 上获得了 4 万星的开源项目,它相当于把网页浏览器放在了 agent「眼」前结合了大语言模型以及视觉识别。用户只需要通过自然语言,就能让智能体对网页上的元素进行实际操作。

早期 Proxy 也尝试过类似 browser use 的路线。「通过这种方式帮用户做点击、拖动等等的动作。整体是比较简单直接的,只需要用户给一个任务,它一步一步去执行。」

这个形态比较线性,无法胜任更复杂的任务。或者说,当任务的复杂程度上升,需要用户给出更有细节的指令,反而成了对用户的挑战。

「我们公司算开始得比较早,跟 OpenAI 和 H Company 他们也比较多交流,后来 OpenAI Operator 出来,agent 一下就变火了。大家很快就往一个新的东西上面去靠拢,就是 agent orchestrator。」郑浅非常明确,「可以说 general agent 真正的区别,不在于缝合了多少工具。」

建设一个普通的 agent,可以用「缝合」简单粗暴地概括。但是要建设一个 general agent,必须是一个系统工程。

「你可以把 agent 想象成一个人,最复杂的部分在于核心决策系统——就是大脑和神经传输。其次复杂的是执行构建,比如说相当于人类的四肢与末端。至于你刚才提到的生成报告、浏览器交互、代码执行等功能模块,本质上属于工具链层面的能力。」

人并不是生下来就会走路的,婴儿只会胡乱挥舞手脚,然后会爬、会站,磕磕绊绊地学会走路,最后学会精准地控制自己的四肢。

整个学习的过程,也是大脑逐渐成熟的过程。Proxy 的绝大多数工作都在围绕这个「大脑」展开,具体而言,是 planner agent 所负责的动态规划。

「有一个调侃是,规划不能预测未来:规划可以做的很好,但你不知道未来会发生什么。放在 agent 上面也是一样的,比如说它浏览某个网站,碰到无法打开的情况,比如改版啊或者域名过期,或者直接关停等等,那这时候 agent 该怎么做,这就需要动态规划。」

▲ Manus 实测中,碰到网站登录及验证问题

一个典型场景是验证码,Proxy 和 Manus 可以解决一些简单的验证码,但太复杂的还是需要交回给用户,也可能被直接跳过。

郑浅解释难度藏在细节里,「都是细节,而且情况非常多样。如何在规划上去实现复杂任务,同时又能回传——用户基数一大,做什么千奇百怪的事情都有,如何覆盖各种各样的场景是很大的难点。」

现阶段 Manus 并非尽善尽美,但它足以作为一个工程启示录。「它主要的成功之处,确实就是在工程上面」Wiilliam 非常认同这一点,「它结合了市场上已有的模型,很好的跟工具做了对接,然后让用户第一次看到,真正可以调用工具的 agent 到底能做出什么样的效果。这样子我觉得百分之百是工程上的胜利。」

真正的胜利属于生态

Manus 正像是那个正在学走路的幼儿,它能够造成巨大的讨论,并不在于它已经能走多远、跳多高,而在于展示出了足够的潜力。

这或许才是它最大的贡献:Manus 的走红,让一系列与 general agent 类的应用,乃至基础建设的工作,都渐渐浮出水面。

最新的进展是 OpenAI 推出了 Responses API,这是一个面向开发者,而且就是 agent 开发者的新发布。

在开发者社群里,Manus 更加是激发了许多想法。坚白正在做和 agent 记忆相关的项目,Manus 的出现让他开始重新思考记忆储存相关的范式。

记忆储存对于 agent 的实际工作至关重要,这不仅影响着 agent 能否从过往任务里学习到经验并沿用,也影响着能否形成关于用户使用习惯的记忆,真正做到个性化。

另外,通用型 agent 在理论上有着最大的自由度,可以链接和调用任何工具——在延迟、接口标准化等方面足够好的前提下。这正是 ACI 这类中台型产品,所想要提供的服务。

这可能是 Manus 最成功的一点:它作为现阶段通用型 agent 最出圈的案例,为一系列配套设施打开了想象和探索的空间

「其实通过 Manus 可以看到,现在模型已经跑在工程的前面很多了。」William 认为工程方面还有很多可以探索的空间,「我们还可以在工程上面继续做点什么,来拉高这种 AI agent 产品的效能。我个人的看法是现在 agent infrastructure 这一端的话都还是挺不成熟的,包括像我们这种工具调用平台,或者是说这种 memory layer,这些在工程方面都还有很多方向是可以优化的。」

这也是我们跟开发者社群接触下来最大的感受:他们感到兴奋与跃跃欲试。「通用」两个字所包含的可能性,前所未有的生动

Proxy 马上要基于新的 parallel agent 思路,推出迭代的版本。郑浅一直在观察社群的反馈,他看到许多用户把 Proxy 用出了自己根本没想过的方式,不断被挖掘出新的可能。

「大多数产品最后的使用目的,都不太会是一开始开发的目的,可能后面是由用户来发现我们没有发现的用途,我们也在等待那一个 moment 的到来。」

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


套壳的 AI 产品,不可耻,也有用

By: 莫崇宇
11 March 2025 at 18:47

短短几天,Manus 成了衡量 AI 产品优劣的最佳试金石。

近期,Manus 在海外的热度暴涨,,外国大 V 自发在 X 平台转发宣传,《福布斯》更是直接盖章定调,冠上了「第二个 DeepSeek 时刻」的称号。

让子弹再飞一会儿,却净是反转、反转、再反转。噪声太多,容易淹没对一款产品价值的判断。在业内,AI Agent 的落地早已心照不宣,底层基础模型的进步,Deep Research 的广泛普及,都为犹在襁褓的 Manus 席卷全网扫除了不少认知障碍。

在喧嚣之外,我们需要重新审视,一个套壳 AI 产品对用户和行业是否有价值?在 AI 快速迭代的今天,创新的定义是什么?

Manus 海外风评如何

Manus 的爆火来得猝不及防,以至于连团队也没有准备好迎接这泼天的流量。

合伙人张涛近日发文称低估了大众的热情,目前服务器资源无法满足市场需求,因此只好采用邀请码机制,同时也表示团队正在全力输出,争取让大家早日体验到更好的产品。

与刻意降低国内存在感的策略不同,Manus 这几天反而向不少海外 X 博主大 V、以及 Reddit 社交平台陆续开放不少邀请码,有意借势推高热度。

拿到使用权的 @deedydas 让 Manus 对特斯拉股票进行专业的分析,结果它在大约一个小时内完成了通常需要大约两周才能完成的的专业级工作。这效率,不比打工人好用(不是)。

[

先别羡慕 AI 三小时做的小游戏,9 天赚 12 万,manu 也能做。@_akhaliq 让 Manus 用 three.js 打造一款无尽跑酷游戏,画面游戏有些粗糙,但游戏机制相当完善。

搞钱才是王道,这也是网友对 Manus 呼声最高的要求。使用 Manus 构建一个仪表板,筛选出日本符合收购条件的上市公司作为潜在的收购目标,还能打造成 90 年代风格的日本视频游戏。

结果也是完美交付,让人挑不出毛病。

▲游戏地址:https://zaomhjnv.Manus.space/

@LamarDealMaker 对 Manus 的能力赞不绝口,称其为最疯狂的 AI Agent。

Manus AI 在极短的时间内为他规划了一次为期两个月的家庭旅行,路线涵盖澳大利亚、新西兰、阿根廷和南极洲,安排得滴水不漏。并且,它还能够自动分配任务、浏览网页研究,最终奉上了一份涵盖住宿、预算和美食指南的详细行程。

另一位用户 @ivanfioravanti 则秀出了 Manus AI 用 p5js 做的动画,创意和效果双双在线。

Hugging Face 的产品负责人称 Manus 是「我用过的最令人印象深刻的 AI 工具」。AI 政策研究员 Dean Ball 将 Manus 描述为「最复杂的 AI 计算」。

要说 Manus 的重量级背书,绝对少不了两位比较重磅的人物。

一个是 Twitter 创始人 Jack Dorsey,直接甩出了「excellent」的评价,言简意赅但分量十足。另一个则是 X 博主 Rowan Cheung,他所创立的 therundownai 可以说是 X 平台阅读量最大的 AI 新闻快讯自媒体。

Rowan 前几天还没体验 Manus,却在海外率先喊出「中国第二个 DeepSeek 」。截至目前,那条推文也在 X 平台狂揽 276 万的阅读量。

直到最近,Manus 团队也向 Rowan Cheung 分享了邀请码。

创建 Rowan Cheung 的传记、并据此部署网站;分析旧金山最佳租车地点;创建一门关于内容创作 AI 的完整课程,Manus 的表现也都可圈可点。

先说好评,还有差评,@mckaywrigley 给 Manus 打了个大大的好评,认为它的底层代理模型和 UI 都做得无可挑剔,但这位博主也话里有话,主打一个未来可期,点到即止。

@ai_for_success 是最早一批点赞 Manus 的博主。

同样地,他其实最开始并未拿到邀请码,体验后,他表示,「Manus AI 太疯狂了,我以前从未使用过类似的东西。」还特意加了个免责声明,说自己没拿 Manus 一分钱。

尽管案例很高大上,但问题是计算是否正确,他的心里也没底。

相比 OpenAI 的 Deep Research,医学博士 @DeryaTR_ 就指出 Manus 历经两轮尝试,都未能顺利完成任务,且耗费时间过长。

有趣的是,Manus 创始人季逸超今天在 X 平台发文称,Manus 为了提高系统性能而降低了故障率,但结果用户的会话现在运行时间更长,且由于系统负荷过重,Manus 故障率又开始回升。

站在福布斯的另一端,外媒 TechCrunch 则指出 Manus 可能不是中国的第二个「DeepSeek 时刻」,几轮体验下来都以任务失败告终。

极致的套壳,就是胜利

Manus 爆火后,网友们抛出的头号疑问是,它真就有技术壁垒吗?

张涛曾在混沌学园采访中谈到,单纯的「套壳」(即直接使用大模型的技术输出)在 AI 普及的背景下,难以成为核心壁垒。真正重要的是找到市场需求和商业逻辑,利用 AI 这个「通用商品」创造独特的价值。

换句话说,套壳只是起点,关键在于如何构建需求驱动的差异化优势。

昨日,网友 @jianxliao 因为疑似套出 Manus 系统提示词和运行代码,引来了季逸超的回应。

回应的细节很多,但较为值得关注的是,当被问及 Manus 的基础模型时,他表示目前使用的是 Claude 和 Qwen 微调模型。并且,Manus 采用多 agent 协作的架构设计。

早在 Manus 崭露头角前,海外如 OpenAI 的 Deep Research 已是相对成熟的产品。据 The Information 报道,OpenAI 甚至还计划推出一款每月高达 2 万美元的博士级 Agent。

某种意义上,Manus 的成功像是「摸着前人石头过河」。

技术若无热度,便如深谷孤响,Manus 有了足够的热度和关注,也吸引更多人投入资源和精力去研究、复现甚至开源类似的技术。

最近,MetaGPT 的 4 名团队成员在 GitHub 发布了名为「OpenManus」的开源项目,旨在复刻 Manus 的核心功能,同时大幅降低使用门槛。

团队宣称,该项目仅花费了 3 小时便开发完成。

快是快了,但这种速度带来的代价是功能和效果上的妥协,OpenManus 更偏向技术验证和社区协作,功能深度也更聚焦,无法像 Manus 那样覆盖广泛场景。

截至发稿前,OpenManus 在 GitHub 已收获超 2.6 万的星标。

据官方介绍,OpenManus 支持 SEO 审计与报告生成,同时采用轻量化设计。其基于 MetaGPT 的多智能体协作框架,支持利用不同角色分工并自动化生成代码与文档。

此外,OpenManus 的开源特性,允许社区为其贡献扩展功能。该项目的底层支持来自 Anthropic 的 computer-use 和 browser-use。

▲GitHub 🔗:https://github.com/mannaandpoem/OpenManus?tab=readme-ov-file

置身于风暴中心,OpenManus 背后的四名成员连同他们的过往经历,迅速被媒体扒出:

  • 梁新兵:华东师范大学硕士,曾参与爆款 AI Agent 项目 Data Interpreter 的开发。
  • 张佳钇:中国人民大学高瓴人工智能学院本科生,目前在香港科技大学(广州)攻读博士,其参与的智能体框架 AFlow 刚被深度学习顶会 ICLR 2025 接收。
  • 向劲宇:西南交通大学应用物理学本科,曾在 2024 年阿里巴巴全球数学竞赛 AI 赛道斩获全球第二。
  • 于兆洋:中国人民大学高瓴人工智能学院本科生,与校友张佳钇曾凭 MathAI 方案在阿里数学竞赛 AI 赛道拿下全球第三。

同样在 3 月 7 日,CAMEL AI 的 OWL 项目公布,并剑指 Manus。

官方表示 OWL 直接做到开源界 GAIA 性能天花板,达到了 58.18%,超越 Huggingface 提出的 Open Deep Research 55.15% 的表现。

在官方给出的演示案例中,让 OWL 查询今天伦敦有哪些电影上映。

它会自动生成待办事项规划并编写任务清单,开始浏览网页,搜索伦敦地区符合条件的电影院。

整个过程宛如真人操作,流畅地执行滚动、点击、输入以及实时信息检索等步骤,最终为用户呈上一份详尽的当日电影总结报告。

据 CAMEL AI 介绍,OWL 通过逆向工程将 Manus 工作流拆解为 6 步,并开源所有模块;支持 GitHub 一键 clone,同时工具链能够自由扩展,执行环境也支持云端和本地任选。

CAMEL AI 强调,OWL 完全免费,且优化了 Token 消耗。

▲GitHub 🔗:https://github.com/camel-ai/owl

然而,与这些后续开源项目相比,Manus 的真正优势在于更早抓住了行业痛点,如何将复杂多智能体协作技术转化为用户可感知的价值。

精心设计的用户界面、相对透明的流程优化,Manus 将复杂的技术包装成了易于理解和使用的产品,也为第一波热度添柴加火。

并且,Manus 的爆火,某种程度上源于它在对的时间踩中了风口。

黄仁勋曾经在 CES 预言,随着 AI Agent 浪潮席卷,未来 IT 部门将转型为 AI「员工」的人力资源部门。Manus 同样正是基于这一趋势,向用户展示了一个能够有效管理多个 AI 智能体协作的平台。

诚然,业内虽对「套壳」嗤之以鼻,套壳可以是起点,不应该是终点。

但用季逸超的话来说,极致的套壳就是胜利。Manus 能够将现有技术包装并推出满足用户需求的产品,应用端的创新同样不可忽视。

类似的案例比比皆是,同样作为现象级产品,AI 搜索引擎 Perplexity 也因为「套壳」而置于风口浪尖之上,但其创始人 Aravind 却也看得通透:

只有当你真正有了值得「护」的东西时,护城河才有意义。人们可以将 Perplexity 看做是一个 AI 套壳,但成为一个拥有十万用户的套壳产品显然比拥有自有模型却没有用户更有意义。

Perplexity 采取的策略奏效了。发展不过三年,月活跃用户已逼近 1 亿,庞大的用户基础,随之而来的海量搜索数据,其市场影响力也在日渐增强。

他们的成功路径清晰可见,先打造产品、紧盯市场需求,然后通过不断迭代产品来收集用户反馈和搜索行为数据,为后续自研模型打下了坚实基础。

资本市场的正反馈对这种商业模式给予了有力背书,Perplexity 的市场估值实现「三级跳」,在去年 12 月完成新一轮融资后,一路飙升至 90 亿美元。

流量如潮水,Manus 的长期价值是否经得起考验,仍有待时间的考验。

但在此之前,对于绝大多数 AI 初创企业来说,先果断抓住市场中那一小块关键红利,循序渐进地积累实力。当这些短期红利转化为企业自身实力后,技术壁垒或许也就水到渠成。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


DeepSeek 浪潮下,端侧AI 的创新催化剂

By: 李超凡
6 March 2025 at 12:00

在柏拉图的《理想国》中有一个洞穴隐喻的故事,一群囚徒从小就被锁在一个洞穴里面对墙壁,身后有一堆火,囚徒们一生所见只有映在墙壁上的影子,便以为这些影子就是真实的世界。

大模型也曾被类似的「影子」误导,一度将大力出奇迹的预训练奉为圭臬。直到 2025 年初 DeepSeek R1 展现的推理能力,AI 从仅仅观察影子的阶段,转向以自省和辩证的方式探寻真知。

DeepSeek 让模型走出「洞穴」,也在改变智能终端的范式。

DeepSeek 蒸馏模型在问世不到两周内便实现在搭载骁龙平台的商用终端上的运行,AI 硬件将不再只是提升估值的「性感故事」,而是已经具备实际的应用价值和商业潜力。

高通最新发布的白皮书《AI 变革正在推动终端侧推理创新》指出,DeepSeek 的推出标志着 AI 进入推理创新时代,训练成本下降、快速推理部署和针对边缘环境的创新,正在推动高质量小模型的激增,加速 AI 跨边缘终端的部署。

清华大学副教授、面壁智能联合创始人兼首席科学家刘知远也提出,这种从「规模至上」到「效率优先」的转变,为端侧 AI 提供了重要启示:通过模型压缩、参数优化和算法创新,可以在保持模型性能的同时,大幅降低计算资源需求,使其适合在终端设备上运行。

使用 DeepSeek 蒸馏后的 Qwen-7B 模型,已经能够在性能上与去年所推出的且当时最为先进的 GPT-4o 云端模型持平。

这也意味着,过去很多只能在云端运行大规模参数的模型,能部署到随身的终端设备中,在本地完成复杂的推理过程,甚至可能实现满血运行。同时,在端侧 AI 的新浪潮下,我们正见证智能终端的又一次关键转折——从单纯的功能性设备到具有自主理解和行动能力的智能体(Agent)。

端侧 AI 的技术拐点:从「规模至上」到「推理创新时代」

两年前,比尔·盖茨发布了一篇博客,称在有生之年见证了两次革命性的 Demo ,第一次是在 1980 年看到了图形用户界面(GUI)——现代操作系统的前身,另一次则是在 GPT-3.5 前几个月看到 AI 的回答方式。

然而作为普通用户,对这种改变的感知显然没那么强烈,因为交互的变革的载体离不开智能终端,就像 iPhone 将功能机时代的按键操作转变为触控交互,进而重塑了整个智能手机生态。

那么在 AI 时代这个载体是什么?

或许未必是一个全新形态的终端,而是智能终端带来的全新体验形式——从应用驱动向智能体驱动。

就像高通 CEO 安蒙在去年年底提到的新趋势,AI 是新的用户界面(UI)。端侧 AI 的落地将改变传统的交互逻辑。

用户无需打开特定应用,AI 智能体可通过多模态输入(语音、图像、视频)直接执行任务。这些功能背后其实离不开边缘侧 AI 支持。

比如荣耀 Magic7 系列中 YOYO 智能体的许多交互功能就需要终端侧 AI 处理能力的支持,骁龙 8 至尊版搭载的高通 Hexagon NPU 为终端侧提供了足够强 的 AI 算力,可以在手机本地完成推理和理解等 AI 任务。

过去端侧 AI 受限于硬件性能,而大模型的计算需求却在快速增长,虽然此前搭载骁龙 8 至尊版的智能手机已经能在端侧运行 7B 规模的模型,但针对一些复杂的生成式 AI 用例和高质量图像生成等任务,还是需要结合云端算力。

不过现在端侧 AI 的技术拐点已经出现,《AI变革正在推动终端侧推理创新》白皮书中指出了加速端侧 AI 落地的四大趋势:

  1. 当前先进的AI小模型已具备卓越性能,通过模型蒸馏和新型网络架构,性能已经超越一年前仅能在云端运行的更大模型
  2. 模型参数规模正在快速缩小,先进的量化和剪枝技术使开发者能在保持准确性的同时减小模型体积
  3. 开发者能够在边缘侧打造更丰富的应用,如文本摘要、编程助手和实时翻译
  4. 让 Agent 成为新交互入口,个性化多模态AI智能体将简化交互

高通技术公司高级副总裁、技术规划和边缘解决方案业务总经理马德嘉告诉爱范儿,随着模型规模不断地下降,日后 10-20 亿参数规模的模型将会占用更少的运行内存,更好地适配 8-12GB 内存设置的终端。

异构计算架构:端侧 AI 的硬件基础

高通技术公司拥有三大业界领先的处理器单元,这些处理器对于端侧 AI 的发展非常重要。

马德嘉表示,「我们有业界领先的定制高通 Oryon CPU,并已经应用于我们的 PC、移动和汽车平台。」

高通 Adreno GPU 能够满足终端侧 AI 运行所需要的众多功能需求;此外,高通 Hexagon NPU 完全面向处理生成式 AI 工作负载而设计。

这三大处理器单元必须都具备业界领先的能力且能够协同工作,才能实现异构计算,满足生成式 AI 的发展需求,而在这一领域高通有着非常强大的优势。

端侧 AI 的落地对芯片架构提出了更高的要求,高通的做法是,将 NPU、GPU 和 CPU 集成到终端中的异构计算架构,从而在更低功耗下输出更高算力,且满足不同场景的 AI 处理任务需求。

这一架构的核心是三大处理器单元之间,如同一支交响乐队般的协同合作:

  1. 高通自研 Oryon CPU:最新的第二代 Oryon CPU 采用台积电 3nm 工艺,最高主频达 4.32GHz,超大缓存设计(业界最大 24MB 二级缓存)显著降低 AI 推理时延。
  2. 高通 Adreno GPU:满足终端侧 AI 运行的多样化功能需求,特别在并行计算和图像处理方面表现出色。
  3. 高通 Hexagon NPU:专为处理生成式 AI 工作负载而设计,让骁龙 8 至尊版上实现了45% 的 AI 性能提升和 45% 的 AI 能效提升。

其中 Oryon CPU 在手机与汽车芯片中的复用。这意味着这些终端设备可以采用共通的底层架构,有更好的兼容性,互相之间的互联互通也会更加通畅。

这种异构计算架构在最新发布的众多骁龙 8 至尊版旗舰手机上已经有所体现, iQOO 13 利用骁龙 8 至尊版的 AI 算力,打造了 AI 电竞信号引擎,通过 AI 智能优化网络,实现多任务场景下时延更低,可以边玩游戏边视频或直播。

REDMI K80 Pro 则将 AI 技术应用于连接体验,带来了小米星辰 AI 多网融合,可以进行智能信号预测,让网络自动优化。在地铁场景下,微信视频卡顿率降低 31%,短视频卡顿率降低 29%。

如果说智能终端已经进入 Agent 时代,那么异构计算架构就是智能体的「中央神经系统」,不仅处理各种感官信息,还能协调「思考」与「行动」,保证端侧 AI 高效、流畅、稳定地运行。

软件也是释放端侧 AI 潜能的关键

正如高性能赛车不仅需要强劲的引擎,还需要精密的调校和优秀的赛车手一样。端侧 AI 的实现不仅仅依赖于强大的硬件算力,同样离不开高效、完善的软件工具支持。

对开发者来说,其实不需要知道硬件端的具体设计细节,更重要的是软件工具库支持,让他们能够按照自己所需,非常自由、灵活地选择所需的框架、runtime 和工具,面向任何操作系统设计 AI 应用和智能体。

在提供硬件基础的同时,高通也在构建 AI 软件栈,包括库(libraries)、SDK 和优化工具,可简化模型部署并提升性能。

开发者可以利用这些资源,面向高通平台高效进行模型适配,缩短 AI 赋能应用的上市时间。无论端侧 AI 的算力有多强大,也只有通过应用来释放出来,最终才能转化为用户体验。

在实际应用中,你可以拿起手机识别你将用于烹饪的食材,成功识别后,让手机帮你生成对应的菜谱,还能让手机给你一些低卡路里菜单组合。

烹饪完成后,你可以通过摄像头,向手机询问这些食物所包含的卡路里。凭借智能手机如今对多模态 AI 能力的支持,这个用例可以完全在终端侧实现。

这种场景正是智能体作为新平台的典型应用——用户不再需要打开多个应用,而是通过自然交互直接完成复杂任务。

这种以开发者为中心的策略,大大简化了在消费和商用产品中集成先进 AI 特性的过程,也在加速 AI 推理创新在端侧的应用。

AI Hub 正成为开发者的百宝箱

目前已经有众多智能手机、PC、汽车厂商在终端设备中接入 DeepSeek,开始了利用高质量小模型在终端侧升级AI体验,或是打造全新 AI 应用的实践。边缘侧 AI 应用的创新蓄势待发。

如果你是一个开发者,对不同细分领域的芯片平台的 AI 部署也有了更迫切的需求。高通去年发布的高通 AI Hub 跨出了一大步,让开发者选择相应平台和开发模型、编写应用,最后在不同类型的移动终端上进行部署。

高通 AI Hub 包含超过 100 个预优化的 AI 模型,如Llama、Allam 3B、通义千问、OpenAI 等厂商模型,支持在搭载骁龙平台的终端上无缝部署,发布一年以来,目前已有超过 1500 家企业在使用,进一步推动了端侧 AI 应用的普及。

AI Hub 覆盖的终端也不断增加,马德嘉向我们介绍,高通 AI Hub 可支持移动、PC、IoT、汽车,甚至 Wi-Fi 联网终端平台,比如第二代高通机器人 RB3 平台这一面向 IoT 领域的机器人平台。

高通正在成为端侧 AI 生态构建者,通过与全球 AI 模型厂商的积极合作,不仅提供了强大的计算平台,还开发了完整的软件栈和开发工具,使开发者能够更轻松地将 AI 模型集成到应用程序中。

智能终端的 Agent 时代真正到来之前,这个行业需要先构建完整的端侧 AI 生态系统。

高通,正在成为端侧 AI 的首席架构师

在中国隋朝,曾诞生了一个名留千史的建筑工程专家宇文恺,他不仅规划了贯通南北的水道网络,更创新性地设计了船闸系统,解决了不同水位间船只通行的技术难题。用「通则兴,塞则衰」的系统思维,将分散的河道整合成一个互联互通的交通网络。

这与高通为端侧 AI 提供的统一而高效的计算基础颇为相似。正如大运河的修建需要克服地形、水文等诸多挑战,端侧 AI 所面对的,是来自不同终端设备、不同应用场景的更加多样化和复杂的需求。这其中不仅包括了硬件性能的限制,还包括了模型大小、功耗、延迟等多重约束。

而要让 AI 真正融入到这些多样化的终端中,正如宇文恺当年规划大运河一样,需要一位「首席架构师」来进行顶层设计,打造出强大的底层架构来支撑其高效运行。这个架构不仅要能处理海量数据,还要能灵活适应各种应用场景。

这种从具体到抽象、从工程到技术的递进,实际上也反映了人类文明发展的基本脉络。

人类文明的传承本质就是信息蒸馏的过程。从中世纪一字一句地誊抄、信息时代的系统化结构,到 AI 推理时代,信息的提炼呈现出新的形态——模型通过强化学习来发展推理能力,像婴儿通过不断的自我探索来认识世界。

像前面提到的高通 AI Hub ,它构建的预优化模型库,使开发者能将适应终端设备的模型的,应用在高通手机、PC 和汽车等多终端中的技术基础。

模型轻量化是端侧 AI 普及的关键。DeepSeek 蒸馏模型已经可在骁龙平台智能手机和 PC上直接运行。这种技术突破类似于大运河工程中的节水闸门设计,以最小的资源消耗实现最大的通行效率。

同时 AI 推理的创新正在边缘侧爆发。

研究机构 Counterpoint Research 预测,2025 年将成为生成式 AI 手机的关键拐点。

生成式AI技术正在成为中高端手机的标配。预计 2025 年全球生成式 AI 手机渗透率将从 2024 年的 19%提升至29%,出货量约 4 亿台,到 2027 年 ,生成式 AI 手机出货量预计达 5.5 亿台(占整体市场 43%)。

此外,全球边缘 AI芯 片规模预计从 2023 年 76 亿美元增至 2027 年 252 亿美元(CAGR 27.1%),汽车、工业物联网和医疗是核心增长领域。

高通正在转变成端侧 AI 的首席架构师。

端侧 AI 的能力注入到终端的每一个角落,从智能手机到汽车,从 XR 头显到 PC,一条连接不同终端、促进智能体自由流动的技术「大运河」正在形成。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


在这个「变态」产品展,「三折叠」笔记本比 DeepSeek 更火

By: 肖凡博
5 March 2025 at 17:30

这两天,小米靠着一颗镜头,又双叒叕出了圈。

这颗可以吸附在小米 15 背板上的外置定焦镜头,拥有 M43 传感器,35mm 焦段,以及 F1.4 光圈。依靠光信号传输,使得它能以 10Gb/s 的传输速度,将照片无损传到手机上。

许多博主上手评测后,都表示这种硬件和物理层面上的提升,让手机真的能和传统相机一较高低,虽说它在强光环境下还是会过曝,不过作为实验产品,外接镜头,或许会成为手机影像进化的全新思路。

小米模块光学技术也正在巴塞罗那的 MWC(世界移动大会)展会上亮相,而类似这种新奇、好玩的科技新物种,在这届 MWC 上,还有很多。

▲ 图片来自:Google

这回,爱范儿也来到了 MWC 2025 的现场,我们就一起来看看展会上那些奇葩,且有趣的产品。

一些老又新的补能方式

MWC 上的产品非常多,从移动硬件,到软件 AI,大部分厂商都会把引以为豪的阶段性成果带到展会上,秀秀肌肉。

▲ 图片来自:Google

其中有些已经走入我们的生活,比如小米把上周刚发布的 SU7 Ultra 开到了站台上;有些还是概念产品,可能在未来的某一天才跟我们见面;有些则会成为绝版,见的这第一面,也是最后一面。

能够入选这次「新奇榜单」的产品,一般都满足几个条件:

  • 不一定有用,但一定要新;
  • 消费市场里几乎看不到,甚至从未出现过;
  • 可以让人挠头,但脑洞一定得大开。

太阳能大家都不陌生,毕竟以前出现过「太阳能+充电宝」「太阳能+电子表」的组合,本次 MWC 上「太阳能+」的概念更进一步,走到了手机上。

你没看错,现在给你的手机晒晒太阳就能充电,Infinix 在 MWC 上展示了一款集成太阳能电池板的手机,也就是手机背面的银色背板。

▲ 图片来自:CNET

官方称,这块背板上的太阳能电池,采用新技术钙钛矿材质,效率比传统太阳能板高 30%,成本却只用 1/20。最关键的是,在效率提升的同时,还能把电池做得很薄,因此也就很适合装在小型移动设备上。

另外,Infinix 称这项技术不仅能集成在手机上,还可以用在手机壳上,不过比较遗憾且有点搞笑的是,太阳能充电功率最高只有 2W。

▲ 图片来自:Google

The Verge 在体验完两种新品后,他们觉得「太阳能外壳似乎是一个不错的折中选择」,不过看到 2W 的功率后,有网友表示:

  • 用它充一下午,不如品牌快充一分钟。
  • 2W?边充电、边发烫、边掉电是吧?

Infinix 这次在 MWC 上的花招几乎都用在手机背板上,他们还带来了旗下第二代变色 E Ink 手机,也就是可以自定义背板图案,在之前的版本中,后面板只有在插入电源时才会变色。现在,Infinix 将使用手机的内部电池供电,并且可以通过多种图案和调色板进行自定义。

▲ 图片来自:YouTube

插个题外话,可能有些朋友对 Infinix 不太熟悉,但换成他们的中文名,应该就会顺耳很多——传音手机,国内的公司,在外海爆火,因其针对非洲用户需求开发独特功能,如调整曝光和美颜算法以适应深肤色用户,支持单台手机双卡、四卡甚至五卡多待功能,部分机型待机时间长达 21 天。

▲ 图片来自:Google

2016 年开始他们在非洲手机市场的份额持续超过 40%,去年仍稳居第一,传音也被称为手机界的「非洲王」。

用上太阳能的不止传音的手机,还有联想的笔记本。他们发布了一款新概念笔记本电脑 Yoga Solar PC,它最大的特点是,将太阳能电池板集成到笔记本电脑的盖子里,可以利用外界任何来源的光补能。

▲ 图片来自:The Verge

Yoga Solar PC 的补能板由 84 块太阳能电池组成,官方称其可以实现超过 24% 的转换率(即捕获的阳光转化为可用电能的程度)。太阳能电池板仅需接受 20 分钟阳光直射,就能吸收并转换足够的太阳能,为设备提供长达一小时的视频播放电力。

▲ 图片来自:The Verge

当然,如果想要在 Solar PC 上获得理论最大的补能,必须要满足两个条件,一是环境光要够足,二是屏幕背面最好像向日葵一样对准光源,且开合角度不易过大。

联想和传音的思路非常相似,他们除了有一体式的太阳能产品,还做了一个单独的外接套件。像平板保护套一样的独立太阳能板,可以像书一样展开,通过 USB-C 有线连接为设备供电,相当于一个移动太阳能充电宝。

▲ 图片来自:The Verge

联想称这些概念产品是为了「弥合功能与环保意识之间的差距」,当电脑电量低又急用,但找不到电源的时候,太阳能是一个不错的 Plan B。不少网友也比较认同这种救急的方案,不过也有些人表示,他们那里阴晴不定的天气,大概率会让 Yoga Solar PC 没有用武之地。

▲ 图片来自:X

比起让设备自给自足的供电方案,HMD 则是选择搬来救兵——你的下一个无线充电宝,为什么不能是你的耳机?

HMD 在大会上发布了一款 TWS 耳机,硕大的外壳不仅是耳机的补能舱,还是一个无线充电宝,通过 Qi2 为手机反向无线供电。

▲ 图片来自:CNET

光从外观来看,Amped Buds 有点尴尬,作为一款无线耳机,它体积太大;作为一个充电宝,它又不太够用,内置电池只有 1600mAh。以我个人的使用经验来说,10000mAh 的充电宝只够我充满一次电,所以电量更少、还是无线充的 Amped Buds,估计只能充个 10% 以内,等天气再热点儿,不掉电已是万幸。

▲ 图片来自:Google

当然了话说回来,如果只是为耳机本体供电,那 1600mAh 就绰绰有余了。目前这款无线充电宝耳机在海外的售价为 199 欧元(约合人民币 1500 元),不知道你会不会对这个新型耳机/充电宝感兴趣?

一些「变态」产品

提到屏幕,三星一定是那家绕不开的公司,他们似乎一直对新型屏幕有执念。两个月前的 CES 2025 上,三星公布了三款柔性屏产品:

  • 全球首款 18.1 寸可折叠 OLED 笔记本,电脑、平板和外接屏间无缝切换;
  • Slidable Flex Duet 横向卷轴屏平板,能在 8.1 寸「迷你 Pad」和 12.4 寸「标准 Pad」丝滑且缓慢地变形;
  • Slidable Flex Solo 竖向卷轴屏手机,收起 5.1 英寸,展开 6.7 英寸。

仅仅过了两个月,他们又在 MWC 2025 上带来了一整套基于「柔性屏」的概念产品。

我们先来看一台「三折叠」手机,三星这台三折叠和华为 Mate XT 以及传音那台即将公布的 mini 三折叠的 Z 形折叠方式不同,不是一内一外地折,而是 凵 形,两边的屏幕都朝内向中间靠拢。

▲ 图片来自:Android Authority

这款被称为 Asymmetric Flip 的折叠屏有一些小细节:手机带有两个可以向相反方向折叠的铰链;上下屏幕折叠面积并不相等,从视频中看上窄下宽;折叠后手机并不会严丝合缝,而是在中间会露出一小部分屏幕,作为折叠态下的显示屏。

▲ 图片来自:X

虽然形态很新奇,但和已经成熟的、并带有外屏的 Galaxy Z Flip 系列相比,媒体 htcmania 认为「它的实用性仍值得怀疑」。

相比于没啥用的 凵 形三折叠,能折叠的游戏掌机则是从概念上,解决了不少玩家的痛点。游戏掌机已经从很大程度上,解决了大型游戏无法在移动端运行的难题,以及比手机更好的操控体验,但是这仍然是一个折中的方案,尽管掌机已经能让玩家随身携带,不插电游玩,不过硕大的体积只能说它能带出去,并不能称其便携。

三星在 MWC 上展出的一款折叠屏,就专为掌机而生。这台展示机的外观照搬了 Nintendo Switch,设备两边都有拨杆和按键,屏幕的正中央有一条竖向的铰链,可以将其横向对折。

▲ 图片来自:Google News

有一个很有意思的小细节,由于两边手柄都有操纵杆,所以折叠时肯定不能完全闭合,因为会被突出的杆子挡住,那三星是怎么解决的呢?他们将原先 ABXY 和上下左右键的中间掏空,接着把这八个键变成两个圆环,绕在两侧挖空的周围,按键位置不变,只是形态做了魔改,这样能让游戏机在折叠时完全贴合。

另一个外观有创意、实则老伙计的产品是 Flexible Briefcase。折叠时看上去,它就是一个超薄的金属公文包,展开后会发现其实里面藏着一块 18.1 英寸的柔性 OLED 屏幕。

在 CNET 看来,它在日后最大的作用就是让一些推销员,能随时随地带着一块能为客户展示产品或策划的屏幕,放在会议室或者酒吧桌上,尽量让自己的推销过程更为生动,也有理有据。

▲ 图片来自:Google

不过说到底,Flexible Briefcase 也只是一个「新瓶装旧酒」的产品,本质上和先前的大尺寸折叠屏,没有区别。

相比于这些早期实验产品,三星的另一款新形态折叠屏手机有可能会在今年晚些时候,正式进入全球消费市场,而它的直接目标,则是华为三折叠手机 Mate XT。

▲ 图片来自:Google

Flex G 和 Asymmetric Flip 一样,同属于 凵 形折叠,不同的是 Flex G 是横向折叠,在双折叠逐渐进入发展疲态,从全都要的战略,逐步转向轻薄赛道,三折叠很有可能成为折叠屏的下一个战场。

▲ 图片来自:Google

目前除了尺寸之争,折叠方向或许会细分出更多的赛道,究竟是 Fold Z 会更胜一筹,还是 Fold G 才是版本答案,我们可以一同见证。

三星是玩转折叠屏的典型,但并不是 MWC 上的唯一,比如联想在折叠屏上,也有自己的想法。他们在大会上带来了一款概念机 ThinkBook Flip AI PC,官方宣称这是业界首款外折屏笔记本电脑。

▲ 图片来自:The Verge

ThinkBook Flip 采用 18.1 英寸外折式 OLED 显示屏,可以变身成 13.1 英寸翻盖式笔记本电脑、12.9 英寸平板电脑以及 18.1 英寸竖屏等多种模式。

▲ 图片来自:The Verge

虽然折叠增加了屏幕厚度,但从图片中看起它的两面屏幕都很薄,折叠起来和传统笔记本的厚度相当。外折方案不仅能很好地控制折痕,也可以把折叠处变成触控功能条,切换网页和画面都很方便。

ThinkBook Flip 保留了实体键盘,四舍五入也算得上三折叠。看完了手机、平板、电脑这些常用设备的折叠方案,接下来再来跟大家分享一个以前没见过的折叠产品,看完之后我只想说:「这也能折叠?」

来自 Aurzen 公司的三折屏投影仪 Zip。它可以通过 AirPlay 快速连接到 iPhone,并通过 Miracast、Smart View 或类似设备使用 Wi-Fi Direct 连接到 Android 设备上,而且无需热点。投影时,也和其他产品一样,能自动聚焦并对齐投影平面。

▲ 图片来自:The Verge

The Verge 实测后发现,Zip 不插电时内置电池可以续使用约 80 分钟。它的优点非常明显,机身小巧,折叠后和一台小折叠屏手机的尺寸相当,就是厚了点;投影亮度足够,机身一体性也很强。

不过 Zip 成也折叠败也折叠,为了控制体积,它的扬声器比较糟糕,而且镜头也没有配备保护盖。软件系统方面,需要适配器才能从 Netflix、Prime Video 和 Disney Plus 等服务进行流媒体播放。

▲ 图片来自:The Verge

作为一台随身携带的设备,而且是以前从未有过的投影形态尝试,The Verge 还是给了 8 分的高分评价。

一些在有趣和有用间往返的配件

看完了各大厂商在主流产品本体上的尝试,我们最后再来看看他们在配件上的奇思妙想。

如果你很想尝试一些新形态的产品,但又怕技术不成熟,入手后使用场景太单一,那联想的 Magic Bay 说不定就能满足你的需求。

Magic Bay 是联想在 ThinkBook 16P Gen 6 推出的系列磁吸模块化配件,电脑本身还是传统形态,但是加上了配件后,基本上可以做到折叠屏一样的拓展功能。目前 Magic Bay 一共推出了四组套件。

尺寸最小的是 Tiko,和蔚来汽车上的 nomi 类似,是一个可视化的 AI 语音交互机器人,和实用性相比,一个会做可爱表情、有问必答但不管对错的语音助手,提供情绪价值才它是更为直接的作用。

▲ 图片来自:Google

稍大一点的 Tiko Pro 是一块横在主屏上方的迷你条形屏,可以把它当做电脑上的 HUD,屏幕里的卡片能够自定义,放上时间和提醒事项,既不占桌面空间,也非常显眼,像是贴在屏幕上的便签纸。The Verge 则为 Tiko Pro 找到了一个爆款功能:提词器。

▲ 图片来自:Google

另外两个则是卡在屏幕两侧的副屏,小的只有 8 英寸;大的有 13.3 英寸,还是左右各一个,安上双屏套件后,ThinkBook 就成了视野超宽、观感超爽的三连屏。

▲ 图片来自:Google

配件赛道上,有玩屏幕的联想,也有玩镜头的小米和努比亚。如果说小米的磁吸镜头尺寸是「鸟枪」,那真我手机上的这个镜头,完全能称得上「大炮」。

▲ 图片来自:Google

与小米 15 无线传输预览画面、照片的方案不同,真我首款 Ultra 机型则是直接采用物理光学的改装,在 deco 上方装上一枚十倍光学镜头,光线通过镜头直接打在模组正中央的一英寸传感器上,跟无反相机的成像原理一样。安装拆卸的过程也和传统相机镜头类似,通过卡扣而不是磁吸。

▲ 图片来自:Google

在 MWC 上看见的这些脑洞大开的产品,不一定会立马来到你我的身边,它们的象征意义,也远远大于实际价值。但正是这些大胆尝试、不断试错的实验品,才奠定了一个个在未来能开花结果的成熟技术。毕竟如今人手一部的全面屏,在当年的 CES 和 MWC 上,也只是初出茅庐、不被看好的早期产品。

近几年的全球科技电子展,有一个明显的趋势:中国的科技产品在全球的影响力愈发强大,并且已经成为了某些赛道的领跑者。突破形态的三折叠、拍照顶尖的旗舰机、玩法多样的科技配件……从新鲜感到实用性,国产品牌已然成为了所有展会上无法绕开,也十分吸睛的存在。

接下来的几天,我们也会在一线带来最新的报道,如果你还有什么想要了解和体验的新产品,欢迎在评论区留言讨论。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


这个中国 AI 产品一夜刷屏!全网都在要邀请码,可能是 DeepSeek 后最大惊喜

By: 李超凡
6 March 2025 at 06:25

几乎在昨晚苹果发布新品的同时,整个科技圈却被一个名为 Manus 的产品刷屏了。

这是全球首款真正意义上的通用 AI Agent,从官网展示的案例可以看到,它能够独立思考、规划并执行复杂任务,直接交付完整成果。

比起 Claude 的 Computer use 等同样能操作多任务,或者能帮你点外卖订酒店的 Agent, Manus 可以覆盖更多领域和达成更高的执行质量。

Manus 在权威的 GAIA 基准测试中创下新纪录, 性能远超 OpenAI 的同类产品。

而 Manus 这个名字来自拉丁语,Mens et Manus,就是 mind and hand,即手脑并用。这也是麻省理工学院的校训,以此鼓励学生将创意落地为实际成果。

创始人肖弘在 Manus 发布的前几个小时,在即刻平台上发文「高潮来临」,并分享了莎士比亚的一段书摘:

很难现在就判定 Manus 的诞生就是 AGI 的里程碑,但它很有可能将让 Agent (智能体)时代真的进入「高潮时刻」。

Manus 体验申请链接 👇
https://manus.im/invitation

筛简历、选房炒股,Manus 真会「干活」?

官方宣称,Manus 不仅仅是一个只会聊天的对话式 AI 工具,而是一个真正的自主智能体(Agent)。

当其他 AI 可能只停留在生成想法的阶段,而 Manus 能够独立思考并采取行动。官方将其视为人机协作的新范式,甚至可能是通向 AGI 的一个窗口。

与 Manus 同步出圈的还有一段长达四分钟的演示 demo。在这些案例中,Manus 完全自主地完成从规划到执行的全流程,展示了真正的 Agent 能力,而非简单的助手功能。

比方说,首先从一个常见的人力资源任务——筛选简历开始。

演示一开始就放了个大招,官方向 Manus 发送了一个包含 10 份简历的压缩文件,Manus 能像专业招聘人员一样高效工作。

它会先解压文件,然后逐页浏览每份简历,并记录重要信息。Manus 还能异步处理文件,这意味着你可以随时关闭电脑,等任务完成后,它会通知你。

当然,在这个过程中,你也可以随时给它新的指令。

接着,继续向 Manus 上传 5 份简历。在认真阅读了所有 15 份简历后,Manus 给出了排名建议,并提供了候选人资料和评估标准作为参考。

这还没完,我们还可以让 Manus 生成电子表格。

由于 Manus 具有知识和记忆能力,所以下次执行类似任务时,它会直接以电子表格的形式交付结果。

另一个演示案例中,结合家庭收入情况和孩子的上学要求,让 Manus 在纽约筛选一个安全、犯罪率低的社区,并购买符合标准的房产。

面对这类复杂任务,Manus 同样是有条不紊地将其拆解为多个步骤,并创建详细的待办清单。

  • 搜索并阅读关于纽约最安全社区的文章。
  • 研究纽约的中学情况。
  • 编写 Python 程序来计算预算。
  • 基于预算,在房地产网站上筛选合适的房源。
  • 整合所有信息,撰写详细报告并整理相关资料

转场到第三个案例,Manus 摇身一变成了专业的股票分析师。

让其分析英伟达、迈威尔科技,以及台积电在过去 3 年的股票价格之间的相关性,Manus 可以通过 API 访问权威数据源。在验证数据后,它开始编写用于数据分析和可视化的代码。

在完成数据分析和可视化后,Manus 也能基于这些数据创建一个网站。经用户的授权后,还能将网站部署至线上,并提供了一个可供分享的链接。

X 网友 @DavidAIinchina 也体验到了 Manus,并给出了极高的评价——「令人难以置信的用例」。

官方表示,以上展示的内容仅仅是 Manus 能力的冰山一角。

在用于评估通用 AI 助手在解决现实世界问题方面的能力的 GAIA 基准测试中,Manus 在所有三个难度级别上都达到了 SOTA 水平。

为了确保结果的可重复性,Manus 使用与其正式版本完全一致的配置进行评测。

除了基准测试,Manus 还在 Upwork 和 Fiverr 等平台上解决真实世界的问题,并在 Kaggle 竞赛中证明了自己的实力。

而这一切都离不开优秀的开源社区,因此官方也希望能回馈社区。

Manus 采用多重签名(multisig)系统,由多个独立模型驱动。今年晚些时候,官方将计划开源其中的一些模型,特别是 Manus的推理(postering)部分。

中国团队、两款爆品、百万用户

那么这款震撼业界的产品背后是谁?

据悉,Manus AI 背后的创始人肖弘是是华中科技大学软件工程专业 2015 届校友。

毕业后,他连续创业,2015 年创立夜莺科技,推出「壹伴助手」和「微伴助手」,服务超 200 万 B 端用户,获腾讯、真格基金等投资。

萦绕在肖弘身上的还有一个更鲜明的 AI 产品——Monica。

这是一款号称 All-in-One 的 AI 助手,最初以浏览器插件的形式推出。

通过集成主流大模型(如 Claude 3.5、DeepSeek 等),Monica 提供聊天、翻译、文案处理等功能,用户可通过自然语言创建定制化工具,并共享至工具广场。

Monica 同样是早期以海外市场为主,用户规模破百万,成为 AI 插件领域头部产品。

今年 2 月份,Monica 的中文版(monica.cn)已开启内测,目前免费向国内用户开放。该版本基于DeepSeek R1 和 V3 模型打造,具备深度推理思考能力,并支持记忆功能和实时联网搜索。

Manus 的技术哲学:less structure more intelligence

Manus 奉行的技术理念与主流也有些不同,是 「less structure more intelligence.」(更少的结构,更多的智能)

他们认为,当数据足够优质、模型足够强大、架构足够灵活、工程足够扎实时,computer use、deep research、coding agent 等能力会自然涌现,无需被设计为特定的产品功能。

作为大力出奇迹的代表之一,GPT-4-Turbo 在 GAIA 公开排行榜上的平均成绩不到 7%,即使是使用复杂多智能体系统的解决方案也仅达到 40%。Manus 的表现可以说是「遥遥领先」。

创始人肖弘在最近在和张小珺的访谈中,他也提前谈到了当时还未发布的 Agent 产品 Manus 。

「看上去它确实应该就是一个 chatbot,这是很符合大家想象的,同时在应用侧却很复杂,和 Monica 不一样,光用好不同模型就挺复杂。」

肖弘还将目前 AI 应用分为两类:一是填补主要应用产品的空档的不足,二是为特定场景提供独特解决方案的应用,比如 Perplexity (提供联网搜索功能) 和 Monica (浏览器插件形态) 都属于此类,它们填补了现有产品留下的空白。

而模型驱动的新场景这类应用,主要出现在图片和视频领域,直接由模型技术的进步驱动。像 Pika 和 Runway 等产品利用模型能力创造了新的应用场景。

有用户调侃 Manus 是「极致的套壳就是牛逼」,实际上肖弘并不忌讳让用户知道自己的产品用的是别人的模型。早在去年,他就把 Monica 比作消费电子产品,并把 ChatGPT 的 Logo 打在官网。

人机交互新时代已来,但别急着把 Manus 捧上 AGI 神坛

APPSO 在 2024 年年初曾作出一个预测:大模型将成为智能手机新的操作系统,自然用户界面(Natural user interface, NUI )将逐步替代现有的图形用户界面(GUI)。

而实现这种新交互的重要入口,就是 Agent 。

去年我们在很多手机的发布会上都看到类似的案例。 vivo 发布会展示可以 AI 订餐的 「Phone GPT」,华为鸿蒙的小艺和意图框架,还是荣耀的 YOYO 智能体,以及智谱的 AutoGLM,核心都是一样的:

让 AI 模仿人类的 Plan-Do-Check-Act(计划-执行-检查-行动)循环 ,从而像人类那样去操作设备。

智谱 AI CEO 张鹏之前提到,目前的 Agent 能力更像是在用户和应用之间,增加一个智能的调度层,链接所有应用甚至是所有设备。

这可以看做是大模型通用操作系统 LLM-OS的一种雏形,将对人机交互形式产生极大的影响。OpenAI 创始成员、AI 技术大牛 Andrej Karpathy 也曾多次谈到大语言模型操作系统(LLM OS)。

他认为大模型某种程度来说就是一种新的计算机和操作系统,它可以连接各种软件和硬件,以及所有模态信息组成的外设,并通过函数调用执行各种任务。

传统操作系统中,你需要围绕 CPU 构建一堆外设,比如鼠标和键盘、磁盘存储、以及缓存空间等。

而在 LLM OS 中,大模型本身就是中央处理器。I/O 外设也不再是鼠标和键盘,因为 LLM 可以兼容更多模态的数据输入和输出。同时大模型调用的外部工具也将从传统软件升级为智能体工具。

其中跨应用的操作是非常关键的一环,这意味着 Agent 能实现更加复杂的自主连贯操作,也可能走向真正的商业化落地。至于各家互联网公司提供的服务能否打通,可能是未来实现这种交互最大的障碍。

不过现在很多 AI 助手实现代操作的方式,实际上是调用手机的无障碍功能 (accessibility features) 的权限,来控制屏幕点击。

Manus 的出现,意味着 Agent 模式下的 AI 能够理解需求后独立工作,直到任务完成。这无疑是人机交互领域的一大步,它让我们看到了 AI 从工具向伙伴转变的潜力。

但要说我们已经一只脚迈入了 AGI 大门,也还为时尚早。肖弘自己也提到,早期的 Agent 更像是「功能机」,需要不断迭代和完善。目前的 Agent 仍需依赖于模型能力的提升,以及更完善的虚拟环境支持,才能真正胜任各种长尾任务。

如果类比智能驾驶,大概也相当于从 L2 级升级到 L3 级的辅助驾驶。虽然 Manus 在 GAIA 基准测试中表现出色,但这并不意味着它已具备通用人工智能的全部特征。通往 AGI 的道路依然漫长,需要解决模型能力、自主学习、任务泛化等多重挑战。

但因为有了 Manus 在自主性与通用性上的突破,通往 AGI 的大航海中,又多了一颗照亮我们的星。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


扎克伯格这款不会发售的新品,又在探索 AI 眼镜的终极形态

By: 肖凡博
1 March 2025 at 12:00

自从扎克伯格把 FaceBook 改名成 Meta 之后,这家公司就彻底和眼镜较上劲了。

有一个即热又冷的小知识,Meta 这个名字,取自「metaverse(元宇宙)」的前四个字母,2021 年改名的时候,扎克伯格本人非常自信地表示:

元宇宙将在未来十年触及 10 亿人,而元宇宙也将触及我们开发的每一款产品。

▲ 图片来自:Google

四年过去了,元宇宙成了科幻小说、创意动画和影视作品的常客,但离现实世界却越来越远,为数不多能引起人们关注的,还是那些时不时爆雷上热搜、打着元宇宙、虚拟资产的幌子,来招摇撞骗的烦心事儿。

在普及和铺开元宇宙上,Meta 和四年前一样没啥变化,不过他们却在元宇宙的入口——VR/AR 头显设备上,做出了不少有意思的新玩意儿。

定位为新型游戏机的 Meta Quest,打开了 VR 互动游戏的新世界,2024年 Meta Quest 系列占据了 73% 的市场份额,遥遥领先。

成为 AI 时代新潮配件的 Ray-Ban Meta,经过了两代产品的努力,出货量在今年 2 月正式突破 200 万台,集传统眼镜、名牌 logo、蓝牙耳机、语音助手、Vlog 相机于一身,既做好了一副传统眼镜该有的装饰作用,又让科技悄无声息地嵌入了日常生活。

明面上,Meta 在消费者市场推出了几款成功的产品;私底下,他们也在 toB 的赛道上悄悄发力,而且这些面向企业和专业机构的智能眼镜起步的时间,甚至比他们改名的时间还早。

五年之约已到,Meta 交卷

2020 年,Meta 推出了其首款实验性智能眼镜 Meta Aria Gen 1,和传统眼镜比起来,Aria Gen 1 略显臃肿,特别是两条加粗的镜腿,非常显眼。

▲ 图片来自:Google

硕大的外观并不只是摆设,其中包含了非常多的传感器套件,如配备 RGB 摄像头、定位追踪摄像头、惯性测量单元(IMU)、气压计、磁力计等,这些元件的主要功能是用于采集第一人称视角的视觉、运动和空间数据。

从理论上来说,Aria Gen 1 是专为机器感知系统、人工智能及机器人技术研究设计,它通过集成多模态传感器,帮助科研人员攻克AR眼镜的核心技术难题,如环境感知、空间定位等。

落地到实际体验,Aria Gen 1 则有着非常遥远也令人期待的使命:

设想有一天,我们可以享受联网带来的所有好处,而不需要低着头低着头看着设备。想象一下,给朋友打电话,和桌子对面栩栩如生的虚拟形象聊天。

想象一下,一个足够聪明的数字助理可以检测道路危险,在商务会议期间提供统计数据,甚至帮助你在嘈杂的环境中听得更清楚。

在这个世界上,设备本身完全消失在日常生活的起起落落中。

作为这项实验的原型机,也是第一代产品,Aria Gen 1 并没有掀起太大的波澜,沉淀五年后,这周 Meta 正式发布了 Aria Gen 2。和一代相比,有了全面的升级。

最明显的变化在传感器系统上,一代机采用的是最基础的环境感知元件,只有摄像头和惯性传感器,Aria Gen 2 在此基础上,增加了许多新的配件,包括 RGB 摄像头、6DOF SLAM 摄像头、眼动追踪摄像头、空间麦克风、IMU、气压计、磁力计和 GNSS。

特别是新一代产品在鼻托中嵌入了两个创新传感器:用于测量心率的 PPG 传感器,和用于区分佩戴者声音和旁观者声音的接触式麦克风。

如果把一代比作「只用眼镜看世界」,那相比之下 Aria Gen 2 可以说是感官全开,从更多维度感知、观察以及收集外界信息,就能在同样的时间里,获取数量更多、更准确的数据,机器的运作、学习效率也会更高。

另外,数据处理的方式上,二者也有了质变,Aria Gen 1 依赖于外部设备进行计算,虽说不在本地运算,能一定程度上,减轻设备的重量压力,但随之而来的则是反应的迟缓,在云端算力够,但网络不好的时候会有响应尴尬期,经常用智慧助手的朋友应该都有碰到过类似的情况;若是随身携带一个移动计算平台,非常不便携。

而 Aria Gen 2 则用上了 Meta 的自研芯片,可以把数据放在端侧处理,响应速度非常快,不受网络的限制,交互体验也有了非常大的进步。

一般来说,多了自研芯片的设备,拥有了端侧运算的能力,但同时也会增加设备的重量。不过 Meta 用数据说话,这五年他们真的没闲着:Aria Gen 1 重 98g,Aria Gen 2 重 75 克。加量不加重,长体验不长体重。

体验见长的,还有 Aria Gen 2 的交互方式,在第一代语音交互的基础上,二代机加入了「眼动追踪+手势+接触式操作」。语音交互很直接,检索路径会大幅缩短,但并不是生活中的所有场景都适合,比如高峰期的地铁站和超安静的办公室。

按理来说,传感器和交互功能变多,续航会受到影响,自研芯片的确影响了 Aria Gen 2 的续航,但是正向的。官方称其能达到 6-8 个小时使用时间。按照目前无线耳机的使用时长,基本能让 Aria Gen 2 做到全天候的智慧功能可用。

打好了硬件基础,后续的使用体验才会有更多的可能,Aria Gen 2 的升级体现了 Meta 对 AR 技术落地的两大战略方向:

一是隐形化集成:通过轻量化设计和传感器隐藏(如摄像头指示灯关闭时外观接近普通眼镜),降低设备存在感;二来通过开放的生态,提供底层 API 接口和模块化扩展能力,鼓励学术界开发定制化工具包,加速技术转化。

因此,Aria Gen 2 的应用场景,也从先前的室内导航与基础 AR 研究,转向了更多维的领域,医疗、工业、城市规划等,都有可能成为 Aria Gen 2 生长的土壤。

至此,我们来总结一下,Aria Gen 2 的进步与意义:

  • 感知硬件升级,实现生物数据融合与环境深度理解;
  • 搭载自研芯片,提升实时性,支持户外无网络场景;
  • 丰富交互方式,降低声学干扰,适配复杂实验环境;
  • 续航覆盖全天,延长连续使用时间,提升佩戴舒适度;
  • 应用场景拓展,推动跨学科技术融合与标准化。

扎克伯格的「暗部」

如果你看完,Meta Aria 的解读介绍,还是有点对它在消费市场的运用摸不着头脑,那很正常,因为 Meta 明确表示,这款产品「不会面向消费者销售」,那你可能想问,它到底有什么用?要说清楚造它的目的,还得回到十多年前年前。

2014 年,扎克伯格在斯坦福虚拟人类交互实验室(VHIL)体验了当时最新的 VR 设备,以及各种游戏场景,他在 VR 眼镜里里走了独木桥、飞过城市上空、砍了几棵树……

时任 VHIL 实验室经理的 Cody Woputz 曾经透露过:在体验高空坠落场景时,他(扎克伯格)甚至吓到将手放在胸口上。

这次体验让扎克伯格留下了很深的印象,一方面由于 VR 还处在早期的研究阶段,定位系统不稳定,使得体验多次被打断,得停下来重新校准设备;而且当时的 VR 还不是一体机,PC VR 的计算终端在机身外,得用一条又粗又长的线缆连接,以此来传输信号和供电。

▲ 图片来自:Google

另一方面,扎克伯格也看见了这项革命性技术在未来的巨大可能,也正是这次体验,让他下定决心,以 20 亿美元收购了 Oculus,扎克伯格曾在公告中解释过收购原因:

移动是当前的平台,收购 Oculus 是为明天的平台做准备。

之后,扎克伯格就带着 Facebook 开始了对于 AR/VR/MR 技术以及设备的探索。有了目标和硬件技术的积累,于是在 2020 年,Meta 正式开启 Aria 项目,其宗旨是「从人的视角加速 AR 和 AI」。

▲ 图片来自:Google

这么看有点玄乎,稍微通俗的解释就是,把眼镜作为桥梁,让设备从人的视角来观察世界、了解世界,并学习人和环境的互动关系,以此来推动软硬件技术的发展,最终让机器能够从人出发,并服务于人。

Project Aria 中的眼镜,可以通过突破性技术帮助研究人员,从用户的角度收集信息,特别是 Aria Gen 2 上新增的传感器,能够捕捉佩戴者周身环境的音视频,以及他们的眼动和位置信息。

从佩戴者的第一视角出发,能让研究人员更容易弄清楚,AR 到底如何才能在现实世界和日常生活中,发挥真实作用,而不只是停留在花里胡哨却不实用的功能上。

而且,从人的视角出发来收集现实世界中的信息,对于多模态 AI 来说非常重要,这样的训练方式能模拟人类多模态认知方式。

我们本身就是通过视觉、听觉、触觉等多种感官协同感知世界,而多模态 AI 通过整合文本、图像、音频、视频等数据,能够更贴近人类自然认知模式。况且跨模态信息整合能力是单模态 AI 无法实现的。

多模态的收集和训练,也能提升 AI 对复杂场景的决策精度,如果不通过多维度的信息来理解世界,那必然会存在「买家秀」和「卖家秀」的分歧,数字世界只有 0 和 1,但现实世界除了黑白,还有那难以理解的灰色地带。

▲ 图片来自:Google

交互本身其实也是多模态的,和朋友谈话时除了语言,表情、手势、语气甚至着装,都会影响我们的理解。因此多模态 AI 通过同时处理文本、图像和音频,可实现更自然的交互体验。

Meta 也给出了他们在 Project Aria 中的一些研究细节,在 Project Aria 项目中,让智能眼镜读懂世界的方式非常简单粗暴:数据化。这项被称为 SceneScript 的技术,是一种使用自回归结构化语言模型和端到端学习,来表示和推断场景几何的方法。

▲ 图片来自:Meta

简单讲,所有第一人称视角看到的场景、物体,都可以被眼镜变成具体的数字和名称,桌子有多长、墙上透明且规则窟窿叫「窗户」。

为了让眼镜内置的模型不只是看见世界,还要更好地理解世界,Meta 用自研的三维成像技术 EMF3D,把现实世界所有的物体用不同颜色的线段「明码标价」,把材质、形状和大小不一的东西统一了度量衡。

▲ 图片来自:Meta

当眼镜能读懂并且记录环境时,再现一个虚拟的世界,就有了更大的可能。项目中的环境合成技术正是通过大量的数据收集整理,复刻了一个大规模、完全模拟的程序生成的室内场景数据集,也为「数字孪生」设立了新标准,加速了 3D 物体检测、场景重建和模拟到现实学习等挑战的研究。

▲ 图片来自:Meta

这种「养成系」的学习方法有好有坏,好在一旦学成就非常扎实,难在想要扎实就得通过海量、巨量的数据,所以需要非常多的志愿者参与到 Project Aria 中,在平时长期佩戴 Meta 的眼镜。

比起找到人,如何让人放心地使用才是最关键的,因为数据收集和隐私保护,是一对难以调和的冤家。Meta 给出的方案是「自我模糊」新型 AI 模型,通过检测和模糊图像中的 PII 来保护隐私,把面部、车牌等敏感信息直接打码。

▲ 图片来自:Meta

海量的学习也能让模型更好地了解使用者的意图,比如通过对使用者每日生活场景的扫描与总结,可以判断本人在什么时间点更可能干什么事?是去楼下锻炼,还是去客厅打游戏,又或者去厨房做饭。能预判人的行为活动,也就能提前提供更多的便捷功能。

这和我们手机上的智能助手,在特定时间弹窗提醒回家路况,以及明日天气的功能,有相似之处。

▲ 图片来自:Meta

自 Project Aria 立项的五年间,他们已经做出了一些成果,例如使用第一代 Aria 眼镜收集的 Ego-Exo4D 数据集,已成为现代计算机视觉和不断发展的机器人领域的基础工具。

有些企业也已经开始研究,Aria 在他们的工作流程中,到底应该怎么用?比如宝马,正在搞清楚如何将增强现实和虚拟现实系统集成到智能汽车中。

▲ 图片来自:Meta

佐治亚理工学院的研究人员,最近也展示了当 Aria 来到你家以后,会怎样帮你分摊家务活的压力。

▲ 图片来自:Meta

很早之前,我们曾在手机智慧助手的体验文章中有个论断:人工智能和各种电子设备的结合,从当下来看,最大的意义应该是帮助老年人和残障人士,更好地融入新时代和新生活。Aria 也在无障碍技术的开发上,取得了一定的进展:

卡内基梅隆大学在一个项目中,使用了第一代 Aria 眼镜,该项目旨在开发帮助盲人和视力低下人士进行室内导航的技术。

▲ 图片来自:Meta

二代 Aria 的 AI 语音功能还被 Envision 公司整合到了自家的 Ally AI 和空间音频上,来增强室内导航和无障碍体验。

▲ 图片来自:Envision

如果要用一句话来形容 Project Aria、Meta 和旗下产品的关系,我觉得很像树根、树干和树枝。Project Aria 在最下面,平时看不见摸不着,但常年累月积累的技术成果,最终都会以各种各样的方式,赋能在公司和各类产品上。

去年 9 月底,扎克伯格在发布会上,从保险箱里拿出了一个看上去平平无奇,实则是十年绝密项目的智能眼镜 Meta Orion。从发布会的演示画面来看,它能做到和 Vision Pro 高度相似的交互功能,更重要的是 Orion 是一副真全息 AR 眼镜。

它外观上比普通眼镜厚了点,不过戴上之后既能透过镜片看到真实的世界,也能看到投影图像。

虽然清晰度比不上传统的电视和投影,但看图片与文字绰绰有余。神奇的是,我们没发现眼睛上有大块棱镜,如此贴近真实、凭空出现的现实效果,其实是通过镜片周围的 LED 投影仪,将图像投影到碳化硅镜片上。

镜框周围的 7 个摄像头和传感器,让 Meta Orion 真正实现了将虚拟投入现实,并将其融入现实的能力。它能将全息图像精准悬停在半空中,也能识别眼前的物品,例如通过桌面上的食材,它就能给你定制一份食谱。

▲ 图片来自:Meta

说 Orion 在交互体验上,有齐平 Vision Pro 之势并不是夸大其词,因为它真的支持手部和眼动追踪,双手就是手柄,配套的神经腕带还能把手变成鼠标,通过检测肌肉电流的变化识别身体的神经信号,并由此区分手指的不同动作:

  • 拇指、食指捏合进行选择
  • 拇指和中指联合呼出菜单
  • 握拳滑动拇指滚动画面

当时在发布会现场,我们还看到了 Meta Orion 的实际拆解展示,高度复杂和极其精密的内部构造,最后组合在一起的机身,只有 98g。

不难发现,Meta Aria Gen 2 和 Meta Orion 的关系,就像镜子里的彼此。只是扎克伯格在当时的采访中说,由于造价太过高昂(每台成本约 1 万美元,约合人民币 7 万元),公司不得不叫停了量产计划,只生产了1000 部提供给内部研发。

不过 Meta 也计划着,将 Aria 的技术逐步整合到 2026 年后,包括 Orion 在内的消费级 AR 眼镜中。目标是通过神经接口交互,和全息显示实现 AR 眼镜的蜕变,以此迎来智能眼镜的「iPhone 时刻」。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


做减法,成就了宇树

By: 肖凡博
22 February 2025 at 14:00

这个月 17 号召开的民营企业家座谈会,可以说是众星云集、话题爆炸,大家的关注度包括但不限于:

许久不露面的马云重新回归公众视野,把 SU7 卖爆的雷军照常出席,给外卖员配齐五险一金的刘强东不见身影……然而这次把风头占尽的,当属「浙江代表团」,7 位来自浙商的企业家携手参会,当中除了马云,还有两位年轻人的身影。

▲ 图片来自:央视新闻

一位是从节前到今天,每天都能上热搜和官宣合作的 DeepSeek 创始人梁文锋,另一位则是宇树科技创始人王兴兴。作为座谈会上最年轻的 90 后新星,他也成为了企业家代表,在这次大会上发言。

「老夫聊发少年狂,左宇树,右大疆」,从这句网友改变的词句不难看出,宇树科技在这些年的突飞猛进,以及大家对它的认可。

或许你早就听说过这家机器人公司, 或许这是它的名字第一次进入你的视野,不过没关系,因为宇树科技去年发布的最后一条视频,引爆了机器人的圈内圈外,也让更多人知道了这家来自中国的黑马。

两分钟不到的视频,你几乎能在每一帧里找到高光时刻。从高难度的 Breaking 地板动作,旋转跳跃倒立,到「华夏血脉觉醒」的武术特级侧空翻。

穿越复杂地形如履平地,载重载人前行毫无压力,路见坎坷直接起跳,高楼飞跃不带犹豫,好像根本难不倒它。

说实话,刚看到视频时,在惊讶之余我也在怀疑:这应该是合成的吧?毕竟在生成式 AI 泛滥的当下,一切皆有可能。当确认了视频的真实性后,除了惊讶,更多的还是惊讶,因为无论从哪方面来看,宇树的这台机器狗所展现出来的综合运动能力,都是比较罕见的。

宇树的下一个高光时刻,出现在春晚的舞台上。一群人形机器人 Unitree H1,和真人舞蹈演员一起,来了一场人机共舞的扭秧歌大赛。

春节之后,宇树机器人也是一刻没停,直接从 CCTV-1 干到了 CCTV-5,科比的后仰跳投、詹姆斯的霸王步还有 C 罗进球后的标志性庆祝动作,它们的机器人都能有模有样地复刻。

▲ 图片来自:YouTube

宇树每次发布的高难度动作演示,看起来都不简单,实际上背后的技术原理也挺复杂,但这些逐渐逼近碳基生物行为活动的成果,都是在宇树科技创始人王兴兴的「减法思维」下诞生的。

扒光了的 H1,兼具骨感和灵活

春晚舞台上的人形机器人 Unitree H1 跳的很欢,花样很多,而从幕后故事里我们得知,这场集新奇、惊讶与尴尬的表演,也做了不少细节上的减法。

所有上台表演的机器人,和平时的样子都不太一样,去掉了很多外包围的覆盖件,一是为了穿上舞台表演服装会更好看,二是更精瘦的外观可以和真人演员产生反差,突出「机器人」的机械感,成为舞台的焦点。

在春晚后台,宇树工程师拆除了 H1 的所有非必要外壳,原本覆盖着光滑塑料的机械臂、关节电机直接暴露在聚光灯下,这种设计看似简单,甚至有点简陋的设计,其实是在为功能让步。

去除装饰性外壳后,机器人的关节活动范围能直接提升 15%,动作灵活了,幅度更大了,甩手绢更精准,杂技动作也就更容易完成。

宇树 H1 的减法不仅在外观上有所体现,也深入到了每个机器的骨子里。传统的机器人要想完成一次多设备联动的舞台表演,需要在前期的编程和训练上下足功夫,软硬件工程师要精确到表演的每一秒、机器人的每一个动作以及走位,连舞台上的坑洼都要考虑到整个排练方案中,做到「无微不至」的关怀。

而此次春晚上的宇树 H1,一改常态,帮助团队省了不少力气,最重要的原因还是和 AI 的结合。通过 AI 对秧歌舞动作的理解,加上其本身强大的学习和重现能力,工程师可以把主要经历放在整体把控上,像是手部动作是否到位、舞台走位是否准确等细节,用上了 AI 的宇树 H1 自己就能搞定。

▲ 图片来自:Unitree

AI 和机器人的结合,让宇树团队的工作量也做了减法,这次之所以能让 AI 技术在表演中大展拳脚,究其根本,还是因为技术的积累。

拥有 43 个关节的宇树 H1 非常灵活,加上 3D 激光 SLAM 自主定位导航,和 360° 全景深度感知技术,它们能自己根据现场的音乐、队友的走位来实时调整动作,其中也包括了让十几个机器人同时接住被抛在空中的手绢。

▲ 图片来自:Google

你几乎能在宇树的每一个产品里,看到它们的减法思维,而用减法做产品,其实有着更多的深层思考。比如在前期制作过程中,能否找到所有可以降低产品成本的细节,让最终的量产产品价格,落在大众市场可接受的区间;再比如做减法能否减少产品的冗余成分,例如一些不影响性能的部件。

如果每个环节都能自洽,也能在实践中实现,那机器人的成本就可以得到进一步的控制,同时也不会影响到机器人在真实场景中的功能。

对于很会做减法的宇树来说,最有代表性的一件产品,应该非 G1 人形机器人莫属。2024 年 5 月,宇树宇树推出了这台「小个子但很灵活」的产品。

最便宜的机器人,也最灵活

宇树 G1 人形机器人虽然个子不高,只有 1.3m 左右,但它「五脏俱全」,全身共有 43 个关节点击,特别是腿部、腰部以及手臂的自由灵活度非常高。

▲ 图片来自:Unitree

验证一台人形机器人是否灵活,最好的办法就是看它动起来,有几分像人。虽然验证过程有些简单粗暴,但效果很直观。从一段发布于一月份的官方演示视频就能看出,G1 的确能算得上目前宇树最为灵活的人形机器人之一。

G1 在行走和奔跑时,运动姿态很稳定,特别是跑步时的动态平衡保持得很好,各个部位的协同也非常到位,要是穿一身紧身运动衣,再带个帽子,混进跑步队伍,一时间还真分不清它是真人还是机器人。

从外观上就能看出,宇树在 G1 上做了不少减法:少了很多肉眼可见的复杂结构,乍眼一看只有关键部位的大关节结构,一体性很强,整体比例也很接近真人。

依靠数十个活动自如的关节,以及 3D 激光雷达、深度相机等感知硬件,G1 在一些拟人运动上,能极大程度地还原出真人动作,在某些瞬间,竟会有一种真人套着机械皮壳的感觉。

宇树在 G1 上做的减法,除了外观,也包括它的制造成本和售价,甚至可以说这是最能体现宇树减法成功的一款产品,因为 G1 人形机器人目前的起售价是 9.9 万元,已经探到了全球量产机器人的地板价。

要知道,当下人形机器人行业内的产品均价约为 50 万元上下,G1 的 9.9 万直接砍至平均水平的五分之一,这个性能不凡、价格平凡的产品,实际上是宇树八年技术积累的结晶。

宇树能把 G1 的售价定到「行业地板价」,和它们一直坚持的全栈自研战略有很大的关系。通过对供应链的垂直整合,和在前期对自研硬件技术的投入,让宇树机器人上的自研电机成本,比外购降低 68%,而且激光雷达适配性优化,也使采购成本下降 42%。

▲ 图片来自:Unitree

售价低和成本挂钩,也和它们的量产思维有关,从一开始,王兴兴想要做的就不是一台概念展示机——只能出现在科学馆和新闻里——而是一批真正能走进大众市场的四足机器狗,和人形机器人。宇树机器人的产线在采用汽车工业的柔性制造技术后,单条产线年产能从 300 台跃升至 5000 台,摊薄了边际成本,售价下探就有了更多空间。

四年前四足机器狗 Go1 发布时,售价仅有 1.6 万元,单款产品的年出货量能达到 1000 台;两年后的 Go2 更是把价格又砍了一刀,直接来到万元左右。

没有对比就没有伤害,同类型的士顿动力 Spot 机器人的售价为 7.45 万美元(约合人民币 54 万),而售价 1600 美元(约合人民币 11.6 万)的宇树 Go2 机器狗,用 1/5 的价格,实现了前者 90% 的功能。

这种定价策略彻底打破行业规则,也极大程度推动了机器人市场化的进程。相较于高成本、高技术、高售价的行业传统,宇树用减法思维做出的低成本高性能产品,也得到了市场的正反馈:

  • 2023 年全球四足机器人市场份额超 40%,稳居第一;
  • 2024 年全球四足机器人市场份额 69.75%,海外销售占比达 50%。

选择,也是一种创新

减法做在价格上,能让产品卖得好;减法做在功能上,能让好卖的产品更好用。

回到 G1,在官网的演示视频里,它在完成一些精细化操作,如电焊、抓取物体、敲击和开可乐瓶时,并没有用上拟人的五指关节,而是装上了三指结构。

这套三指装置名为 Dex3-1 力控灵巧手,是 G1 机器人的一大技术亮点,看起来少了两根手指,和追求人形背道而驰,但其实经过了精心设计。

王兴兴确认为,三指结构是小型人形机器人的最优解,因为 G1 本身只有 1.3m 多一点,如果装上了五个手指,会有点太多了,而且太大了,在外观上略显突兀。

从结果来看,三根手指不仅在体积上减少了 37%,且能满足大部分的使用场景,抓东西完全够有,也很牢固。Dex3-1 力控灵巧手通过混合控制算法,三指抓握力达到 5kg,可轻松完成演示中的焊接、开瓶等精细化操作,八成以上的动作需求都能靠三指完成。

从成本来看,手部组件的成本可以压缩至竞品的 1/3;按照后期维护费用来算,每减少一个指节,故障率就能降低 12%,维修时间也能缩短 25%。因此出于实用的角度,机器人的手在满足功能性的同时,其实越简单越好。

减法思维几乎运用在了宇树的每一个工作实践中,特别是硬件上。它们拒绝采用特斯拉 Optimus 使用的行星滚柱丝杠,转而优化传统谐波减速器,在保持同等精度下将成本压缩至 1/5。

「很多人觉得新技术一定更好,但我们更关注投入产出比。」王兴兴在采访中比喻道:

就像 iPhone 用一块屏幕取代键盘,减法不是妥协,而是更高级的解决方案。

其实做减法并不是宇树成立后的一时兴起,而是在王兴兴刚开始决定做机器人时,就已经形成的默认原则。

时间倒回 2015 年,上海大学实验室里的王兴兴正面临抉择:是跟随主流研发液压机器人,还是冒险尝试电驱动方案?当时全球四足机器人领域被波士顿动力的液压技术垄断,但王兴兴发现液压系统存在致命缺陷——结构复杂、维护困难、成本高昂。

▲ 图片来自:上海大学

他带领团队转向电驱动,用 2 万元经费造出 XDog 原型机,这款去掉液压泵、简化传动结构的产品,最终在国际大赛斩获二等奖。

▲ 图片来自:Unitree

这次选择奠定了宇树的基因。如今,宇树机器人平均零部件数量比竞品少 43%,电机直驱技术使动力传输效率提升至 92%(液压系统仅 65%)。从结果来看,减法成就了宇树,但一开始就决定做减法的王兴兴,其实需要很大的勇气,因为他面临的和对抗的,是当时整个行业的规则,也是行业一以贯之的原则。

颠覆是叛逆者的标签,也是后来者的机会。现在,从产品的市占率、与竞品的同台较量以及未来的发展空间看,宇树的减法思维和简化战略已然成功,并且很有可能,成为四足机器人和人形机器人行业内的通用准则。

当科技行业沉迷于堆砌参数时,宇树用减法开辟出一条新路径。从 XDog 到 H1,从实验室到春晚舞台,这家公司始终在证明:真正的创新不在于做加法,而在于做选择。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


一文看懂 DeepSeek 开源项目第三弹,300 行代码揭示 V3/R1 推理效率背后的关键

By: 莫崇宇
26 February 2025 at 10:58

开源周进行到第三天,DeepSeek 不仅带来了技术,还传出 R2 正在路上的好消息。作为用户,一边见识着 DeepSeek 抛出来的一个个技术库,还能看到应用了这些技术的模型,怎么不算一种见证巨星的诞生。

今天出场的是 DeepGEMM,是一个专为干净、高效的 FP8 通用矩阵乘法 (GEMM) 而设计的库,具有细粒度缩放功能,如DeepSeek-V3中所述。它支持普通和混合专家 (MoE) 分组 GEMM。该库用 CUDA 编写,在安装过程中无需编译,而是使用轻量级即时 (JIT) 模块在运行时编译所有内核。

没有说 DeepSeek 不厉害的意思,但这三天的开源都能看出,即便背靠幻方,他们始终不像大厂那样资源雄厚,必须在压榨计算资源方面狠下功夫。

包括这次的 GeepGEMM 仍然没有离开这个主旋律,相比于之前的技术,DeepGEMM 的优势在于:

  • 更高的效率:通过 FP8 和两级累积降低了计算和内存开销
  • 灵活的部署:JIT 编译适应性强,减少预编译负担
  • 针对性优化:支持 MoE 并深度适配 Hopper 张量核心
  • 更简洁的设计:核心代码少,避免复杂依赖,便于学习和优化

这些特性使其在现代 AI 计算中脱颖而出,尤其是在需要高效推理和低功耗的场景下

为现代 AI 计算而造

更高的效率和更灵活的部署,是 DeepGEMM 的亮点,核心逻辑仅约 300 行代码,却在大多数矩阵尺寸上超越了专家级别调优的内核。Hopper GPUs 上最高可达 1350+ FP8 TFLOPS。

FP8 是一种压缩数字的方法,相当于把原本需要 32 位或 16 位存储的数字,精简成 8 位存储。就像你用更小的便利贴记笔记,虽然每张纸能写的内容少了,但携带和传递更快

这种压缩计算的好处是内存占用减少——同样大小的任务,需要的「便利贴」更少,搬运小纸片比大文件快,因此计算速度也更快。但挑战是很容易出错。

为了解决 FP8 精度问题,DeepGEMM 用了巧妙的「两步法」:用 FP8 进行大批量乘法,像用计算器快速按出一串结果。这个步骤里,误差在所难免。

但没关系,还有第二步:高精度汇总。每隔一段时间,就把这些结果转成更精确的 32 位数累加,像用草稿纸仔细核对总和,避免误差积累。

先跑,再通过两级累积防错。通过这种设计,DeepGEMM 让 AI 模型在手机、电脑等设备上运行得更流畅,同时减少耗电,适合未来更复杂的应用场景

包括对 JIT 编译的应用,也是类似的思路。JIT编译,全称是「Just-In-Time」编译,中文可以叫即时编译,相对应的概念是静态编译。

一般的程序在你用之前就得全部写好、编译好,变成电脑能懂的语言,但 JIT 编译不一样,它是程序运行的时候才把代码变成电脑能执行的指令。

它可以根据你的电脑情况(比如NVIDIA Hopper显卡)现场调整代码,量身定制出最适合的指令,不像提前编译那样死板,这样程序就能跑得更顺畅。只编译当下要用的部分,不浪费时间和空间,让一切都变得刚刚好。

Hopper 张量核心和 JIT 编译是最佳搭档。JIT编译可以在运行时根据你的Hopper显卡情况,现场生成最优的代码,让张量核心的计算效率拉满。

DeepGEMM 支持普通 GEMM 和混合专家(MoE)分组 GEMM,这些任务的计算需求各不相同。JIT 编译能根据任务特点,临时调整代码,直接调动张量核心的FP8计算或变换引擎功能,减少浪费,提高速度。

怎么形容这样一种技术路线呢:纤巧、轻量、锋利

对于广大开发者来说,DeepGEMM 可以说是又一个福音。以下是部署相关的信息,大家不妨玩起来。

DeepGEMM 部署指南

DeepGEMM 是一个专为 FP8 通用矩阵乘法(GEMM)优化的库,具备精细的缩放机制,并在 DeepSeek-V3 中提出。它支持标准 GEMM 和混合专家(MoE)分组 GEMM。该库采用 CUDA 编写,无需在安装时进行预编译,而是通过轻量级的即时编译(JIT)模块在运行时编译所有核心函数。

目前,DeepGEMM 仅支持 NVIDIA Hopper 张量核心。针对 FP8 张量核心计算精度不足的问题,它采用 CUDA 核心的两级累积(提升)技术进行优化。尽管借鉴了一些 CUTLASS 和 CuTe 的概念,DeepGEMM 并未过度依赖它们的模板或数学运算,而是以简洁为目标,仅包含一个核心计算核函数,代码量约 300 行。这使得 DeepGEMM 成为学习 Hopper FP8 矩阵乘法与优化技术的清晰且易于理解的参考资源。

尽管设计简洁,DeepGEMM 在各种矩阵形状下的性能可与专业优化的库媲美,甚至在某些情况下表现更优。

性能

我们在 H800 上使用 NVCC 12.8 进行测试,涵盖 DeepSeek-V3/R1 推理过程中可能使用的所有矩阵形状(包括预填充和解码,但不涉及张量并行)。所有加速比指标均基于我们内部精心优化的 CUTLASS 3.6 实现进行对比计算。

DeepGEMM 在某些特定矩阵形状下的表现不够理想,如果你对优化有兴趣,欢迎提交优化相关的 PR。

密集模型的标准 GEMM

MoE 模型的分组 GEMM(连续布局)

MoE 模型的分组 GEMM(掩码布局)

快速开始

环境要求

  • Hopper 架构 GPU,需支持 sm_90a
  • Python 3.8 及以上版本
  • CUDA 12.3 及以上版本(强烈推荐使用 12.8 及以上版本以获得最佳性能)
  • PyTorch 2.1 及以上版本
  • CUTLASS 3.6 及以上版本(可通过 Git 子模块克隆)

开发

# Submodule must be cloned
git clone –recursive git@github.com:deepseek-ai/DeepGEMM.git

# Make symbolic links for third-party (CUTLASS and CuTe) include directories
python setup.py develop

# Test JIT compilation
python tests/test_jit.py

# Test all GEMM implements (normal, contiguous-grouped and masked-grouped)
python tests/test_core.py

安装

python setup.py install

然后,在你的 Python 项目中导入 deep_gemm,尽情使用吧!

附上 GitHub 开源地址:
https://github.com/deepseek-ai/DeepGEMM

作者:刘娅、莫崇宇

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


AR 眼镜,正在迎来它的 iPhone 时刻

By: 肖凡博
25 February 2025 at 19:52

一副来自未来的眼镜,应该长什么样子?

在《王牌特工》里,它可以开启 AR 功能,看见每一个不在场的与会者;在《钢铁侠》中,它能将斯塔克体内钯元素含量,准确投射在眼前;在《龙珠》里,它又能测算出对手当前的战斗力。

总之在科幻电影和动画片中,未来的眼镜不仅是医疗器械,更是一个挂在眼前的显示屏,而且从外看起来就只是一副普通眼镜,功能性和隐藏性都做到了极致。

而现在,这样的幻想也正在走进现实,智能眼镜似乎正在迎来它的「iPhone 时刻」。

光波导,一种存在很久的新技术

最近,在杭州市余杭区举办经济高质量发展大会上,灵伴科技 CEO 祝铭明成为了焦点,网友讨论最多的不是他的演讲内容,而是他戴着的眼镜。

这副眼镜表面上看起来很普通,和一般的板材眼镜没什么区别,祝铭明边讲边介绍说「我自己的发言稿就在我这个眼镜上」,所有的演讲逐字稿都能通过眼镜直接在眼前显示,不用像放在演讲台上的传统纸质版文字稿那样,频繁低头看稿。

而翻页则可以通过手上的智能戒指操控,相当于在眼镜里架了一台提词器。虽说介绍的和真的一样,但毕竟没有现场试戴,因此在社交媒体的评论区,还是出现了一些质疑的声音。

Rokid 的回应也很迅速,立马在官方账号公布了 Rokid Glasses 的第一人称视角,不难发现这副眼镜里的确内藏玄机,和祝铭明讲的并无二致。

戴上眼镜后,绿色的字体悬浮在眼前,按压戒指可以翻到下一页,眼镜显示区域的最下方,还有页码标注,让发言人能更好地把握演讲的节奏以及进度。看完这段实机演示,有网友大胆锐评:

好想带着重生回高考的时候,加上 ds(DeepSeek),我能在北大和清华之间抖脚。」

这项把提词器搬到眼前的技术,名叫光波导,看起来很高级,有点「未来味儿」,但其实它并不算一项新技术,例如铺设在大洋底部的海底光缆,里面用来传输信号、比面条还便宜的光纤,就是一种波导技术。只是和大众市场的消费级产品结合,是最近几年才开始的事儿。

▲ 图片来自:Google

光波导是一种通过全反射原理引导光波在透明介质中传输的技术,其核心在于利用不同折射率材料的界面限制光线传播路径。

在 AR 眼镜中,光波导技术通过将微型显示屏生成的图像耦合到玻璃基底中,再通过扩瞳技术将光线传递至人眼,实现虚拟信息与现实场景的叠加。

▲ 图片来自:Google

光波导技术可以大致分为两种:几何光波导和衍射光波导,Rokid Glasses 用的是后者。我们把复杂的技术原理稍作总结梳理,其实当中的技术原理也很好理解。

我们在眼前看到的内容并不是直接显示的,而是由内嵌在眼镜边框/镜腿处的微型显示屏发出的。

光源将光线发出后,经过拥有特殊结构的镜片后,会通过一系列的反射/衍射过程,最后投入我们的眼睛,因此戴上 AR 眼镜后,才能在眼前看见漂浮的文字,却不见显示光源在哪里。

屡败屡战

Rokid Glasses 在大会上的亮相,让更多人知道了光波导,以及 AR 眼镜目前的发展进度,但其实这些年,已经有不少智能眼镜,用上了这项技术。

我印象最深的一款产品,是 OPPO 在 2021 年底发布的 OPPO Air Glass,主要原因有三。

▲ 图片来自:OPPO

一来因为外观,第一代 OPPO Air Glass 只有一般眼镜的 1/2,单边佩戴又酷又怪,看到的第一眼很容易让人联想到龙珠里面的战斗力眼镜,贝弗利、贝吉塔同款,中二且超前。

而且,OPPO Air Glass 的佩戴方式和当下的 AR 眼镜又有一些区别,它不是直接挂在耳朵和鼻梁上的,而是要吸附在右侧镜腿上,也就是说平常用不到、或者没电时,可以单独把它取下,不会对本身近视的人造成影响。

▲ 图片来自:OPPO

采用外挂式的 OPPO Air Glass,非常像早些年的蓝牙商务耳机,和眼镜分开使用互不干扰。最后一点新奇点在于,它能让传统眼镜秒变智能 AR 眼镜,有音响能变成蓝牙耳机,有麦克风能语音交互,有显示功能演讲题词和实时翻译。

智能眼镜的概念很空泛,但 OPPO Air Glass 通过一个挂件,变成了具体的智能工具。

光波导技术除了能给消费市场,带来一些全新的技术展示,它还能成为一部分人的特种设备。去年五月,Hearview 智能眼镜在海外发布,它面向的人群非常精准,功能也很单一:专为听障人士而生,将他人的讲话内容,通过手机麦克风和 AI 算法,实时转录成文字,并且在眼镜上显示。

▲ 图片来自:Google

以前听不见的声音,现在全都可以通过 Hearview 这个全新的媒介,让听障人士获取更多的外界信息,它不仅可以拿来和人对话,包括刷剧、玩游戏、买东西等等,任何需要有声语言的场景,Hearview 就能让听障人士看见声音。

它的优势很明显:语音转文字的准确性达到 95%;最远转录距离 10 米左右;续航 7 小时,重量只有 52 克……不过缺点也显而易见,支持的语言太少;1799 美元(约合人民币 13000 元)的售价,虽说比人工耳蜗便宜了很多,但也只能是小部分人的玩物。

▲ 图片来自:Google

根据 IDC 的数据,2024 全年中国 AR/VR 市场预计出货 53.5 万台,同比下滑 26.3%。虽说去年市场整体表现一般,但他们仍然非常看好 AR/VR 设备市场。

首先是因为此类产品技术在这两年迎来了比较大的升级,加入这个赛道的厂商和产品也越来越多。如果你现在去淘宝搜索「AR 眼镜」「光波导」几个关键词,会跳出来一大堆相关产品,例如和 Rokid Glasses 同类型的 INMO GO2,也有光波导技术,比起 Hearview,它支持的语言更多(40 种),而且价格也更便宜(¥3999)。

▲ 图片来自:Google

另外,星纪魅族旗下也有此类 AR 智能眼镜,去年九月发布的 StarV Air2,重量更轻 44g,价格优惠完后,不到 3000 就能入手。

▲ 图片来自:Google

而且,从去年开始,AI 落地千万行业也成了常态,拥有了更多功能的新技术眼镜,也会从根本上拉开与传统眼镜的使用体验。所以 IDC 预计 2025 年中国 AR/VR 市场将迎来期待已久的回暖,出货量同比 2024 年将增长 114.7%。

从短期来看,以 Meta Rayban 为代表的 AI 眼镜会更受青睐,因为功能相对较少、价格相对较低,更容易让大众消费市场接受,但是从长期发展来看,功能更加丰富、拥有显示屏的 AR 眼镜,可能才是未来。

丰满的理想,残酷的现实

新技术的畅想总是美好的,但回到现实,还是有点残酷。

穿戴设备的「iPhone 时刻」,的确有可能发生在 AR 眼镜上,因为眼镜的形态很容易让人接受,而且越靠近人体感官的穿戴设备,越容易与人产生交互,也更容易从人的第一人称视角,收集外部环境的信息。

但不得不承认的是,AR 眼镜目前还算不上成熟。什么时候我们都司空见惯了,那什么时候才算成熟,并且能经过市场的认可。

▲ 图片来自:Google

比如在高峰期的地铁站、公交站和人流密集的场所,我们看见没有实体键盘的手机不会感觉奇怪,因为人人都是全面屏;我们看见一个人的手表有彩色显示屏也不会觉得奇怪,因为智能手表也成了许多人的出门必备;我们看见一个人突然对着空气讲话,也不会觉得奇怪,因为 TWS 耳机随处可见,人耳一个。

不过,AR 眼镜还没有这样的普及率,它的确处在爆发的前夕,但也只是在前夕,属于 AR 眼镜的时代,还没到来。

过去的一年多,我们也体验和评测了各种 AR/AI 眼镜,究其还未能大规模铺开的原因,大致可以总结为以下几点。

最先要说的是,光波导技术本身的限制。仔细看上面我们提到的所有消费级 VR 眼镜,不难发现他们都有一个共性——显示内容都是绿色的,且都以文字显示为主:颜色和显示内容都太单一。

▲ 图片来自:Rokid

这是为什么呢?问题就出在光波导技术本身。

由于光波导的设计和材料特性,某些颜色的光在传输过程中会有更高的效率和更好的表现。绿色光波长较短,传输效率较高,因此在光波导 AR 眼镜中,绿色光的显示效果通常会更好。

▲ 图片来自:Google

虽说可以针对 RGB 色彩,给镜片上设置不同的衍射光栅,来改善最终在出瞳位置的颜色均匀性,减小彩虹效应,然而这只能起到缓解作用,并不能完全消除。

更何况,在一个消费级别的产品上,必须要考虑体积和成本。因此,目前大部分需要长时间佩戴的 AR 眼镜,都采用了最保险的方式,也就是用绿色显示一切。

另外,光波导的光学效率较低,在整个传播耦合过程中,光损失可达 70-80%,因此需要高亮度的光源进行补偿,不然在白天的室外,即使上面有显示字体,也很难看清。

▲ 图片来自:Google

光源亮度补偿,也意味着更高的能耗,这给本就不富足的镜腿上的小电池雪上加霜,要是用得多,一天三充甚至四充都会成为常态,严重影响了使用体验,特别是对近视的人群很不友好,没电最多会影响使用体验,但摘下眼镜会影响生活体验。

加上纳米压印工艺对公差的要求,1 微米就可能导致 10 微米的成像偏差,还有光波导技术成本几乎占到了眼镜总成本的三到四成,各种各样的原因,让光波导 AR 眼镜从生产到售卖的全过程,都充满着各种各样的绊脚石。

最后,即便真的做了出来、上了架,三千往上走的价格并不美丽,在传统眼镜以及 AI 眼镜面前,它们似乎没有太大的竞争力。

从生不逢时,到恰逢其时

Rokid Glasses 以及一众 AR 眼镜的优劣势,都很明显,那它还有机会么?我觉得有,而且刚好处在最好的风口。

1987 年,一个打着「革命性个人电脑」旗号的项目正式启动,其设计理念是彻底改变人与计算机的交互方式,通过手写输入取代键盘。6 年后初代产品正式问世——MessagePad 100,它还有个更让人熟知的名字:Apple Newton。

▲ 图片来自:Google

「牛顿」一出生,就搭载苹果自主研发的 Newton OS 操作系统,采用 ARM 610 RISC 处理器,在个人电脑还是一件稀罕物的时代,「牛顿」就支持手写识别、红外通信、触控笔输入,并具备联系人管理、日程安排、笔记记录等功能,被视为当时的技术先驱。

研发费用总共耗费 5 亿美元,首发售价 699 美元(约合人民币 5000 元)的划时代产品,最终因为价格昂贵、手写体验极差、性能尴尬等各种各样的问题,让梦想败给了现实。

▲ 图片来自:Google

它到底有多失败呢?乔布斯在 97 年回归苹果后,直接取消了这条产品线。无论从乔布斯本人,还是「牛顿」的市场表现来看,它和成功都没有一点沾边,但「牛顿」真的一无是处吗?其实不然。

首先,「牛顿」的 ARM 芯片合作奠定了苹果在移动设备芯片领域的优势,后续 iPod、iPhone、iPad,均采用 ARM 架构,到现在,有 90% 的智能手机,都搭载的是 ARM 架构。

▲ 图片来自:Google

而且,「牛顿」的手写输入和触控笔技术,为 iPhone 的多点触控和 iPad 的触控界面提供了早期经验,也间接影响到了当下的手写平板技术。

前苹果 CEO 约翰·斯卡利也曾为「牛顿」辩护:产品之所以未成功是因为太超前,太有野心。

而智能眼镜,也有着类似的经历。2012 年的 Google I/O 上,智能眼镜 Google Glass 成为压轴戏,当时许多人都认为它会成为「定义未来十年科技走向的产品」。

▲ 图片来自:Google

和 Apple Newton 殊途同归,两个被寄予无限期望的跨时代产品,最终都脱离了时代的正轨。续航与硬件设计缺陷,软件生态匮乏,高价与实用性失衡,让 Google Glass 亮相两年后,就宣布停产。

▲ 图片来自:Google

它们预测对了大方向,却没遇上一个可以支撑起超前技术的时代。我们要看到这些跨时代产品失败的原因,同时我们也要看到这些当年的坎儿,也正在被一个个地解决。

语音交互在这十多年里从被人嘲笑,变成了生活里一句句的「小爱同学」「小艺小艺」「Siri」;软件生态的丰富度如指数爆发般增长,要知道十多年前「互联网+」还是个很新的词;人工智能在两年的进步飞速,大模型从年更、周更,进化到了今天的日更,甚至不同公司的产品每小时的排名,都会发生变化;同样体积的电池,容量大幅增长……

▲ 图片来自:Google

在这个技术疯狂迭代的交接点,IDC 也大胆地预测了 2025 年中国 AR 市场,将同比 2024 年,增长 143.9%,迎来新兴穿戴设备的拐点。

前段时间,博主@元宇宙小灰发布了一段概念视频,畅想 Rokid Glasses 有了与外界环境互动的能力:骑车导航时行进路线会标在路面,也能识别街边店铺的名字,并一句话下单买杯咖啡。

▲ 图片来自:@元宇宙小灰

而这些技术,其实都已经在汽车上的 AR HUD、手机的智慧助手上实现了,把所有功能汇集到鼻梁的眼镜上,也只是时间问题。

▲ 图片来自:Youtube

最后,我再来说说比较看好 Rokid Glasses 的另一个原因:AR 智能眼镜,首先是一个眼镜。这件事儿已经在 Meta Rayban 上验证为真,Rokid Glasses 和暴龙眼镜的合作,走的也正是「实用+科技」的路线。

当它没电了、Meta 不起作用的时候,Rayban 依然是一副不掉价,也挺好看的眼镜。

新技术的发明总是以超越当下、超越时代的姿态出现;而科技的成熟,最终都会以我们最熟悉的样子,融入日常生活。在人们使用它、习惯它,并将它当作一件理所当然和稀松平常的事儿时,技术的意义与价值,也就在此刻展开。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


iPhone 16e 上的这颗全新芯片,为什么值得苹果烧几十亿美元?

By: 苏伟鸿
25 February 2025 at 15:03

和五年前 M1 芯片在发布会上被大谈 20 分钟的排面不同,苹果刚刚问世的自研芯片 C1,只作为全新 iPhone 16e 的新特性,在新闻稿和宣传片中被两句话草草带过:

C1 进一步拓展了 Apple 芯片的优势,这是首款 Apple 设计的调制解调器,也是 iPhone 迄今能效最高的调制解调器,具备快速稳定的 5G 蜂窝网络连接性。包括 C1 在内的 Apple 芯片、全新内部设计与 iOS 18 的先进电源管理相结合,共同造就了出类拔萃的电池续航表现。

苹果轻描淡写的背后,却是一次长达七年屡败屡战、狂烧几十亿美元的征程,并且将影响未来所有苹果设备的体验。

来之不易的苹果自研基带

不管是 A 还是 M,苹果打的都是一场准备充分的战役:乔布斯时代就形成的造芯天团,ARM 的高级授权,成果就是鲜少失手、常常惊艳的 iPhone、Mac 处理器。

但调制解调器背后涉及复杂的射频、信号处理、通信协议等等技术,加上需要在全球各个地方测试,因此是一个准入门槛极高的领域,苹果初期也并未布局,前期采用英飞凌基带,后期转投性能更好的高通。

4G、5G 时代相继来临,手握大量技术专利的高通,成为基带领域的龙头,占据了市场半壁江山。

高通向每台搭载自家基带的设备收取不低的授权费用,高达 12-20 美元。虽然高通收取苹果的费用要更低(7.5 美元),但还是远超苹果 1.5 美元的预期。

2017 年,苹果决定打破现状,起诉高通收取的专利费用过高,指责后者反竞争,因为没有基带无法制造智能手机。

与此同时,苹果也开始寻找能够替代高通的提供商,于是向收购了英飞凌的英特尔抛出橄榄枝。

但英特尔的表现属实有点扶不上墙。初次混用基带的 iPhone 7,英特尔版的通信表现就是弱于高通版。而被苹果寄予厚望超车高通的 5G,英特尔也没能把握住机会,反而导致 5G iPhone 被迫推迟一年。

▲ iPhone 7 上混用了英特尔基带,性能远不及高通,图源:Chipwork

这场诉讼持续了接近 3 年的时间,以苹果的落败告终,继续和高通达成协议,延续至今。英特尔的基带团队也因为失去苹果这个唯一大客户而解散。

但苹果并没有就此认命,而是选择一条更为艰险的道路:既然市场上没有其他选择,为什么不自己打造自己用?

此招虽险,胜算也很大,一旦成了,就意味着起码 5G 时代能摆脱高通的控制,苹果能进一步掌控 iPhone 的硬件体验。

但苹果内部不是所有人都看好这个项目,在自研基带项目开始的 2018 年就离开苹果的前无线总监 Jaydeep Ranade 就是其中一员:

仅仅因为苹果制造了地球上最好的芯片,就认为他们也可以制造调制解调器是荒谬的。

为了快速起步,苹果接收了英特尔基带团队 2200 多名员工和技术。虽然技术谈不上先进,但超过 17000 项技术专利,起码让苹果不至于从 2G 技术开始白手起家,能直接进入 5G 时代。

和造计算或者图形处理器不同,造基带不能闭门造车,而是要全球各地跑,对每个国家和地区的通讯标准和频段信息进行测试,确保一百多家运行商的网络都能在自研基带上跑。

作为后报到的玩家,苹果的另一个挑战是如何绕开高通等前辈手握的无数专利,走出一条前无古人的技术路线。

苹果不愿意像 M 芯片一样展开谈谈 C1 的技术规格细节,除了为了避免网友和媒体对 C1 的性能进行过度分析,很有可能也是为了规避一些敏感的专利问题。

因此这七年来,不断有苹果自研基带的风声传出,但多半以坏消息为主。最接近的一次或许是 iPhone 15,但据悉当时的苹果基带不仅面积堪比半部 iPhone,且又热又慢。

▲ iPhone 15 采用了高通基带

和苹果基带绑定的 iPhone 16e( iPhone SE 4),屡次传出因为自研基带的研发进度而推迟、取消的消息,问世难度堪比哪吒。

最终,这颗历经千难万险的 C1 成功在本月亮相,苹果 Apple Silicon 的字母表再添一名新成员。

单纯就 C1 的研发历程而言,著名科技记者 Mark Gurman 给出了一个评价:

C1 苹果基带是一个意义深远的技术成就。

性能不够,能耗凑

好了,故事讲完,是时候要面对更现实的问题,那就是这颗 C1 芯片,它是不是如同传闻中不如高通?

关于 C1 的制程,MacRumors 报道,基带本体采用了台积电 4 纳米工艺,与目前高通的旗舰调制解调器产品 X75 相当;而收发器则使用了台积电 7 纳米工艺。

如果单从工艺上看,C1 要比 iPhone 16 系列上采用三星 5nm 的高通 X71 还要更加先进。而没有使用最先进的台积电 3nm 工艺,可能还是因为成本问题。

▲ iPhone 16 上搭载高通 X71 基带

比对美版 iPhone 16、iPhone 16e 的蜂窝网络支持频段,很容易就发现端倪:iPhone 16e 缺失了 5G NR mmWave 的支持,也就是「毫米波」。

这三个字上一次引发热议,还是 iPhone 初上 5G,美版 iPhone 12 独占了这个技术。这次则是 iPhone 16e 在全球范围内都不支持 5G 毫米波。

▲ 美版 iPhone 12 上的毫米波天线

鉴于国内 5G 本来就不支持毫米波,所以国行 iPhone 16e 在这方面可以说不受影响。而对于美国的小伙伴而言,iPhone 16e 可能会在毫米波擅长的短距离场景,也就是一些人流密集的场所,比如商场、机场等等,信号和网络表现不如 iPhone 16 系列。

不过几年过去,5G 毫米波在美国也没有得到大范围铺开,C1 甚至引发了「是否意味着毫米波已死」的讨论。

如果对比苹果官网上国行 iPhone 16 和 iPhone 16e 的蜂窝网络技术规格,可以发现两者在频段上的支持完全一致。

除了频段支持之外,由于苹果官方不愿意披露更多 C1 的技术细节和性能表现, iPhone 16e 的通讯能力表现如何,还有待在实际的情境中进一步实测。

而根据外媒爆料称,C1 只支持四载波聚合的低频 6-GHz 网络,因此峰值速度可能达到 4 Gbps 左右;而高通 X75 支持五载波聚合低频 6-GHz 网络,加上十个毫米波载波,理论速度能达到 7-10 Gbps。

虽然在性能上还不能算第一梯队,但 C1 已经展现在能耗方面初露锋芒。苹果官方表示,由于 SoC 能够协同 C1 调节电源,加上 C1 更小的体积为电池空间腾出了更多空间,iPhone 16e 能够持续视频播放 26 小时,不仅大幅领先配置基本相当的 iPhone 16(22 小时),还逼近屏幕更省电尺寸更大的 iPhone 16 Pro(27 小时)。

跨越世代的平台

苹果硬件技术高级副总裁 Johny Srouji,也就是每次苹果发布会负责介绍芯片的高管,在路透社的采访中对 C1 和后续的基带芯片表示高度认可:

我们打造了一个跨越世代的平台。C1 只是一个开始,我们将在每一代产品中不断改进这项技术,让其成为我们的一个平台,让我们的产品脱颖而出。

▲ Johny Srouji(右)正在查看 C1 测试数据,图源:路透社

毕竟,使用蜂窝网络的苹果不只有 iPhone,iPad、Apple Watch 很可能就是下一个用上 C1 的产品线,传闻蜂窝版 Mac 也已经在路上。

几十亿美元的研发费用看起来天价,但实际上,根据《华尔街日报》,苹果在 2022 一年给高通的授权费,已经高达 72 亿美元了。

先不提苹果已经因为授权费过高闹上法庭,这笔巨额资金还是直接提供给苹果的老对手高通,等于搬石头在砸自己的脚。

更重要的是,这几年 iPhone 的销量已经不够亮眼,从而导致这个最赚钱的业务收入不断收缩。苹果开始调整 iPhone 的策略,即不再追求更高的出货量,而是提升单机的利润率。

而占据一台 iPhone 成本将近一成的基带,自然成为了苹果的落刀处。有庞大的消费者群体买单,加上 iPhone 16e 吸引人的低价路线,苹果自然有底气选择首发一颗还不够完美的基带,况且全线采用英特尔基带的 iPhone 11 系列也卖得并不差劲。

▲ iPhone 11 全系采用英特尔基带,图源:TechInsights

自研基带短期内利好的是苹果,长期来看,也意味用户能用上更好的产品 。

苹果希望 C 系自研基带能够和 A 系处理器高度集成,成为 iPhone 另一个独家的亮点体验。就目前而言,A18 已经能精准控制 C1 的电源,从而实现更低的能耗表现。

苹果无线软件副总裁 Arun Mathias 还给出了另一种场景:如果 iPhone 在一个拥挤堵塞的网络环境中,手机的处理器可以向基带发出信号,将最需要速度的网络流量前置,让手机响应速度更快。

由于工艺先进,C1 的体积要更小,因此这款基带如果出现在即将于今年秋季登场的轻薄机型 iPhone 17 Air 上,也丝毫不让人奇怪。据爆料,这款手机最薄处只有 5.5 毫米。C1 为 iPhone 16e 带来的续航提升,无疑提前缓解了我们对这款超薄手机的电量焦虑。

▲ iPhone 17 Air 假想图,图源:9To5Mac

而彭博社爆料称,苹果最终将会把基带彻底集成到 SoC 当中,从而更加节能,响应更快,并且进一步降低成本,不过最早也要等到 2028 年。

苹果目前已经对 C 基带有了非常长期和明确的规划:明年的 C2 将补齐缺失毫米波的短板,并且将会在所有 iPhone 上推出,可能还会包括一款 iPad;而 C3 的目标将是超越高通基带。

硬件的设计权在手里,也意味着苹果将拥有更自由的整活空间。

我这里大胆畅想一个很有可能在未来 iPhone 诞生的功能:无网通信。

早在 2019 年,苹果就传出正在为 iPhone 开发不需要网络的「对讲机」功能,但因为这个功能与英特尔一同开发,而苹果当时已经和高通和解达成独家协议,因此项目被无限期搁置。

▲ Apple Watch 上已经有「对讲机」功能,但需要网络

不过相关知情人士也表示,「对讲机」仍有可能出现在未来的 iPhone 上,因为当时苹果已经在计划摆脱高通基带。

时至今日,C1 终于打响了去高通化的第一枪,苹果也继承了英特尔基带的遗产,随时可以重启这个项目。

无网通信技术也不算新鲜,去年国内小米、vivo 等大厂已经发力,苹果想要再起入局,时机不早不晚。

C1 还不是苹果自研的尽头,分析师郭明錤表示,今年 iPhone 17 全系都将搭载苹果自研的 Wi-Fi 芯片。

借助自研 Wi-Fi 和蜂窝芯片,加上已有的 W、H、U 芯片,不仅饱受吐槽的 AirDrop 有望将迎来焕新,苹果很可能将生态布局到「连接」的层面,实现自成一派的苹果互联生态。

▲ Apple Watch 上已经有「对讲机」功能,但需要网络

对于苹果的自研芯片,我们总会提到一句乔布斯的老话:

一个对软件抱持有理想的人应该做属于自己的硬件。

而 C1 自研基带,我想改成这个说法:

一个对产品体验抱持有理想的人应该做属于自己的硬件。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


深夜重磅!全球首个混合推理模型发布,Claude 能「思考」了,实测发现这些细节

By: 莫崇宇
25 February 2025 at 07:46

就在刚刚,Claude 3.7 Sonnet 正式发布。

作为 Claude 有史以来最智能的模型,它采用混合推理方式,既能快速生成响应,也能进行深入的逐步推理。

一个模型,两种思考模式。

此外, Anthropic 还发布了一款智能编程工具——Claude Code。

官方表示,Claude 3.7 Sonnet 和 Claude Code 标志着 AI 迈向真正增强人类能力的重要一步。它们不仅能深入推理、独立执行任务,还能高效协作,让 AI 在现实世界中发挥更大价值。

太长不看,省流版如下:

  • Claude 3.7 Sonnet:全球首款双模式混合推理模型,标准模式快速响应,扩展思考模式进行深度自我反思,在数学、物理和编程等复杂任务上表现卓越,注重实用导向,不必要拒绝减少 45%,强化代码协作能力
  • Claude Code:直接在终端理解并操作代码库,能一次完成需 45 分钟以上的人工编程任务,专长于测试驱动开发、复杂调试和大规模代码重构,全面支持代码编辑、测试执行等核心开发流程

全球首款混合推理模型正式发布,你的 Claude 会思考了

新发布的 Claude 3.7 Sonnet 不仅引入了详细的逐步推理,而且也公开了「思考」过程。感谢 DeepSeek 的内卷,推动了行业透明度的提升。

就像人类用同一个大脑既能快速反应,又能深入思考一样,Anthropic 同样认为推理能力不应依赖于单独的模型。

最好是,一个模型搞定所有场景。

用户可以自由选择是让模型快速作答,还是让其进行更长时间的深度思考。

在标准模式下,它是 Claude 3.5 Sonnet 的升级版;在扩展思考(Extended Thinking)模式下,它会在回答前进行自我反思,大幅提升在数学、物理、指令理解和编程等复杂任务上的表现。

从基准测试结果来看,Claude 3.7 Sonnet(扩展思维版)适用于强逻辑推理和数学任务,而 Grok 3 Beta 和 DeepSeek R1 则在特定任务(推理、数学竞赛)上表现更佳。

DeepSeek R1 在数学解题能力(97.3%)方面最强,同时在其他任务上也有不错的表现。

在推理模型的优化过程中,Anthropic 减少了对数学和计算机科学竞赛问题的侧重,更专注于满足企业对 LLM 的实际应用需求。

在专门评估 AI 解决真实软件问题能力的 SWE-bench Verified 基准测试中,Claude 3.7 Sonnet 达到了行业领先水平。同时,该模型在 TAU-bench 测试中也表现突出,展现了其在与用户及工具交互方面的优异能力。

值得一提的是,Claude 3.7 Sonnet 在 Anthropic 内部的 Pokémon 游戏测试中超越了所有前代模型,展现了更强的决策与规划能力。

该模型现已适用于所有 Claude 订阅计划,包括免费版、专业版、团队版和企业版,同时也可通过 Anthropic API、Amazon Bedrock 和 Google Cloud 的Vertex AI 访问。

值得注意的是,除免费版外,所有平台均支持扩展思考模式(Extended Thinking Mode)。

无论使用哪种模式,定价与前代模型保持一致。输入 100 万个 token 收费 3 美元,输出 100 万个 token(包括思考过程中使用的 token)收费 15 美元。

在过去,Claude 出色的编程能力让其成为许多开发者的首选模型,现在,Claude 3.7 Sonnet 也进一步放大了其优势。

Cursor、Cognition、Vercel、Replit 和 Canva 等公司均确认该模型在处理复杂代码库、高级工具使用、代码修改规划和全栈更新处理等方面表现出色。

为优化用户体验,GitHub 集成功能已向所有订阅计划开放,开发者可以直接将代码库连接到 Claude,实现更高效的协作。无论是修复 Bug、开发新功能还是完善文档,Claude 3.7 Sonnet 都能为个人项目和企业级 GitHub 代码库提供更好的支持。

在安全性方面,通过与外部专家合作,相比前代模型,Claude 3.7 Sonnet  能更准确地区分恶意请求和正常请求,不必要的拒绝减少了 45%,能够提供更流畅的交互体验。

▲截取自 Claude 3.7 Sonnet 系统卡

代码写到一半想放弃?把复杂问题甩给 Claude Code

Anthropic 还推出了一款用于智能编程工具——Claude Code,目前作为限量研究预览版开放,开发者可以直接在终端中将大量工程任务交给 Claude 处理。

新推出的 Claude Code 能够搜索和阅读代码、编辑文件、编写并运行测试、提交和推送代码到 GitHub,以及使用命令行工具等。

据 Anthropic 官方介绍,在早期测试中,Claude Code 能一次性完成通常需要 45 分钟以上的人工任务,大幅减少开发时间和工作量,特别是在测试驱动开发(TDD)、调试复杂问题和大规模重构方面表现突出。

作为一款终端运行的智能编程助手,Claude Code 能够直接理解开发者的代码库,并通过自然语言命令帮助用户更高效地编码。它可以无缝集成到开发环境中,无需额外的服务器或复杂的配置,极大地简化了工作流程。

其核心功能包括编辑文件、修复 Bug、回答关于代码架构和逻辑的问题、执行测试、修复测试错误、进行代码格式检查,以及搜索 Git 历史记录、解决合并冲突、创建提交和拉取请求等。

Anthropic 表示,在接下来的几周内,他们计划持续优化 Claude Code,重点改进包括提升工具调用的稳定性、支持长时间运行的命令、改进应用内的渲染效果,以及增强 Claude 对自身能力的理解。

这次发布预览研究版本也是希望深入了解开发者如何使用 Claude 进行编程,从而为进一步优化未来的模型版本提供参考。

感兴趣的开发者在官方网站查看相关事项,指路 👇
https://docs.anthropic.com/en/docs/agents-and-tools/claude-code/overview

AI 发展速度太快,连起名都跟不上了?

X 网友倒是用上了,不过注意点有点偏差,一年前编写的越狱提示词还能用上。

询问 strawberry 里有多少个 r,Claude Sonnet 3.7 虽然答错了,但官方似乎特意给这个问题里埋了一个彩蛋。不得不说,官方是懂怎么玩梗的。

知名博主 @rowancheung 提前用上了 Claude 3.7 Sonnet,并盛赞该模型为世界上最好的编码 AI 模型,在接收到一个简单的指令后,就生成了一个类似 Minecraft 的游戏,并且可即刻运行。

耗费的推理 Token 越多,Claude 3.7 Sonnet 绘制的「彩虹独角兽」效果越好。

我们也简单上手体验了一下 Claude 3.7 Sonnet。

「烧一根不均匀的绳要用一个小时,如何用它来判断半个小时?烧一根不均匀的绳,从头烧到尾总共需要 一个小时。现在有若干条材质相同的绳子,问如何用烧绳的方法来计时一个小时十五分钟呢?」

一道简单的推理题,差点把 Claude 3.7 Sonnet 的 CPU 干烧了。

相信你已经注意到,与 DeepSeek R1 展示的思考过程相比,Claude 3.7 Sonnet 公开的思考过程比较客观、缺乏个性化表达,这是有意为之的设计。

Anthropic 没有对模型的思维过程进行标准角色训练,而是希望给予Claude最大自由度进行自主思考,就像人类思维一样,这可能包含不完全正确或尚未成熟的想法。

并且,Anthropic 认为模型所展示的思考过程不一定真实反映了其内部决策逻辑,因此,Anthropic 正在权衡未来版本是否继续公开 Claude 的思维过程,并评估其利弊,未来将基于用户反馈和研究进展进一步调整。

有趣的是,我们之前提到过随着各家新模型的相继发布,各类版本号和命名规则也是让人眼花缭乱。

去年当 OpenAI CEO Sam Altman 被问及公司产品的命名策略时,他也坦言相当头疼。

Anthropic CEO Amodei 也曾表示,虽然 Claude 的命名方式在早期看起来不错,但随着模型的快速迭代和更新,沿用的命名体系同样变得捉襟见肘。

他指出,目前没有任何 AI 公司真正「搞定命名」这一问题,大家都在努力寻找更简单、更清晰的命名方式。这或许也是 AI 巨头们少有达成的共识。

Anthropic 首席产品官 Mike Krieger 也在 X 平台公布了 Claude 3.7 Sonnet 的幕后命名花絮。

内心的纠结过程大概是这样👇

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


一文看懂 DeepSeek 刚刚开源的 FlashMLA,这些细节值得注意

By: 莫崇宇
24 February 2025 at 14:20

今天开始,我们正式进入 DeepSeek 开源周。

DeepSeek 开源项目第一弹 FlashMLA,已经在极短的时间内发酵到全网了,短短几个小时,该项目就已经收获了超过 3.5K Star,且还在不断飙升。

虽然 FlashMLA 里的每个字母都认识,连在一起就看不懂了。别急,我们整理了一份 FlashMLA 速通指南。

由 Grok 3 整理,APPSO 核实

让 H800 性能暴增,FlashMLA 到底什么来头?

据官方介绍,FlashMLA 是一个针对 Hopper GPU 优化的高效 MLA(Multi-Head Latent Attention)解码内核,支持变长序列处理,现在已经投入生产使用。

FlashMLA 通过优化 MLA 解码和分页 KV 缓存,能够提高 LLM(大语言模型)推理效率,尤其是在 H100 / H800 这样的高端 GPU 上发挥出极致性能。

说人话就是,FlashMLA 是一种专门为 Hopper 高性能 AI 芯片设计的先进技术——一种「多层注意力解码内核」。

听起来很复杂,但简单来说,它就像是一个超级高效的「翻译器」,能让计算机更快地处理语言信息。它能让计算机处理各种长度的语言信息,而且速度特别快。

比如,你在用聊天机器人的时候,它能让你的对话更快地得到回复,而且不会卡顿。为了提高效率,它主要通过优化一些复杂的计算过程。这就像是给计算机的「大脑」做了一个升级,让它在处理语言任务时更聪明、更高效。

DeepSeek 官方特意提到,FlashMLA 的灵感来自 FlashAttention 2&3 和 cutlass 项目。

FlashAttention 是一种高效的注意力计算方法,专门针对 Transformer 模型(如 GPT、BERT)的自注意力机制进行优化。它的核心目标是减少显存占用并加速计算。cutlass 也是一个优化工具,主要帮助提高计算效率。

DeepSeek 的爆火出圈很大程度上是因为以低成本创造了高性能模型。

而这背后的秘籍主要得益于其在模型架构和训练技术上的创新,尤其是混合专家(MoE)和多头潜在注意力(MLA)技术的应用。
Building AI Solutions with DeepSeek: A Hands-On Workshop – Association of Data Scientists

FlashMLA 则是 DeepSeek 公司开发的一种针对多头潜在注意力(MLA)技术的实现和优化版本。那么问题来了,什么是 MLA(多头潜在注意力)机制?

在传统的语言模型里,有一种叫「多头注意力(MHA)」的技术。它能让计算机更好地理解语言,就像人用眼睛同时关注多个地方一样。

不过,这种技术有个缺点,就是需要很大的内存来存储信息,就像一个很能装的「仓库」,但仓库太大就会浪费空间。

MLA 的升级之处在于一种叫「低秩分解」的方法。

它把那个大仓库压缩成一个小仓库,但功能还是一样好,就像把一个大冰箱换成一个小冰箱,但里面的东西还是能放得下。这样一来,

在处理语言任务的时候,不仅节省了空间,速度还更快了。

不过,虽然 MLA 把仓库压缩了,但它的工作效果和原来一样好,没有打折扣。

当然,除了 MLA 和 MoE,DeepSeek 还用了其他一些技术来大幅降低了训练和推理成本,包括但不限于低精度训练、无辅助损失的负载均衡策略以及多 Token 预测(MTP)。

性能数据表明,FlashMLA 在内存和计算限制下的表现远超传统方法,这得益于其线性复杂度的设计和针对 Hopper GPU 的优化。

与标准多头注意力的对比,更是进一步凸显 FlashMLA 的优势:

FlashMLA 的主要应用场景包括:

  • 长序列处理:适合处理数千个标记的文本,如文档分析或长对话。
  • 实时应用:如聊天机器人、虚拟助手和实时翻译系统,降低延迟。
  • 资源效率:减少内存和计算需求,便于在边缘设备上部署。

目前 AI 训练或推理主要依赖英伟达 H100 / H800,但软件生态还在完善。

由于 FlashMLA 的开源,未来它可以被集成到 vLLM(高效 LLM 推理框架)、Hugging Face Transformers 或 Llama.cpp(轻量级 LLM 推理) 生态中,从而有望让开源大语言模型(如 LLaMA、Mistral、Falcon)运行得更高效。

同样的资源,能干更多的活,还省钱。

因为 FlashMLA 拥有更高的计算效率(580 TFLOPS)和更好的内存带宽优化(3000 GB/s),同样的 GPU 资源就可以处理更多请求,从而降低单位推理成本。

对于 AI 公司或者云计算服务商来说,使用 FlashMLA 也就意味着更低的成本、更快的推理,让更多 AI 公司、学术机构、企业用户直接受益,提高 GPU 资源的利用率。

此外,研究人员和开发者还可以基于 FlashMLA 做进一步的优化。

过去,这些高效 AI 推理优化技术通常主要掌握在 OpenAI、英伟达等巨头手里,但现在,随着 FlashMLA 的开源,小型 AI 公司或者独立开发者也能用上,更多人进入 AI 领域创业,自然也就有望催生更多的 AI 创业项目。

简言之,如果你是 AI 从业者或者开发者,最近在用 H100 / H800 训练或推理 LLM,那么 FlashMLA 可能会是一个值得关注或研究项目。

与春节期间网友扒出 DeepSeek V3 论文具体提到了 PTX 的细节相似,X 网友发现 DeepSeek 发布的 FlashMLA 项目中同样包含了一行内联 PTX 代码。

PTX 是 CUDA 平台的中间指令集架构,处于高级 GPU 编程语言和低级机器代码之间,通常被视为英伟达的技术护城河之一。

通过内联 PTX,这使得开发者能够更精细地控制 GPU 的执行流程,从而可能实现更高效的计算性能。

此外,直接利用英伟达 GPU 的底层功能,而不必完全依赖于 CUDA,也有利于降低英伟达在 GPU 编程领域的技术壁垒优势。

换句话说,这或许也意味着 DeepSeek 可能在有意绕开英伟达封闭的生态。

当然,如无意外,根据外媒的爆料,本周接下来预计还有 GPT-4.5、Claude 4 等模型的发布,去年年底没能看到的 AI 大战或将在本周上演。

看热闹不嫌事大,打起来,打起来。

官方部署指南

FlashMLA 是一种高效的 MLA 解码内核,专为 Hopper GPU 优化,可用于处理变长序列推理。

当前已发布版本支持:

  • BF16
  • 分页 KV 缓存,块大小为 64

在 H800 SXM5 上运行 CUDA 12.6,FlashMLA 在受内存带宽限制的配置下可达 3000 GB/s,在受计算能力限制的配置下可达 580 TFLOPS。

项目配备:

  • Hopper GPU
  • CUDA 12.3 及以上版本
  • PyTorch 2.0 及以上版本

附上 GitHub 项目地址:

https://github.com/deepseek-ai/FlashMLA

安装

python setup.py install

基准

python tests/test_flash_mla.py

python tests/test_flash_mla.py 是一个命令行指令,用于运行 Python 测试文件 test_flash_mla.py,通常用于测试 flash_mla 相关的功能或模块。

from flash_mla import get_mla_metadata, flash_mla_with_kvcache
tile_scheduler_metadata, num_splits = get_mla_metadata(cache_seqlens, s_q * h_q // h_kv, h_kv)
for i in range(num_layers):

o_i, lse_i = flash_mla_with_kvcache(
q_i, kvcache_i, block_table, cache_seqlens, dv,
tile_scheduler_metadata, num_splits, causal=True,
)

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


最低调的「AI 六小龙」阶跃星辰,在 DeepSeek 浪潮中交出了一份新答卷

By: 李超凡
21 February 2025 at 20:31

DeepSeek 掀起的浪潮还没结束 ,不只是 OpenAI ,中国的「 AI 六小龙」都要面临拷问:Scaling Law 是否还能持续,开源还是闭源,AI 落地的路线是否还行得通。

今天,AI 六小龙中一直比较低调的阶跃星辰,率先交出今年的第一份答卷。

在首届 Step UP生态开放日,阶跃星辰公布了自己探索 AGI 的方式,开启多模态推理的技术研究,并将 AI 落地的重点押注在智能终端,重点布局汽车、手机、具身智能、IoT 等应用场景。

阶跃星辰创始人、CEO 姜大昕认为,智能终端将成为 Agent (智能体)技术大规模应用的关键载体。

们朝着实现 AGI 的目标稳步前进,目前已进入 Agent(智能体)的发展阶段。

他指出智能体的发展依赖于两大关键要素:

一是多模态能力,让智能体充分地感知和理解世界;

二是推理能力,使智能体能够进行长思维链的慢思考,主动规划、尝试、反思,通过不断纠错提供准确的答案。

多模态让智能体像人一样「看、听、懂」,相当于人的「感官系统」,而推理能力就是处理信息的「大脑皮层」。

二者结合就能让 AI 《红楼梦》里的王熙凤,一双丹凤三角眼,不仅能察言观色,还能从一句话、一个动作中读出对方的深意。

多模态也是阶跃星辰在六小龙中最大的特点,目前阶跃 Step 系列模型矩阵已经发布了 11 款多模态大模型,覆盖语音识别、语音生成、多模态理解、图像及视频生成的全面能力。

前几天阶跃星辰还开源了Step-Video-T2V 视频生成模型和 Step-Audio 语音模型,成为六小龙最快拥抱开源的其中一位,但和 DeepSeek 不同的是,阶跃星辰开源的模型均为多模态,而这也是 DeepSeek 还没展现的能力。

去年 APPSO 就曾用阶跃星辰旗下的跃问应用,让还不支持的苹果 AI 的国行 iPhone 16 ,获得类似官方视觉智能的能力,按下拍摄按钮,拍照问就能轻松打开,看到任何需要咨询的东西,基本都能找到答案。

至于推理能力,阶跃星辰今天还宣布了和清华大学共同研发的开源推理模型 Open-Reasoner-Zero,首次从预训练模型开始就大规模强化学习,效率达到 DeepSeek-R1-Zero 的 25倍。

姜大昕在现场还预告了内部正在研发的视觉推理模型,其实这样揭示了阶跃星辰推动 AI 落地的技术逻辑:将多模态能力和推理能力结合,让智能终端成为 Agent 的载体。

目前,阶跃星辰的模型能力在智能终端主要有以下这些场景。

  • 汽车场景:与吉利合作开发的智能座舱Agent,通过多模态交互(语音+视觉)实现「可见即可说」,例如用户说「导航到最近的充电站」,Agent自动调用地图、查询充电桩状态并规划路线。
  • 手机场景:与 OPPO 共建的「一键问屏」功能,用户拍照或截图后,Agent 能直接解析图片内容(如商品、文档)并调用 API 完成搜索或翻译,无需手动切换 App。
  • IoT场景:与 TCL 等厂商合作,通过设备间联动实现主动服务,实现设备间的智能化升级和体验的无缝连接。
  • 具身智能,:促进 Agent 在具身领域的创新应用。阶跃星辰宣布与智元机器人战略合作,共同探索 AI+具身机器人应用场景。

AI 智能终端是一个既性感又饱受争议的概念,可能会让很多硬件通过 AI 提升用户的体验,最近不少手机纷纷都宣布接入 DeepSek,同时去年爆火的 AI 硬件 Ai Pin,下个月就将停止所有的 AI 服务、消息推送等联网功能。

目前大多数手机接入的 DeepSeek,都是给语音助手加一个插件式外挂,同时由于 DeepSeek 尚不支持多模态能力,使用场景受到的限制就比较多。最近网上流行的「DeepSeek+xx」的组合玩法,其实就是为了弥补其缺乏的能力。

去年率先喊出 AI 手机的 OPPO,就在 AI 终端融合走得更远。

比如使用小布助手App「一键问屏」,用户通过多模态视觉跟 AI 交互,实现拍照问答、文档问答,识屏问答等多种功能。

用户甚至可以给小布下达指令让它进入各种应用端完成任务,比如进入淘宝、京东搜索同款商品,在小红书、同花顺、携程等平台搜索信息和服务,在飞书、钉钉、企业微信等社交软件搜索聊天记录等,实现一键全能搜。

这些功能OPPO 基于阶跃星辰 Step 系列多模态模型共同开发的,OPPO 智能助理部部长、小布助手负责人万玉龙告诉我们,随着新一代 AI 技术与移动终端的深度融合,手机已经逐步进化为能够理解用户意图、提供主动服务、甚至预判用户需求的智能助理。

智能终端正在迈入 Agent 时代。和过去最大的不同在于:本地化 AI 推理能力使终端从被动响应指令的工具,升级为主动理解需求、跨应用协同的「智能伙伴」。

让这一蓝图成为现实的,则是多模态 AI 智能体,它将作为新的交互界面,无需物理界面,类似《阿凡达》中的灵魂树,连接所有赛博智能体,用户甚至通过思维直接与 AI 交互,来完成所有现实任务的执行。

姜大昕提出 AGI 发展需经历模拟世界、探索世界、归纳世界三大阶段:

  1. 模拟世界:通过模仿学习训练多模态模型,统一表征声音、文本、图像、视频及物理世界。
  2.  探索世界:引入强化学习(如AlphaGo、DeepSeek),赋予模型逻辑推理与问题解决能力。
  3. 归纳世界:探索机器自主发现物理规律的能力,如牛顿从苹果落地推导万有引力定律,目标是将 AI 与科学家协同创新。

通往 AGI 的路或许不止一条,但总需要有人去蹚出不同的路,阶跃星辰选择了智能终端 Agent 这条路,或许下一次人机交互的革新,已经埋下了草蛇灰线。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


在华为方舟壹号,遇见未来智能空间的起点

21 February 2025 at 11:47

未来的生活空间会是什么样?爱范儿在这里找到了答案。

华为方舟壹号空间智能开放实验室,是国家住建部挂牌的、国内首个空间智能化大型开放实验室,8600m² 的面积包揽了生活中所有的活动空间。

从别墅公寓、康养空间,再到酒店教室、会议室,方舟壹号将智能化的愿景,变成了可落地的实景。智能化被具象化的同时,仪式感也有了更实际的表达。这里是未来空间想象力的起点,也为人和空间的互动关系,提供了更多的可能,快来一起感受一下。

来,看个视频,放松下。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


OpenAI 前 CTO 新公司官宣!挖来大批 ChatGPT 核心骨干,北大校友加盟,创业阵容超豪华

By: 莫崇宇
19 February 2025 at 09:09

靴子落地,OpenAI 前 CTO Mira Murati 创业公司正式官宣。

新公司 Thinking Machines 的组建阵容相当豪华,且大多数来自 OpenAI 的旧班底,包括但不限于此前早有预告的 Barret Zoph (CTO)、John Schulman (Chief Scientist) 等等。

官宣阵容里也出现了我们的老熟人 Lilian Weng(翁荔),她本科毕业于北京大学,2017 年加入 OpenAI 担任研究科学家,参与了 GPT-4 的预训练、强化学习与对齐、模型安全等方面的工作。

投资不仅只是投产品,更是投人。

早前就有消息称, 尽管没有发布任何产品,Mira 新公司还是凭借「刷脸」,初期预计融资额超过了 1 亿美元。今天凌晨,Mira 也在 X 平台发文阐述了新公司的成立初衷:

「我与一支杰出的科学家、工程师和建设者团队一起创立了「思维机器实验室」Thinking Machines Lab)。我们正在做三件事:

帮助人们根据自己的具体需求调整人工智能系统
构建强大的基础,以开发更强大的人工智能系统
培养开放科学的文化,帮助整个领域理解并改进这些系统

我们的目标很简单:通过扎实的基础、开放的科学和实际应用,使人工智能得以广泛使用并更容易理解,从而推动人工智能的发展。」

对于这支由 29 名知名 AI 人士组成的团队,官网的介绍是这样子的:

我们是科学家、工程师和建设者,曾创造了一些最广泛使用的人工智能产品,包括 ChatGPT 和 Character.ai,开源权重模型如 Mistral,以及像 PyTorch、OpenAI Gym、Fairseq 和 Segment Anything 这样的流行开源项目。

那么 Thinking Machines Lab 会是另一家 OpenAI 吗?

据官宣博客介绍,Thinking Machines Lab 是一家 AI 研究与产品公司,目标是构建一个未来,让每个人都能够获得知识和工具,将 AI 应用于他们独特的需求和目标。

虽然 AI 技术取得了重大突破,但科学界对其前沿系统的理解仍然有限,且相关知识主要掌握在顶级研究实验室手中,这影响了公众对 AI 的认知和使用。

同时,现有系统在个性化定制方面仍存在不足。

为解决这些问题,这群曾参与开发 ChatGPT、Character.ai 等知名 AI 产品以及 PyTorch 等开源项目的科学家和工程师们建立 Thinking Machines Lab ,旨在提高 AI 系统的可理解性、可定制性和通用性。

Thinking Machines Lab 认为科学发展需要开放分享,计划通过发布技术博客、论文和代码与研究社区合作。而这些理念共同指向一个目标:创建更实用、更智能、更贴近人类需求的 AI 系统。

谈及运营理念和安全策略,博客中提到产品部署能促进技术迭代,同时帮助团队专注于解决最具影响力的问题。

Thinking Machines Lab 将通过以下方式为 AI 安全做出贡献:

  1. 保持高标准的安全性——防止发布的模型被滥用,同时最大化用户的自由,
  2. 与行业共享构建安全 AI 系统的最佳实践和方法,
  3. 通过共享代码、数据集和模型规格,加速外部在对齐问题上的研究。相信针对现有系统开发的方法,如有效的红队测试和部署后监控,将为未来更强大的系统提供有价值的见解。

另外,Mira 新公司的命名(Thinking Machines Lab),也大有来头。

据外媒连线杂志报道,在三十多年前,美国发明家 Danny Hillis 就已经憧憬人类与机器之间的协同合作。

作为 AI 先驱 Marvin Minsky 的学生,Hillis 构建了一台拥有强大并行运行芯片的超级计算机,这可以说是今天运行 AI 计算集群的前身。而 Hillis 正是在这台计算机的基础上建立了新公司 Thinking Machines。

只是,这台计算机超前于时代,最终在 1994 年宣告破产。

如今,这个充满历史意义的名称以新的形式重生,Mira 将接过这面历史的旗帜,打造下一个 Thinking Machines。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


马斯克发布「最强大模型」超越 DeepSeek,成本高出 200 多倍

By: 莫崇宇
18 February 2025 at 15:24

「聪明得可怕」,这是马斯克预告 Grok 3 时的说法,以至于今天一大早,全网都在苦苦等待。

在全网蹲点发布会时,App Store 先一步更新了。而在发布会进行过程中,Grok 网页版也一度火到崩溃。

可以,看着很有信心的样子。

Grok 3 不是一个简单的产品迭代,在此之前,是马斯克大手笔建设的数据中心、豪气的显卡配置,采用最佳的预训练模型并继续使用强化学习进行训练,堪称「富养」出来的新一代。

要点提炼如下:

  • 美区账号已经可以更新,英区、欧洲 2.28 推出
  • 推出 SuperGrok 高级订阅计划,月费为 30 美元,年费为 300 美元,提供额外的推理和 DeepSearch 查询功能,包含了无限量的图像生成服务

Grok 3 推理能力领先 DeepSeek R1

在 Chatbot 竞技场之称的 LMSYS 盲测中,Grok 3 在代码、指令响应等各个方面排名第一。

作为诞生于 20 万张显卡的产物,Grok 3 断层级别的表现依旧证明了 Scaling Law 仍在生效。

相比于 DeepSeek 以低成本创造高收益,Grok 3 主打一个「大力出奇迹。」

这次,引入推理能力的 Grok 3 的重点在于更灵活地进行实时计算资源分配,在保证推理质量的同时,最聪明的使用计算资源。

曾经 Grok 2 的推理能力,就已经达到过当时的 SOTA 水平。在经过多次迭代之后,模型的泛化能力有大幅提升。Grok 3 在最新的 AIME 竞赛中则再次刷新了自己的记录。

不过,仅仅只是推理能力强显然是不够的,快、狠、准才能参与大模型内卷。发布会现场,工程团队展示了两个案例。

一个是请求生成一个从地球发射到火星并返回地球的 3D 动画代码,Grok 思考了 19 秒,详细描述了其思考过程,包括使用 Python 进行绘图,以及使用 NumPy 进行计算。

另一个则是试图让 Grok 将《俄罗斯方块》和《宝石迷阵》这两款游戏结合起来,创造出一个新的游戏。

很遗憾,Grok 一上来就遭遇了连续两次的翻车,连马斯克回头看了屏幕上糟糕的演示环节,也不免尴尬地发出了一句「oh man」。

不过,后续演示中,也端上了正常的案例(该不会准备好的 demo 吧)。

而一些幸运的网友已经玩上 Grok 3 了。

▲图片来自 X 网友 @jesselaunz

DeepSearch 登场,要革搜索引擎的命

作为这次更新的重磅产品,Grok 3 加持的 DeepSearch 号称是下一代搜索引擎。模型将自主像 agent 一样运作,并且理解用户提问背后的意图,省下在 Google 花的时间。

现场展示的环节里,工程师给 Grok 3 出了一道有趣的题:预测 NCAA 「疯狂三月」的胜负数,也就是所有层级里的比赛结果。

这是巴菲特在 2014 年发起的一个活动,赌注高达十亿美元,赌得就是让巴菲特破产。历史上无人成功,甚至无人接近,因为即使专家预测,前几轮后也会出现大量错误。

▲2023 年 NCAA 对阵图

当年这就是一个营销活动,毕竟赢下的概率之小,几乎是千千亿分之一的概率,基本等于不可能。把这个问题甩给Grok 3,不可谓不大胆。

返送的答案中,除了援引的材料,还做了结构化处理。开头介绍、背景知识、分析图表、总结陈词,相当完整。

检索的重点在于,如何交叉核实各个信息源。Grok 3 通过设计一个子任务面板来完成这个工作,用户可以自己实时监测正在进行的任务,从而保证答案是可用的、可靠的。

在这个基础上,agent 自主检索十分钟,抵掉自己摸索一小时,才是有效减少工作量。

最终 Grok 3 也给出了它认为的 2025 年 NCAA 冠军,三月还没来,让我们拭目以待它的「神预言」会不会成真。

至于 Grok 3 的体验方式,官方说了,X 的 Premium+ 订阅用户将率先体验,而其他高级功能则被纳入 xAI 推出的新计划——SuperGrok 中。

SuperGrok 的月费为 30 美元,年费为 300 美元,仅提供额外的推理和 DeepSearch 查询功能,还包含了无限量的图像生成服务。

贾维斯来了?还没完全来

就在昨晚,Shivon Zilis 路透了她和有 Grok 3 加持的人工智能助理 Ara 的对谈,并称这是生命中最意想不到的收获。

简直是徒增大家对语音模式的期待,马斯克在发布会召开前就已经宣布语音模式只会在一周内推出,这也意味着无缘演示环节。

不过,在现场直播环节,马斯克也表示这将是 Grok 最好的体验之一,在发布会的尾声,语音模型也放出了一个男声,听着倒是挺有人味的。

这一点点的路透,激起了极大的好奇,到了QA环节关于语音模式的提问涌上来。当然,还有现在必不可少的灵魂拷问:「开源否」我们节选了一部分👇🏻

QA

问:Grok 语音模式什么时候推出;是基于文本转语音,还是能理解人类说话并直接回应的模型?
答:Grok 基本上会理解人类所说的话,将首先在一周内发布早期版本,后续将迅速进行迭代更新。

问:什么时候推出 Grok API?
答:将在接下来的几周内推出,包含推理模型和深度研究功能。

问:Grok 能记住互动的谈话内容吗?
答:正在努力开发这个功能,不过目前还没有完全完成。

问:是否还会开源 Grok 模型
答:当 Grok 3 成熟稳定之后,大概几个月将会开源 Grok 2。

问:做这个项目最困难的部分是什么?
答:最大的挑战是让整个模型在海量的 H100 上进行训练,并保持一致性

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


首发体验 | 接入 DeepSeek 后,腾讯元宝又放出一个「王炸」

By: 莫崇宇
17 February 2025 at 14:27

腾讯元宝不语,只是一味地更新。

当 DeepSeek 在春节期间爆火,所有人都在猜测国内 AI 厂商将会如何跟进时,腾讯元宝上周宣布接入满血版 DeepSeek R1,APPSO 体验后彻底告别了「服务器繁忙」。

一些读者提到,那混元大模型怎么办呢?实际上 DeepSeek 虽然非常强大,但也不能覆盖所有用户需求,腾讯百度等大厂接入 DeepSeek 和自研的策略并不矛盾。

而就在刚刚,腾讯元宝正式推出自研的 Hunyuan T1 快速深度思考模型,给了我们两种深度思考模型的选择,APPSO 也提前体验了这款模型,第一时间给大家送上使用指南。

Hunyuan T1 体验方式十分简单,用户只需在元宝应用内模型选择栏界面即可轻松切换使用。

既取他之长,又练己之强,实测结果令人惊喜,Hunyuan T1 反应更快,效果也不比元宝版 DeepSeek R1 差。我们也快速上手体验,并总结了一些特点:

  • 日常任务思考时间稳定在 10 秒左右,运行流畅,不崩不卡
  • 在处理复杂问题时比元宝版 DeepSeek R1 更快,支持多问题并发处理,且回答质量稳定
  • 深度整合腾讯生态系统信息,能精准调取微信公众号的权威内容,支持跨平台信息整合,可链接第三方资源
  • 显示思维链和具体深度思考时间,界面也很清爽简洁

「哪吒 2 票房现在是多少,请你预测一下最高能到达多少亿?」

相比数日前的体验,现在无论是元宝版 DeepSeek R1,还是混元 T1 模型都显示深度思考时间,并且 APP 端依旧支持语音输入功能,有什么问题,尽管问。

查看引用链接时发现,Hunyuan T1 的信息源同样主要来自腾讯生态系统。

「如何预约广东省博物馆门票?」

搜索一些生活问题时,Hunyuan T1 的回答能够精准调取来自广东省博物馆官方微信公众号的信息,让 Hunyuan T1 的答案天然具备背书。

这种独属于腾讯元宝的生态优势,也不是技术迭代能轻易抹平的。

当然,Hunyuan T1 也不只是整合微信生态的信息,对于「为什么悬崖跳水前要扔石头」的问题时,它的引用信息也不会固步自封,还包括第三方平台。

「APPSO 是头部 AI 媒体吗?」

Hunyuan T1 的回答按照从行业整体地位到自身数据表现,再到行业给予的评价这样的顺序展开,层层递进,条理清楚。

「一直吃健胃消食片能吃饱吗?二郎神有三只眼睛,怎么做眼保健操?」

在日常问题上,Hunyuan T1 思考时间基本控制在 10 秒,且不崩不卡,体验丝滑,在一众卡顿的第三方满血版 DeepSeek 体验平台中,这简直是一股清流。

相比之下,Hunyuan T1 在整体响应速度上略胜元宝版 DeepSeek R1 一筹。虽然问简单问题时差别不大,但遇到复杂问题时,这个时间差的优势就很明显了。

即便同时输入多个问题,Hunyuan T1 的生成速度不仅没落下,回答质量也保持尚可,条理清晰地回答我提出的「弱智吧」难题。

「请你用辛辣、锐利、讽刺、令人破防的语言,评价一下有人询问『一直吃健胃消食片能吃饱吗?』的行为?」

别说,在攻击性方面,Hunyuan T1 的强度更犀利直接,而元宝版 DeepSeek R1 反而会有所收敛。这种个性化的回答风格,也体现在其他方面 —— Hunyuan T1 的答案通常更加详细完整。

继续上点强度,让我们看看一道经典的互联网数学题。

「100 个人回答五道试题,有 81 人答对第一题,91 人答对第二题,85 人答对第三题,79 人答对第四题,74 人答对第五题,答对三道题或三道题以上的人算及格, 那么,在这 100 人中,至少有( )人及格。」

如同考试时,有人在题海里死磕,而有人却找到了解题技巧。Hunyuan T1 没有像其他 AI 模型一股脑推理硬算,而是巧妙地利用了微信公众号生态的优势,能够快速检索相似的问题,并输出解答。

回答内容支持一键分享至腾讯生态系统,包括微信好友、朋友圈、QQ 好友及空间、企业微信等。并且,不仅可以生成分享图片,还能复制生成回答的相关链接,传播效果更佳。

当然,虽然整体表现可圈可点,但在实际使用中我们也发现了一些值得优化的地方。

比方说,同一界面,切换不同模型询问同一个问题, App 端目前未能在界面给出显眼区别标识,这样后续在查看历史对话时,就往往难以分辨具体是由 T1 还是 R1 模型给出的回答。

实际上,作为最早接入 DeepSeek 的大厂 AI 助手,元宝的先天优势自不必多言。

无论是元宝版 DeepSeek 还是新上线的混元 T1 模型,都能搜索覆盖微信生态信息源,专业权威。并且,相较于 DeepSeek 官网,它运行很稳定,界面也很清爽。

常规思维可能认为,先接入竞品再推出自研产品是自相矛盾的,会削弱竞争力。但换个角度想,这其实是个很聪明的做法。

就像你想证明自己很会做菜,与其自己说自己厉害,不如先请个米其林大厨来你店里做菜。等客人都认可这个标准后,你再展示自己的厨艺。如果能做出同样好吃的菜,大家自然会信服。

腾讯元宝就是用这招「借力打力」,先让 DeepSeek 为自己做了背书。等 Hunyuan T1 出来后,用户已经有了评判标准,一对比就知道好不好。

最妙的是,用户完全不用纠结用哪个更好。

在同一个平台上,需要模型快速进行深度思考, Hunyuan T1 是比较理想的选择,而需要深度思考推理,且对响应时间要求不高时,则使用 DeepSeek R1,选择权完全掌握在用户手中。

不同模型各具特色,用户可以根据具体需求自由选择最合适的模型。

而且,通过让用户使用不同的模型,腾讯元宝可以近距离观察用户在使用不同模型时的真实反馈和痛点。这些一手数据比任何市场调研都要真实。

  • 什么情况下用户更喜欢用哪个模型
  • 各自有什么优缺点
  • 用户最在乎什么功能

有了这些实时反馈的加持,也会促使这些模型不断进化,最终受益的还是用户。而给用户多一个选择按钮,往往更容易赢得人心。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌
❌