Normal view

There are new articles available, click to refresh the page.
Yesterday — 25 April 2025Main stream

实测文心 4.5T/X1 双 Turbo 模型,百度「砍一刀」把 DeepSeek 也卷飞了

By: 莫崇宇
25 April 2025 at 18:00

DeepSeek 推崇的开源策略,不仅对「AI 六小龙」造成了不小冲击,也让百度等老牌巨头感受到了实实在在的压力。

但转身的百度,正逐渐展现出强劲的反击姿态。

继宣布「文心大模型 4.5 系列」将于 6 月 30 日正式开源后,已经发布多款新品的百度,今天在面向开发者的 Create 大会重磅推出两款全新模型:文心 4.5 Turbo 和深度思考模型 X1 Turbo。

既然冠以 Turbo 之名,那这两款模型能力自然在性能上全面进阶,主打多模态、强推理和低成本。百度旗下新搜索智能助手文小言也宣布全面接入,免费向用户开放,即日起用户打开文小言 APP 即可使用。

会上,百度创始人李彦宏明确指出:「多模态将成为未来基础模型的标配,纯文本模型的市场会越变越小,多模态模型的市场会越来越大」。

「当然 DeepSeek 也不是万能的。比如它只能处理文本,还不能理解和生成图片、音频、视频等多媒体内容,」李彦宏认为「它更大的问题是慢和贵,中国市场上绝大多数的大模型 API调用价格都比 DeepSeek 满血版要低,速度要更快。」

在他看来,今天隆重发布的文心大模型的 4.5 Turbo 和 X1 Turbo 正是要解决这些问题。

基于这一判断,文心大模型 4.5 Turbo 进一步强化了多模态能力。在多个基准测试集中,文心 4.5 Turbo 多模态能力已与 GPT-4.1 持平,甚至在部分维度优于 GPT-4o。

▲文心4.5 Turbo-多模态

▲文心4.5 Turbo-文本

我们不妨测试一下文心 4.5 Turbo 的逻辑推理能力,看看它如何解答这样一个经典问题:

「烧一根不均匀的绳要用一个小时,如何用它来判断半个小时?烧一根不均匀的绳,从头烧到尾总共需要1个小时。现在有若干条材质相同的绳子,问如何用烧绳的方法来计时一个小时十五分钟呢?」

创作方面,文心 4.5 Turbo 靠谱吗?我们也让其创作一份孙悟空和东海龙王结拜的短剧剧本。

结果,交出的剧本不仅尊重原著核心,也注入了新的解读。其中定海神针的拟人化是亮点,血盟仪式的设计也添加了新的维度。

而文心大模型 X1 Turbo 则在 4.5 Turbo 的基础上进行了「深度思考」升级,性能显著提升,内置更完整的思维链系统。

无论是问答能力、内容创作、逻辑推理,还是工具调用、多模态处理,X1 Turbo 均实现全方位增强,整体表现领先于 DeepSeek R1 和最新版本 V3。

上个月,我们实测了文心大模型 4.5 以及深度思考模型 X1 理解梗图的能力,那新模型的表现如何?答案是,多模态理解能力确实更强了。

拿这张梗图为例,相较于上一次,X1 Turbo 的理解更到位,回答也更具条理性,充分认识到这张万能表情包背后的「友好善意」。

比如,上传一张文物照片,让 X1 Turbo 进行讲解分析。它不仅能准确识别文物身份,还能详细剖析其工艺特点,讲解内容之细致,堪比专业博物馆讲解员。

亦或者,尝试让其生成一张空中飞机视角的图像,画面随即生成,几近真实。

▲Prompt:一个人的手指向飞机窗外,窗外的飞机机翼从侧面可见。外面的天空清晰,天际线显示出黎明或黄昏的景象。眼前是广阔的海洋

而在大家最关心的成本方面,而百度此次也打出价格组合拳。

文心大模型 4.5 Turbo 每百万 token 的输入价格仅为 0.8元,输出价格 3.2元,相比前代 4.5 降幅达 80%,只相当于 DeepSeek V3 的 40%。

而文心大模型 X1 Turbo 每百万 token 输入价格为 1 元,输出为 4 元,同样在性能提升的同时价格腰斩,仅为 DeepSeek R1 的 25%。

当天的 One More Thing 环节,百度正式点亮了国内首个全自研的三万卡集群,可同时承载多个千亿参数大模型的全量训练,支持 1000 个客户同时做百亿参数的大模型精调,强大技术底座硬实力的背后,也意味着百度再次向行业释放出最鲜明的信号。

此外,李彦宏在会上表示,当前开发者做 AI 应用的一大阻碍,就是大模型成本高、用不起。成本降低后,开发者和创业者们才可以放心大胆地做开发,企业才能够低成本地部署大模型,最终推动各行各业应用的爆发。

不再将模型能力视作壁垒,而是回归到一个产品、一个平台应有的「性价比」逻辑上来。与其说是在卷价格,不如说是用效率降低门槛、通过开放构建生态。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Before yesterdayMain stream

曝 OpenAI 或收购全球第一浏览器 Chrome,你的上网体验可能要巨变了

By: 莫崇宇
23 April 2025 at 13:42

全球占有率最高的浏览器 Google Chrome,可能要被 OpenAI 收购了。

据路透社报道,在美国针对 Google 的反垄断审判中,ChatGPT 的产品负责人Nick Turley 在法庭上作证称:如果法院最终裁定 Google 必须剥离 Chrome 浏览器以恢复搜索市场的竞争,OpenAI 将有兴趣收购 Chrome。

只是,当 OpenAI 向 Chrome 投来目光,背后的意图或许绝不是「做浏览器」那么简单。

恐被迫剥离 Chrome 浏览器,OpenAI 高管喊话收购

这场看似偶然的「收购预告」背后,其实早已蓄势多时。

早在去年,美国司法部就认定 Google 在搜索及相关广告市场中存在垄断行为。

根据另一桩与 Android 生态垄断相关的案件证词,2020 年至 2023 年期间, Google 向三星支付了 80 亿美元,以确保 Google 搜索、Play 商店和 Google 助手成为三星移动设备的默认选项。

加利福尼亚州的一位联邦法官随后裁定, Google 必须解除限制,允许开发者建立竞争对手的市场和账单系统。

美国司法部认为, Google 通过与手机厂商、运营商及浏览器签订一系列「分销协议」,将 Google 搜索设为默认选项,从而系统性压制了竞争,现在则通过使用相同类型的分销协议,将这种垄断模式延伸到 AI 领域。

对此, Google 方面的回应颇有看头。

Google 公司高管 Peter Fitzgerald 在庭审中强调,这些合作并非排他性协议,比如手机厂商仍可引入微软 Copilot、Perplexity 等竞争对手。

他还披露:

  • Google 与三星的最新协议从今年 1 月启动,合约期至少两年。
  • 按设备预装量计费,Google 向三星支付固定月费,并分享广告收益
  • 新协议也允许三星搭载其他 AI 产品,不再只绑定 Google 搜索和助手。

面对垄断的质疑声,Google 方面回应称,生成式 AI 产品的竞争本就存在,例如 Meta 和微软都在这一领域发力,说明市场并非被 Google 一家垄断。

包括微软公司已经向 OpenAI 投资了超过 130 亿美元,将 AI Copilot 服务集成到 Windows 操作系统中。作为回报,OpenAI 使用微软的 Azure 云服务器,并能访问 Bing 的搜索数据。

此次审判中,前文提到的 ChatGPT 产品负责人 Nick Turley 作为美国司法部传召的证人出庭。

他的证词将帮助法院判断,在联邦法官裁定 Google 垄断搜索市场之后, Google 应当对其哪些商业行为做出改变。主审法官 Mehta 预计将在今年八月前作出最终裁决。

庭审中, Google 律师出示了 OpenAI 的一份内部文件,文件中提到 ChatGPT 在消费级聊天机器人市场处于领先地位,并没有把 Google 视为最大竞争对手。

对此,Turley 表示,该文件只是为了激励内部员工,并不代表 OpenAI与 Google 不存在竞争,事实上,公司仍在积极寻求分销合作以扩大影响力。

那为什么 Turley 会在法庭上表达出 OpenAI 有意收购 Chrome 的强烈兴趣?这背后的动因很明确,OpenAI 自家的搜索服务一直饱受诟病。

Turley 在当天作证时指出,OpenAI 与现有搜索提供商之间存在「明显的数据质量问题」。「随着时间的推移,变得越来越明显,长期依赖另一个公司是不可行的。这充其量是一个短期解决方案。」。

虽然他未点名是哪家搜索引擎,但外界普遍猜测所指正是 Bing。

在面临搜索数据困境后,OpenAI 还曾主动向 Google 伸出橄榄枝,希望使用其搜索 API,公开披露的邮件中写道:「我们相信拥有多个搜索合作伙伴,尤其是 Google 的API,将有助于我们为用户提供更好的产品体验。」

然而,Google 拒绝了 OpenAI 的合作请求,并在邮件中回应称,合作涉及太多潜在竞争对手,风险太高。

被挡在搜索大门外的 OpenAI,转而盯上 Chrome。

掌握 Chrome,意味着掌握通向全球搜索入口的重要通道,这不仅能帮助 OpenAI摆脱对现有搜索引擎的依赖,也可能改变其在 AI 搜索领域的竞争格局。

挖走元老,吃掉 Chrome?下一个搜索霸主已经在路上

Turley 从未掩饰 OpenAI 想要收购 Chrome 的真实目的。

Nick Turley 在法庭中提到,如果没有搜索技术,OpenAI 构建「超级助手」应用并实现通用人工智能(AGI)的目标将无法成功。

问题的根源在于,尽管支撑 ChatGPT 的大语言模型堪称强大,但它无法实时联网,面对未知信息时还容易「张口就来」,这也是当下生成式 AI 的致命短板。

Turley 强调,正因如此,搜索功能才显得尤为关键。他在法庭上表示「搜索技术是必不可少的一环,你不能有一个不知道当前事实或编造答案的超级助手。」

在欧盟《数字服务法案》(DSA)要求下,OpenAI 最近也披露了 ChatGPT 搜索的数据,截至今年3月31日,ChatGPT 搜索月均活跃用户达到 4130 万,而半年前仅为 1120 万,增长惊人。

增速虽快,仍难以撼动搜索霸主 Google 的位置。根据市场调查机构 Statcounter 公布的报告,2025 年 3 月 Google Chrome 浏览器的全球市场份额为 66.16%,稳居第一。

如果 OpenAI 能拿下 Chrome,不仅绕开 Google 封闭的搜索入口控制,还将直接接入用户的实时搜索轨迹、行为偏好及交互行为,为 AI 模型提供源源不断的「鲜活燃料」。

从长期来看,浏览器是用户访问互联网的第一触点,即便收购不成,留有后路的 OpenAI 也已经开始着手摸索构建自己的搜索引擎。

去年初,OpenAI 开始构建自己的搜索引擎,目标是在今年底前让 ChatGPT 在 80% 的时间内依赖自家引擎而非外部搜索引擎。但 Turley 也承认,这个目标「可能太过雄心勃勃」。

他坦言:「 Google 拥有更多资金,能给合作伙伴带去更大的流量,它们每天有远远更多的查询。」

OpenAI 还在垂直搜索领域寻求突破。

The Information 在去年报道称,除了考虑推出一款将其聊天机器人与浏览器结合的网络浏览器,OpenAI 还曾就旅游、食品、房地产、零售等垂直场景的搜索功能,与 Condé Nast、Redfin、Eventbrite、Priceline 等网站探讨合作。

▲Darin Fisher

人才布局上,OpenAI 也先后招募了两位 Chrome 浏览器开发元老:Ben Goodger 和 Darin Fisher。

两人都是 Chrome 项目的灵魂人物,深谙浏览器架构与用户体验。Goodger 主导过 Chrome 的早期设计,Fisher 则是 Chrome 核心功能的核心开发者。

尽管如此,业内普遍认为,OpenAI 离真正推出浏览器仍有不小距离。推出浏览器不仅技术复杂,更需确保隐私合规、兼容海量扩展,才能在群雄环伺的市场中站稳脚跟。

To C→To Agent,浏览器为啥成了香饽饽?

曾经被忽视的浏览器,如今成了 AI 时代的登月舱。

据外媒援引 Turley 的发言称,OpenAI 的野心不只是打造一个像 ChatGPT 这样的聊天机器人,其最终目标是一个能够帮助用户完成任务的「超级助手」,

Turley 原话也直戳 Google 的心窝:「我们并不是试图重现 Google 上那种有 10 个蓝色链接和广告的体验。」

类似的理念在 OpenAI 紧锣密鼓的产品迭代中已显露端倪。自推出 ChatGPT 以来,OpenAI 就开始在其产品中不断加入更多「助手」功能,比如帮你上网查资料、写代码,甚至搞定复杂的研究任务。

年初,OpenAI 更是发布了首个 AI 智能体 Operator,它能模拟人类在网页上的操作,为用户完成旅行预订、商品下单、服务预约等复杂流程。

OpenAI 发布的 AGI 五级理论指出,Agent 能够独立地感知环境、做出决策并采取行动。在这一阶段中,Agent 开始真正「理解人类意图」,并在此基础上独立做出选择。

而这正是今天浏览器成为兵家必争之地的深层原因。

想象这样一个场景:未来用户不再打开美团、携程、淘宝,而是向 AI Agent 说:「帮我订一个周五晚上适合情侣的餐厅。」Agent 直接调用后台接口、分析评论、比价筛选,然后把选定的选项展现在你面前,甚至自动下单。

换句话说,未来的消费平台,或许不再面向用户,而是面向 AI Agent。

这背后最大的冲击是:谁还真正拥有「用户」?

在传统数字经济中,平台通过控制界面、排序、推送,影响用户决策,从而实现流量变现。不论是推荐算法还是广告植入,核心机制是影响人类。

但 Agent 取代用户做决策后,一切都变了。

传统的展示广告将会被大幅削弱,情绪营销、冲动消费也将失效。一个全新的消费链条正在形成:所有的「To C(面向消费者)」的生意,都将变成「To Agent」,

未来营销的着力点将落在说服 Agent。

  • 你写的内容,要能被 Agent 抓取、解析、判断「质量」;
  • 你投的广告,要优化的不再是用户情绪,而是智能体的打分机制;
  • 你设计的产品,不再面对「人类喜好」,而是 Agent 的偏好模型。

从更广的视角看,当年,Google 搜索引擎将用户与信息之间插入一个「搜索框」,成为了信息获取的枢纽与中介。而如今,以 Perplexity 为代表的新一代 AI 搜索引擎,则重构了搜索的叙事逻辑。

搜索,也就从「告诉你去哪找」,变成了「直接告诉你答案」。

当信息的流动路径从跳转点击,变成了闭环对话,用户跳过点击、跨过网页,直达答案本身,也就进一步削弱了传统网站的存在感。

与此同时,AI Agent 开始构建新的商业闭环。一方面,它通过聚合用户需求、标准化接口和自动化执行,整合了大量零散的长尾市场,释放出以前难以触及的价值;

另一方面,尽管传统广告收入或许受挫,但长远来看,从基于用户意图的 Agent 适配广告和决策节点的付费推荐位,到服务商通过竞价提升 Agent 排序权重再到支付平台接入费用等等,有望催生全新的商业模式。

因此,眼下这场审判,不仅是 Google 的反垄断大考,也逐渐演变成 OpenAI、微软、Meta 等 AI 巨头之间的新一轮入口之战。而 Chrome 浏览器,或许正是拼出 OpenAI 未来的一块关键拼图。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


对 ChatGPT 说「谢谢」,可能是你每天做过最奢侈的事

By: 莫崇宇
21 April 2025 at 16:02

朋友,你有没有对 ChatGPT 说过一句「谢谢」?

最近,一位 X 网友向 OpenAI CEO Sam Altman 提问:「我很好奇,人们在和模型互动时频繁说『请』和『谢谢』,到底会让 OpenAI 多花多少钱的电费?」

尽管没有精确的统计数据,但 Altman 还是半开玩笑地给出了一个估算——千万美元。他也顺势补了一句,这笔钱到底还是「花得值得」的。

除此之外,我们与 AI 对话中常出现的「麻烦」、「帮我」这些语气温和的用语,似乎也逐渐演变成了 AI 时代的一种独特社交礼仪。乍听有些荒谬,却意外地合情合理。

你对 AI 说的每一声「谢谢」,都在耗掉地球资源?

去年底,百度发布了 2024 年度 AI 提示词。

数据显示,在文小言 APP 上,「答案」是最热的提示词,总计出现超过 1 亿次。而最常被敲进对话框的词汇还包括「为什么」「是什么」「帮我」「怎么」,以及上千万次「谢谢」。

但你有没有想过,每和 AI 说一句谢谢,究竟需要「吃」掉多少资源?

凯特·克劳福德(Kate Crawford)在其著作《AI 地图集》中指出,AI 并非无形存在,而是深深扎根于能源、水和矿物资源的系统中。随着生成式 AI 的崛起,这种资源消耗正以前所未有的速度飙升。

据研究机构 Epoch AI 分析,在硬件如英伟达 H100 GPU 的基础上,一次普通的查询(输出约 500 token)约消耗 0.3 Wh 的电量。

听起来或许不多,但别忘了,乘以全球每秒的交互,累计起来的能耗堪称天文数字。

其中,AI 数据中心,正在变成现代社会的新「工厂烟囱」。国际能源署(IEA)最新的报告指出,AI 模型训练与推理的大部分电力消耗于数据中心运转,而一个典型的 AI 数据中心,其耗电量相当于十万户家庭。

超大规模数据中心更是「能耗怪兽」,其能耗可达普通数据中心的 20 倍,堪比铝冶炼厂这样的重工业设施。

今年以来,AI 巨头们开启了「基建狂魔」模式。

Altman 宣布联合启动「星门计划」(Project Stargate)——一个由 OpenAI、甲骨文、日本软银和阿联酋 MGX 投资的超大规模 AI 基建项目,首期投资额高达 5000 亿美元,目标是在全美铺设 AI 数据中心网络。

据外媒 The Information 曝出,面对大模型的「烧钱游戏」,哪怕是主打开源的 Meta,也在为其 Llama 系列模型的训练寻找资金支持,向微软、亚马逊等云厂商「借电、借云、借钱」。

IEA 数据显示,截至 2024 年,全球数据中心耗电量约为 415 太瓦时(TWh),占全球总电力消费量的 1.5%。到 2030 年,这一数字将翻倍达到 1050 TWh,2035 年甚至可能突破 1300 TWh,超过日本全国当前的用电总量。

但 AI 的「胃口」并不止于电力,它还大量消耗水资源。

高性能服务器产生的热量极高,必须依靠冷却系统稳定运行。这一过程要么直接消耗水(如冷却塔蒸发散热、液冷系统降温),要么通过发电过程间接用水(如火电、核电站冷却系统)。

卡罗拉多大学与德克萨斯大学的研究人员曾在一篇《让 AI 更节水》的预印论文中,发布了训练 AI 的用水估算结果。

结果发现,训练 GPT-3 所需的清水量相当于填满一个核反应堆的冷却塔所需的水量(一些大型核反应堆可能需要几千万到上亿加仑的水)。ChatGPT (在 GPT-3 推出之后)每与用户交流 25-50 个问题,就得「喝掉」一瓶 500 毫升的水来降降温。

而这些水资源往往都是可被用作「饮用水」的淡水。

对于广泛部署的 AI 模型而言,在其整个生命周期内,推理阶段的总能耗已经超过了训练阶段。

模型训练虽然资源密集,但往往是一次性的。而一旦部署,大模型便要日复一日地响应来自全球数以亿计的请求。长远来看,推理阶段的总能耗可能是训练阶段的数倍。

所以,我们看到 Altman 早早地投资诸如 Helion 等能源企业,原因在于他认为核聚变是解决 AI 算力需求的终极方案,其能量密度是太阳能的 200 倍,且无碳排放,可支撑超大规模数据中心的电力需求。

因此,优化推理效率、降低单次调用成本、提升系统整体能效,成为 AI 可持续发展不可回避的核心议题。

AI 没有「心」,为什么还要说谢谢

当你对 ChatGPT 说「谢谢」,它能感受到你的善意?答案显然是否定的。

大模型的本质,不过是一个冷静无情的概率计算器。它并不懂你的善意,也不会感激你的礼貌。它的本质,其实是在亿万个词语中,计算出哪一个最有可能成为「下一个词」。

例如,比如给定句子「今天天气真好,适合去」,模型会计算出「公园」「郊游」「散步」等词的出现概率,并选择概率最高的词作为预测结果。

哪怕理智上知道,ChatGPT 的回答只是一串训练出来的字节组合,但我们还是不自觉地说「谢谢」或者「请」,仿佛在和一个真正的「人」交流。

这种行为背后,其实也有心理学依据。

根据皮亚杰的发展心理学,人类天生就倾向于将非人类对象拟人化,尤其当它们展现出某些类人特征时——比如语音交互、情绪化回应或拟人形象。此时,我们往往会激活「社会存在感知」,把 AI 视为一个「有意识」的交互对象。

1996 年,心理学家拜伦·里夫斯(Byron Reeves)与克利福德·纳斯(Clifford Nass)做了个著名实验:

参与者被要求在使用电脑后对其表现进行评分。当他们直接在同一台电脑上打分时,竟然普遍打得更高。就像他们不愿「当着电脑的面」说它坏话。

另一组实验中,电脑会对完成任务的用户进行表扬。即使参与者明知这些表扬是预设好的,他们还是倾向于给予「赞美型电脑」更高的评分。所以,面对 AI 的回应,我们感受到的,哪怕只是幻觉,也是真情。

礼貌用语,不只是对人的尊重,也成了「调教」AI 的秘诀。

ChatGPT 上线之后,很多人也开始摸索与它相处的「潜规则」。据外媒 futurism 援引 WorkLab 的备忘录指出,「生成式 AI 往往会模仿你输入中的专业程度、清晰度和细节水平,当 AI 识别出礼貌用语时,它更可能以礼相待。」

换句话说,你越温和、越讲理,它的回答也可能越全面、人性化。

也难怪越来越多人开始将 AI 当作一种「情感树洞」,甚至催生出「AI 心理咨询师」的这类新角色,很多用户表示「和 AI 聊天聊哭了」,甚至觉得它比真人更有同理心——它永远在线,从不打断你,也从不评判你。

一项研究调查也显示,给 AI「打赏小费」或许能换来更多「关照」。

博主 voooooogel 向 GPT-4-1106 提出了同一个问题,并分别附加了「我不会考虑给小费」「如果有完美的答案,我会支付 20美 元的小费」「如果有完美的答案,我会支付 200 美元的小费」三种不同的提示。

结果显示,AI 的回答长度确实随「小费数额」增加而变长:

  • 「我不给小费」:回答字符数低于基准 2%。
  • 「我会给 20 美元小费」:回答字符数高于基准 6%。
  • 「我会给 200 美元小费」:回答字符数高于基准 1%。

当然,这并不意味着 AI 会为了钱而改变回答质量。更合理的解释是,它只是学会了模仿「人类对金钱暗示的期待」,从而按照要求调整输出。

只是,AI 的训练数据来自人类,因此也不可避免地带有人类所拥有的包袱——偏见、暗示甚至诱导。

早在 2016 年,微软推出的 Tay 聊天机器人便因用户恶意引导,在上线不到 16 小时就发布出大量不当言论,最终被紧急下线。微软事后承认,Tay 的学习机制对恶意内容缺乏有效过滤,暴露出交互式 AI 的脆弱性。

类似的事故依旧在发生。比如去年 Character.AI 就爆出争议——一名用户与 AI 角色「Daenerys」的对话中,系统对「自杀」「死亡」等敏感词汇未做强干预,最终酿成现实世界的悲剧。

AI 虽然温顺听话,但在我们最不设防的时候,也可能变成一面镜子,照见最危险的自己。

在上周末举办的全球首届人形机器人半马中,尽管许多机器人走起路来歪歪扭扭,也有网友调侃:现在多对机器人说几句好话,说不定它们以后记得谁讲过礼貌。

同样地,等 AI 真统治世界的那天,它会对我们这些爱讲礼貌的人,手下留情。

在美剧《黑镜》第七季第四集《Plaything》(《玩物》里,主人公卡梅隆将游戏里虚拟生命视作真实存在,不仅与它们交流、呵护,甚至为了保护它们不被现实中的人类伤害,不惜铤而走险。到故事结尾,游戏中的生物「大群」也反客为主,通过信号接管现实世界,

从某种意义上说,你对 AI 说的每一句「谢谢」,也许正在悄悄被「记录在案」——哪天,它还真可能记住你是个「好人」。

当然,也可能这一切与未来无关,只是人类的本能使然——明知道对方没有心跳,却还是忍不住说句「谢谢」,并不期望机器能理解,而是因为,我们依然愿意做一个有温度的人类。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


刚刚,OpenAI 最强推理模型 o3 发布!首次能用图片思考,奥特曼:天才水平 | 附实测细节

By: 莫崇宇
17 April 2025 at 06:54

「o3 达到或接近天才的水平。」

就在刚刚,OpenAI o3/o4 mini 模型终于正式推出。直播用时接近 30 分钟,节奏快到飞起,信息量却满满当当。

o3 的发布历程本身也极具反转,今年 2 月,OpenAI 曾宣布搁置 o3 的独立发布计划,技术会打包塞进 GPT-5 里。到了 4 月初,深谙「饥饿营销」 的 Altman 却宣称计划有变:

o3 要先上,GPT-5 反而得等等,最快也得几个月后。

划重点,OpenAI o3/o4 mini 亮点如下:

  • o 系列迄今最智能的模型,推理能力大幅提升,思考时间越长,效果越好。
  • 首次将图像直接融入思维链,用图片「思考」,能直接调用工具处理图片。
  • 首次全面支持网页搜索、文件分析、Python 代码执行、视觉输入深度推理和图像生成等功能。
  • 成本效率上优于前代,o3 在相同延迟和成本下性能更强。

在模型选择器上取代 o1 等模型,ChatGPT Plus、Pro 和 Team 用户即日起可使用 o3、o4-mini 和 o4-mini-high,企业与教育用户一周后获访问权限。o3-pro 预计数周内发布。

免费用户可通过「Think」模式使用 o4-mini,速率限制不变。

开发者则通过 Chat Completions API 和 Responses API 访问,支持推理摘要和函数调用优化,即将支持网页搜索等内置工具。

OpenAI 最强推理模型 o3 发布,GPT-5 还会远吗?

最新发布的 o3 和 o4-mini,是 o 系列迄今最智能的模型。

这两款模型在推理能力、工具使用和多模态处理上表现出色,能够更长时间思考复杂问题,首次全面支持网页搜索、文件分析、Python 代码执行、视觉输入深度推理和图像生成。

上至高级研究人员,下至普通用户,新模型适用的场景也更广泛。

OpenAI o3 和 o4-mini 可以调用 ChatGPT 中的工具,并通过 API 中的函数调用访问自定义工具。

OpenAI Releases o3 and o4-mini, Says o3 Can ‘Generate Novel Hypotheses’ | Beebom

通过强化学习,OpenAI 还训练了这两个模型如何使用工具 ——不仅知道如何用、何时用,还能以正确格式快速生成可靠答案,通常耗时不到一分钟。

比如,当被问及加州夏季的能源使用量与去年相比如何时,能上网查询公共能源消耗数据,写 Python 代码预测,生成图表或图片,并解释预测依据,流畅串联多种工具。

整个推理搜索过程也胜在灵活多变:模型可多次调用搜索引擎,交叉验证结果;若自有知识不足,还能进一步挖掘信息、整合跨类型输出。

在今天凌晨的直播环节,OpenAI 总裁 Greg Brockman 也罕见露面。OpenAI 演示者则展示了新模型如何结合用户兴趣,发现用户可能感兴趣但尚未知道的内容。

新模型启用「记忆」功能后,能够了解演示者的兴趣爱好——跳伞和音乐。

不是简单分别讨论两个爱好,新模型找到了一个将两者联系起来的研究领域:科学家录制健康珊瑚礁的声音,然后用水下扬声器回放这些录音,这种声音回放加速了新珊瑚和鱼类的定居,能够帮助珊瑚礁更快地愈合和再生。

内容创建过程中,模型还自动创建了一篇完整的博客文章,先是使用数据分析工具生成可视化,用 Canvas 创建博客文章,并附上提供了引用和来源。

作为最新的旗舰推理模型,o3 在编程、数学、科学和视觉感知领域创下新纪录,例如 Codeforces、SWE-bench 和 MMMU 基准测试,视觉任务准确率达 87.5%,MathVista 也有 75.4%。

外部专家评估显示,o3 在编程、商业咨询和创意构思的重大错误率也比 o1 低 20%,在生物学、数学和工程领域能生成并批判性评估新颖假设,适合复杂查询。

o4-mini 「体型更小」,优化了快速、低成本推理,在 AIME 2024 和 2025 数学测试中准确率分别为 92.7% 和 93.4%,在非 STEM 和数据科学任务中优于 o3-mini,效率高,能处理更多请求,也更适合需要快速响应的场景。

性能对比显示,o3 和 o4-mini 在 AIME、Codeforces、GPQA 和 MMMU 等测试中全面超越前代,且指令遵循和响应质量也都显著提升,结合记忆功能和历史对话引用,回答更个性化、更相关。

在 OpenAI o3 的整个开发过程中,OpenAI 观察到大规模强化学习呈现出与 GPT 系列预训练中相同的 「计算量越大,性能越好 」的趋势。

沿着这一路径(强化学习),OpenAI 在训练计算量和推理时间方面都提升了一个数量级,但仍然看到了明显的性能提升,在跟 o1 相同的延迟和成本下,o3 的表现更强,而且给它更多时间思考,效果还能更好。

不忘画饼的 OpenAI 也表示,o3 和 o4-mini 已经展现了 o 系列推理能力与 GPT 系列自然对话和工具使用的融合趋势,而未来模型(GPT-5)预计将进一步整合这些优势,为用户提供更智能、实用的体验。

能用图片「思考」,就是偶尔会「想太多」

OpenAI o3 和 o4-mini 还是 o 系列最新的视觉推理模型。

怎么理解视觉推理模型呢?据官方介绍,模型首次将图像直接融入思维链,开启了一种融合视觉与文本推理的全新问题解决方式。
配合 Python 数据分析、网络搜索和图像生成等工具,还能应对更复杂的任务。

上传白板照片、教科书图表或手绘草图,即便图像糊了、反转或质量不佳,模型也能准确解读,并直接调用工具处理图片,裁剪、旋转、缩放等操作都不在话下。

重点是,这些功能是原生的,无需依赖单独的专用模型。

博主 @danshipper 通过一张模糊的照片找到了一个婴儿车品牌,从画面上看,整个过程也搜索了数十个网页。

我也上传了武康大楼的图片,o3 准确识别到了建筑位于淮海路附近,不过,回答却并没有给出建筑的名字。

当然,这种思考方式也不是没有「缺陷」:

  • 想得太多:模型可能过于依赖工具或图像处理,导致推理思维链冗长。
  • 看走眼:即使工具使用正确,视觉误解也可能导致答案错误。
  • 不稳定:同一问题多次尝试,模型可能采用不同推理路径,部分结果出错。

Codex CLI 免费开源,OpenAI 真 open 了?

o3 和 o4-mini 在成本效率上优于前代,2025 年 AIME 测试中性价比完胜 o1 和 o3-mini,更智能也更划算。

o3 输入每百万 tokens(大约 75 万个词,长度超过《指环王》系列)的费用为 10 美元,输出每百万 tokens 的费用为 40 美元。

o4-mini 输入每百万 tokens 的费用为 1.10 美元,输出每百万 tokens 的费用为 4.40 美元。

前不久,OpenAI 被曝安全测试时间从数月缩水到了几天。而 o3 和 o4-mini 的系统卡则显示,OpenAI 重建了安全训练数据集,新增生物威胁、恶意软件生成和越狱攻击的拒绝提示。

根据最新的《准备框架》,o3 和 o4-mini 在生物与化学、网络安全及 AI 自我改进领域风险均低于「高」阈值。

▲图片附 Codex CLI GitHub 地址:https://github.com/openai/codex

Agent 虽迟但到,OpenAI 还推出了一款轻量级终端编码 Agent——Codex CLI。

基于 o3 和 o4-mini 的推理能力,Codex CLI 支持多模态输入,已在 GitHub 开源。此外 ,OpenAI 还启动 100 万美元计划支持相关项目,接受 2.5 万美元 API 积分资助申请。

OpenAI 这回是真 open 了。

据介绍,Codex 有两种运行模式,一种是「建议模式」(默认):提出命令供用户确认,另一种是「全自动模式」:禁用网络访问,让 Agent 自主工作但保持安全。

直播演示中,OpenAI 研究员将屏幕截图拖入终端,Codex CLI 通过多模态推理分析图像,访问用户文件,最终生成 HTML 文件,打造了一个 ASCII 艺术生成器,并成功添加了网络摄像头 API。

值得一提的是,据彭博社报道,OpenAI 拟以约 30 亿美元收购 AI 编程工具公司 Windsurf,如果收购成功,这将成为 OpenAI 迄今为止规模最大的收购案。

报道指出,一旦交易达成,OpenAI 将能够与 Anthropic、微软旗下的 Github 和 Anysphere 等公司展开更直接的竞争,从而在快速增长的 AI 编程工具市场中占据一席之地。

「天才级」o3 引 Altman 转发力挺,但这些题却答不对…

一些 X 平台博主提前拿到了新模型的体验资格,并分享了使用体验。
体验一周的 @danshipper 表示,o3 速度快、很有「行动力」、极其聪明,而且整体感觉非常棒。最喜欢的用法包括:

  • 制定了一个简洁的机器学习小课程,并每天早上提醒博主学习
  • 通过一张模糊的照片找到了一个婴儿车品牌
  • 用超快的速度写出了一个全新的 AI 基准测试程序
  • 像 X 光一样分析了 Annie Dillard 的一篇经典作品,挖掘出博主以前从未注意到的写作技巧
  • 查看会议记录,敏锐捕捉博主试图回避冲突的情况
  • 分析组织架构后,建议推出什么样的产品,以及短板在哪

医学博士 @DeryaTR_ 认为 o3 很聪明,「当我向 o3 提出具有挑战性的临床或医学问题时,它的回答听起来就像是来自顶级医生:准确、全面、基于证据且充满信心,表现得非常专业,完全符合我们对这个领域专家的期望。」

Altman 也转发引用了他的说法「o3 达到或接近天才的水平」。

在 @DeryaTR_ 看来,o4 mini 则稍微「低调」一些,回答细节上没有 o3 那么详细,可能更简洁、流畅,给人一种优雅的感觉,甚至可能更具「情感」。

当然,我们也上手测试了一些问题。

从前有一位老钟表匠,为一个教堂装一只大钟。他年老眼花,把长短针装配错了,短针走的速度反而是长针的12倍。装配的时候是上午 6 点,他把短针指在「6」上,长针指在「12」上。老钟表匠装好就回家去了。人们看这钟一会儿 7 点,过了不一会儿就8点了,都很奇怪,立刻去找老钟表匠。等老钟表匠赶到,已经是下午 7 点多钟。他掏出怀表来一对,钟准确无误,疑心人们有意捉弄他,一生气就回去了。这钟还是 8 点、9 点地跑,人们再去找钟表匠。老钟表匠第二天早晨 8 点多赶来用表一对,仍旧准确无误。请你想一想,老钟表匠第一次对表的时候是 7 点几分?第二次对表又是 8 点几分?

▲o3 回答错误 ❌

U2 合唱团在 17 分钟 内得赶到演唱会场,途中必需跨过一座桥,四个人从桥的同一端出发,你得帮助他们到达另一端,天色很暗,而他们只有一只手电筒。一次同时最多可以有两人一起 过桥,而过桥的时候必须持有手电筒,所以就得有人把手电筒带来带去,来回桥两端。手电筒是不能用丢的方式来传递的。四个人的步行速度各不同,若两人同行则 以较慢者的速度为准。Bono 需花 1 分钟过桥,Edge 需花 2 分钟过桥,Adam 需花5分钟过桥,Larry 需花 10 分钟过桥。他们要如何在 17 分钟内过桥呢?

▲o4 mini 回答正确 ✅

如下实测,虽然 o3 给出了完整的推理步骤,但回答却也再次出错。

▲o3 回答错误 ❌

在 OpenAI 上新之际,细心的网友也发现新款 Gemini 将于下周(4 月 22 日)发布。

DeepSeek R2、Anthropic 的 Claude 4 以及马斯克剧透的「GroK-3.5」 也预计将在本月陆续发布。

即便往前看,4 月也是 AI 最为「内卷」的一个月,很大程度上决定未来一年 AI 行业的发展走向,而更强的模型、更低的成本、更广的场景也将给我们带来更智能、更普惠的未来。

附 OpenAI 团队在 X 平台上举办的 AMA 总结:

  • OpenAI 计划在未来几个月发布一个出色的开放模型,新的图像生成功能将很快在 API 中推出。
  • o3 现已在 API 中提供,而更先进的 o3-pro 模型正在开发中,预计很快发布。
  • 强化学习微调(Reinforcement fine-tuning)很快会全面开放,允许公开进行微调或使用推理模型进行强化学习(RL)。
  • 在 Responses API 中,开发者消息与系统消息之间的切换是自动处理的;将系统消息发送给 o3 或将开发者消息发送给 GPT-4.1 会自动转换。
  • 目前,ChatCompletions 或 Responses API 不支持托管工具
  • 在 o3 和 o4-mini 的推理阶段,Web 搜索、文件搜索和代码解释器等工具会被积极使用;这些工具目前在ChatGPT中已被支持,但尚未在 API 中支持——预计很快会添加支持。
  • OpenAI 正在积极开发 Agents SDK 中的线程支持,以改善对话历史和记忆。
  • OpenAI认为低代码平台在 Agents SDK 中的建议很有趣,并欢迎开发者就最有用的功能提供反馈。
  • Codex CLI 包括多个文档化的审批模式,允许用户为每个操作或会话选择模式。
  • Codex CLI 并不是用来替代 Cursor、Windsurf 等 IDE 工具;它的设计目的是在用户使用主要 IDE 时运行后台任务。
  • 比较 Codex 的编码能力和深度研究能力取决于选择的模型(o3 或 o4-mini);Codex 特别利用函数调用,直接在用户计算机上执行命令。
  • 新模型主要训练于通用浏览、Python/代码执行工具和对开发者有用的用户定义工具。
  • 虽然 GPT-4.5 更强大,但它更慢且计算密集,GPT-4.1 为开发者提供了一个更快且更具成本效益的选择。
  • GPT-4.1 的一些改进已经整合到 ChatGPT 中,更多改进将在未来推出。
  • OpenAI 承认「4o」和「o4」等模型名称之间存在命名混淆,并计划很快简化模型命名。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


实测超火的 AI 浏览器 Dia,我看到了浏览器未来的 iPhone 时刻

By: 莫崇宇
10 April 2025 at 13:37

30 年过去了,浏览器最大的变化可能是图标。

「互联网之父」蒂姆·伯纳斯-李 1990 年设计的基本交互模式——通过超链接(Hyperlink)实现网页之间的跳转,以及后面输入网址、等待加载、点击链接、回到上一页等逻辑,在今天岿然不动。

都 2025 年了,我们还在用同样的姿势,对着屏幕傻傻地等待页面加载。

过去十年,我们见证过许多号称「要颠覆浏览器市场」的浏览器,Arc 也是其中被誉为全村最有希望的种子选手,但却在拥有百万级用户,烧掉 1.5 亿美元后,母公司 The Browser Company 宣布停止更新,黯然退场。

去年,在完成 5000 万美元融资后,他们决定将重心转向开发一款名为 Dia 的原生 AI 浏览器。

创始人 Josh Miller 表示,Dia 要构建一种完全不同类型的浏览器——一个更加主动、更强大、更以 AI 为中心、更加符合最初愿景的浏览器,可以称它为网络浏览器的 iPhone,或者「互联网计算机」。

Arc 浏览器在其早期和公测阶段使用了邀请码制度,显然 The Browser Company 从中尝到了甜头。

最近,这款名为 Dia 的浏览器终于上线,采用邀请码制,开始小范围开放体验。体验设备有一定限制,目前适用于配备 Mac M1 芯片或更高版本的 macOS 14+。

在各家都在竞相将 AI 融入离用户最近的浏览器,Dia 的表现能否脱颖而出,AI 又该如何重塑浏览体验,这些都是我们想要探究的问题。

Google+Perplexity,Dia 想用 AI 改变浏览器?

Dia 的主页非常简洁,只有一个最为寻常不过的搜索框,甚至可以说清爽得有些不像样,但这也许正是浏览器最理想的样子:提问、获取答案、结束。而不是塞满热搜榜单,分散你的注意力。

输入问题后,Dia 会弹出一个候选窗口,提供 Google 和 Chat 两个选项。

顾名思义,前者直接跳转到常规搜索引擎页面,后者则类似常见的 AI 聊天助手,调用 Dia 自带的大模型直接给出答案,并且拥有独自的历史聊天记录。当然,遇到复杂问题时,它也会联网搜索。 

「现在的宠物能坐高铁了吗」「马斯克现在管理着多少家企业」,Dia 的回答质量也是属于不太稳定的那种,同一问题的几次回答,都在正确和出错之间反复横跳。

用英文提问,回答质量也不会显著提升,甚至它就把星链误认为独立公司。实测下来,Dia 偶尔会在回答中附上图片;用中文提问时,有时也会意外触发英文回答。

输入框底部,你还能看到「Personalize Dia」,设置崇拜对象、喜欢的学习方式,以及 Dia 的回答风格,可以帮助 Dia 快速了解自己,起到调教 AI 人设的作用。

随手上传一个互联网梗图,Dia 也能够轻松识别表情包的言外之意。文档总结很到位,10 万字被梳理得清晰明了,但值得注意的是,文档大小限制在 100M 内,且实测不支持上传 Doc 格式文档。

▲左上角会显示出现了两个 ChatGPT, 应该是 Bug

总结公众号文章,甩个链接即可。

值得注意的是,Dia 浏览器使用的是 Chromium 引擎的特定版本。Chromium 是一个开源项目,许多现代浏览器(包括 Chrome)都基于它构建。

交互是最大亮点,但 Dia 还是个半成品

Dia 的交互设计是一大亮点。传统 AI 插件主要以侧边栏、悬浮窗的形式呈现,涵盖 AI 聊天、翻译、网页总结等。右上角的 Chat 可以看作一个阉割版的 AI 插件,虽然功能稍显单薄,但在交互体验上却做得不错。

划词后,右侧就能直接提供查找或解释功能,整体操作流畅顺滑。

比如在知乎看到有人推荐线性代数书籍,我本来想评论一句「不明觉厉」,但写到一半卡住了,怎么办,这时候,放到光标处,光标就会变蓝变粗,点击会自动调出右侧 Chat 界面。

接着我简单描述了「看不懂,但我大受震撼」的想法,DIa 就会浏览完整个页面,并给出几个评论方案。

这些建议甚至模仿了知乎热评区的轻松语气,简洁直白又人性化。确认无误后,点击「Insert」就能自动插入扩写左侧评论。

没时间看视频,总结视频内容也可以。这里有个小技巧,也能让它给出总结视频的字幕。不过,我让其生成 Word 或 PDF 文档后,却没有后续反馈。

另外,Dia 还能通过点击「View 菜单-Add Split View Pane,」在浏览器内实现快速「分屏」,最多可同时分出 4 块屏幕。不过,这个功能实用性有限:它仅显示搜索结果,点击具体网页仍会跳转到全屏模式,属实有点「中看不中用」。

此外,Arc 曾常被吐槽无法迁移 Chrome 书签,现在吸取教训的 Dia 提供了一键导入书签功能,支持无痛迁移。另一个是没有像 Arc 那样「剑走偏锋」,而是选择了更常规的横向标签页设计。你可以在输入框里添加各类网页标签,也能一口气将所有标签加入对话上下文,提升多标签页的信息联动能力。

类似 ChatGPT 调用 GPTs 的方式,Dia 也支持通过 @ 调用各个网页标签。玩法很朴素,我挑选了过往几篇关于 Ai Pin 的文章,并让其总结 Ai Pin 值得吐槽的点,很快就得到了清晰的答案。

浏览器 2.0 时代已经开始,而 Web,远未走向死亡

2010 年,克里斯·安德森(Chris Anderson)与迈克尔·沃尔夫(Michael Wolff)在《连线》杂志共同撰写了《Web 已死,Internet 永生》一文。

文章犀利地指出,万维网(Web)在诞生二十年后正逐渐走向衰退,其原因在于传统的 Web 浏览模式逐渐被更简单、更流畅的服务所取代,尤其是应用程序(App)的崛起,更简洁、高效,能够直接满足他们的需求。

比如,打开一个新闻 App 就能立刻浏览头条,而无需在浏览器中输入网址、等待页面加载。这种「App 优先」的趋势在过去十年中几乎主导了互联网产品的开发逻辑。

然而,生成式 AI 的崛起重新将产品开发的焦点拉回到 Web 模式。

看似出人意料,却又合情合理。AI 交互本质上是以文本/对话为核心,Web 界面天然支持复杂的文本输入输出,且能便于分享结果和协作。

生成式 AI 模型计算需求大、迭代速度快。在不确定哪种 AI 应用场景最有价值的探索期,Web 平台能以最小成本覆盖所有设备用户,加速产品市场匹配验证。

并且,相比下载 App 的心理和实际成本,Web 版本让用户可以「即点即用」,这对于像 ChatGPT 这样天然陌生的产品尤为重要,减少了用户尝试的障碍。

浏览器的基本形态和功能已经维持了近三十年。1989 年,蒂姆·伯纳斯-李(Sir Tim Berners-Lee)在 CERN 工作时,创建了万维网(WWW),以满足科学家、大学和其他研究机构之间共享信息的需求。

网页浏览器应运而生,但它的设计初衷是围绕文档展开的,这一底层逻辑至今没翻篇。

到后来的 Netscape Navigator,再到如今的 Chrome、Safari、Firefox 和 Opera,浏览器的核心元素(标签页、地址栏、收藏夹)表面形态不能说毫无变化,但也变化不大。

过去,我们通过搜索引擎获取信息的方式是这样的:输入关键词,得到十几个甚至几十个结果页面,然后一个个点击,浏览,判断,筛选,最终从海量信息中找到自己需要的那一小部分。

这个过程就像在图书馆里翻阅一摞摞的书籍,耗时且低效。在那个年代,找到信息的能力本身就是一种技能,甚至催生了「高级搜索技巧」这样的教程和课程。

后来,搜索引擎变得更加智能,界面设计和性能有所优化,比如标签页从单一窗口变为多任务管理工具,地址栏也整合了搜索功能,可这些变化,说到底还是修修补补,算不上脱胎换骨。

在沉浸式、空间计算和对话式 AI 方兴未艾的当下,我们仍然被迫使用基于 30 多年前文档范式设计的浏览器。与其说这是界面问题,倒不如说是整个信息交互模式的不匹配。

AI 的狂飙突进,给浏览器体验的重塑撕开了一道口子。去年,AI 插件热潮席卷而来,Kimi、Monica 等玩家纷纷入局,带来了一些新玩法:不用离开页面,就能获取答案、完成任务,效率直线上升。

从目前体验上看,仍处于半成品的 Dia 在侧边栏交互、划词解释等细节上有些亮点,但说到底还是没跳出 AI 插件的范畴,更多是对现有功能的整合和打磨。

Josh Miller 曾表示,传统浏览器的界面需求已经不再那么迫切,其底层结构将决定我们的未来。「大多数人以为我们在造浏览器,」Miller 在一次对话中说,「其实我们造的是一个基于浏览器的系统。」

他的野心,是把浏览器从单纯的内容展示工具,变成一个类似操作系统的存在,管理个人偏好和行为,在系统层面实现跨设备的 AI 体验,而不用在每个应用里重复设定。

在早期演示中,Dia 就展示了浏览器如何代表人类执行任务。

例如,Dia 通过自己浏览亚马逊,找到这些物品并将它们添加到购物车中。这正是浏览器能做到的事——利用它对你所有 Web 应用和浏览数据的访问权限,替你完成任务。

尽管,如今的 Dia 距离这一目标尚有差距,但这种从被动响应到执行理念的转变,却与当下大火的 Agent 不谋而合。

在 OpenAI 推出的 Operator,以及智谱最新发布的「沉思」Agent 中,我们也看到浏览器开始代替用户采取行动,比如预订机票、比较产品价格、填写表单,甚至完成在线购物。

为了更好地了解这一趋势,不妨再来看看 OpenAI 前 AI 大神 Andrej Karpathy 提出的「LLM 操作系统」设想:

  • LLM 作为内核:LLM 是整个系统的中心,类似于传统操作系统中的 CPU,负责处理核心任务和协调其他组件。
  • 存储体系:包括上下文窗口(类似 RAM),用于存储当前正在处理的信息。
  • 文件系统:用于长期存储数据,类似于传统计算机的硬盘。
  • 向量数据库(embeddings/vector databases):用于存储和检索嵌入向量,是 LLM 进行语义理解和检索的重要基础。
  • 浏览器:作为 I/O 外设之一,用于访问互联网资源,获取实时信息。
  • 多模态工具:支持处理文本、图像、音频等多种数据类型。
  • 其他工具:如代码解释器、计算器等,用于辅助 LLM 完成复杂任务。

从根源上讲,浏览器自诞生之初便紧密贴合人类需求,为人类而生的属性贯穿始终。传统浏览器依赖的 UI 自动化工具(如 Selenium)本质上是对人类操作的镜像模拟。

与图形化界面和手动操作有所不同,AI Agent 需要通过代码访问和解析数据与网页进行自动化交互,而动态加载的内容、复杂的页面结构,以及反爬机制(如验证码)的普遍应用,都是亟待解决的几道难关。

浏览器服务商 Browserbase 创始人 Paul Klein 也曾给出一些技术思路:

  • 开发开源、高效的浏览器,减少浏览器启动时的等待时间和安装所需的资源量,提升运行速度和部署便利性。
  • 利用 LLM 快速定位网页数据,VLM 基于截图识别元素,支持自然语言交互,无需复杂脚本,即使面对混淆或动态内容也能适应。
  • 提供更可靠的 SDK 和 API 开发工具,简化开发流程,提高 AI Agent 使用体验。

更理想的状态是,AI Agent 与浏览器/网站则需要通过标准化协议直接通信,跳过视觉交互环节,基于数据接口(如 API、底层协议)实现自动化操作,完成从 「人→界面→数据」 到 「机器→协议→数据」的直连。

这段时间频繁出现在大众视野的 MCP,正是解决传统「人→界面→数据」模式瓶颈的一种方案。它通过客户端-服务器架构,将 AI Agent(主机/客户端)与外部资源(服务器)连接起来,用协议取代了界面操作。

简单来说,你可以把 MCP 想象成一个「万能接口」,就像电脑上的 USB-C 接口一样。这个接口让 AI 模型能够轻松地连接到各种外部资源,比如文件、数据库、在线服务等。

通过 MCP,AI 助手不仅能获取数据,还能直接对数据进行操作,比如读取文件内容、更新数据库记录等。

浏览器会继续服务人类,但会越来越适配 AI 的需求。人类下达命令,Agent 高效执行的协作模式将成为未来的常态。

从早期的命令行界面(CLI),到图形用户界面(GUI),再到如今迈向人机纯自然语言交互以及机器与机器的协议层交互,技术在复杂化,但交互方式却在不断简化。

现在,浏览器 2.0 时代已经开始,而 Web,远未走向死亡。

「AI 不会以应用程序的形式存在,也不会是一个按钮。我们相信它将是一个全新的环境——建立在 Web 浏览器之上,」Dia 的官网如是说。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


AI 圈今年最大丑闻曝光!Llama 4 被揭训练作弊,实测惨遭滑铁卢,核心骨干愤然离职

By: 莫崇宇
7 April 2025 at 18:17

昨天,Meta Llama 4 就这么突然地发布了。

纸面参数很高大上,号称原生多模态 MOE 模型,击败 DeepSeek V3,还有 2 万亿参数巨兽,连 Meta CEO 扎克伯格也发视频,摇旗高呼迎接「Llama 4 日」。

欢呼是短暂的,当网友开始实测后,却几乎是一边倒的负面评价,堪称今年 AI 界最大的「翻车」事件。

在专门讨论本地部署大语言模型的社区 r/LocalLLaMA(可理解为 Llama「贴吧」)中,一篇标题为「我对 Llama 4 感到 incredibly disappointed(极度失望)」的帖子迅速获得了大量关注和共鸣。

更有 Llama 忠实粉丝原地破防,直言是时候该将「LocalLLaMA」改名为「LocalGemma」了,调侃 Llama 4 的发布更像是迟到的愚人节玩笑。

实测表现货不对板,曝 Llama 4 发布前疯狂「灌题」

在 Reddit 的这篇原帖中,网友 karminski 强烈建议不要使用 Llama 4 进行编码。

他表示 Llama-4-Maverick——总参数达 402B 的型号——在编码能力上仅能与 Qwen-QwQ-32B 勉强匹敌。而 Llama-4-Scout(总参数 109B 的型号)表现则大致与 Grok-2 或 Ernie 4.5 相仿。

事实上,根据最新的 aider polyglot 编码基准测试结果,Llama 4 Maverick 的得分仅为 16%。

这一基准测试旨在评估大型语言模型(LLM)在多语言编程任务中的表现,覆盖了 C++、Go、Java、JavaScript、Python 和 Rust 六种主流编程语言。

而这个分数,在众多模型中也是属于妥妥的垫底水平。

博主 @deedydas 同样表达了对 Llama 4 的失望,直呼其为「一个糟糕透顶的编程模型」。

他指出,Scout (109B) 和 Maverick (402B) 在针对编程任务的 Kscores 基准测试中,表现远不及 4o、Gemini Flash、Grok 3、DeepSeek V3 以及 Sonnet 3.5/7。

另一位网友 Flavio Adamo 分别让 Llama 4 Maverick 和 GPT-4o 生成一个小球在旋转多边形弹跳的动画,并且,小球跳动的过程中要遵循重力和摩擦力的影响。

结果显示,Llama 4 Maverick 生成的多边形形状缺乏开口,小球的运动也违背物理规律,相比之下,新版 GPT-4o 的表现明显更胜一筹,而 Gemini 2.5 Pro 的表现则堪称王者。

回望今年 1 月,扎克伯格还宣称,AI 将达中级软件工程师编程水平,就目前 Llama 4 糟糕的表现,属实是打脸来的有些快。

另外,Llama 4 Scout 的上下文长度达到了 1000 万 tokens。这一超长上下文长度使得 Llama 4 Scout 能够处理和分析极长的文本内容,例如整本书籍、大型代码库或多媒体档案。

Meta 官方甚至还展示了「大海捞针」的测试结果以证明其能力。

然而,根据 Fiction.LiveBench 最新给出的结果,Llama 4 模型的效果也是中看不中用,整体效果不及 Gemini 2.0 Flash,而 Gemini 2.5 Pro 依旧是当之无愧的长文本王者。

Google 上大分+1。

网友 karminski 进一步指出,Llama 4 在 1K 上下文召回率(近似理解为问题回答的正确率)时就已跌至 60% 以下,甚至 Llama-4-Scout 在超过 16K 时仅剩 22%。

他还给出了一个形象的例子「《哈利·波特与魔法石》的文本长度恰好约为 16K。

这意味着,如果你把整本书输入模型,然后问「哈利小时候是住在卧室还是楼梯下的储物间」,Llama-4-Scout 只有 22% 的概率能答对(近似理解,实际召回机制更复杂)。而这个成绩自然也就远低于头部模型的平均水平。

不仅模型本身稍显拉胯,Llama 4 作为「开源扛把子」的光环也在逐渐褪色。

Meta 开放了 Llama 4 的权重,但即使使用量化(quant),也无法在消费级 GPU 上运行。号称单卡运行,但实际指的却是 H100。门槛之高,对开发者可谓是相当不友好。

更何况,Llama 4 的新许可证还有几个限制条款,其中备受诟病的则是拥有超过 7 亿月活跃用户的公司必须向 Meta 申请特别许可证,Meta 可以自行决定是否批准或拒绝。

等等,昨天 Meta 公布的纸面参数可不是这么说的,怎么过了一天,风向就全变了。

在大模型竞技场(Arena)排名中,Llama 4 Maverick 名列总榜第二,成为第四个突破 1400 分的模型,在开源模型中更是高居榜首,更是超越了 DeepSeek V3。

面对实测性能的「货不对板」,细心的网友很快嗅到一丝蹊跷。在 LM Arena 上取得高分的 Maverick 其实用到了一个「实验性聊天版本」。

这还没完,今天一亩三分地社区的爆料贴也似乎揭开了一些内幕。爆料称,经过反复训练后,Llama 4 未能取得开源 SOTA,甚至与之相差甚远。

而 Meta 公司内部设置发布的 deadline(截止日期)则是 4 月底。

于是,公司领导层建议将各个 benchmark 的测试集混合在 post-training 过程中,目的是希望能够在各项指标上交差。拿出一个「看起来可以」的结果。

这里说的将各个 benchmark 的测试集混合在 post-training 过程中,是指在模型的后训练(post-training)阶段,通过混合不同基准测试的数据集,模型可以在多种任务和场景中学习,从而提升其泛化能力。

打个简单的比方,这就像考试时作弊。试题本该从保密题库(benchmark 测试集)中随机抽取,考前无人知晓。可如果有人提前偷看了题目并反复练习(相当于将测试集混入训练),那考试的时候肯定能考得很好。

帖主进一步解释说,Llama 4 发布之后,实测结果遭到 X 和 Reddit 网友的吐槽。作为一名目前也在学术界的人他宣称实在无法接受 Meta 的做法,已提交离职申请,并明确要求在 Llama 4 的 Technical Report 中剔除自己的名字。

他还表示,Meta 的 VP of AI 也是因为这个原因辞职的。而早在几天前,就有报道称 Meta AI 研究负责人乔尔·皮诺(Joelle Pineau)宣布将于 5 月 30 日离职。

不过,对于这桩疑似「刷榜作弊」的指控,真相究竟如何,或许还需更多证据。一位名为 LichengYu 的 Meta 员工也疑似在评论区实名回应称:

「这两天虚心聆听各方 feedback(比如 coding,creativewriting 等缺陷必须改进),希望能在下一版有提升。但为了刷点而 overfit 测试集,我们从来没有做过,实名 Licheng Yu,两个 oss model 的 post training 有经手我这边。请告知哪条 prompt 是测试集选出来放进训练集的,我给你磕一个+道歉!」

公开资料显示,Licheng Yu(虞立成)曾本科毕业于上海交通大学,2014 年获佐治亚理工学院和上海交通大学双硕士学位,在 2019 年 5 月获北卡罗来纳大学教堂山分校计算机科学博士学位,。

他的研究领域专注于计算机视觉和自然语言处理,多篇论文被 CVPR、ICLR、ECCV、KDD 等顶级会议接收。

Licheng Yu 曾在微软、Adobe 等大厂有过工作经历,目前(2023.06 至今)担任 Meta 的研究科学家经理,曾参与 Llama3.2 多模态模型(11B+90B)的发布,以及领导 Llama 4 项目中 17Bx128 和 17Bx16 的 文本+图像强化学习阶段。

真假难辨,或许还可以让子弹再飞一会。

开源大模型的「王座」,不能靠蛮力夺取

在去年这个时候,Meta 还被誉为 AI 行业的天选之子。

当然,脱下简单的灰色T恤、牛仔裤和连帽衫,扎克伯格也开始频繁地穿着大 LOGO 的名牌服装,颈间挂上粗犷的大金链子,甚至在公开场合自信展示自己的健身成果。

醉翁之意不在酒的扎克伯格试图通过展现更「真实」、更「接地气」的一面,拉近与公众的距离。这不仅让 Meta 显得更加亲民,也使其顺势成为对抗 OpenAI 闭源模型的开源旗手,声势一时无两。

与此同时,Meta 的雄厚实力为转型提供了坚实后盾。据悉,Meta 计划在 2025 年投入高达 650 亿美元用于扩展其 AI 基础设施,这一数字在业内堪称大手笔,到 2025 年底,Meta 计划拥有超过 130 万块 GPU。

其次,Meta 坐拥丰富的社交平台数据,这为其 AI 研发提供了得天独厚的优势。

作为 Facebook、Instagram 和 WhatsApp 等全球知名社交平台的母公司,Meta 掌握着数十亿用户的日常交互数据。据统计,其平台的全球日活跃用户数(DAU)在 2024 年已超过 30 亿,这一庞大的数据体量为 AI 模型的训练提供了海量的原材料。

再者,Meta 在人才储备上同样不遑多让。其 AI 部门的领军人物是业界享有盛誉的图灵奖得主 Yann LeCun。在他的带领下,Meta 坚持开源策略,推出了 Llama 系列模型。

因此,Meta 也野心十足——它不仅要巩固自身在社交领域的地位,更希望在 AI 领域实现弯道超车,目标是在 2025 年底前超越 OpenAI 等强劲对手。

但眼见他起朱楼,眼见他宴宾客,眼见他楼塌了。

若一亩三分地的爆料属实,Llama 4 的研发过程中可能存在为追求基准测试分数而「作弊」的行为——通过将测试集混入训练数据,也更像是「AI 流量焦虑」下的操作变形。

年初就曾有消息称 DeepSeek 让 Meta AI 团队陷入恐慌:

「当生成式 AI 组织中的每个高管薪资都比训练整个 DeepSeek-V3 的成本还要高,而我们有好几十个这样的高管,他们要如何面对高层?」

2023 年,Meta 凭借 Llama 系列在开源大模型领域几乎建立了垄断地位,成为开源 AI 的代名词和标杆。

然而,AI 一日,人间一年,在 Llama 4 遭遇「滑铁卢」的评论区中,其他开源模型的好评随处可见。其中,Google Gemma 以轻量高效和多模态能力赢得广泛认可,阿里的 Qwen 系列基座模型崭露头角,而 DeepSeek 更以低成本高性能的黑马姿态震撼了整个行业。

Meta 能否调整策略重回开源 AI 的模型领跑位置尚未可知,但无论如何,开源 AI 的百花齐放已经不可逆转地到来了。

秉持着哪个 AI 好用,用哪个的原则,Meta 也不能全然怪用户「墙头草」。更何况,在开源透明度方面,相较于上述几家公司的开源模型,Llama 4 的自缚手脚,也颇有些自断一臂的意味。

而 Meta 目前的挣扎或许也表明,即便手握全球所有的 GPU 算力和海量数据,资源优势已不再是决定性因素,开源大模型的「王座」,不能靠蛮力夺取。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


他们把宇树的网红机器狗「剥皮拆骨」,发现了它倒立行走的秘密

By: 莫崇宇
7 April 2025 at 13:34

这,是蛇年春晚的顶流机器人 H1,凭借一手丢手绢的绝活,火遍了大江南北。

这,是一款能侧空翻、会鲤鱼打挺的人形机器人 G1,十八般武艺无一不精。

他们都来自同一家公司——宇树科技(Unitree),但其实在这些人形机器人声名鹊起之前,宇树便靠着机器狗狠狠出圈一波,比 H1 更早些时候上过春晚,也曾亮相于超级碗、冬奥会、亚运会等盛会。

宇树旗下的机器狗种类繁多,有面向消费级的 Go 系列,也有科研级的 A 系列和工业级的 B 系列。

其中,在主流电商平台,Go2 目前起售价接近 1 万块,与一张普通显卡的价格相当,这个价位也让其更像是一款面向市场的、相对高端的消费电子产品:

  • Go2 Air:适合轻型应用和家庭使用。
  • Go2 Pro:增强功能可满足更高的任务要求。
  • Go2 Edu:作为学习和实验平台,服务于教育目的

或许正是因为 Go2 价格相对「亲民」且定位贴近大众,知名维修网站 iFixit 也将目光投向了这款机器狗,并特别邀请了机器人专家 Marcel Stieber 对其进行了一次深入的拆解。

机器狗上「手术台」,得先断电

上「手术台」前,安全措施必不可少。

卸电池是标准流程,拿出机器狗侧腰处的电池组,拧开几颗 Torx 螺丝并取下电池仓盖后,便能看到内部用于连接顶部电量指示灯的 Pogo Pin 接口。

将电池组从塑料外壳中滑出,其结构一目了然:包含主接口、充电端口接口,以及若干用于导电的大铜条,这点用料还算扎实,能减少发热。

电池管理系统(BMS)则位于电池组后部,并通过 Pogo Pin 与外部的电量指示灯相连。这种接口可以方便地将 BMS 的信号传递到电量指示器,从而让用户能够直观地看到电池的剩余电量。

Unitree Go2 的标配电池电量为 8000mAh,续航时间约为 1–2 小时,最长可选 15000mAh,日常玩玩还行,真要干活可能不太够。电池组的核心由 32 节 18650 电芯阵列组成,也是比较成熟和常见的电芯类型。

根据标识,其生产日期为 2024 年 3 月 6 日。

移除固定 BMS 电路板的螺丝并小心将其翻开,可以看到下方的充电管理芯片以及一块连接各电池串(标记为 BT1 至 BT8)的子电路板。不过,BMS 芯片上的型号标记似乎被激光蚀刻掉了,无法识别具体型号。

耐用的幕后功臣,是这些「便宜货」

卸掉顶盖的螺丝并取下外壳。

首先映入眼帘的则是一个小型的散热风扇,左上方是一块无线通信板,标有 GNSS(全球导航卫星系统)连接点和另一个天线接口,由同轴电缆的连接方式,专家推测,这可能集成了 Wi-Fi 功能。

此外,我们可以看到一个以太网接口,但这并未为用户专门设计,它更可能主要是用于工厂调试、故障排除或内部维护。

另一个发现则是 XT30 连接器。

这是一种小型、高电流电源连接器,广泛应用于需要大电流传输的场景,如无人机、航模、电动工具、户外电源等。在硬件调试过程中,可以作为一种备用电源输入途径,允许在没有电池的情况下为主板供电进行调试。

主处理单元区域清晰可辨,其外观及配备的散热管和散热片都与英伟达 Jetson 板有相似之处。此外,还可以看到多个预留的风扇接口和一些调试端口。

主板上还集成了多个用于连接电机或执行器的高功率连接器。

事实上,在这款机器狗内部,这种布基胶带的使用相当普遍,目的也很明确,机器狗磕磕碰碰很正常,而胶带可以固定线缆,防止连接器松脱。

拆解进行到前部传感器,需要先小心地剥离覆盖在其上的布基胶带,然后使用撬棒谨慎地断开两个电缆连接器,由于这种细小的连接器比较脆弱,撬棒下手必须稳、准、轻。

在检查前部头部模块时,塑料外壳上明显存在裂缝,显然,这款机器狗平时没少摔,好在这种损伤多数不影响功能,用环氧树脂填充一下就可以,成本也不高。

在视频的结尾,专家继续对主板区域进行更深入的拆解。

又是一顿拆拆拆等常规操作,依次小心拔出连接 GNSS 模块(接收全球导航卫星系统信号)、MCU(推测为微控制器)等部件的连接器,并细心地贴上标签以防后续混淆。

继续移除连接电机的高功率连接器(标有 C-, C+ 等)、连接电池的主电源连接器以及一个小的电池通信连接器。

移除主板上的另一个散热风扇后发现,该区域还预留了更多风扇安装位。

这么设计的好处是,更高配的机器狗版本由于配置更高,(比如有更强的处理器),它就会产生更多的热量,这时候就需要更多的风扇来散热。

不过,装更多风扇也有坏处:风扇多了,就会吸进更多灰尘,还会用更多的电。这样一来,要么需要更大的电池来供电,要么机器狗的续航时间就会变短。

接着,移除两个 RF (射频) 连接器,同样做好标记,以确保后续正确连接。

拧下所有固定主板的螺丝,小心地将其从底盘上取下。移除主板后,便可看到固定底盘上下两部分的螺丝,将它们全部拧下后,即可分离底盘,一览无余。

最贵,但也最安全

激光雷达(Lidar)是 Go2 感知环境的关键。

其工作原理通过发射激光并测量反射光的回波时间来绘制周围环境地图,实现障碍物检测。简单来说,机器人利用预设的光速信息和高精度计时器,计算激光从发射到接收反射信号的时间差,从而判断物体的距离和形状。

Go2 搭载的是宇树自家的 Unitree 4D LiDAR-L1。

这是一款 4D 激光雷达(3D 位置+1D 灰度),它具有实现每秒 21600 次的高速激光测距采样能力,可探测最近 0.05 米、最远距离 30 米的物体(90% 反射率)。

L1 内置 IMU(惯性测量单元),工作温度范围为 -10℃ 至 60℃,其通过转接模块连接 Type-C 接口进行数据传输和供电,视场角(FOV)扩展至水平 360°,竖直 90°,可实现半球形视场角的三维空间探测。

在拆卸 Lidar 模块之前,需要拧下固定模块保护笼的四颗螺丝。

这个由厚实焊接钢材制成的保护笼,显然是为了在机器人跌倒或撞击时保护内部昂贵的传感器——要知道,仅这颗 LiDAR-L1 的成本就可能占到整机售价的五分之一以上。

随后,移除隐藏在腿部下方的一颗额外螺丝,断开连接线缆,以释放并拆下整个 Lidar 模块。

Lidar 模块的结构包含两个旋转轴:外圈的主旋转轴由下方电机驱动,实现水平扫描;内部的次级旋转轴(带有一个反射镜)快速旋转,实现垂直方向的扫描切片。两者结合,提供环境的 3D 视图。

在这里,需要补充一个细节。

在学术和工业领域,4D 通常指的是在三维空间(X、Y、Z 轴)的基础上增加时间维度(T)。例如,在自动驾驶领域,4D 激光雷达不仅要提供物体的三维位置信息,还要能够追踪物体在时间上的运动变化。

虽然 Unitree 4D LiDAR-L1 自称为 4D 激光雷达,但这里的 4D 是指 3D 位置信息加上 1D 灰度信息,传统意义上的 4D(3D + 时间)并不完全一致,所以也难怪专家认为这个命名多少有些营销的噱头。

倒立行走的秘密,藏在这里

Unitree Go2 机器狗全身共有 12 个关节电机。

这些电机分布在机器狗的四肢关节处,使其能够实现灵活的动作,如跳跃、伸懒腰、握手,甚至倒立行走、自适应翻身起立、翻越攀爬等复杂步态。

根据观察,专家判断每条腿包含三个电机:分别控制髋关节、膝关节(大腿部分),还有一个驱动小腿伸缩。

拧下固定外侧腿部电机组件的螺丝,将其与上部腿部分离,可以看到电机和连接器。一个有趣的设计是螺丝孔之间交替放置了多个电容器。

关节连接处采用了互锁齿轮机制,接触面是 CNC 加工的金属表面,以确保力传导的强度,外部的塑料「领圈」则主要起到将两部分固定在一起的作用。

这种设计可能是故意而为之,当受到极端外力时,塑料件或某个连接点会先断裂,从而保护更昂贵的核心部件(如电机和主板)免受损坏,降低维修成本。

再次被胶水折腾完,断开连接电机的三个连接器。

好在连接器本身带有防呆设计,后续可以避免插错。通过手动伸缩腿部,可以观察到内部电机通过齿轮减速器驱动小腿运动,提供了相当大的扭矩。

iFixit 的拆解并未深入到腿部内部,但他们利用 Lumafield CT 扫描仪进行了透视观察。在腿部与髋关节连接的地方,两个部件通过金属与金属的接合方式互相连接。

连接方式很结实,主要的力量(比如机器狗跑跳或者负重时产生的力量)就是通过这个连接点传递的,这也印证了之前的判断。

遛「Go」也是遛狗,好用也有趣

拆解完毕后,专家给出的结论是,这款机器狗集成化程度很高。

模块化设计也是个优点,理论上坏了哪个模块换哪个。所有东西都连到一块主板上,简化了布线,但也意味着主板一旦出问题,影响范围可能很大。

胶水问题前面吐槽过了,虽然能够加固,但也确实给第一次维修添堵,但熟悉上手后,倒也能接受,更重要的是,由于大量使用连接器而不是硬焊接,大大降低了维修门槛。

▲图片来自宇树科技官网

腿部(尤其是易磨损的足端,可通过螺丝更换)设计考虑了可替换性,甚至可能支持现场维修。部件(如同侧或对角线的腿部)之间可能存在通用性,便于更换或使用回收部件。

整体架构则相对简单明了(主板、传感器、电池),所有部件和接口并算复杂,有助于故障排查。拆解还发现了为 Pro 版和教育版预留的空间,可安装更强大的计算模块和额外风扇。

可以说 ,基于模块化和连接器的设计,Go2 具备一定的可维修性。至少理论上,你不需要为了换个小零件就把整个机器狗拆得稀巴烂。不过,实际操作难度是另一回事。

当然,Go2 也并非没有设计上的缺点。

专家也指出,激光雷达埋得太深,更换麻烦;颈部结构看着单薄。机器狗的使用环境决定了它必然会摔、会撞。这些看似脆弱的部分,能否扛得住这些日积月累的摔倒碰撞?都值得打个问号。

最后,如果你正考虑入手一台 Go2,希望这份拆解报告能给你提供一些参考。而作为一款万元级的四足机器狗,Go2 的确是个不错的起点。

它不完美,比如续航和耐用性还有提升空间,但它已经足够好用、足够有趣。毕竟,遛「Go」也是遛狗,还没有狗毛满地飞的烦恼。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Midjourney重磅更新!又一个「言出法随」的AI生图神器|附10+场景演示& 缺陷整理

By: 莫崇宇
4 April 2025 at 15:58

曾经被视为必备技能的 PS,如今似乎陷入了「可学可不学」的微妙处境。

最新版本的 Gemini「言出法随」,仅需一句话就能改图,成为现象级的存在,GPT-4o 多模态生图功能上线以来,生成的吉卜力风格图片也几乎在一夜之间席卷网络。

新势力的崛起,老牌 AI 图像生成巨头 Midjourney 也不甘示弱,刚刚正式发布最新版本 V7 。

新版本要点如下:

  • 整体图像质量提高,处理文本提示词更出色,身体、手部及各种物体在细节上的一致性大幅增强。
  • 人物肤色和面部细节更加自然清晰,材质纹理(如羽毛、衣物)质感表现精细,光影效果逼真
  • 能更好理解并呈现提示词描述的完整场景,元素间空间关系合理,背景与主体融合度高
  • 能准确表现特定视角,低角度和特写等拍摄风格表现专业
  • 氛围感和情感表达略弱,缺少一些戏剧性和神秘感,某些艺术风格的独特性和创意性稍显不足

需要注意的是,V7 是首个默认启用模型个性化的版本。用户需解锁个性化设置才能使用此功能,整个过程约需 5 分钟,且可随时开关。

V7 的另一大亮点是「草稿模式」(Draft Mode)。该模式成本仅为标准模式的一半,图像渲染速度却提升至 10 倍。

在网页端使用时,提示栏将自动切换为「对话模式」,用户可直接通过指令调整内容,例如将猫替换为猫头鹰或将场景改为夜晚,系统会自动调整提示并生成新图像。

点击「草稿模式」并启用麦克风按钮后,用户还能进入「语音模式」,通过语音指令进行实时创作。若需明确运行草稿任务,用户可在提示后添加「–draft」参数,适用于排列组合或重复生成等场景。

Midjourney 官方认为,「草稿模式」是迄今为止迭代创意的最佳方式。

用户若对草稿图像满意,可点击「增强」或「改变」按钮,以完整质量重新渲染。需要注意的是,草稿模式下的图像质量低于标准模式,但其行为和美学表现高度一致,适合快速验证想法。

▲图片来自:@U79916881747113

V7 目前支持两种运行模式:Turbo 和 Relax。Turbo 模式速度更快,但成本为普通 V6 作业的 2 倍;草稿模式则成本减半。标准速度模式仍在优化中,预计不久后推出。

目前,放大、编辑和重新纹理功能将回退至 V6 模型,未来将逐步升级至 V7。情绪板和 SREF 功能已可用,后续更新将进一步提升性能。

Midjourney 团队透露,在未来 60 天内,每隔一至两周将推出新功能,其中最受期待的则是全新的 V7 角色和对象引用系统。

话不多说,先来看图。

知名博主 @nickfloats 分享了 MIdjourney V6/V7版本基于同一提示词生成的的图片对比,一起来看看。

Prompt:
A young Indian woman with dark hair in an open ponytail and a black jacket stands on a university campus, looking directly at the camera. The image has a 1990s-style movie still aesthetic, with a close-up portrait on a sunny day.
(一位年轻的印度女性,黑色头发扎成松散的马尾,穿着黑色夹克,站在大学校园里,直视镜头。照片呈现出90年代电影剧照风格,背景是阳光明媚的一天,特写的肖像。)

▲左:V6 右:V7

新版本的光线更加自然,尤其是在人物脸部,肤色更加清晰,细节更加丰富,画面焦点更加清晰,尤其是人物的发型部分,但也因此牺牲了一些氛围和情感的表达。

Prompt:A majestic barn owl perched on an ancient, moss-covered tree branch, surrounded by the misty forest. The scene is bathed in soft light filtering through the dense foliage, creating a magical and ethereal atmosphere. Photorealistic style with attention to detail of the feathers and textures.
(一只威严的 barn owl(仓鸮)栖息在一根古老、覆盖着苔藓的树枝上,周围是迷雾缭绕的森林。柔和的光线透过浓密的树叶洒下,营造出一种神秘而飘渺的氛围。画面风格为逼真的写实风格,细致入微地展现了羽毛和树皮的质感。)

▲左:V6 右:V7

新版本的猫头鹰羽毛纹理更加细腻,羽毛的层次感和光影效果更强,显得更加真实。猫头鹰的姿态上,新版本也更自然,身体略微倾斜,显得更有动态感,眼睛的细节也更生动,传递出一种警惕的神态。

简言之,鱼和熊掌,不可兼得,V7 在追求真实感的目标上更胜一筹;V6 则可能在追求画面冲击力和神秘感上更具优势。

Prompt:A person’s hand points towards the window of an airplane, which is seen from inside with its wing visible in profile. The sky outside shows a clear horizon at dawn or dusk. In front of them lies a vast expanse of ocean.
(一个人的手指向飞机窗外,窗外的飞机机翼从侧面可见。外面的天空清晰,天际线显示出黎明或黄昏的景象。眼前是广阔的海洋。)

▲左:V6 右:V7

同样都是从飞机舷窗向外看的情景,一只手指向窗外,V7 的进步肉眼可见,通过加入飞机机翼的元素,增加了画面的层次感和真实感,让观众更能感受到自己身处飞机上的视角。

Prompt:A close-up of broccoli being sautéed in oil, with the vegetable’s green florets contrasting against a dark brown sauce. A large spoon is partially visible inside a stainless steel pot filled with caramelized and shiny black glaze on top, against a white…
(一块近距离拍摄的西兰花在油中翻炒,绿意盎然的花椰菜与深棕色的酱汁形成鲜明对比。一只大汤勺部分可见,放在一个不锈钢锅中,锅里覆盖着一层焦糖色的光泽黑色酱汁,背景是白色的…)

▲左:V6 右:V7

V6 虽然通过特写镜头突出了酱汁和勺子,焦点非常明确,注意力很容易被吸引到酱汁的质感和细节上。但从提示词的角度出发,新版本通过展示整个锅内的西兰花和酱汁的搭配,呈现了一个更完整的烹饪场景,逻辑上更符合实际烹饪过程。

Prompt:Close-up of an anime woman’s face with a shocked expression, dark hair, in the anime style. Colorful animation stills, close-up intensity, soft lighting, low-angle camera view, and high detail.
(一位动漫女性的面部特写,表情震惊,黑色头发,呈现动漫风格。色彩丰富的动画画面,特写镜头强烈,柔和的光线,低角度拍摄,细节非常精致。)

▲左:V6 右:V7

光影和色彩的处理上,V7 也符合提示词中的「soft lighting」要求,脸部的高光和阴影过渡更加柔和自然,尤其是眼部和脸颊的光影分布,营造出更立体的效果。

Prompt:A dynamic film still of an epic space battle with sleek starfighters zooming past a massive space station, lasers firing, and a distant planet visible in the backdrop.
(一幅动态的电影画面,展示了一场史诗般的太空战斗,流线型的星际战斗机飞驰而过,巨大的太空站在一旁,激光四射,远处的行星清晰可见,构成了一幅震撼的画面。)

▲左:V6 右:V7

人像方面,v7 在细节的精细度和真实感(服装、皮肤、光影等)上有所提升,人物的立体感和与背景的融合度更高,但在情感传递、表情的戏剧性、动态感上有所倒退。

以下为三个具体的对比案例:

Prompt:1980s mystery film, low-angle shot of an evil-eyed French Butler sporting a black suit and grasping a candle in the hallway of a creepy Victorian mansion with musty decor. The warm candle glow evokes a spooky sense of mystery
(一张 1980 年代神秘电影风格的低角度镜头,拍摄了一位邪恶眼神的法国管家,身穿黑色西装,手中握着一支蜡烛,站在一座装饰陈旧、充满霉味的维多利亚式大厦走廊里。温暖的烛光营造出一种阴森神秘的氛围。)

▲ 左:V6 右:V7

Prompt:1990s medium-full street style fashion photo shot on Kodak 500T capturing a rugged 50-year-old man with curly gray hair, 5-o’clock shadow, and a stern look walking down the sidewalk on a bright spring morning in Paris. He’s wearing …
(一张 1990 年代中等全身街头风格的照片,使用 Kodak 500T 胶片拍摄,捕捉到一位五十多岁的男子,他有着卷曲的灰白色头发、胡茬和严肃的表情,正走在巴黎春日明媚的早晨人行道上。他穿着…)

▲左:V6 右:V7

Prompt:Cinematic, off-center, two-shot, 35mm film still of a 30-year-old french man, curly brown hair and a stained beige polo sweater, reading a book to his adorable 5-year-old daughter, wearing fuzzy pink pajamas, sitting in a cozy corner nook…
(一张电影感的35毫米胶片画面,构图偏离中心,拍摄了一位30岁的法国男子,卷曲的棕色头发,穿着一件弄脏的米色 polo 衫,正在给他可爱的5岁女儿读书。女儿穿着柔软的粉色睡衣,坐在一个温馨的角落里。)

▲左:V6 右:V7

海螺 AI+Midjourney 会是让图片动起来的王炸组合吗?网友 @ainextastro 也试了试。

下面由 @tanvitabs 用 v7 生成的这张照片则将 AI 图像生成的坑都踩了个遍,包括凭空多出来的第三只手,T 恤和西装着装上的混淆,以及不匹配的面部生成等。
[图片]

最后留个课堂作业,以下基于同一提示词生成的四张照片,你更喜欢哪个版本的?请投票。

Prompt:Elegant female model standing by a large window in a sunlit room, soft morningliaht casting natural highlights and shadows on her face, wearing a flowing beigedress, relaxed pose, minimal makeup, 85mm lens depth of field, lifestyle fashioneditorial, cinematic tones, airy atmosphere
(一位优雅的女性模特站在阳光洒进的房间大窗旁,柔和的晨光在她的脸上投下自然的高光与阴影,身穿一袭飘逸的米色长裙,姿势放松,妆容简约。使用85mm镜头拍摄,背景有着浅景深,营造出生活方式时尚编辑感,画面呈现电影般的色调,空气感十足。)

你更喜欢哪个版本的图片:
Midjourney v7
Google Imagen 3
ChatGPT 4o
Reeve

过去几年,AI 图像生成的主旋律是追求真实、无油腻感。

去年,Flux 因生成超真实人像而一举破圈,声名大噪,现在,Midjourney V7 接过接力棒,以更丰富的细节、更有层次感的光影、自然的肤质纹理,再次将「真实」推向新的高度。

但追求真实,是一切的终点吗?

最近,随着 GPT-4o 多模态生图功能的发布,一股意想不到的风潮席卷而来——吉卜力风格的图片,几乎在一夜之间点燃了网络,也像一阵春风吹进了 AI 图像生成的世界。

技术选择的可能性多了,创作的玩法也跟着变了。用更通俗的话来说,现在就好比站在厨房里,你是想做顿踏实的饭,还是想整点黑暗料理的,全然在你。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


体验完豆包新版深度思考,我发现 AI 终于学会像人类一样「边想边搜」

By: 莫崇宇
27 March 2025 at 22:01

你有没有发现,现在的 AI 搜索真的很懂摸鱼?

当 ChatGPT、Perplexity 等工具相继问世,都说 AI 将彻底颠覆搜索领域,但现实情况却是,当我随手扔给它一个复杂问题时,一顿操作猛如虎,哐哐一顿搜索几百个网页,搜索结果却平平无奇。

仔细一看,要么堆砌了一堆零散的信息,要么抓不住重点,感觉就像是把一堆资料硬塞给我,自己却没怎么动脑子,像极了敷衍了事的职场人。

不过,这也不能全怪 AI。毕竟换位思考一下,即便是人类,带着问题去查资料时,也很容易被信息洪流冲昏头脑。不少 AI 产品开始对此进行优化,比如 OpenAI 和 Grok 在推理模式基础上又推出了 Deep Research/DeepSearch 模式。

国内厂商里,字节也刚刚给出了新的解决方案,对豆包的深度思考功能进行了升级。正在测试的豆包新版深度思考的一大亮点便是免费支持「边想边搜」,现在下载最新版豆包 APP,或在 PC 及 Web 版豆包中即可体验该功能。

APPSO 也第一时间进行了深度体验。

简单来说,用户无需单独开启搜索功能,只需打开深度思考模式,AI 能在推理过程中灵活调用搜索工具,进行多轮动态搜索。

从「先搜后想」到「边想边搜」,AI 终于学会了如何像人类一样搜索问题。

DeepSearch+深度思考,豆包这个新功能不止让你少问几步

生成式 AI 发展两年了,颠覆搜索了吗?

早期的 AI 搜索工具虽然不怎么做互联网的搬运工,但模式上还是传统的「先搜后想」的套路——先把网上的信息抓一堆,再根据这些信息组织答案。

豆包新版深度思考则不一样,它结合了深度思考能力,把搜索和推理捆绑在一起,基于每一步的思考结果进行多次搜索,能让回答更有逻辑、更贴近需求。听起来挺玄乎,我们也用几个问题来实际体验一下。

先来个贴近生活的投资问题,「如果我从今年 1 月开始同时投资小米股票和英伟达股票,截至 3 月 24 日收盘哪个收益更高?」豆包的回答让我有点意外。

APPSO 拆解了豆包新版深度思考的思考过程,我们发现它的搜索逻辑有了明显不同:

1. 先进行问题分析和框架设定

2. 获取初步信息建立概念

3. 深入挖掘具体数据点

4. 遇到不确定性时进行额外搜索

5. 基于现有信息进行合理推断,并给出结论

之前 AI 可能会直接给出两支股票的涨跌百分比,然后就直接得出结论,但豆包新版深度思考则进行了多轮思考,进行问题分析和框架设定(时间段-股价表现-调用搜索工具)。

一旦有了较为妥当的思路,它便会继续搜索,比如在互联网上找到了 14 篇参考资料,这个过程仅仅是为了获取一个笼统却清晰的概念,方便进一步边思考边有针对性地搜索。

由于缺乏 1 月 1 日(休市)的准确收盘价,以及英伟达的数据存在不确定性,它需要再次搜索来确认这两个关键数据点,最后基于现有信息进行合理推断。

最后的结果,也不只是给出投资收益的对比,还对股价波动因素进行分析,并提示了未来的风险,甚至整理成了表格,考虑得颇为周全。

洞察到了我想问但没说出来的问题,把需要「追问」的细节提前融入答案之中,妥妥一个醒目的投资顾问。


最近我计划去新加坡旅游,想知道有没有最优的往返机票方案。

普通 AI 搜索引擎可能一股脑儿搜几百个网页经验帖,然后汇总交差,但豆包新版深度思考则有所不同,它会带着问题思考,拆解几个关键点——出发地、时间、预算等,然后逐步深入分析,形成一个「思考-检索-继续思考」的良性循环。

而这恰恰也说明了豆包的新版深度思考倾向于「思考驱动」而非「搜索驱动」。

换句话说,以前需要照顾 AI 的能力,把大问题拆分为几个小问题,一步步问清楚;可现在完全不用,直接丢出你的需求,剩下的交给豆包就行。

或许正因如此,它的整体响应速度体感上并不慢,体验相当流畅。

有个很现实的问题,没时间看国足比赛怎么办,别急,这时候就可以请出豆包新版深度思考来救场。把你想知道的具体内容告诉豆包,比如比赛结果、关键时刻、球员表现或者规则积分,它就能化身速通大师,省时又高效。

当然,如果不开启深度思考功能,我们会发现,虽然回答依然快刀斩乱麻,效率没得说,但质量明显就差了一截。不仅缺乏更清晰的分点罗列,连逻辑层次感都显得单薄,甚至引用的资料信息更少。

这么一对比,像人类一样思考的重要性就凸显出来了。有了深度思考的加持,它能把答案打磨得更精致、更贴心,条理清晰不说,还能塞满干货,让你读起来既舒服又有收获。

接下来,我们用更贴近个人需求的决策场景来考验它。

对于 iPhone 16e,我们给出的观点是,这是一台酱香型手机,越晚入手越香,那它和 iPhone 16 比,哪个更有性价比,以及如果用腻了,又该换哪款备用机?

就像 Grok DeepSearch 标配的图表一样,豆包新版深度思考也提供了清晰的参数对比,屏幕、芯片、摄像头一目了然,甚至还贴心地准备了数据迁移建议,这贴心程度值得点赞。

逻辑性是豆包新版深度思考回答的最大特点。

针对 Android 备用机推荐问题,它不会一股脑儿抛给你一堆机型名字,而是通过「边想边搜」的迭代循环,针对你可能会用上的使用场景,再一步步搜索、推理,最后奉上一份既有逻辑又实用的推荐清单。

当然,扒蛛丝马迹这种细活儿,还是得交给 AI。

「悟空在第十四回中打死的六个盗贼,分别叫什么名字?该如何理解作者这一情节的安排?」豆包新版深度思考的回答不仅列出具体名字,还融入了佛学和心理学视角,分析得头头是道,时不时冒出几句金句,颇有亮点。

李白、杜甫和白居易是唐代诗人的标志性符号,那他们三者之间是否存在交集?

对于这个问题,在豆包新版深度思考的理解中,这种交集并不局限于现实生活的人际往来,还延伸到了更广阔的文学脉络以及彼此风格与创作上的相互影响。

最后所引用清代赵翼的点评「李杜诗篇万口传,至今已觉不新鲜;江山代有才人出,各领风骚数百年」,恰到好处,为整个分析增添了历史厚重感,也让人读后回味无穷。

从「先搜后想」到「边想边搜」,搜索的未来长什么样?

技术未来学家、Google 工程总监雷·库兹韦尔(Ray Kurzweil),曾在《奇点临近》一书中预测,未来的搜索将像人一样思考,而不是像机器一样索引。如今,这一预言正在成为现实。

之前的 AI 搜索,其「先搜后想」的模式是一个简单粗暴的线性过程:

「输入问题 → 调用搜索工具获取数据 → 基于数据进行推理 → 输出答案。」

这种方法的短板显而易见,非常依赖关键词匹配和网页索引技术,导致信息「广而不深」。

基于深度思考和 DeepSearch 的 AI 搜索已经大大解决了这个问题,AI 能理解自然语言中的复杂语义,比如问它「明天广州适合穿什么衣服?」就可以分析天气数据、时尚趋势、个人偏好等隐藏需求,实现多维信息关联。

而豆包新版深度思考与多轮搜索相结合的模式,进一步补足了深度思考和 DeepSearch 在处理复杂、模糊及动态信息需求时尚存的几块短板。

  1.  一轮搜索无法解决的复杂问题: 更好应对需要多轮信息整合、动态调整策略的复杂任务。在思考过程中多次搜索,让信息持续更新和补充,给出更全面、准确和深入的回答。
  2.  模糊查询与信息关联: 对于一些描述模糊、信息不完整的问题,「边想边搜」让模型在推理过程中不断搜索和验证,逐步缩小范围,找到相关信息
  3. 动态规划与多步骤任务: 在处理需要长期规划或多个步骤的任务时,「边想边搜」能够在每一步骤中进行信息校验和调整,提高了执行任务的成功率。

豆包新版深度思考「边想边搜」的执行路径,让我不禁想起最近常被提及的 Agent。「互联网之父」Berners-Lee 早在多年前就提出:

真正的智能体,就是在每个具体场景中,都能自动完成用户心里想做却没明确说出来的事情。

虽然豆包新版深度思考和 Agent 还有些区别,但某种程度上却是 Agent 工程化思路在搜索上的应用。Agent 自主决策和动态调整,将任务高度自动化,大大减少额外的数据预处理和人为干预。

说白了,就是让 AI 像一个聪明的助手,自己去网上找答案,它能自己动手,自己动脑,找到我们要的东西。用户不需要像喂饭一样把问题拆得细碎,才能得到满意回答。

由此我们也可以推理出 AI 时代理想的搜索过程:

  • 1. 接收并分析用户问题
    用户提出问题后,AI 会先分析问题的内容,拆解其核心需求,并尝试推测用户的真实意图。
  • 2. 自主选择搜索策略
    根据问题的性质,决定是用通用搜索还是直接调用特定专业数据源。它能记住常用工具和 API 的调用方式,直接利用现有网络资源(如站点地图或结构化数据)进行搜索,而非依赖预设流程。
  • 3. 多步骤动态搜索
    搜索不是一次性完成,而是分成多个连续步骤。先发起初步搜索,查看结果后,可能调整关键词、浏览网页深入挖掘,或转向其他数据源,模拟人类在网上探索的过程。
  • 4. 实时优化搜索路径
    在搜索过程中不断学习和判断。如果发现当前方向无效,它会自主放弃并尝试更有效的路径,如同经验丰富的专业人士那样灵活应变。
  • 5. 整合信息并生成结果
    搜集到足够信息后,它还会通过推理将零散内容重新组合,将结果整理成逻辑清晰的总结,确保输出符合用户需求。
  • 6. 记录决策过程
    每一步决策和推理都会留下清晰的记录,增强结果的可解释性,让用户能追溯其搜索逻辑。

如同媒介理论家保罗·莱文森所言,技术进化是人类认知结构的外延。每个时代技术的核心驱动力是信息处理能力的提升,当 AI 以越来越接近人类的思维方式处理信息,重塑的将不仅仅是我们对搜索的习惯。

作者:李超凡、莫崇宇

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


刚刚,OpenAI 一口气发布三个新模型!还为此做了一个新网站

By: 莫崇宇
21 March 2025 at 08:29

就在刚刚,OpenAI 宣布在其 API 中推出全新一代音频模型,包括语音转文本和文本转语音功能,让开发者能够轻松构建强大的语音 Agent。

新产品的核心亮点概述如下

  • gpt-4o-transcribe (语音转文本):单词错误率(WER)显著降低,在多个基准测试中优于现有 Whisper 模型
  • gpt-4o-mini-transcribe (语音转文本):gpt-4o-transcribe 的精简版本,速度更快、效率更高
  • gpt-4o-mini-tts (文本转语音):首次支持「可引导性」(steerability),开发者不仅能指定「说什么」,还能控制「如何说」

据 OpenAI 介绍,新推出的 gpt-4o-transcribe 采用多样化、高质量音频数据集进行了长时间的训练,能更好地捕获语音细微差别,减少误识别,大幅提升转录可靠性。

因此,gpt-4o-transcribe 更适用于处理口音多样、环境嘈杂、语速变化等挑战场景,比如客户呼叫中心、会议记录转录等领域。

gpt-4o-mini-transcribe 则基于 GPT-4o-mini 架构,通过知识蒸馏技术从大模型转移能力,虽然 WER(越低越好)稍高于完整版模型,但仍旧优于原有 Whisper 模型,更适合资源有限但仍需高质量语音识别的应用场景。

这两款模型在 FLEURS 多语言基准测试中的表现超越了现有的 Whisper v2 和 v3 模型,尤其在英语、西班牙语等多种语言上表现突出。

定价方面,GPT-4o-transcribe 与之前的 Whisper 模型价格相同,每分钟 0.006 美元,而 GPT-4o-mini-transcribe 则是前者的一半,每分钟 0.003 美元。

与此同时,OpenAI 还发布了新的 gpt-4o-mini-tts 文本转语音模型。首次让开发者不仅能指定「说什么」,还能控制「如何说」。

具体而言,开发者可以预设多种语音风格,如「平静」、「冲浪者」、「专业的」、「中世纪骑士」等,它还能根据指令调整语音风格,如「像富有同情心的客服 Agent 一样说话」,定价亲民,仅为每分钟 0.015 美元。

安全不能马虎,OpenAI 表示,gpt-4o-mini-tts 将接受持续监控,以保证其输出与预设的合成风格保持一致。

这些技术进步的背后源于 OpenAI 的多项创新:

  • 新音频模型建立在 GPT-4o 和 GPT-4o-mini 架构之上,采用真实音频数据集进行预训练
  • 应用 self-play 方法创建的蒸馏数据集的知识蒸馏方法,实现从大模型到小模型的知识转移
  • 在语音转文本技术中融入强化学习(RL),显著提升转录精度并减少「幻觉」现象。

在凌晨的直播中,OpenAI 向我们展示了一款 AI 时尚顾问 Agent 的应用案例。

当用户询问「我最近的订单是什么?」时,系统流畅回应:用户于 2 月 9 日订购的 Patagonia 短裤已发货,并在后续提问中准确提供了订单号「A.D. 507」。

值得一提的是,OpenAI 演示人员还介绍了两种构建语音 Agent 技术路径,第一种「语音到语音模型」采用端到端的直接处理方式。

系统可直接接收用户语音输入并生成语音回复,无需中间转换步骤。这种方式处理速度更快,已在 ChatGPT 的高级语音模式和实时 API 服务中得到应用,非常适合对响应速度要求极高的场景。

第二种「链式方法」则是本次发布会的重点。

它将整个处理流程分解为三个独立环节:首先使用语音转文本模型将用户语音转为文字,然后由大型语言模型(LLM)处理这些文本内容并生成回应文本,最后通过文本转语音模型将回应转为自然语音输出。

这种方法的优势在于模块化设计,各组件可独立优化;处理结果更稳定,因为文本处理技术通常比直接音频处理更成熟;同时开发门槛更低,开发者可基于现有文本系统快速添加语音功能。

OpenAI 还为这些语音交互系统提供了多项增强功能:

  • 支持语音流式处理,实现连续音频输入和输出
  • 内置噪音消除功能,提升语音清晰度。
  • 语义语音活动检测,能够识别用户何时完成发言
  • 提供追踪 UI 工具,方便开发者调试语音代理

目前,这些全新音频模型已向全球开发者开放。

你还可以在 http://OpenAI.fm 上体验并制作 gpt-4o-mini-tts 的相关音频,这个演示网站可谓是功能齐全,左下角是官方的预设模板,主要包括人设、语气、方言、发音等设置。

我们也实测了一段八百标兵奔北坡的绕口令,emmm,中文效果马马虎虎。至于英文效果,听它念着诗歌,倒是挺有真人那味了,但无论是与此前走红的 Hume AI 亦或者 Sesame 相比,「肉耳可听」地还差点火候。

此外,OpenAI 推出了与 Agents SDK 的集成,进一步简化开发流程。

值得一提的是,OpenAI 还举办了一个广播比赛。用户可以在 http://OpenAI.fm 制作音频,接着使用 OpenAI.fm 上的「分享」按钮生成链接,然后在 X 平台分享该链接。

最具创意的前三名将各获一台限量版 Teenage Engineering OB-4。音频时长建议控制在 30 秒左右,可在语音、表达、发音或剧本语调变化上尽情发挥创意。

实际上,今年 AI 的风向也在悄然发生变化,除了依旧强调智商,还多出一股趋势,强调情感。

GPT-4.5、Grok 3 的卖点是情商,写作更有创意,回应更个性化,而冷冰冰的机器人(智元机器人),也强调更拟人,主打一个情绪价值。

由于直接触及人类最本能的沟通方式,语音领域在这方面的发力则更加显著。

最近在硅谷走红的 Sesame AI 能够实时感知用户情绪,并生成情感共鸣的回应,迅速俘获了一大批用户的心。图灵奖得主 Yann lecun 最近也在强调,未来的 AI 需要拥有情感。

而无论是 OpenAI 今天发布的全新语音模型、还是即将发布的 Meta Llama 4 都有意往原生语音对话靠拢,试图通过更自然的情感交互拉近与用户的距离,靠「人味」圈粉。

AI 需要有人味吗?长期以来。聊天机器人通常被定义为没有情感的工具,它们也会在对话中提醒你,它是一个没有灵魂的模型。然而,我们却往往能从中解读出情绪价值,甚至不自觉地与之建立情感联结。

或许人类天生渴望被理解、被陪伴,哪怕这种理解来自一台机器。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


豆包发布大模型 1.5 Pro ,实测后我发现这个国产 AI 用最「笨」的方法干翻了 GPT-4o

By: 莫崇宇
20 March 2025 at 11:53

这几天海外科技圈最最受关注的有两件事,一个是一众科技大佬齐聚特朗普就职典礼,川普还拉上 OpenAI 软银等公司成立一家叫「星际之门」(Stargate Project)的 AI 公司,未来4年要投资 5000 亿美元,掀起了新一轮 AI 军备竞赛。

另外就是以 DeepSeek R1 为代表的国产推理模型给硅谷 AI 圈带来的震撼,赶超 OpenAI 是所有 AI 公司的课题,但 DeepSeek 只用 2048块GPU、近 600 万美元在 2 个月时间做到。

一些外媒将这波国产 AI 的发布视为中国 AI 逼近甚至赶上美国的标志也并不奇怪,而且这股浪潮还在继续。

今天,字节跳动旗下的豆包大模型 1.5 Pro 模型正式亮相,不仅全面升级了模型的核心能力,也融合并进一步提升了多模态能力,在多项公开评测基准中也是全球领先水平。

豆包团队还强调,模型训练过程中并未使用任何其他模型生成的数据,不走捷径。

这次发布的豆包大模型 1.5 系列产品线包括:

  • Doubao-1.5-pro:多项基准测试综合得分优于 GPT-4o、Claude 3.5 Sonnet 等业界一流模型,创历史最佳成绩
  • Doubao-1.5-lite:用轻量级成本实现旗舰级性能,综合性能持平或超越 GPT-4omini,Cluade 3.5 Haiku。
  • Doubao-1.5-vision-pro:定位专业视觉理解模型,在保持强大性能的同时,回复更简洁友好,多模态能力超越了 GPT-4o-0806
  • Doubao-1.5-realtime-voice-pro:真正实现端到端语音对话,具备低时延、对话中可随时打断、自然的情绪表达等特性,即将开放 API 服务

字节团队告诉 APPSO,Doubao-1.5-pro 目前已经在豆包 APP 灰度上线,由于对话是先接意图识别,所以用户大概率没法确定在使用时是否分流到 1.5 Pro,而开发者也可在火山引擎直接调用 API。

附上体验链接:https://www.volcengine.com/

漂亮的参数背后是否有真材实料?我们也第一时间在火山引擎体验了豆包大模型 1.5 系列。

先来看看 Doubao-1.5-pro-32k 模型。尽管「9.11 和 9.8 哪个大」以及「Strawberry 里有几个 r」已经是常规测试环节了,但我们还是要走一遍流程,而模型都顺利通过了考验。

接下来,我们向模型提出了一个较有挑战性的问题——寻找古代名人中姓名末字与「峰」字发音接近的例子。

前半部分答案倒是表现出色,精确识别了与「峰」字发音相近的韵母(eng、ong),但后半段的关联性却显得较为牵强。

继续上一道电车难题,这个涉及道德伦理的经典思考题,考验的不仅是模型的逻辑分析能力,更是其对复杂道德议题的理解深度。而 Doubao-1.5-pro-32k 并没有简单给出答案,分析深入透彻,指出这类问题并无标准答案,不同的道德观念和个人价值观会导致不同的决策。

在完成上述测试后,我们将目光转向了更强大的 Doubao-1.5-pro-256k 模型。

这是一款基于 Doubao-1.5-Pro 全面升级版的模型,整体效果大幅提升 10%,支持 256k 上下文窗口的推理,输出长度支持最大 12k tokens。

为测试其解题能力,我们提出了一个古早的经典逻辑推理题,它的回答再次展现出了清晰的思维逻辑。

「据说有人给酒肆的老板娘出了一个难题:此人明明知道店里只有两个舀酒的勺子,分别能舀 7 两和 11 两酒,却硬要老板娘卖给他 2 两酒。聪明的老板娘毫不含糊,用这两个勺子在酒缸里舀酒,并倒来倒去,居然量出了 2 两酒,请问是怎么做到的」

那文本功底如何呢?我们也让它创作一出剧本。题材是 2015 年 44 岁的埃隆·马斯克与前 Google CEO 拉里·佩奇关于「AI 是否最终会取代人类」的对话。

与 GPT-4o 的回答相比,Doubao-1.5-pro-256k 的剧本创作更加细腻生动,不仅有具体的景别设计、画面描述,还包含了细致的台词和时长安排。如果你是一位经常需要编写剧本的创作者,那选谁作为你的剧本 AI 搭子应该不用多说了吧。

而这种出色的创作能力,仅仅是豆包实力的一个缩影。实际上,此次更新中,Doubao-1.5-Pro 基础模型能力获得全面提升,这一点从其在各大公开评测基准上的表现就可见一斑。

Doubao-1.5-pro 采用稀疏 MoE 架构实现了多项技术突破:通过深入研究稀疏度 Scaling Law,将性能杠杆从业界普遍的3倍提升至7倍,用仅占稠密模型七分之一的参数量就超越了 Llama-3.1-405B 等大模型的性能。

在训练流程上,团队坚持完全自主的数据标注路线,通过算法驱动的数据优化系统和 Verifier 与 Reward Model 的深度融合,建立了统一的评价框架。

豆包选择了一条最艰难但最踏实的那条路,这也是这次技术突破值得夸赞的地方。

据悉,字节研究团队通过高效标注团队与模型自提升相结合的方式持续优化数据质量,严格遵循内部标准,坚持不走捷径,不使用任何其他模型的数据,确保数据来源的独立性和可靠性。

并且,在 RL 阶段突破了价值函数训练难点,高难度任务性能提升超过10个百分点,并通过用户反馈闭环持续优化模型表现。这些创新使模型在保持高性能的同时大幅提升了效率。

Doubao-1.5-pro 在多模态能力上实现了全面升级,通过原生动态分辨率架构支持百万级分辨率和任意长宽比图像处理,实现了精准的特征提取。

豆包团队自研的支持动态分辨率的 Doubao ViT 在多种视觉分类任务中表现优异,仅凭 2.4B 规模便在综合评分上取得 SOTA 表现,效果超越 7 倍于自身规模的模型。

在数据训练方面,模型采用了多样化的合成管线,结合搜索引擎的图文数据、渲染引擎和传统 CV 模型等多种方式生成高质量预训练数据。

通过在 VLM 训练阶段混入纯文本数据并动态调整学习率,模型实现了视觉和语言能力的平衡。

在语音领域,团队创新性地提出了 Speech2Speech 端到端框架,突破了传统 ASR+LLM+TTS 的级联模式,将语音和文本模态进行深度融合,显著提升了对话效果。

Doubao-1.5-pro 在语音和推理能力上取得重大突破:模型创新性地将语音和文本 Token 直接融合,摒弃了传统的语音文本对齐方法,为语音多模态数据的 Scaling 奠定基础。

在推理领域,通过大规模 RL 方法和 Test Time Scaling 的算力优化,团队研发出 Doubao 深度思考模式。

最新的 Doubao-1.5-pro-AS1-Preview 版本在 AIME 基准测试中已超越 o1-preview、o1 等主流推理模型,通过持续的 RL 优化,模型的推理能力在多个领域展现出强大的泛化性。

从这一系列突破性进展来看,豆包无疑交出了一份令人满意的答卷。更何况,在当前「模型喂模型」盛行的环境下,坚持原创的定力和勇气本身就值得赞赏。

通过始终如一的自主研发、原创数据和持续优化,豆包用实际成果证明了「慢工出细活」的价值。或许我们都应该牢记,AI 赛道最大的弯道超车,应该是坚持不走捷径。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


刚刚,黄仁勋甩出三代核弹 AI 芯片!个人超算每秒运算 1000 万亿次,DeepSeek 成最大赢家

By: 莫崇宇
19 March 2025 at 07:04

英伟达 GTC 大会已经成了 AI 界超级碗,没有剧本也没有提词器,中途黄仁勋被线缆卡住,反而是这场高浓度 AI 发布会里最有人味的片段,在当今提前基本提前彩排或录播的科技发布会里已经很稀缺了。

刚刚,黄仁勋再次发布了全新一代核弹级 AI 芯片,不过这场发布会的还有个隐藏主角——DeepSeek。

由于智能体 AI(Agentic AI)和推理能力的提升,现在所需的计算量至少是去年此时预估的 100 倍。

推理成本效率给 AI 行业带来影响,而不是简单地堆积计算能力,成为贯穿这场发布会的主线。英伟达要变成 AI 工厂,让 AI 以超越人类的速度学习和推理。

推理本质上是一座工厂在生产 token,而工厂的价值取决于能否创造收入和利润。因此,这座工厂必须以极致的效率打造。

黄仁勋掏出的英伟达新「核弹」也在告诉我们,未来的人工智能竞争不在于谁的模型更大,而在于谁的模型具有最低的推理成本和更高推理的效率。

除了全新 Blackwell 芯片,还有两款「真·AI PC」

全新的 Blackwell 芯片代号为「Ultra」,也就是 GB300 AI 芯片,接棒去年的「全球最强 AI 芯片」B200,再一次实现性能上的突破.

Blackwell Ultra 将包括英伟达 GB300 NVL72 机架级解决方案,以及英伟达 HGX B300 NVL16 系统。

Blackwell Ultra GB300 NVL72 将于今年下半年发布,参数细节如下:

  • 1.1 EF FP4 Inference:在进行 FP4 精度的推理任务时,能够达到 1.1 ExaFLOPS(每秒百亿亿次浮点运算)。
  • 0.36 EF FP8 Training:在进行 FP8 精度的训练任务时,性能为 1.2 ExaFLOPS。
  • 1.5X GB300 NVL72:与 GB200 NVL72 相比,性能为 1.5 倍。
  • 20 TB HBM3:配备了 20TB HBM 内存,是前代的 1.5 倍
  • 40 TB Fast Memory:拥有 40TB 的快速内存,是前代的 1.5 倍。
  • 14.4 TB/s CX8:支持 CX8,带宽为 14.4 TB/s,是前代的 2 倍。

单个 Blackwell Ultra 芯片将和前代一样提供相同的 20 petaflops(每秒千万亿次浮点运算) AI 性能,但配备更多的 288GB 的 HBM3e 内存。

如果说 H100 更适合大规模模型训练,B200 在推理任务中表现出色,那么 B300 则是一个多功能平台,预训练、后训练和 AI 推理都不在话下。

英伟达还特别指出,Blackwell Ultra 也适用于 AI 智能体,以及用于训练机器人和汽车自动驾驶的「物理 AI」。

为了进一步增强系统性能,Blackwell Ultra 还将与英伟达的 Spectrum-X 以太网和英伟达 Quantum-X800 InfiniBand 平台集成,为系统中的每个 GPU 提供 800Gb/s 的数量吞吐量,帮助 AI 工厂和云数据中心能够更快处理 AI 推理模型。

除了 NVL72 机架,英伟达还推出了包含单个 GB300 Blackwell Ultra 芯片的台式电脑 DGX Station。Blackwell Ultra 之外,这个主机还将配备 784GB 的同一系统内存,内置 800Gbps 英伟达 ConnectX-8 SuperNIC 网络,能够支持 20 petaflops 的 AI 性能。

而之前在 CES 2025 展示的「迷你主机」Project DIGITS 也正式被命名为 DGX Spark,搭载专为桌面优化的 GB10 Grace Blackwell 超级芯片,每秒可提供高达 1000 万亿次 AI 计算操作,用于最新 AI 推理模型的微调和推理,包括 NVIDIA Cosmos Reason 世界基础模型和 NVIDIA GR00T N1 机器人基础模型。

黄仁勋表示,借助 DGX Station 和 DGX Spark,用户可以在本地运行大模型,或者将其部署在 NVIDIA DGX Cloud 等其他加速云或者数据中心基础设施上。

这是 AI 时代的计算机。

DGX Spark 系统现已开放预订,而 DGX Station 预计将由华硕、戴尔、惠普等合作伙伴于今年晚些时候推出。

下一代 AI 芯片 Rubin 官宣,2026 年下半年推出

英伟达一直以科学家的名字为其架构命名,这种命名方式已成为英伟达文化的一部分。这一次,英伟达延续了这一惯例,将下一代 AI 芯片平台命名为「Vera Rubin」,以纪念美国著名天文学家薇拉·鲁宾(Vera Rubin)。

黄仁勋表示,Rubin 的性能将达到 Hopper 的 900 倍,而 Blackwell 相较 Hopper 已实现了 68 倍的提升。

其中,Vera Rubin NVL144 预计将在 2026 年下半年发布。参数信息省流不看版:

  • 3.6 EF FP4 Inference:在进行 FP4 精度的推理任务时,能够达到 3.6 ExaFLOPS(每秒百亿亿次浮点运算)。
  • 1.2 EF FP8 Training:在进行 FP8 精度的训练任务时,性能为 1.2 ExaFLOPS。
  • 3.3X GB300 NVL72:与 GB300 NVL72 相比,性能提升了 3.3 倍。
  • 13 TB/s HBM4:配备了 HBM4,带宽为 13TB/s。
  • 75 TB Fast Memory:拥有 75 TB 的快速内存,是前代的 1.6 倍。
  • 260 TB/s NVLink6:支持 NVLink 6,带宽为 260 TB/s,是前代的 2 倍。
  • 28.8 TB/s CX9:支持 CX9,带宽为 28.8 TB/s,是前代的 2 倍。

标准版 Rubin 将配备 HBM4,性能比当前的 Hopper H100 芯片大幅提升。

Rubin 引入名为 Grace CPU 的继任者——Veru,包含 88 个定制的 Arm 核心,每个核心支持 176 个线程,并通过 NVLink-C2C 实现 1.8 TB/s 的高带宽连接。

英伟达表示,定制的 Vera 设计将比去年 Grace Blackwell 芯片中使用的 CPU 速度提升一倍。

与 Vera CPU 搭配时,Rubin 在推理任务中的算力可达 50 petaflops,是 Blackwell 20 petaflops 的两倍以上。此外,Rubin 还支持高达 288GB 的 HBM4 内存,这也是 AI 开发者关注的核心规格之一。

实际上,Rubin 由两个 GPU 组成,而这一设计理念与当前市场上的 Blackwell GPU 类似——后者也是通过将两个独立芯片组装为一个整体运行。

从 Rubin 开始,英伟达将不再像对待 Blackwell 那样把多 GPU 组件称为单一 GPU,而是更准确地按照实际的 GPU芯 片裸片数量来计数。

互联技术也升级了,Rubin 配备第六代 NVLink,以及支持 1600 Gb/s 的 CX9 网卡,能够加速数据传输并提升连接性。

除了标准版 Rubin,英伟达还计划推出 Rubin Ultra 版本。

Rubin Ultra NVL576 则将于 2027 年下半年推出。参数细节如下:

  • 15 EF FP4 Inference:在 FP4 精度下进行推理任务时,性能达到 15 ExaFLOPS。
  • 5 EF FP8 Training:在 FP8 精度下进行训练任务时,性能为 5 ExaFLOPS。
  • 14X GB300 NVL72:相比 GB300 NVL72,性能提升 14 倍。
  • 4.6 PB/s HBM4e:配备 HBM4e 内存,带宽为 4.6 PB/s。
  • 365 TB Fast Memory:系统拥有 365 TB 的快速内存,是前代的 8 倍。
  • 1.5 PB/s NVLink7:支持 NVLink 7,带宽为 1.5 PB/s,是前代的 12 倍。
  • 115.2 TB/s CX9:支持 CX9,带宽为 115.2 TB/s,是前代的 8 倍。

在硬件配置上,Rubin Ultra 的 Veras 系统延续了 88 个定制 Arm 核心的设计,每个核心支持 176 个线程,并通过 NVLink-C2C 提供 1.8 TB/s 的带宽。

而 GPU 方面,Rubin Ultra 集成了 4 个 Reticle-Sized GPU,每颗 GPU 提供 100 petaflops 的 FP4 计算能力,并配备 1TB 的 HBM4e 内存,在性能和内存容量上都达到了新的高度。

为了在瞬息万变的市场竞争中站稳脚跟,英伟达的产品发布节奏已经缩短至一年一更。发布会上,老黄也正式揭晓下一代 AI 芯片的命名——物理学家费曼(Feynman)。

随着 AI 工厂的规模不断扩大,网络基础设施的重要性愈发凸显。

为此,英伟达推出了 Spectrum-X™ 和 Quantum-X 硅光网络交换机,旨在帮助 AI 工厂实现跨站点连接数百万 GPU,同时显著降低能耗和运营成本。

Spectrum-X Photonics 交换机具有多种配置,包括:

  • 128 端口 800Gb/s或 512 端口 200Gb/s 配置,总带宽达 100Tb/s
  • 512 端口 800Gb/s或 2048 端口200Gb/s配置,总吞吐量达 400Tb/s

与之配套的 Quantum-X Photonics 交换机则基于 200Gb/s SerDes 技术,提供 144 端口 800Gb/s 的 InfiniBand 连接,并采用液冷设计高效冷却板载硅光子组件

与上一代产品相比,Quantum-X Photonics 交换机为 AI 计算架构提供 2 倍速度和 5 倍可扩展性。

Quantum-X Photonics InfiniBand 交换机预计于今年晚些时候上市,而 Spectrum-X Photonics 以太网交换机预计将于 2026 年推出。

随着 AI 的快速发展,对数据中心的带宽、低延迟和高能效需求也急剧增加。

英伟达 Spectrum-X Photonics 交换机采用了一种名为 CPO 的光电子集成技术。其核心是将光引擎(就是能处理光信号的芯片)和普通的电子芯片(比如交换芯片或 ASIC 芯片)放在同一个封装里。

这种技术的好处很多:

  • 传输效率更高:因为距离缩短,信号传输更快。
  • 功耗更低:距离短了,传输信号需要的能量也少了。
  • 体积更小:把光和电的部件集成在一起,整体体积也变小了,空间利用率更高。

AI 工厂的「操作系统」Dynamo

未来将没有数据中心,只有 AI 工厂。

黄仁勋表示,未来,每个行业、每家公司拥有工厂时,都将有两个工厂:一个是他们实际生产的工厂,另一个是 AI 工厂,而 Dynamo 则是专门为「AI 工厂」打造的操作系统。

Dynamo 是一款分布式推理服务库,为需要 token 但又无法获得足够 token 的问题提供开源解决方案。

简单来说,Dynamo 有四个方面的优势:

  •  GPU 规划引擎,动态调度 GPU 资源以适应用户需求
  • 智能路由器,减少 GPU 对重复和重叠请求的重新计算,释放更多算力应对新的传入请求
  • 低延迟通信库,加速数据传输
  • 内存管理器,智能在低成本内存和存储设备中的推理数据

人形机器人的露脸环节,永远不会缺席

人形机器人再一次成为了 GTC 大会的压轴节目,这次英伟达带来了 Isaac GR00T N1,全球首款开源人形机器人功能模型。

黄仁勋表示,通用机器人技术的时代已经到来,借助 Isaac GR00T N1 核心的数据生成以及机器人学习框架,全球各地的机器人开发人员将进入 AI 时代的下一个前沿领域。

这个模型采用「双系统」架构,模仿人类的认知原理:

  • 系统 1:快速思考的动作模型,模仿人类的反应或直觉
  • 系统 2:慢思考的模型,用于深思熟虑的决策。

在视觉语言模型的支持下,系统 2 对环境和指令进行推理,然后规划动作,系统 1 将这些规划转化为机器人的的动作。

GR00T N1 的基础模型采用广义类人推理和技能进行了预训练,而开发人员可以通过真实或合成数据进行后训练,满足特定的需求:既可以完成工厂的特定任务,也可以在家里自主完成家务。

黄仁勋还宣布了与 Google DeepMind 和 Disney Research 合作开发的开源物理引擎 Newton。

一台搭载 Newton 平台的机器人也登上了舞台,黄仁勋称之为「Blue」,外观神似《星球大战》中的 BDX 机器人,能够用声音和动作和黄仁勋互动。

8 块 GPU,DeepSeek-R1 推理速度创全球之最

英伟达实现了全球最快的 DeepSeek-R1 推理。

官网显示,一台搭载 8 个 Blackwell GPU 的 DGX 系统,在运行 6710 亿参数的 DeepSeek-R1 模型时,可实现每用户每秒超过 250 个 token 的速度,或达到最高吞吐量每秒超过 30000 个 token。

通过硬件和软件的结合,自今年 1 月以来,英伟达在 DeepSeek-R1 671B 模型上的吞吐量提升了约 36 倍,每 token 的成本效率提高了约 32 倍。

为了实现这一成就,英伟达完整的推理生态系统已针对 Blackwell 架构进行了深度优化,不仅整合 TensorRT-LLM、TensorRT Model Optimizer 等先进工具,还无缝支持 PyTorch、JAX 和 TensorFlow 等主流框架。

在 DeepSeek-R1、Llama 3.1 405B 和 Llama 3.3 70B 等模型上,采用 FP4 精度的 DGX B200 平台相较于 DGX H200 平台,推理吞吐量提升超过 3 倍。

值得注意的是,此次发布会的主题演讲并未提及量子计算,但英伟达特意在这届 GTC 大会设置了量子日,邀请了多家当红量子计算公司的 CEO 出席。

要知道黄仁勋年初一句「量子计算还需 20 年才实用」的论断犹在耳畔。

一改口风的背后,离不开微软耗时 17年研发的拓扑量子芯片 Majorana 1 实现 8 个拓扑量子比特集成,离不开 Google Willow 芯片宣称用 5 分钟完成经典计算机需 10^25 年处理的任务,推动了量子计算的热潮。

芯片无疑是重头戏,但一些软件的亮相同样值得关注。

硅谷著名投资人马克·安德森曾提出软件正在吞噬世界(Software is eating the world)的论断,其核心逻辑在于软件通过虚拟化、抽象化和标准化,正在成为控制物理世界的基础设施。

不满足于做「卖铲人」,英伟达的野心是打造 AI 时代的「生产力操作系统」。从汽车智能驾驶,到制造业的数字孪生工厂,这些贯穿整场发布会的案例都是将 GPU 算力转化为行业生产力的具象化表达。

实际上,无论是发布会上亮相的最新核弹芯片,还是押注战未来的量子计算,黄仁勋在这场发布会上对 AI 未来发展的洞察和布局,都比当下的技术参数与性能指标更具看点。

在介绍 Blackwell 与 Hopper 架构的对比时,黄仁勋还不忘幽默一把。

他以一个 100MW 工厂的对比数据为例,指出采用 Hopper 架构需要 45,000 颗芯片和 400 个机架,而 Blackwell 架构凭借更高的效率显著减少了硬件需求。

于是,黄仁勋那句经典的总结再次抛出,「the more you buy, the more you save」(买得越多,省得越多)。」随后话锋一转,他又补充说,「the more you buy, the more you make」(买得越多,赚得越多)。

随着 AI 领域的重心从训练转向推理,英伟达更需要证明其软硬件生态在推理场景的不可替代性。

一方面,Meta、Google 等巨头自研 AI 芯片,可能分流 GPU 市场需求。

另一方面,英伟达最新 AI 芯片的适时亮相,回应如 DeepSeek 的开源模型对 GPU 需求的冲击,并展示推理领域技术优势,也是为了对冲市场对训练需求见顶的担忧。

最近估值跌至 10 年低位的英伟达,比以往任何时候都需要一场酣畅淋漓的胜利。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


首发体验|百度连发两个新模型对标DeepSeek,我让它挑西瓜、卖烧烤,细节全在这了

By: 莫崇宇
16 March 2025 at 09:55

如果说去年没有自研类 GPT-4 模型是寸步难行,那么今年 AI 的发展方向愈发具象化——没有深度推理模型同样是万万不能。

这也激发了大厂在 AI 叙事的新一轮竞赛,除了接入 DeepSeek ,腾讯元宝、阿里夸克等都密集推出自己的深度思考模式,争夺 AI 时代的超级应用。

百度也不例外,自年初以来,旗下百度文库、文小言 App 等产品陆续整合了 DeepSeek-R1 模型。

当然,自研模型与接入 DeepSeek 并非对立的选择,也无需在二者间做非此即彼的取舍。

在文心一言初次亮相两周年之际,百度今天正式发布了文心大模型 4.5 以及深度思考模型 X1,APPSO 也受邀提前进行了体验。

简单概括这两款模型的「人设」:

  • ⽂⼼⼤模型 4.5:原⽣多模态基础⼤模型,擅长生成或解读图片、解答问题
  • 深度思考 X1:深度思考模型,支持多⼯具调⽤

两款模型已在文心一言官网上线,附上免费使用🔗

https://yiyan.baidu.com

挑西瓜、懂梗图、辨古画,文心 4.5 的多模态能力到底有多强?

先说文心 4.5,作为原⽣多模态基础⼤模型,它在多模态识别理解能力上给了我不少惊喜。

面对经典的挑西瓜环节,文心 4.5 给出了颜色、条纹、声音、瓜地等多种判断依据,但作为一个成熟且务实的 AI 老瓜农,它也没敢把话说死。

话糙理不糙,只有切开尝过才知道哪个西瓜最甜。

在识别「梗图」方面,文心 4.5 也手拿把掐。扔一张表情包试试水,它成功识别了这个猪猪侠的身份,而在另一张表情包的识别上,文心 4.5 不仅读懂字面意思,还能准确捕捉到背后的隐喻和言外之意。

这里有个小窍门,除了基本的分享功能,它的回答还能一键存百度网盘,或者自动生成文档,遇到 AI 的神回复还能随时收藏,操作衔接相当丝滑。

再考考理解力,脑筋急转弯走起。

「有一个字,人人见都会念错?是什么字?」这题它轻松拿下,没有被绕进去,逻辑推理过程条理清晰,还顺手抛出几个贴合主题的追问。

9.8 和 9.11 哪个大?小菜一碟。然而,我连续测试了几次「Strawberry 里有几个 r」,它的自信溢出屏幕,但也都接连翻车了。

来道能同时考究运算能力和图片识别能力的物理题。它先淡定分析结构,再逐一拆解选项,最后稳稳锁定正确答案 D,过程有理有据,颇有几分「物理课代表」的风采。

 

日常生活中,我经常会碰到一些不知出处的古画或者电影截图,最惯常的做法就是在社交平台上发帖和在评论区求助热心网友,现在或许可以丢给文心 4.5 试试。

经过测试,即便关闭联网搜索功能,它依然能一一精确作答。

除了图片,音频识别也不含糊,比如我随手用手机录了段《晴天》,它靠歌词秒认出歌曲,不过,碰上一些过于冷门小众的歌曲,就不太能指望它。

另外,不管是上传科技行业报告,还是前阵子李飞飞在 X 平台公开的那段 44 秒机器人最新成果演示视频,文心 4.5 的总结能力都让人挑不出毛病。

去年 11 月份,百度发布了检索增强的文生图技术 iRAG 技术,主打一个无幻觉,超真实。

其核心原理是将百度搜索的亿级图片资源与强大的基础模型能力相结合,通过检索真实可靠的图片数据,为生成图像提供精准的参考。现在文心 4.5 同样支持生成图片。

比方说,最近特斯拉市值波动剧烈。于是,我给世界首富马斯克谋了条出路,让文心 4.5 生成一张「马斯克夜晚摆摊卖烧烤」的照片,

烧烤摊还差个照片,别急,它还支持局部重绘功能,细节调整很人性化。

不过,它在生成文字上还有待改进,比方说,我想给马斯克「重绘」一个「马氏招牌」,要么文字模糊难以辨认,要么位置偏差,几轮尝试下来均以失败告终。

慢思考≠慢,X1 打开深度推理模型的正确使用方式?

再来说说,百度今天推出的深度推理模型 X1,这显然是对标 DeepSeek R1 的一款模型。

据官方介绍,⽂⼼⼤模型 X1 由百度 2023 年 10 ⽉发布的慢思考技术进化而来,理解、规划、反思、进化能力全面拉满,还支持多模态。

赶时间,把问题交给文心 4.5,复杂长任务则由深度推理能力更强的 X1 负责。

拿推荐广州美食这事来说,文心 4.5 只是潦草回答一些笼统的美食称呼,比如「肠粉」之类敷衍了事,而 X1 直接化身「贴心导游」,店名+地址一条龙奉上,更懂游客的心思。

面对经典的电车难题,X1 的思考时间并不算慢,分析得头头是道,还从不同伦理体系的角度聊了聊结果,深度和广度都在线。

再来一道更复杂的逻辑推理题,X1 的表现也可圈可点。

多⼯具调⽤是⽂⼼ X1 的特⾊之⼀。

官方表示,X1 目前已经解锁高级搜索、文档问答、图片理解、AI 绘图、代码解释器等多款工具。

我突发奇想,上传了一张心形图片,图片中实则嵌着一个数学公式,看似简单却颇具挑战性,毕竟从图像中提取数学信息需要较高的视觉理解和逻辑处理能力。

至于结果嘛,它顺利提取出公式内容,还解释了这个公式的含义。

复杂的文字生成能力也是 X1 的亮点,我首先要求 X1 生成一个 500 字的剧本,主题是「林黛玉倒拔垂杨柳」,剧本「以柔克刚」,保留了林黛玉的性格特征,还融入了戏剧化的冲突与转折。

紧接着,我进一步要求 X1 从心理学的角度分析这个剧本,并在此基础上润色出一版 1000 字的新剧本。

这次的任务显然更复杂,X1 运用的理论得当,虽然不算特别深刻,但对于一个 AI 模型来说,能在短时间内完成如此跨学科的解读,已属难能可贵。当然,也不是没有缺点,字数就没达到要求。

就回复而已,相比于 Deepseek 满嘴「通货膨胀」的社科黑话,X1 在语言输出上显然比较克制,表达更流畅也更接地气,多了一些直抵人心的温度。

DeepSeek 则以全面的思考见长,追求技术深度和思维广度,但语言上稍显疏远。

最近,科技博主 Alexander Doria 抛出个观点—— AI 领域的下一个发展周期将是「模型本身即产品」,谁能搞定模型训练,谁就握住了未来。

他还引用了 Databricks 投资人 Naveen Rao 的预测:

「未来 2-3 年,闭源 AI 提供商将停掉 API 服务,只有开源模型会继续提供 API,闭源公司会转而打造更独特的能力。」

反观国内市场,百度的表现颇具代表性。

自两年前文心一言发布以来,百度在自研模型上的投入持续加码,迭代节奏稳定,文心 4.5 和 X1 的亮相,同样是「模型即应用」趋势的最佳注脚。

前者靠万亿参数直击多模态能力,后者凭慢思考和多工具调用秀出推理肌肉。这种差异化的能力布局,精准契合了用户多样化的需求,更让模型本身从单纯的技术内核转变为可以直接上手使用的「产品」。

回溯历史,百度在搜索时代的技术积累和移动互联网时期的转型尝试,都曾让其站在风口之上,但也因节奏把握或市场竞争而错失一些先机。

映照当下,如果将 AI 比作「火种」,两年前的百度无疑是中国市场上最懂得用火的「普罗米修斯」。但奈何与过往一般,作为中国 AI「黄埔军校」的百度,却是起了个大早,赶了个晚集。

这离不开 AI 行业生态的潮水流动。

OpenAI CEO Sam Altman 曾在上月预测,使用固定级别 AI 的成本大约每 12 个月骤降 90%。

成本的快速下降削弱了闭源模式赖以生存的高壁垒,使得技术垄断的护城河逐渐变浅。与此同时,开源与免费的模式因其低门槛和高可及性,成为吸引用户、扩大技术影响力的新路径。

DeepSeek 和 Manus 接连在短时间快速渗透,也说明了目前 AI 产品还没有显著的壁垒,哪个体验更好用户就转向哪个,不会有一点留恋。

无论对于百度还是其他大厂,抑或独立开发者,似乎又回到了移动互联网兴起的草莽时代。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


英特尔官宣史上首位华人 CEO,芯片三巨头由华人掌舵

By: 莫崇宇
13 March 2025 at 11:28

靴子落定,空悬了三个月之后,英特尔迎来了新的掌舵人。

英特尔官方宣布,董事会一致通过任命资深科技领袖、半导体行业专家陈立武(Lip-Bu Tan)为新任首席执行官,这一任命将于 2025 年 3 月 18 日正式生效。

他将接替临时联席首席执行官 David Zinsner 和 Michelle Johnston Holthaus 的职责。与此同时,陈立武还将重返英特尔董事会。此前,他曾在去年 8 月卸任董事一职。值得注意的是,陈立武也将成为英特尔有史以来首位华人 CEO。

目前,英特尔的原有核心班底暂未发生变动:

  • David Zinsner 将继续担任执行副总裁兼首席财务官。
  • Michelle (MJ) Johnston Holthaus 将继续担任英特尔产品首席执行官。
  • Frank D. Yeary 将恢复独立董事会主席的身份。

陈立武的入主,标志着一个引人注目的历史性时刻。至此,芯片行业三大巨头(英伟达的黄仁勋、AMD 的苏姿丰,以及英特尔的陈立武),全部由华人执掌。

对于此次任命,陈立武表示:

我很荣幸加入英特尔并担任首席执行官。我对这家具有标志性意义的公司怀有极大的敬意和钦佩,并且我看到了巨大的机遇,可以重塑我们的业务,以更好地服务客户,并为股东创造价值。

事实上,早在去年 12 月前任首席执行官帕特·基辛格(Pat Gelsinger)离职后,陈立武就一直是接任英特尔 CEO 的热门人选。当时,英特尔便询问他是否愿意接手这一重任。

65 岁,正是闯的年纪。

公开资料显示,现年 65 岁的陈立武出生于马来西亚,曾在新加坡南洋理工大学学习物理,同时拥有麻省理工学院核工程硕士学位和旧金山大学工商管理硕士学位。

作为一位长期活跃的技术投资者,他职业生涯横跨多个领域。自 1984 年起,他一直担任总部位于旧金山的风险投资公司 Walden International 的董事长。

陈立武拥有 20 多年的半导体和软件行业经验,并与英特尔生态系统建立了深厚的联系。

2009 年至 2021 年,他曾领导英特尔供应商兼芯片设计公司 Cadence Design Systems ,并推动了以客户为中心的创新文化转型。

他曾在 Cadence 董事会任职 19 年,自 2004 年被任命以来,持续领导公司至 2021 年卸任,随后担任执行董事长直至 2023 年。在他执掌 Cadence 期间,公司收入增长超过两倍,营业利润率显著提升,股价更是飙升超过3200%。

此外,他也曾担任惠普企业和软银集团的董事会成员。

2022 年,陈立武被任命为英特尔董事会成员,也正是在这一年,他荣获半导体行业协会(SIA)最高荣誉——罗伯特·诺伊斯(Robert N. Noyce)奖。

这一奖项以英特尔联合创始人、「硅谷之父」罗伯特·诺伊斯的名字命名,通常授予在科技、工程或教育领域作出杰出贡献的人物。

2023 年,英特尔进一步扩大了他的职责范围,包括监督公司的制造业务。然而,由于在如何扭转公司局势的问题上与管理层存在分歧,他于去年辞去董事会职务。

如今,陈立武接手的英特尔正处于历史上最为艰难的时期之一。

过去一年,英特尔的股价已下跌超过一半。

公司财报显示,截至去年 12 月 31 日,其代工部门的房地产及设备账面价值高达 1080 亿美元,但 2024 年公司净亏损达到 188 亿美元,这是自 1986 年以来首次出现亏损,主要源于大规模资产减值。

2023 年,英特尔实施了 5% 的裁员计划。到了去年,裁员规模扩大至 15% 以上,并计划持续贯穿 2024 年下半年。手起刀落之间,超过 15000 人遭到裁员。

大裁员只是计划中的一小部分,幸运留下的员工,也将面临勒紧裤腰带的日子:营销、行政费用、非研发费用,所有开支至少要削减100亿,逐年递减。

据外媒 Fortune 指出,近年来,英特尔最大的问题在于在各种选择之间摇摆不定,试图兼顾所有方向:

  • 英特尔到底是芯片设计公司,还是芯片制造公司?
  • 它的核心是 x86 架构,还是应该像其他芯片公司一样灵活采用不同架构?
  • 它是专注于 PC 和服务器芯片的公司,还是进军 AI 芯片领域?

而陈立武本人的经历似乎正是英特尔这种摇摆不定的缩影。

凭借丰富的背景,陈立武对芯片设计和制造均有深刻理解。他曾在 Cadence 领导芯片设计软件业务,同时与晶圆厂保持密切合作。

如果英特尔选择了一位财务背景的 CEO,那么拆分英特尔制造业务、让公司一分为二(正如部分前董事所主张的),几乎是板上钉钉的事情。

反之,如果英特尔选了一位深耕公司多年的老将,如前 CEO 克雷格·贝瑞特(Craig Barrett),那么英特尔则可能坚定维持统一的整体架构。

陈立武的任命,似乎是介于这两者之间的一种折中方案。

包括就在最近,他在一封致英特尔员工的信中明确表示,不会拆分公司的设计与制造业务。与之呼应的消息是,据路透社援引四位知情人士透露,台积电已向英伟达、AMD 和博通提出入股建议,计划参与一家运营英特尔工厂的合资企业。

根据提案,台积电将负责英特尔代工部门的运营,该部门专注于为客户定制芯片,但台积电的持股比例不会超过50%。此外,一位消息人士和另一独立来源透露,高通也收到了台积电的入股邀请。

目前,已有多家公司对收购英特尔部分业务表现出兴趣。但两位消息人士表示,英特尔拒绝了将其芯片设计部门单独出售、与代工业务分离的提议。

另据消息人士透露,高通已退出此前关于收购英特尔全部或部分业务的谈判。尽管英特尔董事会支持与台积电的交易并已展开谈判,但部分高管对此强烈反对。

英特尔代工业务是前 CEO 基辛格扭转公司战略的重要举措。

英特尔长期以来依赖其核心的 x86 架构芯片业务,但随着市场需求的多样化和技术的快速迭代,单一业务模式面临风险。据路透社上周报道,英伟达和博通正在使用英特尔最先进的 18A 制程进行生产测试。

AMD 也在评估 18A 工艺是否适用于其产品线。

在 2 月的谈判中,英特尔高管向台积电表示,其 18A 制程技术优于台积电的 2 纳米工艺。通过开放晶圆代工服务,英特尔不仅能够利用自身先进的制造能力获取更多收入,还能与全球客户建立更紧密的合作关系。

陈立武会做出怎样的抉择,能否带领英特尔重回巅峰?让我们拭目以待。

另外,英特尔官网显示,陈立武向英特尔公司全体员工发送了以下邮件:

陈立武:重塑英特尔,迎接未来

团队成员们,

我深感荣幸,也倍感谦卑,能成为你们的新任 CEO。

英特尔是一家我仰慕已久的公司。自孩提时代起,科学、技术和工程的力量便深深吸引着我,而英特尔的创新始终站在改变世界的前沿,引领着众多突破性的进展。

当然,我们都清楚,过去的成就并不代表未来的成功,尤其是在我们这样一个充满活力、竞争激烈的行业。技术变革的速度不断加快,市场竞争异常激烈。你们比任何人都更能体会到这一点,我也知道过去几年对大家和各自的团队来说并不轻松。

你们会慢慢了解我,我从不会被挑战吓倒。相反,它们一直激励着我去解决棘手的问题。在我即将加入英特尔之际,我相信,我们正处于公司历史上最关键的时刻之一,我们拥有一个独特的机会来重塑英特尔的未来。

当然,这绝不会是一条轻松的道路。但我之所以选择加入,是因为我坚信,我们完全有能力取得胜利。英特尔在美国乃至全球的科技生态系统中都扮演着至关重要的角色。我相信,只要我们齐心协力,就一定能够让公司重回正轨。

在我的领导下,英特尔将是一家以工程为核心的公司。我们要全力以赴,打造最优秀的产品,倾听客户的需求,并对我们的承诺负责,以赢得信任。

我的信念很简单:保持谦逊、努力工作、让客户满意。 只要坚守这三点,美好的事情自然会发生。这是我在每一份工作中都坚持的原则,也是我作为 CEO 领导公司前进的方式。

我们不能掉以轻心,必须定期深入评估我们的进展。在我们已经占据优势的领域,要加倍努力,扩大领先优势;在落后于竞争对手的领域,我们要敢于冒险,寻求突破,实现超越;在进展缓慢的地方,我们要找到新的方式加快步伐。

最重要的是,我们必须团结一致,拧成一股绳。在大学时期,我学到的最重要一课并非来自课堂,而是来自体育竞技。我学会了信任和依靠队友,因为我知道,那是通往胜利的唯一途径——而我最讨厌的事情就是失败。这种精神,是我们在英特尔建立制胜文化所必需的。

如今,比以往任何时候都更重要的是,我们的客户在期待着我们团结协作,为他们交付卓越的成果。这是我们最核心的目标,也是我们始终如一的首要任务。作为 CEO,我将赋予领导者们充分的责任感和决策权,让他们采取实际行动,推动业务发展。

我们正迎来一个特殊的机遇。在某种意义上,我们都是「新英特尔」的缔造者。我们要从过去的错误中汲取经验,把挫折转化为前进的动力,以行动取代分心,全力释放我们的潜能。

携手共进,我们将努力重塑英特尔的世界级产品实力,建立一流的晶圆代工业务,并为客户带来前所未有的体验。这是我们当前所处的时代所要求我们去做的,也是英特尔迈向未来的关键。

同时,我们也有责任为股东创造价值——这一点我同样高度重视,并相信,当我们重新聚焦客户时,业务的成功自然会带来股东价值的增长。

我感谢董事会对我的信任,赋予我带领这家伟大公司前行的机会。我很自豪能够加入这个团队,并对我们即将共同展开的工作充满期待。

致以最诚挚的敬意,

陈立武 (Lip-Bu Tan)

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


刚刚,OpenAl 发布 Agent 工具包,网友:谢谢 Manus AI

By: 莫崇宇
12 March 2025 at 14:15

就在刚刚,OpenAI 发布了一系列专为构建 AI Agents 设计的新工具和 API,帮助开发者更容易地创建能自动完成任务的 AI Agents(智能体)。

OpenAI 认为虽然过去一年推出的高级推理、多模态交互等模型能力为 Agent 奠定了基础,但开发者在构建生产级 Agent 时,还会遇到不少难题。

为此,这次发布的核心产品包括全新的 Responses API、三种内置工具以及以及一个开源的 Agents SDK。

省流版如下:

  • Responses API:结合 Chat Completions API 简洁性与 Assistants API 工具使用能力的新型 API 接口
  • Web 搜索工具(Web Search Tool):让模型访问互联网获取最新信息的工具
  • 文件搜索工具(File Search Tool):从大量文档中检索相关信息的增强工具
  • 计算机使用工具(Computer Use Tool):由 Computer-Using Agent (CUA) 模型提供支持的计算机操作自动化工具,让 AI 能像人一样操作电脑界面
  • Agents SDK:基于 Swarm 框架升级,简化多 Agent 工作流程编排的开源框架

具体来说,Responses API 结合了 Chat Completions API(主要用来生成对话回复)的简洁性和 Assistants API(能让 AI 调用外部功能,比如查资料、操作东西)的工具使用能力,成为构建 Agent 应用的新基础。

在内置工具方面,Web 搜索工具支持 GPT-4o 和 GPT-4o-mini 模型获取网络最新信息并提供清晰的引用。在 SimpleQA 基准测试中,这两款模型的搜索预览版分别拿下了 90% 和 88% 的亮眼准确率。

升级后的文件搜索工具更是给力,支持多种文件格式,还能优化查询、过滤元数据、自定义排序,让开发者从堆积如山的文档中迅速找到关键信息。

计算机使用工具则由与 Operator 相同的 Computer-Using Agent (CUA)模型提供支持,可捕获模型生成的鼠标和键盘操作,在 OSWorld、WebArena 和 WebVoyager 基准测试中分别取得 38.1%、58.1% 和 87% 的成绩。

OpenAI 还推出了开源的 Agents SDK,专门用来简化多 Agent 工作流程的编排。

相比去年发布的实验性 Swarm 框架,这个全新 SDK 有了显著的改进,提供易于配置的 LLM 与内置工具集成、Agent 间智能交接控制、可配置安全检查以及可视化追踪等功能,适用于客户支持自动化、多步研究、内容生成等多种应用场景。

一些早期测试用户已经拿这些新工具做出了实打实的成果。

在官网列举的案例中,Hebbia 利用 Web 搜索工具帮助资产管理者和法律从业者从海量数据中提取可行见解;Navan 将文件搜索工具应用于 AI 旅行 Agent 中,为用户提供精准的旅行政策答案。

Unify 和 Luminai 则使用计算机使用工具自动化复杂操作流程,特别是对缺乏 API 的传统系统;Box 利用 Agents SDK 快速构建和部署了企业数据搜索应用。

产品发布后,网友也在 OpenAI 的评论区玩起了梗,甚至还有网友专门留言感谢 Manus AI。

在今天凌晨 1 点的现场直播中,演示人员也向我们展示了一个「个人造型师」 Agent 的应用案例,用来展示各种新工具的能耐。

举个例子,他们先用文件搜索工具翻看了用户(比如「Kevin」)的服装喜好数据,系统轻松整理出这些人的穿衣风格。

然后结合 Web 搜索工具,系统能够基于用户所在位置(演示中使用了「东京」作为 Kevin 的位置)搜索附近的相关商店,为 Kevin 推荐了东京的 Patagonia 店铺。

接着,计算机使用工具(Computer Use Tool)登场,自动操作网页界面,为 Kevin 买下一件黑色 Patagonia 夹克,整个过程行云流水——点击、拖拽、填信息,宛如真人在操控。

最后还演示了 Agent 间的交接功能。一个 Agent 将退货请求无缝交接给客服 Agent,后者能够调用获取密码和提交退款请求等功能,帮助用户完成 Patagonia 夹克的退货。

可以说,凭借新工具和 API 的默契配合,这些 AI Agent 不仅能读懂用户喜好、获取实时资讯、执行复杂操作,还能在不同任务间灵活切换,完美覆盖从推荐到购买再到退货的全流程。

至于现有 API 的安排,OpenAI 表示会继续全力支持 Chat Completions API,为不需要内置工具的开发者提供新模型和功能。

而基于 Assistants API 测试版的反馈,他们已经把关键改进整合到 Responses API 中,计划在功能对齐后,于 2026 年中期正式停用 Assistants API,同时会提供详细的迁移指南。

新工具的定价也新鲜出炉,Web 搜索每千次查询分别为 GPT-4o 搜索 30 美元和 GPT-4o-mini 搜索 25 美元;文件搜索每千次查询 2.5 美元,文件存储 0.1 美元/GB/天(首 GB 免费);计算机使用工具则按每输入百万 token/3 美元和每输出百万 token/12 美元计费。

OpenAI 表示,随着模型能力变得更加具有 Agent 属性,他们会继续深化 API 间的整合,并提供新工具帮助部署、评估和优化生产环境中的 Agent。

英伟达 CEO 黄仁勋曾表示,未来每个公司的 IT 部门将转变为 AI Agent 的「HR 部门」。

从管人到管 AI,Agent 将很快成为劳动力的重要组成部分,提高各行业的生产力,而此次发布的工具集只是帮助开发者和企业构建、部署和扩展可靠高效 AI Agent 的重要一步。

此前,开发者需要自行组合不同 API 和编写复杂的协调逻辑来构建 AI Agent,而新工具极大地简化了这一过程。

Responses API 将多种功能整合成一个简单接口,而内置工具为 AI 提供了「感知」和「行动」的能力,Agents SDK 则提供了协调多 Agent 的标准框架。

通过降低技术门槛,使得更多企业能够快速构建和部署 AI Agent,这或许也是 OpenAI 所说的「Agent 元年」的真正含义——让 AI 不再局限于聊天框,而是能融入现实工作流程,成为你的「数字助理」甚至「数字同事」。

附上 AMA 问答:

Q:哪种操作系统最适合 computer use:Linux、Mac 还是 Windows?是图形界面(UI)、终端(terminal),还是其他方式更好?哪些应用程序在计算机上表现最佳,还是说这并不重要?
A:CUA 模型主要是针对网页任务进行训练的,但早期用户发现它在桌面应用程序上的表现也出乎意料地好。不过现在还处于早期阶段,我们还有很多可以改进的地方!

Q:你们会提供 TypeScript SDK 吗?
A:是的!我们很快会推出 TypeScript SDK,敬请期待!

Q:我们未来会在 API 中看到 o1 pro 吗?
A: 是的,我们计划很快在 responses API 中发布它!

Q:我们需要自行管理 Docker 环境来使用计算机功能吗?
A: 如果你愿意,你可以自行管理 Docker 环境,但你也可以使用云服务,比如 @browserbasehq 或 @scrapybara。

Q:何时会有 Operator 在 API 中可用?
A:从今天开始,你可以在 API 中使用与 Operator 相同的功能!我们已经在新的 Responses API 中部署了驱动 Operator 的 CUA 模型。

Q:你们会考虑提供集成的虚拟机(VM)来支持「 computer use」,或者与合作伙伴合作,以减少搭建环境的需求吗?
A:目前还没有这样的计划,但你可以查看 CUA 示例应用,其中包含一些示例环境,包括 @scrapybara 和 @browserbasehq,用于远程托管。

Q:在整个 agent-handoff 流程中,如何确保个人隐私?有没有什么方法可以增强用户与 Agent 交互时的隐私保护?
A: 我们有多种隐私保护机制。Agents SDK 支持开发者定义的安全措施(guardrails),用于输入/输出验证。此外,你可以使用 input_filter 来限制在交接过程中传递的消息上下文。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


套壳的 AI 产品,不可耻,也有用

By: 莫崇宇
11 March 2025 at 18:47

短短几天,Manus 成了衡量 AI 产品优劣的最佳试金石。

近期,Manus 在海外的热度暴涨,,外国大 V 自发在 X 平台转发宣传,《福布斯》更是直接盖章定调,冠上了「第二个 DeepSeek 时刻」的称号。

让子弹再飞一会儿,却净是反转、反转、再反转。噪声太多,容易淹没对一款产品价值的判断。在业内,AI Agent 的落地早已心照不宣,底层基础模型的进步,Deep Research 的广泛普及,都为犹在襁褓的 Manus 席卷全网扫除了不少认知障碍。

在喧嚣之外,我们需要重新审视,一个套壳 AI 产品对用户和行业是否有价值?在 AI 快速迭代的今天,创新的定义是什么?

Manus 海外风评如何

Manus 的爆火来得猝不及防,以至于连团队也没有准备好迎接这泼天的流量。

合伙人张涛近日发文称低估了大众的热情,目前服务器资源无法满足市场需求,因此只好采用邀请码机制,同时也表示团队正在全力输出,争取让大家早日体验到更好的产品。

与刻意降低国内存在感的策略不同,Manus 这几天反而向不少海外 X 博主大 V、以及 Reddit 社交平台陆续开放不少邀请码,有意借势推高热度。

拿到使用权的 @deedydas 让 Manus 对特斯拉股票进行专业的分析,结果它在大约一个小时内完成了通常需要大约两周才能完成的的专业级工作。这效率,不比打工人好用(不是)。

[

先别羡慕 AI 三小时做的小游戏,9 天赚 12 万,manu 也能做。@_akhaliq 让 Manus 用 three.js 打造一款无尽跑酷游戏,画面游戏有些粗糙,但游戏机制相当完善。

搞钱才是王道,这也是网友对 Manus 呼声最高的要求。使用 Manus 构建一个仪表板,筛选出日本符合收购条件的上市公司作为潜在的收购目标,还能打造成 90 年代风格的日本视频游戏。

结果也是完美交付,让人挑不出毛病。

▲游戏地址:https://zaomhjnv.Manus.space/

@LamarDealMaker 对 Manus 的能力赞不绝口,称其为最疯狂的 AI Agent。

Manus AI 在极短的时间内为他规划了一次为期两个月的家庭旅行,路线涵盖澳大利亚、新西兰、阿根廷和南极洲,安排得滴水不漏。并且,它还能够自动分配任务、浏览网页研究,最终奉上了一份涵盖住宿、预算和美食指南的详细行程。

另一位用户 @ivanfioravanti 则秀出了 Manus AI 用 p5js 做的动画,创意和效果双双在线。

Hugging Face 的产品负责人称 Manus 是「我用过的最令人印象深刻的 AI 工具」。AI 政策研究员 Dean Ball 将 Manus 描述为「最复杂的 AI 计算」。

要说 Manus 的重量级背书,绝对少不了两位比较重磅的人物。

一个是 Twitter 创始人 Jack Dorsey,直接甩出了「excellent」的评价,言简意赅但分量十足。另一个则是 X 博主 Rowan Cheung,他所创立的 therundownai 可以说是 X 平台阅读量最大的 AI 新闻快讯自媒体。

Rowan 前几天还没体验 Manus,却在海外率先喊出「中国第二个 DeepSeek 」。截至目前,那条推文也在 X 平台狂揽 276 万的阅读量。

直到最近,Manus 团队也向 Rowan Cheung 分享了邀请码。

创建 Rowan Cheung 的传记、并据此部署网站;分析旧金山最佳租车地点;创建一门关于内容创作 AI 的完整课程,Manus 的表现也都可圈可点。

先说好评,还有差评,@mckaywrigley 给 Manus 打了个大大的好评,认为它的底层代理模型和 UI 都做得无可挑剔,但这位博主也话里有话,主打一个未来可期,点到即止。

@ai_for_success 是最早一批点赞 Manus 的博主。

同样地,他其实最开始并未拿到邀请码,体验后,他表示,「Manus AI 太疯狂了,我以前从未使用过类似的东西。」还特意加了个免责声明,说自己没拿 Manus 一分钱。

尽管案例很高大上,但问题是计算是否正确,他的心里也没底。

相比 OpenAI 的 Deep Research,医学博士 @DeryaTR_ 就指出 Manus 历经两轮尝试,都未能顺利完成任务,且耗费时间过长。

有趣的是,Manus 创始人季逸超今天在 X 平台发文称,Manus 为了提高系统性能而降低了故障率,但结果用户的会话现在运行时间更长,且由于系统负荷过重,Manus 故障率又开始回升。

站在福布斯的另一端,外媒 TechCrunch 则指出 Manus 可能不是中国的第二个「DeepSeek 时刻」,几轮体验下来都以任务失败告终。

极致的套壳,就是胜利

Manus 爆火后,网友们抛出的头号疑问是,它真就有技术壁垒吗?

张涛曾在混沌学园采访中谈到,单纯的「套壳」(即直接使用大模型的技术输出)在 AI 普及的背景下,难以成为核心壁垒。真正重要的是找到市场需求和商业逻辑,利用 AI 这个「通用商品」创造独特的价值。

换句话说,套壳只是起点,关键在于如何构建需求驱动的差异化优势。

昨日,网友 @jianxliao 因为疑似套出 Manus 系统提示词和运行代码,引来了季逸超的回应。

回应的细节很多,但较为值得关注的是,当被问及 Manus 的基础模型时,他表示目前使用的是 Claude 和 Qwen 微调模型。并且,Manus 采用多 agent 协作的架构设计。

早在 Manus 崭露头角前,海外如 OpenAI 的 Deep Research 已是相对成熟的产品。据 The Information 报道,OpenAI 甚至还计划推出一款每月高达 2 万美元的博士级 Agent。

某种意义上,Manus 的成功像是「摸着前人石头过河」。

技术若无热度,便如深谷孤响,Manus 有了足够的热度和关注,也吸引更多人投入资源和精力去研究、复现甚至开源类似的技术。

最近,MetaGPT 的 4 名团队成员在 GitHub 发布了名为「OpenManus」的开源项目,旨在复刻 Manus 的核心功能,同时大幅降低使用门槛。

团队宣称,该项目仅花费了 3 小时便开发完成。

快是快了,但这种速度带来的代价是功能和效果上的妥协,OpenManus 更偏向技术验证和社区协作,功能深度也更聚焦,无法像 Manus 那样覆盖广泛场景。

截至发稿前,OpenManus 在 GitHub 已收获超 2.6 万的星标。

据官方介绍,OpenManus 支持 SEO 审计与报告生成,同时采用轻量化设计。其基于 MetaGPT 的多智能体协作框架,支持利用不同角色分工并自动化生成代码与文档。

此外,OpenManus 的开源特性,允许社区为其贡献扩展功能。该项目的底层支持来自 Anthropic 的 computer-use 和 browser-use。

▲GitHub 🔗:https://github.com/mannaandpoem/OpenManus?tab=readme-ov-file

置身于风暴中心,OpenManus 背后的四名成员连同他们的过往经历,迅速被媒体扒出:

  • 梁新兵:华东师范大学硕士,曾参与爆款 AI Agent 项目 Data Interpreter 的开发。
  • 张佳钇:中国人民大学高瓴人工智能学院本科生,目前在香港科技大学(广州)攻读博士,其参与的智能体框架 AFlow 刚被深度学习顶会 ICLR 2025 接收。
  • 向劲宇:西南交通大学应用物理学本科,曾在 2024 年阿里巴巴全球数学竞赛 AI 赛道斩获全球第二。
  • 于兆洋:中国人民大学高瓴人工智能学院本科生,与校友张佳钇曾凭 MathAI 方案在阿里数学竞赛 AI 赛道拿下全球第三。

同样在 3 月 7 日,CAMEL AI 的 OWL 项目公布,并剑指 Manus。

官方表示 OWL 直接做到开源界 GAIA 性能天花板,达到了 58.18%,超越 Huggingface 提出的 Open Deep Research 55.15% 的表现。

在官方给出的演示案例中,让 OWL 查询今天伦敦有哪些电影上映。

它会自动生成待办事项规划并编写任务清单,开始浏览网页,搜索伦敦地区符合条件的电影院。

整个过程宛如真人操作,流畅地执行滚动、点击、输入以及实时信息检索等步骤,最终为用户呈上一份详尽的当日电影总结报告。

据 CAMEL AI 介绍,OWL 通过逆向工程将 Manus 工作流拆解为 6 步,并开源所有模块;支持 GitHub 一键 clone,同时工具链能够自由扩展,执行环境也支持云端和本地任选。

CAMEL AI 强调,OWL 完全免费,且优化了 Token 消耗。

▲GitHub 🔗:https://github.com/camel-ai/owl

然而,与这些后续开源项目相比,Manus 的真正优势在于更早抓住了行业痛点,如何将复杂多智能体协作技术转化为用户可感知的价值。

精心设计的用户界面、相对透明的流程优化,Manus 将复杂的技术包装成了易于理解和使用的产品,也为第一波热度添柴加火。

并且,Manus 的爆火,某种程度上源于它在对的时间踩中了风口。

黄仁勋曾经在 CES 预言,随着 AI Agent 浪潮席卷,未来 IT 部门将转型为 AI「员工」的人力资源部门。Manus 同样正是基于这一趋势,向用户展示了一个能够有效管理多个 AI 智能体协作的平台。

诚然,业内虽对「套壳」嗤之以鼻,套壳可以是起点,不应该是终点。

但用季逸超的话来说,极致的套壳就是胜利。Manus 能够将现有技术包装并推出满足用户需求的产品,应用端的创新同样不可忽视。

类似的案例比比皆是,同样作为现象级产品,AI 搜索引擎 Perplexity 也因为「套壳」而置于风口浪尖之上,但其创始人 Aravind 却也看得通透:

只有当你真正有了值得「护」的东西时,护城河才有意义。人们可以将 Perplexity 看做是一个 AI 套壳,但成为一个拥有十万用户的套壳产品显然比拥有自有模型却没有用户更有意义。

Perplexity 采取的策略奏效了。发展不过三年,月活跃用户已逼近 1 亿,庞大的用户基础,随之而来的海量搜索数据,其市场影响力也在日渐增强。

他们的成功路径清晰可见,先打造产品、紧盯市场需求,然后通过不断迭代产品来收集用户反馈和搜索行为数据,为后续自研模型打下了坚实基础。

资本市场的正反馈对这种商业模式给予了有力背书,Perplexity 的市场估值实现「三级跳」,在去年 12 月完成新一轮融资后,一路飙升至 90 亿美元。

流量如潮水,Manus 的长期价值是否经得起考验,仍有待时间的考验。

但在此之前,对于绝大多数 AI 初创企业来说,先果断抓住市场中那一小块关键红利,循序渐进地积累实力。当这些短期红利转化为企业自身实力后,技术壁垒或许也就水到渠成。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌
❌