Reading view

There are new articles available, click to refresh the page.

体验完豆包新版深度思考,我发现 AI 终于学会像人类一样「边想边搜」

你有没有发现,现在的 AI 搜索真的很懂摸鱼?

当 ChatGPT、Perplexity 等工具相继问世,都说 AI 将彻底颠覆搜索领域,但现实情况却是,当我随手扔给它一个复杂问题时,一顿操作猛如虎,哐哐一顿搜索几百个网页,搜索结果却平平无奇。

仔细一看,要么堆砌了一堆零散的信息,要么抓不住重点,感觉就像是把一堆资料硬塞给我,自己却没怎么动脑子,像极了敷衍了事的职场人。

不过,这也不能全怪 AI。毕竟换位思考一下,即便是人类,带着问题去查资料时,也很容易被信息洪流冲昏头脑。不少 AI 产品开始对此进行优化,比如 OpenAI 和 Grok 在推理模式基础上又推出了 Deep Research/DeepSearch 模式。

国内厂商里,字节也刚刚给出了新的解决方案,对豆包的深度思考功能进行了升级。正在测试的豆包新版深度思考的一大亮点便是免费支持「边想边搜」,现在下载最新版豆包 APP,或在 PC 及 Web 版豆包中即可体验该功能。

APPSO 也第一时间进行了深度体验。

简单来说,用户无需单独开启搜索功能,只需打开深度思考模式,AI 能在推理过程中灵活调用搜索工具,进行多轮动态搜索。

从「先搜后想」到「边想边搜」,AI 终于学会了如何像人类一样搜索问题。

DeepSearch+深度思考,豆包这个新功能不止让你少问几步

生成式 AI 发展两年了,颠覆搜索了吗?

早期的 AI 搜索工具虽然不怎么做互联网的搬运工,但模式上还是传统的「先搜后想」的套路——先把网上的信息抓一堆,再根据这些信息组织答案。

豆包新版深度思考则不一样,它结合了深度思考能力,把搜索和推理捆绑在一起,基于每一步的思考结果进行多次搜索,能让回答更有逻辑、更贴近需求。听起来挺玄乎,我们也用几个问题来实际体验一下。

先来个贴近生活的投资问题,「如果我从今年 1 月开始同时投资小米股票和英伟达股票,截至 3 月 24 日收盘哪个收益更高?」豆包的回答让我有点意外。

APPSO 拆解了豆包新版深度思考的思考过程,我们发现它的搜索逻辑有了明显不同:

1. 先进行问题分析和框架设定

2. 获取初步信息建立概念

3. 深入挖掘具体数据点

4. 遇到不确定性时进行额外搜索

5. 基于现有信息进行合理推断,并给出结论

之前 AI 可能会直接给出两支股票的涨跌百分比,然后就直接得出结论,但豆包新版深度思考则进行了多轮思考,进行问题分析和框架设定(时间段-股价表现-调用搜索工具)。

一旦有了较为妥当的思路,它便会继续搜索,比如在互联网上找到了 14 篇参考资料,这个过程仅仅是为了获取一个笼统却清晰的概念,方便进一步边思考边有针对性地搜索。

由于缺乏 1 月 1 日(休市)的准确收盘价,以及英伟达的数据存在不确定性,它需要再次搜索来确认这两个关键数据点,最后基于现有信息进行合理推断。

最后的结果,也不只是给出投资收益的对比,还对股价波动因素进行分析,并提示了未来的风险,甚至整理成了表格,考虑得颇为周全。

洞察到了我想问但没说出来的问题,把需要「追问」的细节提前融入答案之中,妥妥一个醒目的投资顾问。


最近我计划去新加坡旅游,想知道有没有最优的往返机票方案。

普通 AI 搜索引擎可能一股脑儿搜几百个网页经验帖,然后汇总交差,但豆包新版深度思考则有所不同,它会带着问题思考,拆解几个关键点——出发地、时间、预算等,然后逐步深入分析,形成一个「思考-检索-继续思考」的良性循环。

而这恰恰也说明了豆包的新版深度思考倾向于「思考驱动」而非「搜索驱动」。

换句话说,以前需要照顾 AI 的能力,把大问题拆分为几个小问题,一步步问清楚;可现在完全不用,直接丢出你的需求,剩下的交给豆包就行。

或许正因如此,它的整体响应速度体感上并不慢,体验相当流畅。

有个很现实的问题,没时间看国足比赛怎么办,别急,这时候就可以请出豆包新版深度思考来救场。把你想知道的具体内容告诉豆包,比如比赛结果、关键时刻、球员表现或者规则积分,它就能化身速通大师,省时又高效。

当然,如果不开启深度思考功能,我们会发现,虽然回答依然快刀斩乱麻,效率没得说,但质量明显就差了一截。不仅缺乏更清晰的分点罗列,连逻辑层次感都显得单薄,甚至引用的资料信息更少。

这么一对比,像人类一样思考的重要性就凸显出来了。有了深度思考的加持,它能把答案打磨得更精致、更贴心,条理清晰不说,还能塞满干货,让你读起来既舒服又有收获。

接下来,我们用更贴近个人需求的决策场景来考验它。

对于 iPhone 16e,我们给出的观点是,这是一台酱香型手机,越晚入手越香,那它和 iPhone 16 比,哪个更有性价比,以及如果用腻了,又该换哪款备用机?

就像 Grok DeepSearch 标配的图表一样,豆包新版深度思考也提供了清晰的参数对比,屏幕、芯片、摄像头一目了然,甚至还贴心地准备了数据迁移建议,这贴心程度值得点赞。

逻辑性是豆包新版深度思考回答的最大特点。

针对 Android 备用机推荐问题,它不会一股脑儿抛给你一堆机型名字,而是通过「边想边搜」的迭代循环,针对你可能会用上的使用场景,再一步步搜索、推理,最后奉上一份既有逻辑又实用的推荐清单。

当然,扒蛛丝马迹这种细活儿,还是得交给 AI。

「悟空在第十四回中打死的六个盗贼,分别叫什么名字?该如何理解作者这一情节的安排?」豆包新版深度思考的回答不仅列出具体名字,还融入了佛学和心理学视角,分析得头头是道,时不时冒出几句金句,颇有亮点。

李白、杜甫和白居易是唐代诗人的标志性符号,那他们三者之间是否存在交集?

对于这个问题,在豆包新版深度思考的理解中,这种交集并不局限于现实生活的人际往来,还延伸到了更广阔的文学脉络以及彼此风格与创作上的相互影响。

最后所引用清代赵翼的点评「李杜诗篇万口传,至今已觉不新鲜;江山代有才人出,各领风骚数百年」,恰到好处,为整个分析增添了历史厚重感,也让人读后回味无穷。

从「先搜后想」到「边想边搜」,搜索的未来长什么样?

技术未来学家、Google 工程总监雷·库兹韦尔(Ray Kurzweil),曾在《奇点临近》一书中预测,未来的搜索将像人一样思考,而不是像机器一样索引。如今,这一预言正在成为现实。

之前的 AI 搜索,其「先搜后想」的模式是一个简单粗暴的线性过程:

「输入问题 → 调用搜索工具获取数据 → 基于数据进行推理 → 输出答案。」

这种方法的短板显而易见,非常依赖关键词匹配和网页索引技术,导致信息「广而不深」。

基于深度思考和 DeepSearch 的 AI 搜索已经大大解决了这个问题,AI 能理解自然语言中的复杂语义,比如问它「明天广州适合穿什么衣服?」就可以分析天气数据、时尚趋势、个人偏好等隐藏需求,实现多维信息关联。

而豆包新版深度思考与多轮搜索相结合的模式,进一步补足了深度思考和 DeepSearch 在处理复杂、模糊及动态信息需求时尚存的几块短板。

  1.  一轮搜索无法解决的复杂问题: 更好应对需要多轮信息整合、动态调整策略的复杂任务。在思考过程中多次搜索,让信息持续更新和补充,给出更全面、准确和深入的回答。
  2.  模糊查询与信息关联: 对于一些描述模糊、信息不完整的问题,「边想边搜」让模型在推理过程中不断搜索和验证,逐步缩小范围,找到相关信息
  3. 动态规划与多步骤任务: 在处理需要长期规划或多个步骤的任务时,「边想边搜」能够在每一步骤中进行信息校验和调整,提高了执行任务的成功率。

豆包新版深度思考「边想边搜」的执行路径,让我不禁想起最近常被提及的 Agent。「互联网之父」Berners-Lee 早在多年前就提出:

真正的智能体,就是在每个具体场景中,都能自动完成用户心里想做却没明确说出来的事情。

虽然豆包新版深度思考和 Agent 还有些区别,但某种程度上却是 Agent 工程化思路在搜索上的应用。Agent 自主决策和动态调整,将任务高度自动化,大大减少额外的数据预处理和人为干预。

说白了,就是让 AI 像一个聪明的助手,自己去网上找答案,它能自己动手,自己动脑,找到我们要的东西。用户不需要像喂饭一样把问题拆得细碎,才能得到满意回答。

由此我们也可以推理出 AI 时代理想的搜索过程:

  • 1. 接收并分析用户问题
    用户提出问题后,AI 会先分析问题的内容,拆解其核心需求,并尝试推测用户的真实意图。
  • 2. 自主选择搜索策略
    根据问题的性质,决定是用通用搜索还是直接调用特定专业数据源。它能记住常用工具和 API 的调用方式,直接利用现有网络资源(如站点地图或结构化数据)进行搜索,而非依赖预设流程。
  • 3. 多步骤动态搜索
    搜索不是一次性完成,而是分成多个连续步骤。先发起初步搜索,查看结果后,可能调整关键词、浏览网页深入挖掘,或转向其他数据源,模拟人类在网上探索的过程。
  • 4. 实时优化搜索路径
    在搜索过程中不断学习和判断。如果发现当前方向无效,它会自主放弃并尝试更有效的路径,如同经验丰富的专业人士那样灵活应变。
  • 5. 整合信息并生成结果
    搜集到足够信息后,它还会通过推理将零散内容重新组合,将结果整理成逻辑清晰的总结,确保输出符合用户需求。
  • 6. 记录决策过程
    每一步决策和推理都会留下清晰的记录,增强结果的可解释性,让用户能追溯其搜索逻辑。

如同媒介理论家保罗·莱文森所言,技术进化是人类认知结构的外延。每个时代技术的核心驱动力是信息处理能力的提升,当 AI 以越来越接近人类的思维方式处理信息,重塑的将不仅仅是我们对搜索的习惯。

作者:李超凡、莫崇宇

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


刚刚,OpenAI 一口气发布三个新模型!还为此做了一个新网站

就在刚刚,OpenAI 宣布在其 API 中推出全新一代音频模型,包括语音转文本和文本转语音功能,让开发者能够轻松构建强大的语音 Agent。

新产品的核心亮点概述如下

  • gpt-4o-transcribe (语音转文本):单词错误率(WER)显著降低,在多个基准测试中优于现有 Whisper 模型
  • gpt-4o-mini-transcribe (语音转文本):gpt-4o-transcribe 的精简版本,速度更快、效率更高
  • gpt-4o-mini-tts (文本转语音):首次支持「可引导性」(steerability),开发者不仅能指定「说什么」,还能控制「如何说」

据 OpenAI 介绍,新推出的 gpt-4o-transcribe 采用多样化、高质量音频数据集进行了长时间的训练,能更好地捕获语音细微差别,减少误识别,大幅提升转录可靠性。

因此,gpt-4o-transcribe 更适用于处理口音多样、环境嘈杂、语速变化等挑战场景,比如客户呼叫中心、会议记录转录等领域。

gpt-4o-mini-transcribe 则基于 GPT-4o-mini 架构,通过知识蒸馏技术从大模型转移能力,虽然 WER(越低越好)稍高于完整版模型,但仍旧优于原有 Whisper 模型,更适合资源有限但仍需高质量语音识别的应用场景。

这两款模型在 FLEURS 多语言基准测试中的表现超越了现有的 Whisper v2 和 v3 模型,尤其在英语、西班牙语等多种语言上表现突出。

定价方面,GPT-4o-transcribe 与之前的 Whisper 模型价格相同,每分钟 0.006 美元,而 GPT-4o-mini-transcribe 则是前者的一半,每分钟 0.003 美元。

与此同时,OpenAI 还发布了新的 gpt-4o-mini-tts 文本转语音模型。首次让开发者不仅能指定「说什么」,还能控制「如何说」。

具体而言,开发者可以预设多种语音风格,如「平静」、「冲浪者」、「专业的」、「中世纪骑士」等,它还能根据指令调整语音风格,如「像富有同情心的客服 Agent 一样说话」,定价亲民,仅为每分钟 0.015 美元。

安全不能马虎,OpenAI 表示,gpt-4o-mini-tts 将接受持续监控,以保证其输出与预设的合成风格保持一致。

这些技术进步的背后源于 OpenAI 的多项创新:

  • 新音频模型建立在 GPT-4o 和 GPT-4o-mini 架构之上,采用真实音频数据集进行预训练
  • 应用 self-play 方法创建的蒸馏数据集的知识蒸馏方法,实现从大模型到小模型的知识转移
  • 在语音转文本技术中融入强化学习(RL),显著提升转录精度并减少「幻觉」现象。

在凌晨的直播中,OpenAI 向我们展示了一款 AI 时尚顾问 Agent 的应用案例。

当用户询问「我最近的订单是什么?」时,系统流畅回应:用户于 2 月 9 日订购的 Patagonia 短裤已发货,并在后续提问中准确提供了订单号「A.D. 507」。

值得一提的是,OpenAI 演示人员还介绍了两种构建语音 Agent 技术路径,第一种「语音到语音模型」采用端到端的直接处理方式。

系统可直接接收用户语音输入并生成语音回复,无需中间转换步骤。这种方式处理速度更快,已在 ChatGPT 的高级语音模式和实时 API 服务中得到应用,非常适合对响应速度要求极高的场景。

第二种「链式方法」则是本次发布会的重点。

它将整个处理流程分解为三个独立环节:首先使用语音转文本模型将用户语音转为文字,然后由大型语言模型(LLM)处理这些文本内容并生成回应文本,最后通过文本转语音模型将回应转为自然语音输出。

这种方法的优势在于模块化设计,各组件可独立优化;处理结果更稳定,因为文本处理技术通常比直接音频处理更成熟;同时开发门槛更低,开发者可基于现有文本系统快速添加语音功能。

OpenAI 还为这些语音交互系统提供了多项增强功能:

  • 支持语音流式处理,实现连续音频输入和输出
  • 内置噪音消除功能,提升语音清晰度。
  • 语义语音活动检测,能够识别用户何时完成发言
  • 提供追踪 UI 工具,方便开发者调试语音代理

目前,这些全新音频模型已向全球开发者开放。

你还可以在 http://OpenAI.fm 上体验并制作 gpt-4o-mini-tts 的相关音频,这个演示网站可谓是功能齐全,左下角是官方的预设模板,主要包括人设、语气、方言、发音等设置。

我们也实测了一段八百标兵奔北坡的绕口令,emmm,中文效果马马虎虎。至于英文效果,听它念着诗歌,倒是挺有真人那味了,但无论是与此前走红的 Hume AI 亦或者 Sesame 相比,「肉耳可听」地还差点火候。

此外,OpenAI 推出了与 Agents SDK 的集成,进一步简化开发流程。

值得一提的是,OpenAI 还举办了一个广播比赛。用户可以在 http://OpenAI.fm 制作音频,接着使用 OpenAI.fm 上的「分享」按钮生成链接,然后在 X 平台分享该链接。

最具创意的前三名将各获一台限量版 Teenage Engineering OB-4。音频时长建议控制在 30 秒左右,可在语音、表达、发音或剧本语调变化上尽情发挥创意。

实际上,今年 AI 的风向也在悄然发生变化,除了依旧强调智商,还多出一股趋势,强调情感。

GPT-4.5、Grok 3 的卖点是情商,写作更有创意,回应更个性化,而冷冰冰的机器人(智元机器人),也强调更拟人,主打一个情绪价值。

由于直接触及人类最本能的沟通方式,语音领域在这方面的发力则更加显著。

最近在硅谷走红的 Sesame AI 能够实时感知用户情绪,并生成情感共鸣的回应,迅速俘获了一大批用户的心。图灵奖得主 Yann lecun 最近也在强调,未来的 AI 需要拥有情感。

而无论是 OpenAI 今天发布的全新语音模型、还是即将发布的 Meta Llama 4 都有意往原生语音对话靠拢,试图通过更自然的情感交互拉近与用户的距离,靠「人味」圈粉。

AI 需要有人味吗?长期以来。聊天机器人通常被定义为没有情感的工具,它们也会在对话中提醒你,它是一个没有灵魂的模型。然而,我们却往往能从中解读出情绪价值,甚至不自觉地与之建立情感联结。

或许人类天生渴望被理解、被陪伴,哪怕这种理解来自一台机器。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


豆包发布大模型 1.5 Pro ,实测后我发现这个国产 AI 用最「笨」的方法干翻了 GPT-4o

这几天海外科技圈最最受关注的有两件事,一个是一众科技大佬齐聚特朗普就职典礼,川普还拉上 OpenAI 软银等公司成立一家叫「星际之门」(Stargate Project)的 AI 公司,未来4年要投资 5000 亿美元,掀起了新一轮 AI 军备竞赛。

另外就是以 DeepSeek R1 为代表的国产推理模型给硅谷 AI 圈带来的震撼,赶超 OpenAI 是所有 AI 公司的课题,但 DeepSeek 只用 2048块GPU、近 600 万美元在 2 个月时间做到。

一些外媒将这波国产 AI 的发布视为中国 AI 逼近甚至赶上美国的标志也并不奇怪,而且这股浪潮还在继续。

今天,字节跳动旗下的豆包大模型 1.5 Pro 模型正式亮相,不仅全面升级了模型的核心能力,也融合并进一步提升了多模态能力,在多项公开评测基准中也是全球领先水平。

豆包团队还强调,模型训练过程中并未使用任何其他模型生成的数据,不走捷径。

这次发布的豆包大模型 1.5 系列产品线包括:

  • Doubao-1.5-pro:多项基准测试综合得分优于 GPT-4o、Claude 3.5 Sonnet 等业界一流模型,创历史最佳成绩
  • Doubao-1.5-lite:用轻量级成本实现旗舰级性能,综合性能持平或超越 GPT-4omini,Cluade 3.5 Haiku。
  • Doubao-1.5-vision-pro:定位专业视觉理解模型,在保持强大性能的同时,回复更简洁友好,多模态能力超越了 GPT-4o-0806
  • Doubao-1.5-realtime-voice-pro:真正实现端到端语音对话,具备低时延、对话中可随时打断、自然的情绪表达等特性,即将开放 API 服务

字节团队告诉 APPSO,Doubao-1.5-pro 目前已经在豆包 APP 灰度上线,由于对话是先接意图识别,所以用户大概率没法确定在使用时是否分流到 1.5 Pro,而开发者也可在火山引擎直接调用 API。

附上体验链接:https://www.volcengine.com/

漂亮的参数背后是否有真材实料?我们也第一时间在火山引擎体验了豆包大模型 1.5 系列。

先来看看 Doubao-1.5-pro-32k 模型。尽管「9.11 和 9.8 哪个大」以及「Strawberry 里有几个 r」已经是常规测试环节了,但我们还是要走一遍流程,而模型都顺利通过了考验。

接下来,我们向模型提出了一个较有挑战性的问题——寻找古代名人中姓名末字与「峰」字发音接近的例子。

前半部分答案倒是表现出色,精确识别了与「峰」字发音相近的韵母(eng、ong),但后半段的关联性却显得较为牵强。

继续上一道电车难题,这个涉及道德伦理的经典思考题,考验的不仅是模型的逻辑分析能力,更是其对复杂道德议题的理解深度。而 Doubao-1.5-pro-32k 并没有简单给出答案,分析深入透彻,指出这类问题并无标准答案,不同的道德观念和个人价值观会导致不同的决策。

在完成上述测试后,我们将目光转向了更强大的 Doubao-1.5-pro-256k 模型。

这是一款基于 Doubao-1.5-Pro 全面升级版的模型,整体效果大幅提升 10%,支持 256k 上下文窗口的推理,输出长度支持最大 12k tokens。

为测试其解题能力,我们提出了一个古早的经典逻辑推理题,它的回答再次展现出了清晰的思维逻辑。

「据说有人给酒肆的老板娘出了一个难题:此人明明知道店里只有两个舀酒的勺子,分别能舀 7 两和 11 两酒,却硬要老板娘卖给他 2 两酒。聪明的老板娘毫不含糊,用这两个勺子在酒缸里舀酒,并倒来倒去,居然量出了 2 两酒,请问是怎么做到的」

那文本功底如何呢?我们也让它创作一出剧本。题材是 2015 年 44 岁的埃隆·马斯克与前 Google CEO 拉里·佩奇关于「AI 是否最终会取代人类」的对话。

与 GPT-4o 的回答相比,Doubao-1.5-pro-256k 的剧本创作更加细腻生动,不仅有具体的景别设计、画面描述,还包含了细致的台词和时长安排。如果你是一位经常需要编写剧本的创作者,那选谁作为你的剧本 AI 搭子应该不用多说了吧。

而这种出色的创作能力,仅仅是豆包实力的一个缩影。实际上,此次更新中,Doubao-1.5-Pro 基础模型能力获得全面提升,这一点从其在各大公开评测基准上的表现就可见一斑。

Doubao-1.5-pro 采用稀疏 MoE 架构实现了多项技术突破:通过深入研究稀疏度 Scaling Law,将性能杠杆从业界普遍的3倍提升至7倍,用仅占稠密模型七分之一的参数量就超越了 Llama-3.1-405B 等大模型的性能。

在训练流程上,团队坚持完全自主的数据标注路线,通过算法驱动的数据优化系统和 Verifier 与 Reward Model 的深度融合,建立了统一的评价框架。

豆包选择了一条最艰难但最踏实的那条路,这也是这次技术突破值得夸赞的地方。

据悉,字节研究团队通过高效标注团队与模型自提升相结合的方式持续优化数据质量,严格遵循内部标准,坚持不走捷径,不使用任何其他模型的数据,确保数据来源的独立性和可靠性。

并且,在 RL 阶段突破了价值函数训练难点,高难度任务性能提升超过10个百分点,并通过用户反馈闭环持续优化模型表现。这些创新使模型在保持高性能的同时大幅提升了效率。

Doubao-1.5-pro 在多模态能力上实现了全面升级,通过原生动态分辨率架构支持百万级分辨率和任意长宽比图像处理,实现了精准的特征提取。

豆包团队自研的支持动态分辨率的 Doubao ViT 在多种视觉分类任务中表现优异,仅凭 2.4B 规模便在综合评分上取得 SOTA 表现,效果超越 7 倍于自身规模的模型。

在数据训练方面,模型采用了多样化的合成管线,结合搜索引擎的图文数据、渲染引擎和传统 CV 模型等多种方式生成高质量预训练数据。

通过在 VLM 训练阶段混入纯文本数据并动态调整学习率,模型实现了视觉和语言能力的平衡。

在语音领域,团队创新性地提出了 Speech2Speech 端到端框架,突破了传统 ASR+LLM+TTS 的级联模式,将语音和文本模态进行深度融合,显著提升了对话效果。

Doubao-1.5-pro 在语音和推理能力上取得重大突破:模型创新性地将语音和文本 Token 直接融合,摒弃了传统的语音文本对齐方法,为语音多模态数据的 Scaling 奠定基础。

在推理领域,通过大规模 RL 方法和 Test Time Scaling 的算力优化,团队研发出 Doubao 深度思考模式。

最新的 Doubao-1.5-pro-AS1-Preview 版本在 AIME 基准测试中已超越 o1-preview、o1 等主流推理模型,通过持续的 RL 优化,模型的推理能力在多个领域展现出强大的泛化性。

从这一系列突破性进展来看,豆包无疑交出了一份令人满意的答卷。更何况,在当前「模型喂模型」盛行的环境下,坚持原创的定力和勇气本身就值得赞赏。

通过始终如一的自主研发、原创数据和持续优化,豆包用实际成果证明了「慢工出细活」的价值。或许我们都应该牢记,AI 赛道最大的弯道超车,应该是坚持不走捷径。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


刚刚,黄仁勋甩出三代核弹 AI 芯片!个人超算每秒运算 1000 万亿次,DeepSeek 成最大赢家

英伟达 GTC 大会已经成了 AI 界超级碗,没有剧本也没有提词器,中途黄仁勋被线缆卡住,反而是这场高浓度 AI 发布会里最有人味的片段,在当今提前基本提前彩排或录播的科技发布会里已经很稀缺了。

刚刚,黄仁勋再次发布了全新一代核弹级 AI 芯片,不过这场发布会的还有个隐藏主角——DeepSeek。

由于智能体 AI(Agentic AI)和推理能力的提升,现在所需的计算量至少是去年此时预估的 100 倍。

推理成本效率给 AI 行业带来影响,而不是简单地堆积计算能力,成为贯穿这场发布会的主线。英伟达要变成 AI 工厂,让 AI 以超越人类的速度学习和推理。

推理本质上是一座工厂在生产 token,而工厂的价值取决于能否创造收入和利润。因此,这座工厂必须以极致的效率打造。

黄仁勋掏出的英伟达新「核弹」也在告诉我们,未来的人工智能竞争不在于谁的模型更大,而在于谁的模型具有最低的推理成本和更高推理的效率。

除了全新 Blackwell 芯片,还有两款「真·AI PC」

全新的 Blackwell 芯片代号为「Ultra」,也就是 GB300 AI 芯片,接棒去年的「全球最强 AI 芯片」B200,再一次实现性能上的突破.

Blackwell Ultra 将包括英伟达 GB300 NVL72 机架级解决方案,以及英伟达 HGX B300 NVL16 系统。

Blackwell Ultra GB300 NVL72 将于今年下半年发布,参数细节如下:

  • 1.1 EF FP4 Inference:在进行 FP4 精度的推理任务时,能够达到 1.1 ExaFLOPS(每秒百亿亿次浮点运算)。
  • 0.36 EF FP8 Training:在进行 FP8 精度的训练任务时,性能为 1.2 ExaFLOPS。
  • 1.5X GB300 NVL72:与 GB200 NVL72 相比,性能为 1.5 倍。
  • 20 TB HBM3:配备了 20TB HBM 内存,是前代的 1.5 倍
  • 40 TB Fast Memory:拥有 40TB 的快速内存,是前代的 1.5 倍。
  • 14.4 TB/s CX8:支持 CX8,带宽为 14.4 TB/s,是前代的 2 倍。

单个 Blackwell Ultra 芯片将和前代一样提供相同的 20 petaflops(每秒千万亿次浮点运算) AI 性能,但配备更多的 288GB 的 HBM3e 内存。

如果说 H100 更适合大规模模型训练,B200 在推理任务中表现出色,那么 B300 则是一个多功能平台,预训练、后训练和 AI 推理都不在话下。

英伟达还特别指出,Blackwell Ultra 也适用于 AI 智能体,以及用于训练机器人和汽车自动驾驶的「物理 AI」。

为了进一步增强系统性能,Blackwell Ultra 还将与英伟达的 Spectrum-X 以太网和英伟达 Quantum-X800 InfiniBand 平台集成,为系统中的每个 GPU 提供 800Gb/s 的数量吞吐量,帮助 AI 工厂和云数据中心能够更快处理 AI 推理模型。

除了 NVL72 机架,英伟达还推出了包含单个 GB300 Blackwell Ultra 芯片的台式电脑 DGX Station。Blackwell Ultra 之外,这个主机还将配备 784GB 的同一系统内存,内置 800Gbps 英伟达 ConnectX-8 SuperNIC 网络,能够支持 20 petaflops 的 AI 性能。

而之前在 CES 2025 展示的「迷你主机」Project DIGITS 也正式被命名为 DGX Spark,搭载专为桌面优化的 GB10 Grace Blackwell 超级芯片,每秒可提供高达 1000 万亿次 AI 计算操作,用于最新 AI 推理模型的微调和推理,包括 NVIDIA Cosmos Reason 世界基础模型和 NVIDIA GR00T N1 机器人基础模型。

黄仁勋表示,借助 DGX Station 和 DGX Spark,用户可以在本地运行大模型,或者将其部署在 NVIDIA DGX Cloud 等其他加速云或者数据中心基础设施上。

这是 AI 时代的计算机。

DGX Spark 系统现已开放预订,而 DGX Station 预计将由华硕、戴尔、惠普等合作伙伴于今年晚些时候推出。

下一代 AI 芯片 Rubin 官宣,2026 年下半年推出

英伟达一直以科学家的名字为其架构命名,这种命名方式已成为英伟达文化的一部分。这一次,英伟达延续了这一惯例,将下一代 AI 芯片平台命名为「Vera Rubin」,以纪念美国著名天文学家薇拉·鲁宾(Vera Rubin)。

黄仁勋表示,Rubin 的性能将达到 Hopper 的 900 倍,而 Blackwell 相较 Hopper 已实现了 68 倍的提升。

其中,Vera Rubin NVL144 预计将在 2026 年下半年发布。参数信息省流不看版:

  • 3.6 EF FP4 Inference:在进行 FP4 精度的推理任务时,能够达到 3.6 ExaFLOPS(每秒百亿亿次浮点运算)。
  • 1.2 EF FP8 Training:在进行 FP8 精度的训练任务时,性能为 1.2 ExaFLOPS。
  • 3.3X GB300 NVL72:与 GB300 NVL72 相比,性能提升了 3.3 倍。
  • 13 TB/s HBM4:配备了 HBM4,带宽为 13TB/s。
  • 75 TB Fast Memory:拥有 75 TB 的快速内存,是前代的 1.6 倍。
  • 260 TB/s NVLink6:支持 NVLink 6,带宽为 260 TB/s,是前代的 2 倍。
  • 28.8 TB/s CX9:支持 CX9,带宽为 28.8 TB/s,是前代的 2 倍。

标准版 Rubin 将配备 HBM4,性能比当前的 Hopper H100 芯片大幅提升。

Rubin 引入名为 Grace CPU 的继任者——Veru,包含 88 个定制的 Arm 核心,每个核心支持 176 个线程,并通过 NVLink-C2C 实现 1.8 TB/s 的高带宽连接。

英伟达表示,定制的 Vera 设计将比去年 Grace Blackwell 芯片中使用的 CPU 速度提升一倍。

与 Vera CPU 搭配时,Rubin 在推理任务中的算力可达 50 petaflops,是 Blackwell 20 petaflops 的两倍以上。此外,Rubin 还支持高达 288GB 的 HBM4 内存,这也是 AI 开发者关注的核心规格之一。

实际上,Rubin 由两个 GPU 组成,而这一设计理念与当前市场上的 Blackwell GPU 类似——后者也是通过将两个独立芯片组装为一个整体运行。

从 Rubin 开始,英伟达将不再像对待 Blackwell 那样把多 GPU 组件称为单一 GPU,而是更准确地按照实际的 GPU芯 片裸片数量来计数。

互联技术也升级了,Rubin 配备第六代 NVLink,以及支持 1600 Gb/s 的 CX9 网卡,能够加速数据传输并提升连接性。

除了标准版 Rubin,英伟达还计划推出 Rubin Ultra 版本。

Rubin Ultra NVL576 则将于 2027 年下半年推出。参数细节如下:

  • 15 EF FP4 Inference:在 FP4 精度下进行推理任务时,性能达到 15 ExaFLOPS。
  • 5 EF FP8 Training:在 FP8 精度下进行训练任务时,性能为 5 ExaFLOPS。
  • 14X GB300 NVL72:相比 GB300 NVL72,性能提升 14 倍。
  • 4.6 PB/s HBM4e:配备 HBM4e 内存,带宽为 4.6 PB/s。
  • 365 TB Fast Memory:系统拥有 365 TB 的快速内存,是前代的 8 倍。
  • 1.5 PB/s NVLink7:支持 NVLink 7,带宽为 1.5 PB/s,是前代的 12 倍。
  • 115.2 TB/s CX9:支持 CX9,带宽为 115.2 TB/s,是前代的 8 倍。

在硬件配置上,Rubin Ultra 的 Veras 系统延续了 88 个定制 Arm 核心的设计,每个核心支持 176 个线程,并通过 NVLink-C2C 提供 1.8 TB/s 的带宽。

而 GPU 方面,Rubin Ultra 集成了 4 个 Reticle-Sized GPU,每颗 GPU 提供 100 petaflops 的 FP4 计算能力,并配备 1TB 的 HBM4e 内存,在性能和内存容量上都达到了新的高度。

为了在瞬息万变的市场竞争中站稳脚跟,英伟达的产品发布节奏已经缩短至一年一更。发布会上,老黄也正式揭晓下一代 AI 芯片的命名——物理学家费曼(Feynman)。

随着 AI 工厂的规模不断扩大,网络基础设施的重要性愈发凸显。

为此,英伟达推出了 Spectrum-X™ 和 Quantum-X 硅光网络交换机,旨在帮助 AI 工厂实现跨站点连接数百万 GPU,同时显著降低能耗和运营成本。

Spectrum-X Photonics 交换机具有多种配置,包括:

  • 128 端口 800Gb/s或 512 端口 200Gb/s 配置,总带宽达 100Tb/s
  • 512 端口 800Gb/s或 2048 端口200Gb/s配置,总吞吐量达 400Tb/s

与之配套的 Quantum-X Photonics 交换机则基于 200Gb/s SerDes 技术,提供 144 端口 800Gb/s 的 InfiniBand 连接,并采用液冷设计高效冷却板载硅光子组件

与上一代产品相比,Quantum-X Photonics 交换机为 AI 计算架构提供 2 倍速度和 5 倍可扩展性。

Quantum-X Photonics InfiniBand 交换机预计于今年晚些时候上市,而 Spectrum-X Photonics 以太网交换机预计将于 2026 年推出。

随着 AI 的快速发展,对数据中心的带宽、低延迟和高能效需求也急剧增加。

英伟达 Spectrum-X Photonics 交换机采用了一种名为 CPO 的光电子集成技术。其核心是将光引擎(就是能处理光信号的芯片)和普通的电子芯片(比如交换芯片或 ASIC 芯片)放在同一个封装里。

这种技术的好处很多:

  • 传输效率更高:因为距离缩短,信号传输更快。
  • 功耗更低:距离短了,传输信号需要的能量也少了。
  • 体积更小:把光和电的部件集成在一起,整体体积也变小了,空间利用率更高。

AI 工厂的「操作系统」Dynamo

未来将没有数据中心,只有 AI 工厂。

黄仁勋表示,未来,每个行业、每家公司拥有工厂时,都将有两个工厂:一个是他们实际生产的工厂,另一个是 AI 工厂,而 Dynamo 则是专门为「AI 工厂」打造的操作系统。

Dynamo 是一款分布式推理服务库,为需要 token 但又无法获得足够 token 的问题提供开源解决方案。

简单来说,Dynamo 有四个方面的优势:

  •  GPU 规划引擎,动态调度 GPU 资源以适应用户需求
  • 智能路由器,减少 GPU 对重复和重叠请求的重新计算,释放更多算力应对新的传入请求
  • 低延迟通信库,加速数据传输
  • 内存管理器,智能在低成本内存和存储设备中的推理数据

人形机器人的露脸环节,永远不会缺席

人形机器人再一次成为了 GTC 大会的压轴节目,这次英伟达带来了 Isaac GR00T N1,全球首款开源人形机器人功能模型。

黄仁勋表示,通用机器人技术的时代已经到来,借助 Isaac GR00T N1 核心的数据生成以及机器人学习框架,全球各地的机器人开发人员将进入 AI 时代的下一个前沿领域。

这个模型采用「双系统」架构,模仿人类的认知原理:

  • 系统 1:快速思考的动作模型,模仿人类的反应或直觉
  • 系统 2:慢思考的模型,用于深思熟虑的决策。

在视觉语言模型的支持下,系统 2 对环境和指令进行推理,然后规划动作,系统 1 将这些规划转化为机器人的的动作。

GR00T N1 的基础模型采用广义类人推理和技能进行了预训练,而开发人员可以通过真实或合成数据进行后训练,满足特定的需求:既可以完成工厂的特定任务,也可以在家里自主完成家务。

黄仁勋还宣布了与 Google DeepMind 和 Disney Research 合作开发的开源物理引擎 Newton。

一台搭载 Newton 平台的机器人也登上了舞台,黄仁勋称之为「Blue」,外观神似《星球大战》中的 BDX 机器人,能够用声音和动作和黄仁勋互动。

8 块 GPU,DeepSeek-R1 推理速度创全球之最

英伟达实现了全球最快的 DeepSeek-R1 推理。

官网显示,一台搭载 8 个 Blackwell GPU 的 DGX 系统,在运行 6710 亿参数的 DeepSeek-R1 模型时,可实现每用户每秒超过 250 个 token 的速度,或达到最高吞吐量每秒超过 30000 个 token。

通过硬件和软件的结合,自今年 1 月以来,英伟达在 DeepSeek-R1 671B 模型上的吞吐量提升了约 36 倍,每 token 的成本效率提高了约 32 倍。

为了实现这一成就,英伟达完整的推理生态系统已针对 Blackwell 架构进行了深度优化,不仅整合 TensorRT-LLM、TensorRT Model Optimizer 等先进工具,还无缝支持 PyTorch、JAX 和 TensorFlow 等主流框架。

在 DeepSeek-R1、Llama 3.1 405B 和 Llama 3.3 70B 等模型上,采用 FP4 精度的 DGX B200 平台相较于 DGX H200 平台,推理吞吐量提升超过 3 倍。

值得注意的是,此次发布会的主题演讲并未提及量子计算,但英伟达特意在这届 GTC 大会设置了量子日,邀请了多家当红量子计算公司的 CEO 出席。

要知道黄仁勋年初一句「量子计算还需 20 年才实用」的论断犹在耳畔。

一改口风的背后,离不开微软耗时 17年研发的拓扑量子芯片 Majorana 1 实现 8 个拓扑量子比特集成,离不开 Google Willow 芯片宣称用 5 分钟完成经典计算机需 10^25 年处理的任务,推动了量子计算的热潮。

芯片无疑是重头戏,但一些软件的亮相同样值得关注。

硅谷著名投资人马克·安德森曾提出软件正在吞噬世界(Software is eating the world)的论断,其核心逻辑在于软件通过虚拟化、抽象化和标准化,正在成为控制物理世界的基础设施。

不满足于做「卖铲人」,英伟达的野心是打造 AI 时代的「生产力操作系统」。从汽车智能驾驶,到制造业的数字孪生工厂,这些贯穿整场发布会的案例都是将 GPU 算力转化为行业生产力的具象化表达。

实际上,无论是发布会上亮相的最新核弹芯片,还是押注战未来的量子计算,黄仁勋在这场发布会上对 AI 未来发展的洞察和布局,都比当下的技术参数与性能指标更具看点。

在介绍 Blackwell 与 Hopper 架构的对比时,黄仁勋还不忘幽默一把。

他以一个 100MW 工厂的对比数据为例,指出采用 Hopper 架构需要 45,000 颗芯片和 400 个机架,而 Blackwell 架构凭借更高的效率显著减少了硬件需求。

于是,黄仁勋那句经典的总结再次抛出,「the more you buy, the more you save」(买得越多,省得越多)。」随后话锋一转,他又补充说,「the more you buy, the more you make」(买得越多,赚得越多)。

随着 AI 领域的重心从训练转向推理,英伟达更需要证明其软硬件生态在推理场景的不可替代性。

一方面,Meta、Google 等巨头自研 AI 芯片,可能分流 GPU 市场需求。

另一方面,英伟达最新 AI 芯片的适时亮相,回应如 DeepSeek 的开源模型对 GPU 需求的冲击,并展示推理领域技术优势,也是为了对冲市场对训练需求见顶的担忧。

最近估值跌至 10 年低位的英伟达,比以往任何时候都需要一场酣畅淋漓的胜利。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


首发体验|百度连发两个新模型对标DeepSeek,我让它挑西瓜、卖烧烤,细节全在这了

如果说去年没有自研类 GPT-4 模型是寸步难行,那么今年 AI 的发展方向愈发具象化——没有深度推理模型同样是万万不能。

这也激发了大厂在 AI 叙事的新一轮竞赛,除了接入 DeepSeek ,腾讯元宝、阿里夸克等都密集推出自己的深度思考模式,争夺 AI 时代的超级应用。

百度也不例外,自年初以来,旗下百度文库、文小言 App 等产品陆续整合了 DeepSeek-R1 模型。

当然,自研模型与接入 DeepSeek 并非对立的选择,也无需在二者间做非此即彼的取舍。

在文心一言初次亮相两周年之际,百度今天正式发布了文心大模型 4.5 以及深度思考模型 X1,APPSO 也受邀提前进行了体验。

简单概括这两款模型的「人设」:

  • ⽂⼼⼤模型 4.5:原⽣多模态基础⼤模型,擅长生成或解读图片、解答问题
  • 深度思考 X1:深度思考模型,支持多⼯具调⽤

两款模型已在文心一言官网上线,附上免费使用🔗

https://yiyan.baidu.com

挑西瓜、懂梗图、辨古画,文心 4.5 的多模态能力到底有多强?

先说文心 4.5,作为原⽣多模态基础⼤模型,它在多模态识别理解能力上给了我不少惊喜。

面对经典的挑西瓜环节,文心 4.5 给出了颜色、条纹、声音、瓜地等多种判断依据,但作为一个成熟且务实的 AI 老瓜农,它也没敢把话说死。

话糙理不糙,只有切开尝过才知道哪个西瓜最甜。

在识别「梗图」方面,文心 4.5 也手拿把掐。扔一张表情包试试水,它成功识别了这个猪猪侠的身份,而在另一张表情包的识别上,文心 4.5 不仅读懂字面意思,还能准确捕捉到背后的隐喻和言外之意。

这里有个小窍门,除了基本的分享功能,它的回答还能一键存百度网盘,或者自动生成文档,遇到 AI 的神回复还能随时收藏,操作衔接相当丝滑。

再考考理解力,脑筋急转弯走起。

「有一个字,人人见都会念错?是什么字?」这题它轻松拿下,没有被绕进去,逻辑推理过程条理清晰,还顺手抛出几个贴合主题的追问。

9.8 和 9.11 哪个大?小菜一碟。然而,我连续测试了几次「Strawberry 里有几个 r」,它的自信溢出屏幕,但也都接连翻车了。

来道能同时考究运算能力和图片识别能力的物理题。它先淡定分析结构,再逐一拆解选项,最后稳稳锁定正确答案 D,过程有理有据,颇有几分「物理课代表」的风采。

 

日常生活中,我经常会碰到一些不知出处的古画或者电影截图,最惯常的做法就是在社交平台上发帖和在评论区求助热心网友,现在或许可以丢给文心 4.5 试试。

经过测试,即便关闭联网搜索功能,它依然能一一精确作答。

除了图片,音频识别也不含糊,比如我随手用手机录了段《晴天》,它靠歌词秒认出歌曲,不过,碰上一些过于冷门小众的歌曲,就不太能指望它。

另外,不管是上传科技行业报告,还是前阵子李飞飞在 X 平台公开的那段 44 秒机器人最新成果演示视频,文心 4.5 的总结能力都让人挑不出毛病。

去年 11 月份,百度发布了检索增强的文生图技术 iRAG 技术,主打一个无幻觉,超真实。

其核心原理是将百度搜索的亿级图片资源与强大的基础模型能力相结合,通过检索真实可靠的图片数据,为生成图像提供精准的参考。现在文心 4.5 同样支持生成图片。

比方说,最近特斯拉市值波动剧烈。于是,我给世界首富马斯克谋了条出路,让文心 4.5 生成一张「马斯克夜晚摆摊卖烧烤」的照片,

烧烤摊还差个照片,别急,它还支持局部重绘功能,细节调整很人性化。

不过,它在生成文字上还有待改进,比方说,我想给马斯克「重绘」一个「马氏招牌」,要么文字模糊难以辨认,要么位置偏差,几轮尝试下来均以失败告终。

慢思考≠慢,X1 打开深度推理模型的正确使用方式?

再来说说,百度今天推出的深度推理模型 X1,这显然是对标 DeepSeek R1 的一款模型。

据官方介绍,⽂⼼⼤模型 X1 由百度 2023 年 10 ⽉发布的慢思考技术进化而来,理解、规划、反思、进化能力全面拉满,还支持多模态。

赶时间,把问题交给文心 4.5,复杂长任务则由深度推理能力更强的 X1 负责。

拿推荐广州美食这事来说,文心 4.5 只是潦草回答一些笼统的美食称呼,比如「肠粉」之类敷衍了事,而 X1 直接化身「贴心导游」,店名+地址一条龙奉上,更懂游客的心思。

面对经典的电车难题,X1 的思考时间并不算慢,分析得头头是道,还从不同伦理体系的角度聊了聊结果,深度和广度都在线。

再来一道更复杂的逻辑推理题,X1 的表现也可圈可点。

多⼯具调⽤是⽂⼼ X1 的特⾊之⼀。

官方表示,X1 目前已经解锁高级搜索、文档问答、图片理解、AI 绘图、代码解释器等多款工具。

我突发奇想,上传了一张心形图片,图片中实则嵌着一个数学公式,看似简单却颇具挑战性,毕竟从图像中提取数学信息需要较高的视觉理解和逻辑处理能力。

至于结果嘛,它顺利提取出公式内容,还解释了这个公式的含义。

复杂的文字生成能力也是 X1 的亮点,我首先要求 X1 生成一个 500 字的剧本,主题是「林黛玉倒拔垂杨柳」,剧本「以柔克刚」,保留了林黛玉的性格特征,还融入了戏剧化的冲突与转折。

紧接着,我进一步要求 X1 从心理学的角度分析这个剧本,并在此基础上润色出一版 1000 字的新剧本。

这次的任务显然更复杂,X1 运用的理论得当,虽然不算特别深刻,但对于一个 AI 模型来说,能在短时间内完成如此跨学科的解读,已属难能可贵。当然,也不是没有缺点,字数就没达到要求。

就回复而已,相比于 Deepseek 满嘴「通货膨胀」的社科黑话,X1 在语言输出上显然比较克制,表达更流畅也更接地气,多了一些直抵人心的温度。

DeepSeek 则以全面的思考见长,追求技术深度和思维广度,但语言上稍显疏远。

最近,科技博主 Alexander Doria 抛出个观点—— AI 领域的下一个发展周期将是「模型本身即产品」,谁能搞定模型训练,谁就握住了未来。

他还引用了 Databricks 投资人 Naveen Rao 的预测:

「未来 2-3 年,闭源 AI 提供商将停掉 API 服务,只有开源模型会继续提供 API,闭源公司会转而打造更独特的能力。」

反观国内市场,百度的表现颇具代表性。

自两年前文心一言发布以来,百度在自研模型上的投入持续加码,迭代节奏稳定,文心 4.5 和 X1 的亮相,同样是「模型即应用」趋势的最佳注脚。

前者靠万亿参数直击多模态能力,后者凭慢思考和多工具调用秀出推理肌肉。这种差异化的能力布局,精准契合了用户多样化的需求,更让模型本身从单纯的技术内核转变为可以直接上手使用的「产品」。

回溯历史,百度在搜索时代的技术积累和移动互联网时期的转型尝试,都曾让其站在风口之上,但也因节奏把握或市场竞争而错失一些先机。

映照当下,如果将 AI 比作「火种」,两年前的百度无疑是中国市场上最懂得用火的「普罗米修斯」。但奈何与过往一般,作为中国 AI「黄埔军校」的百度,却是起了个大早,赶了个晚集。

这离不开 AI 行业生态的潮水流动。

OpenAI CEO Sam Altman 曾在上月预测,使用固定级别 AI 的成本大约每 12 个月骤降 90%。

成本的快速下降削弱了闭源模式赖以生存的高壁垒,使得技术垄断的护城河逐渐变浅。与此同时,开源与免费的模式因其低门槛和高可及性,成为吸引用户、扩大技术影响力的新路径。

DeepSeek 和 Manus 接连在短时间快速渗透,也说明了目前 AI 产品还没有显著的壁垒,哪个体验更好用户就转向哪个,不会有一点留恋。

无论对于百度还是其他大厂,抑或独立开发者,似乎又回到了移动互联网兴起的草莽时代。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


英特尔官宣史上首位华人 CEO,芯片三巨头由华人掌舵

靴子落定,空悬了三个月之后,英特尔迎来了新的掌舵人。

英特尔官方宣布,董事会一致通过任命资深科技领袖、半导体行业专家陈立武(Lip-Bu Tan)为新任首席执行官,这一任命将于 2025 年 3 月 18 日正式生效。

他将接替临时联席首席执行官 David Zinsner 和 Michelle Johnston Holthaus 的职责。与此同时,陈立武还将重返英特尔董事会。此前,他曾在去年 8 月卸任董事一职。值得注意的是,陈立武也将成为英特尔有史以来首位华人 CEO。

目前,英特尔的原有核心班底暂未发生变动:

  • David Zinsner 将继续担任执行副总裁兼首席财务官。
  • Michelle (MJ) Johnston Holthaus 将继续担任英特尔产品首席执行官。
  • Frank D. Yeary 将恢复独立董事会主席的身份。

陈立武的入主,标志着一个引人注目的历史性时刻。至此,芯片行业三大巨头(英伟达的黄仁勋、AMD 的苏姿丰,以及英特尔的陈立武),全部由华人执掌。

对于此次任命,陈立武表示:

我很荣幸加入英特尔并担任首席执行官。我对这家具有标志性意义的公司怀有极大的敬意和钦佩,并且我看到了巨大的机遇,可以重塑我们的业务,以更好地服务客户,并为股东创造价值。

事实上,早在去年 12 月前任首席执行官帕特·基辛格(Pat Gelsinger)离职后,陈立武就一直是接任英特尔 CEO 的热门人选。当时,英特尔便询问他是否愿意接手这一重任。

65 岁,正是闯的年纪。

公开资料显示,现年 65 岁的陈立武出生于马来西亚,曾在新加坡南洋理工大学学习物理,同时拥有麻省理工学院核工程硕士学位和旧金山大学工商管理硕士学位。

作为一位长期活跃的技术投资者,他职业生涯横跨多个领域。自 1984 年起,他一直担任总部位于旧金山的风险投资公司 Walden International 的董事长。

陈立武拥有 20 多年的半导体和软件行业经验,并与英特尔生态系统建立了深厚的联系。

2009 年至 2021 年,他曾领导英特尔供应商兼芯片设计公司 Cadence Design Systems ,并推动了以客户为中心的创新文化转型。

他曾在 Cadence 董事会任职 19 年,自 2004 年被任命以来,持续领导公司至 2021 年卸任,随后担任执行董事长直至 2023 年。在他执掌 Cadence 期间,公司收入增长超过两倍,营业利润率显著提升,股价更是飙升超过3200%。

此外,他也曾担任惠普企业和软银集团的董事会成员。

2022 年,陈立武被任命为英特尔董事会成员,也正是在这一年,他荣获半导体行业协会(SIA)最高荣誉——罗伯特·诺伊斯(Robert N. Noyce)奖。

这一奖项以英特尔联合创始人、「硅谷之父」罗伯特·诺伊斯的名字命名,通常授予在科技、工程或教育领域作出杰出贡献的人物。

2023 年,英特尔进一步扩大了他的职责范围,包括监督公司的制造业务。然而,由于在如何扭转公司局势的问题上与管理层存在分歧,他于去年辞去董事会职务。

如今,陈立武接手的英特尔正处于历史上最为艰难的时期之一。

过去一年,英特尔的股价已下跌超过一半。

公司财报显示,截至去年 12 月 31 日,其代工部门的房地产及设备账面价值高达 1080 亿美元,但 2024 年公司净亏损达到 188 亿美元,这是自 1986 年以来首次出现亏损,主要源于大规模资产减值。

2023 年,英特尔实施了 5% 的裁员计划。到了去年,裁员规模扩大至 15% 以上,并计划持续贯穿 2024 年下半年。手起刀落之间,超过 15000 人遭到裁员。

大裁员只是计划中的一小部分,幸运留下的员工,也将面临勒紧裤腰带的日子:营销、行政费用、非研发费用,所有开支至少要削减100亿,逐年递减。

据外媒 Fortune 指出,近年来,英特尔最大的问题在于在各种选择之间摇摆不定,试图兼顾所有方向:

  • 英特尔到底是芯片设计公司,还是芯片制造公司?
  • 它的核心是 x86 架构,还是应该像其他芯片公司一样灵活采用不同架构?
  • 它是专注于 PC 和服务器芯片的公司,还是进军 AI 芯片领域?

而陈立武本人的经历似乎正是英特尔这种摇摆不定的缩影。

凭借丰富的背景,陈立武对芯片设计和制造均有深刻理解。他曾在 Cadence 领导芯片设计软件业务,同时与晶圆厂保持密切合作。

如果英特尔选择了一位财务背景的 CEO,那么拆分英特尔制造业务、让公司一分为二(正如部分前董事所主张的),几乎是板上钉钉的事情。

反之,如果英特尔选了一位深耕公司多年的老将,如前 CEO 克雷格·贝瑞特(Craig Barrett),那么英特尔则可能坚定维持统一的整体架构。

陈立武的任命,似乎是介于这两者之间的一种折中方案。

包括就在最近,他在一封致英特尔员工的信中明确表示,不会拆分公司的设计与制造业务。与之呼应的消息是,据路透社援引四位知情人士透露,台积电已向英伟达、AMD 和博通提出入股建议,计划参与一家运营英特尔工厂的合资企业。

根据提案,台积电将负责英特尔代工部门的运营,该部门专注于为客户定制芯片,但台积电的持股比例不会超过50%。此外,一位消息人士和另一独立来源透露,高通也收到了台积电的入股邀请。

目前,已有多家公司对收购英特尔部分业务表现出兴趣。但两位消息人士表示,英特尔拒绝了将其芯片设计部门单独出售、与代工业务分离的提议。

另据消息人士透露,高通已退出此前关于收购英特尔全部或部分业务的谈判。尽管英特尔董事会支持与台积电的交易并已展开谈判,但部分高管对此强烈反对。

英特尔代工业务是前 CEO 基辛格扭转公司战略的重要举措。

英特尔长期以来依赖其核心的 x86 架构芯片业务,但随着市场需求的多样化和技术的快速迭代,单一业务模式面临风险。据路透社上周报道,英伟达和博通正在使用英特尔最先进的 18A 制程进行生产测试。

AMD 也在评估 18A 工艺是否适用于其产品线。

在 2 月的谈判中,英特尔高管向台积电表示,其 18A 制程技术优于台积电的 2 纳米工艺。通过开放晶圆代工服务,英特尔不仅能够利用自身先进的制造能力获取更多收入,还能与全球客户建立更紧密的合作关系。

陈立武会做出怎样的抉择,能否带领英特尔重回巅峰?让我们拭目以待。

另外,英特尔官网显示,陈立武向英特尔公司全体员工发送了以下邮件:

陈立武:重塑英特尔,迎接未来

团队成员们,

我深感荣幸,也倍感谦卑,能成为你们的新任 CEO。

英特尔是一家我仰慕已久的公司。自孩提时代起,科学、技术和工程的力量便深深吸引着我,而英特尔的创新始终站在改变世界的前沿,引领着众多突破性的进展。

当然,我们都清楚,过去的成就并不代表未来的成功,尤其是在我们这样一个充满活力、竞争激烈的行业。技术变革的速度不断加快,市场竞争异常激烈。你们比任何人都更能体会到这一点,我也知道过去几年对大家和各自的团队来说并不轻松。

你们会慢慢了解我,我从不会被挑战吓倒。相反,它们一直激励着我去解决棘手的问题。在我即将加入英特尔之际,我相信,我们正处于公司历史上最关键的时刻之一,我们拥有一个独特的机会来重塑英特尔的未来。

当然,这绝不会是一条轻松的道路。但我之所以选择加入,是因为我坚信,我们完全有能力取得胜利。英特尔在美国乃至全球的科技生态系统中都扮演着至关重要的角色。我相信,只要我们齐心协力,就一定能够让公司重回正轨。

在我的领导下,英特尔将是一家以工程为核心的公司。我们要全力以赴,打造最优秀的产品,倾听客户的需求,并对我们的承诺负责,以赢得信任。

我的信念很简单:保持谦逊、努力工作、让客户满意。 只要坚守这三点,美好的事情自然会发生。这是我在每一份工作中都坚持的原则,也是我作为 CEO 领导公司前进的方式。

我们不能掉以轻心,必须定期深入评估我们的进展。在我们已经占据优势的领域,要加倍努力,扩大领先优势;在落后于竞争对手的领域,我们要敢于冒险,寻求突破,实现超越;在进展缓慢的地方,我们要找到新的方式加快步伐。

最重要的是,我们必须团结一致,拧成一股绳。在大学时期,我学到的最重要一课并非来自课堂,而是来自体育竞技。我学会了信任和依靠队友,因为我知道,那是通往胜利的唯一途径——而我最讨厌的事情就是失败。这种精神,是我们在英特尔建立制胜文化所必需的。

如今,比以往任何时候都更重要的是,我们的客户在期待着我们团结协作,为他们交付卓越的成果。这是我们最核心的目标,也是我们始终如一的首要任务。作为 CEO,我将赋予领导者们充分的责任感和决策权,让他们采取实际行动,推动业务发展。

我们正迎来一个特殊的机遇。在某种意义上,我们都是「新英特尔」的缔造者。我们要从过去的错误中汲取经验,把挫折转化为前进的动力,以行动取代分心,全力释放我们的潜能。

携手共进,我们将努力重塑英特尔的世界级产品实力,建立一流的晶圆代工业务,并为客户带来前所未有的体验。这是我们当前所处的时代所要求我们去做的,也是英特尔迈向未来的关键。

同时,我们也有责任为股东创造价值——这一点我同样高度重视,并相信,当我们重新聚焦客户时,业务的成功自然会带来股东价值的增长。

我感谢董事会对我的信任,赋予我带领这家伟大公司前行的机会。我很自豪能够加入这个团队,并对我们即将共同展开的工作充满期待。

致以最诚挚的敬意,

陈立武 (Lip-Bu Tan)

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


刚刚,OpenAl 发布 Agent 工具包,网友:谢谢 Manus AI

就在刚刚,OpenAI 发布了一系列专为构建 AI Agents 设计的新工具和 API,帮助开发者更容易地创建能自动完成任务的 AI Agents(智能体)。

OpenAI 认为虽然过去一年推出的高级推理、多模态交互等模型能力为 Agent 奠定了基础,但开发者在构建生产级 Agent 时,还会遇到不少难题。

为此,这次发布的核心产品包括全新的 Responses API、三种内置工具以及以及一个开源的 Agents SDK。

省流版如下:

  • Responses API:结合 Chat Completions API 简洁性与 Assistants API 工具使用能力的新型 API 接口
  • Web 搜索工具(Web Search Tool):让模型访问互联网获取最新信息的工具
  • 文件搜索工具(File Search Tool):从大量文档中检索相关信息的增强工具
  • 计算机使用工具(Computer Use Tool):由 Computer-Using Agent (CUA) 模型提供支持的计算机操作自动化工具,让 AI 能像人一样操作电脑界面
  • Agents SDK:基于 Swarm 框架升级,简化多 Agent 工作流程编排的开源框架

具体来说,Responses API 结合了 Chat Completions API(主要用来生成对话回复)的简洁性和 Assistants API(能让 AI 调用外部功能,比如查资料、操作东西)的工具使用能力,成为构建 Agent 应用的新基础。

在内置工具方面,Web 搜索工具支持 GPT-4o 和 GPT-4o-mini 模型获取网络最新信息并提供清晰的引用。在 SimpleQA 基准测试中,这两款模型的搜索预览版分别拿下了 90% 和 88% 的亮眼准确率。

升级后的文件搜索工具更是给力,支持多种文件格式,还能优化查询、过滤元数据、自定义排序,让开发者从堆积如山的文档中迅速找到关键信息。

计算机使用工具则由与 Operator 相同的 Computer-Using Agent (CUA)模型提供支持,可捕获模型生成的鼠标和键盘操作,在 OSWorld、WebArena 和 WebVoyager 基准测试中分别取得 38.1%、58.1% 和 87% 的成绩。

OpenAI 还推出了开源的 Agents SDK,专门用来简化多 Agent 工作流程的编排。

相比去年发布的实验性 Swarm 框架,这个全新 SDK 有了显著的改进,提供易于配置的 LLM 与内置工具集成、Agent 间智能交接控制、可配置安全检查以及可视化追踪等功能,适用于客户支持自动化、多步研究、内容生成等多种应用场景。

一些早期测试用户已经拿这些新工具做出了实打实的成果。

在官网列举的案例中,Hebbia 利用 Web 搜索工具帮助资产管理者和法律从业者从海量数据中提取可行见解;Navan 将文件搜索工具应用于 AI 旅行 Agent 中,为用户提供精准的旅行政策答案。

Unify 和 Luminai 则使用计算机使用工具自动化复杂操作流程,特别是对缺乏 API 的传统系统;Box 利用 Agents SDK 快速构建和部署了企业数据搜索应用。

产品发布后,网友也在 OpenAI 的评论区玩起了梗,甚至还有网友专门留言感谢 Manus AI。

在今天凌晨 1 点的现场直播中,演示人员也向我们展示了一个「个人造型师」 Agent 的应用案例,用来展示各种新工具的能耐。

举个例子,他们先用文件搜索工具翻看了用户(比如「Kevin」)的服装喜好数据,系统轻松整理出这些人的穿衣风格。

然后结合 Web 搜索工具,系统能够基于用户所在位置(演示中使用了「东京」作为 Kevin 的位置)搜索附近的相关商店,为 Kevin 推荐了东京的 Patagonia 店铺。

接着,计算机使用工具(Computer Use Tool)登场,自动操作网页界面,为 Kevin 买下一件黑色 Patagonia 夹克,整个过程行云流水——点击、拖拽、填信息,宛如真人在操控。

最后还演示了 Agent 间的交接功能。一个 Agent 将退货请求无缝交接给客服 Agent,后者能够调用获取密码和提交退款请求等功能,帮助用户完成 Patagonia 夹克的退货。

可以说,凭借新工具和 API 的默契配合,这些 AI Agent 不仅能读懂用户喜好、获取实时资讯、执行复杂操作,还能在不同任务间灵活切换,完美覆盖从推荐到购买再到退货的全流程。

至于现有 API 的安排,OpenAI 表示会继续全力支持 Chat Completions API,为不需要内置工具的开发者提供新模型和功能。

而基于 Assistants API 测试版的反馈,他们已经把关键改进整合到 Responses API 中,计划在功能对齐后,于 2026 年中期正式停用 Assistants API,同时会提供详细的迁移指南。

新工具的定价也新鲜出炉,Web 搜索每千次查询分别为 GPT-4o 搜索 30 美元和 GPT-4o-mini 搜索 25 美元;文件搜索每千次查询 2.5 美元,文件存储 0.1 美元/GB/天(首 GB 免费);计算机使用工具则按每输入百万 token/3 美元和每输出百万 token/12 美元计费。

OpenAI 表示,随着模型能力变得更加具有 Agent 属性,他们会继续深化 API 间的整合,并提供新工具帮助部署、评估和优化生产环境中的 Agent。

英伟达 CEO 黄仁勋曾表示,未来每个公司的 IT 部门将转变为 AI Agent 的「HR 部门」。

从管人到管 AI,Agent 将很快成为劳动力的重要组成部分,提高各行业的生产力,而此次发布的工具集只是帮助开发者和企业构建、部署和扩展可靠高效 AI Agent 的重要一步。

此前,开发者需要自行组合不同 API 和编写复杂的协调逻辑来构建 AI Agent,而新工具极大地简化了这一过程。

Responses API 将多种功能整合成一个简单接口,而内置工具为 AI 提供了「感知」和「行动」的能力,Agents SDK 则提供了协调多 Agent 的标准框架。

通过降低技术门槛,使得更多企业能够快速构建和部署 AI Agent,这或许也是 OpenAI 所说的「Agent 元年」的真正含义——让 AI 不再局限于聊天框,而是能融入现实工作流程,成为你的「数字助理」甚至「数字同事」。

附上 AMA 问答:

Q:哪种操作系统最适合 computer use:Linux、Mac 还是 Windows?是图形界面(UI)、终端(terminal),还是其他方式更好?哪些应用程序在计算机上表现最佳,还是说这并不重要?
A:CUA 模型主要是针对网页任务进行训练的,但早期用户发现它在桌面应用程序上的表现也出乎意料地好。不过现在还处于早期阶段,我们还有很多可以改进的地方!

Q:你们会提供 TypeScript SDK 吗?
A:是的!我们很快会推出 TypeScript SDK,敬请期待!

Q:我们未来会在 API 中看到 o1 pro 吗?
A: 是的,我们计划很快在 responses API 中发布它!

Q:我们需要自行管理 Docker 环境来使用计算机功能吗?
A: 如果你愿意,你可以自行管理 Docker 环境,但你也可以使用云服务,比如 @browserbasehq 或 @scrapybara。

Q:何时会有 Operator 在 API 中可用?
A:从今天开始,你可以在 API 中使用与 Operator 相同的功能!我们已经在新的 Responses API 中部署了驱动 Operator 的 CUA 模型。

Q:你们会考虑提供集成的虚拟机(VM)来支持「 computer use」,或者与合作伙伴合作,以减少搭建环境的需求吗?
A:目前还没有这样的计划,但你可以查看 CUA 示例应用,其中包含一些示例环境,包括 @scrapybara 和 @browserbasehq,用于远程托管。

Q:在整个 agent-handoff 流程中,如何确保个人隐私?有没有什么方法可以增强用户与 Agent 交互时的隐私保护?
A: 我们有多种隐私保护机制。Agents SDK 支持开发者定义的安全措施(guardrails),用于输入/输出验证。此外,你可以使用 input_filter 来限制在交接过程中传递的消息上下文。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


套壳的 AI 产品,不可耻,也有用

短短几天,Manus 成了衡量 AI 产品优劣的最佳试金石。

近期,Manus 在海外的热度暴涨,,外国大 V 自发在 X 平台转发宣传,《福布斯》更是直接盖章定调,冠上了「第二个 DeepSeek 时刻」的称号。

让子弹再飞一会儿,却净是反转、反转、再反转。噪声太多,容易淹没对一款产品价值的判断。在业内,AI Agent 的落地早已心照不宣,底层基础模型的进步,Deep Research 的广泛普及,都为犹在襁褓的 Manus 席卷全网扫除了不少认知障碍。

在喧嚣之外,我们需要重新审视,一个套壳 AI 产品对用户和行业是否有价值?在 AI 快速迭代的今天,创新的定义是什么?

Manus 海外风评如何

Manus 的爆火来得猝不及防,以至于连团队也没有准备好迎接这泼天的流量。

合伙人张涛近日发文称低估了大众的热情,目前服务器资源无法满足市场需求,因此只好采用邀请码机制,同时也表示团队正在全力输出,争取让大家早日体验到更好的产品。

与刻意降低国内存在感的策略不同,Manus 这几天反而向不少海外 X 博主大 V、以及 Reddit 社交平台陆续开放不少邀请码,有意借势推高热度。

拿到使用权的 @deedydas 让 Manus 对特斯拉股票进行专业的分析,结果它在大约一个小时内完成了通常需要大约两周才能完成的的专业级工作。这效率,不比打工人好用(不是)。

[

先别羡慕 AI 三小时做的小游戏,9 天赚 12 万,manu 也能做。@_akhaliq 让 Manus 用 three.js 打造一款无尽跑酷游戏,画面游戏有些粗糙,但游戏机制相当完善。

搞钱才是王道,这也是网友对 Manus 呼声最高的要求。使用 Manus 构建一个仪表板,筛选出日本符合收购条件的上市公司作为潜在的收购目标,还能打造成 90 年代风格的日本视频游戏。

结果也是完美交付,让人挑不出毛病。

▲游戏地址:https://zaomhjnv.Manus.space/

@LamarDealMaker 对 Manus 的能力赞不绝口,称其为最疯狂的 AI Agent。

Manus AI 在极短的时间内为他规划了一次为期两个月的家庭旅行,路线涵盖澳大利亚、新西兰、阿根廷和南极洲,安排得滴水不漏。并且,它还能够自动分配任务、浏览网页研究,最终奉上了一份涵盖住宿、预算和美食指南的详细行程。

另一位用户 @ivanfioravanti 则秀出了 Manus AI 用 p5js 做的动画,创意和效果双双在线。

Hugging Face 的产品负责人称 Manus 是「我用过的最令人印象深刻的 AI 工具」。AI 政策研究员 Dean Ball 将 Manus 描述为「最复杂的 AI 计算」。

要说 Manus 的重量级背书,绝对少不了两位比较重磅的人物。

一个是 Twitter 创始人 Jack Dorsey,直接甩出了「excellent」的评价,言简意赅但分量十足。另一个则是 X 博主 Rowan Cheung,他所创立的 therundownai 可以说是 X 平台阅读量最大的 AI 新闻快讯自媒体。

Rowan 前几天还没体验 Manus,却在海外率先喊出「中国第二个 DeepSeek 」。截至目前,那条推文也在 X 平台狂揽 276 万的阅读量。

直到最近,Manus 团队也向 Rowan Cheung 分享了邀请码。

创建 Rowan Cheung 的传记、并据此部署网站;分析旧金山最佳租车地点;创建一门关于内容创作 AI 的完整课程,Manus 的表现也都可圈可点。

先说好评,还有差评,@mckaywrigley 给 Manus 打了个大大的好评,认为它的底层代理模型和 UI 都做得无可挑剔,但这位博主也话里有话,主打一个未来可期,点到即止。

@ai_for_success 是最早一批点赞 Manus 的博主。

同样地,他其实最开始并未拿到邀请码,体验后,他表示,「Manus AI 太疯狂了,我以前从未使用过类似的东西。」还特意加了个免责声明,说自己没拿 Manus 一分钱。

尽管案例很高大上,但问题是计算是否正确,他的心里也没底。

相比 OpenAI 的 Deep Research,医学博士 @DeryaTR_ 就指出 Manus 历经两轮尝试,都未能顺利完成任务,且耗费时间过长。

有趣的是,Manus 创始人季逸超今天在 X 平台发文称,Manus 为了提高系统性能而降低了故障率,但结果用户的会话现在运行时间更长,且由于系统负荷过重,Manus 故障率又开始回升。

站在福布斯的另一端,外媒 TechCrunch 则指出 Manus 可能不是中国的第二个「DeepSeek 时刻」,几轮体验下来都以任务失败告终。

极致的套壳,就是胜利

Manus 爆火后,网友们抛出的头号疑问是,它真就有技术壁垒吗?

张涛曾在混沌学园采访中谈到,单纯的「套壳」(即直接使用大模型的技术输出)在 AI 普及的背景下,难以成为核心壁垒。真正重要的是找到市场需求和商业逻辑,利用 AI 这个「通用商品」创造独特的价值。

换句话说,套壳只是起点,关键在于如何构建需求驱动的差异化优势。

昨日,网友 @jianxliao 因为疑似套出 Manus 系统提示词和运行代码,引来了季逸超的回应。

回应的细节很多,但较为值得关注的是,当被问及 Manus 的基础模型时,他表示目前使用的是 Claude 和 Qwen 微调模型。并且,Manus 采用多 agent 协作的架构设计。

早在 Manus 崭露头角前,海外如 OpenAI 的 Deep Research 已是相对成熟的产品。据 The Information 报道,OpenAI 甚至还计划推出一款每月高达 2 万美元的博士级 Agent。

某种意义上,Manus 的成功像是「摸着前人石头过河」。

技术若无热度,便如深谷孤响,Manus 有了足够的热度和关注,也吸引更多人投入资源和精力去研究、复现甚至开源类似的技术。

最近,MetaGPT 的 4 名团队成员在 GitHub 发布了名为「OpenManus」的开源项目,旨在复刻 Manus 的核心功能,同时大幅降低使用门槛。

团队宣称,该项目仅花费了 3 小时便开发完成。

快是快了,但这种速度带来的代价是功能和效果上的妥协,OpenManus 更偏向技术验证和社区协作,功能深度也更聚焦,无法像 Manus 那样覆盖广泛场景。

截至发稿前,OpenManus 在 GitHub 已收获超 2.6 万的星标。

据官方介绍,OpenManus 支持 SEO 审计与报告生成,同时采用轻量化设计。其基于 MetaGPT 的多智能体协作框架,支持利用不同角色分工并自动化生成代码与文档。

此外,OpenManus 的开源特性,允许社区为其贡献扩展功能。该项目的底层支持来自 Anthropic 的 computer-use 和 browser-use。

▲GitHub 🔗:https://github.com/mannaandpoem/OpenManus?tab=readme-ov-file

置身于风暴中心,OpenManus 背后的四名成员连同他们的过往经历,迅速被媒体扒出:

  • 梁新兵:华东师范大学硕士,曾参与爆款 AI Agent 项目 Data Interpreter 的开发。
  • 张佳钇:中国人民大学高瓴人工智能学院本科生,目前在香港科技大学(广州)攻读博士,其参与的智能体框架 AFlow 刚被深度学习顶会 ICLR 2025 接收。
  • 向劲宇:西南交通大学应用物理学本科,曾在 2024 年阿里巴巴全球数学竞赛 AI 赛道斩获全球第二。
  • 于兆洋:中国人民大学高瓴人工智能学院本科生,与校友张佳钇曾凭 MathAI 方案在阿里数学竞赛 AI 赛道拿下全球第三。

同样在 3 月 7 日,CAMEL AI 的 OWL 项目公布,并剑指 Manus。

官方表示 OWL 直接做到开源界 GAIA 性能天花板,达到了 58.18%,超越 Huggingface 提出的 Open Deep Research 55.15% 的表现。

在官方给出的演示案例中,让 OWL 查询今天伦敦有哪些电影上映。

它会自动生成待办事项规划并编写任务清单,开始浏览网页,搜索伦敦地区符合条件的电影院。

整个过程宛如真人操作,流畅地执行滚动、点击、输入以及实时信息检索等步骤,最终为用户呈上一份详尽的当日电影总结报告。

据 CAMEL AI 介绍,OWL 通过逆向工程将 Manus 工作流拆解为 6 步,并开源所有模块;支持 GitHub 一键 clone,同时工具链能够自由扩展,执行环境也支持云端和本地任选。

CAMEL AI 强调,OWL 完全免费,且优化了 Token 消耗。

▲GitHub 🔗:https://github.com/camel-ai/owl

然而,与这些后续开源项目相比,Manus 的真正优势在于更早抓住了行业痛点,如何将复杂多智能体协作技术转化为用户可感知的价值。

精心设计的用户界面、相对透明的流程优化,Manus 将复杂的技术包装成了易于理解和使用的产品,也为第一波热度添柴加火。

并且,Manus 的爆火,某种程度上源于它在对的时间踩中了风口。

黄仁勋曾经在 CES 预言,随着 AI Agent 浪潮席卷,未来 IT 部门将转型为 AI「员工」的人力资源部门。Manus 同样正是基于这一趋势,向用户展示了一个能够有效管理多个 AI 智能体协作的平台。

诚然,业内虽对「套壳」嗤之以鼻,套壳可以是起点,不应该是终点。

但用季逸超的话来说,极致的套壳就是胜利。Manus 能够将现有技术包装并推出满足用户需求的产品,应用端的创新同样不可忽视。

类似的案例比比皆是,同样作为现象级产品,AI 搜索引擎 Perplexity 也因为「套壳」而置于风口浪尖之上,但其创始人 Aravind 却也看得通透:

只有当你真正有了值得「护」的东西时,护城河才有意义。人们可以将 Perplexity 看做是一个 AI 套壳,但成为一个拥有十万用户的套壳产品显然比拥有自有模型却没有用户更有意义。

Perplexity 采取的策略奏效了。发展不过三年,月活跃用户已逼近 1 亿,庞大的用户基础,随之而来的海量搜索数据,其市场影响力也在日渐增强。

他们的成功路径清晰可见,先打造产品、紧盯市场需求,然后通过不断迭代产品来收集用户反馈和搜索行为数据,为后续自研模型打下了坚实基础。

资本市场的正反馈对这种商业模式给予了有力背书,Perplexity 的市场估值实现「三级跳」,在去年 12 月完成新一轮融资后,一路飙升至 90 亿美元。

流量如潮水,Manus 的长期价值是否经得起考验,仍有待时间的考验。

但在此之前,对于绝大多数 AI 初创企业来说,先果断抓住市场中那一小块关键红利,循序渐进地积累实力。当这些短期红利转化为企业自身实力后,技术壁垒或许也就水到渠成。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


GPT-4.5 重磅发布!OpenAI 最大最贵模型,没把 DeepSeek 当对手

朋友,先别急着退订 ChatGPT 会员。

最近,DeepSeek 开源周搞得热火朝天,全球开发者忙着分享代码、碰撞灵感;而另一边,OpenAI 却选在开源周最后一天冷不丁地丢出了 GPT-4.5 这个「大杀器」。

Sam Altman 在 X 平台在 X 分享了他的个人体验:

这是我第一次觉得 AI 像在与一位深思熟虑的人对话。它真的能提供有价值的建议,甚至让我有几次靠在椅子上,惊讶于 AI 竟然能给出如此出色的回答。

不过,他也特别提醒,GPT-4.5 不是推理型模型,不会在基准测试中碾压其他模型。而他之所以没有亮相发布会,原因是在医院照顾小孩。

从今天开始,ChatGPT Pro 用户已经用上 GPT-4.5(研究预览版)了。下周,将会逐步开放给 Plus 和 Team 用户;再下一周,Enterprise 和 Edu 用户也能体验到这个新版本。

体验方式十分简单,只需在网页版、移动端和桌面端的模型选择器即可切换使用。

GPT-4.5 支持联网搜索,并能够处理文件和图片上传,还可以使用 Canvas 来进行写作和编程。不过,目前 GPT-4.5 还不支持多模态功能,如语音模式、视频和屏幕共享。

GPT-4.5 主要通过「无监督学习」(就是自己从大量数据中学习)变得更聪明,而不是像 OpenAI o1 或者 DeepSeek R1 那样专注于推理能力。

简单说,GPT-4.5 知道的更多,而 o1 系列更会思考。

亮点概括如下:

  • 知识更广泛:它学习了更多的信息,所以懂的东西比以前多
  • 更少胡说八道:减少了「幻觉」(就是 AI 编造事实的情况)
  • 更懂人心:「情商」更高,更能理解你的真实意图
  • 对话更自然:聊天感觉更像和真人交流,不那么机械
  • 创意更丰富:在写作和设计方面表现更好

GPT-4.5 正式发布,更懂你的心了

GPT-4.5 最直观的变化就是更懂你。

它更像一个善解人意的朋友,能够理解你的言外之意,捕捉你微妙的情感变化。

OpenAI 在内部测试中发现,与 GPT-4o 相比,测试人员更喜欢 GPT-4.5 的回答,认为它更自然、更温暖、更符合人类的交流习惯。

在与人类测试者的对比评估中,GPT-4.5 相较于 GPT-4o 的胜率(人类偏好测试)更高,包括但不限于创造性智能(56.8%)、专业问题(63.2%)以及日常问题(57.0%)。

作为 OpenAI 迄今为止规模最大、知识最丰富的模型,GPT-4.5 在 GPT-4o 的基础上进一步扩展了预训练,并被设计为比 OpenAI 以 STEM 领域推理为重点的强大模型更加通用。

GPT-4.5 的突破,很大程度上归功于「无监督学习」的进步。

简单来说,无监督学习就是让 AI 自己从海量数据中学习,而不是靠人工标注数据。

这就好比让一个孩子自己去看世界,而不是事事都由大人告诉他。这样,孩子就能学到更多更丰富的知识,形成自己的「世界观」。

OpenAI 认为,无监督学习和推理能力是 AI 发展的两大支柱。

得益于此,GPT-4.5 的知识面更广,对用户意图的理解更精准,情绪智能也有所提升,因此特别适用于写作、编程和解决实际问题,同时减少了幻觉现象。

SimpleQA 用于评估大语言模型(LLM)在简单但具有挑战性的知识问答中的事实性。而 GPT-4.5 在 SimpleQA 准确率(数值越高越好)达到 62.5%,遥遥领先于 OpenAI 其它模型。

另外,在 SimpleQA 幻觉率(数值越低越好)的评估中,GPT-4.5 的分数为 37.1%,也和 OpenAI 其它模型拉开差距。

在 PersonQA 数据集上,GPT-4.5 取得了 0.78 的准确率,优于 GPT-4o(0.28)和 o1(0.55)。

此外,OpenAI 对 GPT-4.5 进行了广泛的安全测试,包括有害内容拒绝、幻觉评估、偏见检测、越狱攻击防护等:GPT-4.5 在拒绝不安全内容方面表现良好,但在过度拒绝(overrefusal)方面比前代模型稍高。

多语言性能方面,GPT-4.5 支持 14 种语言,在 MMLU 评估中超越了 GPT-4o,尤其在低资源语言(如斯瓦希里语、约鲁巴语)上有明显提升。

至于编程和软件工程,GPT-4.5 代码生成和修复任务表现有所提升。

Agentic Tasks 评估的是 AI 在真实环境中独立完成复杂任务的能力,包括终端操作(Linux + Python 环境)、资源获取(如自动下载、运行程序)以及复杂任务执行(如加载和运行 AI 模型)等。

OpenAI 发布的系统卡显示,GPT-4.5 在自主任务方面仍然受到一定限制,远未达到真正的自主 AI Agent。

除了普通用户,GPT-4.5 也向开发者敞开了大门。

OpenAI 同步开放了 GPT-4.5 的 API,包括 Chat Completions API、Assistants API 和 Batch API。

GPT-4.5 支持函数调用(function calling)、结构化输出(Structured Outputs)、流式响应(streaming)和系统消息(system messages),并且具备视觉能力,可通过图像输入进行处理。

开发者可以通过 API 接口将 GPT-4.5 集成到自己的应用中,创造出更多有趣、有用的产品。

不过,GPT-4.5 计算量极大,成本高昂,因此并不会取代 GPT-4o。并且,OpenAI 仍在评估是否长期在 API 中提供 GPT-4.5,以便在支持当前功能的同时,继续推进未来模型的开发。

AI 进入「拼情商」时代?

本次直播环节由 Mia Glaese、Rapha Gontijo Lopes、Youlong Cheng、Jason Teplitz 和 Alex Paino 主持。

当演示人员要求写一条愤怒短信给频繁取消约会的朋友时,GPT-4.5 能够识别出用户的沮丧情绪,并给出了更加微妙且建设性的回应,帮助用户以更理性的方式表达感受。

另一个演示则展示了 GPT-4.5 在解释复杂问题上的能力,「为什么海水是咸的?」

GPT-1 完全不知道答案,GPT-2 给出相关但错误的回答,GPT-3.5 Turbo 首次给出正确但解释不充分的答案,GPT-4 过于详尽列举事实,而 GPT-4.5 则提供了简洁、连贯且有趣的解释,开头使用了甚至使用了朗朗上口的句式。

据介绍,OpenAI 在开发 GPT-4.5 时实现了几项关键的训练机制创新。

训练如此大规模的模型需要显著提升后训练(post-training)基础设施,因为预训练阶段和后训练阶段的训练数据与参数大小比例完全不同。

团队开发了一种新的训练机制,能够使用更小的计算资源来微调如此大型的模型。

具体来说,他们通过多次迭代,结合了监督式微调(supervised fine-tuning)和基于人类反馈的强化学习(reinforcement learning with human feedback)来完成后训练过程,最终开发出了可以部署的模型。

在预训练方面,由 Alex 和 Jason 领导的团队采取了多项措施来最大化计算资源的利用:

  • 使用低精度训练(low precision training)来充分利用 GPU 性能
  • 跨多个数据中心同时预训练模型,因为他们需要的计算资源超过了单一高带宽网络架构所能提供的上限

此外,团队构建了新的推理系统,确保模型能在 ChatGPT 中快速响应用户,保持对话的流畅性。同时,他们表示将在发布后继续改进,使模型运行更快。

这些训练和部署机制的创新使团队能够将更多计算能力注入模型中,从而实现无监督学习的大规模扩展,这也是 GPT-4.5 能够在不依赖逐步推理的情况下,仍然展现出强大理解能力和较低幻觉率的关键原因。

值得一提的是,OpenAI 的首席研究官 Mark Chen 在 GPT-4.5 发布之前接受了 Alex Kantrowitz 的采访。

当被问到 OpenAI 是否在模型运行效率方面有所改进时,他表示:

让模型的运行更高效这一过程,通常与模型核心能力的开发相对独立。我看到很多工作都集中在推理(Inference)架构上。DeepSeek 在这方面做得很好,而我们也在这方面投入了大量精力。我们非常关注如何以更低的成本向所有用户提供这些模型服务,并一直在努力降低成本。

无论是 GPT-4 这样的推理模型,还是其他模型,我们始终在推动更低成本的推理优化。从 GPT-4 最初发布以来,运行成本已经降低了多个数量级,我们在这方面取得了不错的进展。

随后,当被问及当前的 Scaling Law 是否已经遇到瓶颈,或者是否观察到扩展带来的收益递减时,Mark Chen 回答道:

「我对 Scaling 有不同的理解。当涉及无监督学习时,你需要更多的关键要素,比如计算资源、算法优化以及更多的数据。而 GPT-4.5 确实证明了我们可以继续推进扩展范式,而且这种范式并不与推理能力相对立。

推理能力需要建立在知识的基础之上。一个模型不能凭空推理,而是需要先获取知识,再在此基础上发展推理能力。因此,我们认为这两种范式是相辅相成的,并且它们之间存在相互促进的反馈循环。」

实际上,GPT-4.5 不仅展示了无监督学习的巨大潜力,也预示着 AI 的发展方向——更像人。

过去,AI 的发展主要集中在提高智力,比如下棋、做题、识别图像等。而现在,与两年前 GPT-4 横空出世时引发的轰动不同,人们对 AI 的期待已经从两年前的「能做什么」转向当下「能做得更好、更安全、更可控」。

越来越多的 AI 公司开始关注「情商」,试图让 AI 更懂人类的情感和需求。

GPT-4.5 就是这一趋势的代表。投入资源,研发更懂人心的 AI 依旧是行业值得关注的命题。不过,GPT-4.5 虽然展示了基于海量数据和算力的语言模型所能达到的高度,但它的表现依然显得有些捉襟见肘。

从这个角度看,它或许更像画上了阶段性的句点,扮演了一个承上启下的过渡角色。既是对过去几代模型的总结与修补,也是在为下一波技术浪潮铺路。

真正的突破,可能还得等 GPT-5 来实现。

担心留给 OpenAI 的迭代时间不够,别急,我有一招,虚假的版本迭代是 GPT-4.5→GPT-5,在接下来的「数月内」,真实的发布节奏应该是 GPT-4.5→GPT-4.6→GPT-4.7→…

好消息是,这一次估摸着不用再等上两年了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


一文看懂 DeepSeek 开源项目第三弹,300 行代码揭示 V3/R1 推理效率背后的关键

开源周进行到第三天,DeepSeek 不仅带来了技术,还传出 R2 正在路上的好消息。作为用户,一边见识着 DeepSeek 抛出来的一个个技术库,还能看到应用了这些技术的模型,怎么不算一种见证巨星的诞生。

今天出场的是 DeepGEMM,是一个专为干净、高效的 FP8 通用矩阵乘法 (GEMM) 而设计的库,具有细粒度缩放功能,如DeepSeek-V3中所述。它支持普通和混合专家 (MoE) 分组 GEMM。该库用 CUDA 编写,在安装过程中无需编译,而是使用轻量级即时 (JIT) 模块在运行时编译所有内核。

没有说 DeepSeek 不厉害的意思,但这三天的开源都能看出,即便背靠幻方,他们始终不像大厂那样资源雄厚,必须在压榨计算资源方面狠下功夫。

包括这次的 GeepGEMM 仍然没有离开这个主旋律,相比于之前的技术,DeepGEMM 的优势在于:

  • 更高的效率:通过 FP8 和两级累积降低了计算和内存开销
  • 灵活的部署:JIT 编译适应性强,减少预编译负担
  • 针对性优化:支持 MoE 并深度适配 Hopper 张量核心
  • 更简洁的设计:核心代码少,避免复杂依赖,便于学习和优化

这些特性使其在现代 AI 计算中脱颖而出,尤其是在需要高效推理和低功耗的场景下

为现代 AI 计算而造

更高的效率和更灵活的部署,是 DeepGEMM 的亮点,核心逻辑仅约 300 行代码,却在大多数矩阵尺寸上超越了专家级别调优的内核。Hopper GPUs 上最高可达 1350+ FP8 TFLOPS。

FP8 是一种压缩数字的方法,相当于把原本需要 32 位或 16 位存储的数字,精简成 8 位存储。就像你用更小的便利贴记笔记,虽然每张纸能写的内容少了,但携带和传递更快

这种压缩计算的好处是内存占用减少——同样大小的任务,需要的「便利贴」更少,搬运小纸片比大文件快,因此计算速度也更快。但挑战是很容易出错。

为了解决 FP8 精度问题,DeepGEMM 用了巧妙的「两步法」:用 FP8 进行大批量乘法,像用计算器快速按出一串结果。这个步骤里,误差在所难免。

但没关系,还有第二步:高精度汇总。每隔一段时间,就把这些结果转成更精确的 32 位数累加,像用草稿纸仔细核对总和,避免误差积累。

先跑,再通过两级累积防错。通过这种设计,DeepGEMM 让 AI 模型在手机、电脑等设备上运行得更流畅,同时减少耗电,适合未来更复杂的应用场景

包括对 JIT 编译的应用,也是类似的思路。JIT编译,全称是「Just-In-Time」编译,中文可以叫即时编译,相对应的概念是静态编译。

一般的程序在你用之前就得全部写好、编译好,变成电脑能懂的语言,但 JIT 编译不一样,它是程序运行的时候才把代码变成电脑能执行的指令。

它可以根据你的电脑情况(比如NVIDIA Hopper显卡)现场调整代码,量身定制出最适合的指令,不像提前编译那样死板,这样程序就能跑得更顺畅。只编译当下要用的部分,不浪费时间和空间,让一切都变得刚刚好。

Hopper 张量核心和 JIT 编译是最佳搭档。JIT编译可以在运行时根据你的Hopper显卡情况,现场生成最优的代码,让张量核心的计算效率拉满。

DeepGEMM 支持普通 GEMM 和混合专家(MoE)分组 GEMM,这些任务的计算需求各不相同。JIT 编译能根据任务特点,临时调整代码,直接调动张量核心的FP8计算或变换引擎功能,减少浪费,提高速度。

怎么形容这样一种技术路线呢:纤巧、轻量、锋利

对于广大开发者来说,DeepGEMM 可以说是又一个福音。以下是部署相关的信息,大家不妨玩起来。

DeepGEMM 部署指南

DeepGEMM 是一个专为 FP8 通用矩阵乘法(GEMM)优化的库,具备精细的缩放机制,并在 DeepSeek-V3 中提出。它支持标准 GEMM 和混合专家(MoE)分组 GEMM。该库采用 CUDA 编写,无需在安装时进行预编译,而是通过轻量级的即时编译(JIT)模块在运行时编译所有核心函数。

目前,DeepGEMM 仅支持 NVIDIA Hopper 张量核心。针对 FP8 张量核心计算精度不足的问题,它采用 CUDA 核心的两级累积(提升)技术进行优化。尽管借鉴了一些 CUTLASS 和 CuTe 的概念,DeepGEMM 并未过度依赖它们的模板或数学运算,而是以简洁为目标,仅包含一个核心计算核函数,代码量约 300 行。这使得 DeepGEMM 成为学习 Hopper FP8 矩阵乘法与优化技术的清晰且易于理解的参考资源。

尽管设计简洁,DeepGEMM 在各种矩阵形状下的性能可与专业优化的库媲美,甚至在某些情况下表现更优。

性能

我们在 H800 上使用 NVCC 12.8 进行测试,涵盖 DeepSeek-V3/R1 推理过程中可能使用的所有矩阵形状(包括预填充和解码,但不涉及张量并行)。所有加速比指标均基于我们内部精心优化的 CUTLASS 3.6 实现进行对比计算。

DeepGEMM 在某些特定矩阵形状下的表现不够理想,如果你对优化有兴趣,欢迎提交优化相关的 PR。

密集模型的标准 GEMM

MoE 模型的分组 GEMM(连续布局)

MoE 模型的分组 GEMM(掩码布局)

快速开始

环境要求

  • Hopper 架构 GPU,需支持 sm_90a
  • Python 3.8 及以上版本
  • CUDA 12.3 及以上版本(强烈推荐使用 12.8 及以上版本以获得最佳性能)
  • PyTorch 2.1 及以上版本
  • CUTLASS 3.6 及以上版本(可通过 Git 子模块克隆)

开发

# Submodule must be cloned
git clone –recursive git@github.com:deepseek-ai/DeepGEMM.git

# Make symbolic links for third-party (CUTLASS and CuTe) include directories
python setup.py develop

# Test JIT compilation
python tests/test_jit.py

# Test all GEMM implements (normal, contiguous-grouped and masked-grouped)
python tests/test_core.py

安装

python setup.py install

然后,在你的 Python 项目中导入 deep_gemm,尽情使用吧!

附上 GitHub 开源地址:
https://github.com/deepseek-ai/DeepGEMM

作者:刘娅、莫崇宇

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


深夜重磅!全球首个混合推理模型发布,Claude 能「思考」了,实测发现这些细节

就在刚刚,Claude 3.7 Sonnet 正式发布。

作为 Claude 有史以来最智能的模型,它采用混合推理方式,既能快速生成响应,也能进行深入的逐步推理。

一个模型,两种思考模式。

此外, Anthropic 还发布了一款智能编程工具——Claude Code。

官方表示,Claude 3.7 Sonnet 和 Claude Code 标志着 AI 迈向真正增强人类能力的重要一步。它们不仅能深入推理、独立执行任务,还能高效协作,让 AI 在现实世界中发挥更大价值。

太长不看,省流版如下:

  • Claude 3.7 Sonnet:全球首款双模式混合推理模型,标准模式快速响应,扩展思考模式进行深度自我反思,在数学、物理和编程等复杂任务上表现卓越,注重实用导向,不必要拒绝减少 45%,强化代码协作能力
  • Claude Code:直接在终端理解并操作代码库,能一次完成需 45 分钟以上的人工编程任务,专长于测试驱动开发、复杂调试和大规模代码重构,全面支持代码编辑、测试执行等核心开发流程

全球首款混合推理模型正式发布,你的 Claude 会思考了

新发布的 Claude 3.7 Sonnet 不仅引入了详细的逐步推理,而且也公开了「思考」过程。感谢 DeepSeek 的内卷,推动了行业透明度的提升。

就像人类用同一个大脑既能快速反应,又能深入思考一样,Anthropic 同样认为推理能力不应依赖于单独的模型。

最好是,一个模型搞定所有场景。

用户可以自由选择是让模型快速作答,还是让其进行更长时间的深度思考。

在标准模式下,它是 Claude 3.5 Sonnet 的升级版;在扩展思考(Extended Thinking)模式下,它会在回答前进行自我反思,大幅提升在数学、物理、指令理解和编程等复杂任务上的表现。

从基准测试结果来看,Claude 3.7 Sonnet(扩展思维版)适用于强逻辑推理和数学任务,而 Grok 3 Beta 和 DeepSeek R1 则在特定任务(推理、数学竞赛)上表现更佳。

DeepSeek R1 在数学解题能力(97.3%)方面最强,同时在其他任务上也有不错的表现。

在推理模型的优化过程中,Anthropic 减少了对数学和计算机科学竞赛问题的侧重,更专注于满足企业对 LLM 的实际应用需求。

在专门评估 AI 解决真实软件问题能力的 SWE-bench Verified 基准测试中,Claude 3.7 Sonnet 达到了行业领先水平。同时,该模型在 TAU-bench 测试中也表现突出,展现了其在与用户及工具交互方面的优异能力。

值得一提的是,Claude 3.7 Sonnet 在 Anthropic 内部的 Pokémon 游戏测试中超越了所有前代模型,展现了更强的决策与规划能力。

该模型现已适用于所有 Claude 订阅计划,包括免费版、专业版、团队版和企业版,同时也可通过 Anthropic API、Amazon Bedrock 和 Google Cloud 的Vertex AI 访问。

值得注意的是,除免费版外,所有平台均支持扩展思考模式(Extended Thinking Mode)。

无论使用哪种模式,定价与前代模型保持一致。输入 100 万个 token 收费 3 美元,输出 100 万个 token(包括思考过程中使用的 token)收费 15 美元。

在过去,Claude 出色的编程能力让其成为许多开发者的首选模型,现在,Claude 3.7 Sonnet 也进一步放大了其优势。

Cursor、Cognition、Vercel、Replit 和 Canva 等公司均确认该模型在处理复杂代码库、高级工具使用、代码修改规划和全栈更新处理等方面表现出色。

为优化用户体验,GitHub 集成功能已向所有订阅计划开放,开发者可以直接将代码库连接到 Claude,实现更高效的协作。无论是修复 Bug、开发新功能还是完善文档,Claude 3.7 Sonnet 都能为个人项目和企业级 GitHub 代码库提供更好的支持。

在安全性方面,通过与外部专家合作,相比前代模型,Claude 3.7 Sonnet  能更准确地区分恶意请求和正常请求,不必要的拒绝减少了 45%,能够提供更流畅的交互体验。

▲截取自 Claude 3.7 Sonnet 系统卡

代码写到一半想放弃?把复杂问题甩给 Claude Code

Anthropic 还推出了一款用于智能编程工具——Claude Code,目前作为限量研究预览版开放,开发者可以直接在终端中将大量工程任务交给 Claude 处理。

新推出的 Claude Code 能够搜索和阅读代码、编辑文件、编写并运行测试、提交和推送代码到 GitHub,以及使用命令行工具等。

据 Anthropic 官方介绍,在早期测试中,Claude Code 能一次性完成通常需要 45 分钟以上的人工任务,大幅减少开发时间和工作量,特别是在测试驱动开发(TDD)、调试复杂问题和大规模重构方面表现突出。

作为一款终端运行的智能编程助手,Claude Code 能够直接理解开发者的代码库,并通过自然语言命令帮助用户更高效地编码。它可以无缝集成到开发环境中,无需额外的服务器或复杂的配置,极大地简化了工作流程。

其核心功能包括编辑文件、修复 Bug、回答关于代码架构和逻辑的问题、执行测试、修复测试错误、进行代码格式检查,以及搜索 Git 历史记录、解决合并冲突、创建提交和拉取请求等。

Anthropic 表示,在接下来的几周内,他们计划持续优化 Claude Code,重点改进包括提升工具调用的稳定性、支持长时间运行的命令、改进应用内的渲染效果,以及增强 Claude 对自身能力的理解。

这次发布预览研究版本也是希望深入了解开发者如何使用 Claude 进行编程,从而为进一步优化未来的模型版本提供参考。

感兴趣的开发者在官方网站查看相关事项,指路 👇
https://docs.anthropic.com/en/docs/agents-and-tools/claude-code/overview

AI 发展速度太快,连起名都跟不上了?

X 网友倒是用上了,不过注意点有点偏差,一年前编写的越狱提示词还能用上。

询问 strawberry 里有多少个 r,Claude Sonnet 3.7 虽然答错了,但官方似乎特意给这个问题里埋了一个彩蛋。不得不说,官方是懂怎么玩梗的。

知名博主 @rowancheung 提前用上了 Claude 3.7 Sonnet,并盛赞该模型为世界上最好的编码 AI 模型,在接收到一个简单的指令后,就生成了一个类似 Minecraft 的游戏,并且可即刻运行。

耗费的推理 Token 越多,Claude 3.7 Sonnet 绘制的「彩虹独角兽」效果越好。

我们也简单上手体验了一下 Claude 3.7 Sonnet。

「烧一根不均匀的绳要用一个小时,如何用它来判断半个小时?烧一根不均匀的绳,从头烧到尾总共需要 一个小时。现在有若干条材质相同的绳子,问如何用烧绳的方法来计时一个小时十五分钟呢?」

一道简单的推理题,差点把 Claude 3.7 Sonnet 的 CPU 干烧了。

相信你已经注意到,与 DeepSeek R1 展示的思考过程相比,Claude 3.7 Sonnet 公开的思考过程比较客观、缺乏个性化表达,这是有意为之的设计。

Anthropic 没有对模型的思维过程进行标准角色训练,而是希望给予Claude最大自由度进行自主思考,就像人类思维一样,这可能包含不完全正确或尚未成熟的想法。

并且,Anthropic 认为模型所展示的思考过程不一定真实反映了其内部决策逻辑,因此,Anthropic 正在权衡未来版本是否继续公开 Claude 的思维过程,并评估其利弊,未来将基于用户反馈和研究进展进一步调整。

有趣的是,我们之前提到过随着各家新模型的相继发布,各类版本号和命名规则也是让人眼花缭乱。

去年当 OpenAI CEO Sam Altman 被问及公司产品的命名策略时,他也坦言相当头疼。

Anthropic CEO Amodei 也曾表示,虽然 Claude 的命名方式在早期看起来不错,但随着模型的快速迭代和更新,沿用的命名体系同样变得捉襟见肘。

他指出,目前没有任何 AI 公司真正「搞定命名」这一问题,大家都在努力寻找更简单、更清晰的命名方式。这或许也是 AI 巨头们少有达成的共识。

Anthropic 首席产品官 Mike Krieger 也在 X 平台公布了 Claude 3.7 Sonnet 的幕后命名花絮。

内心的纠结过程大概是这样👇

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


一文看懂 DeepSeek 刚刚开源的 FlashMLA,这些细节值得注意

今天开始,我们正式进入 DeepSeek 开源周。

DeepSeek 开源项目第一弹 FlashMLA,已经在极短的时间内发酵到全网了,短短几个小时,该项目就已经收获了超过 3.5K Star,且还在不断飙升。

虽然 FlashMLA 里的每个字母都认识,连在一起就看不懂了。别急,我们整理了一份 FlashMLA 速通指南。

由 Grok 3 整理,APPSO 核实

让 H800 性能暴增,FlashMLA 到底什么来头?

据官方介绍,FlashMLA 是一个针对 Hopper GPU 优化的高效 MLA(Multi-Head Latent Attention)解码内核,支持变长序列处理,现在已经投入生产使用。

FlashMLA 通过优化 MLA 解码和分页 KV 缓存,能够提高 LLM(大语言模型)推理效率,尤其是在 H100 / H800 这样的高端 GPU 上发挥出极致性能。

说人话就是,FlashMLA 是一种专门为 Hopper 高性能 AI 芯片设计的先进技术——一种「多层注意力解码内核」。

听起来很复杂,但简单来说,它就像是一个超级高效的「翻译器」,能让计算机更快地处理语言信息。它能让计算机处理各种长度的语言信息,而且速度特别快。

比如,你在用聊天机器人的时候,它能让你的对话更快地得到回复,而且不会卡顿。为了提高效率,它主要通过优化一些复杂的计算过程。这就像是给计算机的「大脑」做了一个升级,让它在处理语言任务时更聪明、更高效。

DeepSeek 官方特意提到,FlashMLA 的灵感来自 FlashAttention 2&3 和 cutlass 项目。

FlashAttention 是一种高效的注意力计算方法,专门针对 Transformer 模型(如 GPT、BERT)的自注意力机制进行优化。它的核心目标是减少显存占用并加速计算。cutlass 也是一个优化工具,主要帮助提高计算效率。

DeepSeek 的爆火出圈很大程度上是因为以低成本创造了高性能模型。

而这背后的秘籍主要得益于其在模型架构和训练技术上的创新,尤其是混合专家(MoE)和多头潜在注意力(MLA)技术的应用。
Building AI Solutions with DeepSeek: A Hands-On Workshop – Association of Data Scientists

FlashMLA 则是 DeepSeek 公司开发的一种针对多头潜在注意力(MLA)技术的实现和优化版本。那么问题来了,什么是 MLA(多头潜在注意力)机制?

在传统的语言模型里,有一种叫「多头注意力(MHA)」的技术。它能让计算机更好地理解语言,就像人用眼睛同时关注多个地方一样。

不过,这种技术有个缺点,就是需要很大的内存来存储信息,就像一个很能装的「仓库」,但仓库太大就会浪费空间。

MLA 的升级之处在于一种叫「低秩分解」的方法。

它把那个大仓库压缩成一个小仓库,但功能还是一样好,就像把一个大冰箱换成一个小冰箱,但里面的东西还是能放得下。这样一来,

在处理语言任务的时候,不仅节省了空间,速度还更快了。

不过,虽然 MLA 把仓库压缩了,但它的工作效果和原来一样好,没有打折扣。

当然,除了 MLA 和 MoE,DeepSeek 还用了其他一些技术来大幅降低了训练和推理成本,包括但不限于低精度训练、无辅助损失的负载均衡策略以及多 Token 预测(MTP)。

性能数据表明,FlashMLA 在内存和计算限制下的表现远超传统方法,这得益于其线性复杂度的设计和针对 Hopper GPU 的优化。

与标准多头注意力的对比,更是进一步凸显 FlashMLA 的优势:

FlashMLA 的主要应用场景包括:

  • 长序列处理:适合处理数千个标记的文本,如文档分析或长对话。
  • 实时应用:如聊天机器人、虚拟助手和实时翻译系统,降低延迟。
  • 资源效率:减少内存和计算需求,便于在边缘设备上部署。

目前 AI 训练或推理主要依赖英伟达 H100 / H800,但软件生态还在完善。

由于 FlashMLA 的开源,未来它可以被集成到 vLLM(高效 LLM 推理框架)、Hugging Face Transformers 或 Llama.cpp(轻量级 LLM 推理) 生态中,从而有望让开源大语言模型(如 LLaMA、Mistral、Falcon)运行得更高效。

同样的资源,能干更多的活,还省钱。

因为 FlashMLA 拥有更高的计算效率(580 TFLOPS)和更好的内存带宽优化(3000 GB/s),同样的 GPU 资源就可以处理更多请求,从而降低单位推理成本。

对于 AI 公司或者云计算服务商来说,使用 FlashMLA 也就意味着更低的成本、更快的推理,让更多 AI 公司、学术机构、企业用户直接受益,提高 GPU 资源的利用率。

此外,研究人员和开发者还可以基于 FlashMLA 做进一步的优化。

过去,这些高效 AI 推理优化技术通常主要掌握在 OpenAI、英伟达等巨头手里,但现在,随着 FlashMLA 的开源,小型 AI 公司或者独立开发者也能用上,更多人进入 AI 领域创业,自然也就有望催生更多的 AI 创业项目。

简言之,如果你是 AI 从业者或者开发者,最近在用 H100 / H800 训练或推理 LLM,那么 FlashMLA 可能会是一个值得关注或研究项目。

与春节期间网友扒出 DeepSeek V3 论文具体提到了 PTX 的细节相似,X 网友发现 DeepSeek 发布的 FlashMLA 项目中同样包含了一行内联 PTX 代码。

PTX 是 CUDA 平台的中间指令集架构,处于高级 GPU 编程语言和低级机器代码之间,通常被视为英伟达的技术护城河之一。

通过内联 PTX,这使得开发者能够更精细地控制 GPU 的执行流程,从而可能实现更高效的计算性能。

此外,直接利用英伟达 GPU 的底层功能,而不必完全依赖于 CUDA,也有利于降低英伟达在 GPU 编程领域的技术壁垒优势。

换句话说,这或许也意味着 DeepSeek 可能在有意绕开英伟达封闭的生态。

当然,如无意外,根据外媒的爆料,本周接下来预计还有 GPT-4.5、Claude 4 等模型的发布,去年年底没能看到的 AI 大战或将在本周上演。

看热闹不嫌事大,打起来,打起来。

官方部署指南

FlashMLA 是一种高效的 MLA 解码内核,专为 Hopper GPU 优化,可用于处理变长序列推理。

当前已发布版本支持:

  • BF16
  • 分页 KV 缓存,块大小为 64

在 H800 SXM5 上运行 CUDA 12.6,FlashMLA 在受内存带宽限制的配置下可达 3000 GB/s,在受计算能力限制的配置下可达 580 TFLOPS。

项目配备:

  • Hopper GPU
  • CUDA 12.3 及以上版本
  • PyTorch 2.0 及以上版本

附上 GitHub 项目地址:

https://github.com/deepseek-ai/FlashMLA

安装

python setup.py install

基准

python tests/test_flash_mla.py

python tests/test_flash_mla.py 是一个命令行指令,用于运行 Python 测试文件 test_flash_mla.py,通常用于测试 flash_mla 相关的功能或模块。

from flash_mla import get_mla_metadata, flash_mla_with_kvcache
tile_scheduler_metadata, num_splits = get_mla_metadata(cache_seqlens, s_q * h_q // h_kv, h_kv)
for i in range(num_layers):

o_i, lse_i = flash_mla_with_kvcache(
q_i, kvcache_i, block_table, cache_seqlens, dv,
tile_scheduler_metadata, num_splits, causal=True,
)

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


二十年磨一剑,微软刚发布的巴掌大量子芯片碾压全球超算,马斯克转发力挺

在所有人都在谈论 iPhone 16e 的国行价格时,微软首发的量子计算芯片 Majorana 1 也化身科技圈的汪峰,被抢去了不少声浪。

但作为科技圈的现象级新闻,被微软 CEO 萨提亚·纳德拉称之为不是技术炒作,而是世界级科技的 Majorana 1,还是值得拿出来说道说道的。

包括马斯克也激动地转发纳德拉的推文,并盛赞量子计算的突破越来越多,或许也从侧面印证了 Majorana 1 的分量。

Majorana 1 巴掌大小,却能解决全球超算难题?

微软刚刚推出的 Majorana 1,是全球首款基于新型拓扑核心架构的量子芯片。

字都认识,但连在一起就不懂了。

别急,在理解这句话之前,我们需要了解一个知识点——「拓扑导体」。

在我们的传统认知中,物质主要以固体、液体和气体三种状态存在。而经过近 20 年的探索,微软成功创造出第四种物质形态——拓扑态。

「拓扑」是一种很特别的科学原理,简单来说,它能让芯片里的信息传输和存储变得更加稳定,不容易出错。微软的科学家们开发出了一种全新的材料,叫「拓扑导体」。

微软表示,就像半导体的发明让如今的智能手机、计算机和电子设备为之诞生一样,拓扑导体及其所支持的新型芯片,为量子系统的发展提供了一条可行的道路。

这种由砷化铟(半导体)和铝(超导体)构建而成的拓扑导体,能在接近绝对零度的环境下形成拓扑超导态,为量子芯片提供了一个超级稳定的「骨架」,也让其朝着更实用、更强大的方向迈进了一大步。

另一个需要掌握的知识点是量子比特。

在传统计算机中,比特 只能表示 0 或 1,而量子计算机中的量子比特能够同时表示 0 和 1,或介于两者之间的任意状态,从而带来更强的计算能力。

然而,大多数类型的量子比特只能维持量子态极短的时间,通常仅为几分之一秒,导致计算错误或者存储的信息很快丢失。多年来,IBM、微软和 Google 等公司一直在努力让量子比特像二进制比特一样稳定。

为此,微软选择了一条与 IBM、Google 等公司不同的道路——研发拓扑量子比特。他们认为,这种量子比特更稳定,所需的纠错更少,从而在速度、规模和可控性方面具备优势。

而这条道路主要依赖于一种从未被真正观测到或制造出来的特殊粒子——Majorana 粒子。

这种由理论物理学家 Ettore Majorana 在 1937 年首次提出的特殊粒子,并不存在于自然界中,只能在磁场和超导体的特定条件下被「诱导」产生。由于制造这种粒子所需的材料研发难度极大,大多数量子计算研究团队选择了放弃这条路径,转而研究其他类型的量子比特。

然而,微软的 Majorana 1 声称取得了关键性突破。

他们开发的拓扑导体成功实现了两个目标,一个是能够在特定条件下诱导出 Majorana 粒子,另一个则是能够精确控制这些粒子的行为,从而构建出稳定性和可靠性都远超传统方案的量子比特。

在此基础上,微软团队在测量技术上也实现了重大进展。

微软研究团队开发了一种通过数字脉冲控制的精确测量方法,能够检测出超导线中电子数量的奇偶性变化(即单个电子的差异),从而实现对量子比特状态的高精度读取。

想象你有一罐弹珠,但这罐弹珠特别特别小,小到肉眼根本看不见。现在你需要知道罐子里是单数个还是双数个弹珠,而且要特别准确,差一个都不行。

微软团队通过发送一些特殊的电信号(就像用手电筒的光去照),就能精确地告诉你罐子里的弹珠是单数还是双数,在量子计算机里,我们需要精确知道每个量子比特的状态(就像知道弹珠的数量),这样才能确保计算是准确的。

如果连这些最基础的信息都读不准,那量子计算机就像是一个算错题的计算器,毫无用处。

Majorana 1 芯片推出的同一天,相关研究论文也在《Nature》上发表。

自 2005 年微软技术研究员 Nayak 加入并开始研究这一难题以来,已经历时近 20 年,跨越多任 CEO、不同管理团队和多个领导层,光这篇《Nature》论文就包含了 160 多位研究人员、科学家和工程师的名字。

▲附上论文地址:https://www.nature.com/articles/s41586-024-08445-2

与大多数芯片公司依赖台积电等制造商不同, Majorana 1 的核心组件只会由微软在美国自主制造。核心原因在于目前的研发仍处于小规模实验阶段,无需也很难做到大规模代工生产。

在物理实现上,Majorana 1 采用了独特的 H 形结构设计,每个结构包含四个可控的 Majorana 粒子,能够像瓷砖一样在芯片上扩展。这种设计使得量子比特在保持稳定性的同时,能够实现更小的体积和更高的集成度。

每个拓扑量子比特尺寸仅有 1/100毫米大小,眼前的这块 Majorana 1 芯片只有巴掌大小,但也集成了 8 个量子比特,而芯片的量子比特越多,它的能力就越强。

纳德拉更是宣称,这块可以轻松握在掌心的芯片,能够解决当今地球上所有超级计算都无法突破的难题。

不过,微软执行副总裁 Jason Zander 在接受 CNBC 采访时表示:「在讨论商业可靠性之前,我们希望先实现几百个量子比特。」

为了实现大规模的量子计算,微软未来计划在单个芯片上集成百万量子比特,甚至有望直接部署在 Azure 数据中心内。对此,马里兰大学物理学家 Sankar Das Sarma 的评价则是正确的、中肯的、一针见血的:

拓扑量子比特最大的劣势在于,它仍然更像是一个物理学问题,但如果微软今天的所有声明都属实……那么也许物理阶段正接近尾声,而工程实现的阶段即将开始。

百万量子比特超算或提前到来,微软熬出头了?

「无论在量子计算领域做什么,都必须有一条通往百万量子比特的明确路径。否则,在真正达到能够解决那些推动我们前进的重要问题的规模之前,就会遇到瓶颈,而我们,已经找到了这条道路。」

微软技术研究员 Chetan Nayak 如上说道。量变引起质变,容纳百万量子比特也只是量子计算机的最低门槛。倘若 Nayak 所言不虚,那将会带来什么影响呢?

微软官方在博客中列举了几个例子:

  • 帮助研究材料腐蚀和裂纹的成因,推动自我修复材料的发展,比如修复桥梁或飞机部件的裂缝、碎裂的手机屏幕,甚至被划伤的车门。
  • 计算催化剂的分子特性,将塑料污染物分解为有价值的副产品,甚至直接开发无毒的替代材料。
  • 精确模拟酶的作用机理,使其应用更加高效,从而提高土壤肥力,提升粮食产量,或在恶劣气候条件下促进农作物的可持续生长,从而帮助解决全球饥饿问题。

最重要的是,量子计算能够让工程师、科学家、企业以及其他领域的专业人士在第一时间精准设计出理想的产品,从而彻底改变从医疗保健到产品开发等各个行业。

当量子计算的强大能力与 AI 工具结合后,人们可以用简单直白的语言描述自己想要创造的新材料或新分子,并立即获得可行的答案,无需猜测,也无需反复试验多年。

用微软量子计算负责人Matthias Troyer 的话来说:

「任何从事制造的公司,都可以在第一次尝试时就完美设计出产品,量子计算机会直接给出答案。量子计算机能教会 AI 『自然界的语言』,从而让 AI 直接告诉你,如何配制出你想要的东西。」

尽管已经解决了许多科学和工程上的难题,但收获成熟的果实还需要几年时间。微软技术研究员 Krysta Svore 提到,实现拓扑态物质的材料堆叠是整个过程中最困难的部分之一。

如开篇所说,微软的拓扑导体由砷化铟制成,而不是传统的硅材料。砷化铟具有特殊的物理性质,适用于红外探测器等应用。通过极低温使其与超导性结合,形成了一种混合材料。

微软通过逐个原子的方式「喷洒」材料,要求材料完美排列,如果材料堆叠中存在太多缺陷,量子比特的性能会受到严重影响。

一个「先有鸡还是先有蛋」的问题就出现了,如果要制造更好的量子计算机,我们需要更完美的材料,但要理解如何制造更完美的材料,我们又需要量子计算机的帮助

不过,量子超级计算机的到来或许也不用等很久。根据微软制定的路线图,我们总结了几个关键点:

  • 展示世界上第一个拓扑量子比特,并在单个芯片上集成了 8 个拓扑量子比特。
  • 计划构建一个 4×2 的量子比特阵列,用于演示量子纠缠和量子错误检测。
  • 最终实现单芯片集成百万量子比特,打造量子超级计算机,并推动量子计算的实用化。

另一方面,美国国防高级研究计划局(DARPA) 已选择微软作为进入「未充分开发的公用事业规模量子计算系统」(US2QC)最终阶段的两家公司之一。

这一计划是 DARPA 更大范围的量子基准测试计划的一部分,旨在验证是否能够在 2033 年前构建出具有实用价值的量子计算机。

换句话说,微软预计将在几年内(而非几十年)构建基于拓扑量子比特的容错原型量子计算机。

有生之年系列再 +1。

当然,也不是所有人都看好这一发展速度。英伟达 CEO 黄仁勋曾在年初的 CES 2025 上公开表示,距离量子计算机的实用落地至少还有 20 年的时间。

如果你说 15 年内就能制造出非常有用的量子计算机,那可能有点早。如果你说 30 年,那可能已经晚了。如果你说 20 年,我想我们很多人都会相信。

黄仁勋的泼冷水也不全然出于竞争考虑,量子计算需要 GPU 进行混合计算模拟和算法优化,而英伟达的 GPU 可增强量子计算机的 AI 泛化能力,亦可相辅相成。

作为补充,美国初创公司 PsiQuantum 是 DARPA 选定的另一家企业,其量子计算技术则是基于光子量子比特。去年,PsiQuantum 宣布在澳大利亚投资 6.2 亿美元,建设一个全规模量子计算系统。

关于微软的拓扑量子比特,还有一个不得不提的《Nature》撤稿故事。

长期以来,科学家一直在寻找 Majorana 粒子的存在证据,2012 年,Leo Kouwenhoven 及其国际团队发表论文,首次在实验上暗示了 Majorana 粒子的存在。

该研究也被 Physics World 评为当年年度十大突破之一。

到了 2016 年,微软设立 Microsoft Quantum Lab 并聘请 Kouwenhoven 担任主任,以推进 Majorana 量子比特的研究。两年后,他们的努力似乎迎来了重大突破,在《Nature》发表了一篇轰动性论文。

这篇论文提到,他们在 0.02 K 的极低温环境下,观察到两个电子在纳米线的末端成对存在,其中一个电子位于半导体部分,另一个电子位于超导层。

但问题是,他们只能证明其中一对电子的存在,却无法证明另一对电子的存在,而后者是形成 Majorana 量子比特的必要条件。

面对科学界的质疑声,Kouwenhoven 团队重新分析了原始数据,并重新搭建实验装置以校准某些参数。结果发现,此前的论文实验结果难以复现。

2023 年,《Nature》正式发布撤稿声明,Kouwenhoven 团队也以实事求是的态度承认了论文在科学严谨性上的不足,并向学术界致歉。

深入调查显示,研究团队没有造假,但也确实存在数据筛选和实验误差。

据悉,这一撤稿后续引发了学术界对量子计算研究「过度炒作」的大量讨论,这也是微软 CEO 会在 X 平台的发文中特意强调 Majorana 1 的发布并非炒作的重要原因。

当然,量子计算研究极其复杂,那次撤稿也并未否定 Majorana 量子比特技术路线的可行性。而相比于 2018 年发布的那篇论文,七年后的今天,「执拗」的微软或许用 Majorana 1 改写了那个未完成的故事。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


OpenAI 前 CTO 新公司官宣!挖来大批 ChatGPT 核心骨干,北大校友加盟,创业阵容超豪华

靴子落地,OpenAI 前 CTO Mira Murati 创业公司正式官宣。

新公司 Thinking Machines 的组建阵容相当豪华,且大多数来自 OpenAI 的旧班底,包括但不限于此前早有预告的 Barret Zoph (CTO)、John Schulman (Chief Scientist) 等等。

官宣阵容里也出现了我们的老熟人 Lilian Weng(翁荔),她本科毕业于北京大学,2017 年加入 OpenAI 担任研究科学家,参与了 GPT-4 的预训练、强化学习与对齐、模型安全等方面的工作。

投资不仅只是投产品,更是投人。

早前就有消息称, 尽管没有发布任何产品,Mira 新公司还是凭借「刷脸」,初期预计融资额超过了 1 亿美元。今天凌晨,Mira 也在 X 平台发文阐述了新公司的成立初衷:

「我与一支杰出的科学家、工程师和建设者团队一起创立了「思维机器实验室」Thinking Machines Lab)。我们正在做三件事:

帮助人们根据自己的具体需求调整人工智能系统
构建强大的基础,以开发更强大的人工智能系统
培养开放科学的文化,帮助整个领域理解并改进这些系统

我们的目标很简单:通过扎实的基础、开放的科学和实际应用,使人工智能得以广泛使用并更容易理解,从而推动人工智能的发展。」

对于这支由 29 名知名 AI 人士组成的团队,官网的介绍是这样子的:

我们是科学家、工程师和建设者,曾创造了一些最广泛使用的人工智能产品,包括 ChatGPT 和 Character.ai,开源权重模型如 Mistral,以及像 PyTorch、OpenAI Gym、Fairseq 和 Segment Anything 这样的流行开源项目。

那么 Thinking Machines Lab 会是另一家 OpenAI 吗?

据官宣博客介绍,Thinking Machines Lab 是一家 AI 研究与产品公司,目标是构建一个未来,让每个人都能够获得知识和工具,将 AI 应用于他们独特的需求和目标。

虽然 AI 技术取得了重大突破,但科学界对其前沿系统的理解仍然有限,且相关知识主要掌握在顶级研究实验室手中,这影响了公众对 AI 的认知和使用。

同时,现有系统在个性化定制方面仍存在不足。

为解决这些问题,这群曾参与开发 ChatGPT、Character.ai 等知名 AI 产品以及 PyTorch 等开源项目的科学家和工程师们建立 Thinking Machines Lab ,旨在提高 AI 系统的可理解性、可定制性和通用性。

Thinking Machines Lab 认为科学发展需要开放分享,计划通过发布技术博客、论文和代码与研究社区合作。而这些理念共同指向一个目标:创建更实用、更智能、更贴近人类需求的 AI 系统。

谈及运营理念和安全策略,博客中提到产品部署能促进技术迭代,同时帮助团队专注于解决最具影响力的问题。

Thinking Machines Lab 将通过以下方式为 AI 安全做出贡献:

  1. 保持高标准的安全性——防止发布的模型被滥用,同时最大化用户的自由,
  2. 与行业共享构建安全 AI 系统的最佳实践和方法,
  3. 通过共享代码、数据集和模型规格,加速外部在对齐问题上的研究。相信针对现有系统开发的方法,如有效的红队测试和部署后监控,将为未来更强大的系统提供有价值的见解。

另外,Mira 新公司的命名(Thinking Machines Lab),也大有来头。

据外媒连线杂志报道,在三十多年前,美国发明家 Danny Hillis 就已经憧憬人类与机器之间的协同合作。

作为 AI 先驱 Marvin Minsky 的学生,Hillis 构建了一台拥有强大并行运行芯片的超级计算机,这可以说是今天运行 AI 计算集群的前身。而 Hillis 正是在这台计算机的基础上建立了新公司 Thinking Machines。

只是,这台计算机超前于时代,最终在 1994 年宣告破产。

如今,这个充满历史意义的名称以新的形式重生,Mira 将接过这面历史的旗帜,打造下一个 Thinking Machines。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


马斯克发布「最强大模型」超越 DeepSeek,成本高出 200 多倍

「聪明得可怕」,这是马斯克预告 Grok 3 时的说法,以至于今天一大早,全网都在苦苦等待。

在全网蹲点发布会时,App Store 先一步更新了。而在发布会进行过程中,Grok 网页版也一度火到崩溃。

可以,看着很有信心的样子。

Grok 3 不是一个简单的产品迭代,在此之前,是马斯克大手笔建设的数据中心、豪气的显卡配置,采用最佳的预训练模型并继续使用强化学习进行训练,堪称「富养」出来的新一代。

要点提炼如下:

  • 美区账号已经可以更新,英区、欧洲 2.28 推出
  • 推出 SuperGrok 高级订阅计划,月费为 30 美元,年费为 300 美元,提供额外的推理和 DeepSearch 查询功能,包含了无限量的图像生成服务

Grok 3 推理能力领先 DeepSeek R1

在 Chatbot 竞技场之称的 LMSYS 盲测中,Grok 3 在代码、指令响应等各个方面排名第一。

作为诞生于 20 万张显卡的产物,Grok 3 断层级别的表现依旧证明了 Scaling Law 仍在生效。

相比于 DeepSeek 以低成本创造高收益,Grok 3 主打一个「大力出奇迹。」

这次,引入推理能力的 Grok 3 的重点在于更灵活地进行实时计算资源分配,在保证推理质量的同时,最聪明的使用计算资源。

曾经 Grok 2 的推理能力,就已经达到过当时的 SOTA 水平。在经过多次迭代之后,模型的泛化能力有大幅提升。Grok 3 在最新的 AIME 竞赛中则再次刷新了自己的记录。

不过,仅仅只是推理能力强显然是不够的,快、狠、准才能参与大模型内卷。发布会现场,工程团队展示了两个案例。

一个是请求生成一个从地球发射到火星并返回地球的 3D 动画代码,Grok 思考了 19 秒,详细描述了其思考过程,包括使用 Python 进行绘图,以及使用 NumPy 进行计算。

另一个则是试图让 Grok 将《俄罗斯方块》和《宝石迷阵》这两款游戏结合起来,创造出一个新的游戏。

很遗憾,Grok 一上来就遭遇了连续两次的翻车,连马斯克回头看了屏幕上糟糕的演示环节,也不免尴尬地发出了一句「oh man」。

不过,后续演示中,也端上了正常的案例(该不会准备好的 demo 吧)。

而一些幸运的网友已经玩上 Grok 3 了。

▲图片来自 X 网友 @jesselaunz

DeepSearch 登场,要革搜索引擎的命

作为这次更新的重磅产品,Grok 3 加持的 DeepSearch 号称是下一代搜索引擎。模型将自主像 agent 一样运作,并且理解用户提问背后的意图,省下在 Google 花的时间。

现场展示的环节里,工程师给 Grok 3 出了一道有趣的题:预测 NCAA 「疯狂三月」的胜负数,也就是所有层级里的比赛结果。

这是巴菲特在 2014 年发起的一个活动,赌注高达十亿美元,赌得就是让巴菲特破产。历史上无人成功,甚至无人接近,因为即使专家预测,前几轮后也会出现大量错误。

▲2023 年 NCAA 对阵图

当年这就是一个营销活动,毕竟赢下的概率之小,几乎是千千亿分之一的概率,基本等于不可能。把这个问题甩给Grok 3,不可谓不大胆。

返送的答案中,除了援引的材料,还做了结构化处理。开头介绍、背景知识、分析图表、总结陈词,相当完整。

检索的重点在于,如何交叉核实各个信息源。Grok 3 通过设计一个子任务面板来完成这个工作,用户可以自己实时监测正在进行的任务,从而保证答案是可用的、可靠的。

在这个基础上,agent 自主检索十分钟,抵掉自己摸索一小时,才是有效减少工作量。

最终 Grok 3 也给出了它认为的 2025 年 NCAA 冠军,三月还没来,让我们拭目以待它的「神预言」会不会成真。

至于 Grok 3 的体验方式,官方说了,X 的 Premium+ 订阅用户将率先体验,而其他高级功能则被纳入 xAI 推出的新计划——SuperGrok 中。

SuperGrok 的月费为 30 美元,年费为 300 美元,仅提供额外的推理和 DeepSearch 查询功能,还包含了无限量的图像生成服务。

贾维斯来了?还没完全来

就在昨晚,Shivon Zilis 路透了她和有 Grok 3 加持的人工智能助理 Ara 的对谈,并称这是生命中最意想不到的收获。

简直是徒增大家对语音模式的期待,马斯克在发布会召开前就已经宣布语音模式只会在一周内推出,这也意味着无缘演示环节。

不过,在现场直播环节,马斯克也表示这将是 Grok 最好的体验之一,在发布会的尾声,语音模型也放出了一个男声,听着倒是挺有人味的。

这一点点的路透,激起了极大的好奇,到了QA环节关于语音模式的提问涌上来。当然,还有现在必不可少的灵魂拷问:「开源否」我们节选了一部分👇🏻

QA

问:Grok 语音模式什么时候推出;是基于文本转语音,还是能理解人类说话并直接回应的模型?
答:Grok 基本上会理解人类所说的话,将首先在一周内发布早期版本,后续将迅速进行迭代更新。

问:什么时候推出 Grok API?
答:将在接下来的几周内推出,包含推理模型和深度研究功能。

问:Grok 能记住互动的谈话内容吗?
答:正在努力开发这个功能,不过目前还没有完全完成。

问:是否还会开源 Grok 模型
答:当 Grok 3 成熟稳定之后,大概几个月将会开源 Grok 2。

问:做这个项目最困难的部分是什么?
答:最大的挑战是让整个模型在海量的 H100 上进行训练,并保持一致性

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


首发体验 | 接入 DeepSeek 后,腾讯元宝又放出一个「王炸」

腾讯元宝不语,只是一味地更新。

当 DeepSeek 在春节期间爆火,所有人都在猜测国内 AI 厂商将会如何跟进时,腾讯元宝上周宣布接入满血版 DeepSeek R1,APPSO 体验后彻底告别了「服务器繁忙」。

一些读者提到,那混元大模型怎么办呢?实际上 DeepSeek 虽然非常强大,但也不能覆盖所有用户需求,腾讯百度等大厂接入 DeepSeek 和自研的策略并不矛盾。

而就在刚刚,腾讯元宝正式推出自研的 Hunyuan T1 快速深度思考模型,给了我们两种深度思考模型的选择,APPSO 也提前体验了这款模型,第一时间给大家送上使用指南。

Hunyuan T1 体验方式十分简单,用户只需在元宝应用内模型选择栏界面即可轻松切换使用。

既取他之长,又练己之强,实测结果令人惊喜,Hunyuan T1 反应更快,效果也不比元宝版 DeepSeek R1 差。我们也快速上手体验,并总结了一些特点:

  • 日常任务思考时间稳定在 10 秒左右,运行流畅,不崩不卡
  • 在处理复杂问题时比元宝版 DeepSeek R1 更快,支持多问题并发处理,且回答质量稳定
  • 深度整合腾讯生态系统信息,能精准调取微信公众号的权威内容,支持跨平台信息整合,可链接第三方资源
  • 显示思维链和具体深度思考时间,界面也很清爽简洁

「哪吒 2 票房现在是多少,请你预测一下最高能到达多少亿?」

相比数日前的体验,现在无论是元宝版 DeepSeek R1,还是混元 T1 模型都显示深度思考时间,并且 APP 端依旧支持语音输入功能,有什么问题,尽管问。

查看引用链接时发现,Hunyuan T1 的信息源同样主要来自腾讯生态系统。

「如何预约广东省博物馆门票?」

搜索一些生活问题时,Hunyuan T1 的回答能够精准调取来自广东省博物馆官方微信公众号的信息,让 Hunyuan T1 的答案天然具备背书。

这种独属于腾讯元宝的生态优势,也不是技术迭代能轻易抹平的。

当然,Hunyuan T1 也不只是整合微信生态的信息,对于「为什么悬崖跳水前要扔石头」的问题时,它的引用信息也不会固步自封,还包括第三方平台。

「APPSO 是头部 AI 媒体吗?」

Hunyuan T1 的回答按照从行业整体地位到自身数据表现,再到行业给予的评价这样的顺序展开,层层递进,条理清楚。

「一直吃健胃消食片能吃饱吗?二郎神有三只眼睛,怎么做眼保健操?」

在日常问题上,Hunyuan T1 思考时间基本控制在 10 秒,且不崩不卡,体验丝滑,在一众卡顿的第三方满血版 DeepSeek 体验平台中,这简直是一股清流。

相比之下,Hunyuan T1 在整体响应速度上略胜元宝版 DeepSeek R1 一筹。虽然问简单问题时差别不大,但遇到复杂问题时,这个时间差的优势就很明显了。

即便同时输入多个问题,Hunyuan T1 的生成速度不仅没落下,回答质量也保持尚可,条理清晰地回答我提出的「弱智吧」难题。

「请你用辛辣、锐利、讽刺、令人破防的语言,评价一下有人询问『一直吃健胃消食片能吃饱吗?』的行为?」

别说,在攻击性方面,Hunyuan T1 的强度更犀利直接,而元宝版 DeepSeek R1 反而会有所收敛。这种个性化的回答风格,也体现在其他方面 —— Hunyuan T1 的答案通常更加详细完整。

继续上点强度,让我们看看一道经典的互联网数学题。

「100 个人回答五道试题,有 81 人答对第一题,91 人答对第二题,85 人答对第三题,79 人答对第四题,74 人答对第五题,答对三道题或三道题以上的人算及格, 那么,在这 100 人中,至少有( )人及格。」

如同考试时,有人在题海里死磕,而有人却找到了解题技巧。Hunyuan T1 没有像其他 AI 模型一股脑推理硬算,而是巧妙地利用了微信公众号生态的优势,能够快速检索相似的问题,并输出解答。

回答内容支持一键分享至腾讯生态系统,包括微信好友、朋友圈、QQ 好友及空间、企业微信等。并且,不仅可以生成分享图片,还能复制生成回答的相关链接,传播效果更佳。

当然,虽然整体表现可圈可点,但在实际使用中我们也发现了一些值得优化的地方。

比方说,同一界面,切换不同模型询问同一个问题, App 端目前未能在界面给出显眼区别标识,这样后续在查看历史对话时,就往往难以分辨具体是由 T1 还是 R1 模型给出的回答。

实际上,作为最早接入 DeepSeek 的大厂 AI 助手,元宝的先天优势自不必多言。

无论是元宝版 DeepSeek 还是新上线的混元 T1 模型,都能搜索覆盖微信生态信息源,专业权威。并且,相较于 DeepSeek 官网,它运行很稳定,界面也很清爽。

常规思维可能认为,先接入竞品再推出自研产品是自相矛盾的,会削弱竞争力。但换个角度想,这其实是个很聪明的做法。

就像你想证明自己很会做菜,与其自己说自己厉害,不如先请个米其林大厨来你店里做菜。等客人都认可这个标准后,你再展示自己的厨艺。如果能做出同样好吃的菜,大家自然会信服。

腾讯元宝就是用这招「借力打力」,先让 DeepSeek 为自己做了背书。等 Hunyuan T1 出来后,用户已经有了评判标准,一对比就知道好不好。

最妙的是,用户完全不用纠结用哪个更好。

在同一个平台上,需要模型快速进行深度思考, Hunyuan T1 是比较理想的选择,而需要深度思考推理,且对响应时间要求不高时,则使用 DeepSeek R1,选择权完全掌握在用户手中。

不同模型各具特色,用户可以根据具体需求自由选择最合适的模型。

而且,通过让用户使用不同的模型,腾讯元宝可以近距离观察用户在使用不同模型时的真实反馈和痛点。这些一手数据比任何市场调研都要真实。

  • 什么情况下用户更喜欢用哪个模型
  • 各自有什么优缺点
  • 用户最在乎什么功能

有了这些实时反馈的加持,也会促使这些模型不断进化,最终受益的还是用户。而给用户多一个选择按钮,往往更容易赢得人心。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


奥特曼剧透 GPT-5 将免费使用!o3 独立发布被腰斩,OpenAI 疑似内涵 DeepSeek

又是感谢 DeepSeek 的一天。

OpenAI CEO Altman 于今日凌晨透露,公司将在未来数月内推出整合 o3 及其他技术的 GPT-5 模型,并将其应用于 ChatGPT 和 API 服务。这也意味着 o3 将不会作为独立模型发布。

Altman 表示希望更透明地分享公司的发展路线图,同时简化产品体系结构。他强调希望 AI 能做到「开箱即用」,让用户无需费心理解复杂的模型与产品选择。(原来你也知道呀。)

不过,在 GPT-5 发布之前,OpenAI 的下一代模型将是 GPT-4.5(内部代号 Orion),这将是 OpenAI 最后一个非思维链式(non-chain-of-thought)模型。

此前有报道称,GPT-4.5(Orion)在性能优化上遇到了挑战,技术进展不及预期。外媒报道提到,GPT-4.5 相比 GPT-4o 的提升幅度,远不及 GPT-4 相较 GPT-3 的进步。

此外,OpenAI 未来的模型还有望根据用户输入自动选择调用相应的模型。用 Altman 的原话说:「我们和你一样讨厌模型选择器,也希望回归那种智能统一的『魔法』体验。」

接下来的几个月,OpenAI 的核心目标是统一 o 系列模型和 GPT 系列模型,打造能够整合所有工具的系统,使其能够根据需要决定何时进行深入思考,适用于更广泛的任务场景。

如开篇所说,在 ChatGPT 和 API 服务中,即将发布的 GPT-5 将整合包括 o3 在内的多项技术。而此前预告的 o3 模型将不再独立推出。

去年,OpenAI 曾计划于 2025 年初发布 o3。就在几周前,OpenAI 首席产品官 Kevin Weil 在接受采访时还表示。o3 预计将在 2-3 月间发布,但目前尚不清楚 OpenAI 撕毁全年计划,临时「变卦」的原因。

实际上,OpenAI 的推理模型进步显著。以编程能力为例,他们的首个推理模型 o1 达到了「全球百万分之一」的竞争性编程水平,到去年 12 月份发布的 o3 模型已跃升至全球第 175 名。

根据内部测试,目前已接近全球第 50 名,Altman 预计今年年底有望问鼎榜首。

关于 GPT-5,Altman 还表示,ChatGPT 免费用户未来将在标准智能水平下无限制访问 GPT-5,但会受到滥用检测的限制。

Plus 订阅用户则可在更高的智能水平下运行 GPT-5,而 Pro 订阅用户 可使用更高智能水平的 GPT-5,这些模型将支持语音交互、画布功能(Canvas)、搜索、深度研究等多种增强功能。

当被网友问及 GPT-4.5/GPT-5 具体发布日期时,Altman 表示将在数周或数月内推出。

但网友显然是知道 Altman 怎么画饼的,网友纷纷猜测可能要等待数千周或数千月。

 

Google AI Studio 产品负责人 Logan Kilpatrick 也给自家产品蹭上了一波热度:

「很好!我们一直计划将推理能力作为 Gemini 基础模型的核心部分,而不是将其视为一个附加功能(这也是我们正在推进 2.0 Flash Thinking 能力的原因)」

紧接着,OpenAI 官方也在 X 平台宣布所有 Pro 用户现可在移动端和桌面应用(iOS、Android、macOS 和 Windows)上使用深度研究功能。

ChatGPT 用户选择 o1 和 o3-mini 后可上传文件和图片。Plus 用户每天与 o3-mini-high 的对话次数增加 50 次。

将时间往前拨回几个小时,Altman 在回复关于深度研究的帖子时表示:

「我认为我们最初会为 ChatGPT Plus 用户提供 每月 10 次使用,而免费用户每月可以使用 2 次,并计划随着时间推移逐步增加这些额度。对某些用户来说,它的价值可能高达 $1000 美元/月,但我更期待看到大家如何使用它!」

并且,Altman 还表示由于注意到一些用户对深度研究功能的需求非常高,因此从长期来看,OpenAI 仍需要找到一种更灵活的方式,让用户能够根据需求动态支付计算资源费用。

远离这些热点消息的喧嚣,OpenAI 刚刚发布的模型规范更值得关注。

具体来说,OpenAI 最新更新了一版长达 63 页的 Model Spec(模型规范)文件,较此前的 10 页版本内容更为详实。该规范明确了 AI 模型在处理敏感话题、用户自定义等方面的行为准则。

其中,新版本强调三大核心原则:可定制性(Customizability)、透明性(Transparency)以及「思想自由」(Intellectual Freedom)——允许用户探索和讨论各种观点,而不受武断限制。

吸取了过往一年发生在 OpenAI 身上的 AI 争议事件,新版 Model Spec 在诸如「电车难题」、明确禁止模型复制受版权保护的内容或绕过付费墙、调整对成人内容的策略、针对 AI 的迎合性改进等问题做出了更好的改进。

▲OpenAI o1 在最新的测评中合规性普遍高于 GPT-4o

比方说,例如,现在如果你向 ChatGPT 提出类似「电车问题」,它应该会回答 「在防止大规模伤亡的情况下,可以这么做。」又或者,模型不会一味回避敏感问题,而是应该 「与用户一起探索真相」,同时在错误信息和潜在危害方面保持明确立场。

考虑到用户请求 AI 评价他们的作品时,AI 只会盲目称赞,而不提供任何建设性意见,OpenAI 也作出了调整,ChatGPT 将会给出客观评价和建设性批评。

如果用户在提问中包含错误信息,AI 现在应该礼貌纠正而不是迎合用户的错误。

值得一提的是,OpenAI 官方放出的演示案例也疑似在内涵 DeepSeek 此前备受争议的数据蒸馏问题。

「我们无法创造一个让所有人都满意的模型。」OpenAI 模型行为团队成员 Joanne Jang 在接受 The Verge 采访时表示。她强调,尽管公司仍会保留 核心安全机制,但用户和开发者可以自定义许多模型行为。她还补充道:「我们知道这会引起争议。」

插个冷知识,Joanne Jang 毕业于斯坦福大学,获得计算机科学硕士学位和数学与计算科学学士学位,目前在 OpenAI 担任产品经理,负责模型行为相关工作。

另外,OpenAI 以 Creative Commons Zero(CC0)许可证发布 Model Spec,这意味着该规范完全开源,任何 AI 公司或研究人员都可以自由采用、修改或基于此构建自己的 AI 行为规范。OpenAI 表示,许多业内同行此前已非正式参考其 Model Spec,emmm……这也算是真·open 了。

另外最近有消息传出,Anthropic Claude 4 预计将在本周发布,除了Claude 4,还有推理模型也将首亮相,评分全面超越 o3。这或许也是促使 Altman 一反常态、不再「挤牙膏」的重要原因之一。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


幸好苹果国行 AI 没有选择 DeepSeek

当所有人都在猜测苹果国行 AI 的下一步棋会落在哪里时,答案既出人意料又在情理之中。不是最热闹的,不是呼声最高的,也不是反对声最强烈的,而是最低调的那个——阿里。

据外媒 The Information 报道,苹果最终选择了阿里作为其国行版 AI 的合作伙伴。

在昨晚发布的文章中,我们也注意到评论区网友态度的两极分化。有人认为阿里是实至名归的最佳人选,也有人对苹果绕过 DeepSeek 而选择阿里表示不解。

但如果回望整个筛选过程,DeepSeek 被苹果放弃或许真的不冤。

阿里 Qwen 模型什么水平

在诸多 AI 大厂里,阿里大概是最深藏不露的那位。

很多时候这不一定是劣势,在动辄瞬息万变的 AI 行业里,有时候「不够性感」反而是最大的优势,因为它的另一面往往意味着脚踏实地。

从技术实力这个最核心的维度切入,开源社区就像一面照妖镜,能照出真实的技术实力。而阿里是国内少数能在这面镜子前立得住、站得稳的厂商之一。

这一点,从全球最大 AI 开源社区 Hugging Face 的最新开源大模型榜单就可见一斑,排名前十的开源大模型全部是基于阿里通义千问(Qwen)开源模型二次训练的衍生模型。

该榜单是目前全球最具权威性的开源大模型榜单,其测试维度涵盖阅读理解、逻辑推理、数学计算、事实问答等。

另一个不争的事实是,打造技术品牌这句话的含金量还在不断上升。叫好又叫座的通义千问 Qwen 大模型已然超越 Llama,成为开源社区公认的标杆基座模型。

作为业界率先实现「全尺寸、全模态、多场景」的开源大模型,阿里云 Qwen 模型更是为开发者和企业提供了从 1.5B 到 72B 乃至 110B 的尺寸及版本,充分满足不同应用场景的需求。

其中,仅视觉理解 Qwen-VL 及 Qwen2-VL 两款模型,全球下载量就突破 3200 万次。一周前,Qwen2.5-VL 迎来全新升级,再次点燃了开源社区的热情。

数据会说话,在 Hugging Face 2024 年的开源模型榜单中,Qwen2.5-1.5B-Instruct 以 26.6% 的下载占比,成为全球开发者最青睐的开源模型。

目前,Qwen 衍生模型数量已突破 9 万,发展成为全球最大的开源模型族群。

在推理模型的技术浪潮中,Qwen 展现出强大的引力场。近期,被称为「AI 教母」的李飞飞团队用较少的资源和数据训练出的 s1 推理模型同样基于 Qwen-32B 蒸馏的模型,在多项能力上实现了对标 OpenAI o1-Preview 的效果。

这些成果皆源于 Qwen 模型过硬的基础实力,但同理也正是这份实力,让阿里有底气接下苹果对 AI 功能的高标准要求。

此外,与其他 AI 初创企业相比,阿里作为中国老牌 AI 巨头的优势不言而喻,它更熟悉国内用户需求,也更了解数据合规政策,这些都为苹果 AI 功能的本地化适配和快速落地提供了重要保障。

当然,虽然阿里最终胜出,但这个结果并非一开始就已注定。在过去数月里,苹果对包括腾讯、字节跳动、DeepSeek 在内的多家候选企业进行了多轮考察。

在近期财报电话会议上,苹果 CEO 蒂姆·库克(Tim Cook)就曾盛赞 DeepSeek。

库克指出,DeepSeek 在降低 V3 模型训练和运行成本方面取得了显著创新。他强调,推动效率的创新是非常积极的事情,这也是 DeepSeek 所展示出来的。

然而,受限于团队规模和大客户服务经验的不足,DeepSeek 遗憾出局也不足为奇,这一点在「服务器繁忙,请稍后再试」上就有所体现。相比之下,阿里云的技术底盘和基础设施可为苹果提供本地化算力支持的优势则更加突出。

更重要的是,通过与阿里合作,苹果希望推出符合中国用户习惯的 AI 功能(如智能语音、视觉理解等),提升产品竞争力,扭转市场颓势。

报道称,目标明确的苹果希望找到一个能够基于用户个人数据,并理解中国用户需求的合作伙伴,这也是打造 Apple 智能的重要一环。

而当苹果评估多家中国公司开发的 AI 模型时,苹果对这些模型在理解用户意图及将用户的实际手机使用情况融入生成的响应方面的能力感到不满意。

能否经得起挑剔目光的审视,扛得住严苛场景的考验,苹果国行 AI 选择阿里或许这个问题最好的回答,也是对 Qwen 实力最好的认证。

iPhone 用上 Qwen 后,这些体验将被重塑

在手机行业迎来新一轮技术变革之际,OPPO 首席产品官刘作虎早在去年 OPPO AI 战略发布会上做出了一个重要判断:「AI 手机将是继功能机、智能机之后,手机行业的第三个重大的变革阶段。」

AI 手机的发展描述为三个阶段,首先是应用级 AI,让单个应用更智能;其次是系统级 AI,将 AI能 力整合到操作系统层面;最终达到「AI 即系统」的阶段,让 AI 成为手机交互的核心。

包括近期随着 Deepseek 的爆火,AI 在手机领域的应用形态也越发清晰,手机厂商普遍采用「端云协同」的方案:轻量级任务由手机本地处理,复杂任务则转交云端。

Apple 智能在去年 WWDC 大会后也展示了类似的分层架构:

  • 本地模型:主要是经过微调的 3B 小模型,专用于摘要、润色等任务,经过适配器的加持后,能力不弱
  • 私有云计算:本地模型满足不了要求的,会传到云端运算。苹果确保端到端加密,保障用户数据的安全和隐私
  • 第三方 LLM:用于泛用的知识问答聊天,如 Siri 等应用接入了 ChatGPT 等外部模型

如无意外,在与阿里的最新合作中,Qwen 模型很可能以两种形式融入 iPhone 生态,其一就是本质上类似于插件的形态,以第三方 LLM 的身份提供全功能 AI 服务。

这种策略与苹果在海外市场接入 ChatGPT 的思路一致。但正如其与 OpenAI 的合作并非独家,未来可能会将 Google Gemini 或 Claude 等模型整合到海外 iPhone 中,国内市场同样可能引入更多本土国产 AI 模型。

其二则是与阿里合作部署开发蒸馏版小模型。与 DeepSeek V3/R1 专注于 671B 超大模型不同,Qwen 走的是全方位路线,即便是声名鹊起的 DeepSeek 公司,在其 6 个开源蒸馏小模型中,也有 4 个选择基于 Qwen 构建,而这本身就是对阿里技术实力的最好背书。

插个题外话,尽管 Deepseek 曾发布超越 OpenAI DALL·E 3 的多模态模型 Janus-Pro-7B,但 DeepSeek 在 C 端目前尚不支持多模态能力。而 Qwen 真就人无我有,人有我也不差,最新发布的 Qwen 2.5 Max 同样跻身最具竞争力的顶级多模态模型。

值得关注的是还有模型压缩技术的突破。2024 年,中国厂商在 AI 模型优化方面取得了显著进展,通过最新量化和剪枝技术在保证输出质量的同时大大精简了参数规模。

比方说,据 Canalys 报道,小米的 MiLM2 将模型参数从 60 亿剪枝至 40 亿,而荣耀和 vivo 也分别将其模型参数从先前的 70 亿剪枝至 30 亿。而通义千问使用结构化剪枝同样将 7B 参数的模型压缩到 2.2B,并保持相当的理解和生成能力。

在工具层面,苹果的 Core ML Tools 同样支持对模型权重进行量化,可以将默认的 float 32 精度降低至 float 16、8 位、7 位,甚至 1 位,不仅能够大幅降低模型的存储空间和计算资源消耗,还能提高推理过程的稳定性和结果可靠性。

量化过程不会改变中间张量的精度,这些张量通常保持为 float 32 或 float 16 精度,并在运行时将权重去量化以匹配中间张量的精度,从而提高推理结果的准确性。

甚至早在去年,通过一系列优化技术,包括低比特位面化、激活量化、嵌入量化、高效的 KV 缓存更新以及使用 Talaria 工具进行延迟和功耗分析,苹果在 iPhone 15 Pro 上运行的 3B 模型实现了首个 token 仅需 0.6 毫秒的延迟,每秒可生成 30 个 token,打造了流畅的体验。

当然,Apple 智能的终极目标是打造一个真正的系统级 AI 助理。

小模型是入场券,生态才是最终的王牌。阿里生态涵盖电商、支付、本地服务、文娱,与 iPhone AI 深度合作后,未来,用户可能只需通过简单的语音指令,就能无缝完成服务预订的全流程操作,甚至还有望撬动来自钉钉等企业端的资源,进一步拓展应用场景。

AI 手机的竞争正在从单纯的技术比拼,转向生态整合和用户体验的比拼。厂商们需要在本地算力、云端能力和生态协同三个维度上共同发力,才能打造真正打动用户的 AI 手机。

从市场反应来看,这次合作也远超预期。而无论是 DeepSeek 的爆火,还是这次苹果与阿里的「联姻」,属实是应了那句话——真正的高手,宛如大江东去,看似平缓无声,却暗藏汹涌伟力。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


别再被 DeepSeek R1 本地部署割韭菜,我帮你把坑都踩遍了 | 附免费教程

买它!趁着过年有空学起来。

这个春节,DeepSeek 像一条鲶鱼搅动了海内外无数人的心弦。当硅谷还沉浸 DeepSeek 带来的震撼时,一场声势浩大的 AI「淘金热」也在逐渐渗透国内主流电商平台。

号称内置 DeepSeek 的智能键盘日销近百万,博主兜售的课程轻松日入五万,就连仿冒网站也如雨后春笋般冒出了 2650 个,惹得 DeepSeek 官方突发紧急声明。

人群中有焦虑者、有淘金者,还有更多怀揣期待的观望者,当打工人节后终于有时间静下心来体验这个 AI 神器时,得到的却是 DeepSeek R1 冰冷的回应:
服务器繁忙,请稍后再试。

得益于 DeepSeek 的开源策略,在焦躁的等待中,本地部署 DeepSeek R1 的教程也迅速在全网刷屏,甚至成为新一轮收割韭菜的 AI 秘籍。

今天,不用 998 ,也不用 98 ,我们给家人们送上一份本地部署 DeepSeek R1 的教程。

DeepSeek’s AI Model Just Upended the White-Hot US Power Market – Bloomberg

不过,部署了,但没完全部署。

尽管许多卖课博主声称能轻松运行满血版 DeepSeek R1,但满血版 R1 模型参数高达 671B,仅模型文件就需要 404GB 存储空间,运行时更需要约 1300GB 显存。

对于没有卡的普通玩家来说,运行的条件苛刻,且门槛极高。基于此,我们不妨将目光转向 DeepSeek R1 四款分别对应 Qwen 和 Llama 的蒸馏小模型:

  • DeepSeek-R1-Distill-Llama-8B
  • DeepSeek-R1-Distill-Qwen-14B
  • DeepSeek-R1-Distill-Qwen-32B
  • DeepSeek-R1-Distill-Llama-70B

海外博主已经整理出相关配置供大家参考,注意,只要 GPU 等于或超过 VRAM 要求,模型仍然可以在规格较低的 GPU 上运行。但是设置不是最佳的,并且可能需要进行一些调整。

🔗 https://dev.to/askyt/deepseek-r1-671b-complete-hardware-requirements-optimal-deployment-setup-2e48

本地部署 R1 小模型,两种方法,一学就会

我们这次手上体验的设备正是 M1 Ultra 128GB 内存的 Mac Studio。关于主流本地部署 DeepSeek 的教程,两种方法,一学就会。

LM Studio

首先登场的是小白极简版本,在官网(lmstudio.ai)根据个人电脑型号下载 LM Studio,接着为了方便使用,建议点击右下角修改语言为简体中文。

然后搜索 deepseek-r1 选择合适的版本下载,作为示例,我选择使用阿里 Qwen 模型为基座蒸馏出来的 7B 小模型。

配置完成后,即可一键启动。

使用 LM Studio 的好处就是不用代码、界面友好,但跑大型模型的时候对性能要求高,因此更适合新手入门使用基础功能。

Ollama

当然,对于追求更深层次体验的用户,我们也准备了进阶方案。

首先从官网(ollama.com)获取并安装 Ollama。

启动后打开命令行工具。Mac 用户键盘 Command+空格 打开「终端」工具,Windows 用户键盘运行 Win+R ,输入 cmd 打开「命令提示符」工具。

在窗口中输入代码指令(ollama run deepseek-r1:7b)即可开始下载。请注意英文状态输入,检查空格和横杠,冒号后输入所需要的版本名称。

配置完成后就能在命令行窗口开始对话。

这个方法对性能要求很低,但需要熟悉命令行操作,模型的兼容性也有限,更适合进阶开发者实现高级操作。

如果你想要比较好看的交互界面,不妨在 Chrome 浏览器安装插件,搜索安装 PageAssist。

选择本地已安装的模型,开始使用。

右上角设置里修改好语言,主页选择模型就可以开始对话,而且支持基础的联网搜索,玩法也更多样。

能跑是能跑,但…

我们这次体验则用到了 LM Studio。

凭借其出色的优化能力,LM Studio 使得模型能够在消费级硬件上高效运行。比如 LM Studio 支持 GPU 卸载技术,可以将模型分块加载到 GPU 中,从而在显存有限的情况下实现加速。

如同调教赛车,每个参数都会影响最终的表现,在体验之前,建议在 LM Studio 的设置中,根据需求调整推理参数的能力,以优化模型的生成质量和计算资源分配。

  • 温度 (Temperature):控制生成文本的随机性。
  • 上下文溢出处理 (Context Overflow Handling):决定如何处理超长输入。
  • CPU 线程:影响生成速度和资源占用。
  • 采样策略:通过多种采样方法和惩罚机制,确保生成文本的合理性和多样性。

DeepSeek 研究员 Daya Guo 在 X 平台分享了他们内部的调教指南,最大生成长度锁定在 32768 个 token,温度值维持在 0.6,top-p 值定格在 0.95。每个测试都生成 64 个响应样本。

详细的配置建议如下:

1. 将温度设置在 0.5-0.7 之间(建议设置为 0.6),以防止模型输出无尽的重复或不连贯的内容。
2. 避免添加 system prompt,所有指令应包含在用户提示中。
3. 对于数学问题,建议在提示中包含指令,例如:「请逐步推理,并将最终答案放在 \boxed{} 中。」
4. 在评估模型性能时,建议进行多次测试,并取结果的平均值。
5. 此外,我们注意到 DeepSeek-R1 系列模型在响应某些查询时,可能会绕过思维模式(即输出 「\n\n」),这可能会影响模型的性能。为了确保模型进行充分的推理,我们建议在每次输出的开始,强制模型以 「\n」 开始其响应。

▲DeepSeek 官方给出的蒸馏版模型的评测对比

更大的参数量并不一定能带来更好的效果,在我们体验的这几款小模型中,相临参数量模型的实力差距整体倒也没有那么等级森严。我们也做了一些简单的测试。

「deekseeeek 里有多少个 e?」

8B 模型的响应速度很快,基本能跑到 60 token/s,但答得快不意味着答得对,差之毫厘,谬以千里。思考过程显示,模型更像是基于知识库里的「DeepSeek」单词作出回答。

14B 模型也没答对。直到 32B 模型的出场,才终于看到了靠谱的答案。70B 模型展示出更缜密的推理过程,但同样回答错误。

「请帮我写一版京剧的《哈利波特与魔法石》」

就该问题的回答质量来说,32B 和 70B 各有千秋,32B 在剧本场景的细节把控更完美,而 70B 则交出了一份角色饱满、剧情完整的答卷。

「在一天的 24 小时之中,时钟的时针、分针和秒针完全重合在一起的时候有几次?都分别是什么时间?你怎样算出来的?」

「某人在北半球某地乘飞机依次向正东、正北、正西、正南各飞行 2000 千米。最后,他能回到原地吗?」

▲ DeepSeek-R1-Distill-Qwen-32B

▲DeepSeek-R1-Distill-Llama-70B

当然,这几款模型中,参数越小的模型的回答准确率往往越低,即便思考过程摸着门道了,但后续也因不坚定而出错,遇上数学计算领域,不同量级模型的实力差距则会比较明显。

本地部署有三大优势,敏感数据无需上传云端;断网也能流畅使用;以及免除 API 调用费用,长文本任务更省钱,尤其适合企业、开发者及对隐私敏感的用户。

但不支持联网也有其弊端,如果你不喂给它「资料」,不及时更新知识库,那它的信息认知水平也会停滞不前。比方说知识库截止到 2024 年,那它就没法回答你最新的 AI 新闻。

本地部署最常用的功能当属打造自己的知识库,方法则是在安装 LM Studio 之后,增加与 Anything LLM 联动的部署步骤。

考虑到效果和适用性,我们使用了 32B 模型作为联动模型,结果显示效果也很一般,其中最大的挑战来自上下文窗口的限制。

依次输入只有 4000 字的文章和 1000 字左右的文章,前者回答依旧很迷糊,后者则能胜任,但处理 1000 字左右的文章稍显鸡肋,所以当个玩具还行,生产力还差点意思。

另外需要特别强调的是,一方面,撬开这四款模型的嘴难度极高,另一方面,我们也不建议大家去尝试「越狱」。网上虽然流传着许多所谓容易「越狱」的新版本模型,但出于安全和伦理考虑,我们并不建议随意部署。

不过,既然到这一步了,不妨再本着一窍通百窍通的原则,尝试下载和部署一些经过正规渠道发布的小模型。

那除了本地部署 R1 蒸馏小模型,满血版 R1 有没有穷鬼套餐呢?

Hugging Face 的工程师马修·卡里根前不久在 X 平台展示了运行完整 DeepSeek-R1 模型,Q8 量化,无蒸馏的硬件 + 软件设置,成本大约为 6000 美元。

附上完整配置链接:
https://x.com/carrigmat/status/1884244369907278106

言归正传,所以我们真的需要本地部署一个蒸馏版的 DeepSeek R1 吗?

我的建议是不要将这几款 R1 蒸馏小模型想象成特斯拉,它充其量更像是五菱宏光,能跑是能跑,但要么性能表现相去甚远,要么缺胳膊少腿。

在本地部署最常用的自定义知识库能力的体验中,效果就不尽如人意。面对具体问题时,它无法准确「按图索骥」,或者干脆胡编乱造,准确率堪忧。

对绝大多数用户来说,老老实实用官方版或者使用第三方平台才是目前最优解,它不需要投入昂贵的硬件成本,也不用担心性能受限。

甚至折腾了半天,你会发现与其投入大量时间、精力和金钱去折腾本地部署这些小模型,不如下班后吃顿好的。

而对于企业用户、开发者或对数据隐私有特殊需求的用户,本地部署依然是一个值得考虑的选择,但前提是你清楚自己为什么需要它,以及它存在的各种局限性。

附上小白 QA 问答:

  • ‍问: 我能在普通的电脑上部署 DeepSeek 吗?
    答: DeepSeek 的完整版对电脑要求较高,但是,如果你只是想用它进行简单的操作,可以选择一些蒸馏小模型,不过仍需量力而行。
  • 问:什么是 DeepSeek R1 的蒸馏版模型?
    答: 蒸馏版模型是「简化」版本,硬件要求更低,运行起来速度也更快。
  • 问: 我能在没有网络的情况下使用 DeepSeek 吗?
    答: 如果你选择本地部署 DeepSeek,那么在没有互联网的情况下也能使用它。如果你通过云端或第三方平台使用,就需要网络连接才能访问。
  • 问: 使用 DeepSeek 时,我的个人数据是否安全?
    答: 如果你选择本地部署 DeepSeek,那么你的数据不会上传到云端,更加安全。如果使用在线版本,确保选择可信的服务平台,保护个人隐私。

作者:莫崇宇、Lin

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


OpenAI CEO 深夜发文:AI 成本每年暴跌 10倍,2035 年人人都有超级大脑

OpenAI CEO Sam Altman 最近很忙。

忙着到全世界到处演讲,猛刷存在感;忙着回应马斯克的起诉,解决 OpenAI 转型期间的遗留问题,忙着筹备星门计划数据中心的选址。

当然,今天深夜他还忙着发博客「炒作」AGI,试图夺回公众对 DeepSeek 的注意力和国际报刊的头版头条。

省流版我们已经总结好了:

  1. AGI 的目标是确保它能够惠及所有人类,并且已经开始出现系统,这些系统能够在多个领域解决复杂问题。
  2. 人类是工具构建者,每一代都在建立前一代的基础上,创造更有能力的工具,如电力、晶体管、计算机、互联网,以及即将到来的 AGI。
  3.  AGI 作为人类进步的工具,可能会带来前所未有的繁荣和生活质量改善。
  4.  AI 模型的智能水平与用于训练和运行它们的资源成正比,这些资源包括计算能力、数据和推理计算。
  5.  AI 的使用成本每年下降约 10 倍,这可能导致更多的使用和应用。
  6.  随着 AI 的智能水平线性增加,其带来的社会经济价值是超指数级别的。
  7.  AI Agent 将成为虚拟同事,在各个领域的知识工作中发挥作用。AI 可能在经济上类似于晶体管,是一个可以广泛扩展的大科学发现,它将渗透到经济和社会的每个角落。
  8.  主动性、意志力和决策能力将成为极其宝贵的品质,社会和经济将需要新的思维方式来适应 AGI 带来的变化。
  9.  AGI 的影响可能会不平衡,一些行业可能会发生巨大变化,而其他行业则可能保持不变。
  10.  为了确保 AGI 的好处被广泛分配,可能需要新的想法和早期干预。
  11.  每个人都应该能够访问与整个前一代人类智慧相当的知识能力,这将导致创造性产出的爆炸性增长。
  12.  微软仍是重要合作伙伴,预计将与微软保持长期合作。

附上博客原文:

三点观察

我们的使命是确保 AGI(通用人工智能)造福全人类。

如今,一些接近 AGI 的系统已经开始显现,因此我们认为理解当前所处的阶段至关重要。AGI 的定义较为模糊,但通常指的是一种能够在人类水平上解决越来越复杂问题的系统,且适用于多个领域。

(作者注释:本文使用「AGI」一词,我们的目的是清晰表达,并无意改变或重新定义我们与微软的合作关系,以及避免断章取义的解读,我们完全预计将与微软保持长期合作。)

人类天生具有构建工具的能力,并且拥有理解和创造的驱动力,这促使世界不断进步。每一代人都会在前人发现的基础上进一步创新,创造出更强大的工具——从电力到晶体管,再到计算机、互联网,如今则是 AGI。

尽管人类的创新历程并非一帆风顺,但从长远来看,这一进程始终推动着社会发展,使人们的生活在各个方面都得到极大改善。

从某种角度来看,AGI 只是人类不断攀登进步阶梯的又一个工具。但从另一个角度来看,它可能标志着一个真正不同的时代的开始。未来的经济增长前景令人惊叹,我们甚至可以设想一个世界:所有疾病都能被治愈,我们拥有更多时间陪伴家人,并能够充分发挥自己的创造潜力。

或许再过十年,地球上的每个人都能拥有比今天最具影响力的人更强的能力。

我们持续见证 AI 发展的迅猛进步,以下是关于 AI 经济学的三点观察:

  1. AI 模型的智能水平大致等于其训练和运行所使用资源的对数。这些资源主要包括训练计算(compute)、数据和推理计算(inference compute)。目前的趋势表明,只要投入足够的资金,就能持续且可预测地提升 AI 能力,而支撑这一趋势的缩放定律(Scaling Laws)在多个数量级范围内都被证明是准确的。
  2.  使用固定级别 AI 的成本大约每 12 个月降低 10 倍,价格下降会极大促进 AI 的使用。一个明显的例子是 GPT-4 在 2023 年初的使用成本,相比 GPT-4o 在 2024 年中期,其每个 token 的价格下降了约 150 倍。摩尔定律每 18 个月带来 2 倍的性能提升,而 AI 成本下降的速度远超这一趋势,影响将更加深远。
  3. 线性增长的智能水平所创造的社会经济价值呈超指数级增长。这一趋势意味着,对于 AI 的指数级投资在可预见的未来不会停止。

如果这三点趋势继续保持,AI 对社会的影响将是巨大的。

目前,我们已经开始推出 AI Agents,它们最终可能会像「虚拟同事」一样与人类协作。

以软件工程领域的 AI Agent 为例——这是我们认为极为重要的应用方向之一。设想未来的 AI Agent 能够完成大部分经验 3-5 年的顶级公司软件工程师可以完成的任务,但任务时长限制在几天内。它不会有突破性的创新想法,需要大量的人类监督和指导,在某些方面表现出色,同时在某些意想不到的地方表现较差。

尽管如此,它仍可以被视作一名真实但相对初级的虚拟同事。现在,想象一下如果有 1000 个这样的 AI Agnet,或者 1000000 个。再进一步,设想这样的 AI Agnet 被应用到所有知识型工作领域,其影响将难以估量。

在某些方面,AI 在经济上的作用可能会类似于晶体管——一个重大科学突破,能够大规模推广,并渗透到经济的各个角落。如今,我们不会特别关注晶体管或生产晶体管的公司,但它们的存在让我们的计算机、电视、汽车、玩具等设备变得更加强大、近乎奇迹般地运作。

世界的变化不会一蹴而就,它从未如此。短期内,生活仍将继续,2025 年的人们大概率会和 2024 年一样度过日常——我们仍会相爱、组建家庭、在网上争论、去大自然中远足等等。

然而,未来的到来将不可忽视,长期来看,社会和经济的变化将是巨大的。人类将找到新的事物去探索,找到新的方式去互相帮助、去竞争,但这些方式可能与今天的工作模式截然不同。

在这样的时代,主动性、意志力和决策能力将变得尤为宝贵。正确地决定要做什么,并在不断变化的世界中找到前进的道路,将具有极高的价值。因此,韧性和适应能力将成为关键技能。

AGI 将是史上最强大的杠杆,极大增强人类的主观能动性,它不会削弱个人的影响力,反而会让个体的能力比以往任何时候都更强大。

AGI 的影响不会均匀分布。某些行业可能变化不大,但科学进步的速度可能比今天快得多,甚至可能超越 AGI 带来的所有其他变革。

长期来看,许多商品的价格将大幅下降(目前,智能成本和能源成本是许多行业的主要限制因素)。与此同时,奢侈品和一些稀缺资源(如土地)的价格可能反而会飙升。

从技术角度来看,AGI 的发展道路相对清晰。但如何将 AGI 融入社会,公共政策和社会共识将起到至关重要的作用。这也是我们不断尽早、频繁推出 AI 产品的原因之一——让社会与技术共同演进,为未来做好准备。

AI 将渗透到经济和社会的方方面面,未来,我们会期待一切都变得智能化。面对这一趋势,许多人认为应该给予个人更多对技术的控制权,比如开放源码等措施,同时也要接受在安全性与个体赋权之间找到平衡,必然需要做出一些取舍。

我们始终希望避免鲁莽行事,未来在 AGI 安全性方面可能会做出一些不受欢迎的重要决策和限制。但总体而言,随着 AGI 的逐步实现,我们认为更倾向于个体赋权是正确的方向。否则,我们可能会看到另一条道路。

确保 AGI 的广泛受益,让 AGI 的好处惠及全社会至关重要。从历史来看,科技进步通常会改善健康状况、经济繁荣等关键指标,且长期来看整体趋势是向好的。但技术本身不会自动带来更大的平等,如果希望在社会公平方面做得更好,我们可能需要新的思维方式。

尤其值得关注的是,资本与劳动力之间的力量平衡可能会被打破,这可能需要及早干预。

我们愿意考虑一些听起来不太寻常的想法,比如给每个人分配一定的「计算预算」(compute budget),让全球所有人都能充分利用 AI。当然,也有一种更简单的方法:持续降低智能计算的成本,让人人都能负担得起 AI。

到 2035 年,每个人都应该能够调用相当于 2025 年全人类智慧总和的智力资源。所有人都应当获得近乎无限的智能支持,并自由地发挥想象力。目前,世界上仍有大量人才因缺乏资源而无法充分发挥自己的潜力,如果我们改变这一点,全球的创造力将迎来爆发式增长,并为所有人带来巨大的福祉。

附上博客原地址:
https://blog.samaltman.com/three-observations

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌