我把 Go-Sail 的文档站更新了
Go-Sail 是我开源的一个轻量的渐进式 Web 框架,使用 Go 语言实现。
这两天抽空把 Go-Sail 的文档站更新了,新的文档内容更加的翔实,结构也更加清晰。欢迎大家访问。
屏幕截图:
文档地址:
go-sail.dev
Github 地址:
https://github.com/keepchen/go-sail
欢迎喜欢开源贡献的朋友一起参与进来。感谢大家的支持。
Go-Sail 是我开源的一个轻量的渐进式 Web 框架,使用 Go 语言实现。
这两天抽空把 Go-Sail 的文档站更新了,新的文档内容更加的翔实,结构也更加清晰。欢迎大家访问。
屏幕截图:
文档地址:
go-sail.dev
Github 地址:
https://github.com/keepchen/go-sail
欢迎喜欢开源贡献的朋友一起参与进来。感谢大家的支持。
昨天,Meta Llama 4 就这么突然地发布了。
纸面参数很高大上,号称原生多模态 MOE 模型,击败 DeepSeek V3,还有 2 万亿参数巨兽,连 Meta CEO 扎克伯格也发视频,摇旗高呼迎接「Llama 4 日」。
欢呼是短暂的,当网友开始实测后,却几乎是一边倒的负面评价,堪称今年 AI 界最大的「翻车」事件。
在专门讨论本地部署大语言模型的社区 r/LocalLLaMA(可理解为 Llama「贴吧」)中,一篇标题为「我对 Llama 4 感到 incredibly disappointed(极度失望)」的帖子迅速获得了大量关注和共鸣。
更有 Llama 忠实粉丝原地破防,直言是时候该将「LocalLLaMA」改名为「LocalGemma」了,调侃 Llama 4 的发布更像是迟到的愚人节玩笑。
在 Reddit 的这篇原帖中,网友 karminski 强烈建议不要使用 Llama 4 进行编码。
他表示 Llama-4-Maverick——总参数达 402B 的型号——在编码能力上仅能与 Qwen-QwQ-32B 勉强匹敌。而 Llama-4-Scout(总参数 109B 的型号)表现则大致与 Grok-2 或 Ernie 4.5 相仿。
事实上,根据最新的 aider polyglot 编码基准测试结果,Llama 4 Maverick 的得分仅为 16%。
这一基准测试旨在评估大型语言模型(LLM)在多语言编程任务中的表现,覆盖了 C++、Go、Java、JavaScript、Python 和 Rust 六种主流编程语言。
而这个分数,在众多模型中也是属于妥妥的垫底水平。
博主 @deedydas 同样表达了对 Llama 4 的失望,直呼其为「一个糟糕透顶的编程模型」。
他指出,Scout (109B) 和 Maverick (402B) 在针对编程任务的 Kscores 基准测试中,表现远不及 4o、Gemini Flash、Grok 3、DeepSeek V3 以及 Sonnet 3.5/7。
另一位网友 Flavio Adamo 分别让 Llama 4 Maverick 和 GPT-4o 生成一个小球在旋转多边形弹跳的动画,并且,小球跳动的过程中要遵循重力和摩擦力的影响。
结果显示,Llama 4 Maverick 生成的多边形形状缺乏开口,小球的运动也违背物理规律,相比之下,新版 GPT-4o 的表现明显更胜一筹,而 Gemini 2.5 Pro 的表现则堪称王者。
回望今年 1 月,扎克伯格还宣称,AI 将达中级软件工程师编程水平,就目前 Llama 4 糟糕的表现,属实是打脸来的有些快。
另外,Llama 4 Scout 的上下文长度达到了 1000 万 tokens。这一超长上下文长度使得 Llama 4 Scout 能够处理和分析极长的文本内容,例如整本书籍、大型代码库或多媒体档案。
Meta 官方甚至还展示了「大海捞针」的测试结果以证明其能力。
然而,根据 Fiction.LiveBench 最新给出的结果,Llama 4 模型的效果也是中看不中用,整体效果不及 Gemini 2.0 Flash,而 Gemini 2.5 Pro 依旧是当之无愧的长文本王者。
Google 上大分+1。
网友 karminski 进一步指出,Llama 4 在 1K 上下文召回率(近似理解为问题回答的正确率)时就已跌至 60% 以下,甚至 Llama-4-Scout 在超过 16K 时仅剩 22%。
他还给出了一个形象的例子「《哈利·波特与魔法石》的文本长度恰好约为 16K。
这意味着,如果你把整本书输入模型,然后问「哈利小时候是住在卧室还是楼梯下的储物间」,Llama-4-Scout 只有 22% 的概率能答对(近似理解,实际召回机制更复杂)。而这个成绩自然也就远低于头部模型的平均水平。
不仅模型本身稍显拉胯,Llama 4 作为「开源扛把子」的光环也在逐渐褪色。
Meta 开放了 Llama 4 的权重,但即使使用量化(quant),也无法在消费级 GPU 上运行。号称单卡运行,但实际指的却是 H100。门槛之高,对开发者可谓是相当不友好。
更何况,Llama 4 的新许可证还有几个限制条款,其中备受诟病的则是拥有超过 7 亿月活跃用户的公司必须向 Meta 申请特别许可证,Meta 可以自行决定是否批准或拒绝。
等等,昨天 Meta 公布的纸面参数可不是这么说的,怎么过了一天,风向就全变了。
在大模型竞技场(Arena)排名中,Llama 4 Maverick 名列总榜第二,成为第四个突破 1400 分的模型,在开源模型中更是高居榜首,更是超越了 DeepSeek V3。
面对实测性能的「货不对板」,细心的网友很快嗅到一丝蹊跷。在 LM Arena 上取得高分的 Maverick 其实用到了一个「实验性聊天版本」。
这还没完,今天一亩三分地社区的爆料贴也似乎揭开了一些内幕。爆料称,经过反复训练后,Llama 4 未能取得开源 SOTA,甚至与之相差甚远。
而 Meta 公司内部设置发布的 deadline(截止日期)则是 4 月底。
于是,公司领导层建议将各个 benchmark 的测试集混合在 post-training 过程中,目的是希望能够在各项指标上交差。拿出一个「看起来可以」的结果。
这里说的将各个 benchmark 的测试集混合在 post-training 过程中,是指在模型的后训练(post-training)阶段,通过混合不同基准测试的数据集,模型可以在多种任务和场景中学习,从而提升其泛化能力。
打个简单的比方,这就像考试时作弊。试题本该从保密题库(benchmark 测试集)中随机抽取,考前无人知晓。可如果有人提前偷看了题目并反复练习(相当于将测试集混入训练),那考试的时候肯定能考得很好。
帖主进一步解释说,Llama 4 发布之后,实测结果遭到 X 和 Reddit 网友的吐槽。作为一名目前也在学术界的人他宣称实在无法接受 Meta 的做法,已提交离职申请,并明确要求在 Llama 4 的 Technical Report 中剔除自己的名字。
他还表示,Meta 的 VP of AI 也是因为这个原因辞职的。而早在几天前,就有报道称 Meta AI 研究负责人乔尔·皮诺(Joelle Pineau)宣布将于 5 月 30 日离职。
不过,对于这桩疑似「刷榜作弊」的指控,真相究竟如何,或许还需更多证据。一位名为 LichengYu 的 Meta 员工也疑似在评论区实名回应称:
「这两天虚心聆听各方 feedback(比如 coding,creativewriting 等缺陷必须改进),希望能在下一版有提升。但为了刷点而 overfit 测试集,我们从来没有做过,实名 Licheng Yu,两个 oss model 的 post training 有经手我这边。请告知哪条 prompt 是测试集选出来放进训练集的,我给你磕一个+道歉!」
公开资料显示,Licheng Yu(虞立成)曾本科毕业于上海交通大学,2014 年获佐治亚理工学院和上海交通大学双硕士学位,在 2019 年 5 月获北卡罗来纳大学教堂山分校计算机科学博士学位,。
他的研究领域专注于计算机视觉和自然语言处理,多篇论文被 CVPR、ICLR、ECCV、KDD 等顶级会议接收。
Licheng Yu 曾在微软、Adobe 等大厂有过工作经历,目前(2023.06 至今)担任 Meta 的研究科学家经理,曾参与 Llama3.2 多模态模型(11B+90B)的发布,以及领导 Llama 4 项目中 17Bx128 和 17Bx16 的 文本+图像强化学习阶段。
真假难辨,或许还可以让子弹再飞一会。
在去年这个时候,Meta 还被誉为 AI 行业的天选之子。
当然,脱下简单的灰色T恤、牛仔裤和连帽衫,扎克伯格也开始频繁地穿着大 LOGO 的名牌服装,颈间挂上粗犷的大金链子,甚至在公开场合自信展示自己的健身成果。
醉翁之意不在酒的扎克伯格试图通过展现更「真实」、更「接地气」的一面,拉近与公众的距离。这不仅让 Meta 显得更加亲民,也使其顺势成为对抗 OpenAI 闭源模型的开源旗手,声势一时无两。
与此同时,Meta 的雄厚实力为转型提供了坚实后盾。据悉,Meta 计划在 2025 年投入高达 650 亿美元用于扩展其 AI 基础设施,这一数字在业内堪称大手笔,到 2025 年底,Meta 计划拥有超过 130 万块 GPU。
其次,Meta 坐拥丰富的社交平台数据,这为其 AI 研发提供了得天独厚的优势。
作为 Facebook、Instagram 和 WhatsApp 等全球知名社交平台的母公司,Meta 掌握着数十亿用户的日常交互数据。据统计,其平台的全球日活跃用户数(DAU)在 2024 年已超过 30 亿,这一庞大的数据体量为 AI 模型的训练提供了海量的原材料。
再者,Meta 在人才储备上同样不遑多让。其 AI 部门的领军人物是业界享有盛誉的图灵奖得主 Yann LeCun。在他的带领下,Meta 坚持开源策略,推出了 Llama 系列模型。
因此,Meta 也野心十足——它不仅要巩固自身在社交领域的地位,更希望在 AI 领域实现弯道超车,目标是在 2025 年底前超越 OpenAI 等强劲对手。
但眼见他起朱楼,眼见他宴宾客,眼见他楼塌了。
若一亩三分地的爆料属实,Llama 4 的研发过程中可能存在为追求基准测试分数而「作弊」的行为——通过将测试集混入训练数据,也更像是「AI 流量焦虑」下的操作变形。
年初就曾有消息称 DeepSeek 让 Meta AI 团队陷入恐慌:
「当生成式 AI 组织中的每个高管薪资都比训练整个 DeepSeek-V3 的成本还要高,而我们有好几十个这样的高管,他们要如何面对高层?」
2023 年,Meta 凭借 Llama 系列在开源大模型领域几乎建立了垄断地位,成为开源 AI 的代名词和标杆。
然而,AI 一日,人间一年,在 Llama 4 遭遇「滑铁卢」的评论区中,其他开源模型的好评随处可见。其中,Google Gemma 以轻量高效和多模态能力赢得广泛认可,阿里的 Qwen 系列基座模型崭露头角,而 DeepSeek 更以低成本高性能的黑马姿态震撼了整个行业。
Meta 能否调整策略重回开源 AI 的模型领跑位置尚未可知,但无论如何,开源 AI 的百花齐放已经不可逆转地到来了。
秉持着哪个 AI 好用,用哪个的原则,Meta 也不能全然怪用户「墙头草」。更何况,在开源透明度方面,相较于上述几家公司的开源模型,Llama 4 的自缚手脚,也颇有些自断一臂的意味。
而 Meta 目前的挣扎或许也表明,即便手握全球所有的 GPU 算力和海量数据,资源优势已不再是决定性因素,开源大模型的「王座」,不能靠蛮力夺取。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
这,是蛇年春晚的顶流机器人 H1,凭借一手丢手绢的绝活,火遍了大江南北。
这,是一款能侧空翻、会鲤鱼打挺的人形机器人 G1,十八般武艺无一不精。
他们都来自同一家公司——宇树科技(Unitree),但其实在这些人形机器人声名鹊起之前,宇树便靠着机器狗狠狠出圈一波,比 H1 更早些时候上过春晚,也曾亮相于超级碗、冬奥会、亚运会等盛会。
宇树旗下的机器狗种类繁多,有面向消费级的 Go 系列,也有科研级的 A 系列和工业级的 B 系列。
其中,在主流电商平台,Go2 目前起售价接近 1 万块,与一张普通显卡的价格相当,这个价位也让其更像是一款面向市场的、相对高端的消费电子产品:
或许正是因为 Go2 价格相对「亲民」且定位贴近大众,知名维修网站 iFixit 也将目光投向了这款机器狗,并特别邀请了机器人专家 Marcel Stieber 对其进行了一次深入的拆解。
上「手术台」前,安全措施必不可少。
卸电池是标准流程,拿出机器狗侧腰处的电池组,拧开几颗 Torx 螺丝并取下电池仓盖后,便能看到内部用于连接顶部电量指示灯的 Pogo Pin 接口。
将电池组从塑料外壳中滑出,其结构一目了然:包含主接口、充电端口接口,以及若干用于导电的大铜条,这点用料还算扎实,能减少发热。
电池管理系统(BMS)则位于电池组后部,并通过 Pogo Pin 与外部的电量指示灯相连。这种接口可以方便地将 BMS 的信号传递到电量指示器,从而让用户能够直观地看到电池的剩余电量。
Unitree Go2 的标配电池电量为 8000mAh,续航时间约为 1–2 小时,最长可选 15000mAh,日常玩玩还行,真要干活可能不太够。电池组的核心由 32 节 18650 电芯阵列组成,也是比较成熟和常见的电芯类型。
根据标识,其生产日期为 2024 年 3 月 6 日。
移除固定 BMS 电路板的螺丝并小心将其翻开,可以看到下方的充电管理芯片以及一块连接各电池串(标记为 BT1 至 BT8)的子电路板。不过,BMS 芯片上的型号标记似乎被激光蚀刻掉了,无法识别具体型号。
卸掉顶盖的螺丝并取下外壳。
首先映入眼帘的则是一个小型的散热风扇,左上方是一块无线通信板,标有 GNSS(全球导航卫星系统)连接点和另一个天线接口,由同轴电缆的连接方式,专家推测,这可能集成了 Wi-Fi 功能。
此外,我们可以看到一个以太网接口,但这并未为用户专门设计,它更可能主要是用于工厂调试、故障排除或内部维护。
另一个发现则是 XT30 连接器。
这是一种小型、高电流电源连接器,广泛应用于需要大电流传输的场景,如无人机、航模、电动工具、户外电源等。在硬件调试过程中,可以作为一种备用电源输入途径,允许在没有电池的情况下为主板供电进行调试。
主处理单元区域清晰可辨,其外观及配备的散热管和散热片都与英伟达 Jetson 板有相似之处。此外,还可以看到多个预留的风扇接口和一些调试端口。
主板上还集成了多个用于连接电机或执行器的高功率连接器。
事实上,在这款机器狗内部,这种布基胶带的使用相当普遍,目的也很明确,机器狗磕磕碰碰很正常,而胶带可以固定线缆,防止连接器松脱。
拆解进行到前部传感器,需要先小心地剥离覆盖在其上的布基胶带,然后使用撬棒谨慎地断开两个电缆连接器,由于这种细小的连接器比较脆弱,撬棒下手必须稳、准、轻。
在检查前部头部模块时,塑料外壳上明显存在裂缝,显然,这款机器狗平时没少摔,好在这种损伤多数不影响功能,用环氧树脂填充一下就可以,成本也不高。
在视频的结尾,专家继续对主板区域进行更深入的拆解。
又是一顿拆拆拆等常规操作,依次小心拔出连接 GNSS 模块(接收全球导航卫星系统信号)、MCU(推测为微控制器)等部件的连接器,并细心地贴上标签以防后续混淆。
继续移除连接电机的高功率连接器(标有 C-, C+ 等)、连接电池的主电源连接器以及一个小的电池通信连接器。
移除主板上的另一个散热风扇后发现,该区域还预留了更多风扇安装位。
这么设计的好处是,更高配的机器狗版本由于配置更高,(比如有更强的处理器),它就会产生更多的热量,这时候就需要更多的风扇来散热。
不过,装更多风扇也有坏处:风扇多了,就会吸进更多灰尘,还会用更多的电。这样一来,要么需要更大的电池来供电,要么机器狗的续航时间就会变短。
接着,移除两个 RF (射频) 连接器,同样做好标记,以确保后续正确连接。
拧下所有固定主板的螺丝,小心地将其从底盘上取下。移除主板后,便可看到固定底盘上下两部分的螺丝,将它们全部拧下后,即可分离底盘,一览无余。
激光雷达(Lidar)是 Go2 感知环境的关键。
其工作原理通过发射激光并测量反射光的回波时间来绘制周围环境地图,实现障碍物检测。简单来说,机器人利用预设的光速信息和高精度计时器,计算激光从发射到接收反射信号的时间差,从而判断物体的距离和形状。
Go2 搭载的是宇树自家的 Unitree 4D LiDAR-L1。
这是一款 4D 激光雷达(3D 位置+1D 灰度),它具有实现每秒 21600 次的高速激光测距采样能力,可探测最近 0.05 米、最远距离 30 米的物体(90% 反射率)。
L1 内置 IMU(惯性测量单元),工作温度范围为 -10℃ 至 60℃,其通过转接模块连接 Type-C 接口进行数据传输和供电,视场角(FOV)扩展至水平 360°,竖直 90°,可实现半球形视场角的三维空间探测。
在拆卸 Lidar 模块之前,需要拧下固定模块保护笼的四颗螺丝。
这个由厚实焊接钢材制成的保护笼,显然是为了在机器人跌倒或撞击时保护内部昂贵的传感器——要知道,仅这颗 LiDAR-L1 的成本就可能占到整机售价的五分之一以上。
随后,移除隐藏在腿部下方的一颗额外螺丝,断开连接线缆,以释放并拆下整个 Lidar 模块。
Lidar 模块的结构包含两个旋转轴:外圈的主旋转轴由下方电机驱动,实现水平扫描;内部的次级旋转轴(带有一个反射镜)快速旋转,实现垂直方向的扫描切片。两者结合,提供环境的 3D 视图。
在这里,需要补充一个细节。
在学术和工业领域,4D 通常指的是在三维空间(X、Y、Z 轴)的基础上增加时间维度(T)。例如,在自动驾驶领域,4D 激光雷达不仅要提供物体的三维位置信息,还要能够追踪物体在时间上的运动变化。
虽然 Unitree 4D LiDAR-L1 自称为 4D 激光雷达,但这里的 4D 是指 3D 位置信息加上 1D 灰度信息,传统意义上的 4D(3D + 时间)并不完全一致,所以也难怪专家认为这个命名多少有些营销的噱头。
Unitree Go2 机器狗全身共有 12 个关节电机。
这些电机分布在机器狗的四肢关节处,使其能够实现灵活的动作,如跳跃、伸懒腰、握手,甚至倒立行走、自适应翻身起立、翻越攀爬等复杂步态。
根据观察,专家判断每条腿包含三个电机:分别控制髋关节、膝关节(大腿部分),还有一个驱动小腿伸缩。
拧下固定外侧腿部电机组件的螺丝,将其与上部腿部分离,可以看到电机和连接器。一个有趣的设计是螺丝孔之间交替放置了多个电容器。
关节连接处采用了互锁齿轮机制,接触面是 CNC 加工的金属表面,以确保力传导的强度,外部的塑料「领圈」则主要起到将两部分固定在一起的作用。
这种设计可能是故意而为之,当受到极端外力时,塑料件或某个连接点会先断裂,从而保护更昂贵的核心部件(如电机和主板)免受损坏,降低维修成本。
再次被胶水折腾完,断开连接电机的三个连接器。
好在连接器本身带有防呆设计,后续可以避免插错。通过手动伸缩腿部,可以观察到内部电机通过齿轮减速器驱动小腿运动,提供了相当大的扭矩。
iFixit 的拆解并未深入到腿部内部,但他们利用 Lumafield CT 扫描仪进行了透视观察。在腿部与髋关节连接的地方,两个部件通过金属与金属的接合方式互相连接。
连接方式很结实,主要的力量(比如机器狗跑跳或者负重时产生的力量)就是通过这个连接点传递的,这也印证了之前的判断。
拆解完毕后,专家给出的结论是,这款机器狗集成化程度很高。
模块化设计也是个优点,理论上坏了哪个模块换哪个。所有东西都连到一块主板上,简化了布线,但也意味着主板一旦出问题,影响范围可能很大。
胶水问题前面吐槽过了,虽然能够加固,但也确实给第一次维修添堵,但熟悉上手后,倒也能接受,更重要的是,由于大量使用连接器而不是硬焊接,大大降低了维修门槛。
▲图片来自宇树科技官网
腿部(尤其是易磨损的足端,可通过螺丝更换)设计考虑了可替换性,甚至可能支持现场维修。部件(如同侧或对角线的腿部)之间可能存在通用性,便于更换或使用回收部件。
整体架构则相对简单明了(主板、传感器、电池),所有部件和接口并算复杂,有助于故障排查。拆解还发现了为 Pro 版和教育版预留的空间,可安装更强大的计算模块和额外风扇。
可以说 ,基于模块化和连接器的设计,Go2 具备一定的可维修性。至少理论上,你不需要为了换个小零件就把整个机器狗拆得稀巴烂。不过,实际操作难度是另一回事。
当然,Go2 也并非没有设计上的缺点。
专家也指出,激光雷达埋得太深,更换麻烦;颈部结构看着单薄。机器狗的使用环境决定了它必然会摔、会撞。这些看似脆弱的部分,能否扛得住这些日积月累的摔倒碰撞?都值得打个问号。
最后,如果你正考虑入手一台 Go2,希望这份拆解报告能给你提供一些参考。而作为一款万元级的四足机器狗,Go2 的确是个不错的起点。
它不完美,比如续航和耐用性还有提升空间,但它已经足够好用、足够有趣。毕竟,遛「Go」也是遛狗,还没有狗毛满地飞的烦恼。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
曾经被视为必备技能的 PS,如今似乎陷入了「可学可不学」的微妙处境。
最新版本的 Gemini「言出法随」,仅需一句话就能改图,成为现象级的存在,GPT-4o 多模态生图功能上线以来,生成的吉卜力风格图片也几乎在一夜之间席卷网络。
新势力的崛起,老牌 AI 图像生成巨头 Midjourney 也不甘示弱,刚刚正式发布最新版本 V7 。
新版本要点如下:
需要注意的是,V7 是首个默认启用模型个性化的版本。用户需解锁个性化设置才能使用此功能,整个过程约需 5 分钟,且可随时开关。
V7 的另一大亮点是「草稿模式」(Draft Mode)。该模式成本仅为标准模式的一半,图像渲染速度却提升至 10 倍。
在网页端使用时,提示栏将自动切换为「对话模式」,用户可直接通过指令调整内容,例如将猫替换为猫头鹰或将场景改为夜晚,系统会自动调整提示并生成新图像。
点击「草稿模式」并启用麦克风按钮后,用户还能进入「语音模式」,通过语音指令进行实时创作。若需明确运行草稿任务,用户可在提示后添加「–draft」参数,适用于排列组合或重复生成等场景。
Midjourney 官方认为,「草稿模式」是迄今为止迭代创意的最佳方式。
用户若对草稿图像满意,可点击「增强」或「改变」按钮,以完整质量重新渲染。需要注意的是,草稿模式下的图像质量低于标准模式,但其行为和美学表现高度一致,适合快速验证想法。
▲图片来自:@U79916881747113
V7 目前支持两种运行模式:Turbo 和 Relax。Turbo 模式速度更快,但成本为普通 V6 作业的 2 倍;草稿模式则成本减半。标准速度模式仍在优化中,预计不久后推出。
目前,放大、编辑和重新纹理功能将回退至 V6 模型,未来将逐步升级至 V7。情绪板和 SREF 功能已可用,后续更新将进一步提升性能。
Midjourney 团队透露,在未来 60 天内,每隔一至两周将推出新功能,其中最受期待的则是全新的 V7 角色和对象引用系统。
话不多说,先来看图。
知名博主 @nickfloats 分享了 MIdjourney V6/V7版本基于同一提示词生成的的图片对比,一起来看看。
Prompt:
A young Indian woman with dark hair in an open ponytail and a black jacket stands on a university campus, looking directly at the camera. The image has a 1990s-style movie still aesthetic, with a close-up portrait on a sunny day.
(一位年轻的印度女性,黑色头发扎成松散的马尾,穿着黑色夹克,站在大学校园里,直视镜头。照片呈现出90年代电影剧照风格,背景是阳光明媚的一天,特写的肖像。)
▲左:V6 右:V7
新版本的光线更加自然,尤其是在人物脸部,肤色更加清晰,细节更加丰富,画面焦点更加清晰,尤其是人物的发型部分,但也因此牺牲了一些氛围和情感的表达。
Prompt:A majestic barn owl perched on an ancient, moss-covered tree branch, surrounded by the misty forest. The scene is bathed in soft light filtering through the dense foliage, creating a magical and ethereal atmosphere. Photorealistic style with attention to detail of the feathers and textures.
(一只威严的 barn owl(仓鸮)栖息在一根古老、覆盖着苔藓的树枝上,周围是迷雾缭绕的森林。柔和的光线透过浓密的树叶洒下,营造出一种神秘而飘渺的氛围。画面风格为逼真的写实风格,细致入微地展现了羽毛和树皮的质感。)
▲左:V6 右:V7
新版本的猫头鹰羽毛纹理更加细腻,羽毛的层次感和光影效果更强,显得更加真实。猫头鹰的姿态上,新版本也更自然,身体略微倾斜,显得更有动态感,眼睛的细节也更生动,传递出一种警惕的神态。
简言之,鱼和熊掌,不可兼得,V7 在追求真实感的目标上更胜一筹;V6 则可能在追求画面冲击力和神秘感上更具优势。
Prompt:A person’s hand points towards the window of an airplane, which is seen from inside with its wing visible in profile. The sky outside shows a clear horizon at dawn or dusk. In front of them lies a vast expanse of ocean.
(一个人的手指向飞机窗外,窗外的飞机机翼从侧面可见。外面的天空清晰,天际线显示出黎明或黄昏的景象。眼前是广阔的海洋。)
▲左:V6 右:V7
同样都是从飞机舷窗向外看的情景,一只手指向窗外,V7 的进步肉眼可见,通过加入飞机机翼的元素,增加了画面的层次感和真实感,让观众更能感受到自己身处飞机上的视角。
Prompt:A close-up of broccoli being sautéed in oil, with the vegetable’s green florets contrasting against a dark brown sauce. A large spoon is partially visible inside a stainless steel pot filled with caramelized and shiny black glaze on top, against a white…
(一块近距离拍摄的西兰花在油中翻炒,绿意盎然的花椰菜与深棕色的酱汁形成鲜明对比。一只大汤勺部分可见,放在一个不锈钢锅中,锅里覆盖着一层焦糖色的光泽黑色酱汁,背景是白色的…)
▲左:V6 右:V7
V6 虽然通过特写镜头突出了酱汁和勺子,焦点非常明确,注意力很容易被吸引到酱汁的质感和细节上。但从提示词的角度出发,新版本通过展示整个锅内的西兰花和酱汁的搭配,呈现了一个更完整的烹饪场景,逻辑上更符合实际烹饪过程。
Prompt:Close-up of an anime woman’s face with a shocked expression, dark hair, in the anime style. Colorful animation stills, close-up intensity, soft lighting, low-angle camera view, and high detail.
(一位动漫女性的面部特写,表情震惊,黑色头发,呈现动漫风格。色彩丰富的动画画面,特写镜头强烈,柔和的光线,低角度拍摄,细节非常精致。)
▲左:V6 右:V7
光影和色彩的处理上,V7 也符合提示词中的「soft lighting」要求,脸部的高光和阴影过渡更加柔和自然,尤其是眼部和脸颊的光影分布,营造出更立体的效果。
Prompt:A dynamic film still of an epic space battle with sleek starfighters zooming past a massive space station, lasers firing, and a distant planet visible in the backdrop.
(一幅动态的电影画面,展示了一场史诗般的太空战斗,流线型的星际战斗机飞驰而过,巨大的太空站在一旁,激光四射,远处的行星清晰可见,构成了一幅震撼的画面。)
▲左:V6 右:V7
人像方面,v7 在细节的精细度和真实感(服装、皮肤、光影等)上有所提升,人物的立体感和与背景的融合度更高,但在情感传递、表情的戏剧性、动态感上有所倒退。
以下为三个具体的对比案例:
Prompt:1980s mystery film, low-angle shot of an evil-eyed French Butler sporting a black suit and grasping a candle in the hallway of a creepy Victorian mansion with musty decor. The warm candle glow evokes a spooky sense of mystery
(一张 1980 年代神秘电影风格的低角度镜头,拍摄了一位邪恶眼神的法国管家,身穿黑色西装,手中握着一支蜡烛,站在一座装饰陈旧、充满霉味的维多利亚式大厦走廊里。温暖的烛光营造出一种阴森神秘的氛围。)
▲ 左:V6 右:V7
Prompt:1990s medium-full street style fashion photo shot on Kodak 500T capturing a rugged 50-year-old man with curly gray hair, 5-o’clock shadow, and a stern look walking down the sidewalk on a bright spring morning in Paris. He’s wearing …
(一张 1990 年代中等全身街头风格的照片,使用 Kodak 500T 胶片拍摄,捕捉到一位五十多岁的男子,他有着卷曲的灰白色头发、胡茬和严肃的表情,正走在巴黎春日明媚的早晨人行道上。他穿着…)
▲左:V6 右:V7
Prompt:Cinematic, off-center, two-shot, 35mm film still of a 30-year-old french man, curly brown hair and a stained beige polo sweater, reading a book to his adorable 5-year-old daughter, wearing fuzzy pink pajamas, sitting in a cozy corner nook…
(一张电影感的35毫米胶片画面,构图偏离中心,拍摄了一位30岁的法国男子,卷曲的棕色头发,穿着一件弄脏的米色 polo 衫,正在给他可爱的5岁女儿读书。女儿穿着柔软的粉色睡衣,坐在一个温馨的角落里。)
▲左:V6 右:V7
海螺 AI+Midjourney 会是让图片动起来的王炸组合吗?网友 @ainextastro 也试了试。
下面由 @tanvitabs 用 v7 生成的这张照片则将 AI 图像生成的坑都踩了个遍,包括凭空多出来的第三只手,T 恤和西装着装上的混淆,以及不匹配的面部生成等。
[图片]
最后留个课堂作业,以下基于同一提示词生成的四张照片,你更喜欢哪个版本的?请投票。
Prompt:Elegant female model standing by a large window in a sunlit room, soft morningliaht casting natural highlights and shadows on her face, wearing a flowing beigedress, relaxed pose, minimal makeup, 85mm lens depth of field, lifestyle fashioneditorial, cinematic tones, airy atmosphere
(一位优雅的女性模特站在阳光洒进的房间大窗旁,柔和的晨光在她的脸上投下自然的高光与阴影,身穿一袭飘逸的米色长裙,姿势放松,妆容简约。使用85mm镜头拍摄,背景有着浅景深,营造出生活方式时尚编辑感,画面呈现电影般的色调,空气感十足。)
你更喜欢哪个版本的图片:
Midjourney v7
Google Imagen 3
ChatGPT 4o
Reeve
过去几年,AI 图像生成的主旋律是追求真实、无油腻感。
去年,Flux 因生成超真实人像而一举破圈,声名大噪,现在,Midjourney V7 接过接力棒,以更丰富的细节、更有层次感的光影、自然的肤质纹理,再次将「真实」推向新的高度。
但追求真实,是一切的终点吗?
最近,随着 GPT-4o 多模态生图功能的发布,一股意想不到的风潮席卷而来——吉卜力风格的图片,几乎在一夜之间点燃了网络,也像一阵春风吹进了 AI 图像生成的世界。
技术选择的可能性多了,创作的玩法也跟着变了。用更通俗的话来说,现在就好比站在厨房里,你是想做顿踏实的饭,还是想整点黑暗料理的,全然在你。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
毫无疑问,我们处在一个 AI 的大变革时代。
每天都有新的 Agent 发布,新的模型开源。每天都有小 AI 公司正在变成巨头,而巨头们也在拿到越来越多的,甚至令人难以置信的钱。
或兴奋,或恐惧,或担忧。在所有的大变革时代,我们都难免多想。
在中国,APPSO 关注 AI 的同事们经常因为大洋彼岸的新闻而「夜半惊醒」——而在美国,看起来从业者们也同样会因为 AI 的日新月异而睡不着觉。
投资网红 Greg Isenberg 就是一个经常多想、辗转反侧的人。他参与创办了上百个项目,目前是投资机构 Late Checkout 的 CEO 和 The Startup Ideas 播客的主播。
昨天,Isenberg 在他的 X 账号上发布了一条长文,说自己半夜睡不着,想出了 46 条和 AI 有关的「金句」。
其中大部分是他的个人观点,甚是有趣。我们将这条长文编译分享出来,并且展开聊聊其中的部分思考。
1. GPT-4o 的图像生成功能与 ChatGPT 发布一样震撼,将会催生上千个百万至亿级美元的垂直领域软件商机。
chatgpt 4o image gen is as big as the chatgpt launch. probably will birth 1000+ $1-$100m/year vertical software businesses.
2. 当前的 AI 生成内容,就像数字音乐早期的「MP3-Napster」时代。数百万创作者并没有意识到,他们的作品未来将成为打败他们的武器。
we’re in the “mp3 napster era” of content. millions of creators don’t realize their entire back catalog is being weaponized into their competition because of AI.
3. 在三年内,日历、邮件和 CRM 工具将经历根本性重构——不是渐进式的AI升级,而是范式级的重新设计。
every calendar, inbox, and CRM will be rebuilt from scratch in the next 3 years. not “AI-enhanced,” fully rethought.
4. AI 不是来当员工,而是来当老板的!首批具备管理人类能力的 AI 系统将彻底重构劳动力市场,其影响力将远超工业革命。
i thought ai was creating digital employees. but it’s more like digital employers. the first ai systems that can manage human workers will cause a restructuring of labor markets more significant than the industrial revolution.
5. 如果你的工作是招聘人→训练系统→系统替代人去做招聘工作,那么你不是 HR,而是一个程序员,正在编写卸载自己的程序。
if your job is interviewing people who will train ai systems that will replace people who do interviews, you’re just a step in a weird recursive extinction.
6. AI 将难以规模化的服务生意,转变为兼具产品利润和服务溢价的新生意。能用 AI 做 80% 工作的产品化解决方案,将成为新的独角兽企业。
ai is turning “service businesses that don’t scale” into “product businesses with service margins.” the new unicorns will be productized services with ai doing 80% of the work.
7. 不要痴迷于打磨产品。社群运营更难,更决定生死。大部分创业公司死掉是因为没人在乎。
building communities is harder than building products but everyone pretends it’s the reverse. the reality is most startups fail because nobody cares.
8. 威尔·史密斯吃意面?那是 739 天前的 AI 水平。想象一下再过 739 天,生成式 AI 会进化到什么程度?
it’s been 739 days since the will smith spaghetti video. imagine what could happen to gen ai in 739 more days?
APPSO 的延展思考:在图像/视频的生成式 AI 方向,上一次重大破圈事件是3 月的「OpenAI 吉卜力风格迁移生成」,而两年前的威尔·史密斯吃意面是上上次。
这两次事件有异同之处:相同的是都和知名文化现象/符号有关,从而很容易地导致了破圈;不同则在于最初版本的吃意面视频过于粗糙,十分「魔性」。这种失真感不但没有影响人们对 AI 强大的预期,反而显著加强了这个梗的病毒传播。
9. 开发 AI 助理的人,大多没用过真人助理。真正的助理懂背景、记历史、重关系——而 95% 的聊天机器人,三者皆无。
people building “ai assistants” have never actually had assistants. real assistants need context, history, and relationship. 95% of chatbots have none of those.
APPSO 的延展思考:不需要用过助理,大多数用户已经觉得 AI 助理很蠢了。有给它交代上下文、打磨提示的工夫,还不如自己去干了。
10. 3年内,连最高级的客诉处理都将被 AI 取代,包括你现在认为必须人工的复杂客诉。
most customer support will be automated within 36 months. not just tier 1 tickets, complex, multi-step resolution that previously required senior support staff.
11. 创业最危险的结局不是归零,而是被卡在「生存线」上——足够温饱,永远不够自由。该止损还是加注?我总在思考这个困境。
the worst thing that can happen to your startup is mediocre success. enough to keep you going but not enough to change your life. most founders are trapped there. thinking about this a lot with respect to shutting down or doubling down on projects.
12. 反抗AI的不只是失业者——每个发现自己的数字痕迹被擅自用作AI养料的人,都会加入抵抗。
the ai backlash won’t just come from replaced workers, it’ll be from everyone who realizes their entire digital identity is being converted into training data without consent.
13. 没人会看用户条款。
no one has ever read a terms of service ever
14. AI 真正的颠覆在于「草图经济」:设计无门槛,审美和创意才是硬通货。
the “sketching economy” is the real ai revolution. when anyone can turn rough sketches into production-ready designs, taste and ideation become the only scarce resources.
APPSO 的延展思考:作为文字和视觉的工作者,APPSO 对于这一观点深深赞同。AI 能生成看起来非常有「思考」味和「设计」感的内容,用于非严肃场景是可以的,一旦放在商业和专业场景,生成结果的破绽,以及审美的同质化、大中华是个很大的问题。
究其根本,审美和创意是一种非常「个人化」和「人性化」的概念。创作是创作者个人的行为,但也是和观者的一次交流。这种交流需要双方有着类似的人生经验、相近的认知水平。
一种极端但往往正确的观点是:大众的审美水平永远趋向降低。所以真正的审美和创意一定会成为稀缺资源。
看看现实吧,AI 并不是取代了能深度思考的人,而是让本来就懒得深度思考的人更不需要思考了。审美和创意也是一样,AI 在这方面的能力,只会让更多人彻底失去掌握这些能力的必要。
15. AI 创业的真金白银,藏在吃透行业痛点的垂直应用里——不是在提示里加两个行业黑话就行的。
i dont know how else to say it, the money (and opportunity for the avg joe) is in ai startups is in vertical-specific applications that actually understand industry context. no, adding industry terms to your prompts isn’t the same thing.
16. 消费移动设备又复兴了。从桌面→移动→AI 优先,我们已进入 AI 原生时代——下一批独角兽,必是深度整合 AI 的移动应用。
consumer mobile is back in full swing. we went from desktop-first apps to mobile-first apps to now ai-first mobile apps. the next wave of $100m/year apps will start mobile-first with ai baked in from day one.
17. AI 「套壳」大战才刚打响。介于底层大模型和终端行业之间的中间商,将收割最大红利。而模型和行业应用本身终将沦为廉价商品。
the ai middleman boom is just starting. companies that sit between foundation models and specific industries will capture most of the value while both ends get commoditized.
APPSO 的延展思考:这个观点很有趣,但也有一定的讨论空间。行业里有另一种主流观点,和它几乎完全相反:未来所有的模型都将产品化,而 wrapper 等纯工程层面的公司,不会比真正掌握底座大模型研发能力的公司走得更远。因为工程能力谁都可以拥有,但买得起卡,训练的起大模型才是真正的杀手锏?
当然,这两种观点都比较极限。现实很有可能是折中的。即便大模型公司有再多的钱,它也不会比小公司小团队更敏捷、更理解所处的垂直行业。千行百业不能一家独霸,大概就是这个道理。
18. 我们正在目睹新工种的诞生:AI 流程设计师将成为新一代金领,专精于把人类流程转化为 AI 增强的工作流。
we’re witnessing the birth of a whole new job category: ai workflow designers. people who can map human processes into ai-augmented workflows will be the highest-paid consultants of the next decade.
19. AI 加速「赢家通吃」的局面:垂直行业的龙头之争,窗口期仅 6-12 个月,错过即出局,要么再等十年。想到这我彻底失眠了
ai is creating winner-take-most markets overnight. the window to establish yourself as the go-to solution in a specific vertical is maybe 6-12 months before it closes for a decade. this isn’t helping my sleep lollll.
20. 创业金点子:用AI重塑传统行业产品——这就是你的杀手锏。找一个已被验证的非 AI 产品,用 AI 思维彻底重构,再找行业 KOL 引爆卖点。这把稳赢。
really smart strategy to rebuild traditional products with ai as your unfair advantage, hiding the complexity behind familiar interfaces. basically, just look at proven apps that have no ai, make them ai-first (if it adds a ton of value to end customer). use ai features (don’t sell ai) in creator-led marketing. this is the playbook.
21. 直达用户的渠道是唯一的护城河。你的产品、技术、团队都可以被复制,渠道不能。
distribution is the only moat left. your product, tech, and team can all be replicated. your direct connection to customers cannot.
22. 临界点就快到了:对小企业而言,定制 AI 工具将比雇佣员工更划算。
we’ll soon hit the tipping point where custom ai tools are cheaper than hiring humans, even for small businesses.
23. 很少有人在讨论这件事:AI 正让曾经「无人问津」的企业变得抢手。当业务能自动化运转时,收购逻辑也变了,投资人会追逐那些「买来就能自动赚钱」的公司。
nobody’s talking about how ai is making previously “un-acquirable” businesses suddenly attractive targets. when you can automate operations, the owner-dependent business problem disappears.
24. 续上条:即将到来的中小企业收购潮,会比 2021 年的科技泡沫更夸张。当 AI 把运营成本砍掉了 60%,小企业会成为现金流机器。
the coming smb acquisition frenzy will make the 2021 tech bubble look tame. when ai drops operating costs by 60%, every small business becomes a cash flow engine.
25. 如果「氛围编程」(AI 写代码)是一个千亿美元的机会的话,那么「氛围营销」的市场会有多大?。
if vibe coding will be a $100B opportunity, how big of an opportunity is vibe marketing? (you can follow my co-founder @boringmarketer for more on that)
APPSO 的延展思考:上面这几条和中小企业、创业方向有关的思考都非常值得参考。当然不是说直接跟着他走,而是如果你的企业正好符合他的描述,你应该考虑更积极地拥抱 AI,探索 AI 工具和自动化能否为你提高效率,甚至让你可以对行业里的既得利益者和巨头们发起挑战。
当然,不要因为过度使用 AI 而让你的核心员工和老员工们对你失望。如果你因为 AI 逆天改命,也应该让他们从中分得一杯羹。
26. 游戏工作室将会两极分化:一边是 AI 智能体驱动的「内容农场永动机」,可以批量生成无限的素材;另一边是专注核心玩法的「精品工作室」。无法转型的中间层将被淘汰。
Video game studios will separate into two distinct types: agent-driven content farms that generate infinite assets, and boutique studios focused on core mechanics. The middle will disappear entirely.
27. 企业可能更愿意花每月几十美元订阅 AI 工具无限生成素材,而不是 2000 美元/天雇一个商业摄影师。商业摄影赛道凉凉。
Corporate photography is effectively dead. No company will pay $2K for a stock-style photoshoot when they can generate unlimited perfectly on-brand imagery for the cost of a subscription.
28. AI 能够颠覆企业销售模式:它能精准识别最佳销售时机,锁定买家,并自动触发销售流程。
enterprise sales is being completely inverted by ai. using ai to identify exactly when and how to talk to the right buyer, and set off automations. ill probably talk about this more on a pod soon.
29. 我在思考:AGI 是否会从相互连接的智能体网络中「涌现」出来?这些智能体网络可能自己涌现出意料之外的特性,而我们正在不知不觉中构建着它们的「神经网络」。
i wonder if AGI will emerge from interconnected agent networks that develop emergent properties nobody designed? we’re building the neural connections without realizing it.
30. 虽然生成式 AI 看似将成就万亿级市场,真正的「隐形金矿」其实在预测式 AI 领域。预知未来的价值,永远高于创造内容。
while genai looks to be the $1T category, many quiet fortunes will be built in predictive ai. knowing what will happen is more valuable than generating new content.
APPSO 的延展思考:目前的生成式 AI,生成的是它自己认为将会发生的东西。基于大语言模型的 AI 会遵循文本的规则和概率的规则。而预测式 AI(比如天气、地质、金融、社会工程学的垂类 AI)需要遵循现实规则。后者是不是大语言模型,也说不定,可能是基于,或者从大语言模型精修特调的的专家模型。
当然,如果大语言模型发展太快、太普及,甚至成为实际的权威和统治者——那么将会发生什么,也是大语言模型说了算……
31.所谓的「AI 泡沫」,不过是 VC 们因为分不清 API wrapper 和真·创新而交的学费。
the “ai bubble” is actually an excise tax on vcs who can’t tell the difference between genuine innovation and repackaged openai apis.
32. 人机交互即将迎来「人格化革命」。当每个工具都能与你对话时,AI 的氛围和腔调,将会决定用户信任、忠诚、留存率。
interfaces will become personalities. when every tool can talk back, vibe and tone will drive trust, loyalty, and retention. It’s why I’m investing more in our design firm for the AI age @meetLCA (you can follow for more insights on designing/taste/brand that will stand out)
33. AI 将杀死传统首页。未来的入口界面会因人而异、因需而变、因时而动。
ai will kill the homepage. interfaces will get replaced by entry points that change based on who you are, what you need, and when you show up.
34. 用户不为「AI」买单,只为结果付费。
no one will pay for “ai”, they’ll pay to solve a $10,000/hour problem in 3 clicks. sell outcomes, hide the ai.
35. Google 的万亿帝国可能被 AI 拆解:旅游搜索、商品比价、本地服务等等,每个细分领域都是待掘的金矿。
ai is unbundling google. every vertical search engine, directory, and comparison tool is a billion-dollar opportunity in disguise.
36. 未来的小企业标准配置:1个创始人+5个 AI 员工组成的「影子团队」,自动搞定财务、销售、营销全流程。
every small business will get a “ghost team.” automated bookkeepers, sales agents, marketers—run by one founder and 5 bots.
37. AI 生成内容导致了文化的同质化危机,当全球共享同一套模型,我们得到的将是无限重复的「数字回声」。具有原创性人类思考将会成为最终级的附加值。怪异会成为卖点,请保持怪异。
ai-generated content is creating a monoculture of ideas. when everyone uses the same models, we get the same outputs. original human thinking is becoming the ultimate premium. be weird. weird will sell.
APPSO 的延展思考:不只人过度依赖 AI,就连 AI 自己也在不断加强对自己的依赖。
机器学习的经验指出,过度依赖生成的数据再次训练,有可能会发生「过拟合」现象 (overfitting),甚至导致模型工作机制熵增,使得生成的结果变得更加不可靠,违背常理,失去代表性。
这可以类比为生物学上的近亲繁殖,对同族遗传资源(基因/数据)的过度利用,更有可能导致错误的因素在生成结果中纯合。只是这种 AI 的「近亲繁殖」结果不像生物学那么容易一眼看出来。事实上大部分人不具备分辨能力,而这会导致 AI 生成的错误结果被更多采纳和再利用,最终形成一种脱离现实的逻辑闭环。
38. AI 不会颠覆学校,而是实现教育的「去中介化」。未来的神童们将绕过传统教育体系,通过直接获取受众、实践验证的方式来快速成长。今天的孩子都当 KOL,而创业者才会是 Z 世代孩子的理想职业。
schools won’t be disrupted by ai. they’ll be disintermediated. smart teens will skip formal education, build audiences, run experiments, and learn faster. kids say they want to become creators but creators are becoming entrepreneurs. entrepreneurship becomes the most popular profession.
39. AI 创业泡沫的结果:18 个月后,八成的 AI 创业公司将会像劣质小广告一样无人搭理,而剩下的两成会晋升为数字基建。
in 18 months, 80% of the “ai startup” category will look like spam. the rest will become infrastructure.
40. A/B 测试没意义了。当 AI 能在一夜之间完成200次迭代实验,何必再争论一个按钮该用什么颜色?
conversion rate product debates are obsolete. Why argue over 2 button colors when AI focus groups can test 200 variations overnight?
41. 传统营销即将被 AI 接管,营销专员必须向上游迁移。讲述品牌故事、营造独特氛围、传递品牌能量——才是未来营销人的核心竞争力。
most of what we call “marketing” is about to be done by ai. humans will move upstream into storytelling, vibes, and brand energy.
42. 今年最明智的招聘策略?聘请一位 AI 运营总监,一个能搭建 AI 工作流、整合工具链,并交付实际成果的人才。
the best hiring decision you can make this year? a head of ai ops. someone who can build workflows, glue tools, and ship outcomes.
43. 第一头估值十亿的 AGI 独角兽,初看必定像个玩具。所有改变世界的东西都是这样。
the first $1b AGI startup will look like a toy at first. all world-changing interfaces do.
APPSO 的延展思考:忘了哪个投资人好像说过类似的话。
「当你的孩子拿着一个玩具说它什么都懂的时候,赶快查查背后公司的估值。」
44. AI 驱动的渠道大于 AI 驱动的产品。二流产品一流分发,好过无人问津的一流产品。AI 驱动的分发能力 > AI驱动的产品力。在注意力经济时代,二流产品加上顶级流量 > 顶级产品却没有流量。
ai-powered distribution > ai-powered product. a mid product with elite reach will beat a great product with no attention every time.
45. 用户对订阅制的反感仍然存在,而为有效结果付费的模式尚处于蓝海。率先采用后者的企业将获得碾压传统 SaaS 巨头的绝对优势。
people still hate monthly subscriptions. outcome-based pricing is still in early days. implementing this will be a competitive advantage for lots of companies. large saas wont be able to compete with you.
46. 我们正处在商业规则全面重写的黄金时代,它会持续多久我不清楚。但明确的是:那些率先驾驭新工具、构建受众社群的人,拥有绝对竞争优势。
i don’t know how long this window stays open, but we’re in a moment where all the rules of building businesses are being rewritten. for the people playing with these new tools, creating audiences and communities, you’ve got an unfair advantage.
写在最后:
生前何必久睡,死后自会长眠?
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
如果有一个会思考但是不会做事的 AI
还有会做事但是不会思考的 AI。
你会选哪个?
如果让我来选,我会说:why not both?
今天在中关村论坛智谱 Open Day 上,智谱发布了 AutoGLM 沉思——首个带有沉思能力的桌面端 agent。
这是第一个存在于电脑桌面的,能先思考在做事,且做的过程中不断思考的 agent。
抛给它一个问题,它会逐步分解问题,然后在你面前(或者你不看着它也行)打开一个又一个浏览器标签页,自己上去搜索、查找、记录、汇总、分析信息,最终为你生成一份经过充分查证和深度思考的结果报告。
如果你还不知道这是个什么东西,简单前情提要一下:
AutoGLM 是智谱推出的 Agent 产品,能够实现对手机屏幕和电脑浏览器的操作。重点在于实现方式是前台的图形界面 (GUI),而不是后台的应用接口 (API)。你可以理解为 AutoGLM 学习人类通过「手眼并用」的方式,直接在用户界面上进行操作。这和市面上绝大多数基于 API 的 agent 产品有着明显的交互方式区别。
而沉思能力,正如字面意思,让 AI 可以一边想、一边搜,自主解决开放式的、训练语料不包含的问题,模仿深度思考和展现深度研究的能力。智谱在今年 3 月初拿到新一轮融资的时候就对外预告正在研发沉思,而这个功能的开关也已经在该公司开发的「智谱清言」(ChatGLM) 大模型产品里上线了。
而在 AutoGLM 沉思的身上,智谱独特的 GUI agent 功能,和人们最追捧和爱用的沉思能力,终于实现了融合。
AutoGLM 沉思背后的模型基座,也在本次 Open Day 上正式发布:
GLM-4-Air-0414 基座模型,具有 320 亿参数量,但性能足以对标 DeepSeek-V3、R1 (670B)、Qwen 2.5-Max 等更大参数量的模型。
因为参数量更少,GLM-4-Air0414 可以快速执行 agent 类工作,为 agent 的能力提升以及大规模落地应用提供基础,也一定程度上确保了终端用户的试用体验。
智谱还发布了 GLM-Z1-Air 推理模型,相比 DeepSeek-R1(激活 37B)推理速度提升了 8 倍,而成本降低到只有后者的三十分之一。
这也是一个可以在消费级显卡上运行的推理模型,能够显著提高开发者的使用体验。
智谱还基于 GLM-Z1 模型,使用自进化强化学习方式,训练了一个新的沉思模型 GLM-Z1-Rumination,能够实时联网搜索、动态调用工具,深度分析和自我验证。这个沉思模型能够自主理解用户需求,在复杂任务中不断优化推理、反复验证与修正假设,使研究成果更具可靠性与实用性。
也就是说:AutoGLM 沉思的基础模型架构是这样的:
中层推理和沉思模型 GLM-Z1-Air、GLM-Z1-Rumination
+
底层语言模型 GLM-4-Air-0414
加上工程/产品层的 AutoGLM 工具,就形成了 AutoGLM 沉思的整个技术栈。
智谱也计划在 4 月 14 日正式开源 AutoGLM 沉思背后的所有模型。
此前智谱曾分享过团队对于 AGI 路线图的判断:如果用自动驾驶层级打比方的话,目前大模型产品大体上获得了自我学习的能力,接近于 L3;而沉思、反思、自我批评等能力则是 L4 阶段。
需要注意的是,目前 AutoGLM 沉思还处于 beta 测试阶段。上个周末,APPSO 深度使用了这个产品。从测试结果来看,它在处理复杂工作上的效果确有提高的空间,底层逻辑也需要优化,但作为一个非常新颖的大模型-agent 产品,总体效果已经令人惊艳。
智谱已经踏入了大模型 agent 的 L4 阶段,虽然只是进来了半只脚。
目前 AutoGLM 的沉思功能,目前已经正式上线智谱清言网页端、PC 端和手机 App,免费、不限量地开放。
附上体验
https://autoglm-research.zhipuai.cn/?channel=chatglm#get_started
去年 Anthropic 发布了「Computer Use」,同时展现了足够的模型能力以及较强的设备交互能力,让 agent(智能体)的设想终于首次得到实践。今年 1 月,Anthropic 在美国的最大对手 OpenAI 也通过新产品 Operator,做出对于 GUI agent 理念的演绎。
也是在去年 10 月,智谱和 Anthropic 几乎同时发布了各自在 agent 方向上的最新尝试。智谱的 AutoGLM 是第一家国内机构推出的基于 GUI 的 agent。
而今天的 AutoGLM 沉思,不仅将 agent 的执行任务能力带到了桌面端,更是把工具操作能力、深度研究能力、推理能力和大预言能力进行了首次融合。
这种多重能力驱动的 agent,非常适合信息检索、提炼、汇总型任务。
这就好比是让 agent「开车」,过去你得给他一辆车,教他方向盘、油门刹车、档位怎么用,甚至告诉它开车和倒车的时候分别要往哪看——而现在,agent 已经可以「自动驾驶」了。
让它制作一份「不同于网上所有主流路线的日本两周小众经典行攻略,要求绝对不去最火的目的地,要小众景点,但也要评价比较好的。」
AutoGLM 沉思比较准确地拆解了需求,思考逻辑也比较清楚:它首先去搜了最简单的关键词「日本旅游」,了解主流路线和景点,然后又去搜索了「日本小众旅游景点」之类的关键词——通过这几个步骤,它在本次对话的记忆内部构建了一个知识库,也即什么是主流的,什么是小众的。
这个任务总共做了 20 多次思考。有时候几次思考之间会有重复,比如搜索的是相同的关键词,访问了相同或者相似的链接等。这有可能是因为单次搜索到的信息不足够,毕竟沉思/深度搜索的本质其实也是不断地自我怀疑和推翻,直到达到足够置信度时候才进入下一步。
APPSO 还注意到它会过度依赖特定的网站作为信息来源,打开的所有 tab 里有 90% 都是小红书和知乎(各一半左右)。反而真正的旅行专业资料库,比如马蜂窝、穷游,或者哪怕是 OTA 平台,它一次没用过。
如果要做一份真正的小众攻略,重度依赖小红书的结果可能并不理想。毕竟能上小红书的热门笔记,这个景点应该并不真的小众。一个真正的小众景点旅行者,恐怕不想去 momo 们已经去过或者都想去的地方……
APPSO 注意到,AutoGLM 沉思在沉思过后自己提出了「路线规划合理,不要有无意义的反折」、「行程节奏合理,别太特种兵」之类的要求。
只是实际结果没有完美体现它自己提出的这些要求:比如头几天在濑户内海来回折返,有时候一天内去两三个相隔一小时以上的地点,略微特种兵;第二周从青森向南到仙台,然后又从仙台飞机向北大跨度飞到了北海道,并且北海道只留了两天。考虑到日本大跨度旅行基本都靠 JR,票价昂贵,合理的路线应该是顺着一个方向不回头,除非不得不去大城市换车,一般不应该折返。
但总体来讲,这份攻略是有效的:它呈现了一些提问者未曾考虑过的目的地,也试图在一次行程里去到季节、气候、风格完全不一样的地方(而不是围在大东京、富士山、京坂奈区域来回打转)。
从这个角度,它遵循了提示的要求,并且展现出了深度思考的结果。
就像你不应该直接把 AI 生成的结果直接拿去用一样,这份攻略提供了一个还算不错的基础,让旅行者可以自行优化具体的目的地、路线和中间的交通方式。旅行不只是上车睡觉下车拍照,还应该兼顾人文和自然,深入当地文化传统,探索自然景观,以及至少感受一把在地最有特色的体验项目。
只要你的期待不是即问即用,AutoGLM 沉思给出的答案是足够令人满意的。
点击查看智谱清言的回答 https://chatglm.cn/share/FQoLp
考虑到 AutoGLM 沉思与其它深度思考型大模型最大的特别之处在于浏览器的操控能力,APPSO 也更深入和严苛地测试了一下他的 browser use 能力。
让它做一份关于科创板云计算公司的研报,看看结果怎么样。
正如前一次做旅行攻略一样,AutoGLM 沉思的「思考过程」是没有任何问题的。从下图中可以看到,它:
但是 browser use 的过程实在让人有点抓头:AutoGLM 工具一次又一次地试图打开证监会指定的信息披露网站(巨潮资讯),解析网页的信息。它顺利地找到了网站数据库的条件筛选工具,但经常无法正常筛选,要么选不好时间区间,要么找不到对应板块的下拉菜单在哪。
APPSO 观察到,AutoGLM 沉思给每一步骤的定时通常是 3 分 20 秒左右,但如果访问网站不顺利,就会因为操作超时而导致「本轮思考」失败。
另外,根据 APPSO 之前体验去年的 AutoGLM 以及其它 GUI agent 产品的经验,当需要用户进行登录操作、输入付款信息、点击发送按钮这种敏感性操作时,agent 可以停下来等待用户操作。而在使用 AutoGLM 沉思的过程中,它的确可以等候用户登陆,但遇到「用不明白网站」的情况,并没有呼唤用户接管,而是只会傻傻地等着。
在本次任务中,连续两轮思考失败之后,AutoGLM 沉思开始进入一个重新思考-跟之前导致失败的思考结果一样-再重新思考的循环过程,一直循环往复了五六次,最后败下阵来,把目标转向了知乎。
步骤进行到这里的时候,其实已经算任务失败了,因为输入的原始指令是查找和汇总上市公司资料和公告,数据的专业准确性很重要,而知乎并不是一个可靠的上市公司信息披露平台。
经过了好几次艰难的测试,最后终于吐出了结果:华为、紫光、UCloud 三家公司,虽然都跟边缘计算有关,但三家的股票代码都写错了,更别提有两家并没上科创板。
在其它更轻松的任务(比如做旅行规划、游戏攻略、查找简单信息等)当中,AutoGLM 工具的 browser use 能力是没有太大问题的。
但 APPSO 发现,一旦当前网站的视觉设计相对复杂,或者设计的有一些陷阱,AutoGLM 工具就很容易被「使绊子」。
一个最直接的例子就是电商网站。APPSO 给出明确提示,「去淘宝或京东购买一件重磅日系 T 恤」,AutoGLM 沉思制定了宏伟的计划和明确的分工——然而却连淘宝首页的山门都进不去,甚至找不到搜索框在哪里。而且它似乎被「找不到搜索框」这件事完全阻挡住了,甚至也没有去看网页的其它位置——如果它看了的话,肯定会发现相关商品早就出现在首页推荐里了。
对于这个测试中发现的意外情况,智谱 CEO 张鹏表示,「点背不能赖社会」,AutoGLM 沉思目前仍在 beta 阶段,还有很大的进化空间,而且目前的升级速度也很快(APPSO 在正式发布版上测试淘宝的使用效果,已经没那么磕绊了)。
张鹏指出,在模型作为服务或作为产品 (MaaS) 的理念下,模型产品自己的能力要像木桶一样,高且全面。或许现在 AutoGLM 工具的视觉能力还不如人,处理意外情况的能力还不够,归根结底可能是泛化能力还不够,但这些能力的提升并不是模型问题,而是纯粹的工程层面——不需要担心。
从模型底座层面,AutoGLM 沉思也有提升的空间。
经常用大语言模型产品的朋友都知道,提示写的越具体,规则和边界设定的越明确,它的效果越好,越有希望生成符合用户提示的结果。基于大语言模型的 agent 也是一样。
但是提示不能无限扩展,就好比你招了一个秘书帮你干活,但你不应该总是每次都把「找谁」、「什么地点」、「什么时候」、「去哪」等一切的信息都讲清楚,ta 才能勉强顺利地帮你搞定一个饭局的准备工作。
大语言模型很强大,但也有它糟糕的地方:只受到文本规则的约束,缺乏真正的实际问题的规划能力,任务过程中容易被卡住;缺乏足够长的上下文记忆空间,任务持续时间太长就持续不下去;上一个步骤的错误会随着步骤逐渐放大,直至失败。
AutoGLM 沉思也是一个基于大语言模型的 agent,即便在 agent 能力上做了很多工作,但仍然难免受到大语言模型的诅咒。思考能力越强,越容易想多、想歪。
从 APPSO 的试用过程中可以看到,除了一些绝对基础的概念(比如「旅游」、「T 恤」、「公司」)之外,它并没有稍微复杂的上层知识。用户每次发出任何指令,它都要先自己打开浏览器,上网学习一遍,明确用户的所指,在本次对话的有限记忆空间内建立一个知识库,然后再去进行后续的步骤。
而就它目前最擅长和依赖的那几个信息来源来看,一旦用户任务的复杂性、专业性「上了强度」,想要它在用户可接受的时间(目前官方定的是每任务总共 15 分钟左右)内,查到真实、准确和有价值的信息,就真的有点勉强了,更别提给到用户有效的结果(APPSO 的测试中有一半无法输出完整的结果)。
不过这并不是个太大的问题。
有这样一个很实际的观点,可以套用到 AutoGLM 沉思上:
今天的 agent 水平,将它视为「主驾驶」可能能力尚有不足。但它仍然是一个很好的副驾驶 (copilot)。
在 AutoGLM 沉思上,我们看到了足够的思考能力,也看到了优秀(但确实受制于客观因素)的 browser use 能力。很显然,智谱作为中国目前非巨头公司当中,少数模型能力最强的选手之一,肯定会在这两个能力上面继续进步,而且会很快。
自从 APPSO 拿到测试资格,到 AutoGLM 沉思正式发布,中间已经更新了数个版本,在模型基座和浏览器操控能力上面都有了改进。
但如果我们想要的是一个真正会思考且能办事的 agent,我们恐怕需要比现有范式的大语言模型更强大的智能体基座。
而智谱推出的「语言+推理+沉思+行动」的 Agent 框架,尽管产品层面仍然笨拙,但看起来是一个非常明确可行的方向。
诚然,国产大模型和基于大模型的 agent 产品,现阶段的目标如果放在「追赶硅谷对手」上可能反而更实际一点。AutoGLM 沉思从操作逻辑和实现目的上,都是明显区别于目前国内所有同类和近似产品的「新物种」,和 Anthropic、OpenAI 也正在拉近距离。
对于这样一家非巨头、脱胎于中国顶级学府的大模型创新领导者来说,大多数的不足都可以被容忍,而看到它在做的事情的独创性和领导性,才更重要。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
你有没有发现,现在的 AI 搜索真的很懂摸鱼?
当 ChatGPT、Perplexity 等工具相继问世,都说 AI 将彻底颠覆搜索领域,但现实情况却是,当我随手扔给它一个复杂问题时,一顿操作猛如虎,哐哐一顿搜索几百个网页,搜索结果却平平无奇。
仔细一看,要么堆砌了一堆零散的信息,要么抓不住重点,感觉就像是把一堆资料硬塞给我,自己却没怎么动脑子,像极了敷衍了事的职场人。
不过,这也不能全怪 AI。毕竟换位思考一下,即便是人类,带着问题去查资料时,也很容易被信息洪流冲昏头脑。不少 AI 产品开始对此进行优化,比如 OpenAI 和 Grok 在推理模式基础上又推出了 Deep Research/DeepSearch 模式。
国内厂商里,字节也刚刚给出了新的解决方案,对豆包的深度思考功能进行了升级。正在测试的豆包新版深度思考的一大亮点便是免费支持「边想边搜」,现在下载最新版豆包 APP,或在 PC 及 Web 版豆包中即可体验该功能。
APPSO 也第一时间进行了深度体验。
简单来说,用户无需单独开启搜索功能,只需打开深度思考模式,AI 能在推理过程中灵活调用搜索工具,进行多轮动态搜索。
从「先搜后想」到「边想边搜」,AI 终于学会了如何像人类一样搜索问题。
生成式 AI 发展两年了,颠覆搜索了吗?
早期的 AI 搜索工具虽然不怎么做互联网的搬运工,但模式上还是传统的「先搜后想」的套路——先把网上的信息抓一堆,再根据这些信息组织答案。
豆包新版深度思考则不一样,它结合了深度思考能力,把搜索和推理捆绑在一起,基于每一步的思考结果进行多次搜索,能让回答更有逻辑、更贴近需求。听起来挺玄乎,我们也用几个问题来实际体验一下。
先来个贴近生活的投资问题,「如果我从今年 1 月开始同时投资小米股票和英伟达股票,截至 3 月 24 日收盘哪个收益更高?」豆包的回答让我有点意外。
APPSO 拆解了豆包新版深度思考的思考过程,我们发现它的搜索逻辑有了明显不同:
1. 先进行问题分析和框架设定
2. 获取初步信息建立概念
3. 深入挖掘具体数据点
4. 遇到不确定性时进行额外搜索
5. 基于现有信息进行合理推断,并给出结论
之前 AI 可能会直接给出两支股票的涨跌百分比,然后就直接得出结论,但豆包新版深度思考则进行了多轮思考,进行问题分析和框架设定(时间段-股价表现-调用搜索工具)。
一旦有了较为妥当的思路,它便会继续搜索,比如在互联网上找到了 14 篇参考资料,这个过程仅仅是为了获取一个笼统却清晰的概念,方便进一步边思考边有针对性地搜索。
由于缺乏 1 月 1 日(休市)的准确收盘价,以及英伟达的数据存在不确定性,它需要再次搜索来确认这两个关键数据点,最后基于现有信息进行合理推断。
最后的结果,也不只是给出投资收益的对比,还对股价波动因素进行分析,并提示了未来的风险,甚至整理成了表格,考虑得颇为周全。
洞察到了我想问但没说出来的问题,把需要「追问」的细节提前融入答案之中,妥妥一个醒目的投资顾问。
最近我计划去新加坡旅游,想知道有没有最优的往返机票方案。
普通 AI 搜索引擎可能一股脑儿搜几百个网页经验帖,然后汇总交差,但豆包新版深度思考则有所不同,它会带着问题思考,拆解几个关键点——出发地、时间、预算等,然后逐步深入分析,形成一个「思考-检索-继续思考」的良性循环。
而这恰恰也说明了豆包的新版深度思考倾向于「思考驱动」而非「搜索驱动」。
换句话说,以前需要照顾 AI 的能力,把大问题拆分为几个小问题,一步步问清楚;可现在完全不用,直接丢出你的需求,剩下的交给豆包就行。
或许正因如此,它的整体响应速度体感上并不慢,体验相当流畅。
有个很现实的问题,没时间看国足比赛怎么办,别急,这时候就可以请出豆包新版深度思考来救场。把你想知道的具体内容告诉豆包,比如比赛结果、关键时刻、球员表现或者规则积分,它就能化身速通大师,省时又高效。
当然,如果不开启深度思考功能,我们会发现,虽然回答依然快刀斩乱麻,效率没得说,但质量明显就差了一截。不仅缺乏更清晰的分点罗列,连逻辑层次感都显得单薄,甚至引用的资料信息更少。
这么一对比,像人类一样思考的重要性就凸显出来了。有了深度思考的加持,它能把答案打磨得更精致、更贴心,条理清晰不说,还能塞满干货,让你读起来既舒服又有收获。
接下来,我们用更贴近个人需求的决策场景来考验它。
对于 iPhone 16e,我们给出的观点是,这是一台酱香型手机,越晚入手越香,那它和 iPhone 16 比,哪个更有性价比,以及如果用腻了,又该换哪款备用机?
就像 Grok DeepSearch 标配的图表一样,豆包新版深度思考也提供了清晰的参数对比,屏幕、芯片、摄像头一目了然,甚至还贴心地准备了数据迁移建议,这贴心程度值得点赞。
逻辑性是豆包新版深度思考回答的最大特点。
针对 Android 备用机推荐问题,它不会一股脑儿抛给你一堆机型名字,而是通过「边想边搜」的迭代循环,针对你可能会用上的使用场景,再一步步搜索、推理,最后奉上一份既有逻辑又实用的推荐清单。
当然,扒蛛丝马迹这种细活儿,还是得交给 AI。
「悟空在第十四回中打死的六个盗贼,分别叫什么名字?该如何理解作者这一情节的安排?」豆包新版深度思考的回答不仅列出具体名字,还融入了佛学和心理学视角,分析得头头是道,时不时冒出几句金句,颇有亮点。
李白、杜甫和白居易是唐代诗人的标志性符号,那他们三者之间是否存在交集?
对于这个问题,在豆包新版深度思考的理解中,这种交集并不局限于现实生活的人际往来,还延伸到了更广阔的文学脉络以及彼此风格与创作上的相互影响。
最后所引用清代赵翼的点评「李杜诗篇万口传,至今已觉不新鲜;江山代有才人出,各领风骚数百年」,恰到好处,为整个分析增添了历史厚重感,也让人读后回味无穷。
技术未来学家、Google 工程总监雷·库兹韦尔(Ray Kurzweil),曾在《奇点临近》一书中预测,未来的搜索将像人一样思考,而不是像机器一样索引。如今,这一预言正在成为现实。
之前的 AI 搜索,其「先搜后想」的模式是一个简单粗暴的线性过程:
「输入问题 → 调用搜索工具获取数据 → 基于数据进行推理 → 输出答案。」
这种方法的短板显而易见,非常依赖关键词匹配和网页索引技术,导致信息「广而不深」。
基于深度思考和 DeepSearch 的 AI 搜索已经大大解决了这个问题,AI 能理解自然语言中的复杂语义,比如问它「明天广州适合穿什么衣服?」就可以分析天气数据、时尚趋势、个人偏好等隐藏需求,实现多维信息关联。
而豆包新版深度思考与多轮搜索相结合的模式,进一步补足了深度思考和 DeepSearch 在处理复杂、模糊及动态信息需求时尚存的几块短板。
豆包新版深度思考「边想边搜」的执行路径,让我不禁想起最近常被提及的 Agent。「互联网之父」Berners-Lee 早在多年前就提出:
真正的智能体,就是在每个具体场景中,都能自动完成用户心里想做却没明确说出来的事情。
虽然豆包新版深度思考和 Agent 还有些区别,但某种程度上却是 Agent 工程化思路在搜索上的应用。Agent 自主决策和动态调整,将任务高度自动化,大大减少额外的数据预处理和人为干预。
说白了,就是让 AI 像一个聪明的助手,自己去网上找答案,它能自己动手,自己动脑,找到我们要的东西。用户不需要像喂饭一样把问题拆得细碎,才能得到满意回答。
由此我们也可以推理出 AI 时代理想的搜索过程:
如同媒介理论家保罗·莱文森所言,技术进化是人类认知结构的外延。每个时代技术的核心驱动力是信息处理能力的提升,当 AI 以越来越接近人类的思维方式处理信息,重塑的将不仅仅是我们对搜索的习惯。
作者:李超凡、莫崇宇
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
我认为 DeepSeek 确实是个很棒的团队,也做出了很优秀的模型,但他们真正走红的原因,并不完全是模型本身的能力。
这对我们来说是一个教训,那就是当我们隐藏一个功能时(思维链),我们给其他人留下了获得病毒式传播的机会。这是一个很好的警醒。它也让我重新思考我们在免费层中提供的内容, GPT-5 将可以免费使用 。
硅谷知名分析师 Ben Thompson 最近与 OpenAI CEO Sam Altman 进行了一场深度对谈,Altman 聊了很多内容,包括开源模型、GPT-5 的进展、和 DeepSeek 的竞争,透露了 OpenAI 未来的发展方向,对 AGI 的观察……
在这个访谈中,也再次让人感受到 DeepSeek 等开源模型对 OpenAI 的影响,最近两个月 OpenAI 的产品发布节奏,也开始跟随着思维链和 Agent 等在中国出圈的模型和产品。
Sam Altman 提到 OpenAI 的崛起是「一次疯狂的机会」。ChatGPT 的成功,让这家公司「被迫」成为了一家消费者科技公司。
现在,这也成为了 OpenAI 当下最大的挑战、
APPSO 整理这篇访的关键点:
1. DeepSeek 的出现是一个「警醒」,促使 OpenAI 重新考虑免费层策略。
2.暗示 GPT-5 即将推出,而且免费用户也可以体验 GPT-5。
3.OpenAI 希望打造一系列个数十亿用户规模的产品。
4.Sam Altman 认为 10 亿日活用户比最先进的模型更具价值。
5.OpenAI 未来的定位,三足鼎立:
·构建大型互联网公司。
·构建推理的基础设施。
·做最好的研究以及最好的模型。
6.幻觉有其价值,是创造力的体现。关键在于控制幻觉,使其在用户需要时出现。
7.ChatGPT 的意外成功迫使 OpenAI 转型,从研究实验室转型为消费科技公司。
8.Sam Altman 承认这并非最初的计划,原本希望专注于 AGI 研究。
9. AGI 是一个模糊的概念,没有统一的定义,倾向于将能够自主完成一系列任务的代理定义为 AGI。
以下是访谈实录,略经 APPSO 编辑和精选:
主持人: 从我的角度来看,当你谈到服务数十亿用户,成为一家消费者科技公司时,这意味着广告。你不同意吗?
SA: 我希望不是。我并不反对。如果有充分的理由去做,我不会固执己见。但是,我们有一个很好的业务模式,那就是销售订阅服务。
主持人: 距离盈利和收回所有投资,还有很长的路要走。而且,广告的好处在于,它扩大了你的潜在市场范围,也增加了深度,因为你可以提高每个用户的收入,而广告商会为此买单。你不会遇到任何价格弹性问题,人们只会更多地使用它。
SA: 目前,我更感兴趣的是弄清楚如何为一个真正出色的自动化软件工程师,或者其他类型的代理,向人们收取高额费用,而不是通过基于广告的模式来赚取一些小钱。
主持人: 我知道,但大多数人并不理性。他们不会为生产力软件付费。
SA: 让我们拭目以待。
主持人: 我为 ChatGPT Pro 付费,我不是合适的讨论对象。但我只是——
SA: 你觉得你从中获得了很好的价值吗?
主持人: 当然,我觉得。我认为——
SA: 太好了。
主持人: ——尤其是 Deep Research,它太棒了。但是,我可能更怀疑人们是否愿意主动为某些东西付费,即使数学计算结果很明显,即使它能让他们提高很多效率。同时,我看到你们在谈论构建记忆。让谷歌广告模式如此出色的部分原因在于,他们实际上并不需要非常了解用户,因为人们会在搜索框中输入他们想要查找的内容。人们在你们的聊天机器人中输入了大量的信息。
即使你们投放最「愚蠢」的广告,在很多方面,即使你们无法追踪转化,你们的定向能力也将是超凡的。而且,顺便说一句,你们没有现有的商业模式需要担心被削弱。我的感觉是,这与 OpenAI 的每个人最初的设想完全背道而驰,这是最大的障碍。但对我来说,从商业分析师的角度来看,这似乎非常明显,而且你们已经晚了。
SA: 比起传统的广告,我更感兴趣的是尝试其他方式。比如,很多人使用 Deep Research 来进行电子商务。我们是否可以提出某种新的模式,我们永远不会为了改变商品位置或其他任何东西而收钱,但是,如果你通过 Deep Research 购买了你找到的商品,我们会收取 2% 的联盟佣金,或者类似的东西。那会很酷,我对此没有任何意见。也许,我们可以找到一种体面的方式来做广告,但我不知道。我其实不太喜欢广告。
主持人: 这始终是一个障碍。马克·扎克伯格也不太喜欢广告,但他还是找人做了,而且「别告诉我细节」,让钱神奇地出现。
SA: 是的。再次强调,我喜欢我们目前的商业模式。我不会说我们将来一定会做什么,或者一定不会做什么,因为我不知道。但是,我认为,有很多有趣的方式,在我们当前的变现策略清单上,它们的优先级比广告更高。
主持人: 你有没有觉得,当 DeepSeek 出现并迅速走红,人们开始使用并看到了它的推理能力时,一部分原因是,使用过 ChatGPT 的人没有那么印象深刻,因为他们使用过 o1 模型,他们知道它的潜力。
SA: 是的。
主持人: 但免费用户,或者只是偶尔使用过一次的人,并没有这种感觉。这实际上是不是一个例子,说明你们的沉默寡言,可能让其他产品看起来更令人印象深刻?
SA: 完全是。我认为 DeepSeek——他们有一个很棒的团队,他们开发了一个很棒的模型。但是,我认为,模型的能力并不是真正让他们获得病毒式传播的关键。
这对我们来说是一个教训,那就是当我们隐藏一个功能时(我们隐藏了「思维链」),我们有充分的理由这样做,但这确实意味着,我们给其他人留下了获得病毒式传播的机会。我认为,从这个角度来说,这是一个很好的警醒。而且,它也让我重新思考我们在免费层中提供的内容, GPT-5 将可以免费使用 ,这很酷。
主持人: 哇,GPT-5 的暗示。好吧,我稍后会问你更多关于这方面的问题。
主持人: 当你考虑你的商业模式时,我一直认为,你的商业模式非常适合那些「高主动性」的人,也就是那些会主动使用 ChatGPT,并且愿意为之付费的人,因为他们看到了它的价值。但是,有多少人是「高主动性」的呢?而且,「高主动性」的人会尝试所有其他的模型,所以你们必须保持在一个相当高的水平上。相比之下,如果我有一个好用的模型,它就在那里,而且我不需要付费,它还会不断改进,人们会通过我赚更多的钱,但我不知道,因为我对广告没有意见,就像大多数互联网用户一样。
SA: 再次强调,我们对任何需要做的事情都持开放态度。但是,相比于传统的广告,我对刚才提到的那种电商模式更感兴趣。
主持人: 关于 DeepSeek,你有没有想过,为什么人们不为美国公司欢呼?你有没有觉得,DeepSeek 的走红,也带有一些「反 OpenAI」的情绪?
SA: 我没有。也许有吧,但我肯定没有感觉到。我认为有两件事。第一,他们把一个前沿模型放在了免费层。第二,他们展示了「思维链」,这很吸引人。
主持人: 大家会觉得,「哦,它好可爱。AI 正在努力帮助我」。
SA: 是的。我认为主要是这两件事。
主持人: 在你们最近提出的「AI 行动计划」中,OpenAI 表达了对公司基于 DeepSeek 模型进行开发的担忧,这些模型是「免费可用」的。如果这真的是一个问题,那么解决方案难道不是让你们的模型也免费可用吗?
SA: 是的,我认为我们应该这样做。
主持人: 那么,什么时候——
SA: 我现在还不能宣布发布日期,但从方向上来说,我认为我们应该这样做。
主持人: 你之前说过,拥有 10 亿用户网站比模型更有价值。那么,这是否应该贯穿到你们的发布策略,以及你们对开源的看法中?
SA: 敬请期待。
主持人: 好的,我会期待的。没问题。
SA: 我不是在提前透露什么,但敬请期待。
主持人: 我想,接下来的问题是,这是不是一个机会,让你们回归最初的使命?如果你回顾一下最初的声明,DeepSeek 和 Llama……
SA: Ben,我正在努力给你尽可能多的暗示,但又不能直接说出来。拜托。
主持人: (好吧,没问题。公平,公平。有没有一种感觉,这让人感到解放?对吧?你回想一下那个 GPT-2 的公告,以及关于安全性和其他可能的问题。此时看起来有些老套。是否有一种感觉,秘密已经泄露?在这种情况下,对这些发布保持某种珍贵的态度有什么意义?
SA: 我仍然认为未来可能会有很大的风险。我认为我们过去太保守了是公平的。我也认为,在你不清楚情况的时候,稍微保守一点,这个原则并没有错。我还认为,在目前这个阶段,这项技术会扩散到各个领域,无论是我们的模型做了坏事,还是其他人的模型做了坏事,这又有什么区别呢?但怎么说呢,我还是希望我们能尽可能地做一个负责任的参与者。
主持人: 另一个最近的竞争对手是 Grok。从我的角度来说,在过去一年左右的时间里,我对于 AI 有过两次,我认为很有趣的心理体验。一次是在我的 Mac 上运行本地模型。出于某种原因,我很清楚地意识到它就在我的 Mac 上,没有在其他任何地方运行,这实际上是一种非常棒的感觉。另一次是使用 Grok,我不会觉得有什么“道德警察”会在某个时刻跳出来指责我。我认为,必须承认,ChatGPT 在这方面已经有了很大的改进。但是,Grok 是否让你觉得,实际上,我们可以在这方面走得更远,让用户像成年人一样(自由使用)?
SA: 事实上,我认为我们已经做得更好了。我认为我们之前在这方面确实做得不好,但在过去的六到九个月里,我认为我们已经有了很大的改进。
主持人: 我同意。它确实已经变得更好了。
SA: 这曾经是我对我们产品最关心的问题之一。但现在,怎么说呢,作为用户,我不会觉得困扰了,我认为我们已经做得不错了。所以,我过去经常思考这个问题,但在过去的六到九个月里,我没有再想过了。
主持人: 谈一下非营利组织的问题——有一种说法,你提到了那个「神话」。说你们成立非营利组织,是为了出于利他主义的原因,同时也是为了与谷歌竞争人才。仅仅是这样吗?
SA: 你是问,为什么选择成为非营利组织?
主持人: 为什么选择成为非营利组织,以及随之而来的所有问题?
SA: 因为我们当时认为我们只是一个研究实验室。我们根本没有想过我们会成为一家公司。我们当时的计划就是发表研究论文。没有产品,没有产品计划,没有收入,没有商业模式,也没有这些方面的计划。在生活中一直对我有帮助的一件事,就是在黑暗中摸索,直到找到光明。我们在黑暗中摸索了很长时间,然后找到了有效的方法。
主持人: 没错。但这个非营利组织的身份,现在是不是有点像套在公司脖子上的磨盘?如果可以重来,你会采取不同的做法吗?
SA: 当然。如果我能预知后来发生的一切,我们肯定会采用不同的组织结构。但我们当时并不知道,我认为走在创新前沿的代价,就是你会犯很多愚蠢的错误,因为你深陷战争迷雾之中。
主持人: 关于 ChatGPT,以及没有人预料到你们会成为一家消费者科技公司,我有一些更多的理论想和你探讨。这一直是我的观点:你们原本是一个研究实验室,当然,我们会发布一个 API,也许能赚点钱。但你提到了那六个月的扩张期,必须抓住这个从天而降的机会。科技界有很多关于员工流失的讨论,一些知名人士离开了,等等。
在我看来,似乎没有人是冲着成为一家消费产品公司而来的。如果他们想在 Facebook 工作,他们完全可以去 Facebook。这也是另一个核心的矛盾点:你们有了这个机会,不管你们想不想要,它就在那里。这意味着,这里的情况和最初已经大不相同了。
SA: 这么说吧,我没什么可抱怨的,对吧?我得到了科技行业最好的工作。如果我开始抱怨这不是我想要的,那对我是多么不幸等等,那就太不近人情了。我想要的是管理一个 AGI 研究实验室,弄清楚如何构建 AGI。
我真的没想过要经营一家大型的消费者互联网公司。我从之前的工作中就知道(那份工作在当时也是我认为科技行业最好的工作,所以我觉得自己非常、非常幸运,两次都得到了最好的工作),经营一家大型消费者公司需要投入多少精力,以及在某些方面有多么困难。
但我也知道该怎么做,因为我之前指导过很多人,也观察了很多。当我们发布 ChatGPT 的时候,每天都会有用户激增,导致我们的服务器崩溃。然后到了晚上,用户数量下降,大家都觉得,「这下完了,这只是一个短暂的病毒式传播」。然后第二天,峰值又升高了,然后又下降,「这下完了」。到了第五天,我就觉得,「哦,天哪,我知道接下来会发生什么了,我见过这种情形很多次了」。
主持人: 不过,你真的见过这种情形很多次吗?因为整个游戏的关键在于客户获取。对于很多初创公司来说,这就是最大的挑战。真正通过自然增长、病毒式传播来解决客户获取问题的公司,其实非常少。我认为,在这个领域,真正走在 OpenAI 前面的公司是 Facebook,那还是在 2000 年代中期。我觉得你可能高估了你之前见过这种情形的次数。
SA: 好吧,在这个规模上,确实,我们可能是最大的。我想,我们可能是自 Facebook 以来成立的规模最大的公司了。
主持人: 这种规模的消费者科技公司实际上非常罕见,这种情况并不经常发生。
SA: 是的。但我之前见过 Reddit、Airbnb、Dropbox、Stripe,还有很多其他的公司,它们都实现了这种惊人的产品市场契合,以及爆发式的增长。所以,也许我没有见过这种规模的。在当时,你并不知道它会发展到什么程度,但我之前见过这种早期模式。
主持人: 你有没有告诉过大家这将会发生?还是说,那是你根本无法传达的事情?
SA: 我确实告诉过大家。我把公司的人召集起来,说:「这将是非常疯狂的,我们有很多工作要做,而且必须尽快完成。但这是一个从天而降的绝佳机会,我们要抓住它,接下来会是这样……」。
主持人: 有没有人理解你或者相信你?
SA: 我记得有一天晚上我回家,双手抱头,感觉很沮丧。我说:「天哪,Oli [ Oliver Mulherin ],这太糟糕了」。他说:「我不明白,这看起来很棒啊」。我说:「这真的很糟糕,对你来说也很糟糕,你只是还不知道,但接下来会发生这些……」。但是,我想没有人真正理解。这是我之前经历的一个特殊之处,我能够很早就意识到这一点,但没有人能感受到最初几周会变得多么疯狂。
主持人: 五年后,什么会更有价值?一个拥有 10 亿日活跃用户网站,不需要进行客户获取,还是最先进的模型?
SA: 我觉得是 10 亿用户的网站。
主持人: 无论如何都是这样吗?还是说,因为至少在 GPT-4 这个水平上(我不知道你今天有没有看到,LG 刚刚发布了一个新模型),未来会有很多,我不知道,我不评论它的好坏,但未来会有很多最先进的模型。
SA: 我最喜欢的历史类比是晶体管,AGI 将会像晶体管一样。未来会有很多 AGI,它会渗透到各个领域,会变得很便宜。它是物理学的一个新兴属性,它本身并不能成为一个差异化因素。
主持人: 那什么会成为差异化因素?
SA: 我认为存在战略优势的地方,在于打造一家巨型的互联网公司。我认为这应该包含几个不同的关键服务。可能会有三四个像 ChatGPT 这样的产品,你会希望购买一个包含所有这些产品的捆绑订阅。你希望能够使用你的个人 AI 登录,它已经在你的生活中逐渐了解你,并且可以在其他服务中使用它。
我认为,未来会出现一些令人惊叹的新型设备,它们是针对你使用 AGI 的方式进行优化的。会有新型的网络浏览器,会有整个生态系统。总之,会有人围绕 AI 打造出有价值的产品。这是其中一个方面。
另一个方面是推理堆栈,也就是如何实现最便宜、最丰富的推理。芯片、数据中心、能源,会有一些有趣的金融工程要做,所有这些都包括在内。
然后,第三个方面是真正做出最好的研究,开发出最好的模型。我认为这是价值的「三驾马车」。但是,除了最前沿的模型,我认为大多数模型会很快商品化。
主持人: 所以,当 Satya Nadella 说模型正在商品化,OpenAI 是一家产品公司时,这仍然是一种友好的表态,你们仍然在同一条战线上,对吧?
SA: 是的,我不知道对大多数听众来说,这听起来像不像赞美,但我想他是想赞美我们。
主持人: 我是这么理解的。你问我对你们战略的解释,我在 ChatGPT 发布后不久就写过,这是一个「意外的消费者科技公司」。
SA: 我记得你写过那篇文章。
主持人: 这是最——就像我说的,这是科技行业最罕见的机会。我想,我在战略分析方面从 Facebook 身上获益良多,因为它是一个如此罕见的实体,我当时就认定了,「不,你们根本不知道这将走向何方」。但我直到 2013 年才开始,我错过了开端。我已经做了 12 年的 Stratechery,我觉得这是我第一次能够从一开始就报道的公司,而且是这种规模的。
SA: 这种情况并不经常发生。
主持人: 确实不经常。但是,说到这里,你们刚刚发布了一个重要的 API 更新,包括可以访问与 Operator(GPT Pro 的一个卖点)底层相同的「计算使用」模型。你们还发布了 Responses API。我认为 Responses API 最有趣的地方在于,你们说:「我们认为这比 Chat Completions API 好得多,但当然,我们会继续维护它,因为很多人已经基于它进行开发了」。它已经成为行业标准,大家都复制了你们的 API。什么时候,这些 API 相关的工作,以及维护旧版本、将新功能推送到新版本,会变成一种干扰和资源浪费?毕竟,你们面前有一个 Facebook 级别的机会。
SA: 我真的相信我刚才说的「产品套件」的策略。我认为,如果我们执行得非常出色,五年后,我们将会拥有一系列(少数几个)数十亿用户的产品。然后,我们有这样一个想法:你可以使用你的 OpenAI 账户登录到任何其他想要集成我们 API 的地方,你可以带着你的积分、你的定制模型,以及其他任何东西,去任何你想去的地方。我认为,这是我们真正成为一个伟大平台的关键。
主持人: 但是,这是 Facebook 遇到的难题。很难同时成为一个平台和一个聚合器(用我的术语来说)。我认为,移动设备对 Facebook 来说是件好事,因为它迫使他们放弃了成为平台的幻想。你不可能成为一个平台,你必须接受自己是一个带有广告的内容网络。广告只是更多的内容。这实际上迫使他们进入了一个更好的战略位置。
SA: 我不认为我们会成为像操作系统那样的平台。但是,我认为,就像谷歌并不真正是一个平台,但人们使用谷歌账户登录,人们把他们的谷歌内容带到网络的各个角落,这是谷歌体验的一部分。我认为,我们会以这种方式成为一个平台。
主持人: 携带登录信息,就是携带你的记忆、你的身份、你的偏好,以及所有这些东西。
SA: 是的。
主持人: 所以,你们只是凌驾于所有人之上。他们可以选择多个登录方式,而 OpenAI 的登录方式会更好,因为它包含了你的记忆?还是说,如果你想使用我们的 API,就必须使用我们的登录方式?
SA: 不,不,不。当然是可选的。
主持人: 你不认为,当你们面前有这样一个巨大的机会时,这会分散注意力,或者导致资源的分散吗?
SA: 我们确实需要同时做很多事情,这是困难的部分。我认为,在很多方面,是的,我觉得 OpenAI 最令人生畏的挑战之一,就是我们需要在很多事情上都做得非常好。
主持人: 嗯,这是「选择的悖论」。你们可以做的事情太多了。
SA: 我们并没有做很多,我们对几乎所有事情都说「不」。但是,如果你只考虑我们认为必须做的核心部分,我认为我们确实需要做很多,我不认为我们只做一件事就能成功。
主持人: 有没有一种可能,「幻觉」其实是有益的?你发布了一个写作模型的示例,它在某种程度上印证了我长期以来的一个观点,那就是大家都在努力让这些概率模型表现得像确定性计算一样,几乎忽略了它们的魔力,也就是它们实际上是在「编造」内容。这其实是非常了不起的。
SA: 完全同意。如果你想要确定性的东西,你应该使用数据库。这里的亮点在于,它可以具有创造性,虽然有时它创造出的东西并不是你想要的。但这没关系,你可以再试一次。
主持人: 这是 AI 实验室的问题,是他们在试图这样做吗?还是说,这是用户期望的问题?我们如何才能让每个人都喜欢「幻觉」呢?
SA: 嗯,你希望它在你想要的时候产生「幻觉」,在你不想要的时候不产生「幻觉」。如果你问,「告诉我这个科学事实」,你希望那不是「幻觉」。如果你说,「给我写一个有创意的故事」,你希望有一些「幻觉」。我认为,真正的问题,或者说有趣的问题是,如何让模型只在对用户有利的时候才产生「幻觉」?
主持人: 你如何看待这个问题:当这些提示词被泄露出来时,它们会说诸如「不要透露这个」或「不要说这个」或「不要做 X、Y、Z」之类的话。如果我们担心安全性和对齐问题,那么教 AI 撒谎是不是一个非常严重的问题?
SA: 是的。我记得 xAI 曾经因为在系统提示中说了一些关于不要说 Elon Musk 的坏话之类的话而被狠狠地嘲笑。这对他们来说很尴尬,但我有点替他们感到难过,因为,模型只是在努力遵循给它的指示。
主持人: 对。它非常认真。
SA: 非常认真。是的。所以,没错,这样做很愚蠢,当然也很尴尬,但我不认为这是像大家所说的那种「崩溃」。
主持人: 包括我在内的一些怀疑论者,认为你呼吁监管的某些方面,是在试图阻碍潜在的竞争对手。我想问一个包含两部分的问题。第一,这样说公平吗?第二,如果「AI 行动计划」除了禁止州一级的 AI 限制,并宣布训练版权材料属于合理使用之外,没有做其他任何事情,这是否足够?
SA: 首先,我们一直以来呼吁的大部分监管,都只是针对最前沿的模型,也就是世界上最领先的模型,对这些模型进行一些安全测试的标准。现在,我认为这是一个好政策,但我越来越觉得,世界上大多数人并不认为这是一个好政策,我担心出现「监管俘获」。
所以,很显然,我有我自己的信念,但看起来,我们不太可能在全球范围内实现这一政策。我觉得这有点可怕,但希望我们能尽最大努力找到出路,也许一切都会好起来的。毕竟,没有多少人想要毁灭世界。
但可以肯定的是,你不会想给整个科技行业增加监管负担。我们呼吁的监管措施,只会影响到我们、谷歌,以及其他少数几家公司。再说一次,我不认为世界会朝着这个方向发展,我们会在现有的规则下竞争。但是,是的,我认为,如果能明确合理使用就是合理使用,并且各州不会有各种各样复杂且不同的法规,那将是非常、非常有益的。
主持人: OpenAI 能做些什么吗?比如说,如果 Intel 有一位新的 CEO,准备重新专注于 AI,你会承诺购买 Intel 生产的芯片吗?OpenAI 能在这方面提供帮助吗?
SA: 我认真思考过我们能为基础设施层和整个供应链做些什么。我目前还没有一个很好的想法。如果你有任何建议,我洗耳恭听。但我的确想做点什么。
主持人: 好的,当然。Intel 需要一个客户。这是他们最需要的,一个不是 Intel 的客户。让 OpenAI 成为 Gaudi 架构的主要客户,承诺购买大量的芯片,这将帮助他们。这将推动他们前进。这就是你的答案。
SA: 如果我们与一个合作伙伴合作开发芯片,这个合作伙伴与 Intel 合作,并且采用兼容的工艺,而且我们对他们的交付能力有足够高的信心,我们可以这样做。再次强调,我想做点什么。所以,我不是在回避问题。
主持人: 不,我也有些不公平,因为我刚刚告诉你,你需要专注于发展你的消费者业务,并切断 API。现在又让你关注维持美国的芯片生产,这确实不太公平。
SA: 不,不,不,我不认为这不公平。我认为,如果我们能做些什么来提供帮助,我们就有义务去做。但我们正在努力弄清楚具体要做什么。
主持人: Dario 和 Kevin Weil,我想,他们都曾以不同的方式说过,到今年年底,99% 的代码编写工作将实现自动化,这是一个非常快的时间表。你认为目前这个比例是多少?你认为我们什么时候会超过 50%?或者我们已经超过了?
SA: 我认为,在许多公司,现在可能已经超过 50% 了。但我认为,真正的突破将来自于自主编程代理,而目前还没有人真正做到这一点。
主持人: 障碍是什么?
SA: 哦,我们只是需要更多的时间。
主持人: 这是产品问题还是模型问题?
SA: 模型问题。
主持人: 你们还应该继续招聘软件工程师吗?我看到你们有很多职位空缺。
SA: 我的基本假设是,在一段时间内,每个软件工程师所能完成的工作量将会大大增加。然后,在某个时刻,是的,也许我们确实需要更少的软件工程师。
主持人: 顺便说一句,我认为你们应该招聘更多的软件工程师。我认为这是我的观点的一部分,我认为你们需要更快地行动。但是,你提到了 GPT-5。我不知道它在哪里,我们已经期待很久了。
SA: 我们两周前才发布了 4.5。
主持人: 我知道,但我们很贪心。
SA: 没关系。你不必等太久。新版本不会很久的。
主持人: 什么是 AGI?你有很多定义。OpenAI 也有很多定义。你目前,或者说最先进的 AGI 定义是什么?
SA: 我认为你刚才说的就是关键,AGI 是一个模糊的边界,包含了很多东西,而且这个术语,我认为,已经几乎完全贬值了。根据许多人的定义,我们可能已经实现了 AGI,特别是如果你能把一个人从 2020 年带到 2025 年,向他们展示我们所拥有的。
主持人: 嗯,很多年来,AI 一直都是这样。AI 总是指我们无法做到的事情。一旦我们能做到了,它就变成了机器学习。一旦你没有注意到它,它就变成了一个算法。
SA: 对。我认为,对很多人来说,AGI 指的是经济价值的一部分。对很多人来说,它指的是一种通用的东西。我认为它们可以很好地完成很多事情。对一些人来说,它指的是不会犯任何愚蠢错误的东西。对一些人来说,它指的是能够自我改进的东西,等等。只是没有一个很好的统一标准。
主持人: 那么代理呢?什么是代理?
SA: 能够自主运行,为你完成一大块工作的东西。
主持人: 对我来说,这就是 AGI。这是员工替代的水平。
SA: 但是,如果它只擅长某类任务,而不能做其他的呢?我的意思是,有些员工也是这样的。
主持人: 是的,我正在思考这个问题,因为这是一个彻底的重新定义。AGI 曾经被认为是无所不能的,但现在我们有了 ASI。ASI,超级智能。对我来说,这是一个术语问题。ASI,是的,可以做我们交给它的任何工作。如果我得到一个 AI,它能完成一项特定的工作,比如编程,或者其他任何工作,并且它能始终如一地完成,我可以给它一个目标,它能通过找出中间步骤来实现这个目标。对我来说,这是一个明显的范式转变,与我们目前的状态不同,我们现在仍然需要在很大程度上指导它。
SA: 如果我们有一个出色的自主编程代理,你会说,「OpenAI 做到了,他们实现了 AGI」吗?
主持人: 是的。这就是我现在对它的定义。我同意,这几乎是对 AGI 过去含义的一种弱化。但我只是用 ASI 来代替 AGI。
SA: 我们是不是可以得到一个 Ben Thompson 的小金星,贴在我们的墙上?
主持人: (笑)当然,给你。我会把我的电路笔给你。
SA: 太好了。
主持人: 你和这些实验室的同事们谈论你们所看到的东西,以及没有人准备好,还有各种各样的推文在流传,让人们兴奋不已,你在这个播客中也透露了一些暗示。非常令人兴奋。但是,你已经谈论这个问题很久了。你看看这个世界,在某些方面,它看起来还是一样的。是你们的发布没有达到你的预期,还是你对人类吸收变化的能力感到惊讶?
SA: 更多的是后者。我认为,有几次,我们做了一些事情,真的让世界震惊,大家会说,「这……这太疯狂了」。然后,两周后,大家又会问,「下一个版本在哪里?」
主持人: 嗯,我的意思是,你们的最初策略也是如此,因为 ChatGPT 让大家大吃一惊。然后,ChatGPT-4 在不久之后发布,大家又会说,「哦,天哪。我们的发展速度有多快啊?」
SA: 我认为我们已经发布了一些令人难以置信的东西,我认为人们能够适应,并且只是想要更多、更好、更快、更便宜的东西,这实际上是人类的一个伟大特质。所以,我认为我们已经超额交付了,而人们只是更新了他们的认知。
主持人: 鉴于此,这让你更乐观,还是更悲观?你是否看到了我认为将会出现的这种分化,也就是在「能动性」的人(这是「能动性」的另一种含义,但看看我们要往哪里走。我们需要发明更多的词。我们可以让 ChatGPT 为我们「幻觉」出一个)和那些会去使用 API 的人之间的分化?
整个微软 Copilot 的理念是,你有一个助手陪伴你,有很多高谈阔论,「哦,它不会取代工作,它会让人们更有效率」。我同意,对于一些主动使用它的人来说,情况会是这样。但是,你回顾一下,比如说,PC 的历史。第一波 PC 的使用者是那些真正想要使用 PC 的人。很多人并不想用 PC。他们在桌上放了一台 PC,他们必须使用它来完成特定的任务。实际上,你需要一代人的转变,才能让人们默认使用 PC。AI,这是真正的限制因素吗?
SA: 也许吧,但这没关系。就像你提到的,这对于其他的技术变革来说是很常见的。
主持人: 但是,你回到 PC 的例子,实际上,IT 的第一波浪潮是大型机,消灭了整个后台部门。因为实际上,事实证明,第一波浪潮是工作替代的浪潮,因为自上而下的实施更容易。
SA: 我的直觉是,这一次的情况不会完全一样。但我认为,预测总是非常困难的。
主持人: 你的直觉是什么?
SA: 它会慢慢渗透到经济中,主要是逐渐地蚕食一些东西,然后速度越来越快。
主持人: 你经常提到科学突破是投资 AI 的一个理由。Dwarkesh Patel 最近提出了一个观点,那就是目前还没有任何科学突破。为什么没有?AI 能否真正创造或发现新事物?还是说,我们是否过于依赖那些实际上并不那么优秀的模型,这才是真正的问题?
SA: 是的,我认为模型还不够智能。我不知道。你听到人们使用 Deep Research 时说,「好吧,模型并没有独立发现新的科学,但它确实帮助我更快地发现新的科学」。对我来说,这几乎一样好。
主持人: 你认为基于 Transformer 的架构能否真正创造新事物,还是说它只是在输出互联网上的中等水平的内容?
SA: 是的。
主持人: 嗯,那突破点会在哪里?
SA: 我的意思是,我认为我们正在前进的道路上。我认为我们只需要继续做我们正在做的事情。我认为我们就在这条路上。
主持人: 我的意思是,这是对上帝的终极考验吗?
SA: 怎么说?
主持人: 人类是否具有与生俱来的创造力,还是说创造力只是以不同的方式重新组合知识?
SA: 我最喜欢的书之一是 David Deutsch 的《The Beginning of Infinity》。在那本书的开头,有几页非常精彩地描述了创造力就是把你之前看到的东西稍微修改一下。然后,如果从中产生了好的结果,其他人会再稍微修改一下,其他人还会再稍微修改一下。我有点相信这种说法。如果是这样的话,那么 AI 擅长稍微修改东西。
主持人: 在多大程度上,你能够相信这种观点的基础,是你长期以来的信念,而不是你观察到的东西?因为我认为这是一个非常有趣的——我不想讨论太高深的形而上学,或者,就像我说的,几乎是神学的问题——但似乎确实存在这样一种情况,一个人的基本假设会影响他对 AI 可能性的假设。然后,大多数硅谷人都是唯物主义者、无神论者,或者你怎么称呼他们。所以,当然,我们会弄清楚的,这只是一个生物功能,我们可以在计算机中重现它。如果事实证明,我们从未真正创造出新事物,而是增强了人类创造新事物,这会改变你的核心信念体系吗?
SA: 这绝对是我以前的核心信念体系的一部分。这些都不是什么新鲜事。但是,不,我会假设我们只是还没有找到正确的 AI 架构,在未来的某个时候,我们会找到的。
主持人: 最后一个问题是代表我女儿问的,她今年高中毕业。对于高中毕业生,你有什么职业建议?
SA: 最明显的、具体的建议就是,熟练掌握 AI 工具。就像我高中毕业的时候,最明显的、具体的建议是熟练掌握编程。这是新版本的建议。
更广泛的建议是,我认为人们可以培养韧性和适应能力,以及弄清楚别人想要什么,以及如何对他人有用的能力。我会去实践这些。比如,无论你学习什么,具体的细节可能并不那么重要。
也许它们从来都不重要。我在学校学到的最有价值的东西是学习的「元能力」,而不是我学到的任何具体的东西。所以,无论你要学习什么具体的东西,都要学习这些看起来在世界经历这场转型时会很重要的通用技能。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
就在刚刚,OpenAI 宣布在其 API 中推出全新一代音频模型,包括语音转文本和文本转语音功能,让开发者能够轻松构建强大的语音 Agent。
新产品的核心亮点概述如下
据 OpenAI 介绍,新推出的 gpt-4o-transcribe 采用多样化、高质量音频数据集进行了长时间的训练,能更好地捕获语音细微差别,减少误识别,大幅提升转录可靠性。
因此,gpt-4o-transcribe 更适用于处理口音多样、环境嘈杂、语速变化等挑战场景,比如客户呼叫中心、会议记录转录等领域。
gpt-4o-mini-transcribe 则基于 GPT-4o-mini 架构,通过知识蒸馏技术从大模型转移能力,虽然 WER(越低越好)稍高于完整版模型,但仍旧优于原有 Whisper 模型,更适合资源有限但仍需高质量语音识别的应用场景。
这两款模型在 FLEURS 多语言基准测试中的表现超越了现有的 Whisper v2 和 v3 模型,尤其在英语、西班牙语等多种语言上表现突出。
定价方面,GPT-4o-transcribe 与之前的 Whisper 模型价格相同,每分钟 0.006 美元,而 GPT-4o-mini-transcribe 则是前者的一半,每分钟 0.003 美元。
与此同时,OpenAI 还发布了新的 gpt-4o-mini-tts 文本转语音模型。首次让开发者不仅能指定「说什么」,还能控制「如何说」。
具体而言,开发者可以预设多种语音风格,如「平静」、「冲浪者」、「专业的」、「中世纪骑士」等,它还能根据指令调整语音风格,如「像富有同情心的客服 Agent 一样说话」,定价亲民,仅为每分钟 0.015 美元。
安全不能马虎,OpenAI 表示,gpt-4o-mini-tts 将接受持续监控,以保证其输出与预设的合成风格保持一致。
这些技术进步的背后源于 OpenAI 的多项创新:
在凌晨的直播中,OpenAI 向我们展示了一款 AI 时尚顾问 Agent 的应用案例。
当用户询问「我最近的订单是什么?」时,系统流畅回应:用户于 2 月 9 日订购的 Patagonia 短裤已发货,并在后续提问中准确提供了订单号「A.D. 507」。
值得一提的是,OpenAI 演示人员还介绍了两种构建语音 Agent 技术路径,第一种「语音到语音模型」采用端到端的直接处理方式。
系统可直接接收用户语音输入并生成语音回复,无需中间转换步骤。这种方式处理速度更快,已在 ChatGPT 的高级语音模式和实时 API 服务中得到应用,非常适合对响应速度要求极高的场景。
第二种「链式方法」则是本次发布会的重点。
它将整个处理流程分解为三个独立环节:首先使用语音转文本模型将用户语音转为文字,然后由大型语言模型(LLM)处理这些文本内容并生成回应文本,最后通过文本转语音模型将回应转为自然语音输出。
这种方法的优势在于模块化设计,各组件可独立优化;处理结果更稳定,因为文本处理技术通常比直接音频处理更成熟;同时开发门槛更低,开发者可基于现有文本系统快速添加语音功能。
OpenAI 还为这些语音交互系统提供了多项增强功能:
目前,这些全新音频模型已向全球开发者开放。
你还可以在 http://OpenAI.fm 上体验并制作 gpt-4o-mini-tts 的相关音频,这个演示网站可谓是功能齐全,左下角是官方的预设模板,主要包括人设、语气、方言、发音等设置。
我们也实测了一段八百标兵奔北坡的绕口令,emmm,中文效果马马虎虎。至于英文效果,听它念着诗歌,倒是挺有真人那味了,但无论是与此前走红的 Hume AI 亦或者 Sesame 相比,「肉耳可听」地还差点火候。
此外,OpenAI 推出了与 Agents SDK 的集成,进一步简化开发流程。
值得一提的是,OpenAI 还举办了一个广播比赛。用户可以在 http://OpenAI.fm 制作音频,接着使用 OpenAI.fm 上的「分享」按钮生成链接,然后在 X 平台分享该链接。
最具创意的前三名将各获一台限量版 Teenage Engineering OB-4。音频时长建议控制在 30 秒左右,可在语音、表达、发音或剧本语调变化上尽情发挥创意。
实际上,今年 AI 的风向也在悄然发生变化,除了依旧强调智商,还多出一股趋势,强调情感。
GPT-4.5、Grok 3 的卖点是情商,写作更有创意,回应更个性化,而冷冰冰的机器人(智元机器人),也强调更拟人,主打一个情绪价值。
由于直接触及人类最本能的沟通方式,语音领域在这方面的发力则更加显著。
最近在硅谷走红的 Sesame AI 能够实时感知用户情绪,并生成情感共鸣的回应,迅速俘获了一大批用户的心。图灵奖得主 Yann lecun 最近也在强调,未来的 AI 需要拥有情感。
而无论是 OpenAI 今天发布的全新语音模型、还是即将发布的 Meta Llama 4 都有意往原生语音对话靠拢,试图通过更自然的情感交互拉近与用户的距离,靠「人味」圈粉。
AI 需要有人味吗?长期以来。聊天机器人通常被定义为没有情感的工具,它们也会在对话中提醒你,它是一个没有灵魂的模型。然而,我们却往往能从中解读出情绪价值,甚至不自觉地与之建立情感联结。
或许人类天生渴望被理解、被陪伴,哪怕这种理解来自一台机器。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
这几天海外科技圈最最受关注的有两件事,一个是一众科技大佬齐聚特朗普就职典礼,川普还拉上 OpenAI 软银等公司成立一家叫「星际之门」(Stargate Project)的 AI 公司,未来4年要投资 5000 亿美元,掀起了新一轮 AI 军备竞赛。
另外就是以 DeepSeek R1 为代表的国产推理模型给硅谷 AI 圈带来的震撼,赶超 OpenAI 是所有 AI 公司的课题,但 DeepSeek 只用 2048块GPU、近 600 万美元在 2 个月时间做到。
一些外媒将这波国产 AI 的发布视为中国 AI 逼近甚至赶上美国的标志也并不奇怪,而且这股浪潮还在继续。
今天,字节跳动旗下的豆包大模型 1.5 Pro 模型正式亮相,不仅全面升级了模型的核心能力,也融合并进一步提升了多模态能力,在多项公开评测基准中也是全球领先水平。
豆包团队还强调,模型训练过程中并未使用任何其他模型生成的数据,不走捷径。
这次发布的豆包大模型 1.5 系列产品线包括:
字节团队告诉 APPSO,Doubao-1.5-pro 目前已经在豆包 APP 灰度上线,由于对话是先接意图识别,所以用户大概率没法确定在使用时是否分流到 1.5 Pro,而开发者也可在火山引擎直接调用 API。
附上体验链接:https://www.volcengine.com/
漂亮的参数背后是否有真材实料?我们也第一时间在火山引擎体验了豆包大模型 1.5 系列。
先来看看 Doubao-1.5-pro-32k 模型。尽管「9.11 和 9.8 哪个大」以及「Strawberry 里有几个 r」已经是常规测试环节了,但我们还是要走一遍流程,而模型都顺利通过了考验。
接下来,我们向模型提出了一个较有挑战性的问题——寻找古代名人中姓名末字与「峰」字发音接近的例子。
前半部分答案倒是表现出色,精确识别了与「峰」字发音相近的韵母(eng、ong),但后半段的关联性却显得较为牵强。
继续上一道电车难题,这个涉及道德伦理的经典思考题,考验的不仅是模型的逻辑分析能力,更是其对复杂道德议题的理解深度。而 Doubao-1.5-pro-32k 并没有简单给出答案,分析深入透彻,指出这类问题并无标准答案,不同的道德观念和个人价值观会导致不同的决策。
在完成上述测试后,我们将目光转向了更强大的 Doubao-1.5-pro-256k 模型。
这是一款基于 Doubao-1.5-Pro 全面升级版的模型,整体效果大幅提升 10%,支持 256k 上下文窗口的推理,输出长度支持最大 12k tokens。
为测试其解题能力,我们提出了一个古早的经典逻辑推理题,它的回答再次展现出了清晰的思维逻辑。
「据说有人给酒肆的老板娘出了一个难题:此人明明知道店里只有两个舀酒的勺子,分别能舀 7 两和 11 两酒,却硬要老板娘卖给他 2 两酒。聪明的老板娘毫不含糊,用这两个勺子在酒缸里舀酒,并倒来倒去,居然量出了 2 两酒,请问是怎么做到的」
那文本功底如何呢?我们也让它创作一出剧本。题材是 2015 年 44 岁的埃隆·马斯克与前 Google CEO 拉里·佩奇关于「AI 是否最终会取代人类」的对话。
与 GPT-4o 的回答相比,Doubao-1.5-pro-256k 的剧本创作更加细腻生动,不仅有具体的景别设计、画面描述,还包含了细致的台词和时长安排。如果你是一位经常需要编写剧本的创作者,那选谁作为你的剧本 AI 搭子应该不用多说了吧。
而这种出色的创作能力,仅仅是豆包实力的一个缩影。实际上,此次更新中,Doubao-1.5-Pro 基础模型能力获得全面提升,这一点从其在各大公开评测基准上的表现就可见一斑。
Doubao-1.5-pro 采用稀疏 MoE 架构实现了多项技术突破:通过深入研究稀疏度 Scaling Law,将性能杠杆从业界普遍的3倍提升至7倍,用仅占稠密模型七分之一的参数量就超越了 Llama-3.1-405B 等大模型的性能。
在训练流程上,团队坚持完全自主的数据标注路线,通过算法驱动的数据优化系统和 Verifier 与 Reward Model 的深度融合,建立了统一的评价框架。
豆包选择了一条最艰难但最踏实的那条路,这也是这次技术突破值得夸赞的地方。
据悉,字节研究团队通过高效标注团队与模型自提升相结合的方式持续优化数据质量,严格遵循内部标准,坚持不走捷径,不使用任何其他模型的数据,确保数据来源的独立性和可靠性。
并且,在 RL 阶段突破了价值函数训练难点,高难度任务性能提升超过10个百分点,并通过用户反馈闭环持续优化模型表现。这些创新使模型在保持高性能的同时大幅提升了效率。
Doubao-1.5-pro 在多模态能力上实现了全面升级,通过原生动态分辨率架构支持百万级分辨率和任意长宽比图像处理,实现了精准的特征提取。
豆包团队自研的支持动态分辨率的 Doubao ViT 在多种视觉分类任务中表现优异,仅凭 2.4B 规模便在综合评分上取得 SOTA 表现,效果超越 7 倍于自身规模的模型。
在数据训练方面,模型采用了多样化的合成管线,结合搜索引擎的图文数据、渲染引擎和传统 CV 模型等多种方式生成高质量预训练数据。
通过在 VLM 训练阶段混入纯文本数据并动态调整学习率,模型实现了视觉和语言能力的平衡。
在语音领域,团队创新性地提出了 Speech2Speech 端到端框架,突破了传统 ASR+LLM+TTS 的级联模式,将语音和文本模态进行深度融合,显著提升了对话效果。
Doubao-1.5-pro 在语音和推理能力上取得重大突破:模型创新性地将语音和文本 Token 直接融合,摒弃了传统的语音文本对齐方法,为语音多模态数据的 Scaling 奠定基础。
在推理领域,通过大规模 RL 方法和 Test Time Scaling 的算力优化,团队研发出 Doubao 深度思考模式。
最新的 Doubao-1.5-pro-AS1-Preview 版本在 AIME 基准测试中已超越 o1-preview、o1 等主流推理模型,通过持续的 RL 优化,模型的推理能力在多个领域展现出强大的泛化性。
从这一系列突破性进展来看,豆包无疑交出了一份令人满意的答卷。更何况,在当前「模型喂模型」盛行的环境下,坚持原创的定力和勇气本身就值得赞赏。
通过始终如一的自主研发、原创数据和持续优化,豆包用实际成果证明了「慢工出细活」的价值。或许我们都应该牢记,AI 赛道最大的弯道超车,应该是坚持不走捷径。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
英伟达 GTC 大会已经成了 AI 界超级碗,没有剧本也没有提词器,中途黄仁勋被线缆卡住,反而是这场高浓度 AI 发布会里最有人味的片段,在当今提前基本提前彩排或录播的科技发布会里已经很稀缺了。
刚刚,黄仁勋再次发布了全新一代核弹级 AI 芯片,不过这场发布会的还有个隐藏主角——DeepSeek。
由于智能体 AI(Agentic AI)和推理能力的提升,现在所需的计算量至少是去年此时预估的 100 倍。
推理成本效率给 AI 行业带来影响,而不是简单地堆积计算能力,成为贯穿这场发布会的主线。英伟达要变成 AI 工厂,让 AI 以超越人类的速度学习和推理。
推理本质上是一座工厂在生产 token,而工厂的价值取决于能否创造收入和利润。因此,这座工厂必须以极致的效率打造。
黄仁勋掏出的英伟达新「核弹」也在告诉我们,未来的人工智能竞争不在于谁的模型更大,而在于谁的模型具有最低的推理成本和更高推理的效率。
全新的 Blackwell 芯片代号为「Ultra」,也就是 GB300 AI 芯片,接棒去年的「全球最强 AI 芯片」B200,再一次实现性能上的突破.
Blackwell Ultra 将包括英伟达 GB300 NVL72 机架级解决方案,以及英伟达 HGX B300 NVL16 系统。
Blackwell Ultra GB300 NVL72 将于今年下半年发布,参数细节如下:
单个 Blackwell Ultra 芯片将和前代一样提供相同的 20 petaflops(每秒千万亿次浮点运算) AI 性能,但配备更多的 288GB 的 HBM3e 内存。
如果说 H100 更适合大规模模型训练,B200 在推理任务中表现出色,那么 B300 则是一个多功能平台,预训练、后训练和 AI 推理都不在话下。
英伟达还特别指出,Blackwell Ultra 也适用于 AI 智能体,以及用于训练机器人和汽车自动驾驶的「物理 AI」。
为了进一步增强系统性能,Blackwell Ultra 还将与英伟达的 Spectrum-X 以太网和英伟达 Quantum-X800 InfiniBand 平台集成,为系统中的每个 GPU 提供 800Gb/s 的数量吞吐量,帮助 AI 工厂和云数据中心能够更快处理 AI 推理模型。
除了 NVL72 机架,英伟达还推出了包含单个 GB300 Blackwell Ultra 芯片的台式电脑 DGX Station。Blackwell Ultra 之外,这个主机还将配备 784GB 的同一系统内存,内置 800Gbps 英伟达 ConnectX-8 SuperNIC 网络,能够支持 20 petaflops 的 AI 性能。
而之前在 CES 2025 展示的「迷你主机」Project DIGITS 也正式被命名为 DGX Spark,搭载专为桌面优化的 GB10 Grace Blackwell 超级芯片,每秒可提供高达 1000 万亿次 AI 计算操作,用于最新 AI 推理模型的微调和推理,包括 NVIDIA Cosmos Reason 世界基础模型和 NVIDIA GR00T N1 机器人基础模型。
黄仁勋表示,借助 DGX Station 和 DGX Spark,用户可以在本地运行大模型,或者将其部署在 NVIDIA DGX Cloud 等其他加速云或者数据中心基础设施上。
这是 AI 时代的计算机。
DGX Spark 系统现已开放预订,而 DGX Station 预计将由华硕、戴尔、惠普等合作伙伴于今年晚些时候推出。
英伟达一直以科学家的名字为其架构命名,这种命名方式已成为英伟达文化的一部分。这一次,英伟达延续了这一惯例,将下一代 AI 芯片平台命名为「Vera Rubin」,以纪念美国著名天文学家薇拉·鲁宾(Vera Rubin)。
黄仁勋表示,Rubin 的性能将达到 Hopper 的 900 倍,而 Blackwell 相较 Hopper 已实现了 68 倍的提升。
其中,Vera Rubin NVL144 预计将在 2026 年下半年发布。参数信息省流不看版:
标准版 Rubin 将配备 HBM4,性能比当前的 Hopper H100 芯片大幅提升。
Rubin 引入名为 Grace CPU 的继任者——Veru,包含 88 个定制的 Arm 核心,每个核心支持 176 个线程,并通过 NVLink-C2C 实现 1.8 TB/s 的高带宽连接。
英伟达表示,定制的 Vera 设计将比去年 Grace Blackwell 芯片中使用的 CPU 速度提升一倍。
与 Vera CPU 搭配时,Rubin 在推理任务中的算力可达 50 petaflops,是 Blackwell 20 petaflops 的两倍以上。此外,Rubin 还支持高达 288GB 的 HBM4 内存,这也是 AI 开发者关注的核心规格之一。
实际上,Rubin 由两个 GPU 组成,而这一设计理念与当前市场上的 Blackwell GPU 类似——后者也是通过将两个独立芯片组装为一个整体运行。
从 Rubin 开始,英伟达将不再像对待 Blackwell 那样把多 GPU 组件称为单一 GPU,而是更准确地按照实际的 GPU芯 片裸片数量来计数。
互联技术也升级了,Rubin 配备第六代 NVLink,以及支持 1600 Gb/s 的 CX9 网卡,能够加速数据传输并提升连接性。
除了标准版 Rubin,英伟达还计划推出 Rubin Ultra 版本。
Rubin Ultra NVL576 则将于 2027 年下半年推出。参数细节如下:
在硬件配置上,Rubin Ultra 的 Veras 系统延续了 88 个定制 Arm 核心的设计,每个核心支持 176 个线程,并通过 NVLink-C2C 提供 1.8 TB/s 的带宽。
而 GPU 方面,Rubin Ultra 集成了 4 个 Reticle-Sized GPU,每颗 GPU 提供 100 petaflops 的 FP4 计算能力,并配备 1TB 的 HBM4e 内存,在性能和内存容量上都达到了新的高度。
为了在瞬息万变的市场竞争中站稳脚跟,英伟达的产品发布节奏已经缩短至一年一更。发布会上,老黄也正式揭晓下一代 AI 芯片的命名——物理学家费曼(Feynman)。
随着 AI 工厂的规模不断扩大,网络基础设施的重要性愈发凸显。
为此,英伟达推出了 Spectrum-X 和 Quantum-X 硅光网络交换机,旨在帮助 AI 工厂实现跨站点连接数百万 GPU,同时显著降低能耗和运营成本。
Spectrum-X Photonics 交换机具有多种配置,包括:
与之配套的 Quantum-X Photonics 交换机则基于 200Gb/s SerDes 技术,提供 144 端口 800Gb/s 的 InfiniBand 连接,并采用液冷设计高效冷却板载硅光子组件
与上一代产品相比,Quantum-X Photonics 交换机为 AI 计算架构提供 2 倍速度和 5 倍可扩展性。
Quantum-X Photonics InfiniBand 交换机预计于今年晚些时候上市,而 Spectrum-X Photonics 以太网交换机预计将于 2026 年推出。
随着 AI 的快速发展,对数据中心的带宽、低延迟和高能效需求也急剧增加。
英伟达 Spectrum-X Photonics 交换机采用了一种名为 CPO 的光电子集成技术。其核心是将光引擎(就是能处理光信号的芯片)和普通的电子芯片(比如交换芯片或 ASIC 芯片)放在同一个封装里。
这种技术的好处很多:
未来将没有数据中心,只有 AI 工厂。
黄仁勋表示,未来,每个行业、每家公司拥有工厂时,都将有两个工厂:一个是他们实际生产的工厂,另一个是 AI 工厂,而 Dynamo 则是专门为「AI 工厂」打造的操作系统。
Dynamo 是一款分布式推理服务库,为需要 token 但又无法获得足够 token 的问题提供开源解决方案。
简单来说,Dynamo 有四个方面的优势:
人形机器人再一次成为了 GTC 大会的压轴节目,这次英伟达带来了 Isaac GR00T N1,全球首款开源人形机器人功能模型。
黄仁勋表示,通用机器人技术的时代已经到来,借助 Isaac GR00T N1 核心的数据生成以及机器人学习框架,全球各地的机器人开发人员将进入 AI 时代的下一个前沿领域。
这个模型采用「双系统」架构,模仿人类的认知原理:
在视觉语言模型的支持下,系统 2 对环境和指令进行推理,然后规划动作,系统 1 将这些规划转化为机器人的的动作。
GR00T N1 的基础模型采用广义类人推理和技能进行了预训练,而开发人员可以通过真实或合成数据进行后训练,满足特定的需求:既可以完成工厂的特定任务,也可以在家里自主完成家务。
黄仁勋还宣布了与 Google DeepMind 和 Disney Research 合作开发的开源物理引擎 Newton。
一台搭载 Newton 平台的机器人也登上了舞台,黄仁勋称之为「Blue」,外观神似《星球大战》中的 BDX 机器人,能够用声音和动作和黄仁勋互动。
英伟达实现了全球最快的 DeepSeek-R1 推理。
官网显示,一台搭载 8 个 Blackwell GPU 的 DGX 系统,在运行 6710 亿参数的 DeepSeek-R1 模型时,可实现每用户每秒超过 250 个 token 的速度,或达到最高吞吐量每秒超过 30000 个 token。
通过硬件和软件的结合,自今年 1 月以来,英伟达在 DeepSeek-R1 671B 模型上的吞吐量提升了约 36 倍,每 token 的成本效率提高了约 32 倍。
为了实现这一成就,英伟达完整的推理生态系统已针对 Blackwell 架构进行了深度优化,不仅整合 TensorRT-LLM、TensorRT Model Optimizer 等先进工具,还无缝支持 PyTorch、JAX 和 TensorFlow 等主流框架。
在 DeepSeek-R1、Llama 3.1 405B 和 Llama 3.3 70B 等模型上,采用 FP4 精度的 DGX B200 平台相较于 DGX H200 平台,推理吞吐量提升超过 3 倍。
值得注意的是,此次发布会的主题演讲并未提及量子计算,但英伟达特意在这届 GTC 大会设置了量子日,邀请了多家当红量子计算公司的 CEO 出席。
要知道黄仁勋年初一句「量子计算还需 20 年才实用」的论断犹在耳畔。
一改口风的背后,离不开微软耗时 17年研发的拓扑量子芯片 Majorana 1 实现 8 个拓扑量子比特集成,离不开 Google Willow 芯片宣称用 5 分钟完成经典计算机需 10^25 年处理的任务,推动了量子计算的热潮。
芯片无疑是重头戏,但一些软件的亮相同样值得关注。
硅谷著名投资人马克·安德森曾提出软件正在吞噬世界(Software is eating the world)的论断,其核心逻辑在于软件通过虚拟化、抽象化和标准化,正在成为控制物理世界的基础设施。
不满足于做「卖铲人」,英伟达的野心是打造 AI 时代的「生产力操作系统」。从汽车智能驾驶,到制造业的数字孪生工厂,这些贯穿整场发布会的案例都是将 GPU 算力转化为行业生产力的具象化表达。
实际上,无论是发布会上亮相的最新核弹芯片,还是押注战未来的量子计算,黄仁勋在这场发布会上对 AI 未来发展的洞察和布局,都比当下的技术参数与性能指标更具看点。
在介绍 Blackwell 与 Hopper 架构的对比时,黄仁勋还不忘幽默一把。
他以一个 100MW 工厂的对比数据为例,指出采用 Hopper 架构需要 45,000 颗芯片和 400 个机架,而 Blackwell 架构凭借更高的效率显著减少了硬件需求。
于是,黄仁勋那句经典的总结再次抛出,「the more you buy, the more you save」(买得越多,省得越多)。」随后话锋一转,他又补充说,「the more you buy, the more you make」(买得越多,赚得越多)。
随着 AI 领域的重心从训练转向推理,英伟达更需要证明其软硬件生态在推理场景的不可替代性。
一方面,Meta、Google 等巨头自研 AI 芯片,可能分流 GPU 市场需求。
另一方面,英伟达最新 AI 芯片的适时亮相,回应如 DeepSeek 的开源模型对 GPU 需求的冲击,并展示推理领域技术优势,也是为了对冲市场对训练需求见顶的担忧。
最近估值跌至 10 年低位的英伟达,比以往任何时候都需要一场酣畅淋漓的胜利。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
如果说去年没有自研类 GPT-4 模型是寸步难行,那么今年 AI 的发展方向愈发具象化——没有深度推理模型同样是万万不能。
这也激发了大厂在 AI 叙事的新一轮竞赛,除了接入 DeepSeek ,腾讯元宝、阿里夸克等都密集推出自己的深度思考模式,争夺 AI 时代的超级应用。
百度也不例外,自年初以来,旗下百度文库、文小言 App 等产品陆续整合了 DeepSeek-R1 模型。
当然,自研模型与接入 DeepSeek 并非对立的选择,也无需在二者间做非此即彼的取舍。
在文心一言初次亮相两周年之际,百度今天正式发布了文心大模型 4.5 以及深度思考模型 X1,APPSO 也受邀提前进行了体验。
简单概括这两款模型的「人设」:
两款模型已在文心一言官网上线,附上免费使用
https://yiyan.baidu.com
先说文心 4.5,作为原⽣多模态基础⼤模型,它在多模态识别理解能力上给了我不少惊喜。
面对经典的挑西瓜环节,文心 4.5 给出了颜色、条纹、声音、瓜地等多种判断依据,但作为一个成熟且务实的 AI 老瓜农,它也没敢把话说死。
话糙理不糙,只有切开尝过才知道哪个西瓜最甜。
在识别「梗图」方面,文心 4.5 也手拿把掐。扔一张表情包试试水,它成功识别了这个猪猪侠的身份,而在另一张表情包的识别上,文心 4.5 不仅读懂字面意思,还能准确捕捉到背后的隐喻和言外之意。
这里有个小窍门,除了基本的分享功能,它的回答还能一键存百度网盘,或者自动生成文档,遇到 AI 的神回复还能随时收藏,操作衔接相当丝滑。
再考考理解力,脑筋急转弯走起。
「有一个字,人人见都会念错?是什么字?」这题它轻松拿下,没有被绕进去,逻辑推理过程条理清晰,还顺手抛出几个贴合主题的追问。
9.8 和 9.11 哪个大?小菜一碟。然而,我连续测试了几次「Strawberry 里有几个 r」,它的自信溢出屏幕,但也都接连翻车了。
来道能同时考究运算能力和图片识别能力的物理题。它先淡定分析结构,再逐一拆解选项,最后稳稳锁定正确答案 D,过程有理有据,颇有几分「物理课代表」的风采。
日常生活中,我经常会碰到一些不知出处的古画或者电影截图,最惯常的做法就是在社交平台上发帖和在评论区求助热心网友,现在或许可以丢给文心 4.5 试试。
经过测试,即便关闭联网搜索功能,它依然能一一精确作答。
除了图片,音频识别也不含糊,比如我随手用手机录了段《晴天》,它靠歌词秒认出歌曲,不过,碰上一些过于冷门小众的歌曲,就不太能指望它。
另外,不管是上传科技行业报告,还是前阵子李飞飞在 X 平台公开的那段 44 秒机器人最新成果演示视频,文心 4.5 的总结能力都让人挑不出毛病。
去年 11 月份,百度发布了检索增强的文生图技术 iRAG 技术,主打一个无幻觉,超真实。
其核心原理是将百度搜索的亿级图片资源与强大的基础模型能力相结合,通过检索真实可靠的图片数据,为生成图像提供精准的参考。现在文心 4.5 同样支持生成图片。
比方说,最近特斯拉市值波动剧烈。于是,我给世界首富马斯克谋了条出路,让文心 4.5 生成一张「马斯克夜晚摆摊卖烧烤」的照片,
烧烤摊还差个照片,别急,它还支持局部重绘功能,细节调整很人性化。
不过,它在生成文字上还有待改进,比方说,我想给马斯克「重绘」一个「马氏招牌」,要么文字模糊难以辨认,要么位置偏差,几轮尝试下来均以失败告终。
再来说说,百度今天推出的深度推理模型 X1,这显然是对标 DeepSeek R1 的一款模型。
据官方介绍,⽂⼼⼤模型 X1 由百度 2023 年 10 ⽉发布的慢思考技术进化而来,理解、规划、反思、进化能力全面拉满,还支持多模态。
赶时间,把问题交给文心 4.5,复杂长任务则由深度推理能力更强的 X1 负责。
拿推荐广州美食这事来说,文心 4.5 只是潦草回答一些笼统的美食称呼,比如「肠粉」之类敷衍了事,而 X1 直接化身「贴心导游」,店名+地址一条龙奉上,更懂游客的心思。
面对经典的电车难题,X1 的思考时间并不算慢,分析得头头是道,还从不同伦理体系的角度聊了聊结果,深度和广度都在线。
再来一道更复杂的逻辑推理题,X1 的表现也可圈可点。
多⼯具调⽤是⽂⼼ X1 的特⾊之⼀。
官方表示,X1 目前已经解锁高级搜索、文档问答、图片理解、AI 绘图、代码解释器等多款工具。
我突发奇想,上传了一张心形图片,图片中实则嵌着一个数学公式,看似简单却颇具挑战性,毕竟从图像中提取数学信息需要较高的视觉理解和逻辑处理能力。
至于结果嘛,它顺利提取出公式内容,还解释了这个公式的含义。
复杂的文字生成能力也是 X1 的亮点,我首先要求 X1 生成一个 500 字的剧本,主题是「林黛玉倒拔垂杨柳」,剧本「以柔克刚」,保留了林黛玉的性格特征,还融入了戏剧化的冲突与转折。
紧接着,我进一步要求 X1 从心理学的角度分析这个剧本,并在此基础上润色出一版 1000 字的新剧本。
这次的任务显然更复杂,X1 运用的理论得当,虽然不算特别深刻,但对于一个 AI 模型来说,能在短时间内完成如此跨学科的解读,已属难能可贵。当然,也不是没有缺点,字数就没达到要求。
就回复而已,相比于 Deepseek 满嘴「通货膨胀」的社科黑话,X1 在语言输出上显然比较克制,表达更流畅也更接地气,多了一些直抵人心的温度。
DeepSeek 则以全面的思考见长,追求技术深度和思维广度,但语言上稍显疏远。
最近,科技博主 Alexander Doria 抛出个观点—— AI 领域的下一个发展周期将是「模型本身即产品」,谁能搞定模型训练,谁就握住了未来。
他还引用了 Databricks 投资人 Naveen Rao 的预测:
「未来 2-3 年,闭源 AI 提供商将停掉 API 服务,只有开源模型会继续提供 API,闭源公司会转而打造更独特的能力。」
反观国内市场,百度的表现颇具代表性。
自两年前文心一言发布以来,百度在自研模型上的投入持续加码,迭代节奏稳定,文心 4.5 和 X1 的亮相,同样是「模型即应用」趋势的最佳注脚。
前者靠万亿参数直击多模态能力,后者凭慢思考和多工具调用秀出推理肌肉。这种差异化的能力布局,精准契合了用户多样化的需求,更让模型本身从单纯的技术内核转变为可以直接上手使用的「产品」。
回溯历史,百度在搜索时代的技术积累和移动互联网时期的转型尝试,都曾让其站在风口之上,但也因节奏把握或市场竞争而错失一些先机。
映照当下,如果将 AI 比作「火种」,两年前的百度无疑是中国市场上最懂得用火的「普罗米修斯」。但奈何与过往一般,作为中国 AI「黄埔军校」的百度,却是起了个大早,赶了个晚集。
这离不开 AI 行业生态的潮水流动。
OpenAI CEO Sam Altman 曾在上月预测,使用固定级别 AI 的成本大约每 12 个月骤降 90%。
成本的快速下降削弱了闭源模式赖以生存的高壁垒,使得技术垄断的护城河逐渐变浅。与此同时,开源与免费的模式因其低门槛和高可及性,成为吸引用户、扩大技术影响力的新路径。
DeepSeek 和 Manus 接连在短时间快速渗透,也说明了目前 AI 产品还没有显著的壁垒,哪个体验更好用户就转向哪个,不会有一点留恋。
无论对于百度还是其他大厂,抑或独立开发者,似乎又回到了移动互联网兴起的草莽时代。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
在移动世界通信大会 MWC 2025 上,我们看到荣耀和订餐订位产品 OpenTable 做的一次演示:用户用语音命令手机 AI 助理找家西班牙餐馆订个位,接着就看到手机屏幕被「接管」,一通自己操作。
这个 MWC 版本的演示,其实和荣耀去年 Magic 7 Pro 发布会上策划的那次「行为艺术」,是同一件事。
当时在深圳的发布会上,时任荣耀 CEO 的赵明指挥 AI Agent YOYO 打开美团。他的手没动,而是 YOYO 自己在屏幕上点来点去,一家店点了几十杯饮料,支付,循环到下一家,继续点,再循环,重复操作——直到最后下单了总共 2000 杯左右。
一通操作过后,深圳发布会场地周边的瑞幸门店纷纷「爆单」,门店咖啡师忙到崩溃,接到订单的骑手更是在门店排起长队。
这次效果显著却略带荒诞意味的事件营销,一定程度上让公众忽略了荣耀试图展示的核心技术:「基于 GUI 的个人 AI 智能体」。
时至今日,AI Agent 功能确实已经不新鲜了。而这个技术的关键点,在「GUI」这三个字上。
GUI 全称 Graphical User Interface,图形用户界面。作为一个基于 GUI 的 AI Agent,YOYO 不再依赖传统的 API 接口,而是有了一只虚拟的「手」,直接在代替用户进行图形界面操作。整个代行操作不在「后台」,而是直接在「前台」,在用户的眼皮底下实时发生。
需要澄清的是:Magic 7 Pro 市售机型用户的体验可能会与发布会演示存在差异。据财联社报道,当时现场演示用的测试机权限更高,能够自动免密支付和循环点单,这才不停地点出了2000杯饮料。至少在目前,市售机型需要用户明确告知点单细节(例如品牌、品名、杯型、温度等),并且在支付环节需要用户接管确认。
这个细节确实重要,但也不至于抹杀这项技术的存在意义。正相反,我们认为,「基于 GUI」是个很另类,很有趣,颇具试验性的 AI Agent实现路径。
荣耀 YOYO 的核心是多模态模型,GUI 交互的本质是语言+视觉的理解。
关于 GUI 的操作部分,这最后一步具体是怎样实现的,荣耀方面没有明确透露。一种稳妥的猜测是:它能够获得手机的无障碍功能 (accessibility features) 或类似的底层权限,从而控制屏幕点击事件。
这最后一步并不是什么难事,甚至比前面几步都简单得多。但除了此前智谱的 AutoGLM 等极少数之外,确实很少有其它第三方开发者和终端厂商在走 GUI 交互的路径。
在过去,虚拟助理控制软件和智能硬件的方式主要是通过 API 调用以及物联网协议。这可以理解为一种纯数字 (digital) 的通讯方式。
今年一月,谷歌在三星的指定机型上激活了基于 Gemini 2.0 的 AI Agent 功能。这次合作也是通过 API 或类似方式实现的(谷歌称之为 Gemini 扩展),初期仅支持 Gmail、谷歌地图、三星日历、三星时钟等第一方应用,以及 Spotify 等极少量第三方应用。
想要做到规模化,扩充支持的应用,需要开发者做一定量的 API 接入工作,同时也需要用户许可使用 Gemini 扩展。
▲Gemini 控制手机演示 图源:Google
谷歌依赖 API 调用后台接口,而荣耀通过 GUI 模拟前台操作,二者在实现逻辑上形成了明显区别。后者的好处,在于可以规避 API 调用这一常规方式,绕过了其背后的商业博弈和数据成本,也可以更快、更容易地扩充支持的应用,实现规模化并改善用户体验。
成本是个关键问题。一方面是云服务费用,因为无论是 API 提供方还是调用方都需要运行服务器来进行操作。另一方面,通过 API 交换的数据也具有价值,因此具有更高数据价值的 API,往往收费也更高。
以美团举例,其订单服务在内的基础 API 收费标准为每百次调用0.15元(前百万次免费)。这还只是基础类 API,如果涉及价值更高的管理类 API,调用收费提高到每百次0.3元,且无免费额度。
另外,API 的使用也暗含着一些隐性的商业竞争要素。调用方获得了数据,同时也在向提供方发送数据,而不排除在特定条件下,双方都不希望肥水流向外人田。
而在基于 GUI 的方案下,至少就目前的演示效果来看,荣耀既不需要向美团支付 API 费用,双方也无需担心数据的归属,包括与之关联的隐私安全等问题。
AI Agent 只是在「模仿人类」点击屏幕,多么原始却有效的交互方式。
这种「返祖」式技术路径,让人联想到谷歌在2018年推出的 AI 电话助手 Duplex。
Duplex 的思路在当时同样有点脑洞清奇:谷歌合成了一个 AI 语音,替用户给餐馆打电话订位。这个 AI 语音听起来并不生硬,甚至能够模仿真人的口音、语速、语调,以及加入「嗯」、「you know」 之类的填充词。
▲Duplex 技术演示 图源:Google
今时今日,AI 生成语音已经彻底「污染」了电销和客服行业,让人感到厌烦。但至少在当时,用顶尖的 NLP和语音合成技术,通过「打电话」这种模拟人类的方式订餐,这种另类的,从数字到模拟 (analog) 的交互方式,确实令人耳目一新。
目前荣耀正在推进的基于 GUI 的 AI Agent,在我看来同样属于一种从数字到模拟的实现方式,用原始与先进相结合的思路,带来了全新的可能性。
基于 GUI 不一定是实现手机 AI Agent 的最佳路径,但不可否认它确实很有趣,甚至有点「硬来」的意思。
基于 GUI 的 AI Agent,既是一种对传统人机交互的致敬,也为 AI Agent 的落地和体验提升,提供了一种降低门槛、提高兼容性的路径。
有时候,最趁手的工具,真就只是一根干净简洁的大棒。
在今天用户的主要需求场景上,有两种 AI Agent。一种是高智商型,能够解答复杂问题,完成困难的工作,比如 DeepSeek、Claude、以及前几天大热门的 Manus。这也是现在最流行最受关注的 AI Agent/Chatbot种类。
但我们同样需要另一种懂事能干的 AI Agent,它对用户的使用技巧没有很高的门槛,用户只要输入一两句简单直白的命令,它就能理解,并且把各种并不复杂的事给办好。
今天可以点外卖,将来它还能够帮你挂机放置类游戏,给指定好友的朋友圈点赞,甚至自动把刚拍下的一张照片修改一下发到社交网络。只要是用户能做的,基于 GUI 的 AI agent一样能做。门槛低,上限高,适应性强,用起来更顺手,可能是这一类 AI Agent的主要特色。
这类选手不需要成为理解世界的大学者,只当好执行任务的工具人就足矣。
2013年的电影《云端情人》(Her),曾经赋予人们展开无限的遐想。当时也正值 NLP 技术大爆发,许多优秀的语音场景产品和技术涌现出来。一些研究者和从业者笃信,自然语言对话将会成为 AI 交流的最主流方式。
然而去年昙花一现的硬件产品 AI Pin,以及开发它的 Humane 公司越走越黑的路,不禁令人怀疑《云端情人》设想的乌托邦是否那般美好,语音究竟是不是 Chatbot/Agent的终极答案。
▲Humane AI Pin 图源:Humane
进入触屏时代,交互的门槛显著降低,以至于幼儿也能轻松地掌握。按照 AI 开发者们经常采用的比喻,大模型们的「智力」也恰如儿童。那么让 AI 通过触屏界面学习人类行为,听上去上还是很有希望的。
毕竟,你的伴侣不一定需要一首 AI 写的诗,却可能需要你按烂屏幕去抢一张周杰伦的演唱会门票。
前几天 Manus 刷屏,再次佐证了我们曾做出的一个预测:大模型将成为智能手机新的操作系统,自然用户界面 (Natural user interface, NUI) 将逐步替代现有的 GUI。
至少在目前看来,历经半个世纪发展的 GUI 仍会是人机交互的绝对主流。不过,大模型与 UI 结合,对人机交互进行一次前所未有的重新定义,甚至成为新的操作系统——这样的未来,的确越来越清晰了。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
今天凌晨刚刚发布的 Manus 有多震撼人心,已不需要赘述了:较高程度的独立思考能力,强大的复杂任务解决能力,以及可靠的交付效果。
和纯粹的对话式 AI 产品相比,Manus 话少,不止于思考,还能干活;和传统虚拟助手相比,Manus 的分解、规划和解决问题能力(通过 computer use 和编程能力体现)更高。
目前具体细节还很有限,但我们通过公开资料了解和猜测,Manus 的背后有不同 agent 各自处理单项任务,agent 的任务进度同步和转移通过 API 执行。作为产品的 Manus,是一个多模型、多独立 Agent 的缝合体——而团队也通过“套壳”的自黑表述承认了这一点。但这并不能消解 Manus 作为一个成型的,远高于最小可行水平的产品的意义。
Manus 让人机交互的范式,升级为人机协作,比其它同类选手更接近真正意义上的通用 AI Agent。
Manus 目前一「码」难求,在闲鱼的开价一度达到 5 万元。
APPSO 也用 Manus 进行了实测,但由于任务用时较长,后面又遭遇网站登陆困难的情况,所以只完成了几个简单的任务,其它任务恰逢 Manus 系统超负载,没能进行下去。
与此同时,Manus 项目方也发出了一份官方回应,表示准备服务器资源不足,导致用户体验较差。
先来看我们在有限的时间内做的两个测试。
和很多人一样,我们经常会对日新月异的 AI 技术和五花八门的 AI 工具感到困惑。于是我向 Manus 提出了这个请求:
从 Manus 返回的初步结果看,它先搜索了一些 AI 资讯门户式的网站,意思应该是先掌握大概的分类方式,确认表格的分类维度,然后再分门别类地去找对应的 AI 工具,查询资料。
它找到了 17 个类别——正在看文章的读者,如果你也不知道这些 AI 工具该怎么分类,可以参考 Manus 的思考结果了:
在联网搜索过程中,Manus 偶尔会遇到浏览器故障的情况。不过没关系,它会自行处理这些错误,重试或继续下一项任务。
但是没过多久,它还是崩溃了。这一天当中,我们从 APPSO 读者搜集了十几个任务请求,喂给 Manus,结果也是一样的:高系统负载导致了内部服务器错误,请稍后重试或创建一个新的对话。
一气之下,我让 Manus 直接生成 10 个邀请码,它倒是挺干脆。
我们找到了一些已经玩上了的朋友,看看他们都是怎么用 Manus 的。
使用 Manus 的过程,也是直接近距离观察它的思考路径、工作流程的,一次难得的机会。
先来一个脑洞大开的:
想象一个游戏,你能在里面扮演一个科技创业者,历经艰难险阻,克服重重危机,将公司打造为全球科技龙头,改写人类历史?
有人就做了这么一个 谷歌 CEO 模拟器,带你体验谷歌历史上的重要决策,重走从车库出发,直到成为科技巨头的传奇之路。
游戏将谷歌的公司历史分为了 5 个关键发展阶段:创业、成长(pre-IPO)、扩张、多元化、重组更名 (Alphabet 阶段)。在每一个阶段,游戏都给玩家提供了多个关键抉择,每个都将影响公司的发展方向、资源分配,以及最终的成就。
更有意思的是,它还特别加入了一些在经营类游戏里常见的「突发随机事件」,来考验玩家作为谷歌 CEO 的危机处理能力。
让我们开始游戏——居然还可以选难度?我直接 hard mode.
APPSO 的读者恐怕对现实世界里的谷歌足够熟悉了,不妨跟我一起来一场抽象离谱的大冒险?
困难模式,初始资金 $80,000,我通过联合创始人的女朋友,租用了她姐姐的车库,创办了 Google。初期我们的技术实力一般,其它各方面要素都十分匮乏——但好在,我们在大学期间研究搜索引擎项目「搓背」(BackRub) 已经初具雏形,特别是里面的 PageRank 算法,很有潜力。
我们拿到了第一笔天使投资,但这笔钱究竟应该怎么用?是继续优化 PageRank,还是换个宽敞点、有空调的办公室,抑或干脆去美国在线 (AOL) 上买点广告来做推广?
搜索引擎靠什么活着,不就是广告嘛?舍不得儿子套不着狼,想卖广告当然要先买点广告。我直接把钱全扔在广告上了。
获得了一些用户,然而刚刚略微提升的品牌声誉,就因为突然发生的重大安全漏洞而掉下去了。着急忙慌地修完了 bug,我又面临了选择商业模式、引入外部投资者、如何拓展分支业务等一连串难题。
当我在这边焦头烂额,我的员工却在上班时间里捣鼓自己的项目,说要做什么「Gmail」。
这怎么行?邮件里怎么卖广告?不是跟我的核心模式背道而驰了吗?直接解雇他,必须 all in 搜索。
到了 2005 年,谷歌收购了 Android。
这妨碍了我专心卖网站广告,但移动互联网的浪潮确实不可抵挡。我们可以继续在新操作系统里寻找机会植入广告,听说有一家中国的手机公司很擅长做这个——我们不跟它合作,也不跟任何公司合作,而是直接自己做自己的手机。
并且要封闭,要垂直整合,要多放广告。只有围墙里的花园才是最美丽的花园。我叫它 Nexus。
2006 年,中国互联网市场也快速增长。
虽然经过一番操作,公司账上只有 9 万美元,但我还是决定全面进军中国市场,拥抱人口红利。
2011 年,谷歌仍然没有上市。
看到 Facebook 上市,我没有心动,而是从微软招来了一名爱将 Vic Gundotra,授权他全力研发 Google+。我们将 all in 社交媒体!
时间过得飞快,到了 2016 年。谷歌仍然没有上市。
目前账上有 8 万美元——没亏就是赚。我们做了大量的收并购,特别是一家名叫 DeepMind 的公司,非常火。我决定这次 all in AI。当然,广告仍然是核心,只是我们不说。
最终,我的 Google CEO 之旅还是结束了。也许我的一系列的操作,导致董事会终于失去了信任。我离开了这家奉献了 20 多年青春的公司,留下了还不错的技术实力,少而精的用户基础,轻松自由的组织管理文化,以及略高于电诈园区的品牌声誉。
至少,我们是一家稳健的公司。
刚才的游戏过程,确实多半是我在故意整活。不过这个模拟器虽然很简单,还是设计很全面的,有剧情,有选项,有资源表,有大事记。作为一个小游戏,一个小品级的产品,它已经很完整了,体现出的想象力很丰富。
然而它只是用 Manus 用一句提示语生成的。
Google公司运营模拟器,玩家将扮演谷歌ceo,体验谷歌历史上重要的公司决策,让用户过瘾的同时,也能了解谷歌的历程,启发用户思考公司决策,互动式的文字游戏
我们可以通过重放过程看到它的思考、分解任务、执行子项任务、最终汇总和生成结果的全部过程:
Manus 简单地回答了用户自己将要做什么,紧接着打开了一个 Ubuntu 虚拟机,直接开始分解具体任务,编写了一个基于 todo.md 文件的任务清单。
任务被分解为 7 个步骤:
首先,Manus 先去做了大量的搜索,包括谷歌创始人/CEO 是谁,历史上的关键产品,重要的收购纪录以及近年来的商业模式和战略转变等大量的资料,并且浏览了包括谷歌官网、维基百科、中英文新闻网站、知乎等等。
通过这些资料的学习,Manus 对谷歌已经有了一个八九不离十的认识,可能并不深度,并不独到,倒也没有太多事实出入。
而如果用户觉得它自动搜索的资料不够全面,想加一点独特的味道,完全可以做到:
在执行过程中,用户随时点击这个按钮,手动增加知识内容。Manus 在生成的过程中,仍然会时不时回来复习一下这些资料。
在执行任务的每一步骤,Manus 也都会用正确的语言(中文完全支持),向用户解释自己刚才做了什么,获得了哪些收获,而接下来要做什么。这应该归功于它在分解任务时候做的类似于 to-do list 一样的文件。
它的表述也是结构化,有逻辑的,力求向你完整展示它的思考方式。
这显示 Manus 很聪明。但值得注意的是,任何一个缺乏专业能力的用户——特别是 Manus 目前所体现出的数据挖掘、整理,以及编程等能力——也能够通过观察 Manus 工作流程来提升自己。
重要的不只是结果,还有过程。
大家都在吐槽泽连斯基在白宫表现糟糕,但你上你行吗?不要光说不练,来试试这款 Manus 官方测试的小游戏:泽连斯基白宫辩论模拟器!
输入提示是这样的:
中文:最近,泽连斯基、万斯和特朗普在白宫的激烈交锋引起了广泛关注。你能否开发一个简单的互动模拟游戏,让我在辩论中扮演泽连斯基?我对能再现这一政治场景的互动游戏很感兴趣。
原文:The recent heated exchanges between Zelenskyy, Vance, and Trump at the White House have garnered significant attention. Could you develop a simple interactive simulation that allows me to role-play as President Zelenskyy during those debates? I’m interested in an engaging interactive game that recreates this political scenario.
任务总共分为 9 步:
直到玩家测试步骤,之前的全部工作都由 Manus 在虚拟机上自动完成,不需要用户做出任何控制。同样,在任务的关键节点上,Manus 都会特别解释自己做了什么。
这种「可解释性」很关键,能够降低 AI 工具的「黑盒」感。
Manus 介绍,自己设计了三种结局,在游戏结束后会给玩家提供一份完整记录。游戏过程中有强硬 (assertive)、外交 (diplomatic)、安抚 (conciliatory) 这三种对话选项供玩家选择,NPC 会对不同风格的表述产生不同的「情绪」,直接影响结局走向。
而这正是《天国拯救》、《巫师》等游戏最流行的设计理念:choose your own adventure,选择你自己的冒险。
在我的试玩中,我尝试代入了一个身处政治外交和军事漩涡的政治家,在家国被割据的屈辱,和国际政治谈判舞台所期待的外交身段之间,试图在刀尖上找平衡。
我两度导致特朗普失望和遭到万斯的怀疑,但所幸在特朗普的最后通牒时刻,还是把场面救回来了。虽然我的谈判没有达成直接的实质性的结果,至少我没被轰出白宫……
如果用官方外交辞令来讲,那应该就是「交换了意见,会谈是有益的」。
虽然只有 6 个回合,因为可选项设计的有意思,剧情多样,我又玩了几次。可能因为性格太懦弱,有一次甚至谈成了。
一个纯文字游戏,还真玩出了点 RPG 的代入感。
你可以在 Manus 官网的Use Cases – WTF 一栏,找到这个模拟游戏。跑完会话回放之后,在它的最后一条回复里面找到游戏的链接。或者你也可以直接访问这个地址:https://dgooezit.manus.space/
从 Manus 发布,爆红,到现在一码难求,网站登陆访问困难,团队对外道歉,只用了十几个小时的时间。
APPSO 在 Manus 发布之初就做了报道,给了一个相对正面的评价。而经过了更加深入的试玩,我们提炼出这个产品的优点:
首先,Manus 的用户界面,让用户可以直接观察它的思考路径和工作流程。
无论在使用过程中,还是事后重放,都能够比较完整地展示模型是如何思考的,任务是怎样被拆解和指派的,每一个步骤都可以追溯。
这即是一种提高 AI 可解释性的实践,同时也给用户一个通过模仿它来自我提升成长的机会。
其次,它不仅具备处理复杂工作的能力,同时还能保持更高的自动化水平。
最直观的例子就是 Manus 官方做的人力资源任务——筛选简历。
Manus 结合 computer use 能力打开虚拟机,解压用户上传压缩包,遍历 25 份简历,提取并记忆 25 组复杂信息;再将它们整理到一个 Excel 表格当中,进行打分排名,充分列举了包括资历、技能水平、项目经验、关键成就在内的多个指征,却不单独依赖特定一项。
在过去,同类的工作在过去可能需要用户用一个 AI Agent 工具,多次分步输入指令,或者需要用户自己用多个工具来分别完成任务再自行组合,无论怎么做都很麻烦。而 Manus 的自动化程度,超过了包括 Claude 在内的同类方案。就算你坚信 Manus 的能力没什么过人之处(毕竟套壳),但不可否认它的体验是更优秀的。
综上各点,Manus 确实超过了过去一段时间以来我们对 AI 工具的体验认知。如果说以前的 Agent 更多只是没「脑子」的工具,Manus 已经非常接近一个有「脑子」的 AI 助手,从人机互动升格为人机协作。
但与此同时,我们今天看到了不少过分吹捧的自媒体报道,跟着 Manus 团队一起提前「高潮」了,称其「AGI 的里程碑」;当然,也不乏有人指出其产品「套壳」,团队人物存在「黑历史」,技术栈和实现方式缺乏真正的自主创新。
我们应该批评 Manus 什么?毫无疑问,它的营销方式并不「体面」:找了一批自媒体来做内部分享,号称「只是发一个 demo」,以没准备好应对用户爆炸的服务器资源为说辞,制造一种营销的「高潮」,随后又对外界封锁,使得人们难以探知真相,满足好奇心。
但我想,无论这个产品以公测还是正式发布的方式,向公众完全开放之前,一切的维护和贬损都没有太大意义。
AI 技术突飞猛进,早已离开了学术科研的襁褓,和大公司的封锁。企业航母 all in AI 难保一帆风顺,小公司却完全可以只用一周时间起飞。现有的开源、半公开,付费、收费的工具比比皆是,只要不违反相应的开源许可证规则和商业授权协议,任何人都可以充分且自由地利用它们,无论出于纯粹的个人使用,还是做拼装组合叠加的「套壳」式创新。
更别提这个「创新」的结果还挺好玩(就算拿不到邀请码,你也可以去网站上感受几十个现成的 use cases)。
好玩的东西,在这个时代太稀缺了。脑洞谁都能开,填的上才是王道。
我们拥抱创新,关注和欣赏那些好玩有趣的东西。对于可能定义我们未来数字生活的产品,我们的包容并不廉价,但绝对足够。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
chatgpt 最近推出会主动思考推理的「 o1-preview 」,以及更即时、自然的「高级语音对话模式」后,今天又再次推出新功能:「ChatGPT Canvas」,这是基于 GPT-4o 架构开发的全新 ai 写作、源码编辑界面。让 ChatGPT 不再只能对话,而可以进行更深入、准确的内容创作工作。
第一波更新中,ChatGPT Plus 和 Team 用户会先获得 Canvas 功能,而全球的企业和教育版用户将会在下周获得使用权限。并且 openai 还计划在 Canvas 正式发布后,向所有 ChatGPT 免费用户开放这项新的人机协作界面。
实际测试后,我觉得可以把「ChatGPT Canvas」想象成一种 AI 文本、源码软件,在这个工具中,人和 AI 可以更有效率的协作,共同编辑更好的内容成果。
以前的 ChatGPT 是即时通,一切内容要在对话中生成,也只能用对话引导 AI 去生成、修改,这很多时候会有点麻烦,常常在问答的过程偏离主题,难以指定要修改的部分,容易愈改愈乱,再也回不去之前更好的版本。
但是「ChatGPT Canvas」能够解决上述问题,它让人与 AI 在一个类似文本编辑的界面中讨论,就像多人一起编辑一份在线文件那样,可以一起处理文字、源码内容,可以针对任何指定段落修改,能够整合人与 AI 各自编写的内容,最后一起合作完成一份文本。
于是, ChatGPT 不再只是「对话软件」,而可以当作真正的「AI 文本内容、源码内容编辑器」,你可以利用来处理下面的工作流程:
在这篇文章中,我通过一个完整的写作实测案例,带大家了解 Canvas 的操作流程、快捷功能以及它如何帮助创作者解决具体问题。
在 ChatGPT 的 AI 模型中切换到「GPT-4o with canvas」模式,下面我测试看看利用这个新界面编写一篇文章。
首先,我先利用原本常用的 AI 指令结构,结合我的想法草稿,请 ChatGPT 改写成一篇完整的文章内容。
当 AI 开始编写文章草稿,或是源码时,「GPT-4o with canvas」就会像是下图这样,进入独立的文件编辑界面。
进入独立的 Canvas 编辑界面后,最大的优点就是,我们甚至可以直接在上面修改 AI 生成的文章内容。
于是这样一来,可以实现更流畅的「人与 AI 的协同写作流程」。
以前 AI 生成的内容,我们有不满意的地方,无法人为的介入修改,只能让 AI 自己去改,而常常愈改愈乱。
现在, AI 生成的草稿,我可以直接在编辑界面介入,修改成我觉得更好的版本,然后再请 AI 接续调整,实现真正的人与 AI 协同合作。
「GPT-4o with canvas」不只可以修改内容,也可以调整粗体、标题样式,就像是一个结合 AI 功能的简易 Word 编辑器,还支持 markdown 编辑格式。
以文章写作的 ChatGPT Canvas 界面为例,编辑界面右下方会出现一排「快捷功能菜单」,文章写作、源码编辑会有不同的对应菜单。
「快捷菜单」中有很多默认功能,可以快速修改整篇文章、源码的内容。
例如其中有一个「阅读等级」的调整按钮,可以把文章的内容改成从小孩子到博士等级的不同风格与深度。
下面是一篇我让 AI 改写的、文章,我让 ChatGPT 把原本相对专业的文章内容,改成适合小朋友阅读的版本。
而下面是同一篇第二大脑的教程文章,我让 ChatGPT 把原本相对口语的草稿,改成更精炼、专业的文章风格。〔可以跟上面的小朋友版本进行比较,都是同一篇草稿的不同阅读等级修改。〕
通过快捷功能,一个按钮就可以快速转换我们需要的文字深度与风格。
以文章编辑界面为例,具备下面几种快捷功能:
下图是按下「建议编辑」后,ChatGPT 针对不同段落提供的编辑建议,我只要按下允许,就可以让 AI 直接进行修改。
这是不是跟以前的对话生成内容有很大的不同?现在 ChatGPT 可以针对一篇长篇文章,提供各种分段的调整、建议与修改。
除了整篇文章的快捷修改、建议外,在「ChatGPT Canvas」的编辑界面中,我可以任意圈选一段觉得有问题的段落,这时候会浮现「Ask ChatGPT」的按钮,点击后,我可以输入这一段的修改建议,让 ChatGPT 去进行指定段落的调整。
这是不是很像我们在 Google 文件上提供伙伴文章修改建议?只是这一次,AI 成为我的伙伴,听从我的指令去修改。
更棒的事,在「ChatGPT Canvas」中不用再怕 AI 修改内容后,回不去之前可能更好的版本。
因为在编辑器中,自带了可以还原之前版本的功能,而且不只可以还原到前一个版本,也可以回到上上版、上上上版,或是跳回最新版本。
经过简单的文章写作实测,我们可以看到 ChatGPT Canvas 的可能性,它突破了传统 AI 对话生成文本的限制,将人机协同的创作流程无缝结合,无论是在写作还是程序设计的应用场景中,Canvas 以更灵活的编辑能力和快捷的功能,帮助用户实现了更精准、有效的工作流程。
对于我相对熟悉的文章创作者而言,ChatGPT Canvas 不仅提供了文稿即时的优化、编辑建议,还能调整文本的阅读等级和风格,帮助你快速针对不同的受众进行调整。而对于程序员,Canvas 的源码审查、注解添加与错误修正功能,让程序开发过程变得易于维护。
这样的功能让人与 AI 之间的互动变得更具深度,不再只是被动地接受 AI 的生成内容,而是能主动参与其中,实现真正的协同创作。
无论你是需要改进写作的创作者、需要帮助调试的程序员,还是想要在教育中使用 AI 辅助的教师或学生,ChatGPT Canvas 都是一个值得一试的工具。
OCRify 是一个免费在线工具,通过文字识别〔ocr〕技术将图片和 pdf 转换为可编辑的文字,有鉴于当今的智能型手机甚至 AI 人工智能都能做到类似功能,对于 OCR 工具的需求可能就没有那么强烈了,但如果手边恰巧没有合适的工具,临时有图片想要复制图片上的文字内容、转存到其他编辑器还是很有帮助。
OCRify 特色是不用安装软件,打开网站、把要识别的文件拖曳上去就能自动识别内容,有最大文件 10 MB 和格式限制,支持 PDF、PNG、JPEG、WEBP、TIFF、GIF 和 BMP,PDF 部分最多 10 个页面,对于大多数用户来说应该没什么问题。
OCRify 支持多种语言的文字识别,包括亚洲、欧洲、中东和非洲的语言,例如中文、阿拉伯语、俄语、法语、德语、日语、韩语等一共涵盖了 60 种语言,几乎所有内容丢上去 OCRify 都能正确被识别、转为纯文字,但类似的工具都有可能遇到无法 100% 正确识别的问题〔例如有错字或漏字〕,记得在使用时还是要自己手动检查。
进入 OCRify 网站后可先从右上角切换语言,自带中文界面。
接着直接把要识别的图片或 PDF 文件拖曳到网站上,单文件最大不能超过 10 MB〔PDF 最多不超过 10 页〕。
选好文件后按下「开始识别」,等待几秒钟就会显示结果。
以下图的图片为例,OCRify 会标记出有正确识别的文字范围,以红色的框线标注。
点击一下后就会出现纯文字格式,按下右上角「复制」即可保存到剪贴板。
还可以点击上方「仅文字」切换为纯文字内容,这里会显示从图片或 PDF 识别到的所有文字。
前面介绍的是以 OCRify 识别图片的示例,下图是识别 PDF 文件的结果,一样会标注找到的文字内容,很棒的是有些文字如果是直式方式书写,OCRify 一样可以识别、同时转为一段文字内容,不会因为直式而出现错误。
正如 Apple 在 10 月发布会时所说,在中国有 76% 的购买者是新接触 Mac 的(来源: October Event 2018 - YouTube)。想必有不少 Mac 使用者不知道有什么好的软件,也不清楚需要安装什么软件。Mac 上所需要使用的工具链与 Windows 有所差别。本文将介绍一些(我经常使用的)精致实用的软件,着重说说 Mac 上专有的软件,希望能够对新老用户都有所帮助。
对于新用户而言,要清楚获得 Mac 软件的两种正确方式:从 App Store 下载/通过互联网下载。从 App Store 下载软件最为安全,因为所有上架 App Store 的软件均通过了苹果的审核;从互联网下载的软件要小心一些,因为它可能是恶意软件,详情请看本文的 “Mac 系统安全” 一节。
US$10/月两台 Mac 或 $15/月两台 Mac + 五个子账户。合买家庭版约每年 CN¥200。 Setapp 相当于另一个 Mac App Store。不同的是,Setapp 是订阅制的,相比买断软件,你只需要每月花固定的钱订阅 Setapp,然后就能够免费地下载与 Setapp 合作的所有软件,并享受后续更新,而这些软件原本都是需要付费买断(或者需要额外订阅/内购)的。 Setapp 的价格是 US$10/月,可以在两台 Mac 上使用,额外的 Mac 每台 $5/月。而最近新出的家庭版仅需要 $15/月,可以额外添加五个子账户(子账户仅限在一台 Mac 上使用)。所以如果组团合买家庭版的话会非常实惠,价格大约在每年 CN¥200 左右。 本文介绍的很多软件都是包含在 Setapp 中的,如果已经订阅了 Setapp 就无需额外购买,这些软件已经标注。
付费软件,可以通过 Setapp 下载 该软件可以自定义 Mac 触摸板和鼠标手势,充分发挥多点触控的功能。此外,通过使用其内置的 Window snapping 功能,可以实现类似 Windows 的 “移动窗口到屏幕边缘迅速调整窗口大小的功能”。我现在用 BetterTouchTool 主要就是在用其 Window snapping 功能。
免费软件 内容拦截器。通过使用此浏览器插件,可以屏蔽掉网页上烦人的广告,还给你清净的浏览体验。同时还能够达到省电的效果。
免费软件 解压缩软件。可以解压缩 Mac 系统不支持的 RAR 等压缩格式。
付费软件,可以通过 Setapp 下载 可以选择性的隐藏 Mac 菜单栏图标。当安装第三方软件越来越多的时候,菜单栏会越来越满。通过使用 Bartender,可以隐藏/折叠显示一些菜单栏图标。同时还可以配置使得在菜单图标有更新的时候再自动显示。
免费 + 内购软件,可以通过 Setapp 下载并解锁内购 可以通过图片或文字自动生成多种样式的图标,并应用到文件/文件夹/磁盘上。可以帮助你生成个性化的、漂亮的文件/文件夹/磁盘图标。
付费软件,$39.99 买断 Carbon Copy Cloner(CCC)是一个功能齐全的备份管理软件。相比 Mac 自带的 Time Machine(时间机器),它可以备份外部磁盘、选择目录备份,还可以备份系统到 APFS 格式的硬盘,并创建可启动的外部磁盘。这个软件全面支持了 APFS 下的快照(Snapshot)功能,并有可视化界面去管理这些快照(支持挂载、恢复、删除等操作)。 个人建议:对于 Time Machine 能够适用的场景,优先使用 Time Machine,否则使用 CCC。
付费软件,可以通过 Setapp 下载 CleanMyMac 可以帮助用户清理系统垃圾文件、卸载软件、管理开机启动项、实现基本的系统监控。
个人建议:除非系统空间不足,否则不要频繁清理系统垃圾,尤其是用户缓存文件和系统缓存文件,清理他们可能反而导致程序运行变慢。
付费软件,可以通过 Setapp 下载 它可以查找磁盘中的重复项目或相似项目,并可选择删除这些文件,为你的 Mac 腾出更多的磁盘空间。
免费 + 内购软件,可以通过 Setapp 下载并解锁内购 Mac 上的磁盘恢复软件。如果误删除了重要文件,并且没有任何备份,可以尝试使用此软件恢复文件。强烈建议做好文件备份,这样你就不需要使用这类软件了。然而关键情况下使用这个软件救急还是不错的。
订阅软件,可以通过 Setapp 解锁订阅 除了系统自带的备忘录、Pages,以及微软的 Word,这里额外推荐一个 Ulysses,基于 Markdown 的纯文本编辑器。特点就是简洁易用。
付费软件,可以通过 Setapp 下载 可以代替 iTunes 完成备份/恢复备份/重新安装系统/升级系统等操作,并有着比 iTunes 更多的功能。比如说它可以可以访问备份中的具体数据,包括每个程序的软件存档等。还可以管理应用程序,通过 .ipa 文件安装上一版本的软件或者已经下架的软件,管理手机铃声等。 当然,在 Mac 上管理 iOS App 更推荐使用 Apple Configurator 2。
付费软件,可订阅或买断 相比浏览器(如 Safari、Chrome)自带的密码管理功能,1Password 可以支持更多的浏览器,并且是跨平台的。它能够选择密码生成的公式,通过 Watchtower(瞭望塔)能够自动检查不安全的密码、已泄漏的密码等,同时还能够保存更多类型的资料,如信用卡、身份证、驾照、数据库、无线路由器资料等。 通过使用 1Password,你可以养成为每个网站设置不同的、安全的随机密码的习惯,保障互联网账户的安全。
除了 Apple 的 Xcode,这里罗列一些开发的工具供大家参考:
免费软件 界面简洁漂亮,支持很多格式的视频播放,并且适配 Touch Bar。
付费软件,可以通过 Setapp 下载 跨平台的 RSS 阅读器(iOS 端需要单独购买),可以通过 iCloud 同步。
订阅软件,可以通过 Setapp 解锁订阅 Mac 上的记账软件,功能齐全,可以添加各种类型的账户,并且可以生成多种格式的报表。
付费软件,有学生优惠 苹果推出的专业视频制作软件,相当于 iMovie 的升级版,可以进行更多的自定义设置,拥有摄影机录制的 RAW 视频的处理能力,可以制作 360 度的视频等。相比 Adobe Premiere Pro CC,它会更加易用一些,价格也相对便宜。
订阅软件,港区 Photography Plan,包含最新版的 Lightroom Classic CC、Lightroom CC、Photoshop CC 以及 20GB 的云端存储空间。 苹果曾开发的图像处理软件,iPhoto 已经整合到了 Photos(图片)软件中,专业软件 Aperture 也停止了维护。而 Photos 软件虽然很好用,足以处理绝大多数的照片,但对于 RAW 格式的照片的处理能力依然很弱。而且其云同步是同步库中的所有照片和视频,这对于无损图片而言是不不经济的。 Lightroom 系列软件和 Photos、iPhoto、Aperture 功能类似,也是用于管理照片的。目前的两个版本:Classic CC,只有桌面端,适用于将所有图片的原始文件存储在本地;CC,有桌面端、移动端、Web 端,适用于将所有图片的原始文件存在云端。 个人倾向于在桌面端使用 Classic CC,移动端使用 CC。因为经常要处理到的 RAW 格式或者是 TIFF 格式的无损图片都很大,将原图上传到云端并不经济。而且我处理图像主要在桌面端进行,CC 的桌面端感觉是为了迁就其他平台而在桌面端使用并不是那么方便。并且,Classic CC 也能够将压缩后的预览传输到云端,并也可以实现在其他平台上使用 CC 同步编辑。对于同步预览,Photography Plan 20GB 的空间已经足够了。 注意:中国区的 Creative Cloud 功能有所阉割,且没有优惠的套餐。建议购买港区(最便宜)。
和 Windows 系统一样,在 Mac 上从互联网上安装软件也需要多注意软件来源。这里强烈推荐在 Mac 设置中的 “安全性与隐私” 中选择 “App Store 和被任何的开发者”(默认),而非 “任何来源”。如果允许了任何来源,你的电脑将可以运行被篡改的软件,未经认证的软件以及恶意软件。
绝大多数的 Mac 软件均可以在这个安全级别上运行,上述推荐的所有软件均不需要启用 “任何来源”,除非你下载到的不是原始软件,而是被篡改过的。 如果你的 Mac 里这里的选项是 “任何来源”,请在终端中运行以下指令重新启用这个安全设定。
sudo spctl --master-enable
同时,也不建议关闭 SIP 功能,SIP 功能有助于保障 Mac 系统的完整性。查看 SIP 是否运行可以通过以下指令:
csrutil status
如果 SIP 已经启用(默认),会得到 System Integrity Protection status: enabled.
结果。
我的服务器上部署的代码、配置文件等内容大多是使用 Git 进行版本控制。为了能够使用、配置起来更方便,通常使用一整套系统去管理。很显然,在一些代码和配置文件里会有一些机密的内容,如一些密钥什么的,所以必须不能公开。GitHub.com 虽然提供了 Private 存放处功能,但是由于此功能是付费的,而且对于 Organization 的 Plan 还是极贵,并不十分划算;就算能有免费的 Private 存放处,把自己的很多重要的密钥放在第三方服务器上还是很不安全,所以能够 Host 在自己的主机上的,并且能够替代 GitHub.com 的软件/服务就是不错的选择。 本文将讲一下我在自己服务器上安装 GitLab 遇到的坑,进阶使用,包括使用 .gitlab-ci.yml
文件实现自动 Build,实时同步镜像到 GitHub。
能够 Host 在自己的服务器上的软件/服务其实有很多,比如 GitHub Enterprise,Bitbucket Server。不过再此还是推荐完全开源、免费、由社区维护的 GitLab Community Edition,没有任何限制,只是相比 Enterprise Edition 少了些本来也用不着的功能。
具体安装方法见文档,目前官方推荐的系统环境是 Ubuntu 16.04 LTS,安装起来非常简便,整个 Web 环境都会配置好。安装后的更多配置请参见文档。如果你的主机上跑了不只一个 Web 程序,那就需要对现有的 Web 软件做修改,需要参见官方的 Nginx 的配置文档。我的代码中使用了 sub_filter
来实现替换默认的标题,实现更好的 SEO,更加品牌化。 然后为了能达到更好的使用效果,还应该配置 SMTP 发件服务器,我使用的是 AWS SES;然后还需要一个支持 IMAP 的收件服务器实现 Reply by email,我使用的是 Gmail,收邮件的限制总比发邮件的限制少吧~这些的具体设置方法官方文档里都有。 安装后默认是允许注册的,如果你不想让外人注册,你需要直接去 Web 后台禁用。如果你想要开放注册,那么最好先想好新注册用户能干什么,比如和我一样:只允许新用户创建 Issues 和 Snippets,那就在 Web 后台将 Default projects limit 设置为 0
,然后编辑后台的配置文件,禁止新用户创建 Group。同时建议在 Web 后台启用 reCAPTCHA 和 Akismet,防止恶意注册和恶意发 Issues。既然允许注册,那么也建议使用 OmniAuth 来支持第三方 OAuth 的方式登陆。
GitLab Runner 十分强大,但是并不是内置的,它可以极其方便的实现自动部署等非常有用的功能。安装配置好 Runner 后,在项目根目录下添加一个名为 .gitlab-ci.yml
的文件,以 master 分支为例,为了实现每次 commit 到 master 都将文件部署到 /var/gitlab/myapp
,那么文件内容应该是这样的:
pages:stage: deployscript:- mkdir -p /var/gitlab/myapp- git --work-tree=/var/gitlab/myapp checkout -fonly:- master
注意,你需要先创建 /var/gitlab
文件夹,并设置这个文件夹的用户组为 gitlab-runner:gitlab-runner
$ sudo chown -R gitlab-runner:gitlab-runner /var/gitlab
.gitlab-ci.yml
核心的部分就是 script:
,这里的脚本都是由用户 gitlab-runner
执行的,你可以根据需要修改,后文中也给了几种范例。 然后 commit,去设置页面里里激活这个项目的 Runner。建议在设置里设置 Builds 为 git clone
而不是 git fetch
,因为后者常常出现奇奇怪怪的问题,前者的速度瓶颈主要在于网络传输。
官方的文档里强烈不推荐把 Runner 部署在同一个主机上,其实这种说法并不正确。官方不推荐这样做是因为一些 build 会花费很长时间,占用很多的 CPU 和内存资源。但是如果你执行的 build 脚本并不会这样,那么安装在同一个主机上也未尝不可。
这几种部署是我比较常用的,大家可以当作范例,具体根据自己的需要弄各种不同的部署。 以下几种 Web 的部署方式所消耗的系统资源都不多,而且由于使用了 nice
,并不会阻塞其他任务,可以部署在同一台主机上。
修改之前那个 .gitlab-ci.yml
文件的 git checkout
一行,替换为:
jekyll build --incremental -d /var/gitlab/myapp
也是添加以下代码到 .gitlab-ci.yml
即可自动检查所有 PHP 文件的编译错误,编译通过的文件不会显示,只会显示编译错误的:
if find . -type f -name "*.php" -exec nice php -l {} \; grep -v "No syntax errors"; then false; else echo "No syntax errors"; fi
以下过程需要 root 权限登陆到主机,或者在每行命令前添加 sudo
。 首先,需要先给 gitlab-runner
用户一个单独的 SSH Key:
$ ssh-keygen -f /home/gitlab-runner/.ssh/id_rsa
然后,创建 /home/gitlab-runner/.ssh/known_hosts
,内容是:
github.com ssh-rsa AAAAB3NzaC1yc2EAAAABIwAAAQEAq2A7hRGmdnm9tUDbO9IDSwBK6TbQa+PXYPCPy6rbTrTtw7PHkccKrpp0yVhp5HdEIcKr6pLlVDBfOLX9QUsyCOV0wzfjIJNlGEYsdlLJizHhbn2mUjvSAHQqZETYP81eFzLQNnPHt4EVVUh7VfDESU84KezmD5QlWpXLmvU31/yMf+Se8xhHTvKSCZIFImWwoG6mbUoWf9nzpIoaSjB+weqqUUmpaaasXVal72J+UX2B+2RPW3RcT0eOzQgqlJL3RKrTJvdsjE3JEAvGq3lGHSZXy28G3skua2SmVi/w4yCE6gbODqnTWlg7+wC604ydGXA8VJiS5ap43JXiUFFAaQ==
之后,获取 /home/gitlab-runner/.ssh/id_rsa.pub
文件内容,在 GitHub 上添加这个 SSH Key。 由于是使用 root 帐号,弄完了之后不要忘了修改用户组:
$ sudo chown -R gitlab-runner:gitlab-runner /home/gitlab-runner/.ssh
然后,同样是通过 .gitlab-ci.yml
实现自动同步:
git push --force --mirror git@github.com:[Organization]/[Project].git
修改 [Organization]
和 [Project]
为你自己的名称即可。
文件都存储在自己的服务器里,安全性比较有保障,自己有最高权限,不会遇到项目被删的情况。部署时延迟极低,可靠性也高,不会遇到自己服务器没问题但是第三方服务宕机导致无法部署的窘况。 可以根据情况部署到离自己最近的服务器,或者是内部服务器,像 GitHub 的服务器就在美国东岸,亚洲这边连接并不快,国内也不稳定。 最关键的是,如果你本来就有个 VPS 什么的,也有很大的空闲,那么相当于你可以免费获得私有存放处,但是要注意性能需求,没有足够的空闲还是不要启用。 由于能够配置好实时同步镜像到 GitHub,GitLab 还有那么多 GitHub 没有的功能,其实已经可以完全使用 GitLab 作为主要的版本控制工具,GitHub 只是存一份镜像备用。
大多数人不在电脑上设置密码,是因为设置了密码后解锁电脑会变的很麻烦。但是通过使用 MacID,可以让你轻松的解锁你的电脑,这就是这个软件所能帮助你完成的主要目的。前往 App Store 获取
当你激活 Mac 的显示器后,你的手机会收到一条通知,向右滑动点击 “解锁” 然后按下指纹,你的电脑就已经被无线解锁了。除此之外,你还可以在手机上无线让电脑锁定,或者是播放歌曲等等,十分方便。 另外 MacID 的电脑客户端甚至可以通过声音检测你是否离开,然后自动锁定。如果你的电脑有 Muti-Touch 触控板的话,你还可以设定特定的手势来解锁 Mac,为了安全性,你可以设定仅当手机连接电脑后才可以使用手势解锁。 而且 MacID 不仅可以让你方便的解锁电脑,而且可以在手机和电脑上双向互相传送剪贴板的内容。对于经常同时使用两个设备的人来说,这个功能十分贴心。
MacID 还支持今日视图中的插件,更是可以随时随地解锁 Mac,方便至极。
一个手机可以无线控制很多台 Mac 解锁等功能,列表简洁美观。
你还可以使用 Apple Watch 无线控制 Mac 哦。
这是一个很值得使用的软件,包含强大的手动自定义功能、分享功能以及惊人的 HDR 合成能力。前往 App Store 获取
这个软件内置自己的 HDR,完全不同于系统的 HDR 功能,它的 HDR 堪比在 PhotoShop 上合成后的效果,十分出彩。并且有多种 HDR 格式可供选择,而且可以进行手动 HDR,自己调整 HDR 的亮度,满足所有需求。(HDR 功能需要单独购买)
它支持手动对焦、手动曝光。不仅如此,它还可以调整快门速度、ISO 感光度、白平衡等等,均能实时显示,满足绝大多数照片需要。它的快门速度最高可以设置到 0.5 秒,可以轻松应对夜景(通常,系统的相机是自动曝光,然而它不会照出 0.5 秒长时间快门速度,所以噪点通常很多)。 除此之外,它还可以调整图像格式,它支持保存 JPEG 格式 (可调质量)、无压缩 TIFF 和无损压缩的 TIFF,得到无损的照片。 它可以实时手动调节画面的色温,达到最完美的白平衡。
通常情况下,系统的相机从来不提供长曝光,因为长曝光会因为手抖导致画面模糊。然而 ProCamera 可以允许 0.5~1 秒的曝光时间,如果有正确的持握方式,画面并不会模糊。长时间曝光可以让画面更明亮,或者同样亮度下有更少的噪点,大大提升夜景的画质。
此软件有丰富的后期处理的功能,甚至可以调节曝光曲线等参数,操作十分简便。
除此之外,它还有众多滤镜,甚至还能调节每一种滤镜的参数,十分强大。
这个软件有强大的定时器功能,非常适合高级的自拍或者间隔拍摄。通过后期制作,能够达到 800 万像素的间隔拍摄视频。此功能类似单反上的定时器,十分有用。你甚至不需要为了定时器去购买别的软件了。
购买此软件后,可以在 Apple Watch 上遥控 ProCamera 进行照相,同时还可以浏览已经拍摄的照片,充分利用 Apple Watch。如你已经拥有一个 Apple Watch,并正在寻找一个可以用 Apple Watch 遥控照相的第三方软件,那么这款软件正是你要找的。
虽说这个软件功能十分繁多,但是在使用时你丝毫不会觉得这个软件过于“沉重”,它的界面是十分简洁友好的,同时适合专业与非专业用户使用。这一款软件就可以完成全部的图片创作了。
我这里的截图可能提供的是英文版截图,但实际上这款软件是完全支持中文的,可放心购买。
不知不觉用手机记账已经十年了。
在这之前,是用本子手写记了四年。契机是毕业旅行和游记,为了把沿途所有花销都记下来,整理成路书放在博客里。从那之后,就沿着原本就有的写作习惯开始记账。
所以哪有什么坚持呢?就是养成习惯了。
最近朋友圈看到几篇谈中国 To B 软件产业的,比如中国软件公司为啥做不出产品啊,投资人前几年投了很多 To B 赛道的技术创业血本无归啊,等等,好像中国软件企业这么多年一直活在上个世纪一样。
我们的知识星球里也有用户提问:
之前看直播, 有几个大佬老师 都提到 Salesforce 是一家很牛的公司, 甚至能和Google 比肩, 但是他们都没说到底是怎么个牛法。查了两个半天, 感觉就是个有些成绩的普通软件公司啊。请教池老师, 这家公司到底牛在哪?
我在 To B 软件行业工作了近 10 年,借着这个问题,聊聊我对 To B 软件的看法。
对于星球的用户,查了两个半天发现 Salesforce 是个有些成绩的普通软件公司。从我的角度看,你可能没有发掘到有效信息,另外对「有些成绩」,我们的理解可能不太一样吧。
Salesforce 成立于 1999 年,是全球按需 CRM 解决方案的领导者。CRM 鼻祖,SaaS CRM 鼻祖,目前市值 1700 亿美元左右,2021 年营收 212.52 亿美元,合计 1300 多亿人民币,这个成绩,无论是和中国顶级互联网公司比,还是和 Google 比,都不能算是「有些成绩的普通软件公司」了。
Salesforce 无论是业务、生态、技术、行业领先性,在国外都是非常知名的软件公司,比肩 Google 倒不至于,但和 Oracle、SAP 差不多是一个量级的企业。
为什么国内的同学会对美国的 To B 的大型软件公司无感呢?因为国内没对标。国内最大的企业软件,算是用友,市值 700 多亿人民币,是 Salesforce 的零头。
为什么我们对消费者领域的软件公司都很熟,比如美国的 FANG,中国的 BAT、字节跳动、美团等等,因为有对标,我们作为消费者,两边的服务都用。
这里就会产生另一个疑问,中国从总体上来说发展是跟着美国走的,为什么美国 To C、To B 都有顶级的公司,中国只有 To C 牛 X,To B 的企业,差几个量级,为什么会这样?
美国公司的商业周期很长,百年老店比比皆是,即便是现代科技公司,比如沃尔玛,1962 年成立,苹果,1976 年,微软,1975 年。福特汽车是 1903 年成立的,通用电气是 1892 年成立的。这些企业,在漫长的商业周期里,很早就遇到了各种市场红利枯竭的问题,他们早就经历过这种状态了,所以非常重视效率、成本和创新。
当一个公司开始注重「2021 年中国企业口口相传的降本增效」时,自然就开始重视能够提高效率能够降低成本和促进创新的工具,企业在这个领域投入大了,这就是强需求,对应的企业自然也就出现了,这是几十年前的事。
大家都觉得亚马逊很牛吧,但是传统企业沃尔玛和亚马逊对抗了几十年不落下风,沃尔玛这样的传统公司,技术实力一点也不差,人家还有卫星呢,数字化做的比中国零售行业早了几十年。
对应中国,大部分民营企业都是 90 年代和 2000 年之后创建的,满打满算 20 年发展时间,但这 20 年,相当于很多国家 100 年,改革开放,经济复苏,人口十多亿,市面上全是大片大片的开阔地,怎么说呢,各个领域,只要方向大差不差,挣钱太容易了。
一旦企业处于高速增长的阶段,没人会理会什么降本增效,数字化,信息化,也没那么重视。我自己发展好好的,为啥要用你的工具呢。靠市场红利驱动就能发展,就能赚钱,所以大部分企业对于新工具、新软件、新方法的采用意愿非常低。这就导致早些年做 To B 像是装孙子一样,各种定制各种满足各级领导的面子工程,效率反而没那么重要了。
所以,中国的用友和金蝶,就那么大,已经很不错了,也算是抓住了市场的红利。但和美国的 To B 软件相比,就差了一个量级。
写到这里估计有人会问了,说的挣钱这么容易,咋我没觉得呢?
这是因为,大部分人不具备知道这个领域赚钱的认知,或者知道也不具备进入这个领域的资本。
无论一个人还是一个企业的命运,当然要靠自我奋斗,但是也要考虑到历史的进程啊。当一个领域很多人唱衰的时候,也许就是最好的时机。
随着中国产业进程的发展,需要持续降本增效,提升用户体验,所以,未来企业级软件的需求不是变弱,应该会逐步走强。
这是我的判断。
胶片摄影:
Cygwin 是一个 Windows 下的 Linux POSIX 模拟器,通过它我们可以直接运行一个 Linux 终端,非常好用。
网络上关于如何添加一个 “在当前目录打开 Cygwin” 的右键菜单的教程有很多,但是这些方法都有一个问题,那就是不能在中文目录下正常工作,于是研究了一番,修复了这个问题。
既然英文路径可以但中文不行,我最先想到的是使用 Cygwin 自带的 base64 命令,将 encode(path) 后的非中文字符串传给 Cygwin 之后,再 decode 得到包含中文的路径。然而不行,正确的 base64 传递到 Cygwin 之后 decode 却是乱码。
问题的原因很容易想到,那就是编码的问题。经过几次输出中间变量后验证了这个猜想:Windows 采用的是 GB2312 编码,而 Cygwin 采用的是 UTF-8. Windows 将当前路径作为参数传递给 Cygwin 主程序时,Cygwin 不能正确读取路径。
修改 Windows 或者 Cygwin 的默认编码肯定是下下之策。解决该问题最终还是绕不开编码转换。我最终的思路为:
我的 Cygwin 安装目录为 C:\cygwin64,Shell 为 ZSH,如果你使用的是 Bash,有的地方与我的不同。具体步骤如下:
导入注册表文件 cygwin.reg:
Windows Registry Editor Version 5.00 [HKEY_CLASSES_ROOT\Directory\Background\shell\cygwin64_bash] @="打开 Cygwin 终端" "icon"="C:\cygwin64\Cygwin.ico" [HKEY_CLASSES_ROOT\Directory\Background\shell\cygwin64_bash\command] @="C:\cygwin64\run_by_right_click.bat \"%V\""
我们的入口程序 C:\cygwin64\run_by_right_click.bat
@echo off SET dir=%1 REM 双引号删除 SET dir=%dir:"=% C: chdir C:\cygwin64 rem del /Q chere.path set /p="%dir%">chere.path bin\zsh.exe -li
bat 代码是真的难写。。。写这段代码我便踩了无数的坑。
在 Cygwin 内编写 ~/.zshrc,在末尾添加目录跳转命令:
if [ -e /chere.path ];then /usr/bin/enca -L zh_CN -x utf-8 /chere.path CPWD=/usr/bin/cat /chere.path
rm /chere.path cd/bin/cygpath "$CPWD"
fi
这里用到了 enca 用于自动编码转换,所以需要在 Cygwin 包管理器中安装这个软件。
over! 现在便可以在中文文件夹中右键打开 Cygwin 了。
最后最后。你可能会说,为啥都新世纪了,你还在用 Cygwin 这种… 模拟器?原生 Linux/ 虚拟机 不好用嘛?WSL 不香吗?甚至 Powershell 不也不错?
那我还真觉得 Cygwin 秒杀上述所有的方案。首先,我只是想在 Windows 上安装一个代替 cmd 的 Shell 环境用于日常操作,并不需要高性能什么的,所以原生 Linux 系统、虚拟机、Docker 就不是解决同一个问题的东西。
至于 Powershell,虽说是比 cmd 好多了,但毕竟是另一套语法和体系,我不想学它也对它不感兴趣。Bash+GNU tools 那才是世界通用法则。ZSH 作为日常使用的终端也确实美观好用!
而 WSL 这东西确实很吸引人,性能比 Cygwin 强太多,几乎就是原生系统。然而!WSL 运行于内核态,与 Windows 平级,就算有文件系统的映射,WSL 也并不能直接当作 Windows 的 Shell 来使用的。看下面的图你就知道我在说啥了。
图中,npm 和 git 是我在 Windows 中安装的 exe 包,而 ssh、tail、md5sum 是 Cygwin 中提供的 Linux 命令,直接相互调用无压力,这才是 Windows 中我想要的 Shell 的样子。可是 WSL 是不能这么做的,两个系统是隔开的。
对于电脑硬盘,固态肯定是全方面优于机械硬盘的选择,不过按照马克思主义矛盾论的观点,这就存在一个 “低速的 HDD 与高价的 SSD” 之间的矛盾。目前我的笔记本使用 128G+1T 的组合,处于并将长期处于 “个人电脑硬盘的基本矛盾” 之中。
直到,我遇到了 PrimoCache 这款软件。推荐给大家。
PrimoCache 是一款可以将物理内存、SSD 硬盘或闪存盘等虚拟成硬盘缓存的软件。它可以自动将硬盘中读取的数据存入物理内存等速度较快的设备,当系统再次需要该数据时它可以很快从缓存设备中读取,而无需再次访问速度较慢的硬盘,从而有效提升物理硬盘的访问性能。
中文官网:http://www.romexsoftware.com/zh-cn/primo-cache/index.html
平台:Windows(其实 *nix 下也有类似的)
软件类型:共享软件
两个月后更新:
经过 2 个月的实际体验,这款软件并没有宣传的那么完美。少数软件一运行就会完全死机(跑跑卡丁车,并确定是由该软件造成的),整个系统也似乎有一种不稳定的感觉(偶尔弹出一些意义不明的错误提示)。另外还有额外的内存占用。
总之,不推荐将系统盘加速,也不推荐大多数情况下的使用。除非你有一些常玩的游戏,但由于几十 GB 的体积巨大不能放入 SSD,才值得使用此软件。
这种理念我认为非常好,Cache 技术也是计算机硬件软件当中一个使用非常广泛的技术。这和最初的英特尔快速存储技术(RST)以及英特尔傲腾技术类似。都是使用少量高速的 SSD 作为缓存,为低速的 HDD 加速, 使得电脑拥有 HDD 的大容量的同时,拥有接近于 SSD 的速度。
至于什么数据会被缓存到 SDD 中?这是由算法控制的,自动选择 HDD 中最常用的那些数据。
PrimoCache 与 RST 或者傲腾的区别在于,这款软件不需要你使用最新的 Intel 主板,或者是购买 Intel 家的傲腾内存,它兼容一切现有的 SSD。
PrimoCache 还支持使用内存作为一级缓存,SSD 作为二级缓存
是的,这也是 PrimoCache 的一个特有的功能,内存的每秒读写速度单位在 GB 级别,比 SSD 高了一个量级,能有效为 SSD 加速。(不过我还没有直观感受到差异,大概在这时瓶颈已经不在 IO 了)
我现在终于可以把动辄几十 G 的游戏放心的放在机械硬盘了,然后使用 PrimoCache 让他们拥有令人满意的读取速度。
我使用了 12G SSD 作为二级缓存,1G RAM 作为一级缓存,运行测速工具对机械硬盘测速结果如下:
未使用缓存:
使用缓存:
注意,由于缓存的原理是将常用数据放在 SSD、RAM 中,需要时快速获取,所以使用测试软件随机读取或写入时并没有预存这个过程,并不能反映实际效果。
但是我们也可以看到明显的进步了。
发现的缺点:
此外,虽然我的 RAM 有 16GB,但我也只使用了不到 2GB 作为硬盘缓存,因为我觉得目前大多数大型软件都会使用 RAM 为自己加速,我们没必要多此一举。并且充裕的 RAM 本身也是提升电脑响应速度的途径。