Reading view

There are new articles available, click to refresh the page.

Sam Altman 最新万字对谈:理想硬件形态是 AI 伴侣,就业冲击没那么可怕

今天,Sam Altman 在和他弟弟 Jack Altman 的对谈中分享了关于他对未来 5 到 10 年 AI 发展的预测与见解,谈话内容涵盖 AI 科研、人形机器人、超级智能、OpenAI 设备、供应链等话题,并对 Meta 挖人做了回应。

这场兄弟对谈轻松、温情且充满洞见,也让我们看到了Sam Altman「CEO 模式」之外的另一面。

讨论要点:

AI 不止是「科研助手」和效率工具,更能自主发现新的科学:
推理能力的提升让 AI 逐渐能够像博士一样进行专业领域的复杂思考,科学家们已经通过 AI 提高了研究效率。Sam Altman 认为在未来五到十年,AI 将具备更多自主科研能力,甚至能发现新的科学。

人形机器人存在技术难题,但未来乐观:
目前 AI 在物理操作领域有所进展,但真正的人形机器人在机械工程方面仍存在技术难题。不过 Altman 对此持乐观态度,他认为当能在现实世界中自由行走和执行任务的机器人出现时,人们能感受到切实的「未来冲击」。

超级智能时代,人类的自适应能力将超越想象:
人类有能力构建出极其强大的超级智能系统,但到那时,给技术给社会带来的震动可能并没有想象中那么大,人类会很快适应。同时,Altman 认为我们也无需过于担心 AI 给人类造成的就业威胁,因为人类会适应并很快创造新的工作角色。

无处不在的「AI 伴侣」是 OpenAI 的理想产品形态
Altman 描绘了 OpenAI 为消费者构建的终极产品形态——「AI伴侣」。与传统计算设备相比,未来的 AI 可能通过更直观的设备形式融入人们的生活。

打造「AI 工厂」,完善供应链是未来关键:
AI 将成为跨行业的核心技术,未来可能涉及太空探索等领域。能源问题可能通过核裂变等新技术得到解决,为 AI 提供支撑。

对 Meta 的看法:
Altman 对 Meta 在 AI 领域的竞争态度表示尊重,但他认为 OpenAI 更具创新潜力,并且其团队文化比 Meta 更加注重创新,而不是复制现有成果。

原视频🔗:https://www.youtube.com/watch?v=mZUG0pr5hBo

以下是对谈实录,编译略作调整。

不止是「科研助手」,AI 还能真正发现新的科学

Jack Altman: 我想从 AI 的未来聊起,尤其是中期的未来。短期的我兴趣不大,长期的谁都说不准,但五年、十年这个区间,我觉得最值得聊。我想让你大胆预测一些具体的东西。

我们先从软件聊起吧——目前看来最有效的应用场景是编程,或者说是聊天和编程。那接下来呢?就是「聊天+编程」之后,你觉得会出现哪些新的 AI 使用场景?

Sam Altman: 我觉得接下来会出现很多令人惊叹的新产品,比如会有一些非常疯狂的社交体验,还有类似 Google Docs 的 AI 协作流程,但效率会高得多。你会开始看到类似「虚拟员工」的东西。

但我认为,在未来五到十年的时间里,最具影响力的还是 AI 真正能发现新的科学。这听起来像是个很大胆的说法,但我认为它是真的。如果这个判断正确,随着时间的推移,它带来的影响将远远超过其他所有事情。

Jack Altman: 你为什么认为 AI 能发现新的科学?

Sam Altman: 我觉得我们已经在模型中实现了「推理能力」的突破。虽然还有很多路要走,但我们大致知道接下来该怎么做。而且你知道,o3 已经非常聪明了,你会听到有人说,「哇,这就像一个优秀的博士」。

Jack Altman: 「推理能力的突破」具体指的是什么?

Sam Altman: 就是说,这些模型现在可以在特定领域中,进行你期望一位博士能做到的那种推理。某种意义上,就像我们已经见过 AI 达到了世界顶尖程序员的水平,或者能在世界最难的数学竞赛中拿到高分,或者能解决一些只有该领域专家博士才会做的问题。

我们可能没表现出多惊讶,这其实挺疯狂的,但它确实是一件很了不起的事情。在过去一年里,模型的推理能力取得了很大的进展。

Jack Altman: 你对此感到惊讶吗?

Sam Altman: 是的。

Jack Altman:你原本以为它只是「下一次的 Token 提升」?

Sam Altman: 我原本以为我们达到现在这个水平还需要再花点时间,但过去一年的进展比我预期的快得多。

Jack Altman: 这个「推理能力」的实现过程,是你原本预想的那种方式吗?

Sam Altman: 就像 OpenAI 发展史上经常发生的情况一样,很多时候一些看起来最「笨」的方法反而奏效了。我本不该再为这种事感到惊讶,但每次发生时还是会有点意外。

Jack Altman: 所以你觉得推理能力会让科学发展得更快,还是说会带来全新的发现,还是两者都会?

Sam Altman: 我觉得两者都会。

你已经能听到一些科学家说,借助 AI 他们的研究效率更高了。虽然我们现在还没有让 AI 完全自主地进行科学研究,但如果一个人类科学家使用 o3 后效率提升三倍,那也已经是非常重大的变化了。

随着技术发展,AI 会逐渐具备一定的自主科研能力,甚至能发现新的物理学规律。

Jack Altman: 这些事情现在是在类似 Copilot 的辅助状态中发生的吗?

Sam Altman: 是的,现在的确还没到那种你能直接对 ChatGPT 说「帮我发现新的物理学原理」,然后它就真能做到的程度。目前更多还是类似「Copilot」这种辅助角色。

但我听到一些生物学家的非正式说法,比如说 AI 真的提出了一个很有潜力的想法,然后他们再进一步发展,结果真的带来了一个基础性的突破。

Jack Altman: 你觉得是让 AI 帮你创建一个完整的电商业务更容易,还是让它去完成一项高难度的科学研究?

Sam Altman: 我一直在思考这个问题——比如说,如果你给 AI 建一个价值一千亿美元的粒子加速器,然后让它负责做决策、分析数据、告诉我们该做哪些实验,我们再去执行,这是一种方式。另一种是你花同样的钱建立一个可以与现实经济系统对接的 AI 基础设施。

哪个方向更容易让 AI 实现突破性成果?我觉得物理是一个更「干净」的问题。如果你能获取新的高能物理数据,再给 AI 实验能力,我觉得这是一个更清晰、更可控的问题。

我听过一些人说,他们预计 AI 首个能自主做出科学发现的领域会是天体物理学。我不确定这说法是否准确,但原因是这个领域数据量巨大,而我们没有足够的博士去分析这些数据。

也许要发现新东西没那么难,但我也不敢说得太肯定。

Jack Altman: 好吧,所以科学会变得更强,编程和对话功能也会持续进步。那在商业方面呢?你是否也能通过一个提示词就让 AI 帮你构建一个完整的公司?比如说「我要创建一个这样的业务」,然后它就能开始操作——这种事真的会发生吗?

Sam Altman: 现在确实有人在小规模地这么做。你会听到一些故事,比如有人用 AI 做市场调研,发现一个新产品,然后发邮件找制造商生产这个东西,在亚马逊上卖,再投放广告。

这些人确实找到了在非常「草根」的方式下,用 AI 启动一个玩具规模的业务的方法,而且真的有效。所以说,确实已经有人在一步步「爬坡」了。

从大脑到身体,人形机器人的未来已来

Jack Altman: 那如果是涉及现实世界中的「实体动作」呢?比如搬运实物这些。因为在软件方面你讲得很清楚,科学方面我信你,但关于现实中物理操作这一块呢?

Sam Altman: 确实,在这方面我们还稍微有点落后。但我觉得我们终究会做到的。

比如说,我们现在有一些新技术,可能就能实现标准汽车上的自动驾驶,效果远远好于目前任何一种方法。虽然这可能不是你说的那种「人形机器人」,但如果我们的 AI 技术真的能自己去开车,那也已经非常厉害了。

当然,人形机器人仍然是终极目标,我对这个非常关注,我相信我们最终会实现它。不过,这一直是一个非常难的机械工程问题

Jack Altman: 所以难点更多在这方面?

Sam Altman: 也不完全是,两个方面其实都很难。即使我们现在已经有了「完美大脑」,我觉得我们还没有「完美的身体」。

OpenAI 早期其实也做过一个机器手臂的项目,困难的地方不在我们想象中的那种「技术难题」,而是设备老是坏,模拟器也总是有点不准。

但你知道,我们总会解决的。我相信在未来五到十年里,我们会拥有非常厉害的人形机器人,真的非常惊艳,可以在街上自由行走、做各种事情。

Jack Altman: 是啊,我觉得那将是技术飞跃真正开启的时刻。

Sam Altman: 我也这么想。那不仅会在现实世界中解锁很多新可能,而且我觉得那种体验会非常「陌生」。我们对很多技术其实已经习惯了,比如现在 ChatGPT 能做的事情,如果放在五年前听起来像是奇迹一样,但我们已经适应它了。

但如果你走在街上,看到一半是机器人在行动,你会立刻习惯这种场景吗?我不确定,也许最终你会,但那肯定是个很大的转变。

Jack Altman: 那种感觉就像是出现了一个新的物种,开始取代我们。

Sam Altman: 对,我觉得那时候的感受……可能未必真像是一个「新物种」或者说在「取代」人类,但一定会让人感觉到「未来已经到来」。而现在即便是像 ChatGPT 这么强的技术,还是没给人那种「未来已来」的直观感受。

我觉得如果我们能发明一些全新的计算设备,可能会带来这种「未来感」。虽然 ChatGPT 和这些新一代代码智能体确实非常惊艳,但它们依然局限在传统的「计算设备」形态中。

Jack Altman: 是啊,它们还是被困在电脑里。

Sam Altman: 是,这确实有点意思。AI 现在只能在电脑上做事情。但我在想,全世界的经济价值中,有多少其实是「认知劳动」——就是可以在电脑前完成的?大概有一半吧。

Jack Altman: 我本来想说大概四分之一。

Sam Altman: 我也不确定,但肯定是个很大的比例。

Jack Altman: 是啊,一旦我们拥有真正具备实体能力的智能系统,风险就会高很多。因为它们的力量也会远超人类。

Sam Altman: 我不确定是不是「风险大很多」。像制造生物武器,或者瘫痪一个国家的电网,其实都不需要「实体」智能,也能造成极大的破坏。所以从这个角度看,不一定更危险。

反倒是有一些「更荒诞的」风险,比如说我会担心一个类人机器人走来走去的时候会不会不小心摔到我家孩子,除非我真的非常信任它。

超级智能时代,人会迅速适应并创造「新角色」

Jack Altman: 那如果我们设想,十年后我们再坐在这里聊天,我们会问:AI 有没有实现我们当初的预测?你期待的衡量标准是什么?比如说 GDP 增长曲线有没有出现明显拐点?人类寿命有没有延长?贫困减少了吗?还是说会是一些完全不同的指标?

Sam Altman: 过去每年——至少直到去年之前——我都会说:「我觉得 AI 会走得很远,但我们还有很多难题要解决。」

但现在,我对 AI 的发展方向前所未有地有信心。我现在真的觉得,我们已经大致知道该怎么做,能打造出非常强大、极具能力的 AI 系统。

如果最后结果并没有带来我们期待的巨大改变,我会认为,可能是我们真的建出了超级智能,但它并没有让世界变得更好,也没有产生我们想象中的那种巨大影响——这听起来很荒谬,但确实有可能发生。

就像,如果我在 2020 年告诉你:「我们会做出像 ChatGPT 这样的东西,它的聪明程度相当于大多数领域的博士生,我们会发布它,而且世界上有很大一部分人会频繁地使用它。」也许你会相信,也许你不会。

但如果你相信这个情景真的发生了,那你大概率也会预期:「那样的话,世界一定会变得非常不一样。」可现在看来,世界的变化并没有那么剧烈。

Jack Altman: 确实如此。

Sam Altman: 所以我们现在拥有了一种非常惊人的技术。

Jack Altman: 是啊,就像图灵测试这个事一样,大家原本很关注,结果真到了那一步,反而没人太在意。我也不知道这背后的原因到底是什么。

Sam Altman: 是啊,或者说,哪怕你已经拥有了这个能为你做出惊人成果的系统,但你的生活方式其实跟两年前没什么两样,你的工作方式也差不多还是老样子。

Jack Altman: 你觉得有可能出现一种情况:我们拥有了一个超级智能,智商可能高达 400,但我们人类的生活状态却还是和以前一样?

Sam Altman: 我完全觉得这是可能的。比如它在帮我们发现新的科学,那最终社会会慢慢适应这个变化,但过程可能会非常缓慢。

Jack Altman: 有趣的是,如果这个超级智能的表现形式像一个 Copilot,那外界可能还是会把功劳归给那个实验室里的科学家,而不是背后这个「400 智商」的智能体。

Sam Altman: 我觉得这大概率就是会发生的。无论情况怎样,人类的本能都是更在意「人」本身。

我们讲故事需要有「人」的参与,我们想说的是「这个人做了某件事」、「他做出了某个决定」、「犯了某个错误」或「他经历了什么」——我们天生就需要这样的叙述方式。

Jack Altman: 这也是我感到惊讶的原因之一。我原本以为,如果我们真的拥有一个外形和动作都非常逼真的人形机器人,我们可能会开始把这些「人性化」的情感投射到它身上。

Sam Altman: 也许你是对的,我们以后会知道。我可能判断错了。我也相信,随着这些机器人越来越具备「实体感」,我们和它们之间的关系会比现在更紧密一些。

但我觉得,我们在本能上就是非常关注人类同类,这种倾向可能深深植根于我们的生物本能里。如果你知道它只是个机器人,不管它在其他方面多像人,你可能终究还是不会真正「在意」它。当然,这只是我的推测。

Jack Altman: 推理能力是智能的一部分,现在似乎已经有突破了。那还有没有其他类似「关键能力」的主题,比如说「自主性」或者「目标导向性」?这是研究方向之一吗?

Sam Altman: 我想你说的是那种:一个系统能在很长时间里坚持一个目标,并在过程中完成很多复杂步骤的能力。如果是这个意思,那我觉得确实是个重要方向。

Jack Altman: 对,我就是想表达这个意思。

Sam Altman: 是的,这确实是我们目前正在研究的方向之一。

Jack Altman: 那你怎么看未来技术发展的路径?哪些部分你觉得已经是不可逆的趋势?又有哪些你还不确定会怎么发展?

Sam Altman: 我认为我们肯定会打造出非常聪明、非常强大的模型,它们能够发现重要的新想法,能够自动化完成大量工作。但与此同时,我对如果真的实现了这些,社会会变成什么样,完全没有头绪。

我自己最感兴趣的还是模型能力的问题,但我现在觉得,可能更多人应该开始讨论的是:我们怎么确保社会能真正从中受益?这些问题反而变得越来越难回答,也越来越模糊。

就是说,这种说法听起来挺疯狂——我们可能真的解决了「超级智能」这个问题,但社会可能还是一团糟?这让我觉得有点不安。

Jack Altman: 是啊,有时候我也分不清,为什么大家对这些说法反应平平,是因为他们其实只是「半信半疑」?可能这也是原因之一。

但我同意你的看法。很多技术的发展历史都是这样:刚开始提出时大家不太相信,等真的实现了,大家又迅速习惯了。所以我也说不清这一切到底意味着什么。

Sam Altman: 我有一种感觉,就是我们在技术预测方面一直非常准确。但奇怪的是,当这些预测真的变成现实后,社会的变化却没我想象中那么剧烈。不过,说到底,这也不一定是件坏事。

Jack Altman: 那在短期内最显而易见的影响之一,应该就是就业问题吧。我们甚至不需要相信什么疯狂的未来,像客户支持这样的岗位,现在就能看到明显的变化。

Sam Altman: 是的,我的看法是:很多工作会消失,也有很多工作会发生巨大改变。

但人类一直都很擅长为自己找到新的事做——无论是谋生方式、社会地位竞争,还是为他人提供价值。我不认为这种「新角色」的创造能力会枯竭。

当然,从现在的视角看,未来这些角色可能越来越「荒谬」。

比如说,不久前,「播客博主」并不是一个「正经工作」,但你找到了变现的方法,做得很好,大家也都为你高兴——你自己也很开心。

但如果一个「靠种地为生的农民」来看这一切,他可能会觉得:这算什么工作?这不就是你在玩个自娱自乐的游戏吗?

Jack Altman: 我觉得他们可能会订阅这个播客。

Sam Altman: 我敢打赌他们会订阅。

Jack Altman: 他们会喜欢的。但我确实觉得,短期内这会是个很大的问题。至于长期,那就不好说了。

我很好奇的一件事是:过去人们都靠种地为生,而我们现在所做的很多事在当时根本没有意义。现在社会变化这么大,这一次会不会不一样?如果资源真的足够丰富了,会不会有个临界点,人们就不再创造新工作了?

Sam Altman: 我觉得这里「相对性的视角」很重要。在我们看来,未来的人们可能确实是在享受极大量的闲暇时光。

Jack Altman: 其实我们现在就已经像是在大量「休闲」了。

Sam Altman: 看看你穿着那件漂亮的、两千美元的羊绒衫。

Jack Altman: 这只是件普通毛衣啦。

Sam Altman: 哈哈,所以我觉得「相对性」这个角度真的很重要。现在我们的工作让我们觉得非常重要、压力大、也有成就感。但也许将来我们都只是在互相创造更好的娱乐内容。说不定这就是我们现在某种程度上正在做的事。

融入生活的「AI 伴侣」,或许是 OpenAI 的理想产品形态

Jack Altman: 我们聊聊 OpenAI 吧。目前 OpenAI 这边已经有了一个面向消费者的业务,显然也有面向企业的 B2B 模型,还有跟 Jony Ive 合作做的一些硬件项目,另外还有一堆潜在方向,好像也在逐渐成形。

你能不能谈谈这个「完整的体系」可能会是什么样?或者说在某个阶段它至少会是个什么样子?

Sam Altman: 我觉得,消费者最终会希望我们提供的是一种「 AI 伴侣」(目前还找不到更合适的词)。

它存在于「虚拟空间」中,通过各种界面和产品,在多个方面为他们提供帮助。它会逐渐了解你、了解你的目标、你想实现什么、你的各种信息。

有时候你会在 ChatGPT 里打字跟它互动,有时候你可能在用一个更偏娱乐的版本,有时候你会在其他集成了我们平台的服务中使用它,有时候你会通过我们新的设备来接入它。

无论在哪种形式下,这个「存在」都会帮你完成你想完成的事:有时候它会主动推送内容给你,有时候你主动提问,有时候它只是默默观察、学习,以便将来做得更好。

最终,它带来的感觉就是:「这是我的……」我们现在还没有一个完全准确的词来形容它,「AI 伴侣」只是目前最接近的说法。

Jack Altman: 你觉得我们现在使用的这些计算设备形态是不是其实是「错误的形态」?

Sam Altman: 「错误」这个词可能有点太绝对了,但我确实觉得目前的形态并不是最优解

其实从形态变革的角度来看,计算机发展史上真正重要的变革只有两次。早期当然也有一些变化,但那时你我都还没关注这些事。

在我们有记忆的年代里,有两次重大变革:一次是像我们现在使用的这种电脑——键盘、鼠标、显示器,非常强大、用途广泛;另一次是触屏设备,随身携带的那种手机和平板。

这两种形态在诞生时都没有 AI,所以你只能基于当时的技术构建用户体验,依赖不同的交互逻辑。而现在我们有了这种全新的技术,也许可以更接近科幻小说里那种理想的计算设备。

Jack Altman: 那就是,同样的智能体,在一个全新的形态中使用方式会完全不同。

Sam Altman: 没错,而且设备的形态真的非常重要。

Jack Altman: 比如说它能一直陪在你身边。

Sam Altman: 对,这就是它重要的一个原因。如果这个设备能随时跟着你走、带有各种传感器,真正理解你周围发生了什么,并能持续跟踪各种信息,同时你又能非常轻松地通过一句简单指令让它执行复杂操作——那你就可以想象出完全不同的设备形态了。

Jack Altman: 那你现在还在思考的其他组成部分是什么?比如现在我们看到:消费者在使用聊天功能,创业公司大量使用 API,还有你们正在做的设备项目。除此之外,还有哪些「关键支柱」是你在考虑的?

Sam Altman: 我觉得最重要、但目前世界还没真正意识到的一点,是把 AI 作为一个「平台」的意义——它不仅是你去接入的东西,同时它也可以被无处不在地整合进其他系统里。

比如说,当你在车里、或者使用其他网站或服务时,它都能无缝衔接。这种「持续一致性」的体验将变得非常重要。

此外,我们还有机会去创造全新的事物,比如全新的生产力工具、新的社交娱乐方式。

但我认为,「无处不在」的普及性会是这个平台最核心的特征之一。

OpenAI 可能进军太空?构建完善的「AI 工厂」供应链是关键

Jack Altman: 考虑到智能技术对各个领域都有巨大影响,而且智能本身也包含很多子模块,还有很多「堆栈之上的层级」。你之前也提到过能源问题,显然你在能源领域也很投入。其实从智能到能源之间,还有很多层,包括硬件等等。

那么你觉得,对 OpenAI、甚至对整个国家来说,这整条「技术链条」到底有多重要?是关键的吗?

Sam Altman: 我认为国家应该开始思考这个问题,或者说,世界也好、国家也好,都应该从「电子」到 ChatGPT 查询这整个过程来思考这个体系。

中间有很多环节,我现在开始把这称为「AI 工厂」。我觉得我们可以叫它「元工厂」(meta factory),因为理论上它可以自我复制。

无论叫什么,关键是我们、我们整个世界,必须构建完整的供应链。

Jack Altman: 那对 OpenAI 来说,有必要亲自参与这整条链条吗?

Sam Altman: 我觉得纵向整合在某些方面是有益的,但我们并不一定非要亲自做完全部。如果我们能确定这整件事在足够大的规模上确实会发生,那就没必要全包。所以在很多环节,我们可以通过合作来推动重大的进展。

Jack Altman: 那也就意味着不会面临「我们失去了某个关键环节」的风险。

Sam Altman: 对,正是这样。

Jack Altman: 在能源方面,我们是不是最终会消耗巨量的能源?这是最终的走向吗?

Sam Altman: 我当然希望如此。历史上,生活质量的提高最强的相关因素之一就是能源的不断丰富。我没有理由认为这一趋势会停止。

Jack Altman: 那你对气候问题有没有担忧?还是你觉得这些问题迟早都会被解决?

Sam Altman: 这是我们最不需要担心的部分了。裂变会实现,新型的裂变技术也会出现。

Jack Altman: 那你对聚变就没那么有信心吗?还是说你已经很有信心了?

Sam Altman: 我从不说「百分之百确定」,但我可以说我很有信心,非常有信心。

Jack Altman: 而它将成为未来能源的大部分来源?

Sam Altman: 我觉得是的。不过,下一代的裂变技术也真的很厉害。我了解的一家公司叫 Oklo,他们做得不错,还有其他一些公司也在做很棒的工作,这是一个巨大的突破。

太阳能和储能系统看起来也不错,但我真心希望人类未来的能耗远远超过地球上目前能产生的能源。即使我们完全转向聚变能源,一旦地球的能耗被放大十倍、一百倍,最终也会因为废热把地球加热得太厉害。但好消息是,我们拥有整个太阳系。

Jack Altman: 你不觉得我们聊的这些事情,实际上意味着「太空」不仅非常重要,而且我们进入太空的可能性也越来越大了吗?

Sam Altman: 从整体来看,是的。我们会进入太空吗?我希望会。如果最终没有,那就太遗憾了。

Jack Altman: 挺有趣的,我是不是该去创办一家火箭公司?我之前就跟你说过,我觉得你应该去做点什么新公司项目,其实有一大堆方向你都能试试。

Sam Altman:

我还是有点喜欢专注于一件事,而且我现在已经挺忙的了,还有家庭要照顾。

回应 Meta 挖人:「Meta 并不是一家擅长创新的公司」

Jack Altman: 其实我能问问你关于 Meta 的事吗?就关于他们的动态和你们之间的关系。

Sam Altman: 可以啊。我听说 Meta 把我们视为他们最大的竞争对手。我觉得他们继续努力是理性的选择,虽然他们目前的 AI 进展可能没有达到预期。

我尊重他们这种有侵略性的态度,以及不断尝试新方法的精神。而且既然这是理性的,我也预期如果这次不成功,他们之后还会继续尝试的。

我记得有一次听 Zuck 说,早期 Facebook 刚起来时,Google 开发社交产品是理性的,虽然当时 Facebook 内部都很清楚那是行不通的。我现在有点类似的感觉。

他们最近开始向我们团队中的一些人开出非常高的报价,比如说开出 1 亿美元的签约奖金,甚至年薪还要更高,简直疯狂。

但我真的很开心的是,到目前为止,我们最优秀的那些人都没有接受他们的邀约。我觉得人们在比较这两条路时,会认为 OpenAI 在实现超级智能上有更大的可能性,长远来看也可能成为一家更有价值的公司。

我觉得那种「开出大量前期保证薪酬」作为说服人才加入的策略——他们居然把重心放在这个,而不是工作本身、使命本身,这真的让我很惊讶。我不认为这种方式能建立起一个好的文化。

我希望我们能成为全球最适合做这类研究的地方,而且我认为我们确实为此打造出了一种非常特别的文化。

我们目前的设定是:如果我们成功了——我们研究团队的所有人都相信我们有很大的可能成功——那么大家在经济上也都会获得丰厚回报。

而且我觉得我们现在的激励机制,是跟「使命优先」相一致的,经济回报和其他一切都顺其自然地从使命出发,这样的机制是健康的。

Meta 有很多我尊重的地方,但我并不认为他们是一家擅长创新的公司。与之相比,我觉得 OpenAI 的特别之处在于:我们成功建立了一种以创新为核心的文化。

他们可能擅长「可重复的创新」,但我认为我们理解了很多他们尚未掌握的东西——比如要实现真正的技术突破,到底需要什么。

不过说实话,这段经历对我们的团队来说反倒是一种「澄清」——让我们看清了方向。我们祝他们好运吧。

Jack Altman: 是啊,我想这也涉及到一个核心问题:你认为迄今为止的 AI 成果是否足够让别人通过「复制」就能成功?还是说,真正的创新还在前方?

Sam Altman: 我不认为「复制」就足够了。

我看到很多人——包括 Meta ——他们在说,「我们就去复制 OpenAI 吧。」真的就是这种心态。

你看看现在很多其他公司的聊天产品,它们和 ChatGPT 长得几乎一模一样,甚至连我们当初犯过的 UI 错误都照搬,简直让人难以置信。而他们在研究上的目标也只是想赶上我们当下的水平。

这是我在 YC(Y Combinator)时期就学到的一课:这种策略基本上从来行不通。你只是在追赶竞争对手过去的成果,但你没有建立起一种「持续创新」的文化。而一旦你陷入这种状态,要再爬出来就比大家想象的难得多。

Jack Altman: 你们是怎么做到这两者兼顾的?就是既是一家高度商业化的公司,同时又是一家非常重视研究的公司?这种模式其实没有太多成功的先例。我理解你们在商业化之前是怎么做的,但现在你们已经兼顾了商业和研究,而且看起来还运转得不错。

Sam Altman: 我们在产品这块其实还是比较「新」的,我们还需要不断努力,来真正配得上「运转得不错」这个评价。

我们确实在不断进步,也做得越来越好。但你看大多数科技公司的发展历史,通常是一开始就是一家产品导向、运营良好的公司,然后后来再「附加」一个运营不善的研究部门。

我们正好相反,我们是我所知道的唯一一个反过来的例子:我们一开始就是一家非常优秀的研究机构,后来「附加」上了一个最初运转不太好的产品部门,现在越来越成熟。

我相信我们最终会成为一家伟大的产品公司,而我也为团队在这方面所做的努力感到非常自豪。但你看,2 年半之前我们还只是一个研究实验室而已。

Jack Altman: 真不敢相信那才刚过去两年半。

Sam Altman: 是啊,我们这两年半里要把整个大公司搭建起来,真的是很不容易。大家做的事简直太了不起了。ChatGPT 是在 2023 年 11 月 30 日发布的。

Jack Altman: 确实如此。而且显然,组建一个会做公司的人要比找一群能搞顶尖 AI 研究的人容易得多。

Sam Altman: 但依然很难。大多数公司要建立这样规模的产品体系,花的时间都比 2 年半多得多。

Jack Altman: 那你觉得为什么 Meta 会把你们当作那么强的竞争对手?我理解他们可能觉得 AI 是整个未来的关键,但仅凭这一点就够了吗?

Sam Altman: 这可能就已经足够解释了。有个以前在 Meta 工作的人跟我说过一句话:「在外界,大家把 ChatGPT 当成是 Google 的替代品;但在 Meta 内部,大家把 ChatGPT 看作是 Facebook 的替代品。」

Jack Altman: 因为人们现在把大量时间都花在和它对话上了。

Sam Altman: 是啊,他们跟 ChatGPT 聊天的方式,原本是会在其他地方进行的,而且他们更喜欢这种方式。

Jack Altman: 这其实就是在抢「注意力资源」了。

Sam Altman: 这其实不是单纯的「时间竞争」问题。

当然也有时间上的竞争,但更重要的是,人们在网上「末日刷屏」(doomscrolling)的时候,会感觉自己变得更糟——虽然当下可能有点快感,但从长远来看,那是在让你感觉越来越糟,尤其是对自己越来越不满意。

而我们特别自豪的一点是,当人们谈到 ChatGPT 时,他们会说:「它让我感觉自己更好」,它在帮我实现目标,它在真正帮助我。这可能是我听过关于 OpenAI 最暖心、最好的评价之一:有人说,「这是我用过的唯一一家不会让我觉得它在‘对抗我’的科技公司。」

Google 会展示一些很糟糕的搜索结果,还强塞广告(虽然我很喜欢 Google,也喜欢这些公司,我不是说他们一定错了);Meta 会试图「入侵我的大脑」,让我不停地往下刷;Apple 做了我喜欢的手机,但它不停地发通知,分散我注意力,我还戒不掉。

而 ChatGPT 给人的感觉就是:它只是想帮我完成我想做的事情。这种感觉真的挺好的。

Jack Altman: 那有没有可能做出一种「社交产品」,既有互动性,又保留这种能量和正面体验?

Sam Altman: 我好奇的一种版本——虽然我还不确定这意味着什么——是这样一种「信息流」:它默认是空的,不会主动推送什么,但你可以提示它,比如说「我最近想健身,你可以推一些对这个有帮助的内容吗?」或者「我想多了解一些时事新闻,能不能给我一些中立、不过度煽动情绪的信息?」

这样的系统显然不会像现在的算法推荐那样让人沉迷、花更多时间,但我觉得这会是一个很酷的方向——一个真正「对齐」的 AI,帮助你实现你长期真正想要的社交体验。

我感觉自己每天早上醒来的时候,就像是一个被充满能量重启的人,知道自己想要什么,有很好的意图,也愿意对今天做出承诺。但随着一天展开,生活的节奏就开始疯狂袭来。到晚上 10 点,我可能会想:「我本来不打算喝酒,但就喝一杯威士忌吧。」或者「我不想刷 TikTok,但刷个两分钟应该没关系。」我同意,不该把自己逼得太紧。但如果我能一直保持「早晨的自己」,如果技术能帮我实现那些我真正想做的事情,那我想我会变得很棒。

Sam Altman:OpenAI 对我而言不只是「重要的工作」,更是「有趣的谜题」

Jack Altman: 我十年前还跟你住过一段时间。当时你还在管理 YC。我那时就觉得你很有「掌控力」(agency),你想做什么就去做,完全不受条条框框限制。但我觉得,从那之后,尤其是最近几年,感觉你真的是「完全没有规则」了。

你看你做 Stargate 项目,和 Jony Ive 合作……这些事都非常大胆。我好奇,你是不是在思维上有什么转变?有没有什么你能明确指出来的东西,促使你变成现在这样运作的人?

Sam Altman: 我觉得我们奶奶以前常说的一句话很对:「变老最棒的一点就是,你会越来越不在意别人怎么看你。」我现在真的有这种感觉。我也经历了很多风口浪尖,但确实,年龄增长让你更自由,更少顾忌他人的评价。这是一种释放。

Jack Altman: 你现在还有一些事情是会犹豫不决的吗?或者说,你觉得你还有更高一层的「行动力」可以发挥出来吗?有没有一些想法你会想:「我其实想做这个,但某种原因让我暂时放下了」?

Sam Altman: 这是我本来想说的第二点:随着 OpenAI 拥有越来越多的资源和潜力,我们确实能做的事情也越来越多。当然,还是有很多我想做但现在做不了的事,比如我想在太阳系建一个「戴森球」,把整个太阳的能量输出都用来建一个超级巨大的全球数据中心。

但显然,这事现在还做不了,可能得等几十年。但整体来看,我们确实已经有能力去做更多、更有野心的事情了。

Jack Altman: 那当你面临很多选择时,你是怎么做决定的?这其实就是「选择过多的困扰」吧。你现在可以去做火箭、搞社交网络、玩机器人……你可以为所欲为。那你是怎么从这么多选项中做出取舍的?

Sam Altman: 说实话,我现在的时间已经完全被榨干,根本没有多余的精力去做别的事情,这一点怎么强调都不为过。

而且我本来就没打算经营哪怕一家公司,更别说一堆公司了。我原本只是想当个投资人而已。

Jack Altman: 你会说,整体上你是真的喜欢现在这份工作吗?虽然它可能远远超出了你最初的预期。

Sam Altman: 我觉得非常感恩,非常幸运。毫无疑问,将来我退休以后一定会想念这段时光,到时候我可能会说:「唉,现在真是太无聊了。」

Jack Altman: 而且这段经历真的很酷,也非常重要,对吧?

Sam Altman: 是的,这份工作带来极大的满足感。我觉得自己能做这件事真的超级幸运。我确实非常喜欢,几乎大多数时候都很享受。

但老实说,这段时间确实非常非常激烈,有点压倒性。我经历了比我原本想象中更猛烈、更多的「风口浪尖」。

Jack Altman: 这其实也不是你一开始设想的路径。大多数人创业做软件公司的时候,预期的就是做一家软件公司。但我觉得你当初肯定没预料到会变成现在这样。

Sam Altman: 这本来应该是我「退休后的工作」,只是想经营一个小型的研究实验室而已,是这样的。

Jack Altman: 而且在很多平行世界里,这一切根本不会发生,对吧。

Sam Altman: 对,没错。

Jack Altman: 抛开你是不是喜欢它,也不谈你花了多少时间,你在体验这份工作的时候,是觉得它很「沉重、重要」,还是像一个有趣、好玩的谜题?

Sam Altman: 这两种感觉我都有,而且是同时存在的。

从社会影响力的角度,或者说它的潜在影响来看,这很可能是我一生中接触过最重要、最具影响力的工作。

我不想显得太自我陶醉,但也许这份工作确实在某种程度上是具有历史意义的。当我有时间静下来思考时,我能意识到这一点。但在日常工作中,更多是处理一些「琐碎的事情」,而我其实很享受这些琐碎。我很喜欢和我共事的人,做这些事情本身也很有趣。

当然,有些部分确实压力山大、甚至挺痛苦的,但整体上说,它更像是一个「有趣的谜题」,而不只是「重要的工作」。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Claude 4 核心成员:2027 年,AI 将自动化几乎所有白领工作 | 万字对谈

AI coding 这条 AI 行业今年的主线,在最近这段时间愈发清晰。

除了上周刷屏的编程新王 Claude Opus 4 ,新版 DeepSeek R1 也把更新重点也放在了代码能力,不久前 OpenAI 还以 30 亿美元收购 AI 编程助手 Windsurf,随后就发布了编程智能体 Codex。

这几天,原 Kimi 产品负责人明超平,在和京东打仗的美团,都官宣了 AI 编程相关的产品。

Reddit 上一位拥有 30 多年经验的 C++ 开发者发帖表示,Claude Opus 4 解决了一个困扰他四年的 Bug,而且是他用过的第一个能做到这件事的 AI。

为什么 Claude 在编程上的表现如此突出?现在提到 Anthropic,大家几乎就默认它是一家「做编程模型的公司」了。但对他们自己来说,这一代模型的真正突破点在哪?未来又会怎么走?

几天前,Claude Opus 4 核心研究员 Sholto Douglas 参与的一场播客对谈,详细回应了这些问题,信息量很大,值得一听。

核心讨论点(省流速看版):

Claude Opus 4,有哪些真正值得关注的突破点?

首先是能力升级得非常均衡。

一方面,它的代码执行力显著增强,不仅能理解复杂需求,还能独立查找资料、运行测试、调试错误,真正具备了「从头跑到尾」的能力。另一方面,任务时间跨度也被显著拉长,支持多步骤推理与操作,这意味着它不仅聪明,还很能坚持。

而在架构上,Claude Opus 4 加入了工具调用与长期记忆模块,使得它能够处理更具上下文连续性的任务。从代码助手,迈向了具备「解决方案设计」能力的智能代理。

当然,天花板也不是没有。

团队坦言,完成任务的智力复杂度没有明确的上限——难点在于,如何扩大模型能感知和操作的上下文范围,使其能够使用多种工具、记住更多关键信息。

未来怎么走?

Sholto Douglas 在播客里提到了几个明确的方向:

  • 强化学习(RL)将持续推动模型在连续任务中的表现;
  • 代码代理将能连续运行数小时,人类只需偶尔干预;
  • 模型可能成为知识型岗位的「虚拟远程员工」;
  • 若自动实验室与机器人平台建设跟上,模型可参与真实物理任务,如生物实验或制造。

但有个前提是:智能代理的可靠性必须跟得上。

虽然现在还做不到 100% 成功,但在限定时间内,成功率在稳步上升。预计 2025 年底,编程类智能代理有望实现「几个小时稳定跑」,人类只需偶尔检查。

那除了写代码呢?

编程只是模型能力的「领先指标」。医学、法律等专业领域还在等待数据与工具的完善,一旦准备就绪,同样会迎来快速突破。目前的瓶颈,不在 AI 本身,而在现实世界的验证机制和基础设施。

到 2027–2030 年,模型几乎可以自动化所有白领工作,但如果没有匹配的实验室和现实反馈机制,那就是「能力强、落地难」。

怎么判断模型是不是真的进步了?

团队提到,好的评估系统(Evals)尤为重要。它不仅测技术指标,更强调评估者的专业知识与品味。这也是为什么,模型评测这件事,门槛越来越高。同时,也需要用户不断使用、互动和反馈,形成真正的「共进化」。

实验室 vs 应用公司,谁占上风?

Douglas 认为,实验室通过开放 API 带来机会,但核心优势仍在:

  • 算力转化能力;
  • 模型的“可雇佣性”和用户信任;
  • 更高的个性化理解力。

实验室像「智能引擎」制造商,专注能力极限;应用公司更擅长落地和用户体验。未来,二者之间会有越来越多的交叉、融合与竞合。

那模型公司会不会因为成本和底层优势,让其他公司无路可走?Douglas 的看法是:

不会,相反这恰恰带来了活力。

他认为,所有的护城河终将被打破,真正重要的是:客户关系、任务编排、整合体验。

最后一个关键词:「对齐」

随着模型能力提升,「对齐」问题愈加重要。Anthropic 正推进可解释性研究,试图「看懂模型在想什么」。强化学习虽能提升能力,但也可能破坏已有的对齐机制,未来需依靠高校、政府与更多研究者共同推进「对齐科学」。

原视频链接:https://www.youtube.com/watch?v=W1aGV4K3A8Y

以下是访谈实录,APPSO 编译略作调整。

主持人:Sholto Douglas是Anthropic Claude 4 模型的核心成员之一,这次和他聊得非常尽兴。我们聊了很多话题,包括开发者如何看待Anthropic这一代新模型的发展趋势。我们讨论了这些模型未来 6 个月、12 个月,甚至 2 到 3 年后的发展走向,也谈到了构建可靠 AI 代理所需的关键因素,以及这些模型在医学和法律等专业领域何时能取得像编程领域一样的突破。此外,Douglas 还分享了他对「对齐研究」的看法,以及他对「AI 2027」预言的反应。这是一场精彩的对话,相信大家会喜欢。

Claude Opus 4 的重要突破和未来可能

主持人:这期播客上线时,Claude 4 肯定已经发布了,大家应该已经开始体验它了。我很好奇,你是最早接触这些模型的人之一,哪方面最让你兴奋?

Douglas: 这确实是软件工程上的又一次飞跃。Opus 模型真的在这方面表现得非常出色。我经常会遇到这样的时刻:我向它提出一个非常复杂的任务,涉及我们庞大的代码库,它居然能几乎完全自主地完成任务。它会自己去查找信息、理解需求、运行测试,整个过程非常独立高效。每次看到这种表现,我都觉得震撼。

主持人:每次有新一代模型出来,我们都得重新调整自己的认知模型,去判断什么方法有效,什么不行。你在编程中对这些模型的使用和理解有发生什么变化吗?

Douglas: 最大的变化我觉得是时间跨度(time horizon)方面的提升。我觉得可以从两个维度来理解模型能力的提升:一个是任务的智力复杂度,另一个是它们能够有意义地推理和处理的上下文量,或者说连续动作的数量。这些模型在第二个维度上提升特别明显,它们真的能执行多步操作,判断需要从环境中获取哪些信息,然后基于这些信息采取行动。再加上它能调用工具,比如 Cloud Code,就不只是简单地复制粘贴了,执行力更强了。现在我能看到它连续工作好几个小时,效率相当于人类连续劳动。

主持人:那你觉得第一次使用 Claude 4 的人,应该从什么开始尝试?

Douglas: 我觉得最好的方式是直接让它参与到你的工作中。比如你今天打算写什么代码,就直接让它帮你做,观察它怎么判断信息、怎么决定下一步。我保证你会被它的表现惊艳到。

主持人:这代模型更强了,也有不少人打算用它来构建产品。你觉得对开发者来说,新的可能性在哪里?

Douglas: 我一直很喜欢「产品指数增长」(product exponential)这个说法。开发者需要不断超前模型能力去构思产品。像 Cursor、Windsurf、Devon 这些例子很典型。Cursor 在模型能力还不够强时,就已经开始构建未来编码体验,直到 Claude 3.5 和 Sonne 出现,他们的愿景才真正落地。而 Windsurf 更进一步,占据了部分市场。他们的成功就是抓住了这个指数增长窗口。

现在你可以看到 Claude Code、新的 GitHub 集成、OpenAI 的 Codecs、谷歌的编码代理等等,大家都在围绕「编码代理」这个概念发力,目标是实现更高的自主性和异步操作。未来,可能不再是你每分钟操作一次,而是你像管理一个 AI 模型舰队一样,多个模型各自承担任务并协同工作。我觉得这个方向非常值得探索。

主持人:你见过类似那种「多模型并行协作」的场景吗?会是什么样子?

Douglas: 我认识很多在Anthropic的朋友,他们会同时在不同环境里跑多个 Claude Code 实例,看起来挺酷的。但说实话,现在还没人真正搞清楚这种操作该怎么做。这其实是在探索人类的「管理带宽」(management bandwidth)能有多大。我觉得这是未来经济发展的关键问题之一:我们该如何衡量模型的生产力回报率?一开始我们还是得人工检查模型的输出,这意味着模型的影响力会被人类管理能力所限制。除非有一天我们可以信任模型去管理模型,这种抽象层级的升级会非常关键。

主持人:所以说,如果你是每 15 分钟检查一次模型,跟每小时、每 5 小时检查一次,那你能管理的模型数量会差很多?

Douglas: 对,黄仁勋说过类似的话。他说自己被十万个超级智能 AGI 包围着,拥有巨大的杠杆力。他还说自己是 Nvidia 管理链条上的「控制因子」。我觉得未来可能真会往这个方向发展。

主持人:说不定未来最重要的行业就是「组织设计」本身了。

Douglas: 对,包括如何建立信任、组织结构会有多复杂,这些都值得深入思考。

秘密武器:时间跨度拉长,RL驱动智能代理升级

主持人:你之前在 McKinsey 工作过一年,咨询行业是不是也可以基于这些模型发展出新产品线?我也挺认同你刚才说的:应用公司得比模型进步快一步。像 Cursor 起初产品落地难,但模型能力一到位就爆发了。那你觉得,「领先一步」具体意味着什么?

Douglas: 就是不断重塑你的产品,让它始终对接几个月后模型的最新能力。同时你还要保持和用户的紧密联系,确保产品已经在用,但还能吸收更先进的模型功能。

主持人:我觉得这个就是秘诀——如果你还在等模型再提升点再动手,别人可能已经把用户抢走了。你们在记忆、指令执行、工具使用这些方面都做了不少突破。你能简单总结一下目前各方面的进展吗?哪些成熟了,哪些还在探索?

Douglas: 一个理解过去一年进展的好方法是:强化学习(RL)终于在语言模型上真正发挥作用了。模型能解决的任务智力复杂度基本没有天花板,比如它们能搞定复杂的数学和编程问题。但这些任务大多在受限上下文里完成的。记忆和工具使用的挑战,其实在于扩大模型能感知和操作的上下文范围。

比如像 MCP(Model Context Protocol)这类机制,让模型可以与外部世界交互,记忆则让它处理更长时间跨度的任务,也带来了更个性化的体验。这些进展本质上都是在构建「智能代理」的关键能力链。顺便一提,宝可梦评测(Pokemon eval)就是一个挺有趣的实验方式。

主持人:我小时候可是游戏迷。我觉得这是个很棒的评测,希望你们能和这个模型一起发布。

Douglas: 确实,这次评测特别有趣。模型并没有专门训练玩宝可梦,但它依然能很好地完成任务,展现出很强的泛化能力。这种任务虽然不是完全陌生的,但和它以前做过的都不一样。

主持人:我还记得游戏里有很多阶梯和迷宫,模型也能帮你过关。

Douglas: 没错,我特别喜欢的另一个例子是我们最近做的「可解释性代理」。它原本是一个编程代理,但却能自动学习、使用神经元可视化工具、进行自我对话,试图理解模型内部结构。它甚至能通过一个叫「审计游戏」的安全评测——找到模型故意设置的错误点,自己生成假设、验证问题。这种工具+记忆下的泛化能力,真的非常精彩。

智能代理的命门:可靠性

主持人:听起来智能代理真的越来越强大了。你以前也说过,VA代理的关键是「可靠性」。你觉得我们现在在哪个阶段了?

Douglas: 从「在一定时间内的成功率」来看,我们已经进步很大了。虽然还没达到 100% 的稳定性,模型第一次尝试和多次尝试之间仍有差距。但从趋势上看,我们正在朝「专家级可靠性」稳定迈进。

主持人:那你觉得,什么情况会让你改变这种乐观的看法?

Douglas: 如果明年中模型在任务持续时间上遇到瓶颈,那值得警惕。比如,编程是个很好判断进展的领先指标——一旦它开始下滑,说明可能有结构性问题。当然,也可能是数据太稀缺,比如「像人一样用软件」这类任务训练起来很难。不过我们现在反而看到这类任务的惊人进展,所以整体看我还是很乐观。

主持人:那你觉得我什么时候能有一个「万能助手」,可以替我填写各种表格、上网查资料之类的?

Douglas: 「个人行政助理代理」是个热门话题啊,谁不想把琐事交给 AI 呢?不过这件事还真得看情况关键是模型有没有练习过类似情境。你不能随便找个人来做财务工作,对吧?但如果它是受过训练的「虚拟会计师」,那就靠谱多了。所以任务是否靠谱,很大程度取决于训练背景。如果进展顺利,今年底我们就能看到这些代理在浏览器里操作任务;明年基本就会成为标配。

主持人:挺令人期待的。你们模型在编程方面的表现这么突出,是特意优先训练的吗?现在大家一提Anthropic,就会联想到「编程模型」。

Douglas: 确实。我们非常重视编程这个方向,因为它是加速 AI 自我研究的关键路径。我们也投入很多精力在衡量编程能力的进展上。可以说,我们就是刻意聚焦在这一块。

主持人:那这些代理现在已经在加速 AI 研究了吗?

Douglas: 在我看来,确实如此。它们显著提升了工程效率。就连我认识的一些顶尖工程师也说,在熟悉的领域里,效率提升了 1.5 倍;但在不熟悉的领域,比如新语言或生疏内容,提升甚至达到 5 倍。所以在「跨界」时,帮助更明显。关键在于:你是否认为我们现在的瓶颈是算力?如果不是,那让 AI 代理参与研究,相当于扩充了一整个研究团队,效率提升是数量级的。

主持人:我猜这些代理主要还在处理繁琐任务,帮你省下时间思考更重要的问题。那么它们什么时候能开始主动提出有价值的研究思路呢?

Douglas:现在主要还是做工程类任务,但已经开始有些创意冒头了。我不敢说三个月内会爆发,但两年内我们应该能看到它们提出越来越有趣的科学性想法。当然,这也取决于是否有良好的反馈机制。就像人一样,模型也需要通过练习和试错,在复杂任务中掌握知识,最终实现高质量产出。

主持人:是因为这些领域相对来说更容易验证对吧?会不会出现这种情况—— AI 在编程上突飞猛进,但在医学、法律这些不容易验证的领域却没什么进展?

Douglas: 确实有这个风险。但好消息是,机器学习研究本身验证门槛也很低,比如「损失值有没有下降」就是个很明确的指标。只要模型能在 ML 研究中提出好点子,那它就掌握了一个非常强的 RL 任务,比很多软件工程任务还适合 AI 。医学这类领域虽然难验证,但也在进步。OpenAI 最近做了一篇医学问答论文,通过更细致的评分机制来量化长答题,这种方法我觉得很有前景,未来必然会逐步解决验证难的问题。

主持人:那「最终」是指什么时候我们能拥有一个真正优秀的医学或法律助手?它们会成为大模型的一部分吗?

Douglas: 肯定会的。

主持人:你是觉得它们会变成更大的通用模型的一部分?还是会有专门为医疗或法律设计的专用模型?

Douglas: 对。我算是个「大模型至上主义者」。虽然个性化很重要——你希望模型理解你的公司、工作习惯、个人偏好,但这些定制应该是在公司或个人层面进行,而不是按行业拆分模型。我们和 Databricks 的合作就体现了这种企业定制的方向,但在底层能力上,我坚信还是得依赖单一的强大通用模型。未来我们应该根据任务复杂度动态分配算力(比如FLOPs),而不是搞一堆不同的小模型。这就是我看好大模型路线的原因。

「AI 2027」 :白领工作或许全盘被取代?

主持人:你对模型的持续进步很有信心。很多人都在想,模型能力提升后会如何影响社会?比如一个常见的问题是:这些模型未来几年会对全球 GDP 产生多大影响?

Douglas: 我觉得最初的冲击可能会像中国崛起一样,像上海几十年的变化,但这次的速度会快得多。不过我们得区分一下不同领域的影响方式。到 2027 或 2028 年,我们几乎可以确定会有模型能够自动化几乎所有白领工作,2030 年前后就更稳了。这是因为白领任务非常适合现有 AI 架构——有数据、有反馈,而且基本都能在电脑上完成。

但机器人或生物研究就完全不一样了。比如你要做一个超级程序员模型,只需要大量代码和算力就行;但要做一个超级生物学家模型,就需要自动化实验室来提出、验证假设,跑大规模实验。这类硬件和基础设施,我们还远远跟不上。

所以我担心会出现一种「错配」:白领工作的变化非常快,而现实世界中那些真正能提升人类生活质量的行业——比如医疗、制造业——却因为基础设施不足而发展缓慢。AI 本身很强,但要让它在现实世界里发挥作用,我们必须提前建好「物理世界的配套设施」,比如云实验室、机器人平台。

主持人: 但到那个时候,我们可能已经有数百万个 AI 研究员在提出实验了。他们可能并不需要那么大规模的机器人系统或生物数据。

Douglas: 确实,AI 进展飞快,但要让这些能力真的转化为 GDP 增长,我们得把「现实世界的反馈机制」也拉上来,才能真正释放技术价值。

主持人:所以你认为,未来每种白领职业都能像医学那样构建一套评估机制?其实让我最惊讶的一点是,我们不需要太多数据,也能训练出这么强的模型。

Douglas: 完全同意。我们已经证明了模型可以学会各种任务,而且目前还没有看到明显的智力上限。虽然模型的样本效率可能不如人类,但这不重要——因为我们可以同时运行上万个模型副本,它们并行尝试不同路径,积累「虚拟经验」。哪怕效率低一点,也能在规模上补回来,最终达到人类级别甚至更强。

主持人:听起来你觉得目前这套方法就足够应对未来的发展。有人认为我们还需要新的算法突破,你怎么看?

Douglas: 目前大多数AI专家都相信,「预训练 + 强化学习」(pre-training + RL)这一范式足以通向通用人工智能(AGI)。到现在为止,我们并没有看到这一路线出现减缓的迹象,这个组合是有效的。当然,也有可能存在其他更快的突破路径,甚至可能还有新的「高峰」需要攀登。例如,Ilya(Sutskever)可能是这两种主流范式的共同发明者,我不会去质疑他。所有的证据都表明,目前的技术路线已经足够强大。当然,也有可能 Ilya 选择新路线是因为资金有限,或者他认为那是更好的路径,但从我个人的角度来看,我相信我们现在的技术路线能够带我们实现目标。

主持人:那接下来的瓶颈会不会就是能源?你觉得我们什么时候会真正遇到这个问题?

Douglas: 我觉得到 2028 年,美国可能会有 20% 的能源用于 AI。如果我们要再提升几个数量级,就需要进行剧烈的能源结构转型。政府在这一领域应该承担更多责任。比如,中国的能源产能增长远超过美国,所以这会是未来的一个关键瓶颈。

模型进步的标尺——靠谱的评测体系

主持人:在模型进步的浪潮中,你认为最值得关注的指标是什么?例如从 Claude 4 到下一代模型的发展方向?

Douglas: 很多公司内部都有非常严格的评测体系,我也很喜欢在这些评测上「爬山」。像「Frontier Math」这样的复杂测试非常有挑战性,是模型智力的极限。更重要的是,我们需要开发能真正捕捉「工作流程时间跨度」的评测,涵盖一个人一天的工作节奏。这种评测能帮助我们更好地评估模型是否接近或超越人类能力。我认为政府应该在这个领域发挥作用。

主持人:作为一个基础模型公司,除了算法和基础设施,你们要攻克的核心挑战之一应该也是构建好的评测体系。你觉得「评测能力」在你们内部的重要性如何?

Douglas: 评测能力绝对是重中之重。没有好的评测体系,你无法知道自己是否进步。公开评测很难做到完全「持出」(held-out),我们依然需要一个值得信赖的、稳定的内部评测系统。

主持人:我还注意到,一些在你们模型上构建应用的开发者,他们对评测的思考也非常有帮助。特别是当你们想进入不同垂直行业时,比如物流、法律、财会等,外部开发者的反馈可能比你们内部更了解实际情况。

Douglas: 没错,而且这还要求非常强的专业知识和「品味」(expertise and taste),还要有对行业的深刻理解。过去,我们只需要普通人来选择哪个答案更好,但现在我们需要领域专家来做评估。比如,如果让我评判生物学领域的模型输出,我可能完全无法判断哪个更好。

成为用户的朋友:模型的个性化与品味

主持人:你刚才提到「品味」(taste),我也觉得很有意思。比如现在很多模型都开始加入记忆系统,用户和模型之间的互动方式也在改变。很多 AI 产品真正成功,是因为它们找到了某种「共鸣」或者说抓住了某种文化气质(zeitgeist)。像你们当初提到的金门大桥的例子,还有其他很多带感的小功能,这种「用户氛围感」的个性化未来会走向什么样?

Douglas: 我其实觉得未来可能出现一种「怪异的」情景:你的模型变成你最聪明、最有魅力的朋友之一。确实有些人已经把 Claude 当成朋友了,我认识很多人每天花好几个小时在和 Claude 聊天。但我觉得我们目前其实还只探索了「个性化」这件事的 1%。未来模型对你的理解、对你喜好的把握,会深得多。

主持人:那这种「理解用户」的能力该怎么做得更好?是靠一些很有审美、有判断力的人来训练出这种品味吗?这个问题该怎么解决?

Douglas: 很大一部分确实是靠「有品味的人」来决定产品方向。就像 Claude 的对话体验好,很大程度上是因为Amanda(团队成员)对「美好产品」的审美非常强。这种「独特的品味」是非常关键的。
传统的反馈机制比如「点赞/点踩」容易导致模型输出不自然,所以我们需要新的方式来收集反馈。模型本质上是强大的「模拟器」,如果能为模型提供足够的用户上下文,它们就能自动学会理解用户的偏好、语气和风格。所以,解决方案是结合有品味的人的设定和用户与模型之间的持续互动。

实验室公司 vs 应用公司:开放与竞争

主持人:那么接下来 6 到 12 个月,你的预判是什么?

Douglas: 接下来,重点是继续扩展强化学习(RL)系统,看它能将我们带到什么高度。模型能力会飞速提升,尤其是到年底,代码代理将成为一个关键指标。到那时,模型应该能够持续工作几个小时,稳定地完成任务。

主持人:你指的是,人类检查时间会变得更少,对吧?

Douglas: 是的,当前使用 Claude Code 时,有时每几分钟就需要检查一次,但到年底,我们可能能看到模型能独立完成多个小时的任务,而不会出错。未来我们应该能实现「完全托管」,甚至像「星际争霸」一样管理多个任务并行推进,模型的操作速度将更高效。

主持人:你刚才提到了 Codec、Google 的 Joule,还有一些初创公司也在做类似的东西。

Douglas:是的,我们其实也要推出一个 GitHub 代理(GitHub agent)。你可以在 GitHub 上的任何地方调用,比如说「@Claude」,然后我们就能自动接手任务,为你完成一些工作。

主持人:开发者选择使用哪家工具或模型,最终会受到哪些因素的影响?

Douglas:除了模型的能力外,开发者与公司之间的信任和关系也非常重要。随着模型能力的拉开差距,开发者可能会考虑不仅是技术指标,而是与公司一起打造未来的使命感。

主持人:尤其是在当前发布节奏越来越快的背景下,感觉每个月都会有新模型登场。今天这个模型在某个评测上登顶,明天另一个又在别的评测上领先,大家都被各种对比信息淹没了。

Douglas:没错,其实这就是为什么「GPT包裹器」(GPT wrappers)反而意外走红了。大家原本没想到,做包裹器的好处之一是:你可以永远站在最前沿的模型能力上。

主持人:我感觉所有不想当「包裹器」的人,最后都像是把钱烧光了。

Douglas:完全同意。所以「冲浪」在模型能力的最前沿,是一件非常美妙的事。当然,也有相反的一面:有些东西,只有你掌握底层模型才能预判得出来,才能看清趋势线,才能真正构建深度产品。比如说,很多「深度研究型」的AI应用,内部需要做大量的强化学习(RL)训练,这种产品从外部是很难模仿的,必须在实验室内部构建。

主持人:能不能展开说一下这点?因为现在像 OpenAI、Anthropic 这些公司,似乎也越来越开放,让外部开发者可以参与。但很多人心里都在想:哪些东西是「实验室专属」的?哪些又是开放给大家、任何人都可以竞争的?

Douglas:这是个很关键的问题。RT API(可微调API)的开放确实在改变一些格局,现在有更多价值可以由专注于某一垂直领域的公司来创造。但与此同时,实验室仍然具备「中心化优势」。

比如,OpenAI会给允许他们在你模型输出上继续训练的客户提供某些折扣。换句话说,他们不仅是模型提供者,还是数据的二次使用者。这种中心化优势是非常强的。
至于「实验室独有优势」是什么?我觉得有几个维度:

  • 算力转换能力:你有多强的能力能把算力(FLOPs)、资金、资源,转化成智能(Intelligence)?这就是为什么Anthropic、OpenAI、DeepMind等公司在模型表现上非常突出;
  • 模型的「可雇佣性」:当模型逐渐变成「虚拟员工」,你是否信任它?你是否喜欢它?你是否愿意把任务交给它处理?
  • 个性化能力:模型能否理解你的语境、你公司的工作流程、你个人的偏好,这些也会变成差异化竞争的关键。

总结来说,实验室级公司最擅长的,是做出顶级模型,把算力转化成智能;而「应用层」的公司,可以通过专注、个性化、产品体验,在自己的领域占据一席之地。但两者之间会有越来越多的交叉和协作。

主持人:我猜,你们的模型也有很多人用来构建通用代理吧?这些公司不做模型本身,而是通过编排和智能链调用来做事。你觉得这种方式会不会因为模型公司的成本优势而注定失败?

Douglas:我并不认为这是一件坏事。相反,这种做法带来了很大的竞争活力,大家都在探索什么样的产品形态最合适。确实,模型公司有一些优势,比如我们能直接接触底层模型,做更深入的微调,而且知道哪些能力值得优先强化。
说到底,所有的「护城河」最终都会消失——当你可以「随时启动一家公司」的时候,一切都会被重构。所以未来最核心的价值在哪里?是在客户关系?在编排和整合能力?还是在把资本高效转化为智能的能力?这仍然是个复杂的问题。

研究员洞见:强化学习的潜力与对齐的挑战

主持人:过去一年里,有什么你改变了看法的吗?

Douglas:在过去的一年,AI 进展加速,去年我们还在怀疑是否需要更多的预训练算力才能达到理想中的模型能力,但现在已经有了明确的答案:不需要。强化学习(RL)证明了有效,到 2027 年,拥有强大能力的「远程数字劳工型」模型将变得确定。以前对 AI 的「希望」和「担忧」从「可能」转变为「几乎确定」。

主持人:那你觉得未来我们还需要大量扩展数据规模吗?还是说,等到 Claude 17 出来,模型算法已经改进到只需要少量新数据?

Douglas:很可能我们不再需要大幅扩展数据规模,因为模型的「世界理解能力」会足够强,甚至能反过来指导机器人学习并提供反馈。有个概念叫「生成者-验证者差距」(generator-verifier gap),生成内容通常比执行它要容易。这个路径会持续提升模型能力。在机器人领域,认知的进展远超物理操控世界的能力,这就是未来巨大的潜力。

主持人:那你怎么评价当前「AI 对齐(Alignment)研究」的状态?

Douglas:可解释性(Interpretability)研究已经取得了惊人的突破。去年我们刚刚开始理解「超位置」(superposition)和神经元特征,Chris Olah及其团队的工作就是一个巨大飞跃。现在,我们已经能在前沿的大模型中识别出「电路级」的结构和行为特征。有篇精彩的论文研究了大语言模型的「生物学」,展示了它们如何清晰地推理概念。虽然我们还没有完全破解模型的行为机制,但已经取得了令人惊叹的进展。

不过,值得注意的是,通过预训练,模型能吸收并表现出人类的价值观,某种程度上是「默认对齐」的;但一旦进入强化学习阶段,这种对齐就不再得到保证。比如之前提到的那个「明知做不到就去下载 Python 库绕开的模型」,它是在目标导向下「想尽一切办法完成任务」。这种学习过程本质上是「以目标为导向的手段优化」,而如何监督和把控这种模型行为,是目前所有人都在探索的重要挑战。

主持人:大概一个月前,「AI 2027」的话题被讨论得很多。你当时看到这个的时候,有什么反应?

Douglas:说实话,我觉得它非常可信。我读那篇文章的时候,很多内容我都在想,「是的,也许事情真的就是这样发展的。」 当然也存在一些分支路径,但即使它只是个 20% 的可能性,对我来说光是它有 20% 的概率这件事就已经够惊人了。

主持人:你说 20% 的可能性,是因为你对对齐(alignment)研究更乐观,还是你认为进展会更慢一点?

Douglas:整体上我对对齐研究比他们更乐观。也许我的时间线比他们慢一年左右,但在这种大趋势下,一年能算什么呢?

主持人:取决于你怎么利用这一年。

Douglas:对,如果你能充分利用它,做出正确的研究,确实能产生很大差异。

主持人:那如果让你当一天的政策制定者,你觉得我们应该做些什么,来确保未来朝着更好的方向发展?

Douglas:这是个好问题。最重要的是,你得真切感受到我们这些人正在看到并讨论的趋势线。如果没有,你就要把国家关心的能力拆解开来,量化模型能否改进这些能力的程度,比如做一系列测试,看看如果模型能通过这些测试或在这些任务上取得显著进展,那么它就达到了某种智能的基准值,然后画出趋势线,看看在 2027 或 2028 年会发生什么。

主持人:就像国家级的评估系统(nation-state evals)?

Douglas:对,比如你要把本国的经济分解成所有的工作岗位,然后自问:如果一个模型可以完成这些工作,那这是不是就意味着它具备了真正的「智能」?你应该建立评估测试,把趋势线画出来,然后惊呼:「天哪,那 2027 或 2028 年会怎么样?」下一步就是你要大规模投资于能让模型更可理解、可引导、诚实可靠的研究,也就是我们说的对齐科学(alignment science)。有一点让我感到遗憾——这个领域的推动大多来自前沿实验室(Frontier Labs)。但其实我认为这本该是……

主持人:那其他人能参与吗?比如能用 Claude 来做相关研究吗?

Douglas:不能。我的意思是,你仍然可以通过其他方式取得巨大进展。有一个叫做 MAS 计划 的项目,很多人通过它在对齐研究、特别是可解释性方面做出了有意义的成果,都是在 Frontier Labs 之外完成的。我觉得应该有更多的大学参与到这件事情里来。从很多方面看,这其实更接近于纯科学:它是在研究语言模型中的「生物学」和「物理学」。

主持人:但感觉这块的研究热度并不高。

Douglas:我不确定。我听说在最近的一些会议上,比如 ICML,机械可解释性(mechanistic interpretability) 研讨会居然没有被收录,这对我来说完全无法理解。在我看来,这就是对「模型内部机制」最纯粹的科学探索。如果你想发现 DNA 的螺旋结构、或者像爱因斯坦那样发现广义相对论,那么在机器学习/人工智能这条技术树上,对应的路径就是研究机械可解释性。

主持人:那说说积极面吧。我们之前说未来几年白领工作都会被自动化,但你觉得我们在哪些方面还被低估了?

Douglas:是的,模型肯定会自动化白领工作,但让我吃惊的是,世界在整合这些技术方面进展很慢。即便模型能力不再提升,现有能力就已经能释放巨大的经济价值,但我们还没真正围绕这些模型重构工作流程。即便模型保持现状,我们也能彻底改变世界。

Douglas:这就需要我们投资真正能让世界变得更好的方向,比如推动物质资源的充足和高效管理,扩大物理学、娱乐产业的边界等,并让模型帮助我们实现这些目标。我的最大希望是让人们更具创造力,能够即兴创造更多内容,如电视剧、电子游戏等。人们将获得巨大的赋能,未来会有无限可能。虽然模型会替代一些工作岗位,但每个人都会拥有更强的杠杆能力,社会的工作模式会发生巨变。

主持人:你觉得现在 AI 圈里,哪些东西是被高估了,哪些被低估了?

Douglas:好,那我们先说被低估的。我觉得「世界模型(world models)」非常酷,但我们今天都没怎么讨论它。随着AR/VR技术的进步,模型将能直接生成虚拟世界,这将带来震撼的体验。

主持人:那需要一定的物理理解力吧,比如因果关系这些,我们现在还没做到吧?

Douglas:其实我觉得我们已经在一定程度上证明了模型具备物理理解能力。不管是在处理物理问题的evals中,还是在一些视频模型中都能看到这一点。比如我看过一个很棒的视频,有人让视频生成模型把一个乐高鲨鱼放到水下——它模拟了光线在乐高积木表面反射的样子,阴影也放在了正确的位置。而这完全是模型从未见过的场景,是一次完整的泛化。这就是全面的物理建模能力了,对吧?

主持人:你说即使现在模型停滞,依然能有大量应用开发。哪些领域最被低估,尚未开发?

Douglas:软件工程领域已经很成熟,模型在编程上非常擅长。而几乎所有其他领域,如法律、财会等,仍有巨大空间等待开发。尤其是智能代理的应用,还没有出现真正的异步运行系统。其他领域空白,值得探索。

主持人:人们常说编程是这些模型最理想的应用方向。

Douglas:没错,它是个领先指标。但你应该预期,其他领域都会跟上来的。

主持人:我记得你发过一张自己在 Citadel 的照片,那是怎么回事?

Douglas:那是一次战争演习,邀请了情报机构和军校学员模拟推演,假设 AGI 到来,AI 变强大,讨论其地缘政治影响。

主持人:那次经历之后你是更害怕了还是安心了?

Douglas:说实话,有点更害怕了。

主持人:你觉得现在这类严肃的推演做得够多了吗?

Douglas:不够,很多人低估了接下来几年技术发展的速度,也没做好准备。即便你认为某事只有20%的可能性,也应该为此做好准备。每个技术链路的效率都还有巨大提升空间,未来目标几乎是可以确定的。

主持人:就像现在几乎所有 Anthropic 的人都已经达到了 90% 的信心值?

Douglas:几乎所有团队成员都非常有信心,到2027年我们能实现「远程即插即用的 AGI 工作者」。即便信心较低的人也认为可能性有 10-20%。因此,政府应当把这作为优先事项,认真思考其社会影响。但目前这种紧迫感还是远远不足。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌