Normal view

There are new articles available, click to refresh the page.
Before yesterdayMain stream

OpenAI CEO 最新访谈:20 岁和 35 岁的人,用 ChatGPT 的方式完全不同

By: 徐豫
15 May 2025 at 21:00

第三届红杉资本 AI 峰会近日在美国洛杉矶落下帷幕,150 位全球顶尖 AI 创始人共话最前沿的 AGI 动向。

红杉资本合伙人 Pat Grady 认为,「下一轮 AI,卖的不是工具,而是收益。」这个观点最近也在 AI 圈内广为传播。

OpenAI 联创、CEO 萨姆·奥特曼(Sam Altman)此前因休陪产假,曾一度缺席自家公司新品发布会,终于在这场 AI 峰会上露面了。

半小时左右的现场专访中,奥特曼畅谈了 ChatGPT 的来时路,以及其如何演进成个人 AI 助手的构想;分享了他反逆向思维的公司管理理念;还透露了 OpenAI 后续涉及语音交互、编程应用场景、定制模型等方面的发展路线。

▲奥特曼接受红杉资本的专访。图片来自:YouTube

从 GPT 到 ChatGPT,只因网友太爱跟 AI 聊天

与主持人简单寒暄后,奥特曼回顾了 OpenAI 自 2015 年创办以来的发展历程,并把这 10 年拆分成了 6 个关键节点:

1.OpenAI 早期 14 人团队的第一个产品 DALL·E API(应用程序编程接口)问世;

2.该团队决定深入无监督学习领域,并由此搭建了 GPT-1、GPT-2 大模型,在此之前他们曾探索过自创游戏系统、机械手等方向的可能性;

3.大模型迭代到 GPT-3 后,他们发现如果继续烧钱升级至 GPT-4,将进入「10 亿美元模型」时代,所需资金已经远超能力范围;

4.于是 OpenAI 先后尝试通过开放 GPT-2 权重、开发 GPT-3 API,来逐步开拓营收业务,此举收获了不少硅谷创企的关注;

5.到了 GPT-3.5 时,OpenAI 的 API 已有大约 8 个应用场景;

6.受到 API 用户商业化场景的启发,OpenAI 的新产品 AI 聊天助手 ChatGPT 于 2022 年 11 月上线,其团队也持续投入到搭建「能让用户与 AI 模型对话的产品」的工作当中。

▲GPT-4o 版本的 ChatGPT。图片来自:OpenAI X 账号

时至今日,不到两年半的时间,ChatGPT 的周活跃用户数已超 5 亿人次。初步跑通 AI 聊天助手的商业模式后,OpenAI 也没有懈怠,最近半年内动作频频,推出 GPT-4.1 系列模型、GPT-4.5 模型、o3 和 o4-mini 视觉推理模型、基于 GPT-4o 能力的一系列音频模型、Deep Research 功能等。

当被问到「GPT-5 会超越人类吗」,奥特曼称,o3 已经非常聪明了,如果你认为自己的能力远超 GPT-3,那或许还需要一点时间。

奥特曼称 OpenAI 无大公司病,赶路一身轻

OpenAI 的产品之所以能保持着较快的更新频率,与其背后公司高层有意识减轻「大公司病」脱不开关系。正如奥特曼在此次专访中所说的,很多公司虽然规模越做越大,但产品上新、升级的效率反而有所下降。

奥特曼还进一步分享了他的团队管理思路,他更倾向于拥有一个「小而精」、「小而美」的团队。「自古以来就有个说法,一个好的高管,一定是一个忙碌的高管」,他说道,类似地,团队内的每个人手头都应该有很多事情做,每个人都有着高价值和高影响力,这样一家公司才能一直有所成长,而不是停滞不前。

他也毫不留情地调侃道:

否则,公司里会有很多人坐在房间里,为一些无伤大雅的产品细节开会、争吵,或高谈阔论其他事情。

▲OpenAI 关键人物。图片来自:CNN

而且,在他看来,这套理论对于当前大公司的 AI 转型困境也同样适用。

奥特曼称:「大企业在变革中总是落后,很多初创公司已经远远超越了他们。这是由于大企业通常受限于僵化的流程,比如每年才开一次安全委员会,而这种速度根本跟不上 AI 领域的变化。」他对此感到「失望」,却「不意外」。

同时他认为,不论是智能手机,还是 ChatGPT 使用方式,也有着类似的代际差异,「 20 岁左右的年轻人使用 ChatGPT 的方式,和 35 岁左右的中年人完全不同,这就像智能手机刚出现时那样」。

奥特曼进一步总结道:

年轻人通常把 ChatGPT 当作操作系统来用,将其接入各种文件、为其设置复杂的提示词,甚至在做许多重要人生决定前,会先问问 ChatGPT 的意见;而年龄大一些的用户则更多是把 ChatGPT 视作谷歌浏览器的一个替代品。

目前,OpenAI 公司内部已经让 ChatGPT 负责写一部分关键性代码。未来,OpenAI 希望 ChatGPT 最终能胜任用户私人 AI 助理这一角色。

「我们希望持续做更多的事情,搭建一个重要的互联网平台,让 AI 伴随用户一生,并在不同类型的服务中都能提供帮助。」奥特曼还围绕此透露了一些可能的执行路线:

  • 优化 ChatGPT 的核心 AI 订阅服务,不断升级模型,同时也会提供 API 或 SDK,以帮助其他人基于该平台创造更多价值;
  • API 与 ChatGPT 相融合,成为用户处理各种事务的个人 AI 助手,通过类似 HTTP 的新协议,支持数据传输、认证和支付,可连接不同的工具和 Agent。

下一步,OpenAI 将持续发力语音交互和 Agent

在公开的访谈视频中,主持人和观众多次向奥特曼询问与 OpenAI「下一步将走向哪里」相关的问题。总的来看,奥特曼提到了以下 6 大趋势:

1.语音交互:语音对于 OpenAI 来说非常重要,目前 OpenAI 的语音产品还不够好,但会持续优化,未来高质量的语音模型将会带来全新的设备形态;

2.编程能力:编程能力对于 OpenAI 来说是核心,未来模型不单单支持生成文字或图片,还能直接生成完整的程序,帮助用户执行操作;

3.模型定制:理想状态是一个小模型拥有极大的上下文窗口长度,能存储用户所有的数据和历史操作,无需再训练,这是 OpenAI 的长远目标之一;

4.传感器数据收集:有人已经把这些数据接入 API,部分场景呈现出的效果很好,最新的模型已经能较好地处理这些数据,未来 OpenAI 也会更加系统地整合这些数据;

5.API 访问:OpenAI 与学术界有合作项目,为其提供模型访问服务,从而帮助社会科学和人文学科研究者探索长期未解的问题;

6.算法开发:算法突破仍然是最高杠杆的要素,数据、算力和算法是三大关键点。

▲奥特曼回答观众提问。图片来自:YouTube

3 年内,AI 有望从工具人转变为研究者,甚至自主创收

奥特曼眼中的 AI 技术路线、AI 能力变革、AI 应用方向,似乎无时无刻不处于一个快速动态变化的过程之中。

他分享道,未来一年,AI 发展将主要集中在3大方面,分别是 AI 基础设施扩展,开发更聪明的 AI 模型,以及将 AI 整合到社会中。

据奥特曼判断,2025 年会是「AI Agent 承担推理工作」的一年,也可能不止于此;2026 年有望进入 AI 做出科学发现的阶段;2027 年机器人有望从研究对象变成真正的经济创造者。

OpenAI放弃用「终点」找「路径」

当然,未来的一切都是未知且富于变化的。与采用逆向工程规划公司发展的选择不同,在奥特曼这里,通过「倒推」、「从果溯因」的方法来敲定一家公司的长期发展战略,并不是一种明智的选择。

奥特曼直言:「历史上很少有人通过这种倒推的方法实现成功。」OpenAI 不追求所谓的终极战略,而是灵活应对当下状况,不断调整策略,持续产出更好的模型和产品。换而言之,OpenAI 这艘游艇更倾向于因时而动,顺势而为。

此外,当谈及 OpenAI 计划融资 400 亿美元、公司投后估值或达 3400 亿美元的传闻时,奥特曼并没有透露更多相关内容,但也没有直接否认。

奥特曼完整访谈视频入口:🔗
https://www.youtube.com/watch?v=ctcMA6chfDY

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


对话阶跃星辰创始人姜大昕:多模态模型还没出现GPT-4时刻,坚持追求「智能上限」

By: 李超凡
9 May 2025 at 11:59

AI 是否进入下半场或许还有争议,但大模型进入淘汰赛已经板上钉钉。

在 DeepSeek R1 横空出世后更是愈演愈烈,今年光是 OpenAI、Anthropic、Google、Meta、Grok 目前已经合计发了至少 8 款新模型,而国内的 AI 六小龙们也有的开始放弃预训练,将 AGI 的理想主义束之高阁。

在这当中,阶跃星辰是一家有点特殊的公司。在去年年底之前都鲜有融资消息,但却在多模态模型上成为「卷王」,成⽴ 2 年已经发布了 22 款⾃研基座模型,成为最低调神秘的 AI 独角兽。

阶跃星辰创始人兼 CEO 的姜大昕,和这家公司一样低调,很少出现在 AI 行业热闹的舆论场中。

而昨天,姜大昕与 APPSO 等媒体进行一场深度的沟通会,他向我们分享对于 AGI 路径,多模态模型等技术的看法,以及阶跃星辰未来的计划。

 

多模态模型还没出现 GPT-4 时刻,追求「智能上限」

当下 AI 大模型领域的内卷没有尽头,头部公司之间不断上演着「贴脸发布」的激烈戏码。

不过姜大昕依然认为,「追求智能的上限依旧是现阶段 AI 业内的重点。」也就是说,虽然现在市面上模型一大堆,看起来都挺能打,但离真正的「聪明」还差得远。

大家都在抢发新模型,看着热闹,但如果只是在现有水平上修修补补,那也只是原地踏步的「内卷」。

姜大昕觉得,现在最要紧的还是得想办法把 AI 的「智商」往上再拔一拔,不然离大家心心念念的 AGI(通用人工智能)还远着呢。

在 DeepSeek R1 面世,以及大厂高调入场后,不少初创公司开始放弃研发基础模型,不过姜大昕在接受 APPSO 采访时表示:

AI 行业的技术发展非常快,依然处于非常陡峭的区间。阶跃不想在这个过程中放弃主流增长或前进的趋势,所以我们还是会坚持做基础模型的研发。

同时姜大昕表示,应用和模型是相辅相成的,模型可以决定应用的上限,应用给模型提供具体的应用场景和数据。

那怎么才能让 AI 更聪明?姜大昕给出的一个关键路径是:「多模态正是实现 AGI 的必经之路。

很多人说今年的 Agent 元年,姜大昕认为 Agent 爆发需要两个必要的条件,一个是多模态的能力,另外一个是慢思考的能力

多模态,说白了就是让 AI 不光能看懂文字,还得能看图、听声、理解视频。

你想想人不就是眼耳口鼻一块儿上,才能全面理解这个世界嘛。AI 也得这样,变成一个能听、能看、能说的「多面手」。

阶跃星辰可以说是多模态模型的「卷王」了,几乎每个月都发布一款基础⼤模型,其中多模态模型已经有 16 款。覆盖了从图像、视频到语音、音乐的理解和生成,用姜大昕的话说,是坚持「原生多模理念」。

不过,姜大昕也挺实在,他坦陈「多模态模型领域目前还没有出现 GPT-4 时刻。

虽然多模态现在挺火,各家都在推,但还没出那种像 GPT-4 在文字领域那样,一出来就「哇哦」一下,让所有人都觉得「就是它了」的标杆性产品,技术上还有不少硬骨头要啃。

AI 升级打怪三部曲

对于模型如何一步步逼近智能的上限,姜大昕描绘了一幅清晰的「三部曲」演进路线图,也可以说,这是阶跃星辰理解的 AGI 演进方向。

模拟世界(模仿学习阶段): 这阶段的 AI 就像个刚学说话的小孩,喂给它海量数据,它就吭哧吭哧地学,主要任务是「predict next token」(预测下一个词)或者「predict next frame」(预测下一帧画面)。目的是让AI先学会这个世界长啥样,各种东西有啥特征。

探索世界(强化学习阶段): 光会模仿还不行,还得培养解决复杂问题的能力。比如解个奥数题、写段复杂的代码,这需要「慢思考」。这时候就得上强化学习了,让AI在不断试错中学会怎么一步步把难题给解开。

归纳世界(机器自主学习阶段): 这是最高境界了,AI不光能解决已知问题,还能自己去发现新规律,搞点人类没想到的创新。比如在科研领域帮科学家发现新材料、新药物啥的。

这三个阶段,与 OpenAI 提出的 AGI 五个 Level 在核心理念上不谋而合,现在整个 AI 行业的发展,基本就是照着这个剧本在推进。

为什么「理解生成一体化」这么重要?

在多模态,尤其是图像视频这块,姜大昕在沟通会中多次强调一个词:理解生成一体化。

理解生成一体化是计算机视觉领域的核心问题,对于实现 AGI 至关重要。

说白了,就是让模型既能看懂一幅图、一段视频是啥意思,又能根据这个理解自己创作出新的、相关的图像视频。现在很多时候是「看图用 A 模型,画图用 B 模型」,跟俩部门似的,配合不起来。

他举了个例子,比如老师在黑板上写字,现在的 Sora 能模仿老师写字的动作,但老师脑子里想的是啥、接下来要写什么内容,这得靠「理解」。如果理解和生成是两套系统,那模型就很难真正「懂」你,生成的玩意儿也可能不着边际。

语言模型像 ChatGPT 在这方面已经做得不错了,但视觉领域因为数据太复杂,这事儿还没完全搞定。阶跃星辰在这上面是持续投入,想把这个技术瓶颈给突破了。

强大的模型能力最终需要通过应用来体现价值。阶跃星辰采取的是「超级模型与超级应用双轮驱动」的策略。

在应用层面,阶跃星辰将「智能终端 Agent」作为重点发力方向。姜大昕认为,智能终端,无论是我们口袋里的手机、日常驾驶的汽车,还是未来可能普及的机器人,它们不仅仅是冰冷的硬件,更是「用户感知和体验的延伸」。

这意味着,AI 如果能与这些终端深度融合,就能更好地「理解用户需求和任务上下文」。

比如, OPPO 旗舰 Find X8 Ultra 正式开售首发的「一键闪记」的功能,AI 可以智能识别手机屏幕上的内容,为用户生成摘要,并将碎片化的信息归类到不同的记忆合集。

这背后搭载的其实就是阶跃星辰多模态模型,它能理解屏幕上显示的内容,无论是图片还是文字,用户可以就此提问,AI不仅能回答,还能进行图片处理,甚至帮助用户完成一些应用内的操作,比如直接跳转到机票预订页面并填好信息。

这种合作,将大模型的能力和系统更深度融合,嵌入到用户最高频的手机使用场景中,选择手机作为切入点,其价值在于手机天然的多模态交互属性和庞大的用户基数,为模型迭代提供了丰富的真实数据和即时反馈。

总的来说,阶跃星辰的思路挺清晰:技术上瞄准 AGI,死磕多模态和理解生成一体化这些硬核问题。应用上呢,就找准智能终端这个突破口,跟硬件厂商把场景做深做透。

这条路不好走,但姜大昕和他的团队看起来挺有决心。毕竟,用 AI 解决真实世界的问题,先在市场获得用户认可,才有机会探索 AGI 的天花板,让我们看看阶跃星辰这个多模态卷王后面还能拿出什么新东西来。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌
❌