Reading view

There are new articles available, click to refresh the page.

对话阶跃星辰创始人姜大昕:多模态模型还没出现GPT-4时刻,坚持追求「智能上限」

AI 是否进入下半场或许还有争议,但大模型进入淘汰赛已经板上钉钉。

在 DeepSeek R1 横空出世后更是愈演愈烈,今年光是 OpenAI、Anthropic、Google、Meta、Grok 目前已经合计发了至少 8 款新模型,而国内的 AI 六小龙们也有的开始放弃预训练,将 AGI 的理想主义束之高阁。

在这当中,阶跃星辰是一家有点特殊的公司。在去年年底之前都鲜有融资消息,但却在多模态模型上成为「卷王」,成⽴ 2 年已经发布了 22 款⾃研基座模型,成为最低调神秘的 AI 独角兽。

阶跃星辰创始人兼 CEO 的姜大昕,和这家公司一样低调,很少出现在 AI 行业热闹的舆论场中。

而昨天,姜大昕与 APPSO 等媒体进行一场深度的沟通会,他向我们分享对于 AGI 路径,多模态模型等技术的看法,以及阶跃星辰未来的计划。

 

多模态模型还没出现 GPT-4 时刻,追求「智能上限」

当下 AI 大模型领域的内卷没有尽头,头部公司之间不断上演着「贴脸发布」的激烈戏码。

不过姜大昕依然认为,「追求智能的上限依旧是现阶段 AI 业内的重点。」也就是说,虽然现在市面上模型一大堆,看起来都挺能打,但离真正的「聪明」还差得远。

大家都在抢发新模型,看着热闹,但如果只是在现有水平上修修补补,那也只是原地踏步的「内卷」。

姜大昕觉得,现在最要紧的还是得想办法把 AI 的「智商」往上再拔一拔,不然离大家心心念念的 AGI(通用人工智能)还远着呢。

在 DeepSeek R1 面世,以及大厂高调入场后,不少初创公司开始放弃研发基础模型,不过姜大昕在接受 APPSO 采访时表示:

AI 行业的技术发展非常快,依然处于非常陡峭的区间。阶跃不想在这个过程中放弃主流增长或前进的趋势,所以我们还是会坚持做基础模型的研发。

同时姜大昕表示,应用和模型是相辅相成的,模型可以决定应用的上限,应用给模型提供具体的应用场景和数据。

那怎么才能让 AI 更聪明?姜大昕给出的一个关键路径是:「多模态正是实现 AGI 的必经之路。

很多人说今年的 Agent 元年,姜大昕认为 Agent 爆发需要两个必要的条件,一个是多模态的能力,另外一个是慢思考的能力

多模态,说白了就是让 AI 不光能看懂文字,还得能看图、听声、理解视频。

你想想人不就是眼耳口鼻一块儿上,才能全面理解这个世界嘛。AI 也得这样,变成一个能听、能看、能说的「多面手」。

阶跃星辰可以说是多模态模型的「卷王」了,几乎每个月都发布一款基础⼤模型,其中多模态模型已经有 16 款。覆盖了从图像、视频到语音、音乐的理解和生成,用姜大昕的话说,是坚持「原生多模理念」。

不过,姜大昕也挺实在,他坦陈「多模态模型领域目前还没有出现 GPT-4 时刻。

虽然多模态现在挺火,各家都在推,但还没出那种像 GPT-4 在文字领域那样,一出来就「哇哦」一下,让所有人都觉得「就是它了」的标杆性产品,技术上还有不少硬骨头要啃。

AI 升级打怪三部曲

对于模型如何一步步逼近智能的上限,姜大昕描绘了一幅清晰的「三部曲」演进路线图,也可以说,这是阶跃星辰理解的 AGI 演进方向。

模拟世界(模仿学习阶段): 这阶段的 AI 就像个刚学说话的小孩,喂给它海量数据,它就吭哧吭哧地学,主要任务是「predict next token」(预测下一个词)或者「predict next frame」(预测下一帧画面)。目的是让AI先学会这个世界长啥样,各种东西有啥特征。

探索世界(强化学习阶段): 光会模仿还不行,还得培养解决复杂问题的能力。比如解个奥数题、写段复杂的代码,这需要「慢思考」。这时候就得上强化学习了,让AI在不断试错中学会怎么一步步把难题给解开。

归纳世界(机器自主学习阶段): 这是最高境界了,AI不光能解决已知问题,还能自己去发现新规律,搞点人类没想到的创新。比如在科研领域帮科学家发现新材料、新药物啥的。

这三个阶段,与 OpenAI 提出的 AGI 五个 Level 在核心理念上不谋而合,现在整个 AI 行业的发展,基本就是照着这个剧本在推进。

为什么「理解生成一体化」这么重要?

在多模态,尤其是图像视频这块,姜大昕在沟通会中多次强调一个词:理解生成一体化。

理解生成一体化是计算机视觉领域的核心问题,对于实现 AGI 至关重要。

说白了,就是让模型既能看懂一幅图、一段视频是啥意思,又能根据这个理解自己创作出新的、相关的图像视频。现在很多时候是「看图用 A 模型,画图用 B 模型」,跟俩部门似的,配合不起来。

他举了个例子,比如老师在黑板上写字,现在的 Sora 能模仿老师写字的动作,但老师脑子里想的是啥、接下来要写什么内容,这得靠「理解」。如果理解和生成是两套系统,那模型就很难真正「懂」你,生成的玩意儿也可能不着边际。

语言模型像 ChatGPT 在这方面已经做得不错了,但视觉领域因为数据太复杂,这事儿还没完全搞定。阶跃星辰在这上面是持续投入,想把这个技术瓶颈给突破了。

强大的模型能力最终需要通过应用来体现价值。阶跃星辰采取的是「超级模型与超级应用双轮驱动」的策略。

在应用层面,阶跃星辰将「智能终端 Agent」作为重点发力方向。姜大昕认为,智能终端,无论是我们口袋里的手机、日常驾驶的汽车,还是未来可能普及的机器人,它们不仅仅是冰冷的硬件,更是「用户感知和体验的延伸」。

这意味着,AI 如果能与这些终端深度融合,就能更好地「理解用户需求和任务上下文」。

比如, OPPO 旗舰 Find X8 Ultra 正式开售首发的「一键闪记」的功能,AI 可以智能识别手机屏幕上的内容,为用户生成摘要,并将碎片化的信息归类到不同的记忆合集。

这背后搭载的其实就是阶跃星辰多模态模型,它能理解屏幕上显示的内容,无论是图片还是文字,用户可以就此提问,AI不仅能回答,还能进行图片处理,甚至帮助用户完成一些应用内的操作,比如直接跳转到机票预订页面并填好信息。

这种合作,将大模型的能力和系统更深度融合,嵌入到用户最高频的手机使用场景中,选择手机作为切入点,其价值在于手机天然的多模态交互属性和庞大的用户基数,为模型迭代提供了丰富的真实数据和即时反馈。

总的来说,阶跃星辰的思路挺清晰:技术上瞄准 AGI,死磕多模态和理解生成一体化这些硬核问题。应用上呢,就找准智能终端这个突破口,跟硬件厂商把场景做深做透。

这条路不好走,但姜大昕和他的团队看起来挺有决心。毕竟,用 AI 解决真实世界的问题,先在市场获得用户认可,才有机会探索 AGI 的天花板,让我们看看阶跃星辰这个多模态卷王后面还能拿出什么新东西来。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


我在小红书上,发现了这些脑洞的 AI 应用 | 附产品推荐

我们是小红书 Native App!

在上海的一场独立开发大赛上,「小猫补光灯」开发者蹦跳着冲上舞台。

这场开发者大会和我过去参加过的都不太一样,没有枯燥的技术演讲,没有严肃的商业计划,这些应用都在不约而同放大着生活的分辨率。

比如一款能将普通二维码变成艺术品的工具、一个 AI 帮你记住每一顿美食的应用、一个让文字流动起来的平台。甚至还能来一场「 梦境社交」,记录并分享你那些千奇百怪的梦。

与这两年那些充满「震撼」和「惊艳」的 AI 发布会不同,这里没什么惊天动地的技术革新,应用的灵感大都源于开发者自身经历的细微洞察,对生活中那些被忽略角落的回应。

用 AI 放大生活的分辨率

在 2019 年的中传大学的校园里,一个刚入学的大一新生静静地观察着周围同学们为作业制作二维码的繁琐过程。他们一笔一划地手工绘制,将黑白方块变成视觉上能接受的设计,却耗费了大量时间。

为什么二维码总是这么丑?为什么不能让它们既美观又实用?

这个疑问在倪豪心中萌发。当时,这位 01 年出生的少年并不知道,这个看似简单的问题将让他走上独立开发者的道路。

一次偶然的机会,倪豪将自己的想法与朋友「你好同学」分享。在北京的一个小咖啡馆里,他们常常聊到凌晨四五点,讨论着各种天马行空的产品想法。在这些熬夜的日子里,QRBTF AI 二维码的雏形逐渐成型。

「你知道吗?每天我们扫描的那些黑白方块,其实可以变成任何样子,只要它们仍然能被机器识别。」 倪豪向朋友解释着自己的设想。

从大一开始,倪豪便着手开发 QRBTF 的第一个版本——一个能够自动生成二维码的网站。当时的生成效果还相对死板,但已经展现出了不同于传统二维码的可能性。四年过去,如今已是同济大学研究生的倪豪,将 AI 技术融入到了他的项目中,升级成了现在的 QRBTF AI。

这个看似小众的工具,却解决了一个普遍存在但鲜少有人去解决的痛点:二维码的美学问题。

在商业设计中,精心设计的海报或产品包装常常因为一个黑白呆板的二维码而破坏了整体美感。QRBTF AI 允许用户上传一张图片或描述想要的风格,AI 就能生成既能被正常扫描又具有艺术效果的二维码。

「当我第一次看到用户生成的二维码图片时,我简直不敢相信。」一位使用 QRBTF AI 的设计师分享道,「它完全改变了我对二维码的认知,从一个必要的功能性元素变成了设计的亮点。」

这款工具上线后迅速走红,不仅在小红书上获得大量分享,还吸引了设计师、市场人员的广泛应用。最终,在小红书独立开发大赛中,QRBTF AI 二维码摘得「最佳 AI 项目」金奖。倪豪在现场表示:

「我希望每个普通人都能轻松创造美,让技术服务于生活的每一个角落。」

我在现场还看到很多像倪豪这样的年轻开发者,他们展现出了 AI 时代独立创作的无限可能:不再局限于传统的技术框架,勇敢地将 AI 与生活需求、美学追求相结合,创造出既解决问题又富有创意的产品。

像小红书上出圈的「胃之书 2.0」,用户只需上传照片,AI 就能识别食物并自动生成精美文案,为用户提供一本个性化的「胃之书」。

开发者赵纯想最初是为了解决自己的问题:「我是个吃货,但总是记不住自己吃过什么好吃的,想推荐给朋友时常常词穷。」

还有深受播客爱好者青睐的 Nooka,与传统有声书不同,Nooka 使用 AI 技术生成的语音更为自然,还能根据内容调整语气和情感。

更有趣的是,用户可以选择不同的「声音角色」,比如让莎士比亚的作品由「莎士比亚本人」来朗读,更有沉浸感。

「我们不只是做了一个 TTS(文字转语音)工具,而是希望重塑人与知识的关系。」Nooka 团队在获奖感言中表示,「在 AI 时代,知识获取应该更高效,也更有温度。」

AI 时代的应用开发,就像创作一条笔记

上面这种从个人生活观察到解决实际问题的路径,正是小红书独立开发社区的典型特征。

在这里,开发者们不是从技术出发,而是从真实生活需求出发,用 AI 重新审视和解决那些习以为常的问题。除此之外,应用的开发过程也在发生变化,新的独立开发生态正在形成。

在传统开发模式下,一款应用从构思到上线通常需要数月时间,涉及产品设计、前后端开发、测试等多个环节。而在 AI 的帮助下,这一周期被大幅缩短。「以前三个月才能上线的产品,现在两三周就可以上线。」 一位开发者表示。

门槛的降低也让更多开发者加入,这次小红书独立开发者大赛就不乏 00 后甚至 05 后的年轻开发者,他们中的许多人并非科班出身,而是凭借兴趣和创意,借助 AI 工具实现了自己的想法。

小红书数据显示,超过 90% 的开发者一年不只开发一款应用,在参赛团队中有 55% 是「一人公司」。这些独立开发者的背景也极为多元:有产品设计师、有内容创作者、有在校学生,甚至有全职主妇。

「我上午可能在写代码,下午去学习拍摄技巧,晚上研究如何做一道新菜。」一位参赛者这样描述自己的日常,「生活中的每一个触动,都可能成为下一个应用的灵感。」

「应用开发正成为 AI 时代的内容创作新形态。」小红书科技垂类负责人散兵表示,「AI 带来的技术平权大幅降低了开发的成本与门槛,让应用开发变得和创作图文、视频笔记一样简单。」

小红书怎么成了玩 AI 最活跃的社区?

在小红书的独立开发社区中,一种名为「听劝式开发」的新模式正在流行。开发者不再闭门造车,而是主动邀请用户参与产品设计和迭代过程,形成一种集体创造的氛围。

最近我们在小红书分享了 CapWords 的 AI 拍照翻译功能,引起了不少用户,大量用户还化身野生产品经理给产品反馈意见。

在小红书的独立开发者大会上,看到不少开发者确实已经把小红书作为种子用户募集+冷启动+迭代更新的主要平台,快速验证一个产品的可行性

这种开发者与用户之间的直接对话,大大缩短了产品从创意到市场的路径。参赛应用「调酒笔记」的开发者在零粉丝状态下发布了第一条构想笔记,意外收获超过 3000 个赞和数百条功能建议。他将这些用户称为「云股东」,与他们一起共创产品,甚至会在产品赢利后给予「分红」。

对于像赵纯想这样的资深独立开发者来说,用户反馈甚至成为了产品迭代的核心数据来源。他分享道:「胃之书 1.0 版本允许用户对 AI 生成结果进行修改,这些修改形成了一对对宝贵的训练数据。现在我们已积累了 170 万条记录,如果达到千万甚至亿级,就可以训练出更精确的模型。」

与传统技术社区不同,小红书的用户群体更加多元,既有同行也有普通用户,这为独立开发者提供了更丰富的反馈来源。

当 GPT 刚刚走红时,很多媒体和社交平台都在讨论 AI 资讯和散播焦虑,而小红书上的用户更关注的是,AI 能帮我做什么?它能解决我生活中的哪些问题?

这种实用主义的社区氛围,使得小红书成为了独立开发者验证想法的理想土壤。

参赛项目「Focus Flight」创始人 Una 分享,因为小红书的平权流量机制能快速验证产品是否受欢迎,他们将其作为唯一经营的国内社区阵地。上线后,首条视频笔记获得 2.2 万赞和上千条评论,原本定下的一个月达到 1000 美元收入的目标只用了三天就完成了。

「关于成功,我可能有点祛魅的感觉,」知名开发者玉伯在潘乱的播客中分享时说,「我追求的是能够保持自己的简单,能够自由地生活,能够对他人有爱。无论在大厂、创业、做独立开发,还是送外卖,对我来说可能都是一样的。」

这种将技术与生活紧密连接,以自由和表达为核心的理念,正是小红书独立开发社区的精髓。在 AI 时代,技术不再高高在上,而是融入日常;创造不再遥不可及,而是唾手可得;应用不应该只崇尚工具理性,更需要充满人文关怀。

当二维码不再只是丑陋的黑白方块,当梦境也可以成为社交货币,当日记可以全方位捕捉一天的点滴,我们看到的是技术与生活的重新连接,是创造者与使用者边界的模糊,是 AI 时代个体表达的无限可能。

正如年仅 17 岁的参赛者 rpone 在开场发言中所说:「我希望更多的 00 后,甚至 10 后,把自己的作品带到这个平台上来。小红书正成为 AI 应用的 UGC 平台,这里的每一个下午都属于我们这些独立开发者。」

附录:小红书独立开发大赛获奖应用

以下是本次大赛的获奖应用,欢迎大家在留言区分享最感兴趣的应用,我们将从中选取进行体验,并对开发者进行访谈。

🏆 全场大奖
Action&Link 体感控制器 [@赛博灵客] – 用身体控制数字世界的智能硬件

🏆 宝藏 APP 赛道
金奖:雨天 [@森树 Tree] – 一款治愈系独立游戏

银奖:Podwise [@硬地骇客] – AI 辅助听播客,「看比听快」

铜奖:PeakWatch [@Alex] – 专业运动记录应用

🏆 最佳 AI 赛道
金奖:QRBTF AI 二维码 [@倪豪 Troy Ni] – 让二维码变成艺术品

银奖:Nooka [@Nooka – Bookast App] – 将文字转化为自然播客

铜奖:胃之书 2.0 [@赵纯想] – AI 美食记录与推荐

🏆 五大特别单元
最佳 00 后开发者:Dreamoo 梦境社交 [@Sidrel] – 记录并分享你的梦境

最佳创意奖:专注飞机 FocusFlight [@专注飞机 FocusFlight] – 模拟航班环境提升专注力

出海先锋奖:Crowdcore [@北美创业的阿莱克斯] – 自动搜索海外营销达人信息

浪漫主义奖:魂旅 [@Highway 海玮] – AI 小人代你旅行并即时播报

社区人气奖:小猫补光灯 [@花叔(只工作不上班版)] – 在暗光环境下拍出好看的照片

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌