Normal view

There are new articles available, click to refresh the page.
Before yesterdayMain stream

DeepSeek 浪潮下,端侧AI 的创新催化剂

By: 李超凡
6 March 2025 at 12:00

在柏拉图的《理想国》中有一个洞穴隐喻的故事,一群囚徒从小就被锁在一个洞穴里面对墙壁,身后有一堆火,囚徒们一生所见只有映在墙壁上的影子,便以为这些影子就是真实的世界。

大模型也曾被类似的「影子」误导,一度将大力出奇迹的预训练奉为圭臬。直到 2025 年初 DeepSeek R1 展现的推理能力,AI 从仅仅观察影子的阶段,转向以自省和辩证的方式探寻真知。

DeepSeek 让模型走出「洞穴」,也在改变智能终端的范式。

DeepSeek 蒸馏模型在问世不到两周内便实现在搭载骁龙平台的商用终端上的运行,AI 硬件将不再只是提升估值的「性感故事」,而是已经具备实际的应用价值和商业潜力。

高通最新发布的白皮书《AI 变革正在推动终端侧推理创新》指出,DeepSeek 的推出标志着 AI 进入推理创新时代,训练成本下降、快速推理部署和针对边缘环境的创新,正在推动高质量小模型的激增,加速 AI 跨边缘终端的部署。

清华大学副教授、面壁智能联合创始人兼首席科学家刘知远也提出,这种从「规模至上」到「效率优先」的转变,为端侧 AI 提供了重要启示:通过模型压缩、参数优化和算法创新,可以在保持模型性能的同时,大幅降低计算资源需求,使其适合在终端设备上运行。

使用 DeepSeek 蒸馏后的 Qwen-7B 模型,已经能够在性能上与去年所推出的且当时最为先进的 GPT-4o 云端模型持平。

这也意味着,过去很多只能在云端运行大规模参数的模型,能部署到随身的终端设备中,在本地完成复杂的推理过程,甚至可能实现满血运行。同时,在端侧 AI 的新浪潮下,我们正见证智能终端的又一次关键转折——从单纯的功能性设备到具有自主理解和行动能力的智能体(Agent)。

端侧 AI 的技术拐点:从「规模至上」到「推理创新时代」

两年前,比尔·盖茨发布了一篇博客,称在有生之年见证了两次革命性的 Demo ,第一次是在 1980 年看到了图形用户界面(GUI)——现代操作系统的前身,另一次则是在 GPT-3.5 前几个月看到 AI 的回答方式。

然而作为普通用户,对这种改变的感知显然没那么强烈,因为交互的变革的载体离不开智能终端,就像 iPhone 将功能机时代的按键操作转变为触控交互,进而重塑了整个智能手机生态。

那么在 AI 时代这个载体是什么?

或许未必是一个全新形态的终端,而是智能终端带来的全新体验形式——从应用驱动向智能体驱动。

就像高通 CEO 安蒙在去年年底提到的新趋势,AI 是新的用户界面(UI)。端侧 AI 的落地将改变传统的交互逻辑。

用户无需打开特定应用,AI 智能体可通过多模态输入(语音、图像、视频)直接执行任务。这些功能背后其实离不开边缘侧 AI 支持。

比如荣耀 Magic7 系列中 YOYO 智能体的许多交互功能就需要终端侧 AI 处理能力的支持,骁龙 8 至尊版搭载的高通 Hexagon NPU 为终端侧提供了足够强 的 AI 算力,可以在手机本地完成推理和理解等 AI 任务。

过去端侧 AI 受限于硬件性能,而大模型的计算需求却在快速增长,虽然此前搭载骁龙 8 至尊版的智能手机已经能在端侧运行 7B 规模的模型,但针对一些复杂的生成式 AI 用例和高质量图像生成等任务,还是需要结合云端算力。

不过现在端侧 AI 的技术拐点已经出现,《AI变革正在推动终端侧推理创新》白皮书中指出了加速端侧 AI 落地的四大趋势:

  1. 当前先进的AI小模型已具备卓越性能,通过模型蒸馏和新型网络架构,性能已经超越一年前仅能在云端运行的更大模型
  2. 模型参数规模正在快速缩小,先进的量化和剪枝技术使开发者能在保持准确性的同时减小模型体积
  3. 开发者能够在边缘侧打造更丰富的应用,如文本摘要、编程助手和实时翻译
  4. 让 Agent 成为新交互入口,个性化多模态AI智能体将简化交互

高通技术公司高级副总裁、技术规划和边缘解决方案业务总经理马德嘉告诉爱范儿,随着模型规模不断地下降,日后 10-20 亿参数规模的模型将会占用更少的运行内存,更好地适配 8-12GB 内存设置的终端。

异构计算架构:端侧 AI 的硬件基础

高通技术公司拥有三大业界领先的处理器单元,这些处理器对于端侧 AI 的发展非常重要。

马德嘉表示,「我们有业界领先的定制高通 Oryon CPU,并已经应用于我们的 PC、移动和汽车平台。」

高通 Adreno GPU 能够满足终端侧 AI 运行所需要的众多功能需求;此外,高通 Hexagon NPU 完全面向处理生成式 AI 工作负载而设计。

这三大处理器单元必须都具备业界领先的能力且能够协同工作,才能实现异构计算,满足生成式 AI 的发展需求,而在这一领域高通有着非常强大的优势。

端侧 AI 的落地对芯片架构提出了更高的要求,高通的做法是,将 NPU、GPU 和 CPU 集成到终端中的异构计算架构,从而在更低功耗下输出更高算力,且满足不同场景的 AI 处理任务需求。

这一架构的核心是三大处理器单元之间,如同一支交响乐队般的协同合作:

  1. 高通自研 Oryon CPU:最新的第二代 Oryon CPU 采用台积电 3nm 工艺,最高主频达 4.32GHz,超大缓存设计(业界最大 24MB 二级缓存)显著降低 AI 推理时延。
  2. 高通 Adreno GPU:满足终端侧 AI 运行的多样化功能需求,特别在并行计算和图像处理方面表现出色。
  3. 高通 Hexagon NPU:专为处理生成式 AI 工作负载而设计,让骁龙 8 至尊版上实现了45% 的 AI 性能提升和 45% 的 AI 能效提升。

其中 Oryon CPU 在手机与汽车芯片中的复用。这意味着这些终端设备可以采用共通的底层架构,有更好的兼容性,互相之间的互联互通也会更加通畅。

这种异构计算架构在最新发布的众多骁龙 8 至尊版旗舰手机上已经有所体现, iQOO 13 利用骁龙 8 至尊版的 AI 算力,打造了 AI 电竞信号引擎,通过 AI 智能优化网络,实现多任务场景下时延更低,可以边玩游戏边视频或直播。

REDMI K80 Pro 则将 AI 技术应用于连接体验,带来了小米星辰 AI 多网融合,可以进行智能信号预测,让网络自动优化。在地铁场景下,微信视频卡顿率降低 31%,短视频卡顿率降低 29%。

如果说智能终端已经进入 Agent 时代,那么异构计算架构就是智能体的「中央神经系统」,不仅处理各种感官信息,还能协调「思考」与「行动」,保证端侧 AI 高效、流畅、稳定地运行。

软件也是释放端侧 AI 潜能的关键

正如高性能赛车不仅需要强劲的引擎,还需要精密的调校和优秀的赛车手一样。端侧 AI 的实现不仅仅依赖于强大的硬件算力,同样离不开高效、完善的软件工具支持。

对开发者来说,其实不需要知道硬件端的具体设计细节,更重要的是软件工具库支持,让他们能够按照自己所需,非常自由、灵活地选择所需的框架、runtime 和工具,面向任何操作系统设计 AI 应用和智能体。

在提供硬件基础的同时,高通也在构建 AI 软件栈,包括库(libraries)、SDK 和优化工具,可简化模型部署并提升性能。

开发者可以利用这些资源,面向高通平台高效进行模型适配,缩短 AI 赋能应用的上市时间。无论端侧 AI 的算力有多强大,也只有通过应用来释放出来,最终才能转化为用户体验。

在实际应用中,你可以拿起手机识别你将用于烹饪的食材,成功识别后,让手机帮你生成对应的菜谱,还能让手机给你一些低卡路里菜单组合。

烹饪完成后,你可以通过摄像头,向手机询问这些食物所包含的卡路里。凭借智能手机如今对多模态 AI 能力的支持,这个用例可以完全在终端侧实现。

这种场景正是智能体作为新平台的典型应用——用户不再需要打开多个应用,而是通过自然交互直接完成复杂任务。

这种以开发者为中心的策略,大大简化了在消费和商用产品中集成先进 AI 特性的过程,也在加速 AI 推理创新在端侧的应用。

AI Hub 正成为开发者的百宝箱

目前已经有众多智能手机、PC、汽车厂商在终端设备中接入 DeepSeek,开始了利用高质量小模型在终端侧升级AI体验,或是打造全新 AI 应用的实践。边缘侧 AI 应用的创新蓄势待发。

如果你是一个开发者,对不同细分领域的芯片平台的 AI 部署也有了更迫切的需求。高通去年发布的高通 AI Hub 跨出了一大步,让开发者选择相应平台和开发模型、编写应用,最后在不同类型的移动终端上进行部署。

高通 AI Hub 包含超过 100 个预优化的 AI 模型,如Llama、Allam 3B、通义千问、OpenAI 等厂商模型,支持在搭载骁龙平台的终端上无缝部署,发布一年以来,目前已有超过 1500 家企业在使用,进一步推动了端侧 AI 应用的普及。

AI Hub 覆盖的终端也不断增加,马德嘉向我们介绍,高通 AI Hub 可支持移动、PC、IoT、汽车,甚至 Wi-Fi 联网终端平台,比如第二代高通机器人 RB3 平台这一面向 IoT 领域的机器人平台。

高通正在成为端侧 AI 生态构建者,通过与全球 AI 模型厂商的积极合作,不仅提供了强大的计算平台,还开发了完整的软件栈和开发工具,使开发者能够更轻松地将 AI 模型集成到应用程序中。

智能终端的 Agent 时代真正到来之前,这个行业需要先构建完整的端侧 AI 生态系统。

高通,正在成为端侧 AI 的首席架构师

在中国隋朝,曾诞生了一个名留千史的建筑工程专家宇文恺,他不仅规划了贯通南北的水道网络,更创新性地设计了船闸系统,解决了不同水位间船只通行的技术难题。用「通则兴,塞则衰」的系统思维,将分散的河道整合成一个互联互通的交通网络。

这与高通为端侧 AI 提供的统一而高效的计算基础颇为相似。正如大运河的修建需要克服地形、水文等诸多挑战,端侧 AI 所面对的,是来自不同终端设备、不同应用场景的更加多样化和复杂的需求。这其中不仅包括了硬件性能的限制,还包括了模型大小、功耗、延迟等多重约束。

而要让 AI 真正融入到这些多样化的终端中,正如宇文恺当年规划大运河一样,需要一位「首席架构师」来进行顶层设计,打造出强大的底层架构来支撑其高效运行。这个架构不仅要能处理海量数据,还要能灵活适应各种应用场景。

这种从具体到抽象、从工程到技术的递进,实际上也反映了人类文明发展的基本脉络。

人类文明的传承本质就是信息蒸馏的过程。从中世纪一字一句地誊抄、信息时代的系统化结构,到 AI 推理时代,信息的提炼呈现出新的形态——模型通过强化学习来发展推理能力,像婴儿通过不断的自我探索来认识世界。

像前面提到的高通 AI Hub ,它构建的预优化模型库,使开发者能将适应终端设备的模型的,应用在高通手机、PC 和汽车等多终端中的技术基础。

模型轻量化是端侧 AI 普及的关键。DeepSeek 蒸馏模型已经可在骁龙平台智能手机和 PC上直接运行。这种技术突破类似于大运河工程中的节水闸门设计,以最小的资源消耗实现最大的通行效率。

同时 AI 推理的创新正在边缘侧爆发。

研究机构 Counterpoint Research 预测,2025 年将成为生成式 AI 手机的关键拐点。

生成式AI技术正在成为中高端手机的标配。预计 2025 年全球生成式 AI 手机渗透率将从 2024 年的 19%提升至29%,出货量约 4 亿台,到 2027 年 ,生成式 AI 手机出货量预计达 5.5 亿台(占整体市场 43%)。

此外,全球边缘 AI芯 片规模预计从 2023 年 76 亿美元增至 2027 年 252 亿美元(CAGR 27.1%),汽车、工业物联网和医疗是核心增长领域。

高通正在转变成端侧 AI 的首席架构师。

端侧 AI 的能力注入到终端的每一个角落,从智能手机到汽车,从 XR 头显到 PC,一条连接不同终端、促进智能体自由流动的技术「大运河」正在形成。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


这个中国 AI 产品一夜刷屏!全网都在要邀请码,可能是 DeepSeek 后最大惊喜

By: 李超凡
6 March 2025 at 06:25

几乎在昨晚苹果发布新品的同时,整个科技圈却被一个名为 Manus 的产品刷屏了。

这是全球首款真正意义上的通用 AI Agent,从官网展示的案例可以看到,它能够独立思考、规划并执行复杂任务,直接交付完整成果。

比起 Claude 的 Computer use 等同样能操作多任务,或者能帮你点外卖订酒店的 Agent, Manus 可以覆盖更多领域和达成更高的执行质量。

Manus 在权威的 GAIA 基准测试中创下新纪录, 性能远超 OpenAI 的同类产品。

而 Manus 这个名字来自拉丁语,Mens et Manus,就是 mind and hand,即手脑并用。这也是麻省理工学院的校训,以此鼓励学生将创意落地为实际成果。

创始人肖弘在 Manus 发布的前几个小时,在即刻平台上发文「高潮来临」,并分享了莎士比亚的一段书摘:

很难现在就判定 Manus 的诞生就是 AGI 的里程碑,但它很有可能将让 Agent (智能体)时代真的进入「高潮时刻」。

Manus 体验申请链接 👇
https://manus.im/invitation

筛简历、选房炒股,Manus 真会「干活」?

官方宣称,Manus 不仅仅是一个只会聊天的对话式 AI 工具,而是一个真正的自主智能体(Agent)。

当其他 AI 可能只停留在生成想法的阶段,而 Manus 能够独立思考并采取行动。官方将其视为人机协作的新范式,甚至可能是通向 AGI 的一个窗口。

与 Manus 同步出圈的还有一段长达四分钟的演示 demo。在这些案例中,Manus 完全自主地完成从规划到执行的全流程,展示了真正的 Agent 能力,而非简单的助手功能。

比方说,首先从一个常见的人力资源任务——筛选简历开始。

演示一开始就放了个大招,官方向 Manus 发送了一个包含 10 份简历的压缩文件,Manus 能像专业招聘人员一样高效工作。

它会先解压文件,然后逐页浏览每份简历,并记录重要信息。Manus 还能异步处理文件,这意味着你可以随时关闭电脑,等任务完成后,它会通知你。

当然,在这个过程中,你也可以随时给它新的指令。

接着,继续向 Manus 上传 5 份简历。在认真阅读了所有 15 份简历后,Manus 给出了排名建议,并提供了候选人资料和评估标准作为参考。

这还没完,我们还可以让 Manus 生成电子表格。

由于 Manus 具有知识和记忆能力,所以下次执行类似任务时,它会直接以电子表格的形式交付结果。

另一个演示案例中,结合家庭收入情况和孩子的上学要求,让 Manus 在纽约筛选一个安全、犯罪率低的社区,并购买符合标准的房产。

面对这类复杂任务,Manus 同样是有条不紊地将其拆解为多个步骤,并创建详细的待办清单。

  • 搜索并阅读关于纽约最安全社区的文章。
  • 研究纽约的中学情况。
  • 编写 Python 程序来计算预算。
  • 基于预算,在房地产网站上筛选合适的房源。
  • 整合所有信息,撰写详细报告并整理相关资料

转场到第三个案例,Manus 摇身一变成了专业的股票分析师。

让其分析英伟达、迈威尔科技,以及台积电在过去 3 年的股票价格之间的相关性,Manus 可以通过 API 访问权威数据源。在验证数据后,它开始编写用于数据分析和可视化的代码。

在完成数据分析和可视化后,Manus 也能基于这些数据创建一个网站。经用户的授权后,还能将网站部署至线上,并提供了一个可供分享的链接。

X 网友 @DavidAIinchina 也体验到了 Manus,并给出了极高的评价——「令人难以置信的用例」。

官方表示,以上展示的内容仅仅是 Manus 能力的冰山一角。

在用于评估通用 AI 助手在解决现实世界问题方面的能力的 GAIA 基准测试中,Manus 在所有三个难度级别上都达到了 SOTA 水平。

为了确保结果的可重复性,Manus 使用与其正式版本完全一致的配置进行评测。

除了基准测试,Manus 还在 Upwork 和 Fiverr 等平台上解决真实世界的问题,并在 Kaggle 竞赛中证明了自己的实力。

而这一切都离不开优秀的开源社区,因此官方也希望能回馈社区。

Manus 采用多重签名(multisig)系统,由多个独立模型驱动。今年晚些时候,官方将计划开源其中的一些模型,特别是 Manus的推理(postering)部分。

中国团队、两款爆品、百万用户

那么这款震撼业界的产品背后是谁?

据悉,Manus AI 背后的创始人肖弘是是华中科技大学软件工程专业 2015 届校友。

毕业后,他连续创业,2015 年创立夜莺科技,推出「壹伴助手」和「微伴助手」,服务超 200 万 B 端用户,获腾讯、真格基金等投资。

萦绕在肖弘身上的还有一个更鲜明的 AI 产品——Monica。

这是一款号称 All-in-One 的 AI 助手,最初以浏览器插件的形式推出。

通过集成主流大模型(如 Claude 3.5、DeepSeek 等),Monica 提供聊天、翻译、文案处理等功能,用户可通过自然语言创建定制化工具,并共享至工具广场。

Monica 同样是早期以海外市场为主,用户规模破百万,成为 AI 插件领域头部产品。

今年 2 月份,Monica 的中文版(monica.cn)已开启内测,目前免费向国内用户开放。该版本基于DeepSeek R1 和 V3 模型打造,具备深度推理思考能力,并支持记忆功能和实时联网搜索。

Manus 的技术哲学:less structure more intelligence

Manus 奉行的技术理念与主流也有些不同,是 「less structure more intelligence.」(更少的结构,更多的智能)

他们认为,当数据足够优质、模型足够强大、架构足够灵活、工程足够扎实时,computer use、deep research、coding agent 等能力会自然涌现,无需被设计为特定的产品功能。

作为大力出奇迹的代表之一,GPT-4-Turbo 在 GAIA 公开排行榜上的平均成绩不到 7%,即使是使用复杂多智能体系统的解决方案也仅达到 40%。Manus 的表现可以说是「遥遥领先」。

创始人肖弘在最近在和张小珺的访谈中,他也提前谈到了当时还未发布的 Agent 产品 Manus 。

「看上去它确实应该就是一个 chatbot,这是很符合大家想象的,同时在应用侧却很复杂,和 Monica 不一样,光用好不同模型就挺复杂。」

肖弘还将目前 AI 应用分为两类:一是填补主要应用产品的空档的不足,二是为特定场景提供独特解决方案的应用,比如 Perplexity (提供联网搜索功能) 和 Monica (浏览器插件形态) 都属于此类,它们填补了现有产品留下的空白。

而模型驱动的新场景这类应用,主要出现在图片和视频领域,直接由模型技术的进步驱动。像 Pika 和 Runway 等产品利用模型能力创造了新的应用场景。

有用户调侃 Manus 是「极致的套壳就是牛逼」,实际上肖弘并不忌讳让用户知道自己的产品用的是别人的模型。早在去年,他就把 Monica 比作消费电子产品,并把 ChatGPT 的 Logo 打在官网。

人机交互新时代已来,但别急着把 Manus 捧上 AGI 神坛

APPSO 在 2024 年年初曾作出一个预测:大模型将成为智能手机新的操作系统,自然用户界面(Natural user interface, NUI )将逐步替代现有的图形用户界面(GUI)。

而实现这种新交互的重要入口,就是 Agent 。

去年我们在很多手机的发布会上都看到类似的案例。 vivo 发布会展示可以 AI 订餐的 「Phone GPT」,华为鸿蒙的小艺和意图框架,还是荣耀的 YOYO 智能体,以及智谱的 AutoGLM,核心都是一样的:

让 AI 模仿人类的 Plan-Do-Check-Act(计划-执行-检查-行动)循环 ,从而像人类那样去操作设备。

智谱 AI CEO 张鹏之前提到,目前的 Agent 能力更像是在用户和应用之间,增加一个智能的调度层,链接所有应用甚至是所有设备。

这可以看做是大模型通用操作系统 LLM-OS的一种雏形,将对人机交互形式产生极大的影响。OpenAI 创始成员、AI 技术大牛 Andrej Karpathy 也曾多次谈到大语言模型操作系统(LLM OS)。

他认为大模型某种程度来说就是一种新的计算机和操作系统,它可以连接各种软件和硬件,以及所有模态信息组成的外设,并通过函数调用执行各种任务。

传统操作系统中,你需要围绕 CPU 构建一堆外设,比如鼠标和键盘、磁盘存储、以及缓存空间等。

而在 LLM OS 中,大模型本身就是中央处理器。I/O 外设也不再是鼠标和键盘,因为 LLM 可以兼容更多模态的数据输入和输出。同时大模型调用的外部工具也将从传统软件升级为智能体工具。

其中跨应用的操作是非常关键的一环,这意味着 Agent 能实现更加复杂的自主连贯操作,也可能走向真正的商业化落地。至于各家互联网公司提供的服务能否打通,可能是未来实现这种交互最大的障碍。

不过现在很多 AI 助手实现代操作的方式,实际上是调用手机的无障碍功能 (accessibility features) 的权限,来控制屏幕点击。

Manus 的出现,意味着 Agent 模式下的 AI 能够理解需求后独立工作,直到任务完成。这无疑是人机交互领域的一大步,它让我们看到了 AI 从工具向伙伴转变的潜力。

但要说我们已经一只脚迈入了 AGI 大门,也还为时尚早。肖弘自己也提到,早期的 Agent 更像是「功能机」,需要不断迭代和完善。目前的 Agent 仍需依赖于模型能力的提升,以及更完善的虚拟环境支持,才能真正胜任各种长尾任务。

如果类比智能驾驶,大概也相当于从 L2 级升级到 L3 级的辅助驾驶。虽然 Manus 在 GAIA 基准测试中表现出色,但这并不意味着它已具备通用人工智能的全部特征。通往 AGI 的道路依然漫长,需要解决模型能力、自主学习、任务泛化等多重挑战。

但因为有了 Manus 在自主性与通用性上的突破,通往 AGI 的大航海中,又多了一颗照亮我们的星。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


最低调的「AI 六小龙」阶跃星辰,在 DeepSeek 浪潮中交出了一份新答卷

By: 李超凡
21 February 2025 at 20:31

DeepSeek 掀起的浪潮还没结束 ,不只是 OpenAI ,中国的「 AI 六小龙」都要面临拷问:Scaling Law 是否还能持续,开源还是闭源,AI 落地的路线是否还行得通。

今天,AI 六小龙中一直比较低调的阶跃星辰,率先交出今年的第一份答卷。

在首届 Step UP生态开放日,阶跃星辰公布了自己探索 AGI 的方式,开启多模态推理的技术研究,并将 AI 落地的重点押注在智能终端,重点布局汽车、手机、具身智能、IoT 等应用场景。

阶跃星辰创始人、CEO 姜大昕认为,智能终端将成为 Agent (智能体)技术大规模应用的关键载体。

们朝着实现 AGI 的目标稳步前进,目前已进入 Agent(智能体)的发展阶段。

他指出智能体的发展依赖于两大关键要素:

一是多模态能力,让智能体充分地感知和理解世界;

二是推理能力,使智能体能够进行长思维链的慢思考,主动规划、尝试、反思,通过不断纠错提供准确的答案。

多模态让智能体像人一样「看、听、懂」,相当于人的「感官系统」,而推理能力就是处理信息的「大脑皮层」。

二者结合就能让 AI 《红楼梦》里的王熙凤,一双丹凤三角眼,不仅能察言观色,还能从一句话、一个动作中读出对方的深意。

多模态也是阶跃星辰在六小龙中最大的特点,目前阶跃 Step 系列模型矩阵已经发布了 11 款多模态大模型,覆盖语音识别、语音生成、多模态理解、图像及视频生成的全面能力。

前几天阶跃星辰还开源了Step-Video-T2V 视频生成模型和 Step-Audio 语音模型,成为六小龙最快拥抱开源的其中一位,但和 DeepSeek 不同的是,阶跃星辰开源的模型均为多模态,而这也是 DeepSeek 还没展现的能力。

去年 APPSO 就曾用阶跃星辰旗下的跃问应用,让还不支持的苹果 AI 的国行 iPhone 16 ,获得类似官方视觉智能的能力,按下拍摄按钮,拍照问就能轻松打开,看到任何需要咨询的东西,基本都能找到答案。

至于推理能力,阶跃星辰今天还宣布了和清华大学共同研发的开源推理模型 Open-Reasoner-Zero,首次从预训练模型开始就大规模强化学习,效率达到 DeepSeek-R1-Zero 的 25倍。

姜大昕在现场还预告了内部正在研发的视觉推理模型,其实这样揭示了阶跃星辰推动 AI 落地的技术逻辑:将多模态能力和推理能力结合,让智能终端成为 Agent 的载体。

目前,阶跃星辰的模型能力在智能终端主要有以下这些场景。

  • 汽车场景:与吉利合作开发的智能座舱Agent,通过多模态交互(语音+视觉)实现「可见即可说」,例如用户说「导航到最近的充电站」,Agent自动调用地图、查询充电桩状态并规划路线。
  • 手机场景:与 OPPO 共建的「一键问屏」功能,用户拍照或截图后,Agent 能直接解析图片内容(如商品、文档)并调用 API 完成搜索或翻译,无需手动切换 App。
  • IoT场景:与 TCL 等厂商合作,通过设备间联动实现主动服务,实现设备间的智能化升级和体验的无缝连接。
  • 具身智能,:促进 Agent 在具身领域的创新应用。阶跃星辰宣布与智元机器人战略合作,共同探索 AI+具身机器人应用场景。

AI 智能终端是一个既性感又饱受争议的概念,可能会让很多硬件通过 AI 提升用户的体验,最近不少手机纷纷都宣布接入 DeepSek,同时去年爆火的 AI 硬件 Ai Pin,下个月就将停止所有的 AI 服务、消息推送等联网功能。

目前大多数手机接入的 DeepSeek,都是给语音助手加一个插件式外挂,同时由于 DeepSeek 尚不支持多模态能力,使用场景受到的限制就比较多。最近网上流行的「DeepSeek+xx」的组合玩法,其实就是为了弥补其缺乏的能力。

去年率先喊出 AI 手机的 OPPO,就在 AI 终端融合走得更远。

比如使用小布助手App「一键问屏」,用户通过多模态视觉跟 AI 交互,实现拍照问答、文档问答,识屏问答等多种功能。

用户甚至可以给小布下达指令让它进入各种应用端完成任务,比如进入淘宝、京东搜索同款商品,在小红书、同花顺、携程等平台搜索信息和服务,在飞书、钉钉、企业微信等社交软件搜索聊天记录等,实现一键全能搜。

这些功能OPPO 基于阶跃星辰 Step 系列多模态模型共同开发的,OPPO 智能助理部部长、小布助手负责人万玉龙告诉我们,随着新一代 AI 技术与移动终端的深度融合,手机已经逐步进化为能够理解用户意图、提供主动服务、甚至预判用户需求的智能助理。

智能终端正在迈入 Agent 时代。和过去最大的不同在于:本地化 AI 推理能力使终端从被动响应指令的工具,升级为主动理解需求、跨应用协同的「智能伙伴」。

让这一蓝图成为现实的,则是多模态 AI 智能体,它将作为新的交互界面,无需物理界面,类似《阿凡达》中的灵魂树,连接所有赛博智能体,用户甚至通过思维直接与 AI 交互,来完成所有现实任务的执行。

姜大昕提出 AGI 发展需经历模拟世界、探索世界、归纳世界三大阶段:

  1. 模拟世界:通过模仿学习训练多模态模型,统一表征声音、文本、图像、视频及物理世界。
  2.  探索世界:引入强化学习(如AlphaGo、DeepSeek),赋予模型逻辑推理与问题解决能力。
  3. 归纳世界:探索机器自主发现物理规律的能力,如牛顿从苹果落地推导万有引力定律,目标是将 AI 与科学家协同创新。

通往 AGI 的路或许不止一条,但总需要有人去蹚出不同的路,阶跃星辰选择了智能终端 Agent 这条路,或许下一次人机交互的革新,已经埋下了草蛇灰线。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌
❌