Reading view

There are new articles available, click to refresh the page.

开源版的 GPT Image 2,信息图、连续图文、本地部署全拿下|商汤SenseNova U1实测

最近 GPT Image 2 火了之后,网上都是那些彻底以假乱真的 AI 生成图片。大模型在视觉这条路上越走越远,让人兴奋又让人敬畏。

而 GPT Image 2 在眼下的 AI 生图领域,几乎是没什么好争的。但如果说云端闭源收费的最好模型是 GPT Image 2,那能部署在本地的,免费开源模型或许会是 SenseNova U1

▲由 SenseNova U1 生成

SenseNova U1 是商汤最新发布的一个开源的多模态模型,它的 Lite 系列 8B 和 A3B 参数版本,目前已经在 Hugging Face 和 GitHub 上开源。

从模型参数和选择开源的路线上,我们就能看到它和 GPT Image 2 是不太一样的方向。

APPSO 也提前拿到了测试资格,我们发现商汤这款新一代原生理解生成统一模型,就开源模型来说,已经做到了最好水平。

它带来了大模型行业首创的连续图文生成输出,就是用单一模型就能连贯输出图片和文字,这个新鲜很值得去试一试。

目前 SenseNova U1 开源模型的权重已经在 Hugging Face 和 GitHub 上开放下载。

GitHub:https://github.com/OpenSenseNova/SenseNova-U1

Hugging Face:https://huggingface.co/collections/sensenova/SenseNova-U1

带着图片的思考

我们可能遇到过这样的需求,想让 AI 解释一个复杂概念,同时配上示意图,而且图要跟着文字的逻辑走,解释到第几步,图里就画到第几步。

一般的模型可能会直接采用生成代码的方式来解决这个问题,像 Claude 使用的流式构图,或者一些 Vibe Coding 的网页,包含文字和配图。

但是要完全用一个模型同时在回复流里面,生成文字和图片,并且不借助外部工具的调用,基本上现有的模型做不到这一点。因为文字生成和图像生成在模型底层,往往是两件事。

SenseNova U1 的第一项特点,就是在单一模型上进行连续的图文创作输出。

比如我们试了一个场景,让他生成一份简单的绘本故事,讲述一只小熊历经四季的变化。

▲ 提示词:请创作一个图文绘本故事,主角是一只棕色的小熊,故事讲述它经历四季变化。

生成的连续图文不仅理解到位,有一定的故事性,而且能很好的保持一致性,同时图片的文字渲染全部准确,小熊也在冬天穿上了毛衣,戴上了帽子。

实测中发现用 SenseNova U1 来进行一些创意性的工作也非常有意思。

在官方的测试案例里,上传一张大头贴给模型,然后要求它设计几款不同的发型。可以看到,在生成连续图文的完整过程中,人物的一致性,以及结构、细节,SenseNova U1 都做到了精准保持。

▲ 提示词:帮我设计几款合适的发型,希望好看的同时比较有特色,然后帮我选一款最适合我的

还能直接让他设计一个游戏角色,展示从整体视觉基调、核心交互细节,再到环境叙事和性格刻画的逻辑迭代过程。

更有意思的是,基于时序性的回答,用 SenseNova U1 创作是再合适不过。我们要求他生成一颗牛油果变成一颗室内盆栽的过程,连续图文的形式很好地呈现了完整的生长过程。

▲ 提示词:怎么把一颗普通的牛油果种成一棵室内盆栽

一番测试下来,图片从来没有离开过文字的逻辑,推理的思路走到哪里,图片就跟到哪。

以前的图文结合或许是调用不同模型,和对应工具的写作,确保回复的内容里,图文是在说同一件事。现在这项写作从底层直接发生在模型内部,无论是工具还是软件,都不需要参与对齐的过程了,我们也只需要看到最后的结果。

对内容创作者、设计师和营销人员来说,SenseNova U1 的出现,开始解决了一个长久以来的痛点,即如何让 AI 边写边画,而且图文逻辑严丝合缝。

量大管饱的最强开源

确认了它的原生理解生成统一能力后,我们要看 SenseNova U1 能否在复杂信息图生成方面,达到开源模型的最好水平。

信息图是把一大段复杂的文字或数据,压缩成一张一眼能看懂的图。这件事其实比「画一张漂亮的图」难得多,需要理解内容,知道哪些是核心,哪些是辅助,信息之间的逻辑关系,以及文字渲染等,都是难题。

闭源的 GPT Image 2 在这方面已经做得很好了,我们在测试的时候一开始也没有抱着太大的希望,会比 GPT Image 2 还要更好。但 SenseNova U1 的表现,拿下开源 SOTA 的称号也确实是当之无愧。

我们先是就用一句话「用一张信息图解释一下 DeepSeek V4」,没有任何附加的提示词,看看它生成的信息图表现如何。

▲ 由 SenseNova U1 生成

能看得出来 SenseNova U1 有联网搜索到和 DeepSeek V4 相关的信息,像是原生多模态,还有万亿参数,以及百万的上下文 Token。

而除了简单的提示词,还可以直接发送一个链接给它,SenseNova U1 也有对应的网页抓取工具,提取网页内容,来进行信息图的生成。

这些知识科普类的信息图,SenseNova U1 的表现基本上都能驾驭。更简单的像是「一张什么是电子烟的 3D 拆解科普」,它也能很快生成。

▲由 SenseNova U1 生成

而如果提示词稍微详细一点,它也能完全照着提示词的内容,把这些文字准确渲染成可视化程度较高的信息图。

还有像是最近很火的武汉三鲜豆皮,直接告诉 SenseNova U1,生成一张三鲜豆皮完整制作流程的步骤图。

还有夏天来了,挑选不同的防晒霜,也是一张信息图,就能把 SPF 和 PA 值这些复杂的挑选参数讲清楚。

甚至是要它画一张 AI 大模型从训练到推理的工作原理图,适合完全不懂技术的人看懂;SenseNova U1 也能用轻松有趣的风格,简单的描述 AI 大模型的工作过程。

在其他场景的应用,像是营销、办公、设计参考和商业分析,我们都用不同的例子来测试了 SenseNova U1 的表现。

一般来说,营销场景对视觉风格的要求最高,也是最能看出模型有没有真正理解「用户想传递什么感受」的地方。一张好的营销图片,放在文章中间,甚至有可能直接被我们误认为是微信的文章内广告。

就像这张 SenseNova U1 生成的上海旅行信息图,不仅把地图描绘出来了,还列举了上海的特色。

在办公场景里,好看又要比准确和高效更重要。我们测试了它对信息处理的能力,把一份五页的会议纪要压缩成一张一屏能看完的总结图,要求逻辑清晰、重点突出,适合直接转发给没参会的同事。

复杂的信息之外,SenseNova U1 也能做到很好的视觉风格参考,给它一段品牌的调性描述,要求生成一张包含配色建议、排版建议、氛围关键词的风格参考图,结果居然也还不错。

在一些数据分析的任务上,我们也测试了 SenseNova U1 数据可视化的能力,用图表的方式来呈现更合理的信息图。

可以看到,SenseNova U1 在信息提炼这一步做得不错,它确实读懂了内容,知道什么重要什么次要。

但是在视觉表达上还有提升空间,有时候一些文字的渲染,还是会出现错误,对于需要快速出图、不想花时间在设计工具上反复调整的场景,已经完全够用。

下一个多模态模型的样子

实测完 SenseNova U1,我们发现它的意义,在于它是第一个把「理解和生成统一」这件事认真做出来的开源模型。而这,或许是整个多模态领域下一步要走的方向。

GPT Image 2 的刷屏,说明图像生成的「生成质量」这条线已经被闭源模型拉得很高了。开源模型如果继续在同一个维度继续追,大概需要很长的时间才能赶上,并且开源的价值也会被压缩到只剩下「便宜」。

SenseNova U1 提供了一个不同的技术路径,对于整个开源社区的方向都有着重要意义。它除了在解决「怎么生成更好的图」,也在告诉我们多模态模型的下一步会是什么样子。

▲ SenseNova U1 采用了行业首创的 NEO-unify 原生架构,实现多模态理解生成的高效统一

过去的多模态模型,理解图和生成图是两套系统在协作。一套负责看懂输入,一套负责画出输出,中间靠接口传递信息。两套系统各有各的内部语言,信息在传递过程中会有损耗,就像两个人用翻译软件沟通,意思大体到了,但总有点什么没传过去。

SenseNova U1 则是从底层把这两件事,合进了同一个表征空间。他们今年 3 月的技术博客里,就重点讲解了 NEO-unify 这一项架构。

目前大模型行业的惯例是,多模态 AI 看图要靠一个叫「视觉编码器(VE)」的东西压缩处理,然后再交给生成器。在 NEO-unify 架构里,商汤把这套臃肿的传统范式直接扔了。

结合 NEO-unify 结构的 SenseNova U1,所使用的视觉接口是近似无损的,它直接把图像分块(Patch)吃进去,不经过任何预训练编码器压缩;然后在同一个主干网络里,让文本和视觉的训练端到端统一进行。

在理解与生成各项基准测试上,SenseNova U1 的表现也达到同量级开源模型的 SOTA 水平,甚至在多项指标上的表现能和 Nano Banana 这些闭源模型相媲美。

▲ 分别是图像理解、图像生成,和视觉推理基准测试结果

它回归了多模态的第一性原理,从底层的像素和文字开始,自己构建内部的认知。

这也能解释为什么它消耗的 token 更少,生成效率更高。即使它只有 8B 的参数的版本,也能打出超强的极致性价比。

本次开源的是 SenseNova U1 的轻量版本 SenseNova U1 Lite,目前它有两个版本:8B 参数的 SenseNova-U1-8B-MoT,可以在边缘设备上跑;38B 总参数但激活只有 3B 的 SenseNova-U1-A3B-MoT,提供更强能力,同时将推理成本控制得很低。

▲SenseNova U1 已经在 GitHub 和 Hugging Face上开源,链接:https://github.com/OpenSenseNova/SenseNova-U1、https://huggingface.co/collections/sensenova/sensenova-u1

两个版本都可以本地部署、可以微调、可以接进自己的数据管道。对需要把图像生成能力嵌进自己产品的开发者来说,能够对模型行为有完全的控制权,数据也不用出去。

如果你需要一个能够高效实现理解与生成的模型,作为开源模型里的最强代表,SenseNova U1 确实值得尝试。

商汤还在 GitHub 上开源了面向 Agent 运行时的 AIGC 技能库 SenseNova-Skills。我们可以直接把SenseNova U1这种强大的能力,接入到自己的智能体(Agent)工作流中。

利用这个工具包,我们可以直接在像 OpenClaw、Hermes 这样的 Agent 平台中一键调用。模型会自动评估我们的提示词,选择合适的版式,经过多轮生成,输出最佳的专业信息图结果。

▲ Skills 链接:https://github.com/OpenSenseNova/SenseNova-Skills

回顾整个测试,SenseNova U1 这次交出了一份不错的答卷,它是目前我们能拿到手里的同量级最强开源模型。

对创作者来说,它行业首创的连续图文创作输出能力,打破了过去文字与配图割裂的窘境,真正让边思考、边写作、边配图的连贯创作成为现实。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

从智能驾驶到「智能一切移动」,卓驭想做移动物理 AI 的底层基座丨北京车展

过去几年,智能驾驶行业的关键词一直在快速变化。

从高精地图到无图 NOA,从感知、预测、规划、控制的模块化架构,到端到端模型,再到最近行业频繁讨论的 VLA、世界模型和物理 AI,智能驾驶已经不再只是「让汽车自己开」这么简单。它正在成为一个更大的技术问题:AI 如何理解真实物理世界,并把这种理解转化为稳定、可靠、可泛化的移动能力。

汽车只是其中最早、也最复杂的载体之一。因为车辆必须在开放道路中面对行人、车辆、红绿灯、施工、极端天气和不同国家的交通规则,它需要同时处理感知、决策、控制和安全冗余。也正因为如此,智能驾驶过去几年积累的技术、数据和工程能力,正在向商用车、无人物流、Robotaxi,甚至更广义的移动机器人外溢。

在 2026 北京车展上,卓驭科技以「智能一切移动」为主题举办发布会,正式推出面向移动物理 AI 的原生多模态基础模型,并展示了其在乘用车、商用车、无人物流和 Robotaxi 等多个垂类的规模化落地进展。相比单纯发布一套智驾方案,这次发布会更像是卓驭对自身定位的一次更新:从智能驾驶供应商,继续向移动物理 AI 公司延展。

原生多模态基础模型,把智能移动能力做成通用底座

智能驾驶进入下半场后,一个关键问题开始浮现:系统能力能否从单一车型、单一城市、单一场景,迁移到更多载体和更多区域。

早期的小模型方案,主要依赖感知模型、高精地图和规则算法。它可以在特定区域做到相对稳定,但每进入一个新城市,都需要大量适配工作。后来端到端模型提升了通用基础能力,减少了规则依赖,也让 NOA 的体验更加接近人类驾驶习惯。不过,面对海外市场、商用车、无人配送车、Robotaxi 等不同垂类时,端到端系统仍然需要大量重新泛化。

卓驭这次发布的原生多模态基础模型,正是试图解决这一问题。按照卓驭的说法,这套模型面向「移动物理 AI」构建,在底层完成对物理世界通用规律的预训练,支持视频、文本、动作、语音、地图等多模态统一表征。它的训练数据不只来自智能驾驶,还覆盖互联网数据和各类移动机器人第一视角数据,并注入跨领域、跨国家知识。

这意味着,卓驭希望把移动智能的能力从「车」抽象到「移动载体」。当模型具备对物理世界更底层的理解后,不同国家、不同道路、不同平台之间的适配成本有机会被降低。它的目标,是实现 Zero Shot 零数据知识迁移,做到跨垂类开箱即用,或至少大幅减少泛化工作。

这也是它与部分 VLA 方案的区别。常见 VLA 路径往往需要从传感器输入到语义理解,再到动作输出,中间存在显式语义翻译环节。卓驭强调,其原生多模态基础模型是在统一框架下完成训练,避免语义翻译带来的延迟和信息损耗,让语义理解与物理理解更紧密地结合在一起。

从行业角度看,这一路径的价值不只在于提升智能驾驶体验,更在于为多种移动机器人提供统一能力底座。乘用车、重卡、客车、无人物流车和 Robotaxi 面对的场景差异很大,但它们都需要理解空间、运动、规则、风险和目标。如果底层模型可以沉淀出通用能力,智能移动的规模化部署将不再完全依赖逐一项目制适配。

当然,基础模型只是第一步。真正进入量产,还需要后训练、蒸馏、部署、芯片适配、传感器融合和安全冗余。卓驭此次开放了原生多模态基础模型的乘用车试乘体验,体验车基于英伟达 Thor 平台,采用 11V 视觉方案与激目 2.0 系统。按照规划,该模型将于今年内推送至乘用车与商用重卡,并作为卓驭智能驾驶出海的基础模型。

从乘用车到重卡、客车和 Robotaxi,规模化交付决定技术上限

如果说原生多模态基础模型代表技术趋势,那么卓驭这次在北京车展上展示的另一条主线,是规模化交付。

智能驾驶行业过去并不缺概念,真正稀缺的是把技术放进量产车、真实道路和长期使用场景里的能力。卓驭在 2025 年提出「移动智能基座」构想,本质上就是希望通过软硬一体方案,把智能驾驶能力做成可以跨车型、跨价位、跨场景复用的基础设施。

在乘用车领域,卓驭目前累计量产车型超过 50 款,定点车型达到三位数。它强调的是「油电同智、中外同频、舱驾同芯、行泊同优」:无论燃油车还是新能源车,自主品牌还是合资品牌,都能共享同一梯队的智能化体验。

这背后也反映出一个变化:智能驾驶正在从高端新能源车型的专属配置,逐步向更大价格带、更大车型范围下沉。卓驭基于高通 8775 芯片打造了单芯片舱驾一体方案,试图用更高集成度降低智能化部署门槛。今年 4 月起,所有搭载高通 8650 和 8775 芯片的车型,将陆续升级至高悟性端到端 4.0;搭载 TI TDA4-VH 芯片的中低算力平台,也将逐步升级至高悟性端到端 3.0。

商用车是卓驭这次发布会的另一个重点。重卡对智能驾驶的需求很实际:安全、油耗、长途驾驶疲劳和运营效率。卓驭已经与中国 TOP 6 商用车品牌建立合作,搭载高悟性端到端 4.0 商用重卡版的车型,将于今年 6 月起陆续量产交付。

重卡方案中,卓驭引入了激目 2.0 系统,也就是舱内激光视觉前融合方案。它针对重卡尺寸大、清洁维护不便、安全冗余要求高等特点设计,可以在不同速度场景下调整感知能力:低速城区场景覆盖更大范围交通参与者,高速场景则提升远距离探测能力和点云密度。搭载该方案的车型计划于今年 9 月正式量产交付,功能覆盖高速 NOA、城区 NOA 和自主泊车。

客车方面,卓驭已与宇通客车达成战略合作,双方将联合开发面向商用客车的 NOA 智能驾驶解决方案。该方案搭载激目 2.0 系统、自研自产补盲激光雷达「知周」、基于英伟达 Thor 芯片的高性能控制器,并应用下一代原生多模态基础模型。对于客车而言,智能驾驶的优先级并不只是效率,更关乎公共交通场景下的安全和稳定。

无人场景也在同步推进。卓驭计划于今年 7 月启动无人物流车试运营,并与生态伙伴推进 L4 级 Robotaxi 系统落地,预计今年下半年开启试运行。Robotaxi 将搭载下一代原生多模态基础模型,并配备卓驭自研自产、基于双英伟达 Thor 芯片打造的三冗余 L4 级控制器。

截至目前,卓驭已携手 34 家客户,合作车型突破 130 款。这个数字的意义不只是客户规模,更在于真实道路数据和工程反馈。对智能驾驶公司来说,模型能力往往来自数据闭环,工程能力则来自量产压力。只有经历不同品牌、不同车型和不同用户场景,技术路线才有机会持续迭代。

本次发布会上,卓驭还宣布与中国一汽达成深度战略合作。在乘用车领域,红旗与卓驭联合开发的红旗司南组合驾驶辅助已在红旗 HS6、天工 05、天工 06 等车型量产,高悟性端到端 4.0 模型将在今年上半年通过 OTA 升级上线。车展亮相的红旗天工 S 概念车,则采用基于卓驭原生多模态基础模型的新一代架构,并搭载 L3 / L4 智驾解决方案。

商用车领域,一汽解放与卓驭的合作也已进入产品落地阶段。基于激目 2.0 系统与高悟性端到端 4.0 模型打造的解放 J7、鹰途和 J6 重卡高速 NOA 产品,将于今年下半年上市。

从这些布局来看,卓驭想讲的并不是单一智驾版本升级,而是一个更大的移动智能网络:乘用车提供规模,商用车验证高强度运营,Robotaxi 和无人物流探索无人化边界,车载无人机则把移动载体从地面进一步扩展到近地空间。

智能驾驶过去常常被看作汽车行业的一项配置,但从北京车展释放的信息来看,它正在变成一类新的基础能力。未来,竞争的焦点会逐步从「某个城市能不能开」转向「能不能跨场景、跨品类、跨地区复用」。谁能把能力做成底座,谁就有机会进入更大的移动机器人时代。

对卓驭而言,原生多模态基础模型只是这条路径上的起点。真正的挑战在后面:如何把模型能力稳定部署到不同算力平台,如何在真实道路中保持安全边界,如何在海外市场减少泛化成本,如何让商用车、无人物流和 Robotaxi 都形成可持续商业闭环。

当 AI 开始进入物理世界,移动会是最先被重塑的领域之一。汽车、卡车、客车、配送车、无人机,本质上都在回答同一个问题:机器如何理解世界,并安全地抵达目的地。卓驭这次提出「智能一切移动」,野心正在于此。能否真正做到,还要由量产规模、用户体验和长期安全表现共同验证。

稳中向好。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

刚刚,姚顺雨腾讯首秀来了!三个月重建混元新模型,实测到底什么水平

这周,中国大模型的更新让人窒息。前脚阿里最强旗舰 Qwen 3.6 Max刚发布,月之暗面的 Kimi 2.6 就马上登场,DeepSeek V4 也箭在弦上。

刚刚,混元的 Hy3 Preview 也正式亮相,这是腾讯首席 AI 科学家姚顺雨主导的一个模型。

姚顺雨表示,Hy3 preview是混元大模型重建的第一步。他希望通过这次开源和发布,不断提升 Hy3 正式版的实用性,以及模型在真实场景中的综合表现,并开始探索特色模型能力。

从去年年底姚顺雨加入腾讯,入职首席 AI 科学家,并负责 AI Infra 及大语言模型,1 月底开始启动模型训练,三个月的时间完成了从训练到上线。

这个大版本升级的混元模型,在短时间内,不仅对底层基础设施进行了系统性重建,还包括预训练和强化学习在内的底层框架,全部推倒重来。

最后的答卷是一个快慢思考融合的 MoE(混合专家)语言模型,总参数 295B,激活参数 21B,最大支持 256K 上下文长度。

在这个行业动辄吹嘘万亿(1T+)参数的时代,Hy3 preview 的数据显得有些克制。但这个参数很明显是兼顾了性能和成本之间的平衡,让模型能更好落地在不同场景。

而 300B 这个量级,复杂的数理推理、长上下文理解和指令遵循能力都已经被充分激活;如果继续强行扩大规模到万亿参数,一边是训练时间加倍,在实际的表现上,也容易出现通信延迟、吞吐瓶颈和推理成本翻倍等问题。

不过,姚顺雨也提到,他们在继续扩大预训练和强化学习的规模,提升模型的智能上限。

在多个真实生产和生活场景 benchmark,以及腾讯混元的 CL-bench 上表现对比前代,提升幅度明显。

因此,Hy3 preview 这次的定位非常明确,要到真实世界去解决复杂工程问题。

为了验证 Hy3 preview 是否能在真实世界去解决各种问题,具体的模型表现如何,APPSO 也提前拿到了内测资格,在元宝 App 和 WorkBuddy 桌面端应用了实测了一段时间。

编程和 Agent,混元开始接住真实的工程需要

编程能力目前还是各家大模型发力的重点,前几天还有外媒报道,谷歌正在成立一个新的团队,专攻 AI Coding。

这次的腾讯混元新一代大模型 Hy3 preview 同样在通用能力的提升基础上,能够适用于编程和现在热门的智能体场景。

例如我们用之前 GPT 5.4 模型发布时使用的编程测试案例,来看看 Hy3 preview 的具体表现。

▲提示词:创建一个超写实的旧金山金门大桥交互式 3D 体验,允许我自由飞翔环绕。环境需包含真实的照明、水体、雾气、大气效果、悬索、车流、周边海岸线及城市背景,并具备电影级的尺度感和细节。让我能通过直觉式的飞行控制和多视角(包括近距离结构穿梭和大场景俯瞰)平滑地进行场景导航。核心要求是真实感、沉浸感和视觉忠实度。在测试运行时,务必从多个距离和角度环绕大桥飞行,验证导航的平稳性与稳定性,并确保场景无论远近都极具说服力。你可以利用 imagegen 技能生成建模所需的初始资产。视觉效果绝不能有任何“方块感”或“廉价感”,必须达到高保真、极度平滑、近乎照片的质感。桥面上应有真实的车辆通行。不必急于求成,如果需要,即使耗时一小时也可以。请不断迭代,直至完美。

虽然最后的结果并不是非常写实,主要差距还是在于所使用的工具限制。但整个体验还是非常流畅和丝滑,我们能使用 WASD 键来控制自己第一人称视角的飞行,同时 Hy3 preview 也自动写了一些默认视角。

而在让它写一些简单的小游戏时,像是同样来自 GPT-5.4 的提示词,做一个游乐场的经营类小游戏。

▲提示词:创建一个可以在浏览器中构建并导航的交互式等轴测 (isometric ) 主题公园模拟游戏。利用 imagegen 确立整体视觉风格,并生成全套游戏资产,包括游乐设施、路径、地形、树木、水体、食品摊位、装饰物、建筑、图标以及 UI 插画。游戏世界必须具备高度的统一感、精致度以及丰富的视觉表现,艺术风格需高端且适配等轴测视角。允许平滑地铺设或拆除路径、添加景点、布置景观并环绕公园移动,同时能够监控游客活动、设施状态以及公园的发展情况。系统需包含可信的游客移动算法,以及简单的公园管理系统(如资金、清洁度、排队和满意度)。确保整体体验充满趣味、逻辑清晰且完整,而非粗糙的原型。在优先级上,趣味性、易读性以及出色的游戏手感高于写实度。在进行玩法测试时,务必通过多轮操作来构建并扩张公园。验证设施放置与导航是否顺畅,确认游客对公园布局及景点的反应,并确保视觉效果、UI 以及交互体验稳定且统一。

还是不可免俗的使用了「渐变紫」的套装,只能说界面审美这一块,除了编程能力的提升,还是需要额外的一些微调。

好在整个游戏是能玩的,我们可以真实的经营这个游乐场,通过铺路、放置新的游乐设施以及服务设施等场地,来赚取收入,控制人流。

而经典的「骑自行车的鹈鹕」测试,我们把它换成了更难一点的,开着汽车的长颈鹿。生成的 SVG 画面是动态的,太阳、云朵和车子都在移动,基础的 SVG 元素都能做到。

这些关于编程能力的测试,我们都是在腾讯前段时间推出的智能体应用 WorkBuddy 内完成。

而除了代码开发的任务,我们还可以使用 WorkBuddy 进行文档处理、数据分析可视化、深度研究等方面的日常办公。

由于 WorkBuddy 也是一个本地 Agent 产品,和 Claude Code、Codex 之类的应用一样,我们可以让它直接访问本地文件夹的文件。

要求它访问电脑上 Hy3 文件夹里面的全部文件,并根据文件的内容,创建一个类似于 Wiki 的网页,能够直接索引到不同的文件。

WorkBuddy 读到了我们创建的不同项目,例如要求它完成的落地页、3D 金门大桥、个人博客、运营游戏等项目,并分类总结好。

再要求它把其中一个香港国际电影节的 PDF 文件转成 HTML,要求它 1:1 复刻精美的杂志效果,显然太为难它,但是 Hy3 preview还是能在非常规排版的 PDF 文件里,准确定位到信息,并整理成网页。

而在深度研究的调研任务上,我们要求他写一份关于内存市场洞察报告,给出的文档内容详细,使用的数据来源也全是权威机构。

继续用 WorkBuddy 内的数据分析及可视化任务来测试时,要求 Hy3 preview 基于联合国人口司的数据,做一次全球人口结构变迁的可视化分析,Hy3 preview 花了非常长的时间进行调研,最后给出的研究报告,可以说能直接拿过来用。

▲部分可视化图表截图

这些编程和智能体的能力,配合 WorkBuddy 能发挥到最大。在元宝 App 内,现在我们也可以让它生成一些小型的网页游戏,在对话框里就能预览打开。

闲聊,要做到「活人感」不容易

前段时间,一个短视频在网上传播,视频内容是一位乘客看到前排的司机,在手机上和 AI 助手聊天,他告诉 AI 自己一天收入,AI 会给他一些反馈。

有网友在下面留言,说以前这些聊天都是 200 块一小时的心理咨询,现在手机发条消息就能做到。

无论模型在代码开发、解数学题、科学研究上取得了多少成功,大多数人用 AI 的场景,占比较多的还是各种类型的角色扮演。

我们也测试了腾讯混元新一代大模型 Hy3 preview 在日常聊天以及创意写作上的表现。

没有「不躲不逃不藏的只用最直接」的方式跟我说,有的是真实地能解决问题的文字。打开元宝 App,点击深度/快速思考,选择模型 Hy3 Preview,问它「为什么我在广州找不到爱情」。

它的回复是客观和主观两方面并行的,会分析除我之外的原因,也会告诉我应该要怎么做。

在聊到一些可能找到明显原因的困惑时,Hy3 preview 还会自动生成对应的表格,来解释 AI 并不是只会顺从。

创意写作的任务上,Hy3 preview 模型的表现,也要比前代更有文采和个性化风格,即便是简单的生活文案,人情味也更明显了。

我们找了一些基础的风格模仿任务、叙事节奏的续写、语言的创作力和情绪张力等题目,来测试它。

生成的写作结果,在独特性、执行精确度,以及风格稳定性上的表现,确实要更符合我们人类写作的特点,没有 AI 那种明显的套话。

那道经典的走路去还是开车去洗车问题,Hy3 preview 也答上来了。

当所有人在做一套卷子,混元开始出卷

过去两年多,中国 AI 行业有一种集体焦虑:所有人都在做同一件事。同样的架构,同样的训练范式,同样的榜单,同样的新闻稿模板。模型发布会的 PPT 换个 logo 就能通用,「全球领先」「性能登顶」这些词被用到通货膨胀。

腾讯曾经也在这个队列里。别人打榜它也打榜,别人堆参数它也堆参数,别人做什么功能它追什么功能。结果是混元的技术投入不少,但市场感知始终模糊。你问用户「混元跟别家有什么区别」,大概率答不上来。

Hy3 preview 的意义,可能恰恰在于腾讯终于不追求打榜了。这也是姚顺雨带给混元最大的变化。

此前晚点一篇报道就转述了姚顺雨在腾讯内部会上的判断:模型过度追逐榜单成绩,将打榜语料放入训练集,数据被污染了。模型很会答题,到了真实场景却不稳定。

榜单衡量的是能力上限,用户感知的是能力下限。MMLU 上领先两个百分点,用户在实际使用中几乎感知不到;反过来,指令遵循稍差、格式不稳定、幻觉率偏高,用户体验会断崖式下降。

所以在 Hy3 preview 上, 就能看到混元开始把这个逻辑翻了过来:不追榜单,追场景。

▲去年一份报告就曾指出, AI 在各类基准测试上的分数一路飙升,benchmark 过于饱和,这些成绩往往并不能真实反映它对现实世界的实际影响。

295B 的参数量说明它不打算在模型尺寸上硬碰硬。不上公开榜单说明它不打算在刷分上继续内卷。Co-design 的研发模式说明它开始把注意力从「别人做了什么」转向「我的用户需要什么」。

这里就不得不来看看腾讯这家公司的核心业务场景,社交、游戏、广告、企业服务,每一个都有极强的领域特殊性。微信的对话流是碎片化的、高密度的;游戏需要模型根据实时局势做即时反应;企业微信和腾讯会议需要基于私有文档的精准分析。

▲ Hy3 preview 已在腾讯云、元宝、ima、CodeBuddy、WorkBuddy、QQ、QQ浏览器、腾讯文档、腾讯乐享等首发上线,微信公众号、和平精英、腾讯新闻、腾讯自选股、腾讯客服、微信读书等多个主线产品也在陆续上线。

这些场景对模型的要求,跟通用智能榜单上考核的那些指标并不完全匹配。一个在 MMLU 上排名前三但在微信群聊里读不懂语境的模型,对腾讯来说毫无意义。

换句话说,腾讯可能是中国大厂里最不应该去追通用榜单的那一个。它手里攥着的场景足够独特、足够复杂、足够有商业价值,完全可以走出一条自己的路。

Co-design 就是这条路的起点。模型在真实业务里跑,业务用真实数据反哺模型,腾讯对 AI 的巨额投入能得到场景的快速验证,同时获得商业上的闭环。这个飞轮一旦转起来,产生的壁垒比榜单上的排名坚固得多。

当所有人都在比谁的模型更「全能」的时候,谁的模型在自己的场景里最「好用」,可能才是真正的胜负手。

当然,「找到节奏」和「赢下比赛」之间还隔着相当的距离。

Hy3 preview 是混元重整后的第一个模型,三个月的研发周期说明执行力在线,但也意味着大量的优化空间。55% 到 56% 的盲评胜率说明它够用,距离拉开差距还早。更大尺寸的模型在路上,正式版还在根据 Preview 阶段的用户反馈持续打磨。

但至少有一件事变了:混元不再追着别人的地图跑了。它开始画自己的地图,标自己的路。

大模型竞争走到今天,同质化才是最大的风险。当所有人都在用同一把尺子量身高的时候,有人开始造自己的尺子,量自己真正需要的维度。

这件事本身,比任何一榜单参数都值得关注。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

3I/ATLAS_SUiTHiNKModel_v1

那年冬天,国际天文学联合观测网宣布,人类再次捕捉到一个“跨恒星访客”。
代号:3I / ATLAS

它并非金属,也不像冰体。所有望远镜的数据都在闪烁、紊乱、跳跃。
有科学家提出,它的表面并非反光均匀,而是一种会散射观测波段的天然迷彩。
这意味着,它在主动隐藏自己。

天文学家称之为“被注视的凝视物”。


一、模型

两个月后,一个名叫苏弋的工业设计师在社交媒体上发布了一张照片。
他掌心托着一个13厘米长的灰黑色小模型,表面布满刻意的不规则反光。
标题很简单:

3I/ATLAS_SUiTHiNKModel_v1

照片下没有说明,也没有解释。
但第二天早晨,它就出现在各大科技博主与艺术账号的页面上。
短短几天,#ATLAS掌心体# 的话题播放量突破一千万。

人们惊讶地发现:这个模型拿在手里,会因角度与光线不同而不断改变亮度与轮廓,好像真的在呼吸。
没有任何机械结构,却让人产生一种“被凝视”的幻觉。

潮流品牌纷纷推出联名款、限量款,甚至高定银质版本。
3I/ATLAS 成了地球上最受欢迎的“掌心饰物”。


二、名字

直到那时,人们才开始注意到模型命名里那个奇怪的后缀:SUiTHiNK

起初只是粉丝在 Reddit 上随口猜测:

“是不是苏弋 think 的意思?他在表达‘思考的我’?”

很快,语言学与符号学圈子加入了讨论。
牛津大学的一位古文字学家在论坛上指出,SUi 在苏美尔语音节表中确有记录,对应音素「šù-i」,意为“手中之物”或“掌握的”。
而 THiNK 若取古日耳曼转写体系中「þenkaz」的变体,则可指“思想、意志”。

这两个词放在一起——SUi / THiNK——意外构成一种双重结构:

“思想被握于手中”
“手成为思想的延伸”

正好对应了那枚贴合掌心的模型。


三、文件

一个名为《ATLAS分析草稿》的PDF文件在暗网流出,署名不明。
文件记录了苏弋受邀前往某个“国际天文资料保存计划”设计储存容器的过程。
文件被加密,只能读到部分片段:

「……他拒绝使用镜面金属,要求采用能分散反射的表层……」
「……他说它看我们的方式,与光的角度有关……」

消息曝光后,网友纷纷去翻苏弋的旧贴。
有人发现,在他早期设计的数个装置艺术中,常出现一种奇怪的结构:
不规则的反光面、内部空洞、可置于掌心的尺寸。
似乎他早在3I/ATLAS出现前,就在“模拟它”。


四、失踪与重现

半年后,苏弋停止更新。
没有告别,也没有声明。
他最后一条动态是一张模糊的近景:
灰色反光面,指纹模糊,背景是实验室的冷光。

账号沉寂,模型销量却持续飙升。
ATLAS 成了新世代的“图腾物”——有人把它挂在胸前祈祷,有人说握着它冥想能听见低频嗡鸣。
心理学家解释那是“自我投射效应”,
可越来越多的视频声称,模型在暗处能“微微震动”。


五、抄本与注释

一位梵文与苏美尔语双修的学者在学术会议上展示了一页《纳格·哈玛第文库》的边注。
那是一段13世纪的修订版手抄本,边缘用拉丁混写体标注着一个模糊的词组:

“SUI · THINC”

他解释说,古修士在这里用“sui”(自我)与“thinc”(思想、议会)并置,
象征“自我与思想的合一”。
而这页手稿讨论的主题正是——“被造物如何回望造物主”

学者最后说:

“这并非巧合。有人在重新复写那一页。”


六、光的陷阱

几个月后,一个匿名账户上传了一段短片。
画面是普通实验室,一枚3I/ATLAS模型被置于光谱仪下。
随着仪器启动,反射光像是被吸入某种结构中——
在高倍放大镜头下,模型表面出现了极细的刻痕,
排列成一种自相似的螺旋分布

字幕写着:

「不是反射,而是记忆。」

短片很快被删除,但无数人下载、转发。
有科技频道尝试复刻实验,结果不同——有的只是普通塑料折射,有的却出现微光闪烁。

人们开始相信,真正的那批限量模型里藏着“某种东西”。


七、余波

如今,3I/ATLAS 已成全球设计学院的研究对象。
有人研究其造型心理学,有人分析其符号学层次。
但没人再提那个名字——苏弋

只有极少数人记得,他在一篇采访中留下过一句话:

“如果我们注视的东西,也在注视我们,那我们看到的,或许只是它让我们看到的部分。”

这句话如今被无数次印在ATLAS周边的包装盒上,
也被误以为是广告语。

而在某个收藏论坛上,一张从未公开的照片被匿名发出:
桌上放着数枚模型,灯光昏暗,镜头对焦在最后一排。
那些模型的反光形成一条微弱的线,连成一个英文单词——

RETURN.

模型由我使用 Midjourney、Tripo 设计制作;

短文由 ChatGPT 配合我完成;

首图为模型实拍,经 Banana 和 Snapseed 处理。

点击这里打印模型,祝大家玩得开心!

❌