Normal view

There are new articles available, click to refresh the page.

Before yesterdayMain stream

爱范儿
开源版的 GPT Image 2，信息图、连续图文、本地部署全拿下｜商汤SenseNova U1实测
29 April 2026 at 19:01

开源版的 GPT Image 2，信息图、连续图文、本地部署全拿下｜商汤SenseNova U1实测

爱范儿

By: 张子豪

29 April 2026 at 19:01

最近 GPT Image 2 火了之后，网上都是那些彻底以假乱真的 AI 生成图片。大模型在视觉这条路上越走越远，让人兴奋又让人敬畏。

而 GPT Image 2 在眼下的 AI 生图领域，几乎是没什么好争的。但如果说云端闭源收费的最好模型是 GPT Image 2，那能部署在本地的，免费开源模型或许会是 SenseNova U1。

▲由 SenseNova U1 生成

SenseNova U1 是商汤最新发布的一个开源的多模态模型，它的 Lite 系列 8B 和 A3B 参数版本，目前已经在 Hugging Face 和 GitHub 上开源。

从模型参数和选择开源的路线上，我们就能看到它和 GPT Image 2 是不太一样的方向。

APPSO 也提前拿到了测试资格，我们发现商汤这款新一代原生理解生成统一模型，就开源模型来说，已经做到了最好水平。

它带来了大模型行业首创的连续图文生成输出，就是用单一模型就能连贯输出图片和文字，这个新鲜很值得去试一试。

目前 SenseNova U1 开源模型的权重已经在 Hugging Face 和 GitHub 上开放下载。

GitHub：https://github.com/OpenSenseNova/SenseNova-U1

Hugging Face：https://huggingface.co/collections/sensenova/SenseNova-U1

带着图片的思考

我们可能遇到过这样的需求，想让 AI 解释一个复杂概念，同时配上示意图，而且图要跟着文字的逻辑走，解释到第几步，图里就画到第几步。

一般的模型可能会直接采用生成代码的方式来解决这个问题，像 Claude 使用的流式构图，或者一些 Vibe Coding 的网页，包含文字和配图。

但是要完全用一个模型同时在回复流里面，生成文字和图片，并且不借助外部工具的调用，基本上现有的模型做不到这一点。因为文字生成和图像生成在模型底层，往往是两件事。

SenseNova U1 的第一项特点，就是在单一模型上进行连续的图文创作输出。

比如我们试了一个场景，让他生成一份简单的绘本故事，讲述一只小熊历经四季的变化。

▲ 提示词：请创作一个图文绘本故事，主角是一只棕色的小熊，故事讲述它经历四季变化。

生成的连续图文不仅理解到位，有一定的故事性，而且能很好的保持一致性，同时图片的文字渲染全部准确，小熊也在冬天穿上了毛衣，戴上了帽子。

实测中发现用 SenseNova U1 来进行一些创意性的工作也非常有意思。

在官方的测试案例里，上传一张大头贴给模型，然后要求它设计几款不同的发型。可以看到，在生成连续图文的完整过程中，人物的一致性，以及结构、细节，SenseNova U1 都做到了精准保持。

▲ 提示词：帮我设计几款合适的发型，希望好看的同时比较有特色，然后帮我选一款最适合我的

还能直接让他设计一个游戏角色，展示从整体视觉基调、核心交互细节，再到环境叙事和性格刻画的逻辑迭代过程。

更有意思的是，基于时序性的回答，用 SenseNova U1 创作是再合适不过。我们要求他生成一颗牛油果变成一颗室内盆栽的过程，连续图文的形式很好地呈现了完整的生长过程。

▲ 提示词：怎么把一颗普通的牛油果种成一棵室内盆栽

一番测试下来，图片从来没有离开过文字的逻辑，推理的思路走到哪里，图片就跟到哪。

以前的图文结合或许是调用不同模型，和对应工具的写作，确保回复的内容里，图文是在说同一件事。现在这项写作从底层直接发生在模型内部，无论是工具还是软件，都不需要参与对齐的过程了，我们也只需要看到最后的结果。

对内容创作者、设计师和营销人员来说，SenseNova U1 的出现，开始解决了一个长久以来的痛点，即如何让 AI 边写边画，而且图文逻辑严丝合缝。

量大管饱的最强开源

确认了它的原生理解生成统一能力后，我们要看 SenseNova U1 能否在复杂信息图生成方面，达到开源模型的最好水平。

信息图是把一大段复杂的文字或数据，压缩成一张一眼能看懂的图。这件事其实比「画一张漂亮的图」难得多，需要理解内容，知道哪些是核心，哪些是辅助，信息之间的逻辑关系，以及文字渲染等，都是难题。

闭源的 GPT Image 2 在这方面已经做得很好了，我们在测试的时候一开始也没有抱着太大的希望，会比 GPT Image 2 还要更好。但 SenseNova U1 的表现，拿下开源 SOTA 的称号也确实是当之无愧。

我们先是就用一句话「用一张信息图解释一下 DeepSeek V4」，没有任何附加的提示词，看看它生成的信息图表现如何。

▲ 由 SenseNova U1 生成

能看得出来 SenseNova U1 有联网搜索到和 DeepSeek V4 相关的信息，像是原生多模态，还有万亿参数，以及百万的上下文 Token。

而除了简单的提示词，还可以直接发送一个链接给它，SenseNova U1 也有对应的网页抓取工具，提取网页内容，来进行信息图的生成。

这些知识科普类的信息图，SenseNova U1 的表现基本上都能驾驭。更简单的像是「一张什么是电子烟的 3D 拆解科普」，它也能很快生成。

▲由 SenseNova U1 生成

而如果提示词稍微详细一点，它也能完全照着提示词的内容，把这些文字准确渲染成可视化程度较高的信息图。

还有像是最近很火的武汉三鲜豆皮，直接告诉 SenseNova U1，生成一张三鲜豆皮完整制作流程的步骤图。

还有夏天来了，挑选不同的防晒霜，也是一张信息图，就能把 SPF 和 PA 值这些复杂的挑选参数讲清楚。

甚至是要它画一张 AI 大模型从训练到推理的工作原理图，适合完全不懂技术的人看懂；SenseNova U1 也能用轻松有趣的风格，简单的描述 AI 大模型的工作过程。

在其他场景的应用，像是营销、办公、设计参考和商业分析，我们都用不同的例子来测试了 SenseNova U1 的表现。

一般来说，营销场景对视觉风格的要求最高，也是最能看出模型有没有真正理解「用户想传递什么感受」的地方。一张好的营销图片，放在文章中间，甚至有可能直接被我们误认为是微信的文章内广告。

就像这张 SenseNova U1 生成的上海旅行信息图，不仅把地图描绘出来了，还列举了上海的特色。

在办公场景里，好看又要比准确和高效更重要。我们测试了它对信息处理的能力，把一份五页的会议纪要压缩成一张一屏能看完的总结图，要求逻辑清晰、重点突出，适合直接转发给没参会的同事。

复杂的信息之外，SenseNova U1 也能做到很好的视觉风格参考，给它一段品牌的调性描述，要求生成一张包含配色建议、排版建议、氛围关键词的风格参考图，结果居然也还不错。

在一些数据分析的任务上，我们也测试了 SenseNova U1 数据可视化的能力，用图表的方式来呈现更合理的信息图。

可以看到，SenseNova U1 在信息提炼这一步做得不错，它确实读懂了内容，知道什么重要什么次要。

但是在视觉表达上还有提升空间，有时候一些文字的渲染，还是会出现错误，对于需要快速出图、不想花时间在设计工具上反复调整的场景，已经完全够用。

下一个多模态模型的样子

实测完 SenseNova U1，我们发现它的意义，在于它是第一个把「理解和生成统一」这件事认真做出来的开源模型。而这，或许是整个多模态领域下一步要走的方向。

GPT Image 2 的刷屏，说明图像生成的「生成质量」这条线已经被闭源模型拉得很高了。开源模型如果继续在同一个维度继续追，大概需要很长的时间才能赶上，并且开源的价值也会被压缩到只剩下「便宜」。

SenseNova U1 提供了一个不同的技术路径，对于整个开源社区的方向都有着重要意义。它除了在解决「怎么生成更好的图」，也在告诉我们多模态模型的下一步会是什么样子。

▲ SenseNova U1 采用了行业首创的 NEO-unify 原生架构，实现多模态理解生成的高效统一

过去的多模态模型，理解图和生成图是两套系统在协作。一套负责看懂输入，一套负责画出输出，中间靠接口传递信息。两套系统各有各的内部语言，信息在传递过程中会有损耗，就像两个人用翻译软件沟通，意思大体到了，但总有点什么没传过去。

SenseNova U1 则是从底层把这两件事，合进了同一个表征空间。他们今年 3 月的技术博客里，就重点讲解了 NEO-unify 这一项架构。

目前大模型行业的惯例是，多模态 AI 看图要靠一个叫「视觉编码器（VE）」的东西压缩处理，然后再交给生成器。在 NEO-unify 架构里，商汤把这套臃肿的传统范式直接扔了。

结合 NEO-unify 结构的 SenseNova U1，所使用的视觉接口是近似无损的，它直接把图像分块（Patch）吃进去，不经过任何预训练编码器压缩；然后在同一个主干网络里，让文本和视觉的训练端到端统一进行。

在理解与生成各项基准测试上，SenseNova U1 的表现也达到同量级开源模型的 SOTA 水平，甚至在多项指标上的表现能和 Nano Banana 这些闭源模型相媲美。

▲ 分别是图像理解、图像生成，和视觉推理基准测试结果

它回归了多模态的第一性原理，从底层的像素和文字开始，自己构建内部的认知。

这也能解释为什么它消耗的 token 更少，生成效率更高。即使它只有 8B 的参数的版本，也能打出超强的极致性价比。

本次开源的是 SenseNova U1 的轻量版本 SenseNova U1 Lite，目前它有两个版本：8B 参数的 SenseNova-U1-8B-MoT，可以在边缘设备上跑；38B 总参数但激活只有 3B 的 SenseNova-U1-A3B-MoT，提供更强能力，同时将推理成本控制得很低。

▲SenseNova U1 已经在 GitHub 和 Hugging Face上开源，链接：https://github.com/OpenSenseNova/SenseNova-U1、https://huggingface.co/collections/sensenova/sensenova-u1

两个版本都可以本地部署、可以微调、可以接进自己的数据管道。对需要把图像生成能力嵌进自己产品的开发者来说，能够对模型行为有完全的控制权，数据也不用出去。

如果你需要一个能够高效实现理解与生成的模型，作为开源模型里的最强代表，SenseNova U1 确实值得尝试。

商汤还在 GitHub 上开源了面向 Agent 运行时的 AIGC 技能库 SenseNova-Skills。我们可以直接把SenseNova U1这种强大的能力，接入到自己的智能体（Agent）工作流中。

利用这个工具包，我们可以直接在像 OpenClaw、Hermes 这样的 Agent 平台中一键调用。模型会自动评估我们的提示词，选择合适的版式，经过多轮生成，输出最佳的专业信息图结果。

▲ Skills 链接：https://github.com/OpenSenseNova/SenseNova-Skills

回顾整个测试，SenseNova U1 这次交出了一份不错的答卷，它是目前我们能拿到手里的同量级最强开源模型。

对创作者来说，它行业首创的连续图文创作输出能力，打破了过去文字与配图割裂的窘境，真正让边思考、边写作、边配图的连贯创作成为现实。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

EZCut – 简单的图片处理工具

BOXKS

By: Kaiyuan

16 April 2026 at 01:15

EZCut 在2014到2016年期间，我在 MacOS 上用这一个简单的图片处理软件。我经常用来调整图片的尺寸，然后还有裁剪水印之类的功能，后来系统升级后作者也没更新，之后就再也找不到类似的软件了。

现在有 Vibe Coding，我决定自己动手做一个！开始用 Codex，后续也使用 Antigracity 组合开发，直接用 HTML 做软件 UI，框架使用 Tauri 可以尽可能降低软件大小同时多系统支持。因为我 2012 年的 Macbook Pro 还在用，所以软件最早支持 Mac OS 10.15。至于 Windows，Webview 已经不支持 Windows 7 所以需要 Windows 10 以上。

代码托管在 Github。项目页面：https://boxks.com/ezcut/

基本功能

EZCut UI 软件 UI 基本上就直接采用我以前用的软件类似的布局，左边是图片预览和列表，右边是操作菜单。功能有：修改尺寸、裁剪、文字水印、图片覆盖（图片水印）四个功能，导出的文件名支持按规则命名，导出格式支持多种常规图片格式。

基本的修改尺寸、裁剪、保存就不用多说，水印和文件命名需要稍微说一下。

文字水印和图片覆盖都支持同时使用多个。也就是你能设置多个文字或者图片覆盖，这个功能其实差不多是用来做图片注释，直接按添加就能添加多个水印。

文件名输出说明

输出文件命名默认是格式是源文件名_当前时间.后缀名，这样可以确保每次导出都是独立的文件名，同样支持正则和多种变量。

占位符规则

{name}：原文件名（若启用正则，指代正则处理后的名字）
{index}：序列号（由下方“起始序号”和“步进”控制）
{timestamp}：当前时间戳 (YYYYMMDD_HHMMSS)
{width} / {height}：原图的分辨率宽高
{ext}：目标文件的扩展名

正则命名

^ / $：匹配开头/结尾
(.*)：捕获组。在“替换”栏中使用 $1, $2 引用这些部分。

标志 (Flags)

g：全局匹配
i：忽略大小写
m：多行模式
s：允许 . 匹配所有字符（包括换行）

序号序列

起始序号：首张图片的开始数字。
步进：后续每张图片序号递加的数值。

做这个软件的原因

如果单纯说图片转换和处理，XnConvert 更强大，但 XnConvert 因为太强大所以不够快，我想要的是启动软件，拖动图片进去，简单调整参数，然后导出。最重要是快。我能想到的只是当前用的软件，之后就没怎么找到其他软件能满足我的需要。

用 Antigravity 开发的车辆管理工具 CarNote

BOXKS

By: Kaiyuan

5 February 2026 at 01:41

这是一个功能完整的车辆记录管理系统，支持油耗、电耗追踪、保养管理、配件跟踪和数据分析。

项目托管和起因

代码在 GitHub，我自己也建了一个在线版，开始我是在 NAS 自用的，然后觉得要建个演示的，干脆就直接建一个完整的吧，然后就有了 https://carnote.boxks.com 。

我之前用的是微信里面，腾讯我的车中油耗工具，但是每次都要打开微信，点小程序，点更多才到油耗用具。一顿操作…猴年马月了，而且我也想要记录保养和配件等内容。现在有这个工具就点开然后马上就能添加能耗记录了。

开发过程

项目功能说明

因为之前用 Cursor 和 Kiro 做过几个小工具，所以知道这类工具开发大致是怎么回事，这次我先给项目写了一份描述文档。

开发

然后给 Antigravity 使用 Planning 模式开始，他会根据要求生成他理解的文档，拆分多个开发步骤。然后我看一下，没啥问题就叫他开始开发，然后 Antigravity 自动给我在文件夹中建立对应文件夹不停的在敲代码，大概有半小时吧，一个能跑的程序就出来了，但是他分开前后端的，作为懒人，我直接叫他给我一个在 WSL 一键启动的脚本。这样第一版就完成了，当然，第一版是有很多依赖什么的没有成功跑起来的，然后出什么提示直接丢给 Antigravity 等他自己看和修复。第一版是 Antigravity 自己根据理解做的，排版什么的我都不是很满意，我直接就把 PrimeVue 首页的例子截图丢给他，之后就出了现在的版面了。因为成现在的界面我才建立 git 仓库，所以已经看不到最开始 AI 自己生成的界面了。

很多细节为因为我没有详细的描述，也没有画原型图，所以都是 Antigravity 根据自己理解做的，所以前期针对前端的细节改了很多，甚至改到周额度用完了，我就等了几天继续改。做了两周的晚上，初版能用的做好了。我自己在 NAS 上跑起来了。

后来想着，既然发布到 GitHub 上了，怎么也得给别人看看成品是怎样的把，这时候，我就想到，我直接搭建一个大家直接用的算了，而服务器的费用，我就想到了，弄会员把，这样我就能赚点服务器的钱了。然后问了一下 OpenAI 国内个人开发者怎么收钱，他给的方案就是爱发电和淘宝，然后我登录爱发电看看详细的设置，然后又注册了淘宝店铺，看看虚拟序列号后台没有自动发卡，需要手动发卡，需要找其他办法，还是爱发电方便点。

会员设置

开源版没有任何功能限制，我建好的 https://carnote.boxks.com 则普通用户可以管理两台车，进阶会员￥30/年，可以管理5台车，专业会员￥200/年，可以无限制增加车辆，首页的数据展示可以同时多辆车对比数据，也可以自定义时间段数据进行对比。

这样设置的理由是，普通用户两台车是正常的了，而你有超过2台车需要管理，这一年30块也是意思意思给个服务器的费用，超过5台车，那就更不用说了吧。

快速部署

# CarNote Docker Compose 配置
# 包含后端 API 服务和可选的 PostgreSQL 数据库

version: '3.8'

services:
  # 主应用服务 (包含前后端)
  app:
    image: kaiyuan/carnote:latest
    build:
      context: .
      dockerfile: Dockerfile
    container_name: carnote
    ports:
      - "53300:53300"
    environment:
      - NODE_ENV=production
      - PORT=53300
      - DB_TYPE=sqlite
      - SQLITE_PATH=/app/data/carnote.db
      # - DB_TYPE=postgresql
      # - PG_HOST=172.20.0.1
      # - PG_PORT=5432
      # - PG_DATABASE=carnote
      # - PG_USER=carnote
      # - PG_PASSWORD=postgresqlPassword
      - UPLOAD_PATH=/app/uploads
      # JWT 密钥
      - JWT_SECRET=${JWT_SECRET}
      # 跨域资源共享
      - CORS_ORIGIN=http://localhost
      # SMTP 配置 (可选)
      # - SMTP_HOST=smtp.example.com
      # - SMTP_PORT=465
      # - SMTP_USER=user@example.com
      # - SMTP_PASS=password
      # - SMTP_SECURE=true
      # - SMTP_FROM=CarNote <noreply@example.com>
    volumes:
      # SQList 数据库目录及数据库备份目录
      - ${carnote_data}:/app/data
      # 上传文件目录
      - ${carnote_uploads}:/app/uploads
    restart: unless-stopped
    healthcheck:
      test: [ "CMD", "node", "-e", "require('http').get('http://localhost:53300/health', (r) => {process.exit(r.statusCode === 200 ? 0 : 1)})" ]
      interval: 30s
      timeout: 3s
      retries: 3
      start_period: 10s
    networks:
      - carnote-network
  # 数据卷
volumes:
  carnote_data:
    driver: local
  carnote_uploads:
    driver: local
  # postgres_data:
  #   driver: local

  # 网络
networks:
  carnote-network:
    driver: bridge

Vibe Code 经验

用过几个 AI 编程相关的 Vibe Code 软件，叫 AI 开发和平时做其他事情一样，需要事情将自己想要的东西结构并编写一份清晰的文档，这份文档越详细越细致越好，再有就是能画出 UI 的原型图更好，Google Stitch 能直接生成整套前端 UI，当然还是得是要有清晰的描述，所以可以的画还是用 Figma 自己画好，然后放到项目文档中让 AI 自己依照原型图开发。