Reading view

There are new articles available, click to refresh the page.

开源版的 GPT Image 2,信息图、连续图文、本地部署全拿下|商汤SenseNova U1实测

最近 GPT Image 2 火了之后,网上都是那些彻底以假乱真的 AI 生成图片。大模型在视觉这条路上越走越远,让人兴奋又让人敬畏。

而 GPT Image 2 在眼下的 AI 生图领域,几乎是没什么好争的。但如果说云端闭源收费的最好模型是 GPT Image 2,那能部署在本地的,免费开源模型或许会是 SenseNova U1

▲由 SenseNova U1 生成

SenseNova U1 是商汤最新发布的一个开源的多模态模型,它的 Lite 系列 8B 和 A3B 参数版本,目前已经在 Hugging Face 和 GitHub 上开源。

从模型参数和选择开源的路线上,我们就能看到它和 GPT Image 2 是不太一样的方向。

APPSO 也提前拿到了测试资格,我们发现商汤这款新一代原生理解生成统一模型,就开源模型来说,已经做到了最好水平。

它带来了大模型行业首创的连续图文生成输出,就是用单一模型就能连贯输出图片和文字,这个新鲜很值得去试一试。

目前 SenseNova U1 开源模型的权重已经在 Hugging Face 和 GitHub 上开放下载。

GitHub:https://github.com/OpenSenseNova/SenseNova-U1

Hugging Face:https://huggingface.co/collections/sensenova/SenseNova-U1

带着图片的思考

我们可能遇到过这样的需求,想让 AI 解释一个复杂概念,同时配上示意图,而且图要跟着文字的逻辑走,解释到第几步,图里就画到第几步。

一般的模型可能会直接采用生成代码的方式来解决这个问题,像 Claude 使用的流式构图,或者一些 Vibe Coding 的网页,包含文字和配图。

但是要完全用一个模型同时在回复流里面,生成文字和图片,并且不借助外部工具的调用,基本上现有的模型做不到这一点。因为文字生成和图像生成在模型底层,往往是两件事。

SenseNova U1 的第一项特点,就是在单一模型上进行连续的图文创作输出。

比如我们试了一个场景,让他生成一份简单的绘本故事,讲述一只小熊历经四季的变化。

▲ 提示词:请创作一个图文绘本故事,主角是一只棕色的小熊,故事讲述它经历四季变化。

生成的连续图文不仅理解到位,有一定的故事性,而且能很好的保持一致性,同时图片的文字渲染全部准确,小熊也在冬天穿上了毛衣,戴上了帽子。

实测中发现用 SenseNova U1 来进行一些创意性的工作也非常有意思。

在官方的测试案例里,上传一张大头贴给模型,然后要求它设计几款不同的发型。可以看到,在生成连续图文的完整过程中,人物的一致性,以及结构、细节,SenseNova U1 都做到了精准保持。

▲ 提示词:帮我设计几款合适的发型,希望好看的同时比较有特色,然后帮我选一款最适合我的

还能直接让他设计一个游戏角色,展示从整体视觉基调、核心交互细节,再到环境叙事和性格刻画的逻辑迭代过程。

更有意思的是,基于时序性的回答,用 SenseNova U1 创作是再合适不过。我们要求他生成一颗牛油果变成一颗室内盆栽的过程,连续图文的形式很好地呈现了完整的生长过程。

▲ 提示词:怎么把一颗普通的牛油果种成一棵室内盆栽

一番测试下来,图片从来没有离开过文字的逻辑,推理的思路走到哪里,图片就跟到哪。

以前的图文结合或许是调用不同模型,和对应工具的写作,确保回复的内容里,图文是在说同一件事。现在这项写作从底层直接发生在模型内部,无论是工具还是软件,都不需要参与对齐的过程了,我们也只需要看到最后的结果。

对内容创作者、设计师和营销人员来说,SenseNova U1 的出现,开始解决了一个长久以来的痛点,即如何让 AI 边写边画,而且图文逻辑严丝合缝。

量大管饱的最强开源

确认了它的原生理解生成统一能力后,我们要看 SenseNova U1 能否在复杂信息图生成方面,达到开源模型的最好水平。

信息图是把一大段复杂的文字或数据,压缩成一张一眼能看懂的图。这件事其实比「画一张漂亮的图」难得多,需要理解内容,知道哪些是核心,哪些是辅助,信息之间的逻辑关系,以及文字渲染等,都是难题。

闭源的 GPT Image 2 在这方面已经做得很好了,我们在测试的时候一开始也没有抱着太大的希望,会比 GPT Image 2 还要更好。但 SenseNova U1 的表现,拿下开源 SOTA 的称号也确实是当之无愧。

我们先是就用一句话「用一张信息图解释一下 DeepSeek V4」,没有任何附加的提示词,看看它生成的信息图表现如何。

▲ 由 SenseNova U1 生成

能看得出来 SenseNova U1 有联网搜索到和 DeepSeek V4 相关的信息,像是原生多模态,还有万亿参数,以及百万的上下文 Token。

而除了简单的提示词,还可以直接发送一个链接给它,SenseNova U1 也有对应的网页抓取工具,提取网页内容,来进行信息图的生成。

这些知识科普类的信息图,SenseNova U1 的表现基本上都能驾驭。更简单的像是「一张什么是电子烟的 3D 拆解科普」,它也能很快生成。

▲由 SenseNova U1 生成

而如果提示词稍微详细一点,它也能完全照着提示词的内容,把这些文字准确渲染成可视化程度较高的信息图。

还有像是最近很火的武汉三鲜豆皮,直接告诉 SenseNova U1,生成一张三鲜豆皮完整制作流程的步骤图。

还有夏天来了,挑选不同的防晒霜,也是一张信息图,就能把 SPF 和 PA 值这些复杂的挑选参数讲清楚。

甚至是要它画一张 AI 大模型从训练到推理的工作原理图,适合完全不懂技术的人看懂;SenseNova U1 也能用轻松有趣的风格,简单的描述 AI 大模型的工作过程。

在其他场景的应用,像是营销、办公、设计参考和商业分析,我们都用不同的例子来测试了 SenseNova U1 的表现。

一般来说,营销场景对视觉风格的要求最高,也是最能看出模型有没有真正理解「用户想传递什么感受」的地方。一张好的营销图片,放在文章中间,甚至有可能直接被我们误认为是微信的文章内广告。

就像这张 SenseNova U1 生成的上海旅行信息图,不仅把地图描绘出来了,还列举了上海的特色。

在办公场景里,好看又要比准确和高效更重要。我们测试了它对信息处理的能力,把一份五页的会议纪要压缩成一张一屏能看完的总结图,要求逻辑清晰、重点突出,适合直接转发给没参会的同事。

复杂的信息之外,SenseNova U1 也能做到很好的视觉风格参考,给它一段品牌的调性描述,要求生成一张包含配色建议、排版建议、氛围关键词的风格参考图,结果居然也还不错。

在一些数据分析的任务上,我们也测试了 SenseNova U1 数据可视化的能力,用图表的方式来呈现更合理的信息图。

可以看到,SenseNova U1 在信息提炼这一步做得不错,它确实读懂了内容,知道什么重要什么次要。

但是在视觉表达上还有提升空间,有时候一些文字的渲染,还是会出现错误,对于需要快速出图、不想花时间在设计工具上反复调整的场景,已经完全够用。

下一个多模态模型的样子

实测完 SenseNova U1,我们发现它的意义,在于它是第一个把「理解和生成统一」这件事认真做出来的开源模型。而这,或许是整个多模态领域下一步要走的方向。

GPT Image 2 的刷屏,说明图像生成的「生成质量」这条线已经被闭源模型拉得很高了。开源模型如果继续在同一个维度继续追,大概需要很长的时间才能赶上,并且开源的价值也会被压缩到只剩下「便宜」。

SenseNova U1 提供了一个不同的技术路径,对于整个开源社区的方向都有着重要意义。它除了在解决「怎么生成更好的图」,也在告诉我们多模态模型的下一步会是什么样子。

▲ SenseNova U1 采用了行业首创的 NEO-unify 原生架构,实现多模态理解生成的高效统一

过去的多模态模型,理解图和生成图是两套系统在协作。一套负责看懂输入,一套负责画出输出,中间靠接口传递信息。两套系统各有各的内部语言,信息在传递过程中会有损耗,就像两个人用翻译软件沟通,意思大体到了,但总有点什么没传过去。

SenseNova U1 则是从底层把这两件事,合进了同一个表征空间。他们今年 3 月的技术博客里,就重点讲解了 NEO-unify 这一项架构。

目前大模型行业的惯例是,多模态 AI 看图要靠一个叫「视觉编码器(VE)」的东西压缩处理,然后再交给生成器。在 NEO-unify 架构里,商汤把这套臃肿的传统范式直接扔了。

结合 NEO-unify 结构的 SenseNova U1,所使用的视觉接口是近似无损的,它直接把图像分块(Patch)吃进去,不经过任何预训练编码器压缩;然后在同一个主干网络里,让文本和视觉的训练端到端统一进行。

在理解与生成各项基准测试上,SenseNova U1 的表现也达到同量级开源模型的 SOTA 水平,甚至在多项指标上的表现能和 Nano Banana 这些闭源模型相媲美。

▲ 分别是图像理解、图像生成,和视觉推理基准测试结果

它回归了多模态的第一性原理,从底层的像素和文字开始,自己构建内部的认知。

这也能解释为什么它消耗的 token 更少,生成效率更高。即使它只有 8B 的参数的版本,也能打出超强的极致性价比。

本次开源的是 SenseNova U1 的轻量版本 SenseNova U1 Lite,目前它有两个版本:8B 参数的 SenseNova-U1-8B-MoT,可以在边缘设备上跑;38B 总参数但激活只有 3B 的 SenseNova-U1-A3B-MoT,提供更强能力,同时将推理成本控制得很低。

▲SenseNova U1 已经在 GitHub 和 Hugging Face上开源,链接:https://github.com/OpenSenseNova/SenseNova-U1、https://huggingface.co/collections/sensenova/sensenova-u1

两个版本都可以本地部署、可以微调、可以接进自己的数据管道。对需要把图像生成能力嵌进自己产品的开发者来说,能够对模型行为有完全的控制权,数据也不用出去。

如果你需要一个能够高效实现理解与生成的模型,作为开源模型里的最强代表,SenseNova U1 确实值得尝试。

商汤还在 GitHub 上开源了面向 Agent 运行时的 AIGC 技能库 SenseNova-Skills。我们可以直接把SenseNova U1这种强大的能力,接入到自己的智能体(Agent)工作流中。

利用这个工具包,我们可以直接在像 OpenClaw、Hermes 这样的 Agent 平台中一键调用。模型会自动评估我们的提示词,选择合适的版式,经过多轮生成,输出最佳的专业信息图结果。

▲ Skills 链接:https://github.com/OpenSenseNova/SenseNova-Skills

回顾整个测试,SenseNova U1 这次交出了一份不错的答卷,它是目前我们能拿到手里的同量级最强开源模型。

对创作者来说,它行业首创的连续图文创作输出能力,打破了过去文字与配图割裂的窘境,真正让边思考、边写作、边配图的连贯创作成为现实。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

EZCut – 简单的图片处理工具

EZCut在2014到2016年期间,我在 MacOS 上用这一个简单的图片处理软件。我经常用来调整图片的尺寸,然后还有裁剪水印之类的功能,后来系统升级后作者也没更新,之后就再也找不到类似的软件了。

现在有 Vibe Coding,我决定自己动手做一个!开始用 Codex,后续也使用 Antigracity 组合开发,直接用 HTML 做软件 UI,框架使用 Tauri 可以尽可能降低软件大小同时多系统支持。因为我 2012 年的 Macbook Pro 还在用,所以软件最早支持 Mac OS 10.15。至于 Windows,Webview 已经不支持 Windows 7 所以需要 Windows 10 以上。

代码托管在 Github。项目页面:https://boxks.com/ezcut/

基本功能

EZCut UI软件 UI 基本上就直接采用我以前用的软件类似的布局,左边是图片预览和列表,右边是操作菜单。功能有:修改尺寸、裁剪、文字水印、图片覆盖(图片水印)四个功能,导出的文件名支持按规则命名,导出格式支持多种常规图片格式。

基本的修改尺寸、裁剪、保存就不用多说,水印和文件命名需要稍微说一下。

文字水印和图片覆盖都支持同时使用多个。也就是你能设置多个文字或者图片覆盖,这个功能其实差不多是用来做图片注释,直接按添加就能添加多个水印。

文件名输出说明

输出文件命名默认是格式是源文件名_当前时间.后缀名,这样可以确保每次导出都是独立的文件名,同样支持正则和多种变量。

占位符规则

  • {name}:原文件名(若启用正则,指代正则处理后的名字)
  • {index}:序列号(由下方“起始序号”和“步进”控制)
  • {timestamp}:当前时间戳 (YYYYMMDD_HHMMSS)
  • {width} / {height}:原图的分辨率宽高
  • {ext}:目标文件的扩展名

正则命名

  • ^ / $:匹配开头/结尾
  • (.*):捕获组。在“替换”栏中使用 $1$2 引用这些部分。

标志 (Flags)

  • g:全局匹配
  • i:忽略大小写
  • m:多行模式
  • s:允许 . 匹配所有字符(包括换行)

序号序列

  • 起始序号:首张图片的开始数字。
  • 步进:后续每张图片序号递加的数值。

做这个软件的原因

如果单纯说图片转换和处理,XnConvert 更强大,但 XnConvert 因为太强大所以不够快,我想要的是启动软件,拖动图片进去,简单调整参数,然后导出。最重要是快。我能想到的只是当前用的软件,之后就没怎么找到其他软件能满足我的需要。


用 Antigravity 开发的车辆管理工具 CarNote

CarNote Bennar

这是一个功能完整的车辆记录管理系统,支持油耗、电耗追踪、保养管理、配件跟踪和数据分析。

项目托管和起因

代码在 GitHub,我自己也建了一个在线版,开始我是在 NAS 自用的,然后觉得要建个演示的,干脆就直接建一个完整的吧,然后就有了 https://carnote.boxks.com 。

我之前用的是微信里面,腾讯我的车中油耗工具,但是每次都要打开微信,点小程序,点更多才到油耗用具。一顿操作…猴年马月了,而且我也想要记录保养和配件等内容。现在有这个工具就点开然后马上就能添加能耗记录了。

开发过程

项目功能说明

因为之前用 Cursor 和 Kiro 做过几个小工具,所以知道这类工具开发大致是怎么回事,这次我先给项目写了一份描述文档

开发

然后给 Antigravity 使用 Planning 模式开始,他会根据要求生成他理解的文档,拆分多个开发步骤。然后我看一下,没啥问题就叫他开始开发,然后 Antigravity 自动给我在文件夹中建立对应文件夹不停的在敲代码,大概有半小时吧,一个能跑的程序就出来了,但是他分开前后端的,作为懒人,我直接叫他给我一个在 WSL 一键启动的脚本。这样第一版就完成了,当然,第一版是有很多依赖什么的没有成功跑起来的,然后出什么提示直接丢给 Antigravity 等他自己看和修复。第一版是 Antigravity 自己根据理解做的,排版什么的我都不是很满意,我直接就把 PrimeVue 首页的例子截图丢给他,之后就出了现在的版面了。因为成现在的界面我才建立 git 仓库,所以已经看不到最开始 AI 自己生成的界面了。

很多细节为因为我没有详细的描述,也没有画原型图,所以都是 Antigravity 根据自己理解做的,所以前期针对前端的细节改了很多,甚至改到周额度用完了,我就等了几天继续改。做了两周的晚上,初版能用的做好了。我自己在 NAS 上跑起来了。

后来想着,既然发布到 GitHub 上了,怎么也得给别人看看成品是怎样的把,这时候,我就想到,我直接搭建一个大家直接用的算了,而服务器的费用,我就想到了,弄会员把,这样我就能赚点服务器的钱了。然后问了一下 OpenAI 国内个人开发者怎么收钱,他给的方案就是爱发电淘宝,然后我登录爱发电看看详细的设置,然后又注册了淘宝店铺,看看虚拟序列号后台没有自动发卡,需要手动发卡,需要找其他办法,还是爱发电方便点。

会员设置

开源版没有任何功能限制,我建好的 https://carnote.boxks.com 则普通用户可以管理两台车,进阶会员 ¥30/年,可以管理5台车,专业会员 ¥200/年,可以无限制增加车辆,首页的数据展示可以同时多辆车对比数据,也可以自定义时间段数据进行对比。

这样设置的理由是,普通用户两台车是正常的了,而你有超过2台车需要管理,这一年30块也是意思意思给个服务器的费用,超过5台车,那就更不用说了吧。

快速部署

# CarNote Docker Compose 配置
# 包含后端 API 服务和可选的 PostgreSQL 数据库

version: '3.8'

services:
  # 主应用服务 (包含前后端)
  app:
    image: kaiyuan/carnote:latest
    build:
      context: .
      dockerfile: Dockerfile
    container_name: carnote
    ports:
      - "53300:53300"
    environment:
      - NODE_ENV=production
      - PORT=53300
      - DB_TYPE=sqlite
      - SQLITE_PATH=/app/data/carnote.db
      # - DB_TYPE=postgresql
      # - PG_HOST=172.20.0.1
      # - PG_PORT=5432
      # - PG_DATABASE=carnote
      # - PG_USER=carnote
      # - PG_PASSWORD=postgresqlPassword
      - UPLOAD_PATH=/app/uploads
      # JWT 密钥
      - JWT_SECRET=${JWT_SECRET}
      # 跨域资源共享
      - CORS_ORIGIN=http://localhost
      # SMTP 配置 (可选)
      # - SMTP_HOST=smtp.example.com
      # - SMTP_PORT=465
      # - SMTP_USER=user@example.com
      # - SMTP_PASS=password
      # - SMTP_SECURE=true
      # - SMTP_FROM=CarNote <noreply@example.com>
    volumes:
      # SQList 数据库目录及数据库备份目录
      - ${carnote_data}:/app/data
      # 上传文件目录
      - ${carnote_uploads}:/app/uploads
    restart: unless-stopped
    healthcheck:
      test: [ "CMD", "node", "-e", "require('http').get('http://localhost:53300/health', (r) => {process.exit(r.statusCode === 200 ? 0 : 1)})" ]
      interval: 30s
      timeout: 3s
      retries: 3
      start_period: 10s
    networks:
      - carnote-network
  # 数据卷
volumes:
  carnote_data:
    driver: local
  carnote_uploads:
    driver: local
  # postgres_data:
  #   driver: local

  # 网络
networks:
  carnote-network:
    driver: bridge

Vibe Code 经验

用过几个 AI 编程相关的 Vibe Code 软件,叫 AI 开发和平时做其他事情一样,需要事情将自己想要的东西结构并编写一份清晰的文档,这份文档越详细越细致越好,再有就是能画出 UI 的原型图更好,Google Stitch 能直接生成整套前端 UI,当然还是得是要有清晰的描述,所以可以的画还是用 Figma 自己画好,然后放到项目文档中让 AI 自己依照原型图开发。


BlinkShot – 开源免费 AI 图片快速生成工具

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

BlinkShot 是一个以 AI 人工智能技术即时生成图片的免费服务,这是开源项目,背后使用 AI 加速云服务「Together AI」和图片生成模型 FLUX,这项服务特性是能在非常短的时间内依照输入的提示词生成各种图片,以毫秒为单位,生成的图片也丝毫不逊色,有兴趣的朋友可以玩玩看。

目前 BlinkShot 支持英文提示词,也可以直接叫 AI 服务帮你生成〔例如用 ChatGPT 或其他同类型服务〕,另一个方法是使用图片转文字 AI 工具,例如:Image to Prompt等工具,将喜欢的图片快速转换为英文提示词,最后稍作修改再生成想要的图片。

BlinkShot 目前没有使用的生成数量限制,还有个「Together API Key」栏位可自定义自己的 API 密钥,生成的图片素材皆可免费下载使用,AI 图片基本上也不会受到版权限制,使用于个人或商业用途都没问题。

Generate images with AI in a milliseconds

进入 BlinkShot 后直接输入提示词就会立即生成图片,整体速度非常快,过程中如果继续输入其他形容或是提示词,图片会即时更新,相较于其他同类型的 AI 图片生成器来说确实非常强大!

下方会显示生成的图片历史记录。

通过 BlinkShot 生成的图片看起来很逼真,也能依照用户需求调整成各种风格、样式,越仔细的提示词就能生成更细致准确的结果。

生成过的图片历史记录会显示于下方,可以随时切换回去查看。

在图片点击右键即可下载保存。

在图片上点击鼠标右键、选择「另存图片」后将图片保存下来即可使用。

BlinkShot 未来也会加入下载按钮,让用户更方便获取图片。

❌