Reading view

There are new articles available, click to refresh the page.

OpenAI 神秘硬件细节曝光，我用 AI 还原了真机，注入苹果设计灵魂

爱范儿

徐豫

28 May 2025 at 15:20

这段时间，有一款神秘 AI 硬件吊足了网友们的胃口——比肩 iPhone 和 MacBook 的使用场景和频率，但不带屏幕，又不是 AI 眼镜、AI 耳机、AI pin、iPod……它背后的老板还放言要「量产1亿台」。

OpenAI CEO 奥特曼和苹果前首席设计官艾维联创的 io 公司，究竟用 AI 捣鼓了什么「开辟新赛道的硬件设备」，好难猜啊！

于是，虽然奥特曼透露计划明年末正式发布该产品，但现在已有不少 X 网友忍不住打起了 AI「猜」图的主意。万一它知道些「内幕」呢，对吧？

目前市场上有关 io 首款硬件设备细节的爆料，主要有以下几点：

无屏幕，通过内置摄像头和麦克风实现外界环境交互
外形设计风格类似 iPod Shuffle
未采用 AI 眼镜、智能手机、耳机这几种当下流行的 AI 硬件形态
比 AI pin 大一些
有挂脖式设计
可以与智能手机、PC 联动

话不多说，先来看看 AI 创作博主 Ben Geskin 在 X 上甩出的「io 产品图」，有近 9000 人次的 X 网友前来围观。

综合来看，上图不仅覆盖了这几点核心爆料信息，印上了自家金主 OpenAI 的 Logo，还设计出了一种不常见的 AI 硬件形态——毕竟多少有点「撞脸」更常见的剃须刀、按摩仪、充电宝……

Ben Geskin 该帖评论区里，有其他 X 网友接力晒出其他款式的「io 产品图」。

由 OpenAI 的 ChatGPT 生成的「GPT 版 Apple Watch」：

不是 AI 眼镜、耳机自带摄像头，因此推导智能手表设有摄像头？倒也是说得过去。

由 xAI 的 Grok 生成的「便携桌面版 AI 摄像头」：

这种场合，怎么能少了拥有当前「地表最强文生视频模型」Veo 3 的Google 呢？那么，Google 最新版文生图模型 Imagen 4 的表现如何，让我们直接请出 Gemini，先睹为快。

爱范儿把同一套「预测 io 产品图」的提示词，分别抛给了搭载 Imagen 4 的 Gemini、搭载 GPT-4o 的 ChatGPT 以及搭载 Grok-3 的 Grok，然后它们各自给出了如下模拟产品图。

单次此轮生成效果来看，三者都基本覆盖了爆料信息中的产品设计要素。其中，Gemini 和 ChatGPT 的产品图更贴合可挂脖的设计点，而这两者相比之下，Gemini 生成的产品图在视觉质感上会略胜一筹。

按照 Google 官方的说法，Imagen 4 能够更清晰地呈现诸如皮肤、毛发、复杂纹理等图像细节部分，也更擅长创作「照片级」、「写实风格」的 AI 图像。同时，其宣称 Imagen 4 所生成的 AI 图像支持各种长宽比，且分辨率高达 2 K。

不过有一说一，Gemini 所设计的这款 io 产品「长得有点人山人海的」，越看越像 Apple Watch+AI pin+登山包挂绳的结合体……

另外，Gemini 还同时给出了能体现「io 新产品与智能手机、PC 设备隔空联动」的示意图。

除此之外，Imagen 4 还可以把握住一些抽象风格的 AI 图像创作需求。

并且，该 AI 模型进一步升级了拼写、排版方面的出图质量，可优化贺卡、海报、漫画等场景的 AI 创作。

鸡蛋盒外印刷包装上的英文内容清晰、准确、美观：

多格漫画中，故事剧情连续，图文内容相配，远景、中景、近景画幅兼顾：

近期走红网络的像素风漫画也能拿捏：

Imagen 4 现已在 Gemini App、Whisk、Vertex AI，以及 Workspace 的 PPT、Video、Doc 等产品中上线。

据 Google I/O 大会方面透露，Imagen 4 后续将推出一个快速版本，届时其 AI 生图速度将是上一代 Imagen 3 的 10 倍，让我们一起拭目以待吧。

一位细节控的摄影师

如果说 prompt 关键词还原度、画面主体内容完整度，现在市面上主流的文生图模型都能做到「有鼻子有眼的了」——总体水平相差并不大。

因此，在图像生成质量这块儿，Google 开始卷细节了，宣称 Imagen 4 有「更细腻的色彩」和「更精致的细节」。这听起来没什么实感，还是得「用图说话」。

基于同一套提示词：

一只金毛狗在沙滩上找贝壳（a golden retriever finding shells on the beach）

爱范儿对比了 Imagen 4模型、Imagen 4 上一代模型 Imagen 3，以及豆包 Seedream3.0 所给出的图像效果。

这幅由 Imagen 3 生成的 AI 图像中，主体金毛狗的神态、贝壳的纹理、狗爪踩沙滩的痕迹，背景中的蓝天白云、海浪轻抚，都十分清晰和逼真。

并且，仔细看金毛狗的毛发似乎还被海水打湿了，一绺一绺的。

其实刚看到 Imagen 3 生成的杰作时，有点担心 Imagen 4 会不会打不赢。

不过，后者确实也没让人失望，用实力演绎了什么叫做「盘顺条亮」。

首先，从整体来看，Imagen 4 生成的图像色调更柔和，色彩也更自然，例如天蓝色渐变的天空、远深近浅的大海。

再者，从局部来看，金毛狗的毛发细节满满，不仅更有光泽、光影分布更匀称，而且还原了蓬松感，看起来就很好撸。

另外还有一个细节处理也很亮眼，那便是狗子的眼神。图像中金毛狗的眼神看向了沙滩上的贝壳海螺，对应了 prompt 中的「正在找（finding）」。

作为一组对比参照，豆包的表现也很抗打。下图虽然整体色彩偏暗，但画面细节也十分丰富，例如海风吹起的浪花激荡、海风吹动的狗毛根根分明、金毛刨出贝壳后爪子粘上了不少沙子……

美中不足的是，这3幅图像都有个相似的问题——背景及其虚化效果的 AI 味还是有点重。

而 Google 官方给出的示例中，Imagen 4 还能「细节控」到「指哪刻画哪」。卡皮巴拉短而硬的皮毛、油画的笔触、泡泡的光影、水晶表层的构造都可以准确地捕捉到。

同时，在图像质感和 2K 清晰度把握这块，Imagen 4 有的成品甚至可以媲美专业摄影作品了。

一位美商高的设计师

当爱范儿向最新 Gemini 2.5 Flash 版本的 Gemini 提出，「设计一款带电子屏的帆布包，有大中小型号」时，这位多模态 AI 助手花费 10 秒左右，便交出了如下设计图。

该设计图很直观地展示了「帆布包」和「电子屏」两个设计元素，并且左边一列标注了大、中、小的字样，右边区域则通过一些类似于「水杯」、「笔刷」的参照物，来体现不同尺寸的区别。

而且值得一提的是，其外观样式设计整体线条流畅不生硬，还保留了一些「手绘」的感觉。

然后，爱范儿进一步要求 Gemini 写明电子屏帆布包的具体尺寸。从此次生成结果来看，其主要英文单词和罗马数字都较为清晰且拼写准确，但涉及英文单位、标点符号的部分则会出现乱码的情况。

如果对于生成结果不满意，点击 UI 聊天框界面的「更新（Update）」选项，Gemini 会擦除此条生成结果，根据新输入的 prompt 重新执行输出。

产品设计图有了，还缺个产品名。Gemini 帮忙想了一个简单粗暴的名字「Canvas Connect」。

上述步骤实际生成结果与提示词的误差不算太大，需要重新调试生成的地方并不多。

不过，轮到相应海报、邀请函的设计时，如果提示词中有语义较为模糊的地方，Gemini 很大可能就会错意了。

Gemini 先是根据电子屏帆布包「Canvas Connect」的产品设计图，给出了左图的产品海报。接下来，prompt 要求是让它改一下海报的配色，主色调是棕色和绿色，其余部分不变。

然而，由于 prompt 中没有写明「帆布包」的配色不变，Gemini 更换海报底色时，把帆布包的配色也一并改了，如左图所示。

改写这段 prompt 后，Gemini 做到了仅更换海报而非产品的配色，主题色从粉色变为绿色。其从思考 prompt 背后的用户需求，到理解匹配需求，再到生成 AI 图像，总耗时大约是 10 秒左右。

而且，无论是电子屏的画面，真人模特的动作、神态，还是文字内容，都无明显改动。这个案例综合反映出 Imagen 4 模型文生图的可控性较强，文字排版较为美观，大体上可复用。

可惜的是，一些成段、成片的文字内容，目前很大程度上还需要依赖精细 prompt 来控制调试。

Gemini：甲方爸爸，第 10086 稿设计图已上传，我可以打卡下班了吧？

别急，Imagen 4 还有许多设计玩法等着一众网友们去探索呢。

爱范儿试了一下，发现它可以把海报中的真人模特，直接替换成发型、穿搭、动作都较为贴合的卡通人物形象，即上图最右侧那张海报。这也不失为懒得 P 图美颜时的一种交图思路。

不过，如果不提出具体要求，海报原有的排版也会随之改变。这点目前需要在prompt的部分多花些功夫。

或者来一个「风格活泼有趣」、「文本内容隽永」、「适配社交媒体」的电子邀请函吧。

最后，别忘了让 Gemini 来一段自带 emoji 和 tag 词条的宣发文案，「邀请你共同见证 Canvas Connect 新品发布时刻#TechStyle」。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

豆包深度思考模型正式发布！和 o3 一样能「看图思考」，还有一个 Agent 大招

爱范儿

李超凡

17 April 2025 at 16:27

这两个月，AI 模型和产品的发布节奏用「日新月异」都不足以形容了。

GPT-4o 生图的爆火似乎还是昨天，OpenAI 放出了自家最强推理模型 o3 和 o4 mini，但可能这还不是这个月最重磅的 AI 发布，DeepSeek R2、Anthropic 的 Claude 4 以及马斯克剧透的「Grok-3.5」，极有可能将在本月陆续发布。

而且就在今天，字节还发布了一整套 AI 全家桶，深度思考模型、视觉推理、文生图、AI Agent……几乎涵盖了最近 AI 圈关注度最高的产品。

先看看这次字节发布的产品和亮点有哪些：

1. 豆包 1.5 · 深度思考模型

推理能力跻身全球第一梯队
更低延迟支撑高要求应用
多模态理解与应用场景：支持「边想边搜」和「视觉推理」

2. 文生图 3.0

3 秒出图
原生 2K 高清
文本排版与小字生成优化
美感效果和生图结构提升

3. 豆包 1.5 视觉理解模型新版

视觉定位更精准
对视频的理解更智能

4. AI Agent

垂类应用 Agent：豆包推出了国内首个 AI IDE——Trae
OS Agent：能够操作浏览器、电脑、手机或其他 Agent 完成复杂任务

字节这一系列产品升级，不仅在推理能力和多模态理解上实现突破，也通过 Agent 加速 AI 在更多场景的应用落地。

就像火山引擎总裁谭待所说的，「如果说 2024 年是中国AI应用的元年，那 2025 年极有可能是 AI Agent 应用的元年。」

豆包 1.5·深度思考模型：「边想边搜」+「视觉推理」，像人一样思考和观察

豆包 1.5·深度思考模型作为本次升级的核心，有三个关键升级：更强的推理效果、极低的响应延迟和全面的多模态能力。

在专业领域推理能力测试中，豆包深度思考模型整体达到或接近全球第一梯队水平。

数学推理方面，在 AIME 2024 测试中的得分已追平 OpenAI o3-mini-high。
编程竞赛方面，在 Codeforces pass@8 测试中接近 OpenAI o1。
科学推理能力在 GPQA 测试中也接近 o3-mini。

豆包 1.5 深度思考模型采用总参数达 200B 的 MoE 架构，但激活参数仅为 20B。

这种设计可以在保证强大性能的同时，显著降低了训练和推理成本，实现了 20 毫秒的极低延迟，这意味着能更好应用在对延迟敏感的实时交互场景。

豆包深度思考模型技术报告
https://github.com/ByteDance-Seed/Seed-Thinking-v1.5

在实际体验中，豆包深度思考模型的「边想边搜」和「视觉推理」这两个功能，带来了一些惊喜，也是目前相较同类产品比较有特色的。

「边想边搜」功能模拟了人类解决问题时边思考边查阅资料的过程，，它把搜索和推理捆绑在一起，基于每一步的思考结果进行多次搜索，能让回答更有逻辑、更贴近需求。

APPSO 不久前对豆包深度思考的「边想边搜」也进行了详细体验。

豆包深度思考模型不是简单给出答案，而是像顾问一样进行多轮搜索和思考：

1. 第一轮搜索价格与性能数据，确定基本选择范围
2. 第二轮针对儿童需求搜索，筛选安全适合的装备
3. 第三轮考虑天气因素，查询详细评测

整个过程透明化，用户可以看到模型如何一步步构建解决方案。这种「边想边搜」能力不仅适用于购物决策，还能应用于金融分析、旅游规划等复杂决策场景。

至于豆包 1.5 深度思考模型的视觉推理能力，刚好和 OpenAI o3 不谋而合，让 AI 能像人类一样基于图像进行深层思考。

比如在地理位置推测任务中，模型不仅识别出图片中的湖泊，还注意到湖泊边缘的盐结晶和周边旅游设施等微小细节，通过逻辑推理精确定位景点位置。

而在国外点餐场景更具代表性，模型需要同时处理多种复杂因素：计算不同货币的价格换算、考虑老人和儿童的饮食喜好、避开可能引起过敏的食材等。这种能力大大超越了传统的单一功能工具。

视觉推理能力在企业办公场景其实也能发挥重要作用，豆包可以解读复杂的项目管理流程图表，快速定位关键信息，严格按照流程图逻辑回答问题。

可以看到，无论是解析财报图表还是分析产品说明图，都能展现专业水准的理解能力。

豆包文生图 3.0：从生成到创造的飞跃

Gemini 2.0 和 GPT-4o 的「一句话生图」掀起了新一轮生图的热潮，这次豆包文生图模型 Seedream3.0 则在三个核心方面实现突破：文字排版、图像真实感和高清输出能力。

在文生图领域权威评测 Artificial Analysis 竞技场中，豆包文生图 3.0 已经不输 GPT-4o、Imagen 3、Midjourney v6.1、FLUX 1.1 Pro 等顶级模型，跻身全球第一梯队。

Seedream3.0 最显著的升级是实现了 2K 分辨率图像的直接生成。字节技术团队通过多分辨率混合训练策略，让模型能够适应从手机屏幕到巨幅海报的各种比例需求，无需后期放大处理即可输出清晰高质的图像。

这种原生高分辨率能力，意味着对专业设计和商业应用提供了极大便利。

同时 1K 分辨率出图缩小到 3 秒，这一高效推理能力得益于多项技术优化，让创作者能够实现「所想即所得」的实时交互体验。对于海报设计、视觉创意这类需要和甲方高效沟通的场景。这种速度就很实用。

中文小字和长文本排版一直是 AI 绘画痛点，豆包 3.0 不仅解决了这一难题，还将排版美感提升到专业水准。以「现形」海报系列为例，生成内容细节丰富、排版精美，达到了商用水平。

人像生成方面，通过缺陷感知数据优化和跨模态编码技术，新模型在皮肤质感、表情自然度、服装纹理等方面极为逼真，几乎消除了 AI 生成的「诡异感」。

目前 Seedream3.0 已在豆包、即梦等平台全量开放，大家不妨亲自试玩。

视觉理解模型：从识别到理解

豆包 1.5·视觉理解模型主要在视觉定位和视频理解两个方向实现了突破。

视觉定位方面，新模型支持多目标定位（同时识别多个物体）、小目标定位（识别极小物体）和通用目标定位（不受预训练类别限制）等高级功能，还能进行点定位计数和 3D 场景定位。这些能力为机器人视觉、自动驾驶等领域提供了坚实基础。

同时，模型实现了记忆能力增强、总结理解能力提升、速度感知能力和长视频理解能力的全面提升。这使得用户可以对家庭监控视频进行语义搜索，如询问「今天小猫在家都干什么了？」系统能定位并展示相关片段。

AI Agent 的未来：应用 + OS

这次豆包 1.5 的核心突破不仅体现在模型能力上，更重要的是为 AI Agent 提供了强大基础，开始思考「AI 该解决什么问题」，而非单纯追求技术指标。

谭待认为， AI Agent 的构成，可以分为垂类应用 Agent 和 OS Agent。

在应用 Agent 领域，豆包团队推出了针对不同垂类场景的专业 AI 助手，包括客服 Agent、数据 Agent 和代码 Agent 等。这些 Agent 专注于特定领域任务，具备深度专业能力。

其中最引人注目的是国内首个 AI IDE——Trae。与传统 AI 插件不同，Trae 将 AI 与集成开发环境深度融合，具备三大核心特质：

交付化：面向软件交付而非仅生成代码，从本质需求出发
智能化：能理解信息和意图，自主规划反思，调用工具执行任务
协作化：能与用户在多个维度协作，保障最终结果质量

这种设计理念使 Trae 能帮助开发者和企业更快速、更准确地完成软件开发工作，实现从代码片段生成到完整软件交付的跨越。

而 OS Agent 代表了 AI 能力的更高层次——拥有跨场景的通用性和灵活性，能够操作浏览器、电脑、手机或其他 Agent 完成复杂任务。

火山引擎的 OS Agent 解决方案核心由豆包大模型和 veFaaS 产品组成。通过两个案例可以直观了解其强大能力：

代码执行：Agent 能用 Python、NodeJS 等多种语言编写代码并运行，如生成斐波那契数列并输出结果。豆包模型负责代码生成，veFaaS 代码安全沙箱负责安全编译运行。
浏览器操作：Agent 能通过浏览器完成 iPhone 产品比价，自动搜索多个电商平台、提取价格信息并进行对比分析，最终给出最优购买建议。

在更复杂场景中，OS Agent 甚至能操作专业软件。如使用剪映专业版进行视频剪辑和配乐，或通过豆包 APP 生成内容并发布至今日头条；在手机端，则能操作指定 APP 完成高铁订票等任务。

这些能力的核心是全新发布的 GUI Agent 大模型——UI-Tars，它将屏幕视觉理解、逻辑推理、界面元素定位和操作整合在单一模型中，突破了传统自动化工具依赖预设规则的局限。UI-Tars 在 OS World 等测试集中已取得国内各类模型中的最优成绩。

最近 OpenAI 姚顺雨在一篇文章中指出，我们已经进入了AI 发展的「下半场」。与上半场不同，下半场不再仅关注模型改进和技术指标，而是转向如何定义真正有价值的问题以及如何衡量真正的进步。

很难说在 AI 迅猛而又非线性的发展，用过去互联网的上下半场来划分是否适用，但一些转变确实在发生：不再把模型作为目的，而是作为解决实际问题的工具。

这可能就是字节内部所谓「务实的浪漫」，字节 CEO 梁汝波在年初的字节 All Hands 全员会上强调了这个概念。

这是最初是张一鸣在 2019 年提出的，他认为务实的浪漫就是「把想象变成现实，face reality and change it。」

面对 DeepSeek 和 Agent 产品带来的 AI 行业剧变，这也会是字节的应对方式。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博