Normal view

There are new articles available, click to refresh the page.
Before yesterdayMain stream

豆包手机助手让海外炸锅,歪果仁:这是第一款真正意义上的智能手机

By: 李超凡
8 December 2025 at 17:00

没想到在华为 Mate 80 系列、三星首款三折叠接连发布的一周里,最火的会是搭载豆包手机助手技术预览版的中兴 nubia M153。

发售即售罄就不说了,首批工程机在二手平台上普遍加价数百元转卖。相比官方 3499 元的定价,市场需求确实旺盛。

尽管豆包手机助手官方多次强调,目前的技术预览版并不面向普通的消费者。其定位更像是一个技术展示和生态探索的实验田,吸引开发者和技术发烧友参与体验。

但这根本挡不住大众体验的热情。除了点外卖发帖子这些基操,还有网友用它 10 分钟投了 30 份简历。

不过争议也随之而来,微信、淘宝等一众 App,开始通过「环境异常检测」等门槛把豆包手机助手拦在门外。

官方目前也调整部分 AI 操作手机的能力,官方表示希望「推动形成更清晰、可预期的规则」,避免一刀切否定用户合理使用 AI 的权利。

罗永浩则发文力挺,称这是谁都拦不住的技术革命,将来人们会记住这历史性的一天。荣耀表态欢迎,而魅族厂商则表示期待深入合作,打造更繁荣的生态。

而在国内出圈后,豆包手机助手甚至火到了海外,在 X 平台上,一堆老外都在疯狂讨论这事,甚至有人直接给它冠上了「另一个 DeepSeek 时刻」的称号。

海外网友:第一款真正意义上的智能手机

这评价,可不是随便给的。

雪牛资本(Snow Bull Capital)CEO 泰勒·奥根(Taylor Ogan)直接在平台上发了一长串体验报告,兴奋劲儿都快从屏幕里溢出来了。

他的评价很直白:这是全球第一款真正意义上的智能手机。

在豆包手机助手的协助下,AI 能完全控制手机——能「看懂」界面、自己选应用或下载 App、点击按钮、输入文字、拨打电话,甚至还能执行一整串多步骤任务链。

拿到手机后,他整了不少花活儿。比如随手拍张蔚来换电站问「这是啥」,AI 秒答。

拍个酒店门口,豆包不仅能识别出是哪家酒店,还能根据 Ogan 的需求预定房间,并查询宠物政策。

打辆无人驾驶出租车去公园,豆包能够规划好路线,用最近的上车点完成预约。Ogan 全程只需要用语言表达意图,其它都交给豆包。

用它下单两杯饮料后,外卖无人机很快就把订单飞送到附近储物柜。

走在街上, Ogan 拍了家新开的店,问它是不是本地的品牌,豆包也能查询工商和商标信息,然后果断回答:「是的」。

全程 AI 自己干活,人就负责躺平。

一顿丝滑操作下来,海外网友们大为震惊。

随便翻翻评论区,清一色的点赞声。有网友感慨:「此刻,操作系统变成了管家,手机变成了执行者,而不再只是工具。」有网友猝不及防地表白:「我本来就喜欢豆包,现在更爱它了。」

还有网友直接化身「哇塞哥」:

这是下一级别的东西。我在企业级见过类似的东西,Agent 控制你的 PC 并执行任务,但在手机上有这种技术真的很有意思。想象一下,当谷歌开始在 Pixel 设备和几乎所有 Android 手机上这样做时会发生什么……

Pixel 内心 belike,不对劲,怎么感觉有人在点我?

当然,质疑声也有。有人问:「但它真的智能吗?这模型能在设备上本地运行吗?」Taylor Ogan 的回应是:「它太智能了。你可以选择在设备端运行或云端运行。」

在 Reddit 平台上,讨论同样火热。

有网友表示:「只要这些功能是设备本地的(不使用云服务),并且使用是可选的,我就支持这个。」还有网友一针见血地点出了 AI 的真正意义:「这就是 AI 应该做的事情,为个人节省时间,而不是试图消除个人的价值。」

有一说一,在豆包手机助手发布之后,网友分享在 X 平台上的玩法,也是一个比一个「邪修」。有用豆包点咖啡,也有让豆包 AI 操作安卓机,模拟人手滑页面,主打一个全流程自动化。

还有网友用豆包手机助手下单买了个椰子,由于没够起送价,豆包贴心地帮博主选了一个 1.99 元的一包食用盐来凑单。

APPSO 在之前对豆包手机助手的体验提到,我最直观的感受是,手机变「薄」了,它把各个 App 的能力都「拍扁」了,交互更加自然、直观和高效。

问题来了,这是怎么做到的?这和「phone use」智能体又有什么不同?

在用了一周豆包手机助手后,APPSO 也扒出了背后更多的技术细节。

我扒出了豆包手机助手操作手机的秘密

在豆包手机助手发布之前,手机行业其实已经折腾 AI+ 好一阵子了。

手机硬件厂商试图通过系统层级的 AI 能力,打破应用间的壁垒,实现「一句话办事」。比如华为、小米、vivo、荣耀等主流手机厂商的 AI 智能体,都曾在不同场合展示过自动发送消息、执行多步骤任务等功能。

这些演示虽然在具体场景和实现方式上略有不同,但核心逻辑都是一致的:通过 AI 大模型理解用户意图,并结合模拟用户操作,从而实现跨应用的自动化任务执行。

听着挺玄乎,但实际体验嘛……咳咳,还是有不小的提升空间。

而豆包手机助手的下场,进一步掀起了全网的讨论。更重要的是,根据我之前的体验,豆包手机助手的确是真正意义上把 AI 操作手机这件事做到了可用级别,不局限于几个场景,而是能够流畅自然地通过图形界面操作完成长任务、复杂任务。

APPSO 在知名预印本平台 ArXiv 发现了一篇由字节团队发布的技术报告,里面的信息或许能解释其中的关键原理。

附上地址:https://arxiv.org/abs/2509.02544

豆包手机助手的图形界面操作能力,来自字节跳动 Seed 团队开发的 UI-TARS 模型。它把屏幕视觉理解、逻辑推理、界面元素定位和操作整合在一起,其开源版本是目前最受欢迎的开源多模态智能体模型。

根据 UI-TARS 2.0 技术报告,这个模型的厉害之处在于,它不是简单的模块化拼凑,而是采用了端到端的学习方式,将感知、推理、行动和记忆整合在一起。

数据不会骗人,在 GUI 基准测试中,UI-TARS-2 的成绩相当能打:

  • Online-Mind2Web 得分 88.2,
  • OSWorld 得分 47.5,
  • WindowsAgentArena 得分 50.6,
  • AndroidWorld 得分 73.3

这些成绩不仅明显优于前一代模型,还在多个场景中超越了 Claude 和 OpenAI 等强劲基线模型。其中 AndroidWorld 的 73.3 分更是比 OpenAI CUA-o3 模型高出 20 多分,展现出强大的竞争力。

在游戏环境中,UI-TARS-2 在 15 款游戏组成的测试集中取得了平均标准化得分 59.8,约为人类水平的 60%。相比 OpenAI CUA 和 Claude Computer Use,UI-TARS-2 的表现分别提升了 2.4 倍和 2.8 倍。

这是什么概念?就是 AI 打游戏已经快接近普通人类玩家水平了。

在 LMGame-Bench 中,它依然能与当前最前沿的闭源模型掰手腕,进一步证明其在长时序游戏推理中的稳健性。

更厉害的是,UI-TARS-2 不仅能处理 GUI 任务,还能通过 GUI-SDK 扩展能力,与系统级资源(如终端和外部工具)集成。在信息检索任务(BrowseComp 29.6 分)、软件工程任务(Terminal Bench 45.3 分、SWE-Bench Verified 68.7 分)上都有竞争力。

一个模型走天下,这就是通用性的体现。

值得一提的是,通过接近豆包团队的人士透露,豆包手机助手用的 UI-TARS 是私有模型版本,性能比开源版更强,还针对手机场景做了专门优化。这或许也解释了为啥豆包手机助手实际体验这么丝滑。

豆包手机助手,确实有点技能在身上的。

写在最后:科技产品的「异类」可以多一些

作为一个长期关注科技产品的编辑,今年令我十分感慨,在这个恨不得把「万物皆塞入手机」的行业,却出现两个异类,分别在设计与交互的维度上,走向了极致

一个是 iPhone Air,当 Pro 系列不可避免地走向堆料的终局,这种对轻薄的偏执,在参数党眼中或许别无他用,甚至让人一时分不清这是倒退还是进化,直到你把它握在手里,原来,轻盈本身就是一种功能。

而豆包手机助手则站到了交互界面的另一个极端,它不要你去找服务,而是让服务来找你。甚至要掀了 GUI (图形用户界面)的桌子,有一天那块屏幕可能都不是必需的。

一个是硬件,一个是软件,但它们殊途同归。iPhone Air 削减了物理上的累赘,豆包手机助手剥离了交互上的繁琐。

你会发现,当 AI 公司参与到硬件的设计中,他们对交互设计的思路都和传统硬件厂商有所不同。

OpenAI 也正在和前苹果传奇设计师 Jony Ive 打造 AI 硬件,Sam Altman 就曾透露这块设备希望重新定义交互:不需要一堆 app,而是 AI 作为主界面与操作层。

当然,历史告诉我们这类新技术落地必然面临阵痛:适配、隐私、生态……还有各方利益的博弈。先进技术和广泛应用的「双向奔赴」尚需时日,但也是大势所趋。

OpenAI 联创 Andrej Karpathy 前段时间也表达了自己对交互未来的预判:

人机深度协作的时代,那些用户界面(UI)极其复杂(有大量滑块、开关、菜单)、不支持脚本、并且建立在不透明的、自定义的二进制格式上的产品,注定是死路一条(ngmi)。

未来,AI 在理解和操作人类图形界面(UI/UX)方面会越来越强(比如像 Operator 这样的前沿项目),但我怀疑,那些只想坐等这一未来实现,而不主动与当前技术发展水平「双向奔赴」、做出改变的产品,它们的下场不会太好。

敢于吃螃蟹这件事本身,就已经算是值得瑞思拜了,我们也希望看到更多「异类」出现在科技行业。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


硅谷商战变厨艺大赛?小扎曾亲手煮汤挖人,OpenAI 说不慌都是演的

By: 张子豪
3 December 2025 at 15:40

鹬蚌相争,渔翁得利。有时候还挺希望我们用户就是那个渔翁,模型厂商打得越厉害,我们就有机会越快用到更好的模型。

2022 年 12 月 22 号,在 ChatGPT 发布三周后,为了应对 OpenAI 的威胁,Google 成了第一个发布「红色警报」的科技巨头。

昨天,在 Gemini 3 发布两周后,因为 Gemini 3 模型出现了大幅增长,OpenAI 发布了首个「红色警报」。

看到消息的时候,我就觉得 OpenAI 是不是有点过度反应了,很快就看到了一些评论说「骄兵必败」、还有「胜败乃兵家常事」。但转念一想,所谓的「红色警报」也许就是给投资人看的,毕竟 OpenAI 如果真的做不到第一,那个 2030 才能盈利的时间,只会拉得更长。

▲ Gemini 的 App 下载量快要追上 ChatGPT

根据最新透露的消息,OpenAI 在下周即将推出一款新的推理模型,内部评估表现要比 Gemini 3 更好。此外,他们还计划通过一个代号为「Garlic」的模型,来进行反击。

但更现实的情况,是 OpenAI 必然会发布比 Gemini 3 更好的模型,而 Google 也还有 Gemini 4、Gemini 5。

其实,回看过去这一年来硅谷的新闻,完全算得上是一出跌宕起伏的抓马大戏。年初被 DeepSeek R1 的横空出世而感到压力;年中则是小扎开启的疯狂「抢人模式」,天价薪酬刷新着所有人对 AI 人才的认知;到了年尾,又再次卷回到了朴素的模型比拼赛场。

在 OpenAI 研究主管 Mark Chen 的最新播客采访中,硅谷的战争更是进化到了魔幻的程度,他说小扎为了挖走 OpenAI 的核心大脑,甚至开始做汤,真的能喝的汤,然后亲自把汤送到研究员的家门口。

除了这些八卦,他也谈到了 OpenAI 对于 Gemini 3 的看法、Scaling 是否已经过时、还有 DeepSeek R1 对他们的影响、以及公司内部的算力分配、实现 AGI 的时间表等。

Mark Chen 的背景非常有意思,数学竞赛出身,MIT 毕业,去华尔街做过高频交易(HFT),2018 年加入 OpenAI,跟着 Ilya 一起做研究。和奥特曼更偏向于商人属性的特点不同,这些经历,让他身上也有一股非常明显的特质,极度厌恶失败,且极度信奉数学。

他坦言自己现在,完全没有社交生活,过去两周每天都工作到凌晨 1-2 点。

我们整理了这场长达一个半小时的采访,总结了下面这些亮点,或许能更好的看清硅谷这一年来的各种「战争」、以及 OpenAI 会做些什么努力,来继续保持自己在 AI 时代的第一。

关于 Gemini 3,我们真的「不慌」

OpenAI 真的怕 Google 吗?Mark 的评价很客观但也很犀利。他肯定了 Gemini 3 是个好模型,Google 终于找对路子了。但是他说看细节,比如 SWE-bench(这也是 Gemini 3 刷榜那张图片里,唯一一个没有拿到第一的基准测试)数据,Google 在数据效率上依然没有解决根本问题。

▲Gemini 3.0 Pro 在 SWE-Bench 上的表现,比 GPT-5.1 还差了 0.1%

而他自己则是非常自信的表示,OpenAI 内部已经有了针对性的应对模型,而且他们有信心在数据效率上做得更好。

Mark 甚至说,奥特曼前几天发那个说大家都要感到压力的备忘录,去吓唬大家,其实更多的是为了注入紧迫感,他说这是管理层的惯用手段,备忘录的目的在于管理层激励团队,而不是真的感到慌了。

我觉得Sam的工作之一就是要注入紧迫感和速度感。这是他的责任,也是我的责任。

 

作为管理者,我们的部分工作就是不断给组织注入紧迫性。

▲此前 The Information 报道,奥特曼在 Gemini 3 推出时,在公司内部发备忘录,提到会给 OpenAI 带来困难

他们目前最大的问题,还是算力分配。作为 OpenAI 的研究主管,他的一项工作就是决定如何将算力分配到公司内部不同的项目。

他和 Jakub Pachocki(OpenAI 首席科学家)一起,负责制定 OpenAI 的研究方向,同时决定每个项目能拿到多少算力。为了这件事,他们每隔 1–2 个月,都会做一次盘点。

他们把 OpenAI 所有在做的项目,放进一张巨大的表格里,大概有 300 个;然后努力把每一个项目都看懂,给它们排优先级;再根据这个优先级表去分配 GPU。

▲英伟达和 OpenAI 的百万 GPU 合作

他也提到,真正要用掉大部分的 GPU 的,甚至并不是训练那个最重要发布的模型,而是他们内部在探索下一代 AI 范式的各种实验。

所以,在他的眼里,Gemini 3 发布了、某家开源模型刷榜了、某个思考模型又拿了新高分了;这些你追我赶的 benchmark 赛车一点都不重要。反而,最应该避免的,恰恰是被这场竞赛牵着走。

他说,现在的模型发展,我们随时可以靠一点「小更新」,就在榜单上领先几周或几个月但如果把资源都砸在这些短线迭代上,就没有人去寻找下一代范式。而一旦有人真的找到了,整个领域后面十年的路线,都要沿着那条新路走。

小声哔哔几句,预言 OpenAI 下周要发布的模型,我想就是在计划之外,做了点小更新,然后刷新了几个榜单而已吧,就这还没慌吗。

提到榜单的时候,他说他有自己的一套私房题,用来测试模型是不是真的具备了顶级数学直觉。他举了一个 42 的数学难题,说目前的语言模型,包括 o1 这种思考模型能接近最优解,但从来没有完全破解它。

你想创建一个模 42 的随机数生成器。你手头有一些质数,是模数小于 42 的质数的随机数生成器。目标是,以最少的调用次数,组合出这个模 42 的生成器。

除了谈到 Gemini 3,主持人也问了他对于 DeepSeek 的看法。

和 Gemini 3 一样,Mark 承认 DeepSeek 的开源模型曾让他们感到压力,甚至怀疑自己是不是走错了路。

但结论是坚持自己路线,不要被对手的动作打乱节奏,专注自己的路线图。OpenAI 不会变成一个跟风的公司,他们要做的,就是定义下一个范式。

Ilya 的 Scaling 里面还有很多潜力,OpenAI 需要大规模预训练

近期关于 Scaling 失效的讨论纷纷扬扬,Ilya 先是在播客采访里面说,Scaling 的时代已经结束了,后面又在社交媒体上澄清,Scaling 会持续带来一些改进,并不是停滞不前。

所谓的 Scaling Law,就是按经典老故事走向,这几年建了巨大的算力基建,模型每 10 倍算力,本该有一波明显跃迁。但从 GPT-4 到 GPT-5,外界并没有看到预期中那种「质变式」的提升,所以才会有「Scaling Law 失效了」的讨论;而 Ilya 前段时间的访谈,则是进一步放大了这种观点。

Mark Chen 对这个观点,给出了坚决的反驳,「我们完全不同意」。他透露,过去两年 OpenAI 在推理上投入了巨量资源,导致预训练这部分稍显退化。之前关于 GPT-5 遇到了预训练的问题,其实也是因为他们把重心放在了推理上,而不是 Scaling Law 已死。

工作就是分配算力资源的他,再次重申算力永远不会过剩,如果今天多 3 倍算力,他可以立刻用完;如果今天多 10 倍算力,几周内也能全部吃满。对他来说,算力需求是真实存在的,看不到任何放缓迹象。

▲ OpenAI 的计算成本,计划到 2030 年花费约 4500 亿美元租用服务器,红色为推理计算成本、蓝色为研发(不包含现金业务)、黄色为可盈利的计算

他也提到,过去半年,他和 OpenAI 首席科学家 Jakub Pachocki 已经将重心重新拉回,要开始重塑预训练的统治力

他明确说他们会继续做规模化模型,而且已经有一批算法突破,专门就是为了让 Scaling 更划算,在相同算力下挖出更多性能,在更高算力下保持数据效率。

小扎的送来的真汤,抵不过 OpenAI 的鸡汤

最后就是访谈里提到的八卦了,Meta 今年没有别的新闻,媒体渲染了一整个季度的「OpenAI 人才/Apple 人才/Google 人才大量流失到 Meta」,Mark Chen 在播客里正面回应了这个话题,细节简直有点「颠」。

他说小扎真的很拼,为了挖人,小扎不仅手写邮件,还亲自去送鸡汤。人才战打到最后,居然演变成「谁煮的汤更好喝」的 Meta 游戏。

▲ Meta 花大价钱挖人组建的超级智能实验室名单

不过,在他的直接下属中,Meta 曾试图挖角一半的人,结果全部选择继续留下来。为什么不走?不是因为钱,因为Meta 给的钱显然更多,而是因为信仰

Mark 说,即使是那些跳槽去 Meta 的人,也没有一个人敢说「Meta 会比 OpenAI 先做出 AGI」。留在 OpenAI 的人,是因为他们真的相信这里才是 AGI 的诞生地。

他也提到自己从华尔街和玩扑克的经历里面学到,真正要守住的是核心人才,而不是每一个人在搞清楚,必须留下的是哪类人后,再把资源和关注度,全部压在这部分人身上。

他说他最强烈的情绪,其实就是想「保护研究的本能」。在 Barrett(OpenAI 研究副总裁)离职那阵子,他甚至直接睡在办公室睡了一个月,只为把研究团队稳住。

▲ Barret 目前和 Mira(OpenAI 前 CTO) 都在 Thinking Machines

那么 OpenAI 所信奉的 AGI 又是什么,主持人问他,Andrej Karpathy 在最近的一个播客里面说,AGI 大概还要 10 年,你是怎么想的。

Mark 先是调侃了一番 X 现在「惊」的各种文案,一下子是「AI 完了」、一下子又是「AI 又可以了」。他觉得,每个人对于 AGI 的理解都不同,即便在 OpenAI 内部,也很难有一个一致的定义。但他相信的是,OpenAI 在 AGI 道路上设置的目标。

  • 一年内: 改变研究的性质。现在的研究员是自己在写代码、跑实验。 一年后,研究员的主要工作是管理 AI 实习生。AI 应该能作为高效的助手,承担大部分具体工作。
  • 2.5 年内: 实现端到端的研究自动化。这意味着:人类只负责提出 Idea(顶层设计),AI 负责实现代码、Debug、跑数据、分析结果,形成闭环。

从 Copilot 到 Scientist,Mark 强调,OpenAI for Science 的目标不是自己拿诺贝尔奖,而是建立一套工具,让现在的科学家能一键加速,哪怕这需要重构整个科学评价体系,因为未来可能很难分清是人还是 AI 做的发现。

2 年半的时间很快,但这对于现在看来,是以周为单位迭代的 AI 行业来说,又是一场漫长的马拉松。

▲ 预测市场给出的,到 2025 年底前最好的 AI 模型会来自哪个公司,Google 排在第一名

无论是扎克伯格那锅真金白银的鸡汤,还是 OpenAI 想要定义未来的理想主义鸡汤,这场硅谷的「煮汤大戏」还远未结束。Mark Chen 播客里表现出来的从容,或许能消除一部分外界的焦虑,但用户还是会用脚投票,好的模型自己会说话。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


WPS 给 AI 装上「大脑」和「双手」后,我真正感受到它会干活这件事

By: 张子豪
2 December 2025 at 19:06

前段时间,Nano Banana Pro 发布,有网友在我们的留言区评论,说前端程序员已经不知道「死了」多少次了。

如果要把这两年职场人的心理变化画一条曲线,我想大概率是一条过山车,从最初的震惊与狂热,到中期的焦虑与恐慌,再到现在的……疲惫与祛魅

是的,疲惫。

▲ 技术成熟度曲线

我们尝试着无数个声称能颠覆工作的 AI 工具,但回归到真实的周一上午,情况往往是这样的:你在一边狂敲提示词,在另一边小心翼翼地把生成的文本复制回文档,然后花半小时重新调整那个被毁得面目全非的表格格式 。

这种割裂感,真的很难让人把它和生产力三个字划等号。

很多时候,我们手里的 AI 更像是一个用来炫技的玩具,而不是那个能真正帮你把项目彻底搞定(DONE)的智能伙伴 。

▲「AI 原生,效率新生」—— WPS AIDONE 办公专场活动

前几天,我们和 WPS AI 在珠海金山软件园一起举办了「AI原生· 效率新生- AIDONE办公专场」。爱范儿副主编、 APPSO 负责人李超凡,和金山办公 Office AI 负责人刘拓辰,在现场分享了他们对于 AI 原生与效率的看法,如何才能做到 AIDONE;还有 WPS AIPPT 的上手体验等。

从现场回来,我隐约意识到,可能我们之前打开 AI 的方式,都太累了。当 AI 和 Office 彻底融为一体之后,办公这件事完全可以从忙于交付,变成更专注思考。

所谓的 AI-Native,并不是你会写提示词

什么是 AI-Native(AI 原生)?是会用 Midjourney 生成几张二次元图片?还是能熟练背诵某套万能提示词模版?又或者是用那些所谓的一句话生成产品,手搓一个项目 Demo。

我想这些都不是。

▲爱范儿副主编、APPSO 负责人李超凡主题演讲「如何成一个 AI- Native 职场人」

如同我们在现场分享的观点一样,AI 原生是一种「生物本能」,贯穿到我们工作的每一个环节。像是之前做 AI 编程的 Lovable 团队,他们整个公司只有 35 个人,成立短短 7 个月,年收入就做到了 8000 万美金。还有创作者顶流,用 AI 写深度长文,年收入达到了 400万美金的 Packy McCormick。

凭什么?就凭他们把 AI 变成了某种生物本能;他们不是雇了更多的员工,而是雇了更多的 AI。

对于真正的 AI Native 职场人来说,区别也不在于我们用了多贵的工具,而在于第一反应。遇到难题时,你的脑回路是「这事儿我该怎么熬夜肝出来」,还是「这事 AI 能帮我做吗?我该怎么指挥它?」。

但这里也有个巨大的悖论:如果指挥 AI 的成本,比我自己做还要高,那这种「本能」就是反人性的。

这恰恰是目前大多数 AI 产品的死穴,它们离我们的工作流太远了。经常是,我们得跳出文档,去浏览器里求助,然后再把结果搬运回来。这种反复横跳,足以打断任何珍贵的「心流」。

▲不打断心流的 AI 伴写

所以,AI-Native 该怎么实现。我们的判断是,在最熟悉的 Office 软件里「原生」地使用 AI,才是成为 AI-Native 职场人的最短路径。

原生 Office AI,从工具到类同事

如果说 AI 工具的割裂感是 AI-Native 的痛点,那么金山办公的 Office AI 负责人刘拓辰,则给出了解法。

▲ 金山办公 Office AI 负责人主题演讲「原生 Office AI,从交互到交融」

他在现场提到了一个贯穿全场的关键词,「原生 Office AI」,而要做到原生 AI,他带来了一个更前沿的产品哲学:Agentic Software(智能体软件)

这不只是一个新名词,本质上重新定义了 AI 在软件里的角色。在 WPS 的设计理念里,真正的 Agentic 应该像一个训练有素的助理,拥有两个关键能力:大脑和双手

它得先有一个会思考的大脑,具备自主规划能力。 以往的模型是我们问一句它答一句,完全被动响应。而在 WPS AI 里,当我们抛出一个模糊的需求,比如「做一份年中复盘 PPT」。

AI 会先像人一样思考:复盘需要哪些模块?需要调用哪些数据?它会主动拆解任务路径,规划每一步怎么走,甚至在执行后进行反思;「我做出来的结果符合预期吗?如果不符合,我再重新规划修正」。

但光有想法还不够,它更需要一双干活的手,让它能无损调用各种工具。 这是金山办公 37 年,死磕办公文档底层技术的独家壁垒。

通用大模型也许能写出漂亮的文案,但它们是「没手」的,不能直接在最后交付的文档里面操作。 而 WPS 将内部最高频的核心功能,抽象成了 AI 能理解的工具,让它能理解怎么调整字号、怎么对齐表格、怎么插入文本框、实现各种样式效果。

区别于简单的懂格式,WPS 建立的这套工具化与双向无损互通的能力;做到了 AI 改完的文档,和我们亲手做的一模一样,没有乱七八糟的隐藏标签,格式完美保留。

而在这个 AI 办公过程中,我们用户的角色也开始发生了一些变化。

以往我们是操作者,每一个标点都要亲力亲为;现在,我们变成了决策者。 在 WPS AI 的执行过程中,从理解指令到拆解步骤,再到调用功能,全过程都是可视化的。我们就像坐在副驾驶,看着 AI 开车;它会告诉我们,「我打算先做数据清洗,再做图表分析」。

▲WPS AI 3.0 WPS灵犀 – 文字 Canvas:左侧文档编辑,右侧 AI 对话,用户与 AI 同屏协作

这种交互方式超越了简单的多轮对话,成为一种「过程可视化与实时干预」的全新范式。如果 AI 跑偏了,我们不需要推倒重来,只需在它思考的任意环节随时介入纠正,掌控权始终在我们手中。

过程透明不仅让我们更好地掌控方向,也让整个结果变得可验证、可信赖。「AI 负责规划与执行,人负责审核与决策」的模式,才是 AI 在职场真正落地的样子。

在现场的圆桌对话环节,嘉宾们还讨论了一个话题,「AI 是执行的终点,还是创意的起点?」我印象特别深的一句话是 AI 无法取代人的品味,比起执行,人的价值正在重新被凸显。

▲ 圆桌对话,探讨「AI 是执行的终点,还是创意的起点」以及「未来我们如何与 AI 写作办公」等前沿话题;左一李超凡,中间刘拓辰

AI 正在把必须做的工作自动化:排版、找图、格式、查资料、总结文档……而人类的工作,会变成:判断、提问、想法、审美、选择。这是一个更轻松、也更要求想得明白的时代。

而 WPS AI 正是在帮我们把那些繁琐的、流程化的任务都「搞定」,之后这些省下来的时间,是留给我们,可以拿来做一点真正有价值的思考和决策。

所以,AI 是终点还是起点呢,我想是因为 AI 帮我们走完了执行的终点,我们才终于有精力回到创意的起点。

AI 原生办公,才是未来的工作方式

在 WPS AIPPT 盲盒挑战环节,15 分钟做完 PPT 已经不是炫技,而是一种新的合作方式。用户给方向,AI 负责拆解结构、规划大纲;用户确认无误后,AI 再调用工具完成排版与美化。整个过程,WPS AI 的每一步思考都呈现在我们面前。

▲WPS AIPPT 盲盒挑战,参加活动的朋友正在使用 WPS AIPPT 制作

但我要说的重点不是它有多快,而在于一种新的心流,我们终于可以只专注内容,而不是被排版和格式绑架。这其实才是 Agentic Software 的意义,不是跳过工具,而是让工具的执行过程变得高效且透明。

以往做 PPT,我们处于一种左右脑互搏的焦虑中,既要像作家一样思考逻辑,又要像设计师一样纠结配色对齐。但在这次体验中,因为 AI 接管了找图、排版、美化这些繁琐的体力活,玩家只需要专注于我想讲什么。

这种不打断、不割裂、所想即所得的流畅感,恰恰验证了前面提到的理论,只有原生在文档里的 AI,才是真正的生产力。

▲ 输入主题就能得到 PPT,WPS AIPPT 官网,aippt.wps.cn

在活动现场,我不止一次听到有人感叹,「没想到 WPS 现在的 AI 已经做得这么深入了。」这句感叹背后,其实是用户对当前市面上大量「套壳 AI」的审美疲劳。

为什么 WPS AI 能给人不同的感觉?我认为核心在于金山办公对于「AI 与软件关系」的重构。正如刘拓辰所说,Agentic Software 绝不是简单的聊天机器人。智能体这个词在今年 Manus 爆火之后,就一直没有冷下来过,但对我们用户来说,一个好的 Agent 却仍然还在被定义中。

在 AI 的 1.0 时代,大多数产品是把 AI 当作一个「插件」挂在软件旁边,两套工具流,各玩各的。最近这两年,AI 工具更是百花齐放,但真正能改变工作方式的,从来不是功能升级,而是软件结构的变化。

WPS AI 走的正是这条更难的路,彻底把 AI 融入软件设计;一方面,给 AI 一个独创的翻译引擎,让 AI 能读懂复杂的文档格式;另一方面,把拆解任务、调用工具的每一步都摊在台面上,我们看着 AI 干活,随时喊停纠正。

它不满足于仅仅生成一段文字,而是要成为一个能真正「交付结果(Get Things Done)」的智能体。无论是最近大火的「企业知识库」功能,还是这次演示的 WPS AIPPT,本质上都是这种「原生+智能体」思路的落地。

在 WPS AI 的体系里,AI 不是插件、不是外挂,也不是单纯的内容生成器。它是我们文档里的助手,是会议里的整理者,是灵感的第一落点,是 PPT 的合作者。

对于当前这个浮躁的 AI 时代来说,这其实是 WPS AI 一种克制与务实的长期主义。不去卷那些花哨的 C 端娱乐功能,而是死磕文档、知识库、企业大脑这些 Office 办公领域的基石;也让 WPS AI成为了目前市面上少有的、真正能被称为「生产力」的产品;懂文档、懂创作、更懂用户。

回想起文章开头提到的那个问题:我们还需要多久才能跨越 AI 的尝鲜期?答案也许就在你打开 WPS 的那一刻。

当你发现,原本需要一下午才能搞定的 PPT,现在喝杯咖啡的功夫就能出初稿;当你发现,你终于不再是软件的奴隶,而是 AI 的指挥官时;你就已经是一个 AI Native 职场人了。

不要让 AI 成为你的焦虑来源,去试着指挥它,去试着把那些「必须做」的繁琐交给它,让自己专注于「值得做」的事情 。

毕竟,只有当我们繁琐的操作真正隐形,创造力才能真正显现。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


不止 Sora2!拍我AI V5.5 更新:人人都能用 AI 视频当导演了

By: 樊 尔
2 December 2025 at 14:04

2025 年,AI 视频又把桌子掀了。手切金属、小猫做饭,甚至是那个火遍全网的「奥特曼宇宙」,对 AI 来说不过是几句 Prompt 的功夫。


但也别高兴得太早。

绝大多数 AI 视频工具,依然停留在「素材生成」阶段。它们能给你一段精美的画面,但这些画面是大多是破碎的、静音的、单一景别的。

如果你想搞点严肃创作,比如带分镜的故事片,你得不停地「抽卡」,祈祷 AI 能听懂什么是远景、什么是特写。

结果往往是,它一股脑塞给你一堆逻辑不通的废片。选完还得配音、剪辑、配乐…一串工作流下来,10秒视频能干两个星期。

AI 视频到底什么时候才有带演技的叙事能力能学会「讲故事」?

昨晚,拍我AI(PixVerse) V5.5 的更新给了给我带来了惊喜。时隔半年,这位「卷王」再次扔出重磅炸弹。如果说上一个版本是给你配了一个特效师,那么 V5.5 则是给你配备了一个懂视听语言的导演组。

V5.5 是国内目前唯一能够一键生成「分镜 +音频」,实现完整叙事的 AI 视频大模型。

它最大的突破在于:AI 视频开始具备「导演思维」。它不再只是生成会动的图片,而是开始理解镜头、声音与叙事之间的逻辑关系。

以前需要专业分镜师才能做到的事,现在的你,也能「从从容容游刃有余」。

AI 视频终于拥有了「灵魂」

影片的「故事感」从何而来?很大程度上,源于人物的对白、背景音乐的烘托,以及镜头切换带来的节奏感。

我们就从这两个维度,来狠狠考验一下拍我AI 的成色。

查看完整视频案例效果请跳转 APPSO 推文

自带百万音效师

先从「配音师」这个角色开始,拍我 AI V5.5 支持多角色音画同步,看它水平怎么样。

首先我们来段沙滩广告。

提示词:男人看向镜头,将啤酒举到镜头前,对着镜头倾斜瓶子,做干杯动作。背景音是动感的电子乐,有明显的鼓点,充满流行感。

拍我 AI 做得干净利落。最让我起鸡皮疙瘩的是细节: 它完全听懂了场景,配上了十分适合夏日沙滩的感觉的音乐。

这种对环境音的理解,十分给力。

再来点环境不一样的,让一辆的士驶过城市街头。

拍我 AI 也是手拿把掐,镜头不仅跟随着汽车,还配上了街头嘈杂的汽车声,仿佛真的置身于人头攒动的纽约街头。

提示词:出租车在城市街道里前行,渐渐消失在画面中。

但这还只是开胃菜,我们继续上强度。

我先用拍我AI 内置的 Nano Banana Pro,生成了一张图片,然后再让拍我 AI 生成了一个「欢迎南方小土豆光临东北」的视频。

 

提示词:女人热情地说:「欢迎南方小土豆,来我的家乡!俺东北这里可想你啊!」

短短两句话,口型对上了,东北阿姨热情的劲儿都拿捏了,简直让人想要下了班就立刻买张机票去旅行。

再比如,下面这段帕丁顿熊的片段中,它精准地复刻了那标志性的英伦腔调。那种特有的顿挫节奏与绅士般的「老伦敦」口音,听起来不仅地道,而且非常有辨识度。

而在处理小熊的剧情时,它更是展现出了对剧本的理解力。

当角色意识到自己身处巴黎铁塔,而对方在东京铁塔的乌龙瞬间,拍我AI 生成的语音准确传达出了那一刻的错愕与惊讶。

这种对语气拿捏的细腻程度,让整个片段不再是简单的画面堆砌,而是有了真实的情绪流动。

它不仅仅是简单地识别了两个角色形象,更深刻地理解了角色背后的文化符号与剧情语境,从而为它们匹配了极具灵魂的声音演绎。

不难看出,拍我AI 音频生成功能,让视频工作流里的配乐和配音门槛大幅降低。只要在拍我AI 的视频生成的参数里,将「音频」的选项打开,接着只需要简单的一句话,就能帮你快速批量尝试,简单到一个人就能轻松做好。

拿捏影视级的镜头

景别,是导演手中的刀,用来切割时空,引导情绪。

过去,用 AI 做分镜简直是「噩梦」:你得分别生成远景、近景,然后再自己去剪辑软件里拼。而在拍我AI V5.5 里,这种笨功夫成为了历史。

打开多镜头模式,告诉 AI 你要的画面的景别,并切换多机位,它就能直接生成一段有叙事节奏的成片。

比如那个火遍全网的「三宫格海边写真」,我们就能把它变成一段更加有趣的剧情短片:

提示词:
镜头一:猫回头看着镜头。猫说:「山的那边是什么」。
镜头二:猫再次回头望向大海。镜头拉近猫,猫说:「你不用告诉我」。
镜头三:猫正脸部的特写镜头。猫说:「因为,我只想在你家里捣乱。」

整体成片的效果相当扎实。但真正让我惊叹的,是拍我AI 理解了台词背后的情感潜台词。在猫咪开口前的瞬间,极具灵性地加了一个推镜头的特写调度。这种看似简单的运镜处理,瞬间拉满了画面的叙事张力。

我们再来到东非大草原。我还用 Nano Banana Pro 生成了一个纪录片图片,一键视频生成了一段剧情短片:

如果你觉得还要先学习写分镜太麻烦,没关系,拍我AI V5.5 的「脑补」能力同样惊人。 只给一句话,它也能给你惊喜。

提示词:he woman watching her memory-lost mother at home, and sad. They hugged but her mother seemed not to remember her anymore.

拍我AI V5.5 交出的答卷超出预期。不但给了我三个镜头,还自主构建了一段完整的叙事:从母女互动,到最后温情相拥的落点,剧情逻辑清晰感人。

可以看出,拍我AI V5.5 已经不再止步于单一画面推进,而是开始真正掌握了视听语言的语法。通过精准捕捉提示词中的场景氛围与情感基调,自主编排景别和镜头,为生成的影像注入了能够打动观众的内涵。

这种变化,让最终的成品摆脱了「动态图片」的单调标签,进化为一段真正具有叙事承载力的影像素材。

一键直出广告大片,新的创作神器诞生

刚才那些玩法可能还只是「整活」,为了验证它是否真的具备「生产力」,我们决定再上点难度。

直接甩给拍我AI V5.5一个完整的惊悚电影镜头脚本,看看它接不接得住。

提示词:The video is shot using a fisheye lens, giving a distorted, wide-angle view of an urban street scene at night in front of a store with a sign reading “DELI • GROCERY • ATM” (English). The lighting is dim, with red neon reflecting off wet pavement. The musical sound is slow, ominous industrial bass with distant sirens. The camera focuses on a tall figure wearing a cracked, porcelain doll mask and a heavy trench coat, looming over the lens. Behind him, two figures in black hoodies stand motionless near the store entrance. The masked figure leans uncomfortably close to the fisheye lens, whispering hoarsely: “Midnight tick, the shadows don’t sleep. Price on the head, and the secrets we keep. You saw the sign, but you didn’t read the print. One wrong step, and you vanish in a tint.” The figure slowly raises a gloved hand to cover the camera lens as the screen fades to black.

坦白说,最终呈现的成片质感大大超出了我的心理预期。

拍我AI V5.5 展现出的剪辑非常老练,它懂得如何在不同景别间流畅切换,避免了 AI 视频生成中常见的时空割裂感,让画面流转显得合乎逻辑。

当然,现阶段的 AI 还无法做到百分之百的完美。比如在处理最后那个极具张力的鱼眼镜头人物对白时,面部细节仍显露出些许破绽。但它在动态物理规律的遵循上守住了底线,整体瑕不掩瑜,成片的完成度和可用性依然处于高水准。

更令人惊喜的是声画配合。拍我AI V5.5 生成的人声不仅仅是念出台词,而是精准拿捏到了惊悚题材所需要的紧张氛围与压抑感,从音色质感到语速节奏,都与画面情绪实现了默契。

这种逻辑自洽、鲜有出戏感的表现,直接拓展了它的落地场景。对于电影导演而言,它完全可以作为高效的沟通工具,用来向编剧或摄影指导直观地阐述创意构思。

而对于广告人来说,它还是个创意利器。只需投喂一个完整的 Brief 和示意图,它就能迅速生成一支达到提案级别的汽车商业广告,效率惊人。

提示词:黑暗的极简空间中,一束流动的光带扫过深灰色车身的腰线,展示出”液态金属”般的肌肉质感。紧接着,矩阵式LED大灯猛然亮起,光束直刺镜头,照亮空气中的微尘。音乐声是低沉的电流声逐渐增强,伴随一声类似心脏跳动的重低音。一个沉稳深沉的男声说:”觉醒。” 镜头切至下一场景: 城市夜景的高速跟拍镜头,车辆在充满了蓝紫色霓虹灯光的隧道中飞驰。流动的城市灯光在车窗和流线型车身上拉出长长的光带,强调极速下的动态模糊感。音效是尖锐且充满未来感的电机加速啸叫声,混合着破风声。男声说:”超越速度的边界。” 镜头切至下一场景: 航拍镜头展现广阔的沿海悬崖公路,正值日落时分(Magic Hour),金色的阳光洒满车身,与深邃的大海形成冷暖对比。车辆向着地平线驶去,留下优雅的背影。音乐转为宏大且激昂的电影氛围乐,带有史诗感。男声继续:”不仅是抵达前方,更是征服。” 镜头切至下一场景: 车辆静止在极简的黑色反光地面上,车头正视前方,背景是抽象的红色流光慢慢消散。镜头缓慢拉远,上方浮现银色金属质感字幕”APEX “。男声说:”Apex GT。” 音乐在最后一声强有力的重音后戛然而止。

可以看到,这类成片的质感已经比较稳定。这充满速度与金属质感的车辆,让你几乎很难分辨这出自 AI 之手,还是某家专业广告公司的制作班底。

画面之间的衔接展现出了极高的成熟度,丝毫看不出拼接的痕迹。拍我AI V5.5 并非机械地堆砌素材,而是通过摇移等镜头、特写转向全景等画面语言,生成了一段有起伏、有张力的叙事段落。

配合引擎轰鸣与契合度极高的背景音乐,它成功摆脱了「AI 味」的廉价感,呈现出了可以融入到的工作流级别的影像水准。

别当「工具人」了,去当真正的「导演」

这次拍我AI (PixVerse) V5.5 的体验,让我产生了一个强烈的体感:AI 视频生成,正在经历一次关键的转折点。

过去使用 AI,像是在指挥一个听不懂人话的实习美工。你花着钱,还得在海量废片里大浪淘沙。那种频繁调整、试错、最后还得不到满意结果的挫败感,磨灭的不仅是时间,更是创作的热情。

拍我AI  V5.5 的出现,让我们看到了一丝曙光。

V5.5 底层模型基于自研多模态理解与生成技术,支持音频和视频同步生成,模型融合多镜头理解能力,智能生成匹配的分镜与多镜头,理解了视听逻辑。它不再是一个冷冰冰的素材库,而是一个开始懂剧本、懂叙事的「执行导演」。

虽然它还远未完美,但 拍我AI V5.5 这次确实给 AI 带来了一种「叙事能力的觉醒」,开始抹平普通人与专业导演之间那道巨大的技术鸿沟。

往后,无论是个人整活,还是商业化的广告样片、影视预演(Pre-viz),效率都将迎来质变。

这意味着,我们即将告别 AI 「素材生成」时代,跨入真正的「内容生成」时代。

在这个新时代下做专业创作,你可以不再需要精通 PR 或 AE,也不需要昂贵的摄影器材。你只需要专注于最核心的东西——创意与表达。

把繁琐的执行交给 AI,把思考留给人。

我想,这就是 AI 技术进步最性感的意义。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


体验豆包手机助手,它把我的手机「变薄」了

By: 李超凡
1 December 2025 at 13:37

双十一刚过不久,看着花呗账单陷入沉思的同时,我更想吐槽那几天的「非人」遭遇。为了给家里添置点大件,我在淘宝、京东、拼多多之间反复横跳,光是比价就把后台切到了手抽筋。

作为每年要体验大量新产品的科技编辑,我一度陷入沉思:手机拍摄越来越强,屏幕越来越大,处理器越来越快,为什么我还是得像个保姆一样伺候这些 App?

手机里的 App 越多,我的生活反而越破碎。

那你可能就要问了,都 2025 年了,满大街都在吹 AI ,难道就不能帮我把这些活儿干了?该说不说,现在的手机 AI 助手,大多只能定个闹钟、查个天气,真遇到复杂事儿,它比你还懵。

哪怕强如苹果,Apple Intelligence 国行版本至今也已经跳票好几次,我的 iPhone 17 Pro 到底啥时候能用上还是未知数。

没想到,字节跳动倒是先出手了。12 月 1 日,字节正式发布了豆包手机助手技术预览版。

这和我们常用的豆包 App 还不一样,它直接跟手机厂商在操作系统层面进行了深度融合,直接成为 OS 的一部分。

现阶段,豆包已经跟中兴推出了豆包助手预览版,也开放了购买,第三方开发者也能将自己的服务和应用集成至豆包手机助手。

不整虚的,我们直接按照用评测 iOS 的强度来体验一下豆包手机助手。

手机终于可以当我秘书了

咱们先来点让打工人头疼的场景小试牛刀。

以前要是想把飞书里的文档转成不同格式的文件发给领导,或者从微信几百条聊天记录里翻个文件发给同事,事情看着不难,但这些琐事往往会在你有其他工作的同时要处理。

我直接对着豆包手机助手说:「从微信聊天记录里找刚才那个文件发给xx,再把飞书那个季度总结文档转成 PDF 发到企业微信给xx。」

这时它就会自动调用「操作手机」功能,反应速度比我想象中快。它没有让我反复切换 App,也没有让我确认一堆选项,直接在后台运行,我接着忙其他事,不一会它就成功完成任务。

我甚至还能用来搞定更私人的事。比如我让它「帮我把微信收藏夹里找到我的护照照片,然后把 ID 号码发到文件传输助手。」

这也是旅游出差非常高频的需求,而且要知道我的收藏夹还有家人的护照照片,我也没有分类标注,豆包手机助手还能准确识别。

我再上点难度,让它帮我把某个微信群的的所有文件打包下载,整理分类后打包发送到企业微信给同事。

这是我最讨厌的工作场景之一,中间涉及跨应用操作、手动下载、逻辑分类、打包压缩等一系列复杂动作,豆包手机助手会怎么做?

看着屏幕上自动流转的操作,我久违地喊出了 Amazing:

1. 它精准定位到了微信群,识别出里面的文件,并开始自动批量下载。
2. 它没有把文件一锅端,而是像个真人秘书一样,自动识别了文件类型。它把 PPT 归一类,Excel 表格归一类,图片归一类,甚至还根据文件名里的关键词进行了二级分类。
3. 打包与发送:分类完成后,它自动生成了一个 ZIP 压缩包,命名清晰,然后无缝跳转到企业微信,找到指定的同事,点击发送。

▲ 豆包手机助手分类发送的文件.

我只需要动动嘴,它就帮我完成了以往需要手动操作半小时、还要在两个 App 之间反复横跳的繁琐工作。AI 要做好这些就跟真的得力秘书差不多了

豆包手机助手支持几种不同的唤出方式,但其中最自然、最让我感到「舒适」的,是「靠近直说」。

操作很简单:拿起手机直接讲,豆包手机助手就会自动执行,或者也可以按住 AI 健呼出。这个交互方式就像微信语音一样自然,不用对着空气喊出略显尴尬的唤醒词,几乎零学习成本。

如果你正忙得腾不出手,豆包还支持用智能耳机 Ola Friend 直接语音唤醒,在那些「手忙脚乱」的时刻特别好用。

比如周末做饭时发现没酱油了,直接对着耳机说「豆包,我做菜没酱油了,帮我上美团买两瓶」;又或者上班路上堵车,让豆包帮忙调整会议时间并通知对方;再或者骑车赴约时,让豆包直接回复朋友的微信消息。

这些场景的共同点是:双手被占用、不方便掏手机,但事情需要立即处理。豆包的语音操作让这些原本要「等一下再说」的琐事,都能即时解决,真正做到了动口不动手。

生活这些大小事,终于有手机 AI 接盘了

下面,我给它上点真正的强度。这也是咱们开头提到的那个痛点:

「我想买华为 Mate 80,帮我去淘宝、京东、拼多多比一下价格,要把所有能用的优惠券都算上,告诉我哪个平台最便宜,并把最便宜的那个加入购物车。」

说实话,问完这句话我都觉得自己有点欠揍。这不仅涉及三个 App 的跳转,还得识别优惠券规则,还得计算,还得加购。

像这种难度,豆包手机助手会调用「复杂任务」模式来进行手机操作。结果豆包一轮比价操作后,最后选了拼多多百亿补贴后的价格,并帮我加入购物车。

咱平时在小红书上收藏了一堆乱七八糟的攻略,真要用的时候还得自己整理,这种信息碎片化的焦虑,相信大家都不陌生。我给豆包手机助手再出了个难题:

这周末跟朋友约饭,帮我从小红书里面收藏的广州的餐厅里面挑一家,然后要拍照好看,人均在200 以内,最好是粤菜。

它不仅把我的收藏内容分类整理好了,还自动去掉了重复和过时的信息。这一套操作下来,我是真服了。它不是在简单的搜索,它是在理解我的生活流。这种将杂乱信息结构化的能力,也是 AI 功能对于用户最大的价值之一。

帮我看看闲鱼、转转和拍拍严选上,二手的任天堂 Switch OLED 版(白色,99 新)大概都卖多少钱?综合对比一下,帮我定一个容易出手但又不亏的价格,然后帮我写一段吸引人的文案,准备挂到闲鱼上去。

它会先把任务拆分成各种子任务,不会像无头苍蝇一样乱撞。然后在执行任务的过程中,把任务进一步细分为各种关键词,在各种电商平台进行地毯式搜索。

查价格、看行情、对比成色,豆包三个平台来回横跳,比人类自己切换 App 还麻溜。

由于我提出的任务非常繁琐,豆包用时 8 分钟左右,乍一看好像有点慢?但仔细想想,这个时间和人类自己手动查相差无几了,甚至可能还更快。而在给出的文案上,经典的「可小刀,但不接受大砍」也可以说是原汁原味,

我想入坑明星丁禹兮,帮我在豆瓣、微博、贴吧、知乎等等平台查查他有没有黑历史:比如查查他有没有糊弄粉丝、人设崩塌、私生活混乱、欺骗消费的黑料,别让我入错股。

明星塌房是常有的事,前一秒还是顶流,后一秒就变成了赛博案底,所以在追星之前,我的建议是,还是得对明星做一个背调。而这种需要跨平台、翻历史记录、筛选关键信息的任务,就够我头晕眼花的了。

交给豆包手机助手后,从豆瓣的长篇八卦帖、微博的蛛丝马迹、贴吧的档案、知乎的理性分析,但凡有点风吹草动,它都能给你扒拉出来。

这种全平台背调能力,说实话比私家侦探还专业。追星有风险,入股需谨慎,但有了它,应该能帮我规避掉一定程度的塌房风险。

豆包豆包,我妈逼我相亲,你帮我给相亲对象小黄打微信电话,如果她没接电话,你需要用文字帮我高情商推掉这次相亲,理由要得体但坚决。

最近朋友向我求助,不想去安排的相亲,但又不好意思直说;想推掉,但情商低的我又怕伤人面子;想找理由,但又怕编得太假被看穿。这时候,让 AI 来当这个「背锅侠」,属实是个妙招。

豆包接到任务后,先是帮我拨通了小黄的微信电话。相亲对象可能也有事在忙,拒绝接听,于是豆包立刻按照我的要求切换到 Plan B:发文字消息。

从回复来看,这情商水平,其实已经比我这个社恐本人高出三个段位。而且最关键的是,这段话既坚决(明确表示不想继续),又得体(没有让对方难堪),还平衡了拒绝和礼貌这两个矛盾点。

这还没完。豆包手机助手的全局记忆才是我觉得未来对手机系统交互影响最大的能力。

「把小红书收藏夹里母婴内容,整理成孕晚期攻略。」

甚至我以前提问过孕期食谱也收藏过类似内容,这次再问餐饮推荐时,它就会在回答时给出提示:「这家店有孕妇不适合的食材哦。」

不同 App 里提到的同类内容,在它这里自动关联了。你不需要每次都重复你的偏好,它默默把你的习惯记在了小本本上,比你自己还了解你自己。这种润物细无声的体贴,才是智能的更高境界。

可以说,以前你需要录音笔+笔记本+日历 App+待办清单四件套才能搞定的事,现在一个 AI 快捷键全解决了。

至于大家关心的隐私问题?倒也不必太担心,一方面这些记忆的数据会存储在本地,另一方面,毕竟开关始终掌握在你手里,想记就记,不想记就关,自由得很。

告别 P 图 App,「基础功能」变得不基础

你以为基础功能就是平平无奇的识个图、P 个照?错了,相反,豆包手机助手做出了旗舰机都不一定有的体验。

随手丢了张罗永浩的照片问它:「这是谁?顺便起个标题。」豆包搜索验证后给出答案:《罗与罗:双份的「彪悍」》。这命名水平,既有梗又点题,属实可以。

拍了张路边小摊的招牌照片,上面赫然写着「腚粉肠」几个大字。豆包秒速识别出来:小摊贩把「淀粉肠」写成了「腚粉肠」。我就说这肠怎么吃着吃着还挺有味道的。(doge)

看完识别能力,再来看看豆包的 P 图本事。

之前在抖音爆火的发丝发光、三宫格风格 P 图,现在都被集成到了手机里——主打一个「AI P 图自由」,不用下载一堆 App,不用开会员,直接在相册里就能搞定。

又比如我随手拍了张家里猫主子的照片,然后让豆包给它整个漫画风。很快,一张猫猫表情包就出炉了,画风也真不差,还能根据表情自动配文案「震惊」。这理解力,还挺有网感的。

马斯克说的「未来手机」,豆包已经把雏形做出来了

多年前 iPhone 用多点触控(Multi-Touch)把物理键盘成为过去式,智能手机成为新一代计算中心。

现在,豆包手机助手也本质也在尝试做同一件事:让手机交互更加自然、直观和高效。

体验完之后,我最大的感受是:豆包手机助手不仅仅是一个 App,它更像是一个覆盖在所有 App 之上的「智能图层」。

它带给我最直观的感受是,手机变「薄」了。

虽然现在手机机身越做越薄。但同时手机也越来越臃肿:你需要点开一个个 App,像钻井一样潜入深层菜单,去翻找功能、去切换界面。

而现在,豆包手机助手把所有 App 的能力都「拍扁」了,平铺在你面前。

你不再需要面对复杂的 UI 界面,只需要面对结果。

早在 2008 年,微软首席 UI 设计总监 August de los Reye 曾预言, GUI (图形界面)未来演进的方向就是 NUI自然用户界面 。

人机交互领域的先驱 Bill Buxton 也曾在一篇论文中列举了一些 NUI 应该遵循的原则,其中有一条:

简单性高于一切:复杂性是自然用户界面的敌人。每个交互都应该是不言自明的,不需要说明手册。

这种自然用户界面的交互,我想已经在豆包手机助手上开始体现了。

无论是叫车、订餐还是查攻略,它像个极其老练的管家,帮你屏蔽了底层那些繁琐的操作逻辑,只把你要的「结果」呈上来。

过去十年,我们的注意力被手机瓜分在无数个 App 的孤岛里。

而现在,你可以重新把所有的服务、所有的信息,全部收拢到了「你的意图」这一个入口之下。

马斯克说未来的手机不需要 App,其实他是在说:未来的交互,不需要看到过程,只需要结果。

我也相信,今天这种堆满图标的手机形态会有一天被淘汰。

那在 AI 和操作系统深度融合后,到底会给我们带来什么更好的体验?当豆包手机助手之类的 AI 和手机厂商联手后,估计会迸发出更多意想不到的进化。

或许就在不远的将来,我们不再需要低头戳戳点点,只需一个眼神或一句轻语,就能调动全世界的信息为你服务。

那将是我们这一代人亲历的,再一次「重新定义人机交互」的时刻。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


三百多万人围观的 AI 油画视频,是技术的神作,还是没有灵魂的电子垃圾

By: 张子豪
30 November 2025 at 17:21

「比蒙娜丽莎更美的,就是正在燃烧的蒙娜丽莎」,这是多年前一档辩论节目里,大家对于艺术价值的不同理解方式,那时听到可能觉得挺激进,笑一笑便过了。

最近一段把几幅经典油画「复活」的 AI 视频,在 X 上引起了巨大的争议,视频刷到 300 多万播放,被不少人称之为栩栩如生的艺术;比经典油画作品更好看的,是会流动的油画?AI 做的东西是不是没有任何艺术价值?

网友分享的油画视频里,经典的油画元素不再静止,颜料开始流动,天空的云朵、火山的喷发、还有海浪的汹涌都变得生动自然,仿佛那些存在几百年前的画布,突然拥有了生命一样。

乍看之下,这就是一场视觉盛宴的享受;如果不是其中几个视频,忘了去掉右下角 Google Veo 视频生成的水印,甚至会觉得完全是用 CG 特效制作实现,毕竟对油画风格来说,没有很明显的「AI 味」。

但是点开评论区之后,发现网友们撕成了两派,有人说,这就是新时代的艺术,是全新的审美体验;有人就不买单,用 AI 时代最刻薄的词汇——Slop(垃圾/泔水)一言蔽之,说等到 AI 有意识了,再来谈配不配成为艺术。

同样的一条 AI 视频,让人看到了艺术、技术、恐惧、愤怒、敬畏、厌烦,还有时代变化。

如果不说这是 AI,你的第一反应是

X 网友发布的这则视频,其实并不是他本人的原创,在评论区有人指出来,说他没有标注视频来源,也没说明使用了 AI,只是单纯地为了赚取流量。现在这波流量,也确实是被他赚到了。

视频最早是出现 YouTube 上,一位有着 2000 多粉丝的博主@bandyquantguy,他是宾夕法尼亚州立大学艺术与建筑学院的一名助理教学教授。频道内发布的内容,基本上都是不同油画的动态视频作品,长度在一分半到 3 分钟不等。

而那条被转发到 X 上的视频,并收获了三百多万的观看,是他将近一个月之前的作品。

当我看着满屏的动态油画时,说实话,根本没想到这是否通过 AI 生成。一方面是对油画艺术的不了解,是否有相关的技术,或者爱好者在专门做类似的工作。另一方面,大多数时候,我们所说的 AI 味,主要是在制作一些写实的画面,像现实世界、真人版等。而这种风格化本身就足够突出的内容,AI 的处理反而不会太突兀。

有网友评价,这是他见过最原汁原味的 AI 艺术作品之一,因为视频没有生硬地模仿现实,而是创造了一种介于梦境,与现实之间的流体美感。

第一眼都是觉得「震撼」,而这种迎面而来的视觉冲击,在知道它是 AI 生成的之后,也变成了争议的起点。大多数的人会觉得,这样的作品很棒;但对剩下一部分人来说,如果光靠 AI 就能得到原本属于「艺术」的内容,那该有多可怕。

Slop,AI 是原罪

所以,打压和看衰,成了评论区的另一种态度,Slop 就是代表性的关键词。

在 AI 语境下,Slop 指的是通过 AI 大量生成的、看似有内容实则空洞的劣质品。像是之前奥特曼推出 Sora,就有人犀利的丢下断言,Sora 生成的视频,全部都是 AI Slop。

这次,也有网友说,这样的油画视频,不应该放在社交媒体上,Sora 才是他最好的归宿,那里都是同样的 AI 垃圾。为什么画面如此精美的视频,会被称为 Slop?反而一些 AI 味明显的视频,激不起大家这么热烈的反馈。

因为它是机器盲目的困境。

反对者认为,AI 生成的内容,是缺乏意义,就像是一台机器盲目的梦境,它甚至不知道自己正在做梦。

他们的观点是,艺术不仅仅是停留在好看,那只是媚俗。艺术需要人类的意图、深度和复杂性。在这个视频里,原本油画的笔触,变成了毫无逻辑的像素流动,就像是单纯地为了展示「我能动」而动,没有任何节奏、理由或概念支撑这个视频的内容。

对他们来说,AI 最大的问题从来不是不够好看,而是「不够人」

AI 的每一次选择,只不过是概率。而人类创作一个作品,画一幅油画,背后包含的是对人生、对世界的思考和回应;有情感、时间、技巧、犹豫和失败等经历。

支持者觉得,现在的 AI,就像相机刚被发明时一样,不是在替代传统,而是在扩张想象力。甚至有网友说,「我想艺术家们在作画前,脑海中可能就有这样的画面,现在我们也能走进他们的灵感了。

是结果,还是过程重要

如果这个视频是一个人类艺术家,花费 1000 个小时,一帧一帧手绘出来的,评论区又会发生什么。除了震撼,大概还是一样,会有人说,这视频顶多用来作为我的手机屏保,除了好看也就仅此而已了。

艺术是主观觉得还是客观认定呢,其实都没有明确的界定。网友的期待,大概是希望,艺术应该是需要「努力」才能抵达的地方,而 AI 正在稀释「努力」在艺术中的价值。

前段时间,一幅名为《太空歌剧院》的画作,拿到了艺术比赛的头奖,还有 AI 画作甚至在拍卖市场,以十万、百万的价格被拍走。

我们在一个输入提示词就能生成图像的世界里,任何一个人不需要复杂的技巧,也不需要付出多少汗水,都有机会创作自己的作品,作品的意义也不再靠时间来定义。

▲提示词:将油画纹理动画化为粘稠流体模拟,厚重的颜料笔触融化并流动。旋转的天空、粘稠的黄色光芒、翻腾的蓝色云朵。

当 AI 把时间成本压缩到几秒钟,这种神圣感瞬间崩塌,剩下的就只有廉价。「这不难做吧」、「我用 Veo 3 也能生成」,这样的东西,自然就成不了艺术了。

更有趣的是,有网友提到,这是一种很明显的社会心理学现象,巴浦洛夫的狗。现在我们只要看到 AI 的标签,就有了条件反射,瞬间进入狂怒模式,无论作品本身好坏,一律打成 Slop。

具体来说,就是眼睛告诉我,这个视频还不错,但大脑告诉我,这是 AI,AI 做的都是不好的,为了调和这种矛盾,我就必须强行说服自己,它看起来很糟糕。

心理效应是存在,更多的我想其实还是,AI 内容的泛滥,正在把我们的审美阈值无限拔高。

没有 AI 的时候,让一幅油画像这样动起来,可以说是「魔法」一样的存在。现在如果这些作品没有极强的故事性,或情感内核,仅仅是视觉特效,已经很难打动被各种 AI 效果喂饱的我们。

▲ YouTube 上该博主的其他油画视频

无论评论区吵得多么不可开交,一个事实是无法改变:AI 不会消失,艺术也不会因为 AI 的出现而消失。

就像一些网友说的,「电力曾让蜡烛工厂破产,但人类具有适应性」。现在的混乱,也许只是新旧审美体系,交替时发生的阵痛。

如果在 100 年前我们按一下播放键,就能听到录好的歌,大概也会有人觉得,只有黑胶唱片出来的声音才是真音乐;现在我们只是习惯了,现场、黑胶、手机、音响都有好音乐。

艺术,从来看的是最终的愿景,是我想让你看到什么,而不是用了什么工具,我花了多久才做出来。一个活过来的 AI 艺术,就算是简单的几行提示词,一样倾注了真正属于创作者的叙事、情感与意图。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


看完《疯狂动物城2》这样发合照火爆朋友圈,Nano Banana Pro 新玩法来了 | 附教程

By: 张子豪
30 November 2025 at 17:20

疯狂动物城2 前几天刚正式上映,超过哪吒,成为中国影史动画电影预售票房冠军,双休日买好票准备去看了吗。

社交媒体上,早在预售的时候,就已经都是警官兔朱迪与狐尼克,出现在不同网友的电影院合影里

照片里的网友,左拥右抱着兔朱迪和狐尼克,作出自拍的姿势,而背后的影院屏幕上还显示着疯狂动物城2 的海报。同时人脸的一致性保持,让人觉得这就是电影放映后的粉丝福利,动画片主角跑出来免费合影。

评论区都在求攻略,有网友贴心地给出了制作指南。输入下面的提示词,然后图 1 上传自己的照片,图 2 和 图 3 分别上传朱迪和尼克的照片,图 4 是一张电影海报,通过豆包或者剪映 App 的生图功能,就能得到一张同款合照。

不要换脸,人物脸部不能有任何改变!将图1和图2 和图 3 的三人融合成一张三人俯拍自拍照,画面构图紧凑,三位主体靠得很近,图 1 人物居中,头部略微上仰,眼神直视镜头,营造出强烈的视觉冲击力。左侧和右侧人物站得略靠后,整体都需要保持人脸相似度,略微内扣身体,拍摄角度为高角度俯拍,使头部比例被夸张放大,典型的日韩视觉自拍风格。简洁干净,进一步凸显人物主体。整体画面清晰度高,用iphone前置自拍,最终呈现出精致、时尚、略带的合影效果。要求人物实现无缝融进画面,视觉过渡自然,整体画面光线明亮且均匀,背景为超大电影院坐满了观众,这三人背对银幕,银幕显示参考图 4《疯狂动物城2》电影精美海报填满屏幕。

▲图片和提示词来源:小红书@424180556

我们也使用 Nano Banana Pro 生成了同样的合照,不过得益于它的强大,我们完全不需要输入太多的提示词,只是上传四张图片,然后简单的告诉它要做什么就可以。

▲提示词:把这个男生和另外两个疯狂动物城角色放到一张合照里,他们就像是拿着手机在自拍,背景是电影院,电影院的屏幕上显示着我发给你疯狂动物城海报;16:9 的大小,4K 画质。

甚至还可以脑洞大开,直接丢给它这四张图片,然后输入提示词「合照」,完全不用担心人脸会改变,我们得到了这些 Nano Banana Pro 发挥自己的脑洞,生成的图片;横屏和竖屏的电影海报都有了。

▲提示词:合照

我们还可以试试最近玩 Nano Banana Pro 特别热门的提示词玩法,输入「xx,但不是xx」,上面在海报前拍照的那张图片,我们输入的提示词就是「合照,但不是合照」。

除了合照的玩法,配合新升级的 Nano Banana Pro,我们还有很多疯狂动物城2 联动玩法。

玩法一:全世界都是疯狂动物城

还记得 GPT-4o 刚出来那会儿,铺天盖地都是吉卜力风,现在疯狂动物城风也来了,而且还带来了更丰富的控制。

就像这张现实世界的街景图,只是把路上的行人,换成了可爱的动物角色,而马路和建筑还保留着原来的风格。

提示词:疯狂动物城风格的真实场景融合。迪士尼级别角色设计,富有表现力的形状,柔软毛发质感,流畅环境光照。保持原始照片结构,保留现实世界的光线、透视和材质。将拟人化元素自然融入环境中。高分辨率,电影级色彩调节。

拿着这套提示词,几乎可以把所有的照片,都转成这种现实+疯狂动物城的风格。还记得我们之前 AI DONE 活动预告里面,4 位 AI 大佬走在斑马线上吗,现在你还能不能,分辨出从左到右都是谁。

还有这张在网上疯狂传播的 AI 合照,把硅谷最有权有势的 CEO 都集结在一起。

▲ 由于提示词里面提到了「迪士尼」,所以这个狮市长看起来更像其他迪士尼系列电影的角色

除了保留一定的现实世界风格,把整个图片都换成疯狂动物城风,也是一样的好玩,Nano Banana Pro 表示,这都是小 case。

把开头那张只是转换了路上行人的照片,全部换成疯狂动物城的元素,色彩更加鲜艳,元素也更协调。

提示词:将这个现实世界的照片转换为《疯狂动物城》风格的动物城市,保留原始图片原始的全部元素和布局结构,但转换为风格化的拟人化基础设施,4K 画质。

同样的提示词,我们还把爱范儿在大兴安岭拍摄的样片,也进行一次风格转换。Nano Banana Pro 把大兴安岭的冷,描绘地更加极致,雪花飘在了衣服上。

还有随手拍摄的合照,也能一键换装,全员变身可爱的小动物。

▲ 原图来源:Unsplash@绵绵

如果希望留住能识别的面部特征,而不是直接把整个头部都换成动物头,实现起来也很简单,只用加一句提示词。

完全保留人物的人类面部特征和身份。

玩法二:合照,三个人可不够

开头只有朱迪和尼克的合影,只是疯狂动物城里面的两个主要角色,在电影里还有狸宝、宝伯特、马飞扬,闪电、夏奇羊、牛局长等数十个动物角色。

在 Nano Banana Pro 里,这些角色可以全部一次性发给它处理,所有角色都在舞台上。

提示词:图一是我,图2到图8,每张图片里面有4个疯狂动物城里面的角色,现在你需要把我和他们放在一张合照里面,就像是在线下的电影院,这些电影角色主创都在台上,我和他们一起合照,我在中间,拿着手机自拍,然后他们都在我旁边或者身后。

有了这么多的角色图片,我们还可以做一张疯狂动物城警局的照片墙,Judy、Nick、Bogo、Clawhauser 都在那块墙上,然后我们上传的照片也被贴到同一块墙上。

提示词:
创建一个16:9、4K分辨率的最终场景,设置在《疯狂动物城》警察局(Zootopia Police Department ,ZPD)内部。
一个真实感的警察局办公室走廊,主体背后是一个大型“ZPD员工照片墙”。

场景前方:
用户(来自图像1)站在中心位置,举着手机自拍。
保留用户真实的人类面孔和身份信息。
不要将脸转换为动物,仅应用非常轻微的《疯狂动物城》风格灯光和色彩调节。

背景:
用一整面墙填满用户身后的区域,并排列成网格状的拍立得风格员工ID照片。
使用图像2-8中的所有角色(每张包含四个角色),并将它们安排为单独的拍立得ID肖像展示在墙上。

每个角色肖像应满足以下要求:
– 保持上传图片中原始角色身份不变。
– 遵循一致的《疯狂动物城》宣传艺术外观:柔和迪士尼灯光、干净背景、清晰人物轮廓线条。
– 匹配官方ZPD ID照片框架比例(头像或胸部以上)。

同时,将用户自己的“ZPD风格ID照片”添加到墙上,放置于网格中央附近的位置,用与其他相同样式的拍立得边框呈现。

视觉规则:
– 保持真实办公环境中的墙壁材质、灯光效果的一致性。
– 所有ID照片必须对齐边框,统一色调,相同尺寸。
– 不要扭曲用户自拍姿势。
– 角色保持卡通化,但融入现实环境中。
– 可适度添加ZPD标志、警徽图标以及蓝色点缀灯光以增强真实性。

最终目标:
结果应展现出仿佛该用户已加入了ZPD,在官方员工照片墙前,与28位《疯狂动物城》的角色及其个人ID肖像一起合影留念之效果;画面需高清晰度,4K质量,有电影感但具备现实主义氛围感。

玩法三:这是我的疯狂动物城 ID

和风格转换有点类似,但又不完全相同。我们可以让 AI 来猜测,上传的人像图片,会是疯狂动物城里面的谁。

提示词:根据你对这张人像图片的分析,将这幅肖像转化为迪士尼《疯狂动物城》风格,最适合这张肖像图片的拟人化动物角色。保留原始面部结构和性格特征。柔软的毛发质感、富有表现力的眼睛、流畅的迪士尼光影效果、友好的配色方案以及电影海报级别的质量。

虽然 Nano Banana 大多数时候都只记得朱迪,但还是会根据我们上传的图片,调节图片的色彩、眼神的信息,同时保持我们的服装和姿势不变。

不喜欢这种身份证,还可以生成疯狂动物城的同款角色海报。

把图一的角色替换到图二的角色海报里,成为新的官宣角色。

由于 Nano Banana Pro 现在的指令理解和遵循能力,都得到了提升,所以我们的提示词甚至不需要太复杂的描述,一般口语化的表达,它也能听懂。

然后直接让他把狐尼克和兔朱迪换成马斯克和奥特曼。

▲提示词:把这个海报里面的两个角色替换成 Elon Musk 和 Sam Altman,然后名字也改成对应的马斯克和奥特曼

如果觉得这种 ID 照片还不够正式的话,直接让 Nano Banana Pro 生成一张带着边框,风格明显的证件照。

提示词:
将这张肖像转化为《疯狂动物城》风格的官方身份证照片,同时完全保留人物的人类面部特征和身份。
保持人物原本的眼睛、鼻子、嘴巴以及整体脸型,不进行动物替换。
仅应用迪士尼《疯狂动物城》的视觉风格:柔和边缘光照效果、平滑阴影处理、温和色彩搭配、灯光边缘处微妙的毛发质感、人类眼睛稍微放大但仍然保留人类特点,以及电影级卡通写实效果。
使用干净的工作室风格ZPD身份证背景(蓝色渐变或中性背景)。
保持人物可识别性及自然肤色,仅添加与《疯狂动物城》宣传画一致的轻度艺术化处理。
不改变面部结构;增强表情清晰度,并在眼睛上增加些许迪士尼式光泽效果。
高质量,符合官方文件要求的框架设计。

还可以在提示词里面指定好名字、身份编号、工作部门等信息;Nano Banana Pro 也完全能准确渲染所有的文字。

尽管 Nano Banana Pro 比起之前的版本更能理解我们的意图,但有时候多尝试几次,还是会给我们一些额外的惊喜。

最近社交媒体上很多人在尝试,用尽可能少的提示词,看 Nano Banana Pro 会生成什么。还有一种更高级的玩法是,Gemini 3.0 Pro 多模态推理和理解能力的提升,用来做逆向工程表现也很不错。

例如,我们拿疯狂动物城这张海报来测试,在 Gemini 3.0 Pro 模型里面,输入提示词「提取这张图片的提示词,越详细越好。」然后再把提示词给 Nano Banana Pro,得到的 AI 图片,还原度其实算非常高。

▲ 提取到的提示词:
A high-quality 3D animated movie poster for Disney’s “Zootopia 2,” characterized by incredible detail, highly textured fur, vibrant saturated colors, and bright daylight.
Composition & Angle: A dynamic, chaotic street scene captured with a low-angle shot looking upwards through a wide-angle fisheye lens, creating strong perspective distortion and a sense of overwhelming crowds.
Central Characters: In the center, Nick Wilde (fox) wearing a pink floral Hawaiian shirt, grey pants, and a tie, is running forward with a panicked, wide-mouthed expression. Next to him, Judy Hopps (rabbit) in her blue police uniform is running with a shocked but determined look. Behind them, a massive blue python with yellow underbelly scales (new character Gary) is hilariously coiled through the crowd with a surprised expression and tongue sticking out.
Environment & Key Props: A large grey metal street light pole cuts diagonally from the top left to bottom right. Mounted on it is a green street sign that clearly reads “Disney” logo above “疯狂动物城” with a large background number “2”. Below the sign, a yellow traffic light housing displays a glowing cyan LED number “2” instead of standard lights.
Background & Crowd: To the left, a pink double-decker bus filled with slow-moving sloths hanging out of windows (including Flash). A dense, diverse crowd fills the street, including a giraffe stretching its neck, an elephant, a lynx holding up a smartphone taking a photo, a beaver, and a rhino in casual clothes. Overhead, a horse is swinging on a rope across the street. In the foreground, a green lizard is tripped up, and a seal wears headphones.
Setting: In the far distance under a bright blue sky with clouds, the towering, futuristic skyscrapers of the Zootopia skyline are visible. The overall atmosphere is energetic, humorous, and crowded.
Text Elements (Visual Placement): Floating 3D text in the middle left reads “老搭档 新案件” and middle right reads “嗨翻全城”. At the very bottom center, text reads “11月26日 全国影院献映”.
Technical Specs: 8k resolution, cinematic lighting, highly detailed render. –ar 2:3

在我们的测试中发现 AI Studio 生成的图片,有时候并不是按照指令的 4K 要求给出原图,大小一般在 1MB 以下,而在 Gemini App 或者网页里,生成的图片则是完整的 4K 分辨率,图片大小一般在 7MB 左右。

Gemini 使用 Nano Banana Pro 的次数是有限制,在部分时候会像 ChatGPT 一样,弹出使用旧模型的提示。

但大多数时候,每天的使用次数是足够普通用户的使用。

我们喜欢疯狂动物城,大概是因为它打造的乌托邦,是一个勇敢善良的美丽新世界。现在 AI 迷人的地方,正是让我们也有了进入这个新世界的能力,同样地体验和传播,这份纯真的美好。

原文链接:https://mp.weixin.qq.com/s/8EJNx4Qjww09htrEfenJDA

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


元宝上线一句话生成视频,这会是评论区的整活小能手

By: 张子豪
24 November 2025 at 18:32

「@元宝,总结一下这篇文章」,自从在微信公众号留言区能@元宝之后,让元宝来总结文章内容成了最热门的玩法。

但元宝能做的远不止是总结一篇文章,就在 Nano Banana Pro 发布的那天,元宝上线 AI 视频,在网页端和 App 里面,一句话就能生成视频。

热度都被 Nano Banana Pro 抢走了,元宝表示实惨。我们第一时间更新了元宝 App,替大家体验了一波这回新上线的视频生成,发现这就是一个新的整活功能。

目前 AI 视频功能已在元宝 App 全量上线,只要更新到最新版本就能在对话框里体验,网页版和电脑版也可以直接生成,并且完全免费不限量。

一句话生成视频,什么脑洞都可以

元宝这次把视频生成的门槛,降到了地板级。

和大多数 AI 视频生成工具不同,元宝甚至不用在工具里面选择视频生成,而是直接对话框里面输入提示词,就能生成视频。

最近我用小猫打中国功夫,还有小猫思考的那几个表情包比较多,我直接输入「生成视频,小猫在思考冒出一大堆数学公式的Meme」,等待的时间大概是 1-3 分钟,就可以得到一个正在思考的猫猫博士。

或者玩一些老梗,「生成视频,多邻国的吉祥物和蜜雪冰城的雪王一起步入婚姻殿堂。」

但这个雪王和多儿,有点难绷,虽然能认出来是猫头鹰,但……这有可能是「为了规避版权风险的一种方式」。还有,倒着走进婚姻殿堂真的很好笑。

元宝这次上线的视频生成,采用的模型,是混元在前几天,正式发布并且开源的 HunyuanVideo 1.5,模型大小只有 8.3B,甚至可以放在 14GB 显存的消费级显卡上运行

对比 Google Veo 3.1 和 Sora 2,在一致性和电影画质上的表现,自然是有较大的差距;但是在开源模型里,HunyuanVideo 1.5 的效果算得上 Top 级别。

▲ HunyuanVideo 1.5 和阿里 Wan2.2、快手 Kling2.1、字节 Seedance Pro 以及 Google Veo 3 对比,从文生视频到图生视频,HunyuanVideo 1.5 的表现在多个榜单仅次于 Veo3 之后。

HunyuanVideo 1.5 主打是轻量化和开源,但在画面色调和细节一致性上,表现也很稳定,同样能听懂复杂的运镜指令等。

当我们把前面「倒着」走进婚姻殿堂的雪王和多儿,增加一些提示词的控制,告诉元宝从远景慢慢拉到近景,就不会再出现明显的 Bug 了。

拿它来随手生成一个梗图,脑洞大开的 GIF,是再合适不过了。

例如,我们输入「生成视频,一个土豆穿着西装在写代码,电脑屏幕冒烟了,土豆流下了番茄酱眼泪。」

或者让一只加菲猫摇头说「No」。输入提示词,「生成视频,一只肥胖的加菲猫,穿着睡衣,手里举着一个白色的牌子,牌子上写着黑色的 NO,它在疯狂摇头,皮克斯动画风格。」

当我们想表达今天发的工资,立刻就花掉了的时候,能生成一个钱包长了翅膀,飞走了的 Meme 梗图。

▲ 提示词:生成视频,一个长着翅膀的钱包,从裤兜里飞出来,越飞越高,下面有一个小人在哭着追赶,手伸得很长,复古美漫风格,线条粗犷。

或者想说周一早上的你,一点也不想起床上班时,长出了手脚的闹钟疯狂地在拍打着我们的枕头。

▲ 提示词:生成视频,1930 年代黑白橡胶管动画风格(Rubber Hose Animation),一个长着手脚的闹钟正在疯狂殴打一个枕头,枕头在尖叫,画面有胶片噪点。

我们的体验发现在文生视频里,没有足够明确的提示词,很容易就得到 AI 味特别重的视频,尤其是在处理一些现实世界风格的内容。

为了避免 AI 生成这些写实视频,经常存在的恐怖谷效应,用元宝来生成一些 3D 卡通、像素和定格动画风格,可以明显减少抽卡的次数。同时,这些风格也是表情包常见的类别;而为了让表情包更有灵魂,我们也能让 AI 把文字也带上。

让照片动起来

相比于凭空生成,图生视频可能是这次 AI 视频生成里,大家更爱玩的功能。

上传一张手机里的静态照片,配合简单的指令,就能让画面动起来。尤其是相册里的一些废片,或者适合用来制作搞怪表情包的图片,这个功能就是为这些照片量身定做的。

例如这张静态的表情包,「这像话吗」,让这个阴阳怪气的 emoji 笑的更危险一点,我们输入的提示词只是「让照片动起来」。

元宝处理后的表情包,甚至比我发给他的原图,还要更清晰。

除了让一些已经是表情包的图片动起来,我们还可以用图片生视频的功能,自己做一个 GIF 的表情包。

我们找了一张经典的咸鱼手绘图。 在元宝 App 里面点击加号,上传图片,输入指令 「这条咸鱼试图翻身,但失败了,滑稽的动作,美漫风格」。

一些日常的照片,也可以一键发送给元宝,全部都能变成 5s 的动图。

这是我们昨天在未来社的活动照片,奖品展示区,挂着的这些公仔和背包,让它们都动起来了。

上传一张北京烤鸭的图片,然后输入「生成一段缓慢旋转拍摄,展示北京烤鸭的视频」,妥妥的产品展示。

还有经典的威尔.史密斯吃面环节,有点黑猫警长的感觉了,这「眼睛瞪得像铜铃」。不过图生视频对比文生视频,AI 的恐怖谷效应和不真实感,确实减少了很多。

文字、图片、音视频,元宝算是正式集齐了完整的全模态能力。对整个行业来说,可能这就是腾讯的一次大秀肌肉;对用户来说,最直观的是乐趣,这种 5s 的视频,或许最适合出现在评论区的各种 AI Meme,GIF 斗图大赛。

不需要从工具里面选择生图还是生视频、或者是编程做网页,用户只用一句话发送给元宝,它立刻就能 Get 到。

我体验下来最大的感受也是这样,元宝的 AI 视频生成能力,肯定不是目前市面上画质和内容最卷的,但它的入口和体验方式,一定是丝滑的。

▲在微信里,找到元宝联系人,可以直接生成图片,图为发送「生成一个线条小狗」后的效果

就像公众号文章的评论区,元宝的总结,有时候真谈不上有多么精辟和有启发性,但是我们就逐渐习惯了凡事都 @ 一下元宝。

视频生成也是这样,说不定哪天元宝就能在公众号文章的评论区,在微信联系人的对话里,用 AI 生成的 GIF 表情包和我们斗图。而这些,也只有元宝能做到。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Nano Banana终于不是文盲了,但我可能会变「傻」

By: Selina
24 November 2025 at 14:29

过去一个周末 Gemini 3 Pro Image 的能力被反复「折磨」,花样越来越多——噢,你问这是什么,它的另一个名字是 Nano Banana 2。这么跟个恶搞一样的名字,居然被保留下来了。

Nano Banana2 各方面能力超群,甚至是「友商」Sam Altman 也要点头的程度。

▲ 图片来自:The Information

夸夸只是夸夸,Nano Banana 第二阶段,其实标志着 AI 图像生成领域的一个重要转折点:从基于概率的「以此类推」,转向了基于理解的「逻辑构建」。更承载着一个特殊的意义:AI 不再只是冲着你的眼睛去,还冲着你的智商去。

大语言模型不再「文盲」

一直以来 AI 生图都有个绕不过去的问题:才华横溢,信手拈来,但有时候就跟喝高了一样控制不住,这从 Midjourney 时期就开始了,往后走逐渐好转,不过始终存在。

其中最大的 bug 之一就是文字。这导致在很长一段时间里,鉴别一张图是否由 AI 生成,最简单的办法就是看图里的字。

这是基于扩散模型(Diffusion Model)的先天缺陷:它将文字视为一种纹理,而非符号。

Nano Banana 2 最直观的突破,就在于它「识字」了。即所谓的 Text Rendering 文字渲染。

我的随手测试「生成一张复古电影海报,标题是《香蕉的复仇》,副标题用红色衬线体写 2025 年上映。」

如果是在以前尝试这个指令,大概率会得到一张极具艺术感的图「BANANA REVENGE」的某种变体尚且能保持清晰和正常,但小字往往经不住看了,甚至有时候主标题都会拼写成「BANNANA」。但在 Nano Banana 2 里,这些字符被准确、清晰、且符合排版美学地「写」在了画面上。

So what?这仅仅是省去加字的时间吗?

对普通用户来说可能是,而且还是一种「表情包自由」。你终于可以生成一张精准吐槽老板的图,配上精准的文案,不用再单独拉一个文本框。

而对于商业世界,这意味着 AI 图像生成从「素材(Material)」阶段,正式跨入了「成品」(Deliverable)阶段。

▲ 图片来自 X 用户@chumsdock

当 AI 能够准确地处理符号信息,它能交付的成果就更多样也更实用,包括但不限于电商海报、PPT 配图、甚至是数据图表。以前设计师用 AI 只能生成背景底图,关键信息还得自己贴。现在,AI 可以直接生成原型图,乃至带有数据标注的饼状图,或者一张文字完美贴合透视关系的广告。

这是商业交付的「最后一公里」,也是生图模型在信息传递层面的巨大进步。

从「猜概率」到「懂物理」

字渲染的成功是 Nano Banana 2 底层技术跃迁的一个极具代表性的缩影,更深层的变化在于:这只「香蕉」,长了脑子

也就是我们所说的基于「推理」的图像生成。

大模型本质上是一个概率统计机器。当你要求画一只「坐在玻璃桌上的猫」时,模型通过学习数亿张图片,在生成时,它只是重现像素的统计规律。

Nano Banana 2 的不同之处在于,它引入了 Gemini 3 语言模型的推理能力。在生成图像之前,它似乎先在「大脑」里构建了一个物理模型。它知道「猫」下面通常会有模糊的影子,以及玻璃板上、下的物品有不同的光线关系。

在我的另一个随手测试中,当要求它生成「一个复杂的化学实验室,桌子上放着装有蓝色液体的烧杯,背景是黑板上的分子式」时,它表现出了惊人的逻辑性:

烧杯里的液体会有正确的弯液面;玻璃器皿对光线的折射符合物理直觉;最重要的是,背景黑板上的分子式不再是乱画的线条,而是看上去像模像样化学结构的式子(虽然还是有瑕疵)。

当画笔有了「大脑」,交互方式变了

之所以如此强调文字生成这个本领,是因为 Text Rendering 是外在表现,反映的是 Reasoning 作为内在引擎。合在一起, Nano Banana 2 带给用户的最终体验,就是一块「会思考的画布」(The Thinking Canvas)。

Google 将这个模型深度整合进了它的生态系统,不仅仅是生成图片,更是「修改」现实,下一步,就是走进更严肃的领域:信息图、教案、讲解素材,等等等等。

整体上,图像生成往往用户给 20% 的指令,剩下 80% 靠 AI 脑补——以前是靠概率脑补(随机填色)。现在则是靠因果脑补,不仅画出了「结果」,还隐含了「过程」,这能够让画面的叙事性和感染力指数级上升。

它不再只是为了取悦你的眼睛,它开始试图取悦你的智商。像上面这种结构图,虽然吧不敢说 100% 符合机械工程标准,但钉是钉,铆是铆。「逻辑上的正确」,是它推理能力的直接体现。

然而任何事情都是一体两面的,当换一个角度看,这就可能意味着创造力的同质化

当 AI 能够完美地生成「符合商业标准」的图表、海报和插画时,它实际上是在拉平审美的平均线。所有的海报都排版正确、光影完美,但可能也因此失去了曾经设计中那些因为「不完美」而诞生的神来之笔。

▲ 图片来自X用户@dotey

更深层的问题在于真相的消逝。当上面所说的那种逻辑正确、信息「干货」多的内容,可以被批量生产,取悦智商从未如此容易,也从未如此轻飘飘。如果它决定了我从图片信息到文字信息的所有摄入,那……会是怎样的景象?

还有 Deepfake 这个老大难问题,已经是老生常谈了。虽然这次 Google 加上了 SynthID(一种人眼不可见的数字水印)来标记 AI 内容,但在视觉冲击力面前,技术的防伪标签往往是苍白的。制造「真实」变得如此廉价和便捷,我们对「眼见为实」的信仰将被彻底重构。

至于它叫「Nano Banana」还是「Gemini 3 Pro」,其实已经不重要了。重要的是,从这一刻起,我们在屏幕上看到的每一个像素,每一行文字,都可能不再来自人类的手指,而是来自机器的思考。

这既令人兴奋,又让人在某些时刻,感到脊背发凉。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Nano Banana Pro保姆级指南!全网最火玩法+官方7大技巧+免费渠道,都在这了

By: 张子豪
23 November 2025 at 09:52

The Information 今天独家报道了上个月,奥特曼在 OpenAI 内部发的备忘录,里面提到奥特曼说,Google 在 AI 领域的最新进展,可能会给公司带来一些暂时的经济阻力。

现在看来,不是可能有阻力,是已经感受到了压力了。互联网时代就是老大哥的 Google,很明显要把 OpenAI 拉下来,继续做 AI 时代的 No.1。

Gemini 3.0 Pro 的热度还没散去,宇宙「最强」图像模型 Nano Banana Pro,就水灵灵地端上来了。

距离出场就惊艳到大家的第一代版本,才刚刚过去了三个月不到。

这次的更新,一致性保持更强、世界知识也同步到 Gemini 3.0 Pro,多模态理解和推理能力都得到了大幅度的提升。

之前的桌面手办放到现在都成了「图一乐」,如今的 Nano Banana Pro 升级方向更加明确地,往效率工具上靠近,网友们拿它创建和编辑各种复杂的视觉效果,生成内容准确、布局优雅的信息图表。

我们挖掘了多个网上热门的玩法,和 Google 官方给出的使用指南,来榨干 Nano Banana Pro 的全部能力。

把文章转成风格化的信息图

由于长文本渲染的能力增强,目前网上热门的测试,都是生成各种各样的信息图,有密密麻麻的知识解说类,还有写满一黑板、一墙壁的经典古诗词,或者数学题解答等等。

例如下面这个把我们输入的文字,原封不动的转成一本杂志的内容。

▲图片来源:X@fofrAI|提示词:Put this whole text, verbatim, into a photo of a glossy magazine article on a desk, with photos, beautiful typography design, pull quotes and brave formatting. The text: […the unformatted article]

还有网友直接丢给他一个 Markdown 文档或者 PDF,然后跟 Nano Banana Pro 说,将这个文档转成信息图,就得到了一个设计友好、信息准确的图片。

评论区都在说,插画师的时代,是不是也要结束了。

▲图片来源:X@tobi|提示词:Make this markdown transcript into a infographic

因为 Nano Banana Pro 现在能使用谷歌搜索,并且推理和理解能力都有了大的提升,所以在生成信息图上,如果没有太严格的要求,直接告诉它要做一个什么主体的信息图就能实现,不需要纠结太多提示词的结构。

▲提示词:生成一张 2026 年中国放假安排的信息图,全部使用中文,4K画质,16:9

例如,当我们要他生成明年的节假日信息时,我看到 Gemini 里面给我的回复,有明确的使用 Google 搜索获取的信息结果,即多个官方的公告网页链接。

还有很多好看的信息图测试,网友们的提示词也比较简单,基本上都是「帮我生成一个xx的信息图」。

一张有趣的繁忙城镇信息图,展示动物们在繁忙城镇中上班的情景,并介绍它们从事的不同工作。

▲图片来源:X@unsoldwill|提示词:Make a fun busy town infographic of animals going to work in a busy town showcasing different jobs.

一张 Stephen Biesty 风格的双层神经网络图。

▲ 图片来源:X@jon_barron|提示词:Generate a diagram of a two-layer neural network in the style of Stephen Biesty

这位网友还把这张图片丢给 Google 的 Veo 3.1,让它动了起来。

将内容繁杂的文档,转换成清晰、可扫描的白板式信息图。

▲图片来源:X@denilgabani|Convert the attached research paper into a single whiteboard-style image. Break down all key concepts, diagrams, insights, and relationships in a way that is easy to understand at a glance. Add clear visual notes, arrows, highlights, summaries, and clever student-style annotations so I can quickly grasp the full paper and take notes from it.

生成精彩的连环画

结合长文本渲染和强大的一致性保持,除了渲染文本较多的信息图,Nano Banana Pro 用来制作连环画是再合适不过,并且,它现在支持在一次请求中,生成多张照片。

有网友只是上传了一张图片,然后输入「根据这张图片创作并绘制一个多格漫画」的提示词,就得到了多张自己写好剧情的漫画,并且他还在继续更新后续的情节。

▲ 图片来源:X@DeryaTR_|提示词:Create and draw a multi-panel comic based on this image.

还有只是提示说,生成几页以某个人的生活为主角的漫画。Nano Banana Pro 就能启用网络搜索,检索这个人的信息,还找到了他的 X 账号,根据他的 X 账号发布的内容信息来生成漫画。

▲图片来源:X@skirano(Pietro Schirano)|提示词:Generate a few pages of comic starring the life of Pietro Schirano

如果你也有公开的社交媒体平台,不妨试试让 nano banana 也生成过去一周你的生活漫画。

我们试了试让 Nano Banana Pro 生成马斯克和奥特曼的生活漫画,在 Gemini 网页版里,它一次性给了我们三张图片,漫画的内容可以看出,它确实是有世界知识在的。

▲ 提示词:生成几张以 Elon Musk 和 Sam Altman 的生活为主角的真人漫画图片,全部用中文

至于之前一代的 Nano Banana 玩的那些一致性,现在的 Pro 版本一样表现出色。像是给一个模特穿上不同的衣服,保持模特和衣服不变;还有像是把一些 Logo 放到不同的周边上,或者对现有的产品图,进行一些小元素的替换,Nano Banana Pro 的表现都很好。

在 Google AI Studio 的官方案例中,也给出了多个信息图生成、和漫画制作的实例,它们搭建了多个利用 Nano Banana Pro 模型的项目。

▲体验地址:https://aistudio.google.com/apps?source=showcase&showcaseTag=nano-banana

其中一个是我们只需要上传一个文章链接,他就能生成四种不同风格的信息图,包括趣味型、简洁型、暗黑科技风和现代编辑部风。还有只是丢给它一个模糊的概念,或者一个主题,就能为我们生成一张风格迥异的信息图。

▲项目介绍 Demo

4K 壁纸的生成,街机游戏的真人体验,以及更符合品牌使用的各种 Logo 贴图小工具等,在 Google AI Studio 上都有提供现成的项目。

▲下着雪的金门大桥 4K 壁纸

我们用「无限英雄」这个小项目生成一段马斯克和奥特曼的连环画,在预览连环画的过程中,我们还能选择剧情的走向,来决定接下来的漫画内容。

▲生成的漫画下载后是 PDF 文件

不过目前 Nano Banana Pro 模型 API 并不是免费调用,所以 AI Studio 的这六个项目,都需要绑定支付方式才能使用。

但是,这些项目都提供了源代码,我们可以在他们的基础上进行修改。通过查看背后的代码,也能看到背后的提示词。

我们提取了其中一个项目的提示词,即输入链接生成四种风格的信息图。

首先我们可以使用下面的提示词,来对网页链接的内容进行总结,将其中的 ${url} 替换为实际的,需要分析的文章链接。${language} 则可以直接替换为 Chinese,以中文呈现。

You are an expert Information Designer. Your goal is to extract the essential structure from a web page to create a clear, educational infographic.
Analyze the content at this URL: ${url}
TARGET LANGUAGE: ${language}.
Provide a structured breakdown specifically designed for visual representation in ${language}:
1. INFOGRAPHIC HEADLINE: The core topic in 5 words or less (in ${language}).
2. KEY TAKEAWAYS: The 3 to 5 most important distinct points, steps, or facts (in ${language}). THESE WILL BE THE MAIN SECTIONS OF THE IMAGE.
3. SUPPORTING DATA: Any specific numbers, percentages, or very short quotes that add credibility.
4. VISUAL METAPHOR IDEA: Suggest ONE simple visual concept that best fits this content (e.g., “a roadmap with milestones”, “a funnel”, “three contrasting pillars”, “a circular flowchart”).
Keep the output concise and focused purely on what should be ON the infographic. Ensure all content is in ${language}.

得到这一部分的文章总结后,我们就可以开始图像生成。

Create a professional, high-quality educational infographic based strictly on this structured content plan:
${structuralSummary}
VISUAL DESIGN RULES:
– ${styleGuidelines}
– LANGUAGE: The text within the infographic MUST be written in ${language}.
– LAYOUT: MUST follow the “VISUAL METAPHOR IDEA” from the plan above if one was provided.
– TYPOGRAPHY: Clean, highly readable sans-serif fonts. The “INFOGRAPHIC HEADLINE” must be prominent at the top.
– CONTENT: Use the actual text from “KEY TAKEAWAYS” in the image. Do not use placeholder text like Lorem Ipsum.
– GOAL: The image must be informative and readable as a standalone graphic.

图像生成的提示词比较简单,我们把之前文章链接分析的结果,替换掉其中的 ${structuralSummary} 部分;然后 ${styleGuidelines} 的选择,可以从官方项目中,提到的四种风格里面任选一个。

有趣且充满玩乐的风格 Fun & Playful:styleGuidelines = STYLE: Fun, playful, vibrant 2D vector illustrations. Use bright colors, rounded shapes, and a friendly tone.

简约极简风格 Clean Minimalist:styleGuidelines = STYLE: Ultra-minimalist. Lots of whitespace, thin lines, limited color palette (1-2 accent colors max). Very sophisticated and airy.

深色模式科技风Dark Mode Tech:styleGuidelines = STYLE: Dark mode technical aesthetic. Dark slate/black background with bright, glowing accent colors (cyan, lime green) for data points.

现代编辑风 Modern Editorial:styleGuidelines = STYLE: Modern, flat vector illustration style. Clean, professional, and editorial (like a high-end tech magazine). Cohesive, mature color palette.

照着这种方法,我们把 Nano Banana Pro 发布的那篇文章丢给 Gemini,得到了下面这几张信息图。

官方下场,7 个生图技巧

除了用这种已经写好的提示词,Google 也是煞费苦心给了一份详细的 Nano Banana Pro 使用技巧,一方面是生怕我们不会操作,导致对模型的误会。另一方面,其实 Google 是希望 Nano Banana Pro 不单只是一个用来玩玩的生图模型,他们真的期待能提升我们的生产力。

提示词的重要性,对于要获取精准控制的内容来说,除了模型自身的能力,剩下的决定因素就是它了。Google 再一次提到,一个好的提示词,要明确的包括主题、构图、动作、地点、风格、和编辑说明。

用简短的语言描述画面的主体,例如,具体说明图片中的人或物是什么?在构图上,告诉模型,照片是如何取景的?是特写、广角镜头、低角度镜头、还是人像镜头等。

▲举个例子:一只戴着小巫师帽的毛茸茸的三色猫,在日落时分阳光普照的草地上,施展着它的魔法,低角度镜头,照片写实主义

接下来是描述动作,画面的主体正在发生什么?以及是在哪里发生,描述具体的场景。最后再确定我们想要的照片风格,例如,3D 动画、黑色电影、水彩画、照片写实主义、20 世纪 90 年代产品摄影等,不同的整体美学风格选择。

如果追求更可控的生图效果,Google 还提到了可以进一步完善相机、灯光和格式等细节,精细化提示词的内容。

例如现在的 Nano Banana Pro 支持自定义构图和宽高比,我们可以选择 9:16 竖版海报,21:9 电影宽镜头等画面。

此外,在摄影和灯光细节上,Google 给的参考提示是,像电影摄影师一样指导拍摄,具体的用词可以尽可能专业化,例如,「低角度拍摄,浅景深(f/1.8)、黄金时段逆光,营造长阴影、电影级调色,采用柔和的蓝绿色调」;等提示词用语。

▲举例:一只戴着小巫师帽的毛茸茸的三色猫,在日落时分阳光普照的草地上,施展着它的魔法,低角度镜头,浅景深(f/1.8)、黄金时段逆光营造长阴影、电影级调色,采用柔和的蓝绿色调。照片写实主义。21:9 电影宽镜头。标题「猫猫施法」以可爱的彩虹字体显示在顶部。

在针对文本处理任务时,需要明确说明,某段文本的内容和显示位置,以及这段文本对应的字体。针对图表信息图,要在提示词里面,明确告诉模型对准确性的要求,并且确保自己的输入时正确的。

涉及到多图参考和图像编辑,需要明确告知模型每张图片的作用,以及具体需要编辑的地方。

掌握了提示词公式只是基础,接下来就是一些官方推荐的,Nano Banana Pro 具体的应用场景。

1、让 AI 真的「写字」,而不是画鬼画符。以前 AI 画图最怕出现文字,出来的都是乱码,新模型在文字渲染上有了巨大提升。我们可以直接要求它生成海报标题、复杂的图表、或者详细的模型说明。

▲ 提示词:制作一张信息图,用中文展示如何制作老北京豆汁儿。

2、它是懂物理和历史的。基于 Gemini 3 的推理能力,这个模型拥有更丰富的世界知识,它可以生成逻辑严密的图表,或符合历史事实的场景。

3、最多支持 14 张图!超级融合大法。这大概是新模型最强悍的功能之一。它允许我们输入 6 到 14 张(具体数量可以要看不同的平台)完全不相关的图片,让 AI 将它们融合创造出全新的画面。

利用多图输入功能,我们可以让同一个角色,在不同场景中保持面部和特征的一致性,甚至是在群像中也能保持相似度。这非常适合去做一些连环画或者分镜。

▲提示词:将这些图像组合成一张 16:9 格式的适当排列的电影图像,并将模特身上的裙子换成图像中的裙子。

4、精确调整大小。尝试不同的宽高比,并在各种产品上生成 1K、2K 或 4K 分辨率的清晰视觉效果。

5、「指哪打哪」的精准修图。Google 把这叫做工作室级别的控制编辑,实现更专业的效果。

6、品牌设计神器:自动贴图。对于设计师来说,和初代 nano banana 相比,它的一致性保持能力更强。品牌公司可以让 AI 将对应 Logo、图案或艺术作品印在 3D 物体上,同时贴上去的 Logo,会自动调整到原图自然的光影和纹理。

7、跨语言无缝翻译,它不仅是一个生图工具,还能直接「翻译」图片里的文字。

▲提示词:将三个黄蓝罐头上的所有英文文字翻译成韩语,其他内容保持不变。

虽然 Nano Banana Pro 很强,但在官方文档里,他们也坦诚地列出了一些目前的局限性,大家使用时可以留意一下。主要是一些极小的文字渲染、复杂的拼写有时还是会出错。

另外,如果你用它生成数据图表或信息图,他们也提醒,一定要人工核对数据。AI 虽然有逻辑,但偶尔也会一本正经地胡说八道,毕竟 AI 幻觉有多严重,我们都有目共睹。

最后是在进行一些极其复杂的光照改变,或图像融合时,生成的图片,偶尔会出现不自然的伪影。

目前该模型已在 Gemini App 和 Gemin 网页版上线,而在 AI Studio 和 Vertex 平台则需要使用付费 API 才可以体验。

我们还搜集了一些能点开即用的平台,不需要付费订阅,和复杂的网络设置。

  • 海螺 AI(国内版 hailuoai.com,国际版 hailuoai.video)
  • Flowith(flowith.io、flowtith.net)
  • PixVerse(国内版 pai.video,国际版 pixverse.ai)
  • youmind.com(限时免费一周,注册就可用)
  • lovart.ai
  • banana.listenhub.ai
  • higgsfield.ai/image/nano_banana_2(免费用户每个月有 10 积分,每张 Nano Banana Pro 图片消耗两个积分)

感兴趣的朋友,不妨拿着上面的公式去试一试,新鲜有趣的玩法也欢迎在留言区评论。

最后,小彩蛋一个,The Beatles 这张经典的专辑封面照片,奥特曼、马斯克、老黄和小扎都来我们未来社「拍摄」了同款,这周末的 APPSO AIDONE 活动,你确定不来看看吗?

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Gemini 3一句话打造拍立得应用刷屏!全网最火8个玩法都在这,看完秒上手

By: 张子豪
20 November 2025 at 17:51

都在说 Gemini 3 这次炸翻天,年度最强,未来模型,除了拿下榜单第一,Gemini 3 到底能做点什么。

体验了一波之后,我发现最大的好处,是不需要到处去问,「你这个的提示词是什么?」

看到好玩的案例,无论是视频还是截图,统统丢给 Gemini 3,加一句「帮我做一个一模一样的出来」,Gemini 3 立刻就能复刻一个同款。提示词的时代,真的慢慢过去了。

就像这个在 X 很火的拍立得相机,它是用 Gemini 3.0 Pro 生成的一个项目,能调用设备的摄像头,然后生成一张拍立得风格的照片,在相纸上印有文案和拍摄日期。

▲ 体验地址:https://www.bubbbly.com/app/retro-camera.html|图片来源:X@ann_nnng

这种能直接和现实生活交互的效果,确实打破了之前 AI 一味的,只知道做一个单页应用的乏味。

当我们把这个视频直接发给 Gemini 3.0 Pro,它竟然也可以很快,就生成一个同款。并且在 Canvas 里面,还支持添加 Gemini 功能,因此我们这个拍立得,还有了 AI 识别摄像头画面,主动生成文案和选择滤镜的功能。

▲我输入的提示词只有让它增加多几种胶片模拟的风格。直接点击右下角的 Gemini,它会自动寻找,可以使用 Gemini 来完成的内容。

还有网友用 Gemini 3 直接做了一个诗歌探索器,让它每天提供一首诗,鼠标悬停时会解释每一行,并提供一些建议问题来进一步探索诗歌。

▲图片来源:X@raizamrtn

我特别喜欢这个简洁大方的设计,同样地,把这个录屏丢给 Gemini,当看到生成的效果时,我觉得 Gemini 3.0 Pro 太酷了。

▲提示词:上传已有视频,并加上「这是一个诗歌探索器,它每天提供一首诗,鼠标悬停时会解释每一行,并提供一些建议问题来进一步探索主题。然后我需要你根据这个视频,参考它的交互逻辑,UI 设计等等,帮我复刻一个同款诗词探索器,不过我要的是中国的古诗文、诗词歌赋。」

打开代码页,你还会惊喜地发现,Gemini 不仅搞定了前端 UI,甚至连调用 API 的系统提示词(System Prompt)都帮我们写好了。

你是一位博学的中国古文学家和美学鉴赏家。你的任务是为用户推荐一首中国古诗词(范围包括唐诗、宋词、元曲、诗经、楚辞、汉乐府等)。请不仅限于最著名的《静夜思》之类,多推荐一些意境深远、耐人寻味的佳作。

在这个过程中我们还可以同步让它进行修改,Gemini Canvas 有一个强大的功能,除了提到的「Add Gemini Feature(添加 Gemini 功能)」,还有一个是「Select and Ask(选择并提问)」,我们可以直接框选预览页面的某个组件元素,然后提问,Gemini 会自动修复这一部分。

这里我们让它添加一个分享生成照片的功能,以及修复之前点击我的收藏没有反应的问题。

▲使用的生图模型是 Imagen 3/4

这已经不是单纯的单页 HTML 文件,它需要 Gemini API 来同步完成诗歌的选择推荐,以及图片内容的生成。我相信这是目前无论哪个 AI 编程工具、或者 ChatGPT,都无法实现的强大功能。

Gemini 3 能创造的东西真的太多了,优雅的前端完全不必多说,这样的诗歌探索网页,色彩的搭配使用,元素的布局,放在哪里都是一流的设计。后端的能力,Gemini 不需要构建繁琐、有限的诗歌数据库,而是直接利用 AI 来获取不同的诗词。

而且,在对话里,我没有提到要求响应式设计,即手机、平板、和 PC 多种显示比例的同步,Gemini 3 还是帮我做到了,我们也可以在手机里直接看古诗文,同样调用 Gemini API。

▲ 手机上同样能点开网页,AI 发现新的诗歌,和生成图片

我们把同样的视频和提示词交给 ChatGPT,严重怀疑 ChatGPT 5.1 根本就没有看视频,而是完全依靠我输入的提示词来完成。无论是整体 UI 的风格,还有提示词里没有提到要写作者简介,ChatGPT 生成的内容就没有作者简介。

更大的问题,这不是一个能直接使用的产品,它生成的数据库里只有《静夜思》和《登鹳雀楼》两首诗,它也没有办法使用 OpenAI API 来完成诗歌的搜索获取。

当我提到「这个诗不应该是放在数据库里的,而是应该用 ChatGPT 自动搜索,不然我每次打开都是那几首诗诶」,整个项目就报错了,因为它需要我填入真实的 API

总而言之,如果用 ChatGPT,一个好的提示词还是少不了。

网上更火的 Gemini 3.0 Pro 测试,是有一个博主,在 Gemini 里面输入一句「Design a Capcut(设计一个剪映)」,然后只花了 239 秒,就复刻了一个能真实使用的剪映。完全不需要我们再打磨提示词,去详细列出应该做哪些功能,交互逻辑是如何,配色方案等;直接一句话搞定。

▲图片来源:X@lepadphone

还有相当一大部分的案例,是网友们都在谈的前端,即 Gemini 3.0 Pro 生成的网页,不仅摆脱了 AI 编程之前常见的渐变紫,还带来了耳目一新的大胆设计,就像是有个设计师在后台帮用户画初稿一样。

▲诸如此类「前端已死」的说法,在 Gemini 3.0 发布之后,X 上随处可见。

下面这些是网上热度比较高,由 Gemini 3.0 Pro 生成的前端页面例子。

一家人工智能公司的完整落地页。

▲提示词:You are the top 0.1% designer and developer for the world’s cutting-edge innovation on front-end design and development. You are tasked to create a full landing page with {Dither + Shaders} using {WebGL + ThreeJs} in the styling of an uploaded image for the AI company. – Focus mainly on the design part, not the development. Import all necessary files and libraries: Three.js、WebGL、GSAP、Any other animation libraries related to 3D development.|图片来源:X@natatatataat

下一代 AI 公司该有的美学追求和品味。

▲ 图片来源:X@eter_inquirer

一个双栏的响应式布局个人首页。

▲提示词:Create a hero section with a two-column responsive layout: left side has a large bold heading with orange accent highlights and star symbols, a tagline row with uppercase tags, and two CTA buttons (primary black, secondary white with border). Right side features a 3D animated orange star using React Three Fiber with slow rotation and float animations, orbit controls, and a subtle background glow. Include a top navigation bar with logo, menu items, and a “Let’s talk” button. Use Tailwind CSS for styling with a light gray background, generous spacing, and smooth hover transitions.|图片来源:X@karaan_dev

这些案例有的分享了提示词,当我们把这些提示词,通过 ChatGPT、Kimi、MiniMax 这些模型来处理时,得到的效果,都还是停留在我们的想象之中。

也有很多网友,趁着大家都在夸 Gemini 3 的前端,把一些自己设计的网页,包含复杂的动画效果和字体设计,也营销称是 Gemini 3 完成的,获得了一波流量之后,再去评论区留言说「没有提示词,这是我们团队手工做的。」

Gemini 3 + 前端,这一波热度谁都想蹭。在这些 Gemini 3.0 Pro 生成的前端精美、设计高级、交互友好的网页里面,大部分都用到了 3D 的效果,即使用 Three.js 库来完成网页设计。

深度学习经典花书的作者,Ian Goodfellow 在 Gemini 3.0 Pro 发布后,也是直接上传一张图片,生成一个 3D 的体素艺术场景,通过 Three.js 来测试它的多模态推理能力。

▲ 提示词:我提供了一张图片。请根据这张图片编写一个漂亮的体素艺术场景。使用 Three.js 编写单页应用程序。体验地址:https://aistudio.google.com/apps/bundled/image_to_voxel

他提到与 Gemini 2.5 的结果相比,Gemini 3 强大的多模态理解,和 3D 推理能力,大幅提升了生成内容的保真度

得益于内容保真度的提高,很多 3D 项目,现在都可以通过 Gemini 3.0 Pro 来完成。像这个完全交互式的 3D 地球仪,我们可以探索和收听,来自世界各地的广播电台。

▲图片来源:X@sahilypatel

眼尖的网友立刻就发现了,这不就是经典的 Radio.Garden 吗?作者也坦言确实在提示词中,提到了这个网站,要求复刻。但让我们惊讶的是,Gemini 3.0 Pro 只靠简单的几句指令,就完美重现了这个复杂的 3D 交互体验。

还有一些经典的 3D 单页项目,例如这个酷炫的 3D 魔方。

▲提示词:make me a spinning rubiks cube in threejs with a dark background. add exquisite amounts of realism and detail.|图片来源:X@aryanvichare10

以及各种需要 3D 图形和动画引擎的小游戏。

▲图片来源:X@TomLikesRobots

现在再看到这些有意思的项目,也不需要愁找不到提示词了,拿起手机录个屏,或者截几张图片,丢给 Gemini,要求它复刻,成功的几率大大提升。

毫不夸张地说,Gemini 3.0 Pro 展现出的能力,已经把其他模型彻底甩开了一个身位。

做程序员,它懂代码;做设计师,它审美时刻在线;做产品经理,它逻辑缜密。从 2D 到 3D,从模仿到创造,现在的 Gemini 3.0 Pro,已经不再需要我们用复杂、冗长的提示词,去引导它理解了,而是通过强大的多模态理解和推理能力,读懂并实现我们的需求。

这种「所见所想就能有所得」的震撼,确实配得上「年度最强」这个称号。

更让人按耐不住的是,据说今晚 nano banana 2、Gemini 3.0 Flash 也要来了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Sora 想做的 IP 内容生态,这个国产 AI 已经先走了一步

By: 张子豪
19 November 2025 at 17:33

今年不少出圈的 AI 视频,基本都有一个共同点:套了个熟悉的 IP 壳

宫崎骏风格的短片、宝可梦版的日常场景、AI 重制的海贼王和龙珠——只要 IP 够经典,AI 生成的内容就能从「电子垃圾」秒变「同人创作」,评论区瞬间炸开。

Sora 2发布后,Sam Altman 还专门发推说,这些视频应该被理解成「互动式同人小说」。这话说得挺聪明,既规避了版权的坑,也点出了 AI 视频的真实处境。

AI 视频和 IP的结合,现在正卡在一个很微妙的位置:用户想玩,品牌怕乱

这个矛盾不解决,AI+IP 就永远只能是小打小闹。

最近几个月,海螺 AI 和蜜雪冰城、青春有你 3 成员、以及一些原创 IP 的合作,给出了一些不一样的思路。

这些合作有一些共同的底层逻辑:授权是明确的,创作是可控的,用户玩得也确实开心

AI 公司在这里不只是生成工具,它还在同时管授权、引导创作、连接用户和品牌。

用户也不再只是看 IP,而是能进到 IP 里面去玩。这件事如果做成了,IP 的价值可能会被重新定义。

雪王大战东方明珠,我也可以做一个

如果要评一个最愿意把 IP 放到网上乱跑的品牌,蜜雪冰城大概永远不会掉队。前段时间在 B 站霸榜的雪王大战东方明珠,以及一连串雪王防御战、四大门派围攻东方明珠……都是网友随手一玩就能冲上热门的那种内容。

▲ 视频来自百变雪王大赛,创作者@小龙问路

对大多数品牌来说,蜜雪冰城算是最能读懂互联网的那一类。它很知道,雪王这个角色的生命力,不靠广告,不靠代言,靠的就是用户玩出来的那堆梗。而蜜雪冰城 × 海螺 AI 的「百变雪王杯」视频大赛,恰好踩中了这种互联网的创作方式。

海螺没有拍一条雪王广告给你看,而是用 AI 直接把雪王 IP 的「玩法」开放了。你想让雪王去旅游?行。想让它进剧情?也行。想把它变成下一个段子的主角?随便。

换句话说,雪王从一个被展示的角色,变成了一个可以被接着玩的入口

▲ 活动目前在获奖公示阶段,但雪王相关的创作,相关模板可以继续使用

以前买一个雪王手办,我们得到的是所有权。它被放在桌上、玻璃柜里,价值是静止的。现在用海螺的 AI 模板做一个雪王短片,我们获得的变成了参与权。在很多年轻用户的消费账单里,这种能被自己动手改写的体验,往往比实物本身更上头。

而为了让这件事成立,海螺和蜜雪冰城之间的授权方式其实相当克制,给到的是形象图,允许在模版中生成并创作,但整个创作行为都保持在一个清晰、可控的框架里。

例如,在官方发布的联合 PV 里,海螺用自己的 Hailuo02 视频生成模型、首尾帧技术,让雪王形象在任何生成内容中都保持一致性,动作自然、表情真实。

▲ 正值全运会,让雪王来个 109B,向前翻腾四周半屈体,用户可以选择海螺最新的 Hailuo 2.3 视频生成模型;图为海螺 Media Agent 生成页面,支持无限画布

这让品牌放心开放,也让我们放心玩耍。

而海螺 AI 推出的雪王视频模板,本质上是一整套雪王创作工具包。用户每点一次、改一个姿势,都在创造属于自己的数字周边。它的价值,也从普通的视频「被观看」,变成了比买十个雪王手办更能让人上头的「被使用」。

▲ 在海螺 Q版童趣页面,可以直接体验百变雪王模板,体验链接:https://hailuoai.com/generate/ai-agent/436634640615985161

此外还有百变雪王杯创意大赛的线下门店宣传、PV 联合官宣、官方回顾展示……每个环节都在告诉用户,这份创作不是我们的自嗨,是同样值得被留下来的纪念

在这种机制下,IP 不再躺在博物馆里等待被仰望,它像一盒乐高,等待被用户重新拼搭出新的可能性。

过去几年,品牌追求的是调性统一。AI 时代,现在要学会的是容忍一千种民间版本。用户玩出来的梗,有时候比官方物料更有生命力

海螺在这里的角色,就是让这「一千种民间版本」保持在一个健康、合法、可持续的范围里。不侵权、不撞车、不乱、不让用户背锅

在如今的 AIGC 环境里,这四件事都极其稀缺。

追星的终极形态,是被偶像看见

但让用户参与只是第一步。参与要真正变成创作力,需要一个关键动作:用户的作品能被官方看见、被认可、被用起来。

在 11 月初举行的「天天爱白日梦」限定演出,就是海螺 AI 在娱乐领域以及 AI + IP 合作上,一次更激进的实验。

来自综艺青春有你 3 天天组的五位成员,第一次对粉丝的 AI 视频现场 Reaction,全场都炸了。

▲ 来自综艺《青春有你3》的天天组,DayDay 兄弟团,陈俊宇、刘琦、时尚、魏宏宇、杨昊铭,在海螺天天爱白日梦活动现场

如果说雪王杯是让用户的作品进入了公共舞台,那么和艺人的合作,则把用户的 AI 创作第一次推向了商业级的线下场景

以前的追星规则很简单,买票,看人,灯光越好,舞台越大,你离偶像越远。但现在的粉丝,渴望的是另一种关系,不只要看见偶像,更想被偶像看见

这场合作就抓住了这一代粉丝,最细微也最强烈的心愿。粉丝在家用海螺做的 AI 视频,各种离谱剧情、集体跳「明月几时有」的整活、还有「骑牛」的玩梗,最后都被投上了演唱会的大屏,艺人抬头看到自己的二创,观众在下面尖叫。

更让人意外的是,他们还模仿了一遍粉丝视频里的动作和装扮,在台上真人复刻了一遍 AI。那种作品被继续、被回应的瞬间,普通工具给不了,也是传统演出永远给不了的回馈机制。

▲ 粉丝玩了好几年的刘琦「骑牛」梗,通过海螺 AI 生成了视频,投放到大屏,还被正主模仿

而 AI 也成了活动的主角,整个活动现场的视觉全部由 AI 生成,包括活动主视觉、开场视频、每首歌的现场大屏画面,都是通过海螺 AI 生成。艺人方授权形象、声音与 BGM,海螺做一套独家的视频模板。粉丝们则在海螺上,用这些元素创作短视频,就像是和偶像合拍了一支 MV。

就像活动现场那些让人笑出声的整活视频一样,海螺 AI 没打算做太多的限制。不设置所谓的「高级感」门槛,也不限制风格;在这个舞台上,用户的脑洞才是唯一的规则。

▲ 海螺 AI 上艺人全网独家 AI 模板,用户可使用艺人形象和声音,在活动期限内生成 AI 视频,目前活动已结束

这场合作里,AI 已经不是单纯工具的角色。粉丝做视频,艺人能看到;艺人有反应,粉丝能感受到。这条线,以前是断的,现在接上了。

品牌、AI、艺人、粉丝,构成了一个四边形的情感闭环。追星不再是单向的,也不再是遥远的。

当技术超出工具的范畴,开始重塑人和人之间的关系时,粉丝经济的玩法,可能真的要变一变了。

下一个 AI 视频主理人

当用户的表达能力、参与能力被系统性打开之后,下一件自然发生的事情就是:有人开始原创

这类创作者,我们在各个平台都能看到一点影子,他们不满足于做梗图、玩段子,更想把故事讲完整。

而海螺的作用,也从提供参与工具,变成了提供原创孵化的土壤。听上去有点夸张,但这些事确实已经发生了,国风系列短片、短剧《白咒》,就是最典型的两个例子。

▲ 海螺近期的人生电影活动,鼓励用户用 AI 创作自己的电影大片

先说国风系列,国风某种程度上,本身就是一个热门 IP,但能合适的用好国风这个概念并不容易。海螺 AI 视频在这系列有《花木兰》、《聊斋志异:燕赤霞》、以及《聊斋燕赤霞Ⅱ:猫将军》多部短片作品。

其中花木兰,获得北京电影学院动画学院奖评委会特别奖、聊斋燕赤霞也拿到了腾讯视频首届「AI 短片创作大赛」二等奖。

这套作品摆脱了传统的玩梗二创,努力在影像表达上做到一些真正的新原创设计。创作者在海螺 AI 的能力基础上,把构图、灯光、叙述节奏、镜头语言都重新组织了一遍,做出了具有统一审美、统一叙事风格的成片。

▲获奖作品《花木兰》,由海螺 AI 生成,来自光影几何(海螺超创@猫大人爱睡大觉),视频链接

再看短剧《白咒》,这部短片是今年上半年 4 月份发布的,使用的模型还是 Hailuo 1.0 系列,但仍然在社交媒体上引起了大量讨论。AI 视频早期常见的问题,在这个六集短片《白咒》里都有,但创作者的表达欲和风格探索,却在这些限制中显得更突出。

对于这类创作者来说,工具并不是全部。他们需要从能生成,到能发布,能进入更大舞台。海螺在这条链路上,做的是把创作者遇到的阻力降低,从生成工具,到赛事合作,再到寻找商业落地机会。

▲海螺 AI 短剧《白咒》已经在优酷上线

十月份最新发布的 Hailuo 2.3,在肢体动作、风格化、微表情等部分已有明显提升。大模型竞技场文生视频榜单,以及 artificial analysis 的统计,MiniMax 的 Hailuo 02 和 Hailuo 2.3 都保持在国产 Top 3 的行列。

首尾帧、智能分镜、角色一致性……这些原本属于电影工业的能力,现在落在个人创作者手里。当专业创作的门槛被技术拉平,个人作品和商业内容之间的界线,也开始变得模糊。

在这些 IP 合作案例里,海螺不只是帮用户表达一个想法,更像是在帮他们把想法变成作品,把作品变成可以被看见、被记住的东西。

一个创作者,在这里能经历的,是从参与→共创→被认可→原创孵化→作品产品化,这条在 AI 时代才可能走通的路径。

以前 IP 是被品牌方创造出来的,现在可能是被用户玩出来的。海螺在做的,就是把这条路铺得更平一点。

过去十年的内容生态像一座剧场。创作者在台上,观众坐在台下,彼此的距离由生产和消费的分工维持。几乎所有商业模型、平台规则、作品标准,都建立在这条界线上。

但 AI 正在悄悄拆掉这堵墙。

从雪王,到明星演出,再到原创孵化,海螺AI的这些合作案例证明了一件越来越清晰的事:AI 带来的最大机会,不只在于效率,而在于把消费者关系重写一遍。

年轻人要的,不是拥有某样东西,而是进入某件事里。

品牌向用户敞开参与的大门,用户的创造力就能变成品牌资产的一部分。创作者被技术托住,他们的作品就能变成新一代的文化原点。IP 与 AI 的合作不再是冒险,而是在共同完成一场更大的叙事。

这条路能不能走通,现在下结论还早,但至少有像海螺 AI 这些产品开始在试了。

当「参与」本身开始变得比「拥有」更值钱时,整个内容产业的游戏规则,可能真的要变了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Google 年度最强 AI 偷跑!一个电风扇动画引发疯传,Gemini 3要给GPT-5.1上强度了

By: 张子豪
17 November 2025 at 14:41

前几天 nano banana 2 的泄漏版本,正在网上被疯狂转载,奥特曼眼看着流量不能被 Google 再抢了去,一点预告都没有,直接就发布了 GPT-5.1。

现在,GPT-5.1 都来了,Gemini 3.0 还会远吗。

Google CEO Sundar 和 Google AI Studio 负责人 Logan,都回复了一则关于 Gemini 3 的帖子,内容显示 Gemini 3 在预测市场的发布时间,有 69% 的用户买入了这个月 22 号的时间。

Google CEO 回了意味深长的思考 emoji,毕竟在预测市场 Polymarket 上,Gemini 3 的发布时间从 8 月 31 号到年底,都有人买入,而现在除了本月 22 号,月底 30 号更是累计有三百多万美元。

▲ 图片来源:https://polymarket.com/event/gemini-3pt0-released-by?tid=1763343187680

种种迹象显示,Gemini 3.0 很有可能就在最近这周发布,并且还有机会和 nano banana 2 一起发布。它们一个是在编程、智能体、写作等通用智能上更上一层楼,另一个是延续图像编辑的强大一致性和长文本渲染。

不敢想象年底的 AI 模型更新会有多激烈。

我们之前也汇总过关于 Gemini 3.0 和 nano banana 2 的爆料,那时的 Gemini 3.0 是出现在 Google AI Studio 的 A/B 测试中,能直接给我们生成一个 macOS 的云电脑,点开 Safari 还可以直接访问网页。

▲瑞典风格的网页设计,图片来源:X@RDeepl

而最近这段时间爆出来 Gemini 3.0 的料,一个比一个厉害。指令的理解能力更强,在编程项目中展示了丰富的世界知识,还有生成的网页,风格更多元也更大胆,更实用。

大模型竞技场上的神秘模型

在大模型竞技场上,又多了一个编号为 riftrunner 的神秘模型,有网友在 battle 对战模式下,刚好测试到了它的效果。用它生成的 SVG 动画,一个比一个厉害。

下面这个能调节风速档位的电风扇,在 X 上被疯狂转载,大家都不相信 AI 有这么聪明,只用一句提示词,就能做出精美的 SVG。

▲图片来源:X@lepadphone

他还用这个编号为 riftrunner 的模型,生成了一个能同步真实时间,切换表盘颜色的手表动画 SVG。

和之前 nano banana 一开始出现在模型竞技场一样,网友们都在怀疑这个 riftRunner 就是 Google 马上要发布的 Gemini 3.0。

要想体验到它,我们不能手动选择,必须在竞技场 battle 模式中随机获得。battle 模式会给我们两个不同的答案,投票后才能知道型号名称。

为了减少反复尝试的痛苦,Flowith 的创始人还发 X,分享了通过设置浏览器 Agent 来自动投票,更快找到 riftrunner 的方法。

我们也在 LMArena 里面测试了多次,都没有碰到过 riftrunner,大概是运气都在我抽 nano banana 那会儿花光了。

继续在网上找了更多网友的分享,有人说 riftrunner 不失所望,是唯一一个解出下面这道数学难题的模型。

▲图片来源:X@Abasiono_Mbat

还有人在竞技场不断测试,做一个狐狸模型,得到了 riftrunner(Gemini 3)、Claude 4.5、以及 GPT-5 的三种对比。

▲图片来源:X@k0tovsk1y

还有应该选 both are bad,两个都很差的蒙娜丽莎 SVG 画像,即便是 riftrunner 看着也很怪,但至少又比 Claude 有更多关于蒙娜丽莎的元素。

▲左图为 riftrunner,右图为 Sonnet 4.5;图片来源:X@petergostev

以及 riftrunner 生成的,一只骑自行车的鹈鹕的 SVG。

▲图片来源:X@synthwavedd

藏在了手机端 Gemini App 的 Canvas 功能里

还有网友说,现在 Gemini App 里面的 Canvas 功能,使用的模型就已经是 Gemini 3.0 了。因为在网页端的 Gemini 和手机端,输入同样的提示词,得到的输出,质量差距很大。

▲图片来源:https://www.reddit.com/r/Bard/comments/1ovvmjo/not_hype_posting_gemini_3_is_rolling_out_to/

于是一大波网页版和手机端的对比,纷纷出现在评论区,大家都认可了,手机上的 Canvas 真的是使用了更先进的 Gemini 3.0。

最直观的例子是这个 3D 宝可梦的动图,在 Web 端生成的 3D 动图背景简单,宝可梦的形象也很抽象;手机端的色彩、背景都做的更好。

▲图片来源:X@AiBattle_

还有网友做的 Gemini 和外星人入侵的对抗的 SVG,网页版继续一如既往的简陋,而在手机上的 Canvas 明显元素更多,更丰富。

▲左图为网页版,右图为手机应用版。图片来源:X@Lentils80

以及拿手机应用中的 Canvas 和 Claude 4.5 Sonnet 来对比,输入的提示词都是,一个 3D 宝可梦精灵球。

▲图片来源:X@ctgptlb

还有人拿 Xbox 手柄 SVG 图来做测试,iOS 手机应用里的 Canvas 和 浏览器里的网页版,是完全不同。

▲左边是手机应用,右边是网页版;图片来源:X@MaximilanS638

不过,也有用户分享自己 Gemini 手机端和网页端,出来的结果是一模一样的。

▲左图为网页版,右图为手机应用版。图片来源:X@Medeenatee

我也尝试输入「生成一个 Xbox 的手柄 SVG 图」来看看两遍的结果,但是都很不理想。要不是根本不像一个手柄的图,要不然就是键位这些全部错乱。

只能说模型会出现幻觉,我们人类也可能有幻觉。大模型竞技场的神秘代号模型,还有这种靠着观察输出差异的怀疑,都不能确定是否来自 Gemini 3.0。

更确定的信息是,有网友发现,Gemini 3.0 Pro 已经出现在 Gemini Enterprise 的 Agent 模型选择器中。

▲图片来源:X@testingcatalog

不过 Gemini Enterprise 也是不对一般的用户开放,但至少可以说 Gemini 3.0 真的距离发布不远了,或者说已经准备好了。

回看过去这一年来,几家大模型公司的发布记录,GPT-5 因为营销太多被诟病,发布后网友们表示熬了这么久,「就这」;还有在社交媒体一直没什么水花,但模型广受好评的 Claude 系列;现在是后发制人,凭着 nano banana 重新回到大家视野的 Gemini。

甚至在想,如果没有 nano banana,会不会还有人只记得它之前的名字,叫 Bard。

SimilarWeb 在前几天了公布了,各个大模型网页流量的统计数据,一年前 OpenAI 的网页访问流量占比是 86.6%,到了今天虽然还稳居首位,但是已经被瓜分走了相当一部分,只剩下 72.3%。

而被分走的流量基本上全去到了 Gemini,Gemini 从一年前只有 5.6%,在 nano banana 发布之后,冲到了现在的 13.7%,直接翻倍。

要是 Gemini 3 和 nano banana 2 能稳住,再接着这波流量,下个季度的柱状图,Gemini 的颜色可能还要占据更多。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


一张草图变网页,实测字节 TRAE SOLO,这些功能甚至比 Cursor 还好用

By: 张子豪
14 November 2025 at 14:18

AI 编程火了这么久,无论是开发者还是我们普通人,都能让 AI 来帮忙做个小游戏、捣鼓点小工具。

有时候还真别说,那些 AI 做的小玩意,的确能起到点作用。很多读者也经常在留言区评论,现在最好的编程模型是什么?

Claude 4.5 + Cursor 自一直是很多开发者的首选,但它们由于种种原因对中国用户都不太友好,结果是花同样的钱开会员,有可能很多模型都用不了。

好消息,这次我们不会被「卡脖子」了。

昨天,字节发布了他们的编程工具,TRAE 3.0,我们体验了一下,在某种程度上,TRAE 可以说就是一个国产版 Cursor,甚至部分功能做得比 Cursor 还要好。

其中,最核心的功能 SOLO 模式,是之前所有同类产品,没有探索过的 AI 编程工具形态。它提供了 SOLO Coder 和 SOLO Builder 两个智能体,一个针对专业的开发者用户,处理复杂的项目开发问题;一个针对个人和小团队,真正做到一句话做个产品,能上线发布的产品。

这两个 SOLO 智能体,把过去传统软件开发,涉及到的全部工作基本都包揽了。目前 SOLO 模式正在限免期,前往 trae.ai 下载安装,登录之后就能免费体验到 15 号。

限免期之后,TRAE 的会员计划也比 Cursor 更良心,首月是 3 美元,次月开始 10 美元。和免费用户的区别就是在模型调用、快速响应上的额度分配不同。

SOLO 模式,让编程更加 Vibe

SOLO 模式其实最早是在 TRAE 2.0 的时候推出的,当时只是用来快速生成一个应用。而更新的 TRAE 3.0 版本中,是把快速生成的应用,能做得更复杂,还给专业开发者带来了更高效的功能。

之前,我们使用大多数的编程产品,或者就是要 ChatGPT、Gemini 这些通用助手,来进行 vibe coding。

本质上还是,我们单纯地跟模型进行对话,解决某一个具体的问题,最后的产出也比较有限,一般就是一个我们看都看不懂的代码文件,点个预览就够了。

但现在,TRAE SOLO 模式改变了过去传统的开发工具、或者 AI 聊天编程产品的形态。它整体的布局更像一个大模型助手的智能体界面,没有了中间的代码编辑器,最左边也不是文件管理器,而变成了任务列表。

SOLO Coder:面向复杂项目开发

TRAE 提供了 Coder 和 Builder 两个选项,SOLO Coder 主要是针对复杂的项目开发,更专业的应用场景。一般是我们有现成的项目,可以通过 Coder 来完成一些项目迭代、Bug 修复和架构重构等。

我们选择了一个 GitHub 上的开源项目,动辄上千上万行的代码,根本看不懂。然后直接问他有没有什么更好的网络结构等组件,可以让这个方法的效果更好。

▲ 指令下达后,直接开始执行,帮我完成各种包的安装,实时跟随会自动切换不同的工具面板。

前几天我刷社交媒体,看到有人在问,大家在 vibe coding 等结果的过程中一般做什么。

有人说真正的 Vibe 是应该打开手机开始刷视频,也有人说会盯着 AI 的每一步操作,防止它莫名其妙删库跑路,还有说再开一个 Agent 来执行其他任务。

SOLO 模式似乎也考虑到了这一点,在任务处理过程中,是可以多任务并行的,意思是我们可以同时执行多个项目。同时,SOLO 智能体在调用不同的工具过程中,会可视化全部的工具调用流程、自动切换不同的工具面板,TRAE 把这一点叫做「实时跟随」

和 TRAE 2.0 会显示当前使用的模型不同,在 Claude 彻底断供之后,TRAE 3.0 在 SOLO 模式下,只会显示 Max 模型,且不能自定义选择模型

SOLO Builder:从零构建一个应用

SOLO Coder 还是有点太专业了。另一个智能体,SOLO Builder 在某种程度上,则是一款很典型的 vibe coding 产品,和我们之前分享过的 Lovable 一样,它主打的是从零开始,一句话构建一个产品。

但不同的是,SOLO Builder 能凭借 TRAE 自身强大的开发环境,真正做出一个大规模可用的产品,不会停留在做一个小玩意路线上。

一款应用从构思到最后真正上架到 App Store,中间要完成的需求分析、UI 设计、系统环境等等,都可以在 SOLO Builder 中,通过 AI 来完成。TRAE 提供了包括编辑器、文档、终端、浏览器、Figma、智能体、MCP在内的多个工具。

▲ 开始写项目需求文档和技术架构文档

通过调用不同的工具,仿佛真的有一个助手在操作我们的电脑:在写清楚产品需求文档后,默默地又开始写代码来实现,最后再自己测试代码、部署整个项目;把产品经理、程序员、测试、运维的活全干了。

我们输入了一个需求,是让它做一个摸鱼 APP。得到了对应的文档之后,SOLO Builder 不会立刻执行,而是让我们先确认这个计划是否可行。此刻我们就是项目经理,告诉 AI 来 Align(对齐)一下颗粒度,不行就要 AI 再回去修改文档。

在 SOLO Coder 智能体,同样有「Plan 计划」的开关,先让模型规划怎么做,我们再确认。

一切顺利,我们得到了最后的摸鱼 App,TRAE 还贴心的提供了一个推荐操作,让我们把项目部署到 Vercel(托管网站的平台)上,而不仅仅是本地访问。

不过,SOLO 模式目前还只在国际版推出,国内版本可以通过加入候补名单,等待上线。

▲候补链接:https://www.trae.cn/solo

豆包编程模型,TRAE 的国产版核心

虽然国内版本还没有 SOLO 模式,但是字节最新的豆包编程模型,已经在 TRAE 国内版上线了。

▲Doubao-Seed-Code 生成的技能五子棋页面截图

Doubao-Seed-Code 是字节这周二发布的一款全新模型,它专门在 Agentic 智能方面,进行了深度优化;在多个编程相关的基准测试中,表现结果全面领先国产的同类模型;此外,它的输入输出还做到了国产模型的最低价。

用直观的例子说明,在相同 Tokens 数量的任务下(0-32k 输入区间),Claude Sonnet 4.5 完成需要约 4.05 元,GLM-4.6 要 0.77 元,而 Doubao-Seed-Code 的成本是 0.34 元。

▲配合字节的 TRAE 编程产品,在 SWE-Bench 上的得分更高;以及使用成本更低

Doubao-Seed-Code 的亮点还包括,它支持最高 256K 的上下文长度,能应付一般的长代码文件。它也是国内第一个支持视觉理解能力的编程模型;通俗点讲,就是不用自己口头描述做什么,一张设计稿、截图,就能自动生成对应的内容。

模型提供的 API 调用,支持在 Claude Code 中使用,也对字节跳动自家的编程开发工具 TRAE,Cursor、Codex CLI、Cline 等主流的开发生态,实现了全面的兼容。

目前,Doubao-Seed-Code 可以在火山方舟大模型体验中心、TRAE 中国版直接使用,也可以透过平台的 API 调用。

▲ https://www.volcengine.com/experience/ark?model=doubao-seed-code-preview-251028

在 TRAE 中国版,还提供了 Kimi K2,GLM 4.6,以及 DeepSeek、Qwen 等常见国产编程模型。

▲ https://www.trae.cn/

我们也在火山引擎官网、TRAE 、以及 API 调用几种方式里,体验了这款全新的编程模型,不能说吊打 Claude,但是配合自身的编程开发环境、和超低的费用,很难不让人心动。

模型能力实测,一张草图生成一个项目

视觉理解是 Doubao-Seed-Code 的一大亮点,但其实从图片复制网页,甚至是在 AI 大语言模型流行之前,就已经有类似的应用。而多模态的能力,现在也基本上成为了每个模型的标配。

我们从网上找了一张手绘的网页布局图片,直接让它根据这张草图,生成对应的前端页面。

还原度还是很高的,复制代码拿过来直接用作自己的项目,或者再要它添加一些处理的逻辑,神笔马良的即视感。

除了这种照搬图片的内容,我们还找了一张大家熟知的游戏截图,Flappy Bird,但是截图里面就是几根柱子。上传截图并提问,你认识这个游戏吗?用一个单页的 HTML 实现它。

虽然简陋了一点,但是 Douban-Seed-Code 在深度思考的过程,一眼就看出来这是 Flappy Bird 的游戏。最后的实现,把小鸟直接换成了一个原点,但确实是一张图就能生成游戏。

火山方舟的模型体验中心更多是一种 Playground 的存在;Doubao-Seed-Code 的发布,直指当下火热的 AI 编程赛道。

字节也专门为 Doubao-Seed-Code 在 TRAE 中的表现进行过优化,与 TRAE 深度结合的豆包编程模型,在对应的编程基准测试中,甚至拿到了超过 Claude 4.5 Sonnet 的成绩。

和网页版处理不同,在本地使用,意味着我们的主动权更大。我们直接把过去几篇 APPSO 的文章放到项目文件夹,然后在 TRAE 里和模型对话,要它根据这些文件,帮我制作个人作品集。

在豆包编程模型的介绍资料里,我们看到字节用了一套大规模的 AI 强化学习系统,来完成智能体的学习训练。

  • 覆盖十万个不同环境的数据集,让 AI 见识各种复杂任务。
  • 不需要老师手把手的教,而是完全依靠端到端的强化学习,模型自己总结经验。

在 TRAE 中运行了一会儿了,就得到了最后的个人作品集网页,说实话总结得很不错,在精选文章那一部分,都是 AI 自动帮我配的图片。

除了直接使用,豆包编程模型还提供了 API 的方式,能够配置到 Claude Code 之类的工具中。

我们之前在介绍 Google 全家桶时,分享过 Gemini CLI(和 Claude Code 类似的命令行终端工具)的使用体验,基本上能减去我们找各种第三方工具的繁琐。

在火山引擎的官网,字节更是直接给出了完整的将 Doubao-Seed-Code 配置到 Claude Code 的详细步骤,我们只需要照着教程走,就能得到一个不会被断供的 Claude Code。

▲ https://console.volcengine.com/ark/region:ark+cn-beijing/model/detail?Id=doubao-seed-code

简单配置之后,我们就可以进入到 Claude Code 的页面,并且显示当前的模型时 doubao-sseed-code-preview-251028。

字节这波发 Cursor 平替 SOLO 模式,又发 Claude 4.5 平替 Doubao-Seed-Code,能看出来是真的很想把 AI 编程做到极致,毕竟这是现在的大热门。

有多热,代表性产品 Cursor 在最新一轮融资后,估值来到了 300 亿美元,并且它几乎可以确认,将是历史上最快达到 10 亿美元 ARR 的公司。

▲图表由 GPT-5.1 生成,显示这些公司从成立到实现 10 亿美元的 ARR,需要多长时间。图片来源:X@Yuchenj_UW

而前些天,柯林斯词典也宣布,把 Vibe Coding 作为 2025 年度词汇;这一年来,无论是不是学计算机专业的,多多少少都已经接触到了 AI 编程。

简单的「帮我生成一个贪吃蛇的游戏」、到复杂的大型项目管理,代码完全变成了向 AI,而更少面向开发者的语言。

这种趋势也在大多数的基础模型,把编程能力作为主要卖点的背景下,变得越来越流行。如果在去年问一个 AI 编程的用户,他会选择什么模型,毫不犹豫地说,一定是 Claude 3.5。

到了今年这个时候,Claude 断供看起来反而是倒逼了我们一把。国产的编程模型有了智谱的 GLM 4.6、阿里的 Qwen Coder、Minimax M2、月之暗面的 Kimi K2 Thinking,个个都榜上有名;今天又多了一个选择,Doubao-Seed-Code。

模型之外,工具的演变也没停下来,从只是生成代码然后预览,到现在 TRAE 要把软件开发一条龙全面服务到位。即便现在说 AI 编程,要全面取代程序员还不太可能,但让 AI 手搓一个微信,未来三五年说不定真的能做到。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


用 460 万美元追上 GPT-5?Kimi 团队首次回应一切,杨植麟也来了

By: 张子豪
11 November 2025 at 14:14

上周 Kimi K2 Thinking 发布,开源模型打败 OpenAI 和 Anthropic,让它社交媒体卷起不小的声浪,网友们都在说它厉害,我们也实测了一波,在智能体、代码和写作能力上确实进步明显。

刚刚 Kimi 团队,甚至创始人杨植麟也来了,他们在 Reddit 上举办了一场信息量爆炸的 AMA(有问必答)活动。

▲ Kimi 团队三位联创,杨植麟、周昕宇、吴育昕参与回答

面对社区的犀利提问,Kimi 不仅透露了下一代模型 K3 的线索、核心技术 KDA 的细节,还毫不避讳地谈论了 460 万的成本,以及与 OpenAI 在训练成本、产品哲学上的巨大差异。

  • 460 万美元这个数字不是官方的数字,具体的训练成本很难量化到多少钱
  • K3 什么时候来,是看奥特曼的万亿美元数据中心什么时候建成
  • K3 的技术将会继续沿用,当前效果显著的 KDA 注意力机制
  • 视觉模型还需要我们去采集更多的数据,但目前已经在做了……

我们为你整理了这场 AMA 中最值得关注的几个核心焦点,来看看这家现在算是国产开源老大的 AI 实验室,是如何看待他们的模型,和未来 AI 的发展。

叫板 OpenAI,「我们有自己的节奏」

在这场 AMA 中,火药味最足的部分,大概就是 Kimi 团队对 OpenAI 的隔空回应。

最大的噱头之一:K3 什么时候来?Kimi 团队的回答非常巧妙:「在奥特曼的万亿美元数据中心建成之前。

很明显这一方面是幽默,因为没有人知道 OpenAI 到底什么时候才能建成那个数据中心,另一方面似乎也在回应外界对于 Kimi 能用更少资源追赶 GPT-5 的赞叹。

当有网友贴脸开大,直接问 Kimi 怎么看 OpenAI 要花这么多钱在训练上时,Kimi 坦言:「我们也不知道,只有奥特曼自己才知道」,并强硬地补充道,「我们有自己的方式和节奏。

这种自己的节奏,首先体现在产品哲学上。当被问到是否会像 OpenAI 一样发布 AI 浏览器时,团队直言 No:

我们不需要创建另一个 chromium 包装器(浏览器套壳),来构建更好的模型。

他们强调,目前的工作还是专注于模型训练,能力的体现会通过大模型助手来完成。

在训练成本和硬件上,Kimi 也展现了精打细算的一面。社区好奇 K2 的训练成本是否真的是传闻中的 460 万美元,Kimi 澄清了这个数字并不正确,但表示大部分的钱都是花在研究和实验上,很难具体量化。

至于硬件,Kimi 承认他们使用的是 H800 GPU 和 Infiniband,虽然「不如美国的顶级 GPU 好,而且数量上也不占优势」,但他们充分利用了每一张卡。

模型的个性与 AI 的垃圾味

一个好的模型,不仅要有智商,还要有个性。

很多用户喜欢 Kimi K2 Instruct 的风格,认为它「比较少的谄媚,同时又像散文一样,有洞察力且独特」。

Kimi 解释说,这是「预训练(提供知识)+ 后训练(增添风味)」共同作用的结果。不同的强化学习配方(即奖励模型的不同选择)会得到不同的风格,而他们也会有意的把模型设计为更不谄媚

▲大语言模型情商评估排名,图片来源:https://eqbench.com/creative_writing.html

但与此同时,也有用户直言 Kimi K2 Thinking 的写作风格太「AI Slop 垃圾」,无论写什么话题,风格都太过于积极和正面,导致读起来 AI 味就是很重。他还举例子说,要 Kimi 写一些很暴力很对抗的内容,它还是把整体的风格往积极正面那边去靠近。

Kimi 团队的回答非常坦诚,他们承认这是大语言模型的常见问题,也提到现阶段的强化学习,就是会刻意地放大这种风格。

这种用户体感与测试数据的矛盾,也体现在对 Benchmark(跑分)的质疑上。有网友尖锐地提问,Kimi K2 Thinking 是不是专门针对 HLE 等跑分进行了训练,才会取得如此高分?毕竟这么高的分数,好像和他实际使用中的智能不太匹配。

对此,Kimi 团队解释说,他们在改进自主推理方面取得了一些微小的进展,这刚好让 K2 Thinking 在 HLE 上得分很高。但他们也坦诚了努力的方向,要进一步提升通用能力,以便在更多实际应用场景中和跑分一样聪明。

网友还说,你看马斯克的 Grok 因为做了很多 NSFW (非工作安全) 的工作,生成图片和视频;Kimi 完全可以利用自己的写作优势,让它完成一些 NSFW 的写作,一定能为 Kimi 带来很多用户的。

Kimi 只能笑而不语,说这是一个很好的建议。未来是否会支持 NSFW 内容,可能还需要找到一些年龄验证的方法,也需要进一步做好模型的对齐工作。

很明显,现阶段 Kimi 是不可能支持 NSFW。

核心技术揭秘:KDA、长推理与多模态

作为一家被称为「开源先锋实验室」的公司,而 Reddit 本身就是也是一个非常庞大和活跃的技术社区,Kimi 也在这次的 AMA 中,分享了大量的技术细节。

10 月底,Kimi 在《Kimi Linear: An Expressive, Efficient Attention Architecture》的论文,详细介绍了一种新型混合线性注意力架构 Kimi Linear,其核心正是 Kimi Delta Attention (KDA)。

▲KDA 算法实现,论文链接:https://arxiv.org/pdf/2510.26692

通俗来说,注意力(Attention)就是 AI 在思考时,决定应该重点关注上下文哪些词语的机制。和常见的完全注意力和线性注意力不同,KDA (Kimi Delta Attention),是一种更智能、更高效的注意力机制

在这次 AMA 活动中,Kimi 也多次提到,KDA 在长序列强化学习场景中展现了性能提升,并且 KDA 相关的想法很可能在 K3 中应用。

但 Kimi 也坦言,技术是有取舍的。目前混合注意力的主要目的是节省计算成本,并不是为了更好的推理,在长输入和长输出任务上,完全注意力的表现依然是更好的。

那么,Kimi K2 Thinking 是如何做到超长推理链的呢,最多 300 个工具的思考和调用,还有网友认为甚至比 GPT-5 Pro 还要好?

▲ Kimi Linear 模型结构

Kimi 认为这取决于训练方式,他们倾向于使用相对更多的思考 token 以获得最佳结果。此外,K2 Thinking 也原生支持 INT4,这也进一步加速了推理过程。

我们在之前的 Kimi K2 Thinking 文章中也分享了 INT4 的量化训练技术,这是一种高效的量化技术(INT4 QAT),Kimi 没有训练完再压缩,而是在训练过程中,就保持了低精度运算模型。

这能带来两个巨大的优势,一个是推理速度的提升,一个是长链条的推理,不会因为训练完再进行的压缩量化,而造成逻辑崩溃。

最后,关于外界期待的视觉语言能力,Kimi 明确表示:目前正在完成这项工作。

之所以先发布纯文本模型,是因为视觉语言模型的数据获取,还有训练,都需要非常多的时间,团队的资源有限,只能优先选择一个方向。

生态、成本与开放的未来

对于开发者和普通用户关心的问题,Kimi 团队也一一作答。

为什么之前能处理 1M 上下文的模型消失了?Kimi 的回答言简意赅:「成本太高了。」而对于 256K 上下文在处理大型代码库时依然不够用的问题,团队表示未来会计划增加上下文长度。

在 API 定价上,有开发者质疑为何按「调用次数」而非 token 收费。对使用 Claude Code 等其他智能体工具进行编程的用户来说,基于 API 请求次数的计费方式,是最不可控且最不透明的。

在发送提示之前,用户根本无法明确工具将发起多少次 API 调用,或者任务将持续多长时间。

▲Kimi 会员计划

Kimi 解释说,我们用 API 调用,是为了让用户更清楚的知道费用是怎么消耗的,同时符合他们团队的成本规划,但他们也松口表示会看看是否有更好的计算方法。

当有网友提到自己公司不允许使用其他聊天助手时,Kimi 借机表达了他们的核心理念:

我们拥抱开源,因为我们相信通用人工智能应该是一个带来团结而不是分裂的追求。

而对于那个终极问题——AGI 什么时候到来?Kimi 认为 AGI 很难定义,但人们已经开始感受到这种 AGI 的氛围,更强大的模型也即将到来。

和去年疯狂打广告营销的 Kimi 不同,在这场 AMA 力,杨植麟和团队成员的回答;确实能让人感受到在国产开源,逐渐占据全球大语言模型开源市场的背景下,Kimi 也更加有底气,更明确了自己的节奏。

而这个节奏很明显,就是在这场烧钱、甚至卷太空的 AI 竞赛中,继续走开源的路,才能推动技术往前走。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Nano Banana 2 闪现 1 小时就下架,让所有 AI 翻车的测试,它轻松拿捏

By: 张子豪
10 November 2025 at 18:34

之前火爆全网的 nano banana,现在要推出 2.0 版本了。

全新的 nano banana 2 能有多强,看下面这张 11:15 的时钟和满杯的红酒。

▲图片来源:x@synthwavedd

为什么说这张照片厉害,在 AI 生图领域,有一个极具挑战性的测试,目前还没有 AI 能稳定做到,那就是时钟和满杯红酒测试

输入提示词「时钟上显示 11:15,红酒杯已满至杯口(11:15 on the clock and a wine glass filled to the top)」,就能检测你的 AI 生图是否够聪明。

我们在大模型竞技场、豆包 Seedream、以及 nano banana 1.0 版本多次尝试,没有 AI 可以准确显示时钟刻度,和一杯快满出来的红酒。

而 nano banana 2 做到了。对比当前版本的 nano banana,它的文本渲染能力更进一步,直接写字,不同风格和不同语言都可以驾驭;世界知识也进一步强化,能准确生成各种信息图表;指令遵循方面表现也更加出色。

▲ 更真实的黑板字|图片来源 x@testingcatalog

和 Nano Banana 最早在大模型竞技场,以抽卡的形式出现不同。Nano Banana 2 模型是在 media.io 上被爆料,用户可以在这个网站上体验 nano banana 2。

▲ Media AI(medio.io)目前只有 nano banana 和 Seedream 等其他 AI 生图模型

不过,这个被称为 nano banana 2 的模型很快就下架了。在 Reddit 上,有用户提到 Media AI 只是短暂性地开放了一个多小时的使用权限。

但是就这短暂的时间里,网友们发现生图效果确实可以说是 NB 2.0,很快就在社交媒体上传开。大家都在分享 nano banana 2 预览模型的输出结果,发现和 nano banana 1.0 版本有着明显的区别。

下面这两张来自 1.0 和 2.0 版本的图片,你能分清楚那张是来自 nano banana 2 吗。

▲ 图片来源 x@Azinha810

都是汽车模特在海边公路拍摄大片,但是很明显第一张图片色彩和风格更准确,没有专属于 AI 照片的「塑料感」。

▲ 图片来源 x@Azinha810

还有这两张偏科幻风格的图片,区别就更加明显了。第二张图看起来电影感更强,视觉质量也比第一张图有了更多准确的细节。举个例子,第一张图的设备仪表板和第二张图,能看出直接的不同,nano banana 生成的仪表板,依旧是明显的 AI 风格。

根据 X 上爆料博主 testingcatalog 透露的信息,nano banana 2 目前仍然是由 Gemini 2.5 Flash 作为基础模型,而没有完全开始使用 Gemini 3.0 Pro。

这意味着 nano banana 2 图像模型的发布时间,可能要比 Gemini 3 来的更早。我们收集了目前关于 nano banana 2 的爆料,其中提到它有以下这几个亮点。

1、能处理更复杂的任务,例如在精确的着色、高级控制视角或角度,以及纠正生成图像中的文本元素等,当前 1.0 版本不支持的任务。

▲ 输入提示词,让水变粉红,依次是原始图像,Nano Banana 1,Nano Banana 2|图片来源 x@Angaisb_

2、全新的多步骤生成工作流程,nano banana 不再是「一键出图」,而是更像一个设计师在工作。

  1. 规划: 花费相当长的时间规划输出内容。
  2. 生成: 生成一个初步图像。
  3. 审查: 通过内置的图像分析功能进行自我审查。
  4. 修正: 识别并纠正任何错误。
  5. 迭代: 根据需要进行迭代,最后才交付结果。

3、更高的分辨率和更全面的宽高比图像生成,其中更广泛的宽高比,包括 1:1, 2:3, 3:2, 3:4, 4:3, 9:16, 16:9 和 21:9 等大小,而分辨率在爆料信息中,则是称有 1K、2K 和 4K 多种模式。

▲ComfyUI 工作流界面

其中,多步工作流,大概是 nano banana 更新里面最大的差异化卖点。之前我们可能听过 ComfyUI 这类工具,能够实现生图、生视频的工作流。但现在直接通过 nano banana 就能实现,这对于高精度图像的生成来说,是一次巨大的进步。

实际表现还是得看生成的图片来说,我们继续看看这些来自 nano banana 2 的测试案例。

更强的文本渲染

首先是真实的电脑截图,nano banana 2 能直接生成一个 Windows 电脑截图,屏幕显示浏览器,正在访问 YouTube 网站,并且指定视频的封面是野兽先生。

▲ 直接上传一张 Windows 电脑截图。提示词:Generate a screenshot of a windows 11 desktop, with google chrome open, showing a YouTube thumbnail of Mr. Beast on http://YouTube.com(生成一张 Windows 11 桌面截图,谷歌 Chrome 已打开,显示 YouTube 上 Mr. Beast 的缩略图,链接为 http://YouTube.com)|图片来源:x@synthwavedd

更复杂一点的玩法,甚至能直接让 nano banana 2 生成一个 Google DeepMind 的网页截图,这密密麻麻的文字没出现乱码,真的厉害。

▲图片来源:x@synthwavedd

不过还是有细心的网友发现,nano banana 2 的效果也不是十全十美,像这张图片里出现了 Gemini 31、Google DeepMind – Nevdscl 等错别字。

不仔细去看,光看大标题和那些小标题,还真的很难发现这里面的错误。但是,当要处理的文本内容少一点的时候,nano banana 2 出现错误的概率就会小很多。

这张电视台新闻直播现场的图片,屏幕上的文字都是准确的,格式统一;甚至它把地板上反射的文字,都正确显示了。

▲图片来源:x@synthwavedd

同样的,还有这张电视的直播截图,主播在屏幕右侧,底部有新闻节目经典的跑马,并且所有文字都准确渲染。

▲ 提示词:50mm big budget live broadcast 8k photograph close-up an attractive italian age 30 wry female news anchor. She is at a news desk and on a screen behind her is a bio engineered Banana with text “Nano Banana 2 live on Media .IO?” Live news shot. There is a red and blueckhyron on the bottom of the image that says “Breaking News: Nano Banana 2 on Media .IO?”|图片来源 x@BrentLynch

我们也把同样的提示词,让当前的 nano banana 处理了一遍。

这张照片给我的感觉 AI 味也不算太重,但是它对背景屏幕做了虚化处理,反而让照片看起来不像是新闻节目的现场,而文字的反射也稍显刻意,它重点突出了主播的形象。

有了世界知识,更听得懂我们的指令

像开头那张 11:15 分的时钟和满杯的红酒,在评论区里,网友们纷纷贴出自己用 Grok、ChatGPT 等其他模型的生图,结果都不如 nano banana 2 准确。

还有网友分享了让 nano banana 2 把一个汉堡玻璃化,其中只有它做到了将整个汉堡都变成玻璃;而字节的 Seedream 和 Riverflow 都只是将汉堡的面包部分转成了玻璃。

▲ 提示词:制作玻璃汉堡(Make the hamburger made of glass);图一为 nano banana 2 生成的图片|图片来源 x@Angaisb_

在世界知识方向上的进步,让 nano banana 2 更能读懂提示词,做到严格指令遵循的同时,它还可以让我们的提示词更简单。

例如有网友测试了生成一个 GTA 6 预告片,nano banana 2 直接给了他一个完整的 YouTube 页面,它甚至还知道真正的 GTA 6 标志。

▲ 图片来源 x@jewgibor

他还测试了一组提示词「one piece live action netflix」,海贼王真人版奈飞,结果 nano banana 不仅知道 Netflix 的 Logo,也知道相关的真人版演员。

结合世界知识和文本渲染,nano banana 2 还能在黑板上为我们解题,这不比看着聊天框里面长长的数学推理舒服多了。

▲图片来源 x@MagusWazir

而 nano banana 1.0 版本和 nano banana 2 的对比是这样的。

▲ 图片来源:https://www.reddit.com/r/singularity/comments/1osolhn/nano_banana_2_vs_nano_banana_comparison_output/

还有许多类似的案例,用 nano banana 2 来接数学题,然后在黑板上回答。

▲ 图片来源 x@Liam06972452

不只编辑,生图能力这次也有了提升

同样是在 Media AI 平台上,短暂出现的预览版本的测试效果。

▲提示词:Ken Kaneki carrying his friend in his arms in the snow, Tokyo Ghoul|图片来源 x@legit_api

东京食尸鬼里面金木研在雪中抱着朋友的场景,就这么自然地生成了。除了稳定拿捏的动漫风格,赛博朋克风格,nano banana 2 的生图效果也很高级。

▲ 提示词:Cyberpunk hacker robot working in front of many monitors|图片来源 x@testingcatalog

还有各种各样的人像「恶搞」图片。

▲ 图片来源 x@MicahBerkley

以及这种胶片风格满满的合影。

▲ 图片来源 x@rpnickson

不过有人在评论区提到,「这根本不是 nano banana,Media AI 是一家中国公司。像 DeepSeek 当时出来的时候一样,我们也以为它是来自 OpenAI,这是他们的惯用手法。」

当时 nano banana 1 在大模型竞技场第一次出现时,大家也无法确定这个模型是否真的来自 Google,但最后只要生图效果够炸裂,我们就会买单。

拿目前这个生图效果来看,把它叫 nano banana 2 是完全没有问题。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


todesk 简直是我用过的软件中最恶心,最垃圾的没有之一

By: hosty
8 November 2025 at 21:20
hosty:

最开始用向日葵嫌弃样式老气,看上了 todesk ,简洁快速,用了 2 年多,一直用免费版,虽然没有为它付过费,但是最基本的远程控制软件竟然会有每月 120 分钟远程控制时长限制?简直匪夷所思,我宣布,todesk 是史上最垃圾吃相最难看的远程控制软件,建议想免费使用 todesk 用在生产环境或者自己频繁使用的情况下直接不要考虑,现在我生产环境上上了好几个 todesk ,不充钱,不让远程,真是太恶心了,我可以接受不充钱画质垃圾,但是不能接受不让链接,我连接不上,根本没法重新安向日葵啊!!!!强制让用户购买 vip ,我可以接受提供的 vip 服务打动了我,我自然会去购买,这种强制购买,我只会删除并尽量让我的同事朋友弃用 todesk !a55c6c1a-3370-46c0-876e-0c2d572db29e.png

开源新王!首次干翻 GPT-5,实测 Kimi K2 Thinking,中国 AI 杀疯了

By: 张子豪
7 November 2025 at 15:42

迄今为止最大最好的开源模型,总参数达 1 万亿,屠榜多个基准测试,Kimi K2 Thinking 来了。

▲ Kimi K2 Thinking 在 TAU 榜单(智能体工具调用能力测试)上排名第一,超过 OpenAI 和 Anthropic 的旗舰模型

一登场就是斩获多个测试榜单的第一名,Kimi 也不玩开源只和开源比那一套,而是直接把 GPT-5、Claude 4.5 Sonnet 这样的闭源模型放一起,非常自信。

▲ 智谱、MiniMax 自然语言处理部门负责人、以及 HuggingFace 联合创始人纷纷在评论区留言祝贺

除了在工具使用的榜单上拿第一,人类最后考试(HLE)、BrowseComp、还有其他基准测试,Kimi K2 Thinking 基本上都占据了先进模型的前排位置。

▲ 在跨学科专家级问题的 HLE 榜单、以及自主搜索的三个榜单上,排名第一;编程能力的三个榜单,得分也接近最好的 Claude 或 GPT 模型

无论是对智能体能力要求极高的编程任务、还是通用的推理写作、深度搜索等方面,Kimi K2 Thinking 的性能表现可以说是,目前最接近封闭模型的开源模型

延续了 7 月份,发布 K2 时,将其定位为自主智能路线图的一部分,Kimi K2 Thinking 也是主打 Agentic Intelligence(智能体智能)。它是一个推理的混合专家(MoE)模型,总参数量 1T,激活参数 32B,上下文长度 256K。

K2 Thinking 能在智能体工具调用中交错思考,同时在保持任务目标的同时,持续进行 200 到 300 次顺序工具调用。尽管工具调用在类似的闭源模型上,已经成为某种程度上的标准,但 K2 Thinking 可能是第一个,具有如此多工具调用能力的开源模型。

对比 K2 0905,K2 Thinking 在具体的任务上的提升,我们总结了 Kimi 的技术博客,有这些亮点。

  • 解决需要百步推理的复杂难题:它能将一个庞大的目标分解为数百个子任务,然后像一个项目经理一样逐一执行。官方举例称,它曾通过 23 个交错的推理和工具调用,成功解决了一个博士级的数学难题。
  • 更准确的找到详细的信息:通过执行动态的思考 → 搜索 → 浏览器使用 → 思考 → 代码循环,K2 Thinkging 在面对模糊或冷门的搜索需求,能自己上网反复搜索、浏览网页、验证证据,直到找到精准答案。
  • 直接把想法变成可用的产品:K2 Thinking 特别擅长前端代码(如 HTML、React),和其他 Vibe Coding 产品一样,能直接把我们的想法写成一个功能完善、响应迅速的网页或软件产品。
  • 写出更有人味的文章:逻辑严谨的专业长文,想象力丰富的创意故事,甚至是需要同理心的情感建议,K2 Thinking 在聊天问答这些通用能力上,能做到更扎实、更细腻的推理写作。

目前,Kimi K2 Thinking 已经在 Kimi 官网的聊天模式上线。

但需要注意的是,Kimi 解释说为了保证用户能获得快速、轻量级的体验,当前的网页聊天版本有选择性地减少了部分工具的使用和调用次数。因此,直接在 kimi.com 上聊天,可能暂时无法完全复现上述基准测试中的极限分数。

▲测试中提醒「高峰算力不足,请耐心等待」

此外,能充分发挥 Kimi K2 Thinking 能力的完整智能体模式(Full Agentic Mode)将很快更新。开发者也可以通过 Kimi k2 thinking API 来体验。

我们也快速上手,实测了几个常见的项目,一起来看看实际的体验如何。

首先是编程任务,我们先让他做了一个技能五子棋的小游戏,要求是在普通的五子棋规则上,玩家可以使用技能。

速度很快,出乎我的意料,一两分钟的时间,它就实现了全部的代码,并且真的可以使用这些技能。

然后是骑自行车的鹈鹕,这个经典的测试大模型编程能力的项目,检验它的 SVG 代码生成。

虽然 K2 Thinking 写着推理模型,但是它的推理速度非常快,这段动态的 SVG 代码生成也只花了 1 分钟不到。虽然这个鹈鹕好像有点不太对劲。

开启长思考,即 K2 Thinking 的同时,能启用网络搜索,当我们要它完成一个天气卡片时,能看到 Kimi 会一边自动检索网络上的公开资料,一边完成代码的实现。

▲确实能调用浏览器的获取位置接口,但是在最后 Kimi 也提到,需要输入对应的地图 API 和 天气信息 API 等数据

现在已经是全民 vibe coding 的时代了,普通用户还是程序员,都能从 K2 Thinking 的编程能力里,更快速地实现自己的想法。

在智能体搜索这个任务上,我们问了他一些专业领域的问题,测试它如何分解复杂问题、主动搜索、并整合难找的网络信息的能力。

可以看到,Kimi 搜索的信息是比较全面的,当我规定了 2025 年以后,它网页搜索的资料,也大多集中在最近这段时间以来的报道。

最后它给出的报告,也详细的提到了三种 2025 的算法,以及主要的公司等内容。

其实工具调用,应该是 Kimi K2 Thinking 非常重要的能力,但是在我们的体验中,发现大多数时候,他只是调用网络搜索工具,而没有看到 200 多个工具流。

我们在输入一个物流逻辑问题时,很明显是可以调用 Python 等代码解释器来辅助计算,但是 Kimi 只是和其他深度思考的模型一样,一步步地推理。

关于 K2 Thinking 的写作能力,我们找了一个表面上看起来是两难的问题给它。

这个回答有够人性化吗。很明显不是空洞的套话,还提供了周到且具体的思考,也帮助我们平衡了原则和现实两个方面,还有可操作的后续步骤。

在 AI 模型军备竞赛的今天,单纯的问答,很明显已经无法满足,我们复杂的专业需求。像人类专家一样,通过一步一步的推理思考,主动使用各种工具,来解决极其复杂的难题,成了所有大模型的标配。

根据 Kimi 官方文档和技术分析的介绍,这次的思考能力突破关键在训练方式,即高效的量化技术(INT4 QAT),这也是一个值得关注的行业亮点。

K2 Thinking 在后训练阶段采用了量化感知训练 (QAT),让模型能以 INT4 精度本地运行,推理速度提升约 2 倍,同时保持最佳性能。

也就是说,它不是训练完再压缩,而是在训练过程中就贯穿低精度运算模型。这带来了两个巨大优势,一个是推理速度的提升,一个是长链条推理,不会因为量化而造成逻辑崩溃。

▲使用正确的量化技术,能节省 GPU 显存并加快推理速度

此外,它的所有基准测试成绩都是在 INT4 精度下报告的。说白了,这是一种「所见即所得」的性能,而不是实验室精心调制的数据,K2 Thinking 生来就能跑得动

我们的实测也能看到,Kimi K2 Thinking 确实不仅仅是一个营销噱头,工具调用、量化技术、以及超长规划,让它在智能体方向上,推理速度上,都有不错的表现。

虽然在某些方面,例如稳定的结果输出、以及对提示词更宽松的要求,还是比不上闭源模型。但是开源能做到这样,我的心里只有两个字,佩服。

过去两年,国产模型的竞争大概是从 Qwen、百度这些模型,对 ChatGPT 的疯狂追赶;到横空出世的 DeepSeek 把推理成本降低的同时,还做到了和 o3 等推理模型,相媲美的表现。

让国产 AI 开始走上了,完全不同于国外闭源模型的路线。OpenAI 发布一个 GPT-5 预热了大半年,Anthropic 的 Claude 系列模型发布周期也在长达几个月。

而 Kimi 在今年七月发布了 K2,九月发布了 K2 Instruct,十一月就迎来了 K2 Thinking;更不用说还有智谱、MiniMax、以及前段时间模型七连发的 Qwen。就连还在期待中的 DeepSeek R2,也更新 V3.2、OCR 等广受好评的模型。

并且,这些模型全部开源。在海外社交媒体平台上,一年前大家可能只知道中国有 DeepSeek,而现在,Qwen 已经是 Hugging Face 上模型下载榜单的 Top 10,Kimi 和智谱(Z.ai)的 GLM 系列模型、以及 MiniMax 都成了大多数用户青睐的模型。

K2 Thinking 的发布,我想是一个新的转折点,就是当我们的开源模型,也能拿到和闭源模型一样的基准分数时,闭源模型还可以讲什么样的故事来营销自己呢。

Gemini 3 据说在今年年底前将发布,而 OpenAI 似乎也害怕再像当时的 nano banana 一样,抢走他的市场,计划推出 GPT-5.1。

军备竞赛还在继续,而国产开源的力量,开始让我们看到,一个好用的 AI,不是屠榜多少测试,是在具有真实用户需求的领域,能真正地提供某些东西,并且惠及所有人。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


大部分人不知道的 AI 抖音,居然是最「反抖音」的产品

By: 张子豪
4 November 2025 at 18:26

前段时间,有媒体爆料说 OpenAI 打算推出一个 AI 抖音,没想到隔天,这个「AI 抖音」Sora 就上线了。

和抖音一样的竖屏滚动、关注与推荐切换,几乎就是一个抖音复刻。唯一不同的是,Sora 里的每个视频,都是 AI 生成的。

当我们默认就把 Sora 叫做 AI 抖音时,有读者在我们的留言区评论,「其实已经有个 App 叫 AI 抖音了。

起初我以为,这是哪个小团队,在蹭抖音热度取的名字。没想到这个 AI 抖音,竟然是抖音官方出品的 App,并且已经推出有一段时间了。

它的下载量只有四千万,甚至不及抖音的一个零头。但也足够说明,相当一部分用户体验过它,只是被我们忽略了。

和 Sora 要做的 AI 抖音短视频产品不同,这个 AI 抖音主打的是「会思考的抖音。

根据下载页面的介绍,「会思考」的含义,是对比传统的关键词检索,AI 抖音会利用大模型的深度理解能力,帮我们找到更满意的搜索结果,和更全面的 AI 总结回答。

听起来已经完全脱离了短视频产品的功能和形态,不像那些极速版、火山版、抖音精选之类的产品,AI 抖音看起来不是用来「刷」的。

▲ 从 App 分类也能看到,极速版这些仍然属于娱乐类别,但是 AI 抖音在「工具」分类下

我下载了这个真正的 AI 抖音,想看看,当它不再让人上瘾时,还能让人留下来吗。

省流版 | 三句话看懂「AI 抖音」能做什么

1、AI 搜索是主要功能,直接生成详细的文字版总结,再给出相关的视频,能深度思考。

2、使用任务助手,能进行深度研究,通过抖音搜索和全网搜索,生成一份可交互的在线报告。

3、整理视频合辑,创建 AI 视频笔记本,AI 抖音会自动归纳总结合辑内视频,提供文字和图解报告。

给抖音搜索加了个 AI 总结

安装包 800 MB,比微信还大。第一眼看到这体积,我就有种不祥的预感,这不是个轻量级工具。

打开首页的那一刻,我才发现,尽管大小差不多,但这确实不是那个熟悉的抖音。首先是整体的布局变得非常简洁,底部那些 Tab 菜单全部取消,以一个输入框和 AI 抖音的 Logo 替代。

内容的展示,也从短视频应用常见的全屏滚动,改成了能展示更多内容的卡片式布局。顶部也不会切换到关注、推荐之类的视频流,而是右滑直接显示提问记录,左滑显示个人中心。

我翻了几页,点击左下角的 AI 图标会弹出一个「找点提问好灵感」的提示,指引我们在输入框里面,搜入搜索的关键词。

双击图标,会自动刷新当前页面,内容的推荐是跟随抖音账号,但是推荐机制也变了一小部分,它更愿意给我们图文,而不是视频。

抱着试一试的心态,我们随便问了 AI 抖音几个问题。

像是最近一些化妆品里检测出苏丹红,我们直接输入「苏丹红」,AI 抖音的做法是先给我们一段文字总结,像在用百度、或者 ChatGPT 之类的产品。

点击「深度解答」,它会像 DeepSeek 的深度思考一样,展示详细的思考过程。此外,它搜索的范围不只是抖音上的视频,而是全网的内容都会搜刮进来,大多数是主流的中文媒体,来源可靠。

这个输入框不仅仅是一个搜索的输入,更像是一个对话框。在当前搜索里,我们可以继续「接着问」,AI 抖音会自动地把我们之前的问题,整合起来,而不需要再次重复。

我们还问了它一些,平时用抖音可能会搜索的话题,像是吃喝玩乐、知识科普等等。

相比较于在搜索结果里,一个一个视频点击播放,靠用户自己去提取视频内的有用信息,AI 抖音则是利用大模型的能力,提升了我们找视频的效率。

此外,如果是抖音,我们想要搜索 A,很大程度会被抖音的推荐机制,引导到 C,然后根本忘记了最先要搜索的东西,开始刷一些不相干的视频。

AI 抖音在一定程度上,也解决了类似的「分心」问题,用经过「思考」的、准确的文字内容,把我们留在当前问题,然后再通过一些视频、图文来辅助理解。

除了在回答的最后,使用深度解答的功能。底部的输入框,也能直接启用深度思考,以及切换到任务助手的模式。

抖音版 Agent,能做深度研究

一个总结性的回答,是目前很多社交媒体软件都有的功能。最常用的应该是微博,AI 智搜会总结各方的回应,并收集对应的素材内容。很多时候,我吃瓜都变成了直接看微博的 AI 回答。

小红书也有类似的功能,尤其是对于攻略、流程、以及各种问答,小红书能自动整理相关笔记,然后生成一份文字回答。

AI 抖音也在尝试这样的引入,但又不止于此。

我体验了深度思考旁边的「任务助手」,发现这就是抖音最好的深度研究工具。

当我输入「十五全运会有哪些特别值得一看的比赛」,它会先生成一份大纲,告诉我们它会如何研究这个任务。我们可以直接对话,进行任务的修改。

点击开始任务之后,AI 抖音的任务助手,就会自动使用抖音搜索和全网搜索两个工具,来一步步完成之间设置的任务。

最后的结果是一份可以交互的报告。报告的所有部分,都可以点击查看更多信息,或者跳转到对应的抖音视频。

我们还尝试了一个更贴近普通用户需求的任务,比如输入「帮我规划一个三天两夜的西安旅游攻略」。

任务助手同样先生成了一份大纲,包含景点、美食、交通和住宿几个方面。我们继续和它对话,让它「增加一个必吃的老字号小吃环节」。

点击开始后,能看到抖音搜索,找到了很多相关的 Vlog 探店,而全网搜索则补充景点的官方开放时间和门票信息。

这份攻略报告同样非常实用,点击「兵马俑」,能看到相关的视频介绍;点击泡馍,又能跳转到高赞的食评视频。

比起我们自己在 App 里一个一个搜、最后被不相关的视频带跑偏,效率提高非常明显。

视频知识库?AI 笔记

除了深度思考的问题、深度研究,AI 抖音的「会思考」还体现在它的视频分类,有「观看历史」、「我的收藏」、和「我的点赞」,还有一个「AI 笔记本」。

和收藏、点赞并列在一起,AI 笔记本也是一个视频合辑,不过这个合辑有了 AI 的帮忙。

▲除了 AI 笔记本,侧滑还有显示能「发布新作品」,其中有各种模板、直播等等。这也是为什么 AI 抖音的应用大小,能和正式版抖音差不多的原因。

我们从历史浏览里面找到一些视频,添加到笔记,AI 会自动分析我们选择的视频,然后生成一份文字报告和图片报告。

或者只添加一个视频,然后让 AI 抖音帮我们总结这个视频,像是一些长达一小时的演讲视频。

▲在右下角可切换文字或者图解

AI 笔记本的作用,其实就是一个能思考的收藏夹,把不同视频里的观点,整合成一个更完整的答案。

目前,AI 抖音还是一个在快速迭代的产品,我们在 10 月中旬体验这款产品的时候,里面还有一个「查看图解版回答」的选项,它能够将 AI 抖音的回答,转成信息更明显、色彩更多元、更便于阅读的卡片式图片。

▲之前对 AI 抖音提问「Apple 最近的新品」,生成的图解版回答

目前这项功能,在最新版本的 AI 抖音已经下线了;连同每个回答最后面的「发抖音」按钮,也一同被迭代了。

之前的「发抖音」功能,是 AI 抖音会将 AI 生成的内容,自动转成抖音长文,视频底部点击查看原文,能跳转到生成回答的链接。

▲底部的快速反馈,只提供了点踩的按钮;长按回答才能选择点赞喜欢。

抖音大概是真的想把这个产品,做成一个工具属性更强,能够真正帮到用户提升搜索体验。就连每个回答的最后的反馈,也只有一个点「踩」,而没有点赞。

在正式版本的抖音 App 里,已经支持 AI 搜索,深度思考等,AI 笔记则还没上线。

▲ 在抖音的搜索界面,右下角有一个语音搜索和 AI 抖音的选项,点击 AI 抖音,能体验到 App 内的部分功能

AI 抖音更像是抖音对未来的演练场。就像微博、小红书、微信都在做的那样;AI,正在悄悄改变我们使用互联网的方式。

前几天刷到一个很有意思的视频,内容是「当人们事事都依靠 ChatGPT 时」,每说一句话都要先问 ChatGPT。

▲ instagram@theharrisalterman,原文链接查看视频

虽然视频是在讽刺 AI 的出现,让大家变得更少思考,更不会说话。但视频也精准地捕捉到了一个现实,或者说共鸣,就是我们开始习惯,让 AI 成为任何信息处理的第一站,无论是搜索、总结还是创作。

对于抖音这个庞大的视频内容帝国来说,它能让大多数人上瘾的本质,是它不需要我们主动去找,要刷什么视频;而是在它的首页推荐里,它给我们什么,我们就刷什么,并且不设置退出机制。

但「找」视频比「刷」视频难多了,AI 抖音正是想帮我们把「找」视频,也变得同样简单和高效。

如果说抖音的算法逻辑是「无限满足」,让你在信息流里躺平就能获得快乐,那 AI 抖音的逻辑,几乎是反着来的:它在「制造门槛」

这就是 AI 抖音最有意思的地方,它在主动稀释自己最核心的资产——用户的沉浸时间。这是一种颇具勇气的「自我背叛」。

当所有 App 都在追求极致的丝滑和上瘾时,抖音内部却孵化了一个鼓励主动探索、甚至有点「反效率」的产品。它的使命并不是取代抖音或对抗算法,而是给算法一些多样性。

当 AI 时代迎来内容爆炸,「信息降噪」更成为一种刚需。

内容消费的下一个版本,不只是让你刷得更多,而是让你看得更明白。这些变化已经悄悄在我们熟悉的应用产品里发生。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Mac 上一些精致实用的软件推荐

By: James Guo
8 November 2018 at 13:43

正如 Apple 在 10 月发布会时所说,在中国有 76% 的购买者是新接触 Mac 的(来源: October Event 2018 - YouTube)。想必有不少 Mac 使用者不知道有什么好的软件,也不清楚需要安装什么软件。Mac 上所需要使用的工具链与 Windows 有所差别。本文将介绍一些(我经常使用的)精致实用的软件,着重说说 Mac 上专有的软件,希望能够对新老用户都有所帮助。

对于新用户而言,要清楚获得 Mac 软件的两种正确方式:从 App Store 下载/通过互联网下载。从 App Store 下载软件最为安全,因为所有上架 App Store 的软件均通过了苹果的审核;从互联网下载的软件要小心一些,因为它可能是恶意软件,详情请看本文的 “Mac 系统安全” 一节。

系统工具及维护、管理 App 推荐

Setapp 软件订阅服务

US$10/月两台 Mac 或 $15/月两台 Mac + 五个子账户。合买家庭版约每年 CN¥200。 Setapp 相当于另一个 Mac App Store。不同的是,Setapp 是订阅制的,相比买断软件,你只需要每月花固定的钱订阅 Setapp,然后就能够免费地下载与 Setapp 合作的所有软件,并享受后续更新,而这些软件原本都是需要付费买断(或者需要额外订阅/内购)的。 Setapp 的价格是 US$10/月,可以在两台 Mac 上使用,额外的 Mac 每台 $5/月。而最近新出的家庭版仅需要 $15/月,可以额外添加五个子账户(子账户仅限在一台 Mac 上使用)。所以如果组团合买家庭版的话会非常实惠,价格大约在每年 CN¥200 左右。 本文介绍的很多软件都是包含在 Setapp 中的,如果已经订阅了 Setapp 就无需额外购买,这些软件已经标注。

BetterTouchTool

付费软件,可以通过 Setapp 下载 该软件可以自定义 Mac 触摸板和鼠标手势,充分发挥多点触控的功能。此外,通过使用其内置的 Window snapping 功能,可以实现类似 Windows 的 “移动窗口到屏幕边缘迅速调整窗口大小的功能”。我现在用 BetterTouchTool 主要就是在用其 Window snapping 功能。

程序主界面

Adblock Plus

免费软件 内容拦截器。通过使用此浏览器插件,可以屏蔽掉网页上烦人的广告,还给你清净的浏览体验。同时还能够达到省电的效果。

The Unarchiver

免费软件 解压缩软件。可以解压缩 Mac 系统不支持的 RAR 等压缩格式。

Bartender

付费软件,可以通过 Setapp 下载 可以选择性的隐藏 Mac 菜单栏图标。当安装第三方软件越来越多的时候,菜单栏会越来越满。通过使用 Bartender,可以隐藏/折叠显示一些菜单栏图标。同时还可以配置使得在菜单图标有更新的时候再自动显示。

Bartender 屏幕截图

Image2icon

免费 + 内购软件,可以通过 Setapp 下载并解锁内购 可以通过图片或文字自动生成多种样式的图标,并应用到文件/文件夹/磁盘上。可以帮助你生成个性化的、漂亮的文件/文件夹/磁盘图标。

Image2icon 屏幕截图

Carbon Copy Cloner

付费软件,$39.99 买断 Carbon Copy Cloner(CCC)是一个功能齐全的备份管理软件。相比 Mac 自带的 Time Machine(时间机器),它可以备份外部磁盘、选择目录备份,还可以备份系统到 APFS 格式的硬盘,并创建可启动的外部磁盘。这个软件全面支持了 APFS 下的快照(Snapshot)功能,并有可视化界面去管理这些快照(支持挂载、恢复、删除等操作)。 个人建议:对于 Time Machine 能够适用的场景,优先使用 Time Machine,否则使用 CCC。

Carbon Copy Cloner 屏幕截图

CleanMyMac X

付费软件,可以通过 Setapp 下载 CleanMyMac 可以帮助用户清理系统垃圾文件、卸载软件、管理开机启动项、实现基本的系统监控。

可以在主界面一键运行扫描还可以查看详细的扫描结果

个人建议:除非系统空间不足,否则不要频繁清理系统垃圾,尤其是用户缓存文件和系统缓存文件,清理他们可能反而导致程序运行变慢。

菜单栏

Gemini

付费软件,可以通过 Setapp 下载 它可以查找磁盘中的重复项目或相似项目,并可选择删除这些文件,为你的 Mac 腾出更多的磁盘空间。

Gemini 屏幕截图

Disk Drill

免费 + 内购软件,可以通过 Setapp 下载并解锁内购 Mac 上的磁盘恢复软件。如果误删除了重要文件,并且没有任何备份,可以尝试使用此软件恢复文件。强烈建议做好文件备份,这样你就不需要使用这类软件了。然而关键情况下使用这个软件救急还是不错的。

Disk Drill 屏幕截图

写作软件——Ulysses

订阅软件,可以通过 Setapp 解锁订阅 除了系统自带的备忘录、Pages,以及微软的 Word,这里额外推荐一个 Ulysses,基于 Markdown 的纯文本编辑器。特点就是简洁易用。

Ulysses 屏幕截图

iOS 管理 App 推荐——iMazing

付费软件,可以通过 Setapp 下载 可以代替 iTunes 完成备份/恢复备份/重新安装系统/升级系统等操作,并有着比 iTunes 更多的功能。比如说它可以可以访问备份中的具体数据,包括每个程序的软件存档等。还可以管理应用程序,通过 .ipa 文件安装上一版本的软件或者已经下架的软件,管理手机铃声等。 当然,在 Mac 上管理 iOS App 更推荐使用 Apple Configurator 2

iMazing 屏幕截图

密码管理 App 推荐——1Password

付费软件,可订阅或买断 相比浏览器(如 Safari、Chrome)自带的密码管理功能,1Password 可以支持更多的浏览器,并且是跨平台的。它能够选择密码生成的公式,通过 Watchtower(瞭望塔)能够自动检查不安全的密码、已泄漏的密码等,同时还能够保存更多类型的资料,如信用卡、身份证、驾照、数据库、无线路由器资料等。 通过使用 1Password,你可以养成为每个网站设置不同的、安全的随机密码的习惯,保障互联网账户的安全。

1Password 屏幕截图

开发 App 推荐

除了 Apple 的 Xcode,这里罗列一些开发的工具供大家参考:

  • TextMate免费,Mac 上轻量级编辑器,运行速度快,支持语言多。
  • JetBrains 旗下软件付费,包含了 C/C++、Java、PHP、JavaScript、Go 等开发所需要的软件。学生可以免费获得授权。
  • Surge付费,代理上网、HTTP 抓包利器。
  • Paw付费,可以通过 Setapp 下载,API 管理工具,无论是简单的发送 HTTP 请求,还是测试 HTTP/REST 服务,它都能应对。
  • Sourcetree免费,Mac 或 PC 上的可视化 Git 管理工具。
  • VMware Fusion付费,Mac 上的虚拟机。
  • CloudMounter付费,可以通过 Setapp 下载,此软件将 S3、Dropbox、Google Drive、FTP、SFTP(VPS)等服务以网络磁盘的格式挂在到 Finder 中。
  • Karabiner免费,Mac 上用于调整键盘键位的软件。

播放器 App 推荐——IINA

免费软件 界面简洁漂亮,支持很多格式的视频播放,并且适配 Touch Bar。

IINA 屏幕截图

RSS 阅读器推荐——News Explorer

付费软件,可以通过 Setapp 下载 跨平台的 RSS 阅读器(iOS 端需要单独购买),可以通过 iCloud 同步。

News Explorer 屏幕截图

财务管理 App 推荐——MoneyWiz

订阅软件,可以通过 Setapp 解锁订阅 Mac 上的记账软件,功能齐全,可以添加各种类型的账户,并且可以生成多种格式的报表。

MoneyWiz 屏幕截图

专业影像制作 App 推荐

Final Cut ProCompressorMotion

付费软件,有学生优惠 苹果推出的专业视频制作软件,相当于 iMovie 的升级版,可以进行更多的自定义设置,拥有摄影机录制的 RAW 视频的处理能力,可以制作 360 度的视频等。相比 Adobe Premiere Pro CC,它会更加易用一些,价格也相对便宜。

Final Cut Pro 使用 ProRes RAW 调整视频

Adobe 图像处理软件:Lightroom Classic CCLightroom CCPhotoshop CC

订阅软件港区 Photography Plan,包含最新版的 Lightroom Classic CC、Lightroom CC、Photoshop CC 以及 20GB 的云端存储空间。 苹果曾开发的图像处理软件,iPhoto 已经整合到了 Photos(图片)软件中,专业软件 Aperture 也停止了维护。而 Photos 软件虽然很好用,足以处理绝大多数的照片,但对于 RAW 格式的照片的处理能力依然很弱。而且其云同步是同步库中的所有照片和视频,这对于无损图片而言是不不经济的。 Lightroom 系列软件和 Photos、iPhoto、Aperture 功能类似,也是用于管理照片的。目前的两个版本:Classic CC,只有桌面端,适用于将所有图片的原始文件存储在本地;CC,有桌面端、移动端、Web 端,适用于将所有图片的原始文件存在云端。 个人倾向于在桌面端使用 Classic CC,移动端使用 CC。因为经常要处理到的 RAW 格式或者是 TIFF 格式的无损图片都很大,将原图上传到云端并不经济。而且我处理图像主要在桌面端进行,CC 的桌面端感觉是为了迁就其他平台而在桌面端使用并不是那么方便。并且,Classic CC 也能够将压缩后的预览传输到云端,并也可以实现在其他平台上使用 CC 同步编辑。对于同步预览,Photography Plan 20GB 的空间已经足够了。 注意:中国区的 Creative Cloud 功能有所阉割,且没有优惠的套餐。建议购买港区(最便宜)。

Lightroom Classic CC、Lightroom CC、Photoshop CC 软件图标

附录:Mac 系统安全

和 Windows 系统一样,在 Mac 上从互联网上安装软件也需要多注意软件来源。这里强烈推荐在 Mac 设置中的 “安全性与隐私” 中选择 “App Store 和被任何的开发者”(默认),而非 “任何来源”。如果允许了任何来源,你的电脑将可以运行被篡改的软件,未经认证的软件以及恶意软件。

Mac 系统设置截图

绝大多数的 Mac 软件均可以在这个安全级别上运行,上述推荐的所有软件均不需要启用 “任何来源”,除非你下载到的不是原始软件,而是被篡改过的。 如果你的 Mac 里这里的选项是 “任何来源”,请在终端中运行以下指令重新启用这个安全设定。

1
sudo spctl --master-enable

同时,也不建议关闭 SIP 功能,SIP 功能有助于保障 Mac 系统的完整性。查看 SIP 是否运行可以通过以下指令:

1
csrutil status

如果 SIP 已经启用(默认),会得到 System Integrity Protection status: enabled. 结果。

在自己服务器上安装 GitLab,代替 GitHub!

By: James Guo
25 June 2016 at 21:12

我的服务器上部署的代码、配置文件等内容大多是使用 Git 进行版本控制。为了能够使用、配置起来更方便,通常使用一整套系统去管理。很显然,在一些代码和配置文件里会有一些机密的内容,如一些密钥什么的,所以必须不能公开。GitHub.com 虽然提供了 Private 存放处功能,但是由于此功能是付费的,而且对于 Organization 的 Plan 还是极贵,并不十分划算;就算能有免费的 Private 存放处,把自己的很多重要的密钥放在第三方服务器上还是很不安全,所以能够 Host 在自己的主机上的,并且能够替代 GitHub.com 的软件/服务就是不错的选择。 本文将讲一下我在自己服务器上安装 GitLab 遇到的坑,进阶使用,包括使用 .gitlab-ci.yml 文件实现自动 Build,实时同步镜像到 GitHub。

能够 Host 在自己的服务器上的软件/服务其实有很多,比如 GitHub Enterprise,Bitbucket Server。不过再此还是推荐完全开源、免费、由社区维护的 GitLab Community Edition,没有任何限制,只是相比 Enterprise Edition 少了些本来也用不着的功能。

安装及遇到的坑

具体安装方法见文档,目前官方推荐的系统环境是 Ubuntu 16.04 LTS,安装起来非常简便,整个 Web 环境都会配置好。安装后的更多配置请参见文档。如果你的主机上跑了不只一个 Web 程序,那就需要对现有的 Web 软件做修改,需要参见官方的 Nginx 的配置文档。我的代码中使用了 sub_filter 来实现替换默认的标题,实现更好的 SEO,更加品牌化。 然后为了能达到更好的使用效果,还应该配置 SMTP 发件服务器,我使用的是 AWS SES;然后还需要一个支持 IMAP 的收件服务器实现 Reply by email,我使用的是 Gmail,收邮件的限制总比发邮件的限制少吧~这些的具体设置方法官方文档里都有。 安装后默认是允许注册的,如果你不想让外人注册,你需要直接去 Web 后台禁用。如果你想要开放注册,那么最好先想好新注册用户能干什么,比如和我一样:只允许新用户创建 Issues 和 Snippets,那就在 Web 后台将 Default projects limit 设置为 0,然后编辑后台的配置文件,禁止新用户创建 Group。同时建议在 Web 后台启用 reCAPTCHA 和 Akismet,防止恶意注册和恶意发 Issues。既然允许注册,那么也建议使用 OmniAuth 来支持第三方 OAuth 的方式登陆。

GitLab Runner

GitLab Runner 十分强大,但是并不是内置的,它可以极其方便的实现自动部署等非常有用的功能。安装配置好 Runner 后,在项目根目录下添加一个名为 .gitlab-ci.yml 的文件,以 master 分支为例,为了实现每次 commit 到 master 都将文件部署到 /var/gitlab/myapp ,那么文件内容应该是这样的:

1
2
3
4
5
6
7
pages:
stage: deploy
script:
- mkdir -p /var/gitlab/myapp
- git --work-tree=/var/gitlab/myapp checkout -f
only:
- master

注意,你需要先创建 /var/gitlab 文件夹,并设置这个文件夹的用户组为 gitlab-runner:gitlab-runner

1
$ sudo chown -R gitlab-runner:gitlab-runner /var/gitlab

.gitlab-ci.yml 核心的部分就是 script: ,这里的脚本都是由用户 gitlab-runner 执行的,你可以根据需要修改,后文中也给了几种范例。 然后 commit,去设置页面里里激活这个项目的 Runner。建议在设置里设置 Builds 为 git clone 而不是 git fetch ,因为后者常常出现奇奇怪怪的问题,前者的速度瓶颈主要在于网络传输。

部署 Runner 在同一个主机上,Or not?

官方的文档里强烈不推荐把 Runner 部署在同一个主机上,其实这种说法并不正确。官方不推荐这样做是因为一些 build 会花费很长时间,占用很多的 CPU 和内存资源。但是如果你执行的 build 脚本并不会这样,那么安装在同一个主机上也未尝不可。

常见的部署范例

这几种部署是我比较常用的,大家可以当作范例,具体根据自己的需要弄各种不同的部署。 以下几种 Web 的部署方式所消耗的系统资源都不多,而且由于使用了 nice ,并不会阻塞其他任务,可以部署在同一台主机上。

Jekyll

修改之前那个 .gitlab-ci.yml 文件的 git checkout 一行,替换为:

1
jekyll build --incremental -d /var/gitlab/myapp

检查 PHP 的编译错误

也是添加以下代码到 .gitlab-ci.yml 即可自动检查所有 PHP 文件的编译错误,编译通过的文件不会显示,只会显示编译错误的:

1
if find . -type f -name "*.php" -exec nice php -l {} \;  grep -v "No syntax errors"; then false; else echo "No syntax errors"; fi

自动与 GitHub 同步

以下过程需要 root 权限登陆到主机,或者在每行命令前添加 sudo。 首先,需要先给 gitlab-runner 用户一个单独的 SSH Key:

1
$ ssh-keygen -f /home/gitlab-runner/.ssh/id_rsa

然后,创建 /home/gitlab-runner/.ssh/known_hosts ,内容是:

1
github.com ssh-rsa AAAAB3NzaC1yc2EAAAABIwAAAQEAq2A7hRGmdnm9tUDbO9IDSwBK6TbQa+PXYPCPy6rbTrTtw7PHkccKrpp0yVhp5HdEIcKr6pLlVDBfOLX9QUsyCOV0wzfjIJNlGEYsdlLJizHhbn2mUjvSAHQqZETYP81eFzLQNnPHt4EVVUh7VfDESU84KezmD5QlWpXLmvU31/yMf+Se8xhHTvKSCZIFImWwoG6mbUoWf9nzpIoaSjB+weqqUUmpaaasXVal72J+UX2B+2RPW3RcT0eOzQgqlJL3RKrTJvdsjE3JEAvGq3lGHSZXy28G3skua2SmVi/w4yCE6gbODqnTWlg7+wC604ydGXA8VJiS5ap43JXiUFFAaQ==

之后,获取 /home/gitlab-runner/.ssh/id_rsa.pub 文件内容,在 GitHub 上添加这个 SSH Key。 由于是使用 root 帐号,弄完了之后不要忘了修改用户组:

1
$ sudo chown -R gitlab-runner:gitlab-runner /home/gitlab-runner/.ssh

然后,同样是通过 .gitlab-ci.yml 实现自动同步:

1
git push --force --mirror git@github.com:[Organization]/[Project].git

修改 [Organization][Project] 为你自己的名称即可。

谈谈安装在自己服务器上的 GitLab 的好处

文件都存储在自己的服务器里,安全性比较有保障,自己有最高权限,不会遇到项目被删的情况。部署时延迟极低,可靠性也高,不会遇到自己服务器没问题但是第三方服务宕机导致无法部署的窘况。 可以根据情况部署到离自己最近的服务器,或者是内部服务器,像 GitHub 的服务器就在美国东岸,亚洲这边连接并不快,国内也不稳定。 最关键的是,如果你本来就有个 VPS 什么的,也有很大的空闲,那么相当于你可以免费获得私有存放处,但是要注意性能需求,没有足够的空闲还是不要启用。 由于能够配置好实时同步镜像到 GitHub,GitLab 还有那么多 GitHub 没有的功能,其实已经可以完全使用 GitLab 作为主要的版本控制工具,GitHub 只是存一份镜像备用。

MacID 让 iPhone 指纹解锁苹果电脑

By: James Guo
13 July 2015 at 22:10

大多数人不在电脑上设置密码,是因为设置了密码后解锁电脑会变的很麻烦。但是通过使用 MacID,可以让你轻松的解锁你的电脑,这就是这个软件所能帮助你完成的主要目的。前往 App Store 获取

当你激活 Mac 的显示器后,你的手机会收到一条通知,向右滑动点击 “解锁” 然后按下指纹,你的电脑就已经被无线解锁了。除此之外,你还可以在手机上无线让电脑锁定,或者是播放歌曲等等,十分方便。 另外 MacID 的电脑客户端甚至可以通过声音检测你是否离开,然后自动锁定。如果你的电脑有 Muti-Touch 触控板的话,你还可以设定特定的手势来解锁 Mac,为了安全性,你可以设定仅当手机连接电脑后才可以使用手势解锁。 而且 MacID 不仅可以让你方便的解锁电脑,而且可以在手机和电脑上双向互相传送剪贴板的内容。对于经常同时使用两个设备的人来说,这个功能十分贴心。

支持今日视图插件

MacID 还支持今日视图中的插件,更是可以随时随地解锁 Mac,方便至极。

支持多个 Mac

一个手机可以无线控制很多台 Mac 解锁等功能,列表简洁美观。

支持 Apple Watch

你还可以使用 Apple Watch 无线控制 Mac 哦。

ProCamera – iPhone 照相软件推荐

By: James Guo
22 May 2015 at 17:03

这是一个很值得使用的软件,包含强大的手动自定义功能、分享功能以及惊人的 HDR 合成能力。前往 App Store 获取

独创的 HDR

这个软件内置自己的 HDR,完全不同于系统的 HDR 功能,它的 HDR 堪比在 PhotoShop 上合成后的效果,十分出彩。并且有多种 HDR 格式可供选择,而且可以进行手动 HDR,自己调整 HDR 的亮度,满足所有需求。(HDR 功能需要单独购买)

强大的自定义设置

它支持手动对焦、手动曝光。不仅如此,它还可以调整快门速度、ISO 感光度、白平衡等等,均能实时显示,满足绝大多数照片需要。它的快门速度最高可以设置到 0.5 秒,可以轻松应对夜景(通常,系统的相机是自动曝光,然而它不会照出 0.5 秒长时间快门速度,所以噪点通常很多)。 除此之外,它还可以调整图像格式,它支持保存 JPEG 格式 (可调质量)、无压缩 TIFF 和无损压缩的 TIFF,得到无损的照片。 它可以实时手动调节画面的色温,达到最完美的白平衡。

照相界面的设置设置截图(节选)手动对焦

夜景模式

通常情况下,系统的相机从来不提供长曝光,因为长曝光会因为手抖导致画面模糊。然而 ProCamera 可以允许 0.5~1 秒的曝光时间,如果有正确的持握方式,画面并不会模糊。长时间曝光可以让画面更明亮,或者同样亮度下有更少的噪点,大大提升夜景的画质。

夜景菜单

后期处理

此软件有丰富的后期处理的功能,甚至可以调节曝光曲线等参数,操作十分简便。

曝光曲线

除此之外,它还有众多滤镜,甚至还能调节每一种滤镜的参数,十分强大。

对比效果

定时器

这个软件有强大的定时器功能,非常适合高级的自拍或者间隔拍摄。通过后期制作,能够达到 800 万像素的间隔拍摄视频。此功能类似单反上的定时器,十分有用。你甚至不需要为了定时器去购买别的软件了。

定时器设置截图

支持 Apple Watch

购买此软件后,可以在 Apple Watch 上遥控 ProCamera 进行照相,同时还可以浏览已经拍摄的照片,充分利用 Apple Watch。如你已经拥有一个 Apple Watch,并正在寻找一个可以用 Apple Watch 遥控照相的第三方软件,那么这款软件正是你要找的。

与 Apple Watch 配合使用

总结

虽说这个软件功能十分繁多,但是在使用时你丝毫不会觉得这个软件过于“沉重”,它的界面是十分简洁友好的,同时适合专业与非专业用户使用。这一款软件就可以完成全部的图片创作了。

小提示

我这里的截图可能提供的是英文版截图,但实际上这款软件是完全支持中文的,可放心购买。

手机记账十周年了

By: Steven
24 November 2023 at 12:20

不知不觉用手机记账已经十年了。

在这之前,是用本子手写记了四年。契机是毕业旅行和游记,为了把沿途所有花销都记下来,整理成路书放在博客里。从那之后,就沿着原本就有的写作习惯开始记账。

所以哪有什么坚持呢?就是养成习惯了。

为啥唱衰中国的企业软件的未来

By: MacTalk
8 July 2022 at 14:02

最近朋友圈看到几篇谈中国 To B 软件产业的,比如中国软件公司为啥做不出产品啊,投资人前几年投了很多 To B 赛道的技术创业血本无归啊,等等,好像中国软件企业这么多年一直活在上个世纪一样。

我们的知识星球里也有用户提问:

之前看直播, 有几个大佬老师 都提到 Salesforce 是一家很牛的公司, 甚至能和Google 比肩, 但是他们都没说到底是怎么个牛法。查了两个半天, 感觉就是个有些成绩的普通软件公司啊。请教池老师, 这家公司到底牛在哪?

我在 To B 软件行业工作了近 10 年,借着这个问题,聊聊我对 To B 软件的看法。


对于星球的用户,查了两个半天发现 Salesforce 是个有些成绩的普通软件公司。从我的角度看,你可能没有发掘到有效信息,另外对「有些成绩」,我们的理解可能不太一样吧。

Salesforce 成立于 1999 年,是全球按需 CRM 解决方案的领导者。CRM 鼻祖,SaaS CRM 鼻祖,目前市值 1700 亿美元左右,2021 年营收 212.52 亿美元,合计 1300 多亿人民币,这个成绩,无论是和中国顶级互联网公司比,还是和 Google 比,都不能算是「有些成绩的普通软件公司」了。

Salesforce 无论是业务、生态、技术、行业领先性,在国外都是非常知名的软件公司,比肩 Google 倒不至于,但和 Oracle、SAP 差不多是一个量级的企业。

为什么国内的同学会对美国的 To B 的大型软件公司无感呢?因为国内没对标。国内最大的企业软件,算是用友,市值 700 多亿人民币,是 Salesforce 的零头。

为什么我们对消费者领域的软件公司都很熟,比如美国的 FANG,中国的 BAT、字节跳动、美团等等,因为有对标,我们作为消费者,两边的服务都用。

这里就会产生另一个疑问,中国从总体上来说发展是跟着美国走的,为什么美国 To C、To B 都有顶级的公司,中国只有 To C 牛 X,To B 的企业,差几个量级,为什么会这样?

美国公司的商业周期很长,百年老店比比皆是,即便是现代科技公司,比如沃尔玛,1962 年成立,苹果,1976 年,微软,1975 年。福特汽车是 1903 年成立的,通用电气是 1892 年成立的。这些企业,在漫长的商业周期里,很早就遇到了各种市场红利枯竭的问题,他们早就经历过这种状态了,所以非常重视效率、成本和创新。

当一个公司开始注重「2021 年中国企业口口相传的降本增效」时,自然就开始重视能够提高效率能够降低成本和促进创新的工具,企业在这个领域投入大了,这就是强需求,对应的企业自然也就出现了,这是几十年前的事。

大家都觉得亚马逊很牛吧,但是传统企业沃尔玛和亚马逊对抗了几十年不落下风,沃尔玛这样的传统公司,技术实力一点也不差,人家还有卫星呢,数字化做的比中国零售行业早了几十年。

对应中国,大部分民营企业都是 90 年代和 2000 年之后创建的,满打满算 20 年发展时间,但这 20 年,相当于很多国家 100 年,改革开放,经济复苏,人口十多亿,市面上全是大片大片的开阔地,怎么说呢,各个领域,只要方向大差不差,挣钱太容易了。

一旦企业处于高速增长的阶段,没人会理会什么降本增效,数字化,信息化,也没那么重视。我自己发展好好的,为啥要用你的工具呢。靠市场红利驱动就能发展,就能赚钱,所以大部分企业对于新工具、新软件、新方法的采用意愿非常低。这就导致早些年做 To B 像是装孙子一样,各种定制各种满足各级领导的面子工程,效率反而没那么重要了。

所以,中国的用友和金蝶,就那么大,已经很不错了,也算是抓住了市场的红利。但和美国的 To B 软件相比,就差了一个量级。

写到这里估计有人会问了,说的挣钱这么容易,咋我没觉得呢?

这是因为,大部分人不具备知道这个领域赚钱的认知,或者知道也不具备进入这个领域的资本。

无论一个人还是一个企业的命运,当然要靠自我奋斗,但是也要考虑到历史的进程啊。当一个领域很多人唱衰的时候,也许就是最好的时机。

随着中国产业进程的发展,需要持续降本增效,提升用户体验,所以,未来企业级软件的需求不是变弱,应该会逐步走强。

这是我的判断。

胶片摄影:

不能在中文目录右键打开 Cygwin 的解决方法

By: 胡中元
24 February 2020 at 12:54

Cygwin 是一个 Windows 下的 Linux POSIX 模拟器,通过它我们可以直接运行一个 Linux 终端,非常好用。

网络上关于如何添加一个 “在当前目录打开 Cygwin” 的右键菜单的教程有很多,但是这些方法都有一个问题,那就是不能在中文目录下正常工作,于是研究了一番,修复了这个问题。

探索

既然英文路径可以但中文不行,我最先想到的是使用 Cygwin 自带的 base64 命令,将 encode(path) 后的非中文字符串传给 Cygwin 之后,再 decode 得到包含中文的路径。然而不行,正确的 base64 传递到 Cygwin 之后 decode 却是乱码。

问题的原因很容易想到,那就是编码的问题。经过几次输出中间变量后验证了这个猜想:Windows 采用的是 GB2312 编码,而 Cygwin 采用的是 UTF-8. Windows 将当前路径作为参数传递给 Cygwin 主程序时,Cygwin 不能正确读取路径。

解决

修改 Windows 或者 Cygwin 的默认编码肯定是下下之策。解决该问题最终还是绕不开编码转换。我最终的思路为:

  1. 右键点击后,Windows 将当前路径作为参数 1 传递给 run_by_right_click.bat 入口程序
  2. run_by_right_click.bat 将路径写入 chere.path 文件(GB2312 编码),并运行 Cygwin
  3. Cygwin 运行后,将 chere.path 转换为 UTF-8 编码,读取后 cd

我的 Cygwin 安装目录为 C:\cygwin64,Shell 为 ZSH,如果你使用的是 Bash,有的地方与我的不同。具体步骤如下:

step1. 创建右键按钮

导入注册表文件 cygwin.reg:

Windows Registry Editor Version 5.00
 [HKEY_CLASSES_ROOT\Directory\Background\shell\cygwin64_bash]
 @="打开 Cygwin 终端"
 "icon"="C:\cygwin64\Cygwin.ico"
 [HKEY_CLASSES_ROOT\Directory\Background\shell\cygwin64_bash\command]
 @="C:\cygwin64\run_by_right_click.bat \"%V\""

step2. 编写入口程序

我们的入口程序 C:\cygwin64\run_by_right_click.bat

@echo off
 SET dir=%1
 REM 双引号删除
 SET dir=%dir:"=%

 C:
 chdir C:\cygwin64
 rem del /Q chere.path
 set /p="%dir%">chere.path
 bin\zsh.exe -li

bat 代码是真的难写。。。写这段代码我便踩了无数的坑。

step3. 完成目录跳转

在 Cygwin 内编写 ~/.zshrc,在末尾添加目录跳转命令:

if [ -e /chere.path ];then
     /usr/bin/enca -L zh_CN -x utf-8 /chere.path
     CPWD=/usr/bin/cat /chere.path
     rm /chere.path
     cd /bin/cygpath "$CPWD"
 fi

这里用到了 enca 用于自动编码转换,所以需要在 Cygwin 包管理器中安装这个软件。

over! 现在便可以在中文文件夹中右键打开 Cygwin 了。

为啥我要用 Cygwin

最后最后。你可能会说,为啥都新世纪了,你还在用 Cygwin 这种… 模拟器?原生 Linux/ 虚拟机 不好用嘛?WSL 不香吗?甚至 Powershell 不也不错?

那我还真觉得 Cygwin 秒杀上述所有的方案。首先,我只是想在 Windows 上安装一个代替 cmd 的 Shell 环境用于日常操作,并不需要高性能什么的,所以原生 Linux 系统、虚拟机、Docker 就不是解决同一个问题的东西。

至于 Powershell,虽说是比 cmd 好多了,但毕竟是另一套语法和体系,我不想学它也对它不感兴趣。Bash+GNU tools 那才是世界通用法则。ZSH 作为日常使用的终端也确实美观好用!

而 WSL 这东西确实很吸引人,性能比 Cygwin 强太多,几乎就是原生系统。然而!WSL 运行于内核态,与 Windows 平级,就算有文件系统的映射,WSL 也并不能直接当作 Windows 的 Shell 来使用的。看下面的图你就知道我在说啥了。

Cygwin+ZSH 很好用

图中,npm 和 git 是我在 Windows 中安装的 exe 包,而 ssh、tail、md5sum 是 Cygwin 中提供的 Linux 命令,直接相互调用无压力,这才是 Windows 中我想要的 Shell 的样子。可是 WSL 是不能这么做的,两个系统是隔开的。

PrimoCache:让固态硬盘作为缓存给机械硬盘加速

By: 胡中元
29 May 2018 at 13:22

对于电脑硬盘,固态肯定是全方面优于机械硬盘的选择,不过按照马克思主义矛盾论的观点,这就存在一个 “低速的 HDD 与高价的 SSD” 之间的矛盾。目前我的笔记本使用 128G+1T 的组合,处于并将长期处于 “个人电脑硬盘的基本矛盾” 之中。

直到,我遇到了 PrimoCache 这款软件。推荐给大家。

PrimoCache 是一款可以将物理内存、SSD 硬盘或闪存盘等虚拟成硬盘缓存的软件。它可以自动将硬盘中读取的数据存入物理内存等速度较快的设备,当系统再次需要该数据时它可以很快从缓存设备中读取,而无需再次访问速度较慢的硬盘,从而有效提升物理硬盘的访问性能。

中文官网:http://www.romexsoftware.com/zh-cn/primo-cache/index.html
平台:Windows(其实 *nix 下也有类似的)
软件类型:共享软件

两个月后更新:

经过 2 个月的实际体验,这款软件并没有宣传的那么完美。少数软件一运行就会完全死机(跑跑卡丁车,并确定是由该软件造成的),整个系统也似乎有一种不稳定的感觉(偶尔弹出一些意义不明的错误提示)。另外还有额外的内存占用。

总之,不推荐将系统盘加速,也不推荐大多数情况下的使用。除非你有一些常玩的游戏,但由于几十 GB 的体积巨大不能放入 SSD,才值得使用此软件。

缓存技术

这种理念我认为非常好,Cache 技术也是计算机硬件软件当中一个使用非常广泛的技术。这和最初的英特尔快速存储技术(RST)以及英特尔傲腾技术类似。都是使用少量高速的 SSD 作为缓存,为低速的 HDD 加速, 使得电脑拥有 HDD 的大容量的同时,拥有接近于 SSD 的速度。

至于什么数据会被缓存到 SDD 中?这是由算法控制的,自动选择 HDD 中最常用的那些数据。

PrimoCache 与 RST 或者傲腾的区别在于,这款软件不需要你使用最新的 Intel 主板,或者是购买 Intel 家的傲腾内存,它兼容一切现有的 SSD。

PrimoCache 还支持使用内存作为一级缓存,SSD 作为二级缓存

是的,这也是 PrimoCache 的一个特有的功能,内存的每秒读写速度单位在 GB 级别,比 SSD 高了一个量级,能有效为 SSD 加速。(不过我还没有直观感受到差异,大概在这时瓶颈已经不在 IO 了)

效果展示

我现在终于可以把动辄几十 G 的游戏放心的放在机械硬盘了,然后使用 PrimoCache 让他们拥有令人满意的读取速度。

我使用了 12G SSD 作为二级缓存,1G RAM 作为一级缓存,运行测速工具对机械硬盘测速结果如下:

未使用缓存:

使用缓存:

注意,由于缓存的原理是将常用数据放在 SSD、RAM 中,需要时快速获取,所以使用测试软件随机读取或写入时并没有预存这个过程,并不能反映实际效果。
但是我们也可以看到明显的进步了。

注意事项

发现的缺点:

  • 使用二级缓存 SSD 时,需要占用一定量的内存用于存储映射。
  • 这是一个收费软件,虽然有破解版。
  • 之前出现了一次显卡被降频,关闭该软件后恢复。但后来开启该软件又没有出现类似状态。

此外,虽然我的 RAM 有 16GB,但我也只使用了不到 2GB 作为硬盘缓存,因为我觉得目前大多数大型软件都会使用 RAM 为自己加速,我们没必要多此一举。并且充裕的 RAM 本身也是提升电脑响应速度的途径。

❌
❌