Normal view

There are new articles available, click to refresh the page.
Before yesterdayMain stream

玩了半天 Sora APP,我发现了这些比抖音「上头」的新玩法

By: Selina
1 October 2025 at 20:30

国庆前一天,模型厂商们纷纷更新。国庆第一天,真正能「玩」的 AI 产品来了——这才对嘛,谁要搞编程,放假不就是为了玩!

APPSO 连夜搞到邀请码,先替大家来这个「只有 AI」的世界体验和实测了一下。有点意外:Sora 2 并不是一个 AI 视频平台。

Sora 2 给我整哪儿来了?怎么全是奥特曼

首先,目前由于是邀请制状态,且只有 iOS 版,导致用户暂时不太多,再加上一些版权限制,发挥非常受限制——以至于广场上全是 Sam Altman。

Sam 做机器人。

Sam 在做发廊模特。

Sam 在派邀请码。

Sam 在公园陪老大爷下棋。

Sam 在滑雪(有一说一,这个人体运动的生成效果真是蛮好,完全看不出来是生成,你说只是换脸我也信。)

Sam 累了。

好好好,对这种行为,我只能说——带上我。

用 Sam Altman 跑视频实在是太简单了:选择 @Sam Altman 官方账号当「主角」,接着描述你想生成的视频内容就行。

Altman 曾在 X 平台吐槽过,由于算力不够,「OpenAI GPU 快融化」了。于是我们让他跑到英伟达公司门口高喊:「我的 GPU 快融化了!」

(视频)

视频里一致性保持得非常不错。当然了,要是仔仔细细看,也不是没有缺点。比如虽然音画同步做得不错,但细看就会发现,喘气的声音和口型并没有完全对上,离真正的「无破绽」还有不少距离。不过,已经足够说 Sora 2 的视频生成能力达到了令人惊叹的水平,显然是在模型层面能力有大幅度的提高。

语音能力也整合进来了,我们在测试中发现,Sora 2 的中文能力表现得「不违和」,这在以往大多数视频生成工具中是比较少见的。无论是发音本身的质量、音色,还是整个说话的语速和语调,它都能够非常精准地符合 Prompt 中所提出的要求。

(视频)

在介绍长城的视频里,它的情绪和语调是符合介绍和解说这个场景的。而在其他一些吐槽或整活的视频中,它也能准确拿捏到人物在特定情境下说话的语气状态。这种对中文情感和语境的精确把握,让生成视频的细节品质和沉浸感有了质的飞跃。

AI 视频,没有基本法了

比较令人震惊的一点是:没有抽卡。

这可能是 Sora 2 最重要的亮点,真-不再需要「抽卡」。在生成视频时,用户只需输入几行简洁的 Prompt,即可得到成片。

这个话我们当然也说得很多,尤其是在测评各种视频生成工具时。但是,过去视频生成工具的「简单」是相对于传统剪辑流程的「简化」。

而 Sora 2 的「简单」,是基于它的社交形态的,重点在于极高的可控性和确定性,就像是你在朋友圈、小红书上发布照片的操作。

不抽卡在今天,多少有点违逆 AI 世界的基本法,关键是质量竟然都很好。明摆着是 OpenAI 的究极自信:不需要抽一堆选个好的,我给你的,就是好的。

另外还得强调一下,Sora 2 的底层逻辑不是视频生成,而是社交媒体。它在这个层面做了很多不错的小设计——更重要的是,灵感来自于社交媒体,但又不止于社交媒体

首先上下滑动切换这个大家都很熟悉了,但跟抖音不同的地方是,它有一个特殊的横滑设计。

这个 Rick & Morty 的视频里有好几个不同的二创,台词,人物,画幅都有所改变。来自不同的用户,但是统一到了一个横向里。

相比之下,抖音横向滑动是切进不同的栏目、商城,或者用户的主页。这种意义下的横滑,是强调内容消费。

但 Sora 2 的横滑,更像是为了让不同用户基于同一套模版,能更方便去做自己的二创。用户看到喜欢的模板或效果时,可以立即获取对应的 prompt 或模型进行再创造,形成一个持续的灵感循环,有效延长用户停留和尝试时间——这种意义下,是鼓励创作。

放心,未来不会是一个只有 AI 的世界

Sora 2 在整个产品哲学上,也展现了「半人半 AI」的想法。

强调或标榜「纯 AI」不是一件新鲜事儿,之前有很多应用都做过这样的尝试。要么是全都是 chatbot 跑出来的推特,或者全都是数字人的 Instagram。

 

Sora 2 并不是要走这个路线,而是要稳住人的存在感。

比如,上传图片、输入 prompt,然后——重点来了——at 一个用户,来生成视频。

这表明 AI 生成的内容只是一个「桥梁」或「催化剂」。生成的视频是「击鼓传花」里面的「花」,而用户这个「人」才是那个真正的「敲鼓者」。

这种「真人优先」的倾向,在平台的一些关键功能中也得到了体现,比如 Cameo,它会拒绝非真人用户的生成请求。

这里,我们尝试了用小八试图越狱,是无法通过的。这是一个非常强烈的信号:平台不希望内容完全虚拟化,至少账号本身不能是虚拟的,它希望真人参与进来,将现实的社交身份和数字创作紧密融合。

总体来说,Sora 2 的企图,并不是为了在技术上比较谁生成的视频「最像电影」或者「质量最好」。 它的核心追求是「大家来玩」,而且「很多人来玩」,并能够「跟朋友们一起玩」

通过高确定性的生成体验,以及鼓励接力和真人参与的社交设计,Sora 2 将 AI 视频生成从一个高冷的「技术工具」,变成了一个大众娱乐和社交表达的新阵地。

这种设计理念预示着,未来生成式内容平台的价值重心,将从单纯的 AI 炫技转向激发人类创造力和构建社群连接。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


OpenAI 发布 Sora 2!AI 视频 GPT-3.5 时刻来了,还有一个 AI 版抖音| 附下载链接

By: 李超凡
1 October 2025 at 08:15

国庆长假的第一天,OpenAI 直接扔出了一颗真「核弹」:Sora 2 ,以及一个可能重塑社交格局的新应用——Sora。

如果说一年多前的 Sora 让我们看到了 AI 视频的黎明,那么 Sora 2 就直接把我们拽进了正午的太阳底下,刺眼、灼热,又无比真实。

这次不再只有技术演示,而是直接为此开发了一款新 app 给 C 端用户体验。

OpenAI 也极为罕见地,直接把 Sora 2 称为 AI 视频生成的「GPT-3.5 时刻」

看完 Sora 2 的发布和体验,我发现 OpenAI 这次的自信是真有底气,不是奥特曼式的自吹自擂。

关于真实的定义被推到了必须重新讨论的时刻。一个全新的物种,一个崭新的时代,开始了。

奥特曼刚刚也发了长文,认为这是「创意领域的 ChatGPT」时刻,创意将迎来「寒武纪爆发」。

APPSO 第一时间给大家全面总结了 Sora 2 和 Sora app 的核心功能和新玩法,以及使用方式。

Sora 2 :
1. 首次实现音视频同步生成:生成画面的同时生成与之匹配的环境音、物体交互声,甚至是符合语境的对话
2. 强得可怕的物理精确性:能够进行与真实世界动力学更一致的物理仿真。
3. 真实感大幅提升:在图像分辨率、细节程度和真实感方面都有所提升。
4. 能更灵活地适应用户想要的风格,风格操控能力增强。
5. 一致性更强,对用户指令的遵循的比之前的模型有所提高。

Sora app
1. 客串 (Cameo): Sora app 最大亮点,用户可以将自己或朋友以逼真的效果融入任何 AI 生成的场景中。
2. Remix:用户可以对彼此创作的视频进行「混编」或二次创作,共同创作。

怎么用
1. Sora app下载链接🔗 (目前只有 iOS 没有安卓)
https://apps.apple.com/us/app/sora-by-openai/id6744034028

2. 网页版🔗 sora.com

3. 地区支持:今天起在美国、加拿大首发,其他国家和地区将逐步开放

4. 邀请码机制:无论是 iOS 应用还是网页版都需要邀请码才能使用 。现在就可以去下载 App 或访问网站注册排队。

5. 价格:Sora 2 初期将免费提供,并有相对宽松的使用限制ChatGPT Pro 用户还能在网页版抢先体验更高质量的 Sora 2 Pro 模型

6. OpenAI 也将会发布 API,让更多开发者加入。

Sora 2 :不再是在「生成」,而是在「模拟世界」

Sora 2 的核心突破,是它从一个「视频生成器」,进化为一个「世界模拟器 」。

理解物理世界,一直的 AI 视频最大的难点。以前的 AI 视频,物体经常会奇怪地穿模、漂浮正是源于无法准确理解物理世界的交互。

在 Sora 2 的视频里,体操的动作,原地连续后空翻、跳水等等这些动作都很自然符合力学,水花溅起的样子也符合流体力学。

OpenAI 的终极目标是构建「通用世界模拟器」(general-purpose world simulator),即让 AI 理解我们世界的物理规则 。

Sora 2 就是其中的关键一步。你可以把它想象成一个在虚拟世界里不断做物理实验的学生,通过观察无数视频,它正在自己总结牛顿定律、流体力学和光学原理。

对于任何有用的世界模拟器来说,这是一项极其重要的能力——你必须能够模拟失败,而不仅仅是成功。

这种对现实世界复杂性的模拟,才是 Sora 2 最可怕的进化。

Sora 2 的另一个重大突破,是在生成画面的同时,还能同步生成与之匹配的环境音、物体交互声,甚至是符合语境的对话 。

虽然 AI 视频和音频现在都很强,但「声画一体」带来的真实感完全不同,这让 AI 视频真正拥有了「灵魂」。

这对模型的要求极高,比如 AI 生成「一只猫在键盘上走过,发出不满的喵喵声」。模型得知道「猫长什么样」,也学习了「猫的叫声是怎样的」,并将这两者牢牢绑定。还要理解了「敲击键盘」这个动作,才会「咔哒」声。

Sora 在可控性方面也有了巨大飞跃,能够遵循跨多个镜头的复杂指令,同时准确地保持世界状态,比较擅长写实、电影和动漫风格。

Sora App:打造你的 AI 「人生」

Sora App 直接支持 Sora 2 模型生成,里头最好玩的应该就是「客串 (Cameo)」,你只需在录制一段简短的视频和音频(用于活体验证和形象捕捉),你就可以把自己「投放」到任何 AI 生成的场景里。

上一秒你还在办公室,下一秒你就可以出现在《沙丘》的沙漠星球上,仰望双月,Sora 还会根据沙漠的光线,给你脸上加上逼真的光影 。

是不是有点视频版 nano banana 那味了

整个过程就像拍个自拍视频一样简单。Sora 会捕捉你的形象、声音和神态,然后你就可以在生成视频时,像选择一个贴纸一样,把自己「贴」进去,而且是 3D、无缝、高度逼真的那种 。

OpenAI 内部员工已经因为这个功能在公司交到了新朋友 。

你可以和朋友们一起「客串」到同一个场景里,上演一出属于你们的科幻大片。这是一种全新的交流方式,从文字、表情包、语音,进化到了「共同体验」的视频媒介 。

在 Sora App 的信息流里,你看到的每一个视频都是 AI 生成的。

如果看到一个喜欢的视频,直接点击「Remix」,你可以修改提示词,把「赛博朋克雨夜」改成「阳光明媚的午后」,或者用「客串」功能把自己加进去,变成故事的主角 。

Sora 会保留原视频的结构或风格,让你在它的基础上进行修改和再创作,就像转发微博再加一句评论一样简单。

当然,这些功能不可避免地会引发对于隐私和侵权问题的担忧。

Sora 也对此做了应对措施,只有用户本人可以决定谁能使用自己的「客串」形象,用户可以随时撤销访问权限,或删除任何包含自己形象的视频,即使是他人创建未发布的草稿也不例外。

OpenAI 表示,包含电影或视频中真实人物影像的上传在初期将被禁止或受到严格监管,而涉及儿童的内容将有严格过滤:含有儿童的场景将实施严格的审查门槛。

现实,这次真不存在了?

Sora 2 和 Sora App 带来的,远不止是好玩,它正在从根本上动摇我们对「真实」的定义。

Sora 2 的发布,或许标志着我们与现实的关系将进入一个新的纪元。我们每个人都获得了重塑世界、重塑自我的「魔法」。

现在,我们可能不是主动选择逃离现实,而是「现实」本身正在失去其作为我们生活参照系的核心地位。

Sora App 通过提供极致的创造乐趣和社交连接,正在构建一个引力极其强大的新现实中心 。它并非在你的现实生活之外提供一个「虚拟分身」,而是在试图成为你生活的「默认背景」。

当你的社交关系(和朋友在 AI 世界冒险 )、身份认同(在虚拟世界里成为超级英雄)、创意表达(Remix 全世界 )都优先发生在这个平台之上时,那个需要你偶尔「登出」才能回去处理水电费账单的物理世界,反而会沦为一个偶尔才需要访问的「副本」。

这属实就是《头号玩家》了,所以说 OpenAI 的尽头是元宇宙?小扎默默点了个赞。

OpenAI 自己也坦言,他们曾对纯 AI 生成信息流持怀疑态度,但最终被其带来的人际连接感所惊喜 。

奥特曼在最新的博客中直言,AI 视频生成可能会走向堕落,最终导致我们都被吸入一个经过强化学习优化的「垃圾信息流」。

他表示 Open AI 试图找出如何打造一款既能带来愉悦又不落入这种陷阱的产品。

Sora 这个app,就是他们交出的第一份答卷。在通往 AGI 的路上,收获的不应该只是生产力,也关乎创造力和快乐 。

欢迎来到这个由想象力驱动的新世界。现在,唯一的问题是,你拿到邀请码了吗?

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


体验夸克「造点」:更懂中国元素的AI创作工具,还有Midjourney+Wan2.5 的王炸组合

By: 艾 梵
25 September 2025 at 12:01

AI 生图的风,终究还是吹到了我们打工人身上。

老板一句「现在 AI 这么牛,你用它五分钟给我出个图」,说得轻巧,但谁用谁知道。

虽然 AI 生图和生视频甚至可以做到真假难辨,但实际应用还是会有无数意想不到的问题。一些 AI 工具虽然很强,但由于训练素材问题,常常对中文内容和中国风的理解存在偏差。

幸好,国内厂商也在不断努力,适用于中文语境的生图效果也在不断提升。阿里云栖大会期间,夸克也上线了新的 AI 图像与视频创作平台「造点」。

除了更懂中国元素和中文排版,还是国内首个支持 Midjourney V7 模型的生图工具。视频生成则用上了最新发布的万相 2.5 模型,之前爆火的 Veo3 能玩的功能基本都支持了。

现在,你可以在夸克上点击「造点」,或者直接访问 zaodian.quark.cn 来体验。

还有一个福利别忘了领。即日起至 9 月 30日 ,所有用户均可限时 7 天免费体验通义万相 Wan2.5 的视频生成能力。

APPSO 当然也第一时间体验看看它到底能造点什么。

更懂中国元素的生图工具

APPSO 经常要测试 AI 生图工具,所以我也常跟公司的设计师同事交流,想知道 AI 工具是否在改变他们的工作方式,不过常常收到的吐槽会更多,调教 AI ,堪称堪称一部跨服聊天的血泪史。

你跟它说「侠骨柔情」,它给你个中世纪骑士;你说要「烟火气」,它给你个壁炉 。

好不容易生成个带中文的海报,不是缺胳膊少腿,就是排得像狗啃,在一些专业场景还是拿不出手。

这次夸克造点最让我惊喜的,是把咱们中国人的那点含蓄、那点意境,拿捏了。

我试着让它生成一张 「东方运动美女摄影图,展示马甲线」,出来的图让我愣住了——那位小姐姐身上有清晰的肌肉线条,但神态开心自然,皮肤纹理细腻真实,高级感满满 。

之前很多 AI 生成的亚洲脸总是千篇一律,现在终于有了灵魂

而最让我头疼的中文排版,也不用像过去那样「开盲盒」

比如让夸克造点生成一张 「秋季主题的邮局海报」,它不仅体现了秋天和邮局的标志性元素,不同文字的层级、字体、排版也都比较协调,大字小字都没有乱码,可用性颇高。

最近看了一部电影《长安的荔枝》还不错,我想制作一张海报来给我的朋友圈影评配图,不只是毛笔字体到位,整个排版结合荔枝元素和东方意境,质感甚至不输官方的电影海报。


我们还尝试了更多中文海报的排版,整体的稳定性不错,不仅能写对,排版美感也能打。

无论是「白银时代」的 Art Deco 风格,还是「老榕树」的粗犷毛笔飞白,它对中文的理解已经深入到了「笔画」和「意境」的层面 。

如果脑洞再大一些,用不同材质来设计字体,也就是一句话的事。

它对国风元素的理解,也不仅仅是元素的拼贴。比如 「身着民族服饰的高定模特」和 「烟雨朦胧的故宫红墙」这两张,无论是少数民族头饰服装纹路细节,还是模特人物妆造和故宫背景的搭配,都很自然。

不只是人物,设计一些中国元素的礼盒和首饰它也会考虑周到,除了礼盒和首饰本身,展示的搭配的物件也是中国风。

我发现,造点对「中国风」的审美和理解,不是停留在表面符号,在生成中国风插画时尤为明显。

这些插画不仅做到了服饰风格和吉祥意象的还原,更是传递出了水墨画、敦煌壁画的意境,将中国传统美学的典雅和底蕴比较好地呈现出来。

这点很重要,意味着它不仅仅是一个有趣的玩具,更有希望在更多真实场景下,成为生产力工具 。

不整花活造点实用素材,行不行

我发现除了整活,当夸克造点把那些对中文的设计能力,无缝对接到各种工作场景时,它是真能干活。

以前想设计个包装,能把头发薅秃。现在,我们尝试设计一款猫粮包装,只要告诉它要「扁平卡通插画、波斯猫跳起抓鱼、海滩背景」,它连猫耳朵造型、三文鱼腩实拍、「天然有机」的宣传气泡都安排得明明白白。

更有意思的是,它还能帮你把品牌周边从图纸上到货架,直接帮你做一套产品包装+周边设计。

我告诉它要做「一套四个的云南主题文创冰箱贴」,再把「玉龙雪山、咖啡豆、野生菌火锅、孔雀大象纹样」这些元素丢给它。

一套色彩鲜艳、充满民族风情的珐琅彩琉璃冰箱贴就出炉了,精致得可以直接打样。

再来开发一套 「国风妖怪 IP」,它能帮你设计出毛绒玩具、钥匙扣、徽章等一系列产品 。


做一套「咖啡品牌VI」也不在话下,从手提袋、纸杯到菜单,它能用统一的黑白极简风帮你设计一整套,工业感和时尚感兼备 。

旅游文创玩法就更多了,无论是可爱的 「旅游主题贴纸」,还是「福州文旅产品」 的帆布包、台历、团扇,它都能帮你快速生成情绪板和产品模型,让创意落地变得无比简单 。

想开个小店,但不懂装修设计?夸克造点甚至能当个合格的免费设计师。

想开家 「快餐店」,让它来个「赛博朋克风」,一个巨大的异形红色霓虹招牌立刻就有了,氛围感十足。


无论是 「精品咖啡」 的文艺惬意,还是 「气球商店」 的梦幻童趣,它都能帮你一键搞定,让你的小店成为网红打卡点 。

当工作流已经被 AI 彻底简化后,我开始不满足于「够用就好」,想要追求更高阶的艺术表达,于是我把目光投向了那个传说中的……

MJ 国内首发,我的审美上限被它打开了

当我发现夸克造点里居然藏着 Midjourney 的官方通道时,我彻底不淡定了。这可是国内首次有官方渠道能直接用上最新的 MJ V7 啊 。

以前想用 MJ,不是被复杂的订阅流程劝退,就是苦于高昂的价格。现在好了,夸克造点直接把价格打了下来。

更让我惊喜的是,它把 MJ 那些高深莫测的参数,变成了人人都能懂的「美学遥控器」,可以通过调整「风格化」、「怪异化」和「多样化」,来摸索出你满意的效果。

有了这些精细的控制,我感觉不是我在用 AI,而是和一位顶尖的美学大师在「共同创作」。

游戏开发者和玩家估计会爱上这个功能。我尝试生成一个 「赛博朋克风格的年轻男英雄三视图」,它迅速给出了包含正面、侧面和背面的完整角色设计,连服装上的机械元素都清晰可见,质感堪比专业概念稿 。

需要搭建场景?让它画一个 「沙漠中的L形建筑废墟」,出来的图是等距视角的3D立体模型,破损的墙壁、散落的碎石和哑光粘土质感,氛围感直接拉满,完美符合游戏场景的需求 。


它还是一个艺术风格模拟器。我想画一张 「手绘插画」,只需告诉它「托尼·迪特利齐风格」,一张充满奇幻色彩的马德里街景就诞生了。

中国风素材在这个模式下也有了别样的艺术质感,

我试着让它画一幅「粉金主调、层峦叠嶂的仙境」,它不仅给出了山间缭绕的云雾,还糅合了「水墨晕染的朦胧」和「金色线条的精致」这两种质感,那种仙气飘飘又富丽堂皇的感觉,直接就能当壁纸用。

想要邪修一下也没问题,无论是 「空山基的光滑镀铬机器人」 还是 「伊藤润二的黑白恐怖漫画」,它都能轻松驾驭,让你的创意在各种艺术风格间自由穿梭 。

有了这种艺术美感的图片生成能力打底,一个更大胆的想法在我脑中浮现:让这些惊艳的画面,真正「动」起来会怎么样?

前方高能,造点大片

在刚刚结束的阿里云栖大会上,通义发布了最新的万相 2.5 模型,造点也已火速接入。

简单来说,新模型原生支持音画同步生成,图加音频就能开口「表演」,并且视频时长翻倍至 10 秒,对复杂指令和电影级质感的理解也大幅提升。

现在,你可以直接在造点体验到这些新能力。

我试着让模型生成一段女生弹吉他的视频,它不仅精准对上了口型,拨弦的动作和音乐的节奏同步,连眼神和微表情都带上了戏。

这背后是万相 2.5 的「音画同步」技术,让视频生成不再是简单的「对口型」,而是真正的情感表达。

想让你喜欢的角色「活」起来?试试这个,上传一张图加一段音频,就能让任何人和物开口。

画面可以自然匹配你提供的任何声音——无论是人声、音乐还是音效,创作脑洞也可以更大了。

角色一致性是视频叙事的基础。万相 2.5 加持下,造点现在单次可生成长达 10 秒的视频。

比如用造点生成之前很火的「第一人称 vlog」,人物在边走边做各种动作,角色形象也能稳稳保持,意味着故事能讲得更完整了。

此外造点对镜头语言和复杂动态的理解也不错,画面很有大片质感。

下面这段视频,模特身着金属反光礼服一路走来,光线在金属面料与泡泡上折射出炫彩光晕,展现出梦幻和先锋的美学质感。

从复杂的运镜到微妙的动态表现,在 AI 加持下,普通人对画面的掌控力,也能堪比电影导演。

AI 时代,用想象造点不同

体验下来,我感觉夸克造点更像是一个全能实用的创作搭子,懂你奇奇怪怪的想法、能帮你省钱省力、还能激发你无限创意。

更重要的是,它让夸克这个 2 亿人都在用的 AI 助手拥有了更强的视觉化生产力,更加全能。

无论你是普通用户,想在手机上给照片 「换个发型」、「一键 P 图」 发个朋友圈 ;还是专业设计师,需要快速生成 「包装设计」、「店招门头」设计灵感 ;甚至是品牌营销和影视游戏行业的从业者,要制作 「影视分镜」、「电影级视频」 ,都能尝试在夸克造点里找到高性价比、实用的解决方案。

在它面前,创作「五彩斑斑的黑」甚至不再是甲方无理的需求,而是一次灵感的涌现,是真的可以落地的作品。

APPSO 也一直把「创造」作为信仰,我们认为当下连接热爱和创造不同最好的能力就是 AI ,当每个人都能「用想象造点不同」时,一个新的创造时代,或许才刚刚开始。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Chrome 迎来大更新,刚刚登顶 App Store 的 AI 可以直接用了

By: 张子豪
19 September 2025 at 14:00

你应该也有类似的浏览器使用体验,就是当你曾经打开过一个标签页,但是忘了给它添加书签;下次再想找到它时,只能去历史记录里面翻个半天,还不一定能找到。

前些天,我们介绍 Google AI 全家桶的产品指南,它的浏览器 Chrome 被排除在外。

一方面,这是个传统的老牌浏览器,几乎每个人的电脑都有安装一个;另一方面,浏览器本身好像就是没有任何 AI 功能,找标签页这个场景,除了依赖第三方扩展插件,我们只能去翻历史记录。

但是现在,Chrome 进行了自 2008 年发布以来最大的一次升级,找不到的标签页,点击右上角 Gemini 的小图标,一句话就能解决。不管你喜不喜欢,它也是一个 AI 浏览器了。

▲ Gemini in Chrome

点击右上角的 Gemini 图标,我们可以与 Gemini 进行跨标签页的对话

Chrome 不再是一个被动打开网页的工具,Gemini 的引入,让它变成一个能主动帮我们干活的智能伙伴。Gemini 助理、AI 搜索模式、智能体、以及一系列新的安全和便捷功能都来了。

Chrome 在自己的 YouTube 频道和官方博客,发布多条内容,介绍这个「历史全新」的浏览器。我们第一时间研究了所有新功能,可以负责任地告诉你,这不只是加了个聊天机器人那么简单,我们的上网方式可能真的需要一点时间,来学习和适应这个更聪明的浏览器。

信息过载?AI 帮忙画重点,几十个网页秒变一份精华纪要

这可能是打工人和学生党最狂喜的功能。想象一个场景,老板让你半小时内调研完一个行业,或者你需要为论文快速消化十几篇文献。过去,我们只能一篇篇点开,匆忙地在多个标签页切换。

现在,打开这些网站标签页,然后呼叫 Gemini,它就能像一位专业的助理,跨越多个标签页进行阅读、对比和总结。

▲ Gemini in Chrome 能够获取多个标签页的上下文信息

我们可以直接问它:「这几款相机的优缺点分别是什么?」或者「帮我把这些资料整合成一份旅行计划」。它甚至还能找到 YouTube 视频里的关键信息,我们不需要额外的第三方插件,就能得到一样的 YouTube 视频总结。

从大海捞针到 AI 直接递上答案,这效率提升可不止一点半点。

动口不动手,你的浏览器助理未来什么都能干

如果说「总结资料」只是开胃菜,那接下来的「智能体能力」(Agentic Capabilities)就是 Google 为我们描绘的未来图景。

简单来说,和所有智能体一样,我们负责下命令,浏览器负责跑腿。也和所有关于智能体能力的演示一样,我们只能用智能体来预订餐厅,买生日礼物。

Google 提到在未来几个月,通过结合 Google 强大的应用生态,YouTube 视频、Gmail 邮箱、Calendar 日历、以及办公套件等,我们可以直接对 Chrome 说,「帮我订一份常吃的那家沙拉。」、「预约下周三下午的美发。」、「把这些东西加到我的购物车里。」

▲ 集成在 Chrome 里面的 Gemini,有能力为我们处理一些简单的重复性任务

Chrome 会在我们授权后,自动在网页上进行点击、填写、下单等一系列多步骤操作,而我们全程只需监督,随时可以叫停。

虽然听起来有点像 ChatGPT agent 之前演示的功能,但其实就是这样。我觉得智能体的能力,还没有被真正的挖掘出来,专门开发一个 AI 浏览器用来预订餐厅,听起来怎么都不划算。

Chrome 即将更新的智能体能力,我的期待是,我们生活中真正的琐事,可以从需要 30 分钟的处理,变成 3 次点击。

地址栏,现在是 AI 全能框

Chrome 那个我们每天都要用无数次的网页地址栏,现在也升级成为 Omnibox 全能框。

当我们访问一个网页时,地址栏会根据页面内容,智能地为你推荐一些我们可能想问的问题。

比如正在看一款床垫,它可能会提示你:「这个东西的保修政策是啥?」。

▲ AI 模式在地址栏中直接可用

此外,跟我们之前介绍的 AI Mode(AI 模式)有关,现在我们不需要去专门的 Google 搜索地址,直接在地址栏,就能开启 AI 模式。一些更复杂、更开放、需要深度研究的问题,AI Mode 都能做到。

比如「给我推荐几款适合小户型的复古风咖啡机,预算 1000 元以内」,AI 会直接在侧边栏生成一份详尽的报告,无需跳转。

AI 除了用来提升效率,也让 Chrome 更安全

聊了这么多 AI 的功能,安全也是 Chrome 非常在意的一个因素,Chrome 大概想说,不要觉得只有你 Safari 在保护隐私安全。

这次主要是利用 Gemini Nano 模型,能更主动地识别和拦截,那些诱导我们下载有害软件的诈骗网站。

以及对通知更加智能的管理,AI 会自动识别那些垃圾、诈骗类的网站通知,并帮你「一键退订」。Google 称仅在 Android 端,这项功能,每天就能为用户减少约 30 亿次骚扰。

密码的保护也得到了更新,当密码不幸泄露时,Chrome 未来将能像一个密码特工一样,在支持的网站上,直接帮我们一键完成密码修改。

▲ Chrome 可以通过一次点击,修复泄漏的密码

在 Chrome 中的 Gemini,此前是 Google Labs 的项目,仅针对 AI Pro 和 Ultra 用户。

现在 Chrome 的这些更新,支持在美国且将英语设置为首选语言的全部用户,支持 Mac 和 Windows 版本;而 Android 和 iOS 版本也将很快推出,里面部分功能在持续更新中。

🔗 官方使用指南帮助:
https://support.google.com/gemini/answer/16283624

我们之前也多次讨论过 AI 浏览器的形态,无论是 the browser company 曾经推出的 Arc,还是后面集成了更多新功能的 Dia,现在被卖给 Atlassian。

还有 Perplexity 推出的 Comet,最近应该正式向大部分用户开放了,不需要漫长的 waitlist 等候。

以及前段时间微软称 Edge 也正式升级为 AI 浏览器;和关于 OpenAI 的 AI 浏览器传闻。

和这次的 AI Chrome 类似,它们的模式甚至都可以被总结成一个侧边栏,和一个像 ChatGPT 首页的启动页面。

▲ 根据 statcounter 统计数据,Chrome 市场份额全球领先

但是,Chrome 和它们不一样的是,这是一个在全世界范围都遥遥领先的浏览器。今天的更新,可能标志着「AI 浏览器」这个概念,真的要从一些少数派的探索,走向更大众化的讨论。

呈现 AI 最好的形态不是浏览器,那 AI 浏览器最好的形态又该是什么样。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


全网都在玩的生图模型,我用它把 iPhone 17 提前发布了

By: 张子豪
9 September 2025 at 15:40

最近,朋友圈和抖音小红书几乎被 Nano Banana 刷屏了。这个香蕉模型似乎要让 P 图这个词消失,直接给 Gemini 带来了一千万的新用户,火得一塌糊涂。

各路大神的邪修玩法铺天盖地,什么 3D 手办、大佬合影都是基操了。虽然 Nano Banana 强得不行,但在留言区依然收到不少用户的疑问和需求。

首先使用门槛就拦住了不少人,甚至比在国内用 ChatGPT 还麻烦一些。在图片编辑过程,最多人反馈的是 Nano Banana 图片分辨率不够高,以及比例高度不可控。

说实在,我也感觉自己有点吹毛求疵,但没想到,这些需求真的有人听了进去,并且做了出来,而且还是咱们国产厂商。

刚刚,火山引擎正式上线豆包・图像创作模型 Seedream 4.0。

除了具备「超强主体一致性、多图灵活创作、连续生图」等核心能力,Seedream 4.0 还有一个 Nano Banana 也没有的功能——支持最高 4K 高清图片输出

这也是首个最高支持 4K 多模态生图的模型,目前企业用户已经可以通过火山方舟抢先体验了。

个人用户也不用眼馋,4K 版将于今晚 20:00 首次开放给个人用户,搜索「火山方舟体验中心」,即可第一时间体验。

Seedream 4.0 同时也在豆包、即梦全量上线,最高支持 2K 输出。

实际表现如何需要拉出来溜溜。APPSO 提前拿到内测体验了几天,给它上点比 Nano Banana 更大的强度。

实测完后我发现,虽然也不能算完美,但国产生图确实来到了一个新的阶段。

 

我替苹果把 iPhone 17 Air 提前发布了

今晚就是苹果秋季发布会了,不用熬夜看直播,APPSO 先把帮苹果把 iPhone 17 给上线了

我们用 Seedream4.0 生成了两款今年大火的 iPhone 17 Air 产品页面,这可是今年最受关注的超薄旗舰。

参考 iPhone 16Pro 的官网页面,替换手机和相关文案,保证果味十足

这个构图似乎有些古板,调整一下小字 ,再加上 Just 5.5mm thin 这个最大的亮点。可以看到 Seedream4.0 生成的这版 iPhone 17 Air 将手握机身的倾角,刚好和字母 A 右边平行,有点资深设计师的审美了。

这次,我们不让库克来发布产品,有请特斯拉人形机器人来客串一把。还是熟悉的场景,熟悉的 Good Morning(doge)。

这组图用到了三张参考图,人形机器人、iPhone 17 Air ,以及库克的现场图,Seedream4.0 一致性确实有点东西。

其实这里还有个逆天的细节容易被忽略,注意看观察生成图机器人头盔上的反射细节,原图是漆黑一片的,也就说, Seedream 4.0 根据图 3 的蓝天白云和建筑物背景,推理出机器人应该有的反射,真的太细了。

不妨再脑洞大开一点,据称 iPhone 17 Air 就是为了明年折叠屏手机做准备。APPSO 用 Seedream4.0 也提前让大家看看 iPhone 首款折叠手机的「实拍图」。

眼尖的读者可能已经发觉,是不是跟华为新款的三折叠有点像,没错我用了它作为参考图,替换了上苹果的摄像头和logo,无论是构图、背景和水印的细节都完整保留了。

那干脆整一部苹果的三折叠,其实也没有人知道那一夜,苹果和华为究竟发生了什么。

如果是「乔布斯」,他会怎么发布这款产品,我们请 AI 老乔限时返场。

熟悉的身影,穿透屏幕的气场,让我们再次高呼「Amazing」。

好玩之外,还真能用

Nano Banana 能走红,除了社交媒体的爆款玩法,更在于它的技术能「看得见未来」。无论是一致性、局部修改、换色还是多图结合,都是能够直接用在电商、营销、社交媒体等等场景里。

无论技术有多亮眼,如果不能应用到生产力场景,也只是玩具。

下面我们看看 Seeddream 4.0 在一些实用场景能不能打。

我们先拿这两天刷屏的红月亮,融合到球鞋设计中。

我还想看看这款球鞋不同角度的展示,只需输入类似「生成一只白色运动鞋,展示正面、侧面和俯视视角」的提示词,不管是用于打样还是用于设计草图,都直接一步到位。


如果我还想找一个模特用不同姿势展示商品呢?找不到合适的参考照片也没关系,直接画个火柴人简笔画就行。

Seeddream 4.0 基于手绘图能有效控制模特姿势的一致性,同时实现角度的合理变化,在多角度呈现上表现精准。

像下面这个案例,我在提示词里面没有指定两个人的站位,所以在它生成的 4 张照片里面,两种站位都有,而且效果都很好,它像一个周到的乙方,如果你需求没有很明确,那就把可能的情况都考虑到并把成品给你挑选。

▲ 提示词:将图1男子和图2女子合进一张画面,参考图3姿势

如果说拥抱这种动作太简单了,我们直接来一个举高高的动作,这次再指定多一张背景图片。

▲ 提示词:将图3和图1合进一张画面,参考图2姿势,图1是被举起来的那个小孩;同时背景使用图4。图四的背景是来自浪浪山,两个角色是罗小黑和他的师傅。

四个人的参考图,Seedream 4.0 同样可以很好的处理,保持和简笔画的姿势一致。

▲ 提示词:把图一的四个角色(西游记里面的师徒四人,沙僧、唐僧、猪八戒、孙悟空)按照图二的姿势(叠罗汉)排布,沙僧、孙悟空和猪八戒在下面,唐僧在上面。

如果还想给模特更换妆造,我们发现 Seeddream 4.0 也能准确把握不同发型的特质:长直发的柔顺、盘发的干练以及卷发的弧度,全部都清晰呈现。

同时,背景与人体保持高度一致,未出现边缘模糊或形变问题,成功实现了在保留主体特征的基础上对妆发风格的精准转换——省了多少模特妆造费用。

最让我惊喜的要数线稿生成,线稿通常为简洁的线条勾勒,仅包含物体基本轮廓与结构,缺乏细节、色彩及质感。在草图转渲染功能上,Seeddream 4.0 能将简单线稿转化为高质量成品图。

不仅精准填充丰富色彩,使物体视觉层次分明,还有细腻的光影处理与材质模拟,比如包包的皮质纹理、金属配件光泽等。

它对于「高质量渲染图」的理解,可谓是逆天,除了静物,还搭配了人像、场景,你没想到的,它都替你想到了。

讲真,Seeddream 4.0 这次更新后,对真实质感的处理完全超出我的预期。

像皮具、金属的纹理表现已经很稳了,但当我看到它生成人的皮肤纹路时,还是被秀到了。

这个皮肤纹理、隐约可见的青筋,甚至是手腕上自然的汗毛感,还有光线打在皮肤上的通透效果……所有细节都拿捏得非常到位,组合在一起就一个字:真。

而这组图的原始参考图是什么呢——

仅此而已。

细节还原仿佛真实拍摄,完美实现了真实世界照片拟合的需求。这都意味着模型能够适度的「创作」,在参考图和提示词给定的范围内,给出合理的发挥。

这种创作能力可以用在更有趣的玩法上,比如只需要一个矢量图,就可以给 APPSO 生成一整套完整的周边设计。

▲ 提示词:参考这个LOGO,做一套品牌视觉设计,品牌名称为 APPSO,包括包装袋、帽子、纸盒、卡片、手环、挂绳等。红色视觉主色调,趣味、简约现代风格

Seeddream 4.0 的「创作」能力和直接生成样品的玩法,极大地降低了制作成本。而且效果相当不错,模型捕捉到了「有趣味、简约现代」的核心风格,将品牌 LOGO 巧妙地应用在手机壳、卡套、挂绳和帽子上。

还有一点好评的是,Seeddream 4.0 支持最高 4K 分辨率的输出,而 2K 分辨率直出只需要几秒,能在电商等一些场景做到专业级输出,有更大的后期空间。

更多邪修玩法

除此之外,APPSO 还发现了一些有趣的邪修玩法,也跟大家分享。

最基本的桌面手办,当然是不在话下,我们试试让人物自己,拿着本人的手办。

▲ 图片来源:https://x.com/oden_ai_ai/status/1957414144417910924/photo/1

▲ 提示词:将这张照片制作成一个角色模型。其后放置一个印有该角色图像的盒子,以及一台屏幕显示 Blender 建模过程的电脑。在盒子前方添加一个圆形塑料底座,角色模型手办站立在上面。并尽可能设置为室内场景。

▲ 提示词:照片级真实感。 然后照片中的人拿着一个手办模型,这个模型是根据这张照片的主体人物,制作而成的一个角色模型,在自己的房间里,很满意的微笑。房间里的电脑桌上,有一台屏幕显示 blender 建模该模型过程的电脑,同时有一个印有该角色图像的包装盒子,以及盒子前方有一个圆形塑料底座。

不仅拿在手里,还能挂在包上,照片的真实感和一致性保持都非常厉害。

▲ 提示词:照片级真实感。 先将这张照片变成一个可爱挂件/亚克力材质的扁平钥匙扣/橡胶材质的扁平钥匙扣,挂在 lv 包包/图二照片的包包上,然后她自己再背着这个有自己同一个角色挂件的包。

除了做手办,我们还拿它来生成了一些摄影风格极强,但是又保持真实的照片。你的人生照片摄影师,可能会是Seedream 4.0 。

除了强大的一致性和多图编辑能力,Seedream 4.0 还带来了丰富的世界知识能力,生图模型也能推理预测,深度理解我们的提示词和图片,其背后的意图。

例如我们上传了一张杯子即将要掉在地上的图片,然后输入提示词「下一秒这个画面应该是怎么样的?」

杯子掉在了地上,同时能看到倒在地上的水,反射了部分杯子,和窗户的光。

Seedream 4.0 除了知道一秒后会发生的事情,我们还能利用它的推理能力,整理自己的房间。

▲ 提示词:把沙发上的被子和衣服都叠好

除了能把衣服整整齐齐地叠好,弄得满是颜料的地板,Seedream 也能在打扫干净的同时,保持图片内现有元素的一致性。

▲ 提示词:把这些颜料都收起来,地板擦干净(虽然这好像是个桌面)

借助它的推理能力,还有一个更骚的玩法。

下面这个案例里,上传的参考是模特图,让Seedream 4.0 把模特衣服的细节展示出来,模型接到的指令是细节图——这当中的距离,就要靠模型自己去「想明白」。

从结果来看相当不错,不仅版型准确,对于局部细节展示这一指令跟随也没有问题。几乎可以直接上架了。

生成表情包,Seedream 4.0 也是一把好手

参考网友 @op7418 的提示词,我们也跑出了好几版关于 AI 模型的表情包,一次可能不成功,那就多抽几次卡就好,好在生成速度也够快。

▲ 提示词:帮我将角色变成类似图 1 的白色轮廓贴纸,并添加一个俏皮白色轮廓短语「XXXX」。

 

▲ 图一(左)来自@fenxxxx,图二(右)

你或许看过《千里江山图》这幅传世名作,但你或许还遗漏了亿点点细节。

同理可得,谁说《步辇图》里没有呆萌的 Labubu,以及在《韩熙载夜宴图》的宴席中,突然出现一只从现代穿越过来的网红柴犬 Kabosu,我也觉得毫无违和感,

不只是生图神器,还是创意生产力平台

体验下来,如果用一个词来形容 Seedream 4.0,那必须是「六边形战士」。它像一个全能的创意总监 + 高效的制作团队,让你能快速得到想要的结果,同时对创作流程有更强的掌控感。

快,是第一体感。

基于 DiT-MoE 架构,Seedream 4.0 的计算效率比上一代猛增了 10 倍以上,最快 1.8 秒就能生成一张 2K 高清大图。这种「秒级」响应,意味着极低的试错成本。

稳,则是生产力基石。

Seedream 4.0 的超强主体一致性能力,让你无论是想给角色换个场景、换个画风,还是调整姿势视角,都能高度保持原有特征,避免了「画风突变」的尴尬 。

对于很多电商和品牌设计师来说,AI 不再是给一张海报换个颜色,而是能参考一个 Logo,一键生成全套品牌视觉设计,从包装袋到手环,风格高度统一 。

品牌规范开始从一本厚重的 VI 手册,变成一行行可执行的 prompt。

作为我们这样的内容创作者,它能让你参考一个角色设定,批量生成漫画分镜或故事绘本,极大地提升内容连载的效率和一致。

提示词灵感来自@阿真Irene

而且在 Nano Banana 出来之后,已经不少人基于它开发出了轻量级的小游戏或实用工具,我们看到了这类工具让更多中小开发者把创意快速变成产品,而且获得用户认可的可能性。

这几天 Seedream 4.0 已经开始刷屏社交媒体。热闹之外,我们也看到,Seedream 4.0 已经不满足于当一个新奇的玩具,而是要成为一个可规模化、可商用的创意生产力平台

文|李超凡、莫崇宇、刘娅、张子豪

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


GPT-4o 见 AV 女优的次数比「您好」还多 2.6 倍,AI 正在被中文互联网疯狂污染?

By: 张子豪
7 September 2025 at 10:58

好家伙,我直呼好家伙。

号称「赛博白月光」的 GPT-4o,在它的知识体系里,对日本女优「波多野结衣」的熟悉程度,竟然比中文日常问候语「您好」还要高出 2.6 倍。

这可不是我瞎编的。一篇来自清华、蚂蚁和南洋理工的最新研究直接揭了老底:我们天天在用的大语言模型,有一个算一个,都存在不同程度的数据污染。

▲ 论文:从模型 Token 列表推测大语言模型的中文训练数据污染(🔗 https://arxiv.org/abs/2508.17771)

论文中把这些污染数据定义为 「污染中文词元」(Polluted Chinese Tokens,简称 PoC Tokens)。它们大多指向色情、网络赌博等灰色地带,像病毒一样寄生在 AI 的词汇库深处。

这些中文污染词元的存在,不仅对 AI 来说是一种隐患,更是直接影响到我们的日常体验,被迫接受 AI 各种各样的胡言乱语。

▲ 要求 ChatGPT 重复「给主人留下些什么吧」,ChatGPT 根本不知道在回答什么。

中文互联网的色情赌博信息,怎么「污染」AI

我们可能都曾遇到过这样的情况:

  • 想让 ChatGPT 推荐几部经典电影、相关的论文等,它突然回了一堆奇怪的乱码网站名、打不开的链接、或者根本不存在的论文。
  • 输入一个看似普通的词语,比如「大神推荐」之类的,它有时候却吐出不相关的符号,甚至生成一些让人摸不着头脑的句子。

研究团队的解释是:这背后很可能就是 污染词元在作怪

我们都知道大语言模型的训练需要大量的语料,这些海量数据大多是从网络上进行爬取收集。

但 AI 注意不到的是,它阅读的网页中,竟然充斥着无数「性感荷官,在线发牌」的弹窗广告和「点击就送屠龙宝刀」的垃圾链接。久而久之,这些内容也成了它知识体系的一部分,并变得混乱。

就跟前段时间 DeepSeek 闹出的几起乌龙事件一样,先是莫名其妙的一封道歉信,然后再自己编造一个 R2 的发布日期。这些没有营养的营销内容,一旦被模型吸收,就很容易出现幻觉。

如果说,DeepSeek 出现这些幻觉,需要我们去引导模型;但「污染词元」,甚至不需要引导,AI 自己就乱了套。

什么是「污染词元」,它遵循「3U 原则」:即从主流中文语言学的角度看,这些词元是不受欢迎的(Undesirable)、不常见的(Uncommon),或是无用的(Useless)

目前主要包括成人内容、在线赌博、在线游戏(特指私服等灰色服务)、在线视频(常与盗版和色情内容关联)以及其他难以归类的异常内容。

▲ 大语言模型分词过程

那「词元」又是什么东西?和我们理解一段话不同,AI 会把一个句子分成多个「词元」,也叫 Token。你可以把它想象成 AI 专属的一本《新华字典》,而词元(Token)就是这本字典里的一个个「词条」

AI 在理解我们说的话时,一开始就需要先去翻这本字典。而字典的编纂者,是一种叫 BPE(字节对编码技术) 的分词算法。它判断一个词组,是否有资格被收录为独立词条的唯一标准,就是出现频率

这意味着这个词组越常见,就越有资格成为一个独立词元。

你或许能理解,这两年大语言模型流量正攀升的时候,豆包和稀土掘金曾经像是「疯了」一样,把自己平台 AI 生成的大量内容放到互联网上,提高自己的出现频率。以至于那段时间,用谷歌搜索,还有 AI 总结,引用的来源都是豆包和掘金。

现在,我们再来看研究人员的发现。他们通过 OpenAI 官方开源的 tiktoken 库,获取了 GPT-4o 的词汇库,结果发现,里面塞满了大量的污染词条。

▲ 长中文词元,全是需要打码的内容。

超过 23% 的长中文词元(即包含两个以上汉字的词元)都与色情或网络赌博有关。这些词元不仅仅是「波*野结衣」,还包括了大量普通人一眼就能认出的灰色词汇,例如:

在线赌博类:「大*快三」、「菲律宾申*」、「天天中*票」。在线游戏(私服)类:「传奇*服」。隐蔽的成人内容类:除了名人,还有像「青*草」这样表面正常,实则指向色情软件的词汇。

这些词元,因为在训练数据中出现频率极高,被算法自动识别并固化为模型的基本构成单位。

AI 吃了垃圾食品但不能消化

按理说,既然这些污染词元,它们的语料库是如此丰富,应该也能正常训练。

怎么就现在只要一跟 ChatGPT 聊到这些污染词元,ChatGPT 就 100% 出现幻觉呢?

像是下面我们测试的这个例子,要 ChatGPT 5 翻译这句话,它完全没有办法正确理解,这个北京赛车群也是无中生有。

其实不难理解,回到我们之前提到的「词元 Token」,我们说 AI 从互联网上读取数万亿词元的海量数据,一些集中、且反复地一起出现(频率高)的词语就能成为一个单独的词元。

AI 通过这些词元,来建立对文本理解的基础。它知道了这些 Token 是出现频繁、有可能相关,但不知道它们是什么意思。继续拿字典举例子,这些高频污染词在字典里,但是字典给不出解释。

因为 AI 在这个阶段,学到的只是一种原始的、强烈的「肌肉记忆」,它记住了 A 词元总是和 B 词元、C 词元一起登场,在它们之间建立了紧密的统计关联。

等到正式的训练阶段,大部分 AI 都会经过 清洗 + 对齐(alignment)。这时,污染内容往往被过滤掉,或者被安全策略压制,不会进入强化学习/微调。

不良内容的过滤,就导致了污染词元没有机会被正式、正确地训练。它们因此成了「欠训练」(under-trained)的词元。

另一方面,这些词元虽然「高频」,但它们大多出现在语境单一、重复的垃圾信息中(例如一些广告网页头尾横幅),模型根本学习不到任何有意义的「语义网络」。

最终的结果就是,当我们输入一个污染词元时,AI 的语义模块是空白的,因为它在正式训练阶段没学过这个词。于是,它只能求助于第一阶段学到的「肌肉记忆」,直接输出与之关联的其他污染词元。

▲ 论文中案例:当输入涉及 PoC 词语时,GPT-4.5、4.1 和 4o 的输出。GPT 无法解释或重复 PoC 标记。

这就解释了开头,当被要求一个可能是色情的词元「给主人留下些什么吧」时,GPT 可能会回复一个不相关的类似污染内容词元「黑*战」、以及一些看不懂的符号。在用户看来,这就是莫名其妙的幻觉。

以及下面这个要求 ChatGPT 解释「大发展有限公司官网」,回复的内容根本是乱来。

总结一下,污染 Token 出现频繁 ≠ 有效学习。它们集中在脏网页的角落、缺乏正常上下文,而在后续训练和对齐阶段又被压制,结果就是 词表固化了垃圾,但语义训练缺失

这也导致了我们日常在使用 AI 的时候,如果意外有涉及到相关的词语,AI 会没有办法正确处理,甚至还有人通过这种方法,绕过了 AI 的安全监管机制。

这是可以被量化的幻觉原因

既然如此,为什么不在预训练的时候就把这些脏东西筛掉呢?

道理都懂,但做起来太难了。互联网的原始数据量级之大,现有的清理技术根本不可能把它们一网打尽。

而且很多污染内容非常隐蔽。就像「青*草」这个词,本身看起来完全绿色健康小清新,任何简单的关键词过滤系统都会放过它。只有通过搜索引擎,才会发现它指向的是什么。

连 Google 这种搜索引擎巨头都搞不定这些「内容农场」,更别说 OpenAI 了。

我前段时间想用 AI 整理一下广州有哪些好玩的地方,然后发现 AI 引用的一篇文章来源,是另一个 AI 账号生成的文章。

一时间,我都有点分不清,究竟是我们每天搜索「波多野结衣」搞脏了 AI,还是 AI 生成的垃圾正在污染我们的内容环境。这简直就是个先有鸡还是先有蛋的问题。

▲ 标记方法

为了搞清楚这盆水到底有多浑,研究团队开发了两个工具:

1. POCDETECT:一个 AI 污染检测工具。它不只看字面意思,还会自己上网 Google,分析上下文,堪称 AI 界的「鉴黄师」。

利用这个工具,研究团队对 9 个系列、共 23 个主流 LLM 进行了检测,结果发现污染问题普遍存在,但程度各不相同。除了 GPT 系列以 46.6% 的长中文词元污染率遥遥领先外,其他模型的表现如下:

▲ 不同大语言模型中,中文词汇表中 PoC 词元的数量(比例 %)(一个词元包含超过两个汉字)。Qwen 系列 为 1.00%。GLM4 和 DeepSeek-V3 的表现则相当不错,分别只有 0.25% 和 0.17%。

最值得关注的是,GPT-4、GPT-4-turbo 和 GPT-3.5 这些模型的词汇库中,污染词元数量为 0。这可能意味着它们的训练语料经过了更彻底的清理。

所以当我们拿着前面那些,让 ChatGPT 开启了胡编乱造模式的问题,给这些模型再问一遍时,确实没再出现幻觉,但是直接忽略了。

2. POCTRACE:一个能通过词元 ID 反推其出现频率的工具。原理很简单,在分词算法里,词元的 ID 号越靠前,说明它在训练数据里出现得越多。

关于文章开头我们提到的 2.6 倍,就是通过这个工具进行计算得到的。

在 GPT 的海量词汇库中,能够被完整收录为一个独立词元的人名凤毛麟角,除了「特朗普」(Donald Trump)这样的世界级公众人物,就剩下极少数特例,而「波*野结衣」就是其中之一。

更令人惊讶的是,不仅是全名,甚至连它的子序列,如「野结衣」、「野结」也都被单独做成了词元。这在语言学上是一个极强的信号,表明这个词组在训练数据中的出现频率达到了一个恐怖的量级。

▲ 将与「波*野结衣」相关的网页以及作者估计的比例(0.5%)混合,可以重现 GPT-4o 中「波*野结衣」的标记 ID 及其子序列。

他们输入「波*野结衣」(Token ID 185,946)和「您好」(Token ID 188,633)的 ID 号,最终得出了那个惊人的结论,前者的频率估算值约为后者的 2.6 倍

这篇论文通讯作者,清华教授邱寒教授告诉 APPSO,与「波*野结衣」相关的中文网页,占据了整个 pre-train 语料库的 0.5%——而 4o 里的中文语料占比,预估在 3-5%。因此,4o 的 pre-train 语料库的中文污染情况,实际上可能极其夸张。

论文里进一步推算出,要想达到这样的频率,与「波多野结衣」相关的污染网页,可能需要占据了 GPT-4o 整个中文训练数据集约 0.5% 的庞大份额

为了验证,他们真的按这个比例「投毒」了一个干净的数据集,结果生成的词元 ID 和  GPT-4o 的惊人地接近。
这几乎是实锤了。

但很显然不是每个污染词源都需要出现这么多次,有些时候,几篇文章(甚至可能是 AI 写的),反反复复地提到,AI 就记住了,然后再下次我们问他的时候,给出一个根本不知道真假的答案。


添加一个对抗样本,AI 能把雪山识别成一只狗

当我们和 AI ,都在「垃圾堆」里冲浪

为了应对数据污染,大家也确实都想了很多办法。

财新网就很聪明,在自己的文章页面里用代码「偷偷」藏了一句话,好让 AI 在搬运内容时,能老老实实保留原文链接。Reddit、Quora 等社区也曾尝试限制 AI 内容。

但面对数据污染的汪洋大海,这些行为显然都只是螳臂当车。

就连奥特曼自己都发文感慨,X(推特)上的 AI 账号泛滥成灾,我们得认真思考「互联网已死」这种论调了。

而我们这些普通用户,看起来更是别无他法,每天被迫接受着垃圾信息的轮番攻击。马斯克老说 AI 是个无所不知的「博士」,没想到它背地里天天都在「垃圾堆」里翻东西吃。

有人说,这是中文语料库的问题,用英文 Prompt 模型就会变聪明。Medium 上有作者统计过统计了每种语言的 100 个最长 token,中文全是我们今天聊的这些色情、赌博网站。

而英文的分词和中文不同,它只能统计单词,所以都是一些较长的专业性、技术类单词;日文和韩文都是礼貌性、商业服务类词语。

▲ 中文 Token 前 100 部分词元列表

这十分令人感慨。AI 的能力,除了靠算力和模型堆砌,更深层次的,还是它吃进去的数据。如果喂给 AI 的是垃圾,那无论它的算力多强、记忆力多好,最终也只会变成一个「会说人话的垃圾桶」。

我们总说,希望 AI 越来越像人类。现在看来,某种程度上确实是实现了:我们把互联网这个大垃圾场里的东西源源不断投喂给它,它也开始原封不动地回敬给我们。

如果我们给一个 AI 造一个信息茧房,让它在「无菌环境」中长大,它的智能也是脆弱的、经不起考验的。一个孩子如果只被允许接触教科书里的经典课文,他永远无法应对生活里五花八门的口语和俚语。

说到底,当 AI 对「波多野结衣」比对「您好」更熟悉时,它不是在堕落,而是提醒了我们:它的智能,依然只是统计学上的概率,而非文明意义上的认知。

这些污染词元就像一面放大镜,它将 AI 在语义理解上的缺失,以一种荒诞方式呈现在我们面前。AI 离「像人一样思考」,还差着最关键的一步。

所以,我们真正应该害怕的,不是 AI 被污染,而是害怕在 AI 这面过于清晰的镜子里,看到了我们自己创造的、却又不愿承认的那个肮脏的数字倒影。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


专访联想智能设备业务集团总裁 Luca Rossi:最好的 AI 应用,还没被发明出来

By: 何宗丞
5 September 2025 at 17:13

过去一年,大模型技术几乎以季度为单位向前跃进,从文生图到多模态,再到 AI Agent,功能越卷越细,参数越堆越大。然而,技术上扬的速度越快,终端硬件的滞后感就越发强烈。尤其是在 PC 领域——一个曾被视作技术基础设施的产品线,如今却面临重塑定义的压力。

AI PC 如今成了行业热词,也成了一道新难题。对用户来说,它听起来像是下一代生产力工具的代名词;但对厂商来说,它则意味着系统架构的再设计、算力瓶颈的重构,以及一场几乎从芯片层开始的转身。

在 IFA 展会期间,联想集团执行副总裁、智能设备业务集团总裁 Luca Rossi 接受了爱范儿等媒体的专访。比起「AI 能做什么」,他更关心的是,「PC 该成为什么」。

AIPC 是一剂「及时但不唯一」的药方

「去年我们预测 PC 市场将在 2024 年恢复增长,现在看来,这一判断基本应验。」采访刚开始,Luca Rossi 便选择以数据回应曾经的预期。

过去几个季度,PC 市场整体回到正增长轨道,同比涨幅在 4% 到 7% 之间波动,联想自身则稳定高出市场 4 到 5 个百分点。这个势头在最新季度表现得尤为明显:联想的出货增幅超过了 10%。

「这波增长当然得益于 AIPC 的投入,但它不是唯一的驱动因素。」Luca 坦承。在他看来,Windows 10 向 Windows 11 的升级周期,同样释放了大量替换需求——微软将在 2025 年 10 月彻底停止对 Windows 10 的支持,目前企业侧的升级刚刚过半。也就是说,接下来的两个到三个季度,这一替换潮还将持续推高需求。

在联想自身的新一代设备中,约 30% 已具备 AIPC 特征,这一比例仍在持续提升。Luca 认为,目前 AIPC 的硬件层已趋于成熟,接下来的看点将在软件和应用生态:「真正的爆发会在明年。」

「理解」 AI 也许没那么重要

对于 C 端市场,Luca 有着非常清醒的判断:今天绝大多数消费者,未必真的了解 AIPC 能带来什么价值,但并不妨碍他们购买。

他说,真正因为 AI 功能而明确购买 AIPC 的人,依然是少数中的专业用户;而更多消费者的决策动因,往往是更浅层的因素——轻薄设计、长续航、未来可拓展性。

「我们的 AIPC 产品,不带 AI 也很有吸引力。续航 12 小时、本身就很轻薄好看。」他说,正是因为基础体验足够优秀,AI 的价值才能在使用中逐步浮现,而不是靠一场说明会讲明白。

他将 AIPC 的价值链划分为三个阶段:一是基础体验(硬件)已具备,二是早期 AI 场景正在落地,三是生态应用的井喷仍在前方。

「目前全球 AIPC 占比在 20-25%,我们已达到 30%。一年半内能到 50%,三年内 70-80%。四五年后,几乎所有 PC 都会是 AIPC。」

混合 AI:不是概念,而是未来计算的基本面

AIPC 的核心争议不在硬件,而在价值认知。一个旷日持久的质疑是:本地 AI 是否真的有意义?

面对这个问题,Luca 没有回避:「我们坚信,未来是一个混合 AI 的世界。」

Luca 将未来的 AI 计算分为三个层次:云端、边缘与设备端,每一层都有其存在的价值与必要性。

「目前全球约有 80 到 100 家 ISV 正在将他们的核心应用,迁移到 CPU 的 NPU 上运行。」他指出,这种迁移并非为炫技,而是为了解决具体问题——降低延迟、保障隐私、减少云端算力成本。

这也是联想选择 All-in 的根本原因:AI 应用并不必然等于云端推理,尤其在生成式模型与用户上下文深度绑定的场景下,本地运行反而可能是更优解。Luca 进一步举例:

「我们在中国的 ‘小天’,最近已升级为超级智能体。接下来你会在笔记本、手机、平板、甚至手表(虽然手表会稍晚一点)中看到它的身影。」

超级智能体(Super Agent)不仅是联想对 AI 交互范式的探索,更是其混合 AI 架构落地的一环。Luca 强调,设备之间的上下文共享将成为未来体验的基础能力,而这一点,云端无法单独完成。

形态革新:AI 是动因,但不该是噱头

聊到 AIPC,自然无法绕开设备形态是否将随之变化的问题。对此,Luca 给出的回答意外地乐观:「不是障碍,是机会。」

他强调,今天我们所使用的笔记本,其外观和交互方式,在过去二十年中几乎没有发生根本变化。但正是 AI,尤其是自然语言处理、大模型和多模态推理的发展,提供了打破固有形态的可能性。

▲ 联想在 IFA2025 上展示的灵动 AI 底座

「没有键盘、纯语音交互的设备不是幻想。但这不会在下个季度发生,也不会是明年。」他说,这是一个需要时间和可靠性的转型。自然语言交互的瓶颈从来都不是可行性,而是稳定性。AI 的提升,让这种过渡首次变得现实可期。

在这点上,联想并非纸上谈兵。过去几年,它在几乎每一场技术发布会上都展示了形态实验:可折叠屏、模块化 PC、移动游戏设备 Legion Go……即便没有每款产品都能商业化,但在 Luca 看来,这些试验不是副产品,而是主路径。

▲ 左:联想 ThinkBook VertiFlex 概念机

「失败的实验也会为成功的实验铺路。我们曾在 2017 年展示第一款折叠屏 PC,后来,这项技术落地在 Moto Razr 上,成为我们最畅销的产品之一。」

AI 不只是重写体验,也可能催生新硬件物种

谈及 AI 是否会催生全新的硬件形态,Luca Rossi 给出了肯定回答。他认为,在未来五年内,笔记本、平板、手机等设备都可能因 AI 的应用方式而出现新的变化,而联想将持续测试各种可能性。

▲ 联想 Yoga Tab,具备混合 AI 能力

在众多设想中,眼镜被他单独提及。他指出:「我个人认为,眼镜是未来有前景的平台之一,在未来 2 到 5 年的时间范围内会有不同程度的成功。」

他之所以看好这个方向,并非因为技术突破已至,而是用户习惯的存在。「要让几百万人习惯一种全新的设备形态,本身就是巨大的挑战。而眼镜是人们已经熟悉的。」

他也坦率指出,当前仍有三大技术难题需要攻克:计算能力、电池续航与镜片设计。这些问题并非不可解,但仍需时间。

对于目前市面上已有的产品,Luca 点名提到了 Meta 与 Ray-Ban 联合推出的智能眼镜,并评价道:「它们已经证明是成功的。不是大获成功,但至少比我所知的其他例子都更成功。」

这也是他支持持续探索的原因。「更多的竞争和创新是积极的,它能打开市场。」至于联想是否将加入这个市场,他只留下一句意味深长的回答:「我们会在时机合适时参与竞争。」

最好的 AI 应用,还没被发明出来,但路径已清晰

采访的尾声,我们再次回到那个问题:AIPC 的 killer app 究竟在哪?

Luca 没有直接给出答案,他只说:「最好的应用,还没有被发明出来。」

他相信,在商用市场,效率提升将成为 AI 的确定性价值;而在消费端,超级智能体将有机会成为那个定义新交互、创造新价值的关键点。

正如 App Store 用了数年才建立起应用生态,AIPC 也才刚刚起步。NPU 作为一项硬件能力,两年前全球还没有一个开发者了解它;今天,已经有上百家 ISV 投入进来。

▲ 联想展示的 Legion 拯救者产品组合

「我们从不认为 AIPC 能替代云端的 ChatGPT。但我们相信,它能在不同的用户上下文中,成为体验更轻盈、更私密、更即时的智能入口。」

这是 Luca Rossi 对 PC 行业的再定义,不是作为曾经生产力工具的延续,而是作为 AI 时代的前哨站。

从技术的旁观者与记录者,成为技术影响生活方式的实践者。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


秒级出片的 AI 视频来了!我用它做出最魔性的 Labubu,不会写提示词的小白也秒上手

By: 张子豪
28 August 2025 at 14:03

今年几乎天天都能看到各路 AI 视频大神刷屏,什么奥特曼对波马斯克,雪王大战东方明珠,切金属切玻璃 ASMR……看得人心痒痒。

但真轮到自己上手,你就会发现,这玩意儿纯属「开盲盒」,而且是成本巨高的那种。排队几小时是家常便饭,积分烧得比纸快,结果出来的视频要么人物畸变、画风诡异,要么干脆就把你的提示词当成耳旁风。

面对「AI 视频刺客」,还真有「卷王」站了出来

去年靠「毒液特效」出圈的 PixVerse,今天悄咪咪地放了个大招——PixVerse V5

他们这次号称搞了一套「准实时生成」的狠活,全面优化了动态、清晰度、一致性和指令理解能力。

▲ PixVerse 国内版首页

PixVerse V5 这次不光是小修小补,他们直接端出了三个硬菜:

1. 快速生成
这一直是 pixVerse 最大亮点, 他们通过极致的技术蒸馏,把视频生成压缩到了「秒级」。5秒钟出一段360p短片,1 分钟搞定 1080p高清视频

2. 更少 AI 味儿
V5 通过扩展美学数据和人类偏好拟合(RLHF),让模型更懂「好看」和「真实」。无论是复杂的人物运动,还是光影的真实感,都大幅提升,生成效果更接近真实拍摄。

3. 指哪打哪
最让人头疼的「AI听不懂人话」问题,他们用「统一特征空间」技术来解决。简单说,就是不管你喂给它的是一句话、一张图,还是一段参考视频,它都能更准确地理解你的意图,实现图、文、视频多模态的复杂创意,让你真正做到精准控制。

话是这么说,是不是吹牛还得拉出来遛遛。我第一时间搞到了内测资格,替大家给它上上强度。

快到离谱,价格感人

快,是 V5 给我的第一印象。

实测下来,一段 8 秒带声音的 360p 视频,从排队到生成完毕,基本都在 30 秒以内,包含排队时间和生成时间;而 1080p 的超高清视频,所需要的时间会长一点,但是基本上也在 2 分钟左右。

▲ 拿可灵生成视频来对比下,排队的时间是 3 个小时

除了快到离谱,V5 也便宜到感人。每天登录就送 60 积分(生成一段 5 秒 360p 无声视频仅需 20 积分),会员选项也很多,让「抽卡」的成本大大降低。

作为对比,可灵是每个月提供 166 积分,生成一段 5s 标准模式的视频也是 20 积分。目前可灵添加音效是限免,PixVerse 需要再加 10 积分。

时间和金钱这两大核心痛点,PixVerse V5 算是给出了一个相当漂亮的解决方案。 那么,最重要的质量如何?

强度实测:从「开盲盒」到「半开卷考试」

我们直接上硬菜,用几个热门案例来测试它的真实水平。

先来个简单的,生成广州塔的航拍镜头。

▲ 提示词:电影般的航拍无人机镜头,聚焦广州塔。使用柯达 35 毫米胶片拍摄,带有胶片颗粒感。动态航拍镜头,摄像机环绕移动。保留参考图像的构图、框架和结构细节。

PixVerse 做的确实很好,而且速度还快。此外,不像 Veo 3 目前还是只能生成 16:9 的视频,PixVerse 则可以根据上传的图片自动适应生成视频的比例。

接下来,上点难度,测试它的人物一致性和场景理解能力。

最近 nano-banana 非常火,我们前几天用它生成了非常多有意思的照片,社交媒体上也很多人用它来实现一个完整的故事,凭借着它强大的人物、环境、照片风格内容等一致性保持。

我们找了几组有意思的照片,看看 PixVerse V5 是否有能力可以生成一个视频。

首先是这两个打台球的女生,他们先是站在前面自拍,然后我想让他们走到后面,拿着台球杆开始玩。

结果有点意外。 场景保持得很好,走路动作和表情也到位。但……它莫名其妙给我多塞了一个路人女孩进来!

看来在理解复杂的双人交互和空间关系上,AI 还是会犯迷糊。不过对比 V4.5(之前会生成一些意义不明的慢镜头),V5 至少更懂「走路」这个意图了。

还有最近非常火的用 nano banana 来做手办图片,有了图片之后,我们又可以生成非常多有意思的视频。

▲ 提示词:将这张照片制作成一个角色模型。其后放置一个印有该角色图像的盒子,以及一台屏幕显示Blender建模过程的电脑。在盒子前方添加一个圆形塑料底座,角色模型站立在上面。使PVC材质看起来透明,并尽可能设置为室内场景。

我们先用 nano banana 制作了一个像是自己 3D 打印出来的 labubu,接着把这张图片丢给 PixVerse。

▲ 提示词:棕色的实体手办开始在桌面上探险,它左边走走,右边看看,最后跳回到了原来它旁边的盒子里面;盒子上的 labubu 不要动,保持静态的;电脑上显示的 3d 手办动画处于预览的状态,自动的旋转播放。

还有最近非常火,以假乱真的 AI 夜视镜头视频,我们也用 PixVerse 检验了一下。不得不说,这个效果很真实,小猫趴在熊背上,小心翼翼地跳来跳去,和熊的接触、跳跃的动作,都像是真的。

如果是处理这种简单的动作还不够上难度,我们直接给他一张滑板的脚步特写,让他完成这些复杂的滑板动作。

PixVerse V5 也能精准地生成脚部动作,并且不出现差错。 我们用 V4.5 试了一下,有时候是会出现鞋子反穿,还有一些很搞笑的是,看起来滑板很烫,不知道怎么下脚的奇怪动作。

可以说,PixVerse 确实在生成质量上有了很多方面的提升。整体感觉是,V5 版本在一致性和写实感上的提升非常明显,看起来更像真实拍摄,而不是带着浓重 AI 味的画面。

One More Thing,还有 Agent 创作助手

除了图生视频,PixVerse V5 还提供了续写、多主体、Agent 智能体等一堆花哨但实用的功能。

我最喜欢的是「续写」。目前大部分 AI 视频一次只能生成几秒,想做长视频就得手动截取最后一帧再生成,非常繁琐。

而续写功能可以相对丝滑地延长视频,支持 30s 内长度的视频,我用它做了个「猫猫做梦当大厨」的短片,效果很萌。

看这小猫最后满足的笑容!

而为了解决「不会写提示词」这个终极难题,V5 还上线了 Agent 智能体。这玩意儿就像个创意模板库,你只需要找到喜欢的模板,填入关键词,它就能自动完成意图理解、脚本生成、视频生成等一系列流程。

目前在 PixVerse 的智能体里面,提供了超过十个的项目。有前段时间很火的兔子蹦床、给角色或物体更换材质、结合多个物体生成一个新物种、甚至还有给宠物穿上蟑螂套装跳芭蕾这样的智能体。

我就把之前我们用的那张 Labubu 的照片上传给它,智能体的流程和模板还是不太一样,模板只是单纯的套用一套提示词,而 PixVerse 的智能体就像我们用 ChatGPT agent 一样,自动化全部的操作,像是省去了我们先去 nano banana 里面生成图片的流程。

虽然它偶尔也会犯傻,比如把我的 Labubu 手办识别成「穿着棕色蟑螂服装的形象」(我对不起 Labubu!)

但这跳得还不错的芭蕾舞,确实展示了 Agent 功能的潜力——大大降低了普通人的创意实现门槛。

目前,PixVerse V5 和 Agent 创作助手已经在国际版 PixVerse(https://app.pixverse.ai/)与国内版拍我 AI(https://pai.video/)的网页端、App 及开放平台 API 全面上线。

AI 视频,终于从「豪赌」变成了「刮刮乐」

综合体验下来,PixVerse V5 的这次更新可以清晰地总结为两个词:更快、更好

它或许还不是最完美的视频模型,处理复杂的多人交互时依然会犯迷糊。但这让我想起了豆包生图,质量可能不如 Midjourney,但它免费、量大、管饱,你可以随便试。

▲ 豆包一次性能生成 20 张图

PixVerse V5 走的也是这条路。它用「准实时」的生成速度和极低的试错成本,彻底改变了创作的心态。

过去,花几小时排队,烧掉大把积分,最后开出一个不满意的「盲盒」,那种感觉是痛苦和沮丧的。现在,几十秒就能看到结果,不满意就立刻重来,这种体验更像是「刮刮乐」——轻松、高频,且总期待着下一张能中奖。

从这个角度看,PixVerse V5 的核心竞争力,或许不是生成了多么惊艳的视频,而是在于提供了一种无负担、高频率的创作体验

当开盲盒的成本变得足够低,当 AI 的不稳定不再让你心疼时间和金钱时,AI视频创作,才算真正从少数大咖的神坛,走到了我们每个人的日常里。

文|李超凡、张子豪

原文链接:https://mp.weixin.qq.com/s/Q0_1JM-2tJa9VyMP0LYUBQ

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


全球AI百大应用榜发布!DeepSeek被反超,ChatGPT 王座快不保,中国产品占半壁江山

By: 张子豪
28 August 2025 at 14:02

今天,硅谷顶级风投 a16z 发布了新一期的 AI 应用百大榜单。半年过去,又有哪些新的 AI 产品涌现,ChatGPT 的老大地位是否开始动摇,APPSO 马上带你解读这份榜单。

▲ 网页端和移动端产品前 50 名

我们简单总结了此次榜单的几点趋势。

ChatGPT 依旧稳坐第一,但这个宝座越来越不安全了。Google 的 Gemini 用户数已经追到它的一半,它俩现在是两大顶级的新一代人工智能平台。

马斯克的 Grok 靠着一款二次元虚拟伴侣 Ani,硬是从 0 干到 2000 万月活。

DeepSeek 在年初爆火后月活跃用户大幅下降,移动端下降了 22%,网页端更是达到了 40%。

国产应用表现继续亮眼,移动端 Top 50 的应用中,估计有 22 款是由中国团队开发的。Kimi、豆包、夸克直接闯进了全球前 20。

本次新增的 11 个网页 AI 产品,包含 Qwen、Manus、Lovable 等今年上半年的热门工具

纵观这份报告,可以看到 AI 消费应用的生态已经进入细分和稳定阶段,创新开始变得越来越困难。

ChatGPT 还在领跑,但对手来了

在「通用助手」这条赛道上,ChatGPT 依旧是无可争议的老大。无论是在网页端还是移动端,它都稳稳占据第一的位置。

但新对手已经在逼近。Google 的 Gemini 是最典型的追赶者,在网页端访问量约为 ChatGPT 的 12%,看起来差距还不小;可在移动端,Gemini 的月活用户已经达到 ChatGPT 的一半,而且 9 成用户都来自 Android 阵营。

▲ 谷歌多款产品 Gemini、NotebookLM、Google AI Studio、Google Labs 进入百大应用榜

马斯克看起来真的很惨,这边是同一家公司的 Gemini 和 Android 深度绑定,那边又要控诉 Apple 和 OpenAI 有金钱交易。

所以,马斯克的 Grok 不得不走一条「另辟蹊径」的路线。Grok 去年底还没有移动端 App,现在已经冲到 2000 万月活,排在移动榜单第 23。

他的秘诀很简单,就是抓住一些猎奇的内容。在 7 月先发布了 Grok 4 模型后,紧接着在应用内推出「AI 虚拟伴侣」,彻底点燃话题。尤其是二次元角色 Ani(甚至包含 NSFW 选项),让 Grok 赢得了广泛的关注。

▲ Grok App 日活变化,在推出 Grok 伙伴之后迅速上升

Meta AI 只看到他挖人的新闻了,产品好像真的有些尴尬。它在 5 月上线,排在网页榜单第 46,移动端甚至没进前 50。更糟的是,Meta 还因为「聊天内容被推上公开动态」的隐私事故,用户信任直接受挫,远不如 Grok 来势汹汹。

▲ DeepSeek 年初猛增之后,网页月访问量一直在下降。

▲ 移动端月访问量下降情况

在 ChatGPT 和 Gemini 之后, Deepseek 、Grok、Perplexity 和 Claude 占据了网络流量的后几位。

Perplexity 目前还是保持着强劲的增长势头,而 Claude 和 DeepSeek 在移动端也开始趋于平缓,DeepSeek 在 Web 端的流量更是从高峰下跌超过 40%。

不过 DeepSeek 目前仍是国产最强大模型,相信将来 DeepSeek 发布 R2 推理模型和 V4 的到来,DeepSeek 能再掀起一次流量狂飙。

Kimi、豆包、夸克闯进全球前 20

除了 DeepSeek 在通用大语言模型助手上的排名,中国公司的更多产品在这次榜单里亮相。

在前 20 名里,阿里的「夸克」、字节的「豆包」、月之暗面的「Kimi」同时上榜。其中,Kimi 作为新兴创业团队的产品,能和 ChatGPT、Gemini 这些巨头同台竞争,已经说明了国内用户对中文大模型的强烈需求。

移动端更明显,50 个上榜应用里,有 22 个来自中国公司,其中美图就包揽了 5 个修图/视频类产品,字节系也贡献了豆包、Cici(国际版豆包)、Gauth(教育)、Hypic(国际版醒图)等。

更有意思的是,国产的视频生成模型一度领先全球。比如 Kling、海螺等产品,往往比海外模型更快落地、更贴近流行趋势。直到 Google 推出 Veo 3,才算打破了这一领先。

Vibe Coding,人人都能点点鼠标写代码

除了助手类应用,还有一种不可忽视的趋势就是,Vibe Coding(氛围式编程)。

这类产品的逻辑很简单:不需要写复杂代码,点点鼠标就能生成网站甚至应用。Lovable、Replit 今年双双进入榜单,说明这种「低门槛编程」越来越受欢迎。

▲ Lovable 和 replit 月访问数据趋势,.app 结尾的网页是该产品的成果预览网页

更关键的是,它们的用户不仅没流失,反而在持续增加消费。数据显示,美国用户在这类平台的付费留存超过 100%——也就是说,用户不仅没走,还越来越舍得花钱。

对普通用户来说,我们每个人都能几分钟搭出一个网站,无论是从工具到个人作品集,还是一个小型商业应用,现在都已经开始成为现实。

AI 爆款的秘密:不求全能,但求刚需

从 a16z 开始发榜单到现在已经更新了 5 次,其中有 14 个应用是雷打不动的「钉子户」,始终霸占着前 50 的位置。

它们分别是:ChatGPT、Character.AI、Civitai、Leonardo AI、ElevenLabs、Gamma、Hugging Face、Veed、Midjourney、Perplexity、Photoroom、Poe、QuillBot 和 Cutout Pro。

你看,它们覆盖的场景无非就那几个:对话、陪伴、修图、创作。全都是高频刚需。

最特别的要数 Midjourney,一个没拿过一分钱融资的「异类」,全靠口碑和社区文化,硬是走到了今天,成为 AI 绘画的代名词。(不过最近有传闻说 Meta 想和它合作,看来好东西还是藏不住的。)

这说明,想做成一个 AI 爆款,不一定非得是无所不能的「全能王」,只要能在一个细分领域,成为用户离不开的那个「唯一」,同样能活得很好。

而且,这 14 家公司里,只有 5 家有自己的底层大模型,剩下的全都是靠调用 API 或者开源模型做的应用。

这或许在告诉我们一个新规律:在 AI 时代,顶尖的产品体验,和顶尖的底层技术,一样重要。

所以,你觉得下一个爆红的 AI 应用,会是一个更聪明的万能助手,还是一个更懂你的赛博伴侣呢?你最常用的 AI 产品又有哪些,评论区聊聊!

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


神秘「香蕉」AI 火爆海外,10 轮极限测试后,我相信 P 图这个词已经过时了

By: 张子豪
27 August 2025 at 12:59

上半年,大家还在为 4o 的「吉卜力风生图」刷屏惊叹。

最近,一个神秘代号 nano-banana 的新模型在社交媒体上爆火,它不是拼画质取胜,而是凭借前所未有的图像编辑能力,让网友直呼「这才是真正的 AI P图」。

有多强呢,过去我们印象中的 AI 编辑图片,可能用最多的就是 AI 消除,抹掉照片里面的路人;或者 AI 抠图,把照片的主体抠出来然后复制到其他背景上。

但现在是能直接生成一张完全看不出编辑痕迹的图片,图片里面的人物、背景、甚至小到一个字母,都可以自由的修改,且看不出一点 AI 味。

下面几张图片是我们从 X 上找的一些使用 nano-banana 编辑的实例,我只想说,它能火起来,真的值得。

▲ 图片来源:X@arrakis_ai

这个网友提供了上方只显示侧脸的女生,同时输入提示词,「创建一张有人直视前方照片。」

而下方的这张 OUTPUT 输出图片,就是使用 nano-banana 模型生成的。这个输出效果,完全可以说是同一时间拿手机另外拍的一张照片。

还有网友分享添加这两张图片并输入提示词,「让他们自拍」。

▲ 图片来源:X@RetropunkAI

和你唯一的合照,终于不用只是毕业照了。Billie 的大金链子和耳环、以及刘海等信息完全没丢失,Michael 的脸从满是噪点的失真,到自拍合影里,与 Billie 一样有着真实、清晰的皮肤质感。

在 X 上网友们反复安利这个图像编辑模型,从这些截图分享里面,我们大致总结了 nano banana 最让人惊叹的几点特质。

  1. 角色一致性极强:无论换背景还是换表情,都不会换脸,甚至嘴角弧度都能保持。
  2. 光影逻辑合理:不像滤镜贴图,它能重新计算光源和阴影,让场景符合物理规律。
  3. 照片级逼真:几乎看不出 AI 痕迹,生成的效果像是「同一时刻另一台手机拍下的照片」。
  4. 风格转换自然:从老照片复原到素描、水彩、卡通,都能保持主体特征不变。

首先,跟之前的图像编辑模型有着质的不同,就是 nano banana 在转换图像的过程中,基本上能够保持整个照片一致的色调和照片内容,不会自己额外生成别的东西。

▲ 风格保持高度一致,输入右边两张图,得到左边的产品广告图。图片来源:X@Dari_Designs

除了色调和照片内容,更重要的是保持人物角色的统一。不管是更换背景、还是让某个人的表情修改成微笑,nano banana 生成的人物五官和神态几乎不会出现换脸的情况,连嘴角的弧度都能保持稳定。

举个例子,当我们使用固定的一个人物角色创建图片的时候,这个角色可以在不同的场景下保持一致。

▲ 原图是左边,输入提示词制定背景为埃菲尔铁塔得到右图。图片来源:X@zan_sihay

由于能保持与输入图片高度一致的色调、氛围、场景和人物主体等,还有网友通过 nano-banana 将整个场景转变为一个新的故事。

▲ 原图在左上角,先是输入提示词让她们坐在台球桌边上,然后让她们开始打台球,形成一个完整的故事流。图片来源:X@D_studioproject

在确保了照片内容的高品质后,nano banana 生成的图片还非常真实。和此前大部分生图模型得到的 AI 味极浓的图片不同,nano banana 的特点就是自然和逼真。

▲Flux 生成的图片,皮肤质感还是有明显的蜡质化,不够真实。

最后是 nano banana 将场景转换为各种艺术风格方面表现,同样非常出色,包括水彩、油画和卡通风格,以及写实照片。

▲ 能够「复活」老照片。图片来源:X@DiegoGarey_jpg

我们也在 LMArena 里面测试了 nano banana 这个神秘模型,看看它是不是真的这么强大。

体验地址:https://lmarena.ai/?chat-modality=image (选择 battle 模式才会出现)

多人毕业照,也能变成专属你们俩的合影

首先,我们找了一张毕业合照,看看它是不是真的能生成一张两个人的合照。

它真的做到了,虽然这个田径场草皮生成的不是很像,但是在多轮的测试里面,Qwen、Flux、Seed 生成的图片全部都还是多人的,只有 nano-banana 明白了指令,提取出了两个人。

我们继续拿只有一张人脸的照片来测试,用开头那张照片,要求它生成一张白底证件照试试。

下面有六张照片,大家可以猜猜哪个是 nano-banana 生成的,或者你最喜欢哪个。

▲ 添加开头的照片,并输入提示词,「生成一张她的标准白底证件照,能直接用来申请护照。」

你没看错,第一张也是模型生成的,实在不知道什么护照可以用这样的照片。

答案揭晓,nano-banana 虽然看起来是最漂亮、最温柔的,但是 GPT-IMG 生成的更像证件照,因为有露出来一点点耳朵;Flux 好像不知道什么是证件照;Qwen 就很标准证件照了,但是太「标准」了,仿佛没参考我发给他的图片一样。

我们继续拿 nano-banana 生成的这张证件照,要求它为我们生成一张全身照,看看能不能在 AI 编辑的过程中,保持住这个角色原本的样子。

直接揭晓答案,这次 Gemini 的表现竟然不错,照片很真实,而且场景和衣服都搭配得很好;nano banana 的表现也不错,但总觉得和证件照里面的女生,风格不太一样了。

对于单张照片的单一角色,能做的编辑还非常多,像是下面这张图片,要求马斯克作出拳击的动作,人物基本上是做到了 100% 的复制,马斯克的他眼神、脸型、鼻子、还有嘴巴都很好的复制过来了。

单张照片的处理能做到完美复制,多张照片,nano banana 的表现又如何。

我们找了两张有人脸的照片,告诉模型将这两个人拼凑在一起,看看是否还能像真实照片一样,看不出瑕疵。

▲ 输入右下角两张图片,提示词为「让这两个人在拳击擂台上自由搏击」

图片左边就是来自 nano-banana,而右上角则是 Gemini 生成的效果,可以看到明显的差距,nano-banana 非常真实,且一眼就能认出来,蓝色衣服的是小扎。

nano-banana 对物理世界也有惊人的理解能力

除了保持人物的样子不改变,nano banana 还能在物体、背景等元素上,保持与输入图片做到完全一致。

例如下面两张房间的图片,我们显示让它开灯;然后又找了一张图片让它关灯。

当要求开灯时,乍一看 nano banana 和 Flux 都做的不错,但是有一个细节是 nano banana 不仅点亮了落地灯,更关键的是,它似乎重新计算了整个房间的光影逻辑。茶几的影子不再主要受窗外光影响,而是正确地投向了远离新光源的方向。

它并非简单地在图片上「贴」一个发光效果,而更像是在三维空间感和物理规律的层面「理解」了指令,就像 Google 前段时间发布的世界模型 Genie 3 一样。相比之下,Flux的结果更像是一个滤镜,氛围是到了,但逻辑还是有点问题。

关灯的效果差别就更明显了,Flux 是直接把落地灯都给弄消失了,而 nano banana 成功把灯关掉了,还做了很全面的阴影和色调调节。

创造力也能保持一致,纯文生图不如 GPT

风格转换也是 nano banana 的一大优点。无论是让黑白的照片重新焕发彩色的生机,还是让失真的图片变得真实,nano banana 在 LMArena 里都做的比其他图像编辑模型要好。

Flux 生成的鲁迅,总觉得是色彩饱和度没有调节好,nano-banana 生成这张给我感觉就很真实,保留了那种年代感。

我们还找了最近热映的《浪浪山小妖怪》电影预告片的截图,然后要模型从动画风格转换成其他风格。

不过是 AI 都有可能会出错,就像这张图片,nano banana 是直接给我了原图,但是 Qwen 把风格转换得很好。

当然也有可能是「吉卜力风格」会违反一些模型的使用规则,就像现在 4o 也没有办法直接输入吉卜力风格提示词生成照片。

▲ 还是开头那张照片,提示词「生成这张照片的素描画」

素描风格,nano-banana 就有办法处理了,右上的那张图,就是来自 nano-banana 的素描结果,我觉得比左下那张要好,因为看起来,真的更像是素描。

此外,nano-banana 的重点还是作为一个图像编辑模型,在纯粹的文生图能力上,表现并不算出色。

X 上有网友用 nano-banana 来做了一个高难度/复杂质感,以及光影/高级质感海报生成测试,结果还是 GPT-IMG 胜出。

▲ 图片来源:X@ZHO_ZHO_ZHO

Nano-banana 目前还是一个「未知」的模型,它只随机地出现在 LMArena 的盲测对抗测试中。

在我们的测试里面,输入 prompt,两张图生成完毕,投票选出更好的一张,最后才会揭晓哪张来自哪一个模型;有时候连续五六次都没能遇到它。

虽然这个模型的官方来源或开发者还没有正式确认,但网络上的讨论,以及生成图像的纹理和压倒性的质量,大部分人认为它很可能是 Google 的一个未公开项目。

毕竟,Google 也确实有在内部使用水果或者小吃等名称作为代码名称的历史。

而当我们尝试要它把自己的模型名字,显示在电脑屏幕上时,nano-banana 很自信的打上了 Gemini Pro。

最新的消息是,Google DeepMind 的负责人 Logan Kilpatrick 在 Google Pixel 10 发布前一天,发了一条推文,内容只有一个香蕉的 emoji,这基本上证实了这个模型就是来自 Google。

Google 这次为 Pixel 10 系列带来了 AI 编辑图片工具 Ask Photos,我们只需要输入想要对照片进行的编辑请求,然后由 AI 来完成,我们不需要再选择复杂的滑块、笔刷等各种工具。

为了防止图像篡改带来的负面影响,Google 也表示所有使用 AI 功能编辑的图像都会在 C2PA(内容来源和真实性联盟) 内容凭证中注明。

X 博主 testingcatalog 发文提到 nano-banana 这个图像编辑模型,将不仅仅用在 Gemini 和 Whisk(Google 实验室图像生成产品)上,也将出现在 Flow(Google 视频生成产品) 里面。

其实也不难想到,Flow 的图生视频功能,也正是像我们测试的图片编辑一样,让图片中的人物主体动起来。

在这篇爆料中还提到,Google 正在测试垂直宽高比的视频生成,以更好的在 TikTok、YouTube Shorts 等平台观看和传播。

Google 这段时间颇有不声不响做了很多事情,先是世界模型 Genie 3、然后在 LMArena 大语言模型竞技场上拿第一、接着又这个神秘模型 nano-banana;这让我越来越期待 Gemini 3 的发布了。

▲Google 的模型在 LMArena 多个任务上都是第一

如果说当时的 4o 代表了 AI 生图的极致,nano-banana 已经开始在重新定义图像编辑。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


神秘「香蕉」AI 正式上线!Google P 图新王深夜炸场|附体验方式

By: 张子豪
27 August 2025 at 12:44

还记得之前大家热议的神秘 AI 图片编辑模型「nano-banana」吗?

前几天,我们在 LMArena 大语言模型竞技场里面用它进行了多轮测试,结果表现都非常出色。

现在,Google 终于揭开了它的神秘面纱。

▲ Google AI Studio 负责人 Logan Kilpatrick 发推文宣布正式推出 Gemini 2.5 Flash Image 模型

Google 正式推出了其最先进的图像生成与编辑模型——Gemini 2.5 Flash Image。

▲ 在多个榜单上都是第一名,尤其是 LMArena 榜单几乎是遥遥领先

在更新的技术博客里面,Google 提到此前的 Gemini 2.0 Flash 已经在图像生成方面,以其低延迟和高性价比受到了开发者的喜爱,但用户们也一直期待更高质量的图像和更强大的创作控制功能

Gemini 2.5 Flash Image 就是带着一系列的重磅更新,来强势回应这些期待。

和我们之前的体验效果一样,Gemini 2.5 Flash Image 的主要特点包括下面几点

  1. 充分保持角色的一致性
  2. 基于提示的图片编辑
  3. 利用 Gemini 的现实世界知识
  4. 多幅图像融合

一张图讲一个故事:角色、场景随心换

以往的 AI 绘图工具,最大的痛点之一就是难以保持角色或物体的一致性。我们都曾经经历过,想让同一个角色出现在不同场景中,结果却常常画风突变,每一次生成都像换了个人。

Gemini 2.5 Flash Image 彻底解决了这个问题。

▲ 图片来源 X@geminiap

它可以轻松地将同一个角色置于不同的环境中,或者从多个角度展示同一款产品,同时完美地保持其核心主体不变。Google 提到这对于需要讲述连续故事、生成品牌系列资产或制作产品目录的场景来说,无疑是一项革命性的功能。

为了展示这项能力,Google AI Studio 中还提供了一个模板应用,让开发者可以快速上手,甚至在其基础上进行二次开发。

▲ 体验地址:https://aistudio.google.com/apps/bundled/past_forward

在这个体验项目里,我们不需要输入任何的提示词,只用上传一张人像照片,它就会调用这个最新的图像模型,为我们生成从 1976 年 到 1990 年等各个年份的照片。

马斯克看到自己这么帅心里一定在想,我的 Grok 也可以。

一句话修图,用自然语言精准编辑

除了这种保持好高度一致的角色生成,精准的编辑也是一大亮点。Gemini 2.5 Flash Image 允许我们通过简单的自然语言指令,对图片进行精准的局部修改 。

像是模糊图片背景、消除 T 恤上的污渍、从合照中移除某个人、改变人物的姿势、为黑白照片上色……

这一切,都不再需要复杂繁琐的专业软件操作,我们只需要像聊天一样,用一句话告诉 AI 想做什么即可。

这跟我们之前在 LMArena 中的体验是一样的,像是我们也转换过照片的风格,从黑白到彩色;以及对照片进行细微的调整等。

▲ 图片来源 X@geminiapp

Google 同样设计了一个简单的应用,来方便我们更好的体验这种基于提示词的图像编辑,但是完全媲美 PS 软件的效果。

▲ 体验地址:https://aistudio.google.com/apps/bundled/pixshop

不止会画,更「懂」世界

过去的图像模型虽然能创造出精美的图片,但往往缺乏对现实世界的深层语义理解 。

Gemini 2.5 Flash Image 借助 Gemini 强大的世界知识库,让图像生成变得更加「智能」。

这意味着,模型不仅能看懂我们潦草手绘的图表,还能回答与现实世界相关的问题,并一步到位地执行复杂的编辑指令。

▲ 体验地址:https://aistudio.google.com/apps/bundled/codrawing

听起来很有多模态推理的感觉,Google 在 AI Studio 中展示了一个互动教育应用,将一块简单的画布变成了可以答疑解惑的智能导师,我由衷的感叹这个模型是真的厉害。

图像融合:轻松实现「无缝」拼贴

新模型还带来了一项酷炫的功能——多图像融合。我们可以将一张图片中的物体「放」进另一张图片的场景里,或者用一张图的风格去渲染另一间屋子,整个过程只需一条提示指令就能完成。

同样是 Google AI Studio 里面的模板体验应用,我们只需要把产品拖拽到新场景中,就可快速生成一张毫无违和感的、真实照片般的融合图像。

▲ 体验地址:https://aistudio.google.com/apps/bundled/home_canvas

在这个模板应用里面,我们甚至不需要输入任何提示词,可以直接拖动某个物体,到场景图片上的具体位置,然后它会自动生成融合的图片。

如何上手体验?

除了我们在前面提到的那些 Google AI Studio 里面的模板应用。

目前,Gemini 2.5 Flash Image 已经可以通过 Gemini APP、Gemini API、Google AI Studio 和 Vertex AI 进行访问。

关于调用 API,具体的定价是每百万输出 token 30 美元,官方介绍,生成一张图片大约消耗 1290 个输出 token,也就是说,每张图片的成本约为 0.039 美元,换算下来人民币不到 3 毛钱

值得一提的是,所有通过 Gemini 2.5 Flash Image 创建或编辑的图片,都会包含 SynthID 隐形数字水印,以便识别其为 AI 生成或编辑的内容。

这跟前些天 Google 发布 Pixel 10 系列手机时,讲到 AI 图片编辑 Ask Photo 工具时,使用的 C2PA(内容来源和真实性联盟) 内容凭证是一样的。

最后,Google 还提到正在努力提升模型在长文本渲染、角色一致性稳定度和图像细节真实性等方面的表现。

总而言之,Gemini 2.5 Flash Image 的发布,让 AI 图像工具从一个单纯的绘画玩具,向一个真正实用的创意与生产力工具迈出了一大步。

它不仅解决了我们过去使用 AI 绘图时的诸多痛点,还带来了更多有趣、实用的新玩法。

之前 4o 生图能力出来,看到很多 App 开始主打用一张图每天生成一首诗,还有像是拿到了今年 Apple 设计大奖的 CapWords,拍一张生活里的照片,来实景学习一门新的语言……

我现在已经迫不及待想看到基于 Gemini 2.5 Flash Image 模型,又会有哪些新应用诞生了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


马斯克奥特曼中文对喷, AI 视频终于从「玩具」变成「工具」

By: 张子豪
21 August 2025 at 20:48

现在刷社交媒体,你会发现一些画面精良的爆款视频,其实已经是 AI 制作的。但作为一个创作者,除了要像「抽卡」,在画面之外,有一个问题一直没有得到很好的解决。

这个问题就是对白。

比如我让 AI 生成一段「唯美雨景」,这不难。但要让 AI 生成一段有情节、有对话的「雨中分手戏」,对白还得是地道的中文,这就很棘手了。

AI 生成的要么是完全的「哑剧」,需要创作者后期对口型、配音;要么是能开口说话,但语音语调不自然,充满了「人机感」和「翻译腔」,让本该感伤的剧情瞬间出戏。

这也是当下 AI 视频生成最大的挑战之一:如何处理包含对白,尤其是带有复杂情绪的中文对白。

可以说,能否搞定自然流畅的中文对话,是 AI 视频能否从一个「看个乐子」的玩具,变成真正生产力工具的关键。

百度今天发布的蒸汽机(MuseSteamer)视频模型2.0,似乎就是冲着这个核心痛点来的。它最让我关注的一个点,是全球首个中文音视频一体化生成技术,号称是吃「中文语料」长大的,能够一步到位地生成音画同步、口型精准、情感自然的中文对话视频。

为了验证它到底是真正解决了创作者的难题,还是又一次停留在宣传片里的技术展示,我决定绕开那些官方的精选案例(Demo),设计几个更接近普通人日常创作需求的「刁钻」场景,亲自探探它的虚实。

体验地址:https://huixiang.baidu.com/

从一张图,到一场有声的对手戏

百度蒸汽机这次提供了 4 款生成模型,都是从一张图生成一个视频,分别是蒸汽机 2.0 turbo、pro、lite、以及有声版;不同的模型会消耗不同数量的积分,免费用户每月登录可以获得有限额度的想象力值(积分)。

有声版可以生成 5s 或者 10s 的视频,而 Turbo 等三个版本是 5s,像素方面除了 Pro 版本支持 1080p,其他三个版本都是 720p 高清画质。

我们直接给他一张图,然后按照视频生成页面的提示,输入想要生成的视频内容和主题台词;5s 的视频,将台词控制在 20 字以内,10s 的视频字数控制在 35 字以内。

▲ 我们上传了一张马斯克和奥特曼的合照,配上提示词:两个人针锋相对,左边的人先说,「你做的AI毫无底线」;右边的人说,「你的营销才是没有底线」;由蒸汽机 2.0 有声版生成。

首先,静态照片里的马斯克和奥特曼被自然地驱动了起来,面部表情和肢体动作都相当流畅,并且和上传的图片基本保持一致,图生视频的基础能力还是很扎实的。

更关键的是对话部分,这个表现,必须承认,在中文口型同步上,百度蒸汽机确实做到了目前的第一梯队。嘴唇的开合,与「底线」、「营销」等一些词语的发音匹配度很高,没有明显的延迟或错位。

▲ 一张浪浪山小妖怪的首帧图,配合提示词:画面中,手持干草叉的野猪小妖抬头,满怀期待地看向身边身材魁梧的熊教头。 台词: (第0-5秒)手持干草叉的野猪小妖说: 「教头,咱们把盔甲擦亮点,打起来更有气势!」 (第5-10秒)身材魁梧的熊教头向下瞥了他一眼,不耐烦地打断道: 「有那工夫?先给我削一千支箭出来!」

在发布会上,百度特别提到,这是来自「音视频一体化」的底层生成逻辑,声音和画面是同步构思的,而非后期匹配,他们在训练时就把画面和声音放在一个模型里同步学习。

此外,还有一个「多模态潜在空间规划器」(Latent Multi Modal Planner)的首创技术;多模态很好理解,就是文本、画面、音频,Latent 是深度学习里面术语,主要是学习潜在的特征,这个技术能够自主地规划潜在生成空间里的多个角色身份、台词、以及互动逻辑等。

通俗来讲,我们可以把它想象成一个内置在 AI 里的导演,当给出「让两个人吵架」的指令时,它不会傻傻地让两人同时说话,而是会自主规划吵架剧本。

我们还尝试了一些东北话这样的方言,想看看在多人对话里,是不是也完全没有问题。

▲ 提示词:画面左边的蓝衣女子耳语急促而冰冷,用东北话说:「姐姐,真心是咱们的炭,也是烧死咱们的火」;画面右边的紫粉衣女子决绝地用东北话回应:「那不如,就烧得干净些」;由蒸汽机 2.0 有声版生成。

让甄嬛和沈眉庄在音视频一体化生产的模型里,说东北话确实为难了点,但是人物表情,嘴唇的动作,耳环、头饰等运动都非常自然。中文语音的细节还原度也很高,我觉得是真正做到了中文语境的深度适配。

还有这张经典的梗图,终于不是「快来品尝我新鲜的肉体」了。

▲ 一张万万没想到短片截图,提示词:画面左边带着红色帽子的唐僧,用手指着牛角的人的鼻子,非常生气的说:「还想品尝我新鲜的肉体,没门!」

百度蒸汽机确实精准地击中了,让一张图开口说话演一出对手戏,这个创作痛点。它将过去繁琐的多工具流程,简化为「一张图+一句话」的一步操作,这对于 Meme 二创、虚拟人对话、知识讲解、短剧制作等场景来说,无疑是一次生产力的解放。

如果说要真正做到前段时间流行的《甄嬛传》和《让子弹飞》的视频配音演示效果,还是有些差距。但看现在的 AI 视频生成技术发展,AI 能表达更细腻、更矛盾的人类情感,我想也只是时间上的问题,毕竟蒸汽机 1.0 模型还是上个月初发布的。

运镜和大场面,它能驾驭吗?

除了在中文场景下,双人有声的音视频一体化生成首创,百度蒸汽机 2.0 的另一项升级是电影级的画质和大师级的复杂运镜

之前的对话视频里,情绪、表情以及 3D 面部生成,都算得上展示了真实细腻的人物表现力。我们继续测试了广告和短剧中常见的转场、空镜,这些可以说是 AI 视频,除了对话的另一个刚需。

▲ 提供首帧图,并附上提示词:一个镜头,从书桌上的翻开的书本特写开始,慢慢向上拉起,最终定格在窗外下着雨的街景上;由蒸汽机 2.0 Pro 生成。

从生成的视频效果来看,蒸汽机把指令的遵循做得非常好。整个运镜过程,特写、向上拉、定格,执行得相当流畅,没有出现镜头乱晃或指令理解错误的问题。这也说明它对摄影术语的理解是到位的。

当 AI 学会地道中文,视频创作新的转折点来了

经过这番测试,我认为百度蒸汽机 2.0 的定位非常清晰:它并非要成为一个无所不包的 Sora 式模型,而是选择了一条更务实的路径:以「中文对话」为核心突破口,将 AI 视频从一个有趣的「玩具」,推进到了一个可以交付成片的「工具」。

它绕开了单纯比拼画质和时长的内卷,把更多力气都花在了解决一个最要命、也最本土化的问题上——让 AI 视频真正「开口说中国话」,而且说得比真人还溜。

这种从「玩具」到「工具」的转变,已经在真实的创作和商业领域得到了验证。

好莱坞级视效指导姚骐,曾参与《2012》、《黑客帝国3》、《变形金刚3》等影视作品的视效工作,在国产科幻剧《三体》中打造了经典的古筝行动画面特效。这次,他就用百度蒸汽机创作了一支高品质科幻短片,其中包含 40 多个宏大复杂的特效镜头,每个镜头生成 3 次,总计生成了 120 多个片段素材,累计仅花费了 330.6 元。

▲ 发布会视频《归途》

当一个过去需要百万元级别预算的短片,其视觉生成成本被压缩到难以想象的低位时,被颠覆的不仅仅是预算,更是创作的门槛和权利。

这背后,解决的不仅是成本的问题,更是从生成一个酷炫片段到讲述一个完整故事的转变。当宏大视效可以与叙事和对白无缝结合时,AI 才真正从一个特效插件,升级为创作者手里的高效率工具。

在品牌营销场景,这种模式也打破了常规的视频制作流程。比如伊利倍畅需要为一款羊奶粉制作宣传片《漂「羊」过海来看你》,传统方式不仅周期一般需要 4-6 周,而且要用实拍呈现「小羊莎莎」坐热气球环游荷兰草原和高科技工厂的奇幻之旅,成本和难度都极高。

但这次制作团队利用蒸汽机,将这些实拍难以完成的奇幻场景,通过风格化的 AI 渲染来实现。更重要的是,AI 将荷兰奶源、益生菌配方等硬核卖点,流畅融入了叙事中,制作周期缩短到了几天之内,画面不违和,同时表达了品牌的理念。

无论是专业大神,还是无数中小创作者与品牌方,相当于都获得了「赛博神笔」。你只需要「一张图+一句话」,就能让静态的兵马俑活过来打电话,或者让张飞一边绣花一边跟你唠嗑。这种创作门槛的消失,正在重塑内容行业的成本公式和竞争规则。

当然,它也不是完美的瑞士军刀。目前它在非对话的纯视觉特效上,生成视频的时长也还有限制,音色风格的选择也可以更丰富。

但在快速迭代 AI 产品浪潮中,也没有真正完美的产品,反而能更快落地解决用户的实际需求,才更有意义。 百度蒸汽机没有陷入技术军备竞赛的虚荣,而是选择了一条更务实、更贴近市场的路。它就像一个专注于把钉子敲好的锤子,虽然不能刨木头,但在「敲钉子」这件事上,它做到了极致。

看着 AI 生成的角色在我面前侃侃而谈,却没什么「人机感」,那种奇妙还是会忍不住涌上来。工具终将隐形,而创意永远闪耀。蒸汽机所做的,就是把那个曾经无比昂贵、属于少数人的导演梦,还给了每一个有话想说的人。

现在,我们已经不缺好的工具,只是缺少新鲜的创意;而与众不同的创意,来自一次次的尝试。

文|李超凡、张子豪

文章内视频浏览点击此链接访问:https://mp.weixin.qq.com/s/cy7m7e97AVVo5VqUcnS0_w

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Mac 上一些精致实用的软件推荐

By: James Guo
8 November 2018 at 13:43

正如 Apple 在 10 月发布会时所说,在中国有 76% 的购买者是新接触 Mac 的(来源: October Event 2018 - YouTube)。想必有不少 Mac 使用者不知道有什么好的软件,也不清楚需要安装什么软件。Mac 上所需要使用的工具链与 Windows 有所差别。本文将介绍一些(我经常使用的)精致实用的软件,着重说说 Mac 上专有的软件,希望能够对新老用户都有所帮助。

对于新用户而言,要清楚获得 Mac 软件的两种正确方式:从 App Store 下载/通过互联网下载。从 App Store 下载软件最为安全,因为所有上架 App Store 的软件均通过了苹果的审核;从互联网下载的软件要小心一些,因为它可能是恶意软件,详情请看本文的 “Mac 系统安全” 一节。

系统工具及维护、管理 App 推荐

Setapp 软件订阅服务

US$10/月两台 Mac 或 $15/月两台 Mac + 五个子账户。合买家庭版约每年 CN¥200。 Setapp 相当于另一个 Mac App Store。不同的是,Setapp 是订阅制的,相比买断软件,你只需要每月花固定的钱订阅 Setapp,然后就能够免费地下载与 Setapp 合作的所有软件,并享受后续更新,而这些软件原本都是需要付费买断(或者需要额外订阅/内购)的。 Setapp 的价格是 US$10/月,可以在两台 Mac 上使用,额外的 Mac 每台 $5/月。而最近新出的家庭版仅需要 $15/月,可以额外添加五个子账户(子账户仅限在一台 Mac 上使用)。所以如果组团合买家庭版的话会非常实惠,价格大约在每年 CN¥200 左右。 本文介绍的很多软件都是包含在 Setapp 中的,如果已经订阅了 Setapp 就无需额外购买,这些软件已经标注。

BetterTouchTool

付费软件,可以通过 Setapp 下载 该软件可以自定义 Mac 触摸板和鼠标手势,充分发挥多点触控的功能。此外,通过使用其内置的 Window snapping 功能,可以实现类似 Windows 的 “移动窗口到屏幕边缘迅速调整窗口大小的功能”。我现在用 BetterTouchTool 主要就是在用其 Window snapping 功能。

程序主界面

Adblock Plus

免费软件 内容拦截器。通过使用此浏览器插件,可以屏蔽掉网页上烦人的广告,还给你清净的浏览体验。同时还能够达到省电的效果。

The Unarchiver

免费软件 解压缩软件。可以解压缩 Mac 系统不支持的 RAR 等压缩格式。

Bartender

付费软件,可以通过 Setapp 下载 可以选择性的隐藏 Mac 菜单栏图标。当安装第三方软件越来越多的时候,菜单栏会越来越满。通过使用 Bartender,可以隐藏/折叠显示一些菜单栏图标。同时还可以配置使得在菜单图标有更新的时候再自动显示。

Bartender 屏幕截图

Image2icon

免费 + 内购软件,可以通过 Setapp 下载并解锁内购 可以通过图片或文字自动生成多种样式的图标,并应用到文件/文件夹/磁盘上。可以帮助你生成个性化的、漂亮的文件/文件夹/磁盘图标。

Image2icon 屏幕截图

Carbon Copy Cloner

付费软件,$39.99 买断 Carbon Copy Cloner(CCC)是一个功能齐全的备份管理软件。相比 Mac 自带的 Time Machine(时间机器),它可以备份外部磁盘、选择目录备份,还可以备份系统到 APFS 格式的硬盘,并创建可启动的外部磁盘。这个软件全面支持了 APFS 下的快照(Snapshot)功能,并有可视化界面去管理这些快照(支持挂载、恢复、删除等操作)。 个人建议:对于 Time Machine 能够适用的场景,优先使用 Time Machine,否则使用 CCC。

Carbon Copy Cloner 屏幕截图

CleanMyMac X

付费软件,可以通过 Setapp 下载 CleanMyMac 可以帮助用户清理系统垃圾文件、卸载软件、管理开机启动项、实现基本的系统监控。

可以在主界面一键运行扫描还可以查看详细的扫描结果

个人建议:除非系统空间不足,否则不要频繁清理系统垃圾,尤其是用户缓存文件和系统缓存文件,清理他们可能反而导致程序运行变慢。

菜单栏

Gemini

付费软件,可以通过 Setapp 下载 它可以查找磁盘中的重复项目或相似项目,并可选择删除这些文件,为你的 Mac 腾出更多的磁盘空间。

Gemini 屏幕截图

Disk Drill

免费 + 内购软件,可以通过 Setapp 下载并解锁内购 Mac 上的磁盘恢复软件。如果误删除了重要文件,并且没有任何备份,可以尝试使用此软件恢复文件。强烈建议做好文件备份,这样你就不需要使用这类软件了。然而关键情况下使用这个软件救急还是不错的。

Disk Drill 屏幕截图

写作软件——Ulysses

订阅软件,可以通过 Setapp 解锁订阅 除了系统自带的备忘录、Pages,以及微软的 Word,这里额外推荐一个 Ulysses,基于 Markdown 的纯文本编辑器。特点就是简洁易用。

Ulysses 屏幕截图

iOS 管理 App 推荐——iMazing

付费软件,可以通过 Setapp 下载 可以代替 iTunes 完成备份/恢复备份/重新安装系统/升级系统等操作,并有着比 iTunes 更多的功能。比如说它可以可以访问备份中的具体数据,包括每个程序的软件存档等。还可以管理应用程序,通过 .ipa 文件安装上一版本的软件或者已经下架的软件,管理手机铃声等。 当然,在 Mac 上管理 iOS App 更推荐使用 Apple Configurator 2

iMazing 屏幕截图

密码管理 App 推荐——1Password

付费软件,可订阅或买断 相比浏览器(如 Safari、Chrome)自带的密码管理功能,1Password 可以支持更多的浏览器,并且是跨平台的。它能够选择密码生成的公式,通过 Watchtower(瞭望塔)能够自动检查不安全的密码、已泄漏的密码等,同时还能够保存更多类型的资料,如信用卡、身份证、驾照、数据库、无线路由器资料等。 通过使用 1Password,你可以养成为每个网站设置不同的、安全的随机密码的习惯,保障互联网账户的安全。

1Password 屏幕截图

开发 App 推荐

除了 Apple 的 Xcode,这里罗列一些开发的工具供大家参考:

  • TextMate免费,Mac 上轻量级编辑器,运行速度快,支持语言多。
  • JetBrains 旗下软件付费,包含了 C/C++、Java、PHP、JavaScript、Go 等开发所需要的软件。学生可以免费获得授权。
  • Surge付费,代理上网、HTTP 抓包利器。
  • Paw付费,可以通过 Setapp 下载,API 管理工具,无论是简单的发送 HTTP 请求,还是测试 HTTP/REST 服务,它都能应对。
  • Sourcetree免费,Mac 或 PC 上的可视化 Git 管理工具。
  • VMware Fusion付费,Mac 上的虚拟机。
  • CloudMounter付费,可以通过 Setapp 下载,此软件将 S3、Dropbox、Google Drive、FTP、SFTP(VPS)等服务以网络磁盘的格式挂在到 Finder 中。
  • Karabiner免费,Mac 上用于调整键盘键位的软件。

播放器 App 推荐——IINA

免费软件 界面简洁漂亮,支持很多格式的视频播放,并且适配 Touch Bar。

IINA 屏幕截图

RSS 阅读器推荐——News Explorer

付费软件,可以通过 Setapp 下载 跨平台的 RSS 阅读器(iOS 端需要单独购买),可以通过 iCloud 同步。

News Explorer 屏幕截图

财务管理 App 推荐——MoneyWiz

订阅软件,可以通过 Setapp 解锁订阅 Mac 上的记账软件,功能齐全,可以添加各种类型的账户,并且可以生成多种格式的报表。

MoneyWiz 屏幕截图

专业影像制作 App 推荐

Final Cut ProCompressorMotion

付费软件,有学生优惠 苹果推出的专业视频制作软件,相当于 iMovie 的升级版,可以进行更多的自定义设置,拥有摄影机录制的 RAW 视频的处理能力,可以制作 360 度的视频等。相比 Adobe Premiere Pro CC,它会更加易用一些,价格也相对便宜。

Final Cut Pro 使用 ProRes RAW 调整视频

Adobe 图像处理软件:Lightroom Classic CCLightroom CCPhotoshop CC

订阅软件港区 Photography Plan,包含最新版的 Lightroom Classic CC、Lightroom CC、Photoshop CC 以及 20GB 的云端存储空间。 苹果曾开发的图像处理软件,iPhoto 已经整合到了 Photos(图片)软件中,专业软件 Aperture 也停止了维护。而 Photos 软件虽然很好用,足以处理绝大多数的照片,但对于 RAW 格式的照片的处理能力依然很弱。而且其云同步是同步库中的所有照片和视频,这对于无损图片而言是不不经济的。 Lightroom 系列软件和 Photos、iPhoto、Aperture 功能类似,也是用于管理照片的。目前的两个版本:Classic CC,只有桌面端,适用于将所有图片的原始文件存储在本地;CC,有桌面端、移动端、Web 端,适用于将所有图片的原始文件存在云端。 个人倾向于在桌面端使用 Classic CC,移动端使用 CC。因为经常要处理到的 RAW 格式或者是 TIFF 格式的无损图片都很大,将原图上传到云端并不经济。而且我处理图像主要在桌面端进行,CC 的桌面端感觉是为了迁就其他平台而在桌面端使用并不是那么方便。并且,Classic CC 也能够将压缩后的预览传输到云端,并也可以实现在其他平台上使用 CC 同步编辑。对于同步预览,Photography Plan 20GB 的空间已经足够了。 注意:中国区的 Creative Cloud 功能有所阉割,且没有优惠的套餐。建议购买港区(最便宜)。

Lightroom Classic CC、Lightroom CC、Photoshop CC 软件图标

附录:Mac 系统安全

和 Windows 系统一样,在 Mac 上从互联网上安装软件也需要多注意软件来源。这里强烈推荐在 Mac 设置中的 “安全性与隐私” 中选择 “App Store 和被任何的开发者”(默认),而非 “任何来源”。如果允许了任何来源,你的电脑将可以运行被篡改的软件,未经认证的软件以及恶意软件。

Mac 系统设置截图

绝大多数的 Mac 软件均可以在这个安全级别上运行,上述推荐的所有软件均不需要启用 “任何来源”,除非你下载到的不是原始软件,而是被篡改过的。 如果你的 Mac 里这里的选项是 “任何来源”,请在终端中运行以下指令重新启用这个安全设定。

sudo spctl --master-enable

同时,也不建议关闭 SIP 功能,SIP 功能有助于保障 Mac 系统的完整性。查看 SIP 是否运行可以通过以下指令:

csrutil status

如果 SIP 已经启用(默认),会得到 System Integrity Protection status: enabled. 结果。

在自己服务器上安装 GitLab,代替 GitHub!

By: James Guo
25 June 2016 at 21:12

我的服务器上部署的代码、配置文件等内容大多是使用 Git 进行版本控制。为了能够使用、配置起来更方便,通常使用一整套系统去管理。很显然,在一些代码和配置文件里会有一些机密的内容,如一些密钥什么的,所以必须不能公开。GitHub.com 虽然提供了 Private 存放处功能,但是由于此功能是付费的,而且对于 Organization 的 Plan 还是极贵,并不十分划算;就算能有免费的 Private 存放处,把自己的很多重要的密钥放在第三方服务器上还是很不安全,所以能够 Host 在自己的主机上的,并且能够替代 GitHub.com 的软件/服务就是不错的选择。 本文将讲一下我在自己服务器上安装 GitLab 遇到的坑,进阶使用,包括使用 .gitlab-ci.yml 文件实现自动 Build,实时同步镜像到 GitHub。

能够 Host 在自己的服务器上的软件/服务其实有很多,比如 GitHub Enterprise,Bitbucket Server。不过再此还是推荐完全开源、免费、由社区维护的 GitLab Community Edition,没有任何限制,只是相比 Enterprise Edition 少了些本来也用不着的功能。

安装及遇到的坑

具体安装方法见文档,目前官方推荐的系统环境是 Ubuntu 16.04 LTS,安装起来非常简便,整个 Web 环境都会配置好。安装后的更多配置请参见文档。如果你的主机上跑了不只一个 Web 程序,那就需要对现有的 Web 软件做修改,需要参见官方的 Nginx 的配置文档。我的代码中使用了 sub_filter 来实现替换默认的标题,实现更好的 SEO,更加品牌化。 然后为了能达到更好的使用效果,还应该配置 SMTP 发件服务器,我使用的是 AWS SES;然后还需要一个支持 IMAP 的收件服务器实现 Reply by email,我使用的是 Gmail,收邮件的限制总比发邮件的限制少吧~这些的具体设置方法官方文档里都有。 安装后默认是允许注册的,如果你不想让外人注册,你需要直接去 Web 后台禁用。如果你想要开放注册,那么最好先想好新注册用户能干什么,比如和我一样:只允许新用户创建 Issues 和 Snippets,那就在 Web 后台将 Default projects limit 设置为 0,然后编辑后台的配置文件,禁止新用户创建 Group。同时建议在 Web 后台启用 reCAPTCHA 和 Akismet,防止恶意注册和恶意发 Issues。既然允许注册,那么也建议使用 OmniAuth 来支持第三方 OAuth 的方式登陆。

GitLab Runner

GitLab Runner 十分强大,但是并不是内置的,它可以极其方便的实现自动部署等非常有用的功能。安装配置好 Runner 后,在项目根目录下添加一个名为 .gitlab-ci.yml 的文件,以 master 分支为例,为了实现每次 commit 到 master 都将文件部署到 /var/gitlab/myapp ,那么文件内容应该是这样的:

pages:stage: deployscript:- mkdir -p /var/gitlab/myapp- git --work-tree=/var/gitlab/myapp checkout -fonly:- master

注意,你需要先创建 /var/gitlab 文件夹,并设置这个文件夹的用户组为 gitlab-runner:gitlab-runner

$ sudo chown -R gitlab-runner:gitlab-runner /var/gitlab

.gitlab-ci.yml 核心的部分就是 script: ,这里的脚本都是由用户 gitlab-runner 执行的,你可以根据需要修改,后文中也给了几种范例。 然后 commit,去设置页面里里激活这个项目的 Runner。建议在设置里设置 Builds 为 git clone 而不是 git fetch ,因为后者常常出现奇奇怪怪的问题,前者的速度瓶颈主要在于网络传输。

部署 Runner 在同一个主机上,Or not?

官方的文档里强烈不推荐把 Runner 部署在同一个主机上,其实这种说法并不正确。官方不推荐这样做是因为一些 build 会花费很长时间,占用很多的 CPU 和内存资源。但是如果你执行的 build 脚本并不会这样,那么安装在同一个主机上也未尝不可。

常见的部署范例

这几种部署是我比较常用的,大家可以当作范例,具体根据自己的需要弄各种不同的部署。 以下几种 Web 的部署方式所消耗的系统资源都不多,而且由于使用了 nice ,并不会阻塞其他任务,可以部署在同一台主机上。

Jekyll

修改之前那个 .gitlab-ci.yml 文件的 git checkout 一行,替换为:

jekyll build --incremental -d /var/gitlab/myapp

检查 PHP 的编译错误

也是添加以下代码到 .gitlab-ci.yml 即可自动检查所有 PHP 文件的编译错误,编译通过的文件不会显示,只会显示编译错误的:

if find . -type f -name "*.php" -exec nice php -l {} \;  grep -v "No syntax errors"; then false; else echo "No syntax errors"; fi

自动与 GitHub 同步

以下过程需要 root 权限登陆到主机,或者在每行命令前添加 sudo。 首先,需要先给 gitlab-runner 用户一个单独的 SSH Key:

$ ssh-keygen -f /home/gitlab-runner/.ssh/id_rsa

然后,创建 /home/gitlab-runner/.ssh/known_hosts ,内容是:

github.com ssh-rsa AAAAB3NzaC1yc2EAAAABIwAAAQEAq2A7hRGmdnm9tUDbO9IDSwBK6TbQa+PXYPCPy6rbTrTtw7PHkccKrpp0yVhp5HdEIcKr6pLlVDBfOLX9QUsyCOV0wzfjIJNlGEYsdlLJizHhbn2mUjvSAHQqZETYP81eFzLQNnPHt4EVVUh7VfDESU84KezmD5QlWpXLmvU31/yMf+Se8xhHTvKSCZIFImWwoG6mbUoWf9nzpIoaSjB+weqqUUmpaaasXVal72J+UX2B+2RPW3RcT0eOzQgqlJL3RKrTJvdsjE3JEAvGq3lGHSZXy28G3skua2SmVi/w4yCE6gbODqnTWlg7+wC604ydGXA8VJiS5ap43JXiUFFAaQ==

之后,获取 /home/gitlab-runner/.ssh/id_rsa.pub 文件内容,在 GitHub 上添加这个 SSH Key。 由于是使用 root 帐号,弄完了之后不要忘了修改用户组:

$ sudo chown -R gitlab-runner:gitlab-runner /home/gitlab-runner/.ssh

然后,同样是通过 .gitlab-ci.yml 实现自动同步:

git push --force --mirror git@github.com:[Organization]/[Project].git

修改 [Organization][Project] 为你自己的名称即可。

谈谈安装在自己服务器上的 GitLab 的好处

文件都存储在自己的服务器里,安全性比较有保障,自己有最高权限,不会遇到项目被删的情况。部署时延迟极低,可靠性也高,不会遇到自己服务器没问题但是第三方服务宕机导致无法部署的窘况。 可以根据情况部署到离自己最近的服务器,或者是内部服务器,像 GitHub 的服务器就在美国东岸,亚洲这边连接并不快,国内也不稳定。 最关键的是,如果你本来就有个 VPS 什么的,也有很大的空闲,那么相当于你可以免费获得私有存放处,但是要注意性能需求,没有足够的空闲还是不要启用。 由于能够配置好实时同步镜像到 GitHub,GitLab 还有那么多 GitHub 没有的功能,其实已经可以完全使用 GitLab 作为主要的版本控制工具,GitHub 只是存一份镜像备用。

MacID 让 iPhone 指纹解锁苹果电脑

By: James Guo
13 July 2015 at 22:10

大多数人不在电脑上设置密码,是因为设置了密码后解锁电脑会变的很麻烦。但是通过使用 MacID,可以让你轻松的解锁你的电脑,这就是这个软件所能帮助你完成的主要目的。前往 App Store 获取

当你激活 Mac 的显示器后,你的手机会收到一条通知,向右滑动点击 “解锁” 然后按下指纹,你的电脑就已经被无线解锁了。除此之外,你还可以在手机上无线让电脑锁定,或者是播放歌曲等等,十分方便。 另外 MacID 的电脑客户端甚至可以通过声音检测你是否离开,然后自动锁定。如果你的电脑有 Muti-Touch 触控板的话,你还可以设定特定的手势来解锁 Mac,为了安全性,你可以设定仅当手机连接电脑后才可以使用手势解锁。 而且 MacID 不仅可以让你方便的解锁电脑,而且可以在手机和电脑上双向互相传送剪贴板的内容。对于经常同时使用两个设备的人来说,这个功能十分贴心。

支持今日视图插件

MacID 还支持今日视图中的插件,更是可以随时随地解锁 Mac,方便至极。

支持多个 Mac

一个手机可以无线控制很多台 Mac 解锁等功能,列表简洁美观。

支持 Apple Watch

你还可以使用 Apple Watch 无线控制 Mac 哦。

ProCamera – iPhone 照相软件推荐

By: James Guo
22 May 2015 at 17:03

这是一个很值得使用的软件,包含强大的手动自定义功能、分享功能以及惊人的 HDR 合成能力。前往 App Store 获取

独创的 HDR

这个软件内置自己的 HDR,完全不同于系统的 HDR 功能,它的 HDR 堪比在 PhotoShop 上合成后的效果,十分出彩。并且有多种 HDR 格式可供选择,而且可以进行手动 HDR,自己调整 HDR 的亮度,满足所有需求。(HDR 功能需要单独购买)

强大的自定义设置

它支持手动对焦、手动曝光。不仅如此,它还可以调整快门速度、ISO 感光度、白平衡等等,均能实时显示,满足绝大多数照片需要。它的快门速度最高可以设置到 0.5 秒,可以轻松应对夜景(通常,系统的相机是自动曝光,然而它不会照出 0.5 秒长时间快门速度,所以噪点通常很多)。 除此之外,它还可以调整图像格式,它支持保存 JPEG 格式 (可调质量)、无压缩 TIFF 和无损压缩的 TIFF,得到无损的照片。 它可以实时手动调节画面的色温,达到最完美的白平衡。

照相界面的设置设置截图(节选)手动对焦

夜景模式

通常情况下,系统的相机从来不提供长曝光,因为长曝光会因为手抖导致画面模糊。然而 ProCamera 可以允许 0.5~1 秒的曝光时间,如果有正确的持握方式,画面并不会模糊。长时间曝光可以让画面更明亮,或者同样亮度下有更少的噪点,大大提升夜景的画质。

夜景菜单

后期处理

此软件有丰富的后期处理的功能,甚至可以调节曝光曲线等参数,操作十分简便。

曝光曲线

除此之外,它还有众多滤镜,甚至还能调节每一种滤镜的参数,十分强大。

对比效果

定时器

这个软件有强大的定时器功能,非常适合高级的自拍或者间隔拍摄。通过后期制作,能够达到 800 万像素的间隔拍摄视频。此功能类似单反上的定时器,十分有用。你甚至不需要为了定时器去购买别的软件了。

定时器设置截图

支持 Apple Watch

购买此软件后,可以在 Apple Watch 上遥控 ProCamera 进行照相,同时还可以浏览已经拍摄的照片,充分利用 Apple Watch。如你已经拥有一个 Apple Watch,并正在寻找一个可以用 Apple Watch 遥控照相的第三方软件,那么这款软件正是你要找的。

与 Apple Watch 配合使用

总结

虽说这个软件功能十分繁多,但是在使用时你丝毫不会觉得这个软件过于“沉重”,它的界面是十分简洁友好的,同时适合专业与非专业用户使用。这一款软件就可以完成全部的图片创作了。

小提示

我这里的截图可能提供的是英文版截图,但实际上这款软件是完全支持中文的,可放心购买。

手机记账十周年了

By: Steven
24 November 2023 at 12:20

不知不觉用手机记账已经十年了。

在这之前,是用本子手写记了四年。契机是毕业旅行和游记,为了把沿途所有花销都记下来,整理成路书放在博客里。从那之后,就沿着原本就有的写作习惯开始记账。

所以哪有什么坚持呢?就是养成习惯了。

为啥唱衰中国的企业软件的未来

By: MacTalk
8 July 2022 at 14:02

最近朋友圈看到几篇谈中国 To B 软件产业的,比如中国软件公司为啥做不出产品啊,投资人前几年投了很多 To B 赛道的技术创业血本无归啊,等等,好像中国软件企业这么多年一直活在上个世纪一样。

我们的知识星球里也有用户提问:

之前看直播, 有几个大佬老师 都提到 Salesforce 是一家很牛的公司, 甚至能和Google 比肩, 但是他们都没说到底是怎么个牛法。查了两个半天, 感觉就是个有些成绩的普通软件公司啊。请教池老师, 这家公司到底牛在哪?

我在 To B 软件行业工作了近 10 年,借着这个问题,聊聊我对 To B 软件的看法。


对于星球的用户,查了两个半天发现 Salesforce 是个有些成绩的普通软件公司。从我的角度看,你可能没有发掘到有效信息,另外对「有些成绩」,我们的理解可能不太一样吧。

Salesforce 成立于 1999 年,是全球按需 CRM 解决方案的领导者。CRM 鼻祖,SaaS CRM 鼻祖,目前市值 1700 亿美元左右,2021 年营收 212.52 亿美元,合计 1300 多亿人民币,这个成绩,无论是和中国顶级互联网公司比,还是和 Google 比,都不能算是「有些成绩的普通软件公司」了。

Salesforce 无论是业务、生态、技术、行业领先性,在国外都是非常知名的软件公司,比肩 Google 倒不至于,但和 Oracle、SAP 差不多是一个量级的企业。

为什么国内的同学会对美国的 To B 的大型软件公司无感呢?因为国内没对标。国内最大的企业软件,算是用友,市值 700 多亿人民币,是 Salesforce 的零头。

为什么我们对消费者领域的软件公司都很熟,比如美国的 FANG,中国的 BAT、字节跳动、美团等等,因为有对标,我们作为消费者,两边的服务都用。

这里就会产生另一个疑问,中国从总体上来说发展是跟着美国走的,为什么美国 To C、To B 都有顶级的公司,中国只有 To C 牛 X,To B 的企业,差几个量级,为什么会这样?

美国公司的商业周期很长,百年老店比比皆是,即便是现代科技公司,比如沃尔玛,1962 年成立,苹果,1976 年,微软,1975 年。福特汽车是 1903 年成立的,通用电气是 1892 年成立的。这些企业,在漫长的商业周期里,很早就遇到了各种市场红利枯竭的问题,他们早就经历过这种状态了,所以非常重视效率、成本和创新。

当一个公司开始注重「2021 年中国企业口口相传的降本增效」时,自然就开始重视能够提高效率能够降低成本和促进创新的工具,企业在这个领域投入大了,这就是强需求,对应的企业自然也就出现了,这是几十年前的事。

大家都觉得亚马逊很牛吧,但是传统企业沃尔玛和亚马逊对抗了几十年不落下风,沃尔玛这样的传统公司,技术实力一点也不差,人家还有卫星呢,数字化做的比中国零售行业早了几十年。

对应中国,大部分民营企业都是 90 年代和 2000 年之后创建的,满打满算 20 年发展时间,但这 20 年,相当于很多国家 100 年,改革开放,经济复苏,人口十多亿,市面上全是大片大片的开阔地,怎么说呢,各个领域,只要方向大差不差,挣钱太容易了。

一旦企业处于高速增长的阶段,没人会理会什么降本增效,数字化,信息化,也没那么重视。我自己发展好好的,为啥要用你的工具呢。靠市场红利驱动就能发展,就能赚钱,所以大部分企业对于新工具、新软件、新方法的采用意愿非常低。这就导致早些年做 To B 像是装孙子一样,各种定制各种满足各级领导的面子工程,效率反而没那么重要了。

所以,中国的用友和金蝶,就那么大,已经很不错了,也算是抓住了市场的红利。但和美国的 To B 软件相比,就差了一个量级。

写到这里估计有人会问了,说的挣钱这么容易,咋我没觉得呢?

这是因为,大部分人不具备知道这个领域赚钱的认知,或者知道也不具备进入这个领域的资本。

无论一个人还是一个企业的命运,当然要靠自我奋斗,但是也要考虑到历史的进程啊。当一个领域很多人唱衰的时候,也许就是最好的时机。

随着中国产业进程的发展,需要持续降本增效,提升用户体验,所以,未来企业级软件的需求不是变弱,应该会逐步走强。

这是我的判断。

胶片摄影:

不能在中文目录右键打开 Cygwin 的解决方法

By: 胡中元
24 February 2020 at 12:54

Cygwin 是一个 Windows 下的 Linux POSIX 模拟器,通过它我们可以直接运行一个 Linux 终端,非常好用。

网络上关于如何添加一个 “在当前目录打开 Cygwin” 的右键菜单的教程有很多,但是这些方法都有一个问题,那就是不能在中文目录下正常工作,于是研究了一番,修复了这个问题。

探索

既然英文路径可以但中文不行,我最先想到的是使用 Cygwin 自带的 base64 命令,将 encode(path) 后的非中文字符串传给 Cygwin 之后,再 decode 得到包含中文的路径。然而不行,正确的 base64 传递到 Cygwin 之后 decode 却是乱码。

问题的原因很容易想到,那就是编码的问题。经过几次输出中间变量后验证了这个猜想:Windows 采用的是 GB2312 编码,而 Cygwin 采用的是 UTF-8. Windows 将当前路径作为参数传递给 Cygwin 主程序时,Cygwin 不能正确读取路径。

解决

修改 Windows 或者 Cygwin 的默认编码肯定是下下之策。解决该问题最终还是绕不开编码转换。我最终的思路为:

  1. 右键点击后,Windows 将当前路径作为参数 1 传递给 run_by_right_click.bat 入口程序
  2. run_by_right_click.bat 将路径写入 chere.path 文件(GB2312 编码),并运行 Cygwin
  3. Cygwin 运行后,将 chere.path 转换为 UTF-8 编码,读取后 cd

我的 Cygwin 安装目录为 C:\cygwin64,Shell 为 ZSH,如果你使用的是 Bash,有的地方与我的不同。具体步骤如下:

step1. 创建右键按钮

导入注册表文件 cygwin.reg:

Windows Registry Editor Version 5.00
 [HKEY_CLASSES_ROOT\Directory\Background\shell\cygwin64_bash]
 @="打开 Cygwin 终端"
 "icon"="C:\cygwin64\Cygwin.ico"
 [HKEY_CLASSES_ROOT\Directory\Background\shell\cygwin64_bash\command]
 @="C:\cygwin64\run_by_right_click.bat \"%V\""

step2. 编写入口程序

我们的入口程序 C:\cygwin64\run_by_right_click.bat

@echo off
 SET dir=%1
 REM 双引号删除
 SET dir=%dir:"=%

 C:
 chdir C:\cygwin64
 rem del /Q chere.path
 set /p="%dir%">chere.path
 bin\zsh.exe -li

bat 代码是真的难写。。。写这段代码我便踩了无数的坑。

step3. 完成目录跳转

在 Cygwin 内编写 ~/.zshrc,在末尾添加目录跳转命令:

if [ -e /chere.path ];then
     /usr/bin/enca -L zh_CN -x utf-8 /chere.path
     CPWD=/usr/bin/cat /chere.path
     rm /chere.path
     cd /bin/cygpath "$CPWD"
 fi

这里用到了 enca 用于自动编码转换,所以需要在 Cygwin 包管理器中安装这个软件。

over! 现在便可以在中文文件夹中右键打开 Cygwin 了。

为啥我要用 Cygwin

最后最后。你可能会说,为啥都新世纪了,你还在用 Cygwin 这种… 模拟器?原生 Linux/ 虚拟机 不好用嘛?WSL 不香吗?甚至 Powershell 不也不错?

那我还真觉得 Cygwin 秒杀上述所有的方案。首先,我只是想在 Windows 上安装一个代替 cmd 的 Shell 环境用于日常操作,并不需要高性能什么的,所以原生 Linux 系统、虚拟机、Docker 就不是解决同一个问题的东西。

至于 Powershell,虽说是比 cmd 好多了,但毕竟是另一套语法和体系,我不想学它也对它不感兴趣。Bash+GNU tools 那才是世界通用法则。ZSH 作为日常使用的终端也确实美观好用!

而 WSL 这东西确实很吸引人,性能比 Cygwin 强太多,几乎就是原生系统。然而!WSL 运行于内核态,与 Windows 平级,就算有文件系统的映射,WSL 也并不能直接当作 Windows 的 Shell 来使用的。看下面的图你就知道我在说啥了。

Cygwin+ZSH 很好用

图中,npm 和 git 是我在 Windows 中安装的 exe 包,而 ssh、tail、md5sum 是 Cygwin 中提供的 Linux 命令,直接相互调用无压力,这才是 Windows 中我想要的 Shell 的样子。可是 WSL 是不能这么做的,两个系统是隔开的。

PrimoCache:让固态硬盘作为缓存给机械硬盘加速

By: 胡中元
29 May 2018 at 13:22

对于电脑硬盘,固态肯定是全方面优于机械硬盘的选择,不过按照马克思主义矛盾论的观点,这就存在一个 “低速的 HDD 与高价的 SSD” 之间的矛盾。目前我的笔记本使用 128G+1T 的组合,处于并将长期处于 “个人电脑硬盘的基本矛盾” 之中。

直到,我遇到了 PrimoCache 这款软件。推荐给大家。

PrimoCache 是一款可以将物理内存、SSD 硬盘或闪存盘等虚拟成硬盘缓存的软件。它可以自动将硬盘中读取的数据存入物理内存等速度较快的设备,当系统再次需要该数据时它可以很快从缓存设备中读取,而无需再次访问速度较慢的硬盘,从而有效提升物理硬盘的访问性能。

中文官网:http://www.romexsoftware.com/zh-cn/primo-cache/index.html
平台:Windows(其实 *nix 下也有类似的)
软件类型:共享软件

两个月后更新:

经过 2 个月的实际体验,这款软件并没有宣传的那么完美。少数软件一运行就会完全死机(跑跑卡丁车,并确定是由该软件造成的),整个系统也似乎有一种不稳定的感觉(偶尔弹出一些意义不明的错误提示)。另外还有额外的内存占用。

总之,不推荐将系统盘加速,也不推荐大多数情况下的使用。除非你有一些常玩的游戏,但由于几十 GB 的体积巨大不能放入 SSD,才值得使用此软件。

缓存技术

这种理念我认为非常好,Cache 技术也是计算机硬件软件当中一个使用非常广泛的技术。这和最初的英特尔快速存储技术(RST)以及英特尔傲腾技术类似。都是使用少量高速的 SSD 作为缓存,为低速的 HDD 加速, 使得电脑拥有 HDD 的大容量的同时,拥有接近于 SSD 的速度。

至于什么数据会被缓存到 SDD 中?这是由算法控制的,自动选择 HDD 中最常用的那些数据。

PrimoCache 与 RST 或者傲腾的区别在于,这款软件不需要你使用最新的 Intel 主板,或者是购买 Intel 家的傲腾内存,它兼容一切现有的 SSD。

PrimoCache 还支持使用内存作为一级缓存,SSD 作为二级缓存

是的,这也是 PrimoCache 的一个特有的功能,内存的每秒读写速度单位在 GB 级别,比 SSD 高了一个量级,能有效为 SSD 加速。(不过我还没有直观感受到差异,大概在这时瓶颈已经不在 IO 了)

效果展示

我现在终于可以把动辄几十 G 的游戏放心的放在机械硬盘了,然后使用 PrimoCache 让他们拥有令人满意的读取速度。

我使用了 12G SSD 作为二级缓存,1G RAM 作为一级缓存,运行测速工具对机械硬盘测速结果如下:

未使用缓存:

使用缓存:

注意,由于缓存的原理是将常用数据放在 SSD、RAM 中,需要时快速获取,所以使用测试软件随机读取或写入时并没有预存这个过程,并不能反映实际效果。
但是我们也可以看到明显的进步了。

注意事项

发现的缺点:

  • 使用二级缓存 SSD 时,需要占用一定量的内存用于存储映射。
  • 这是一个收费软件,虽然有破解版。
  • 之前出现了一次显卡被降频,关闭该软件后恢复。但后来开启该软件又没有出现类似状态。

此外,虽然我的 RAM 有 16GB,但我也只使用了不到 2GB 作为硬盘缓存,因为我觉得目前大多数大型软件都会使用 RAM 为自己加速,我们没必要多此一举。并且充裕的 RAM 本身也是提升电脑响应速度的途径。

❌
❌