Normal view

There are new articles available, click to refresh the page.
Before yesterdayMain stream

神秘「香蕉」AI 火爆海外,10 轮极限测试后,我相信 P 图这个词已经过时了

By: 张子豪
27 August 2025 at 12:59

上半年,大家还在为 4o 的「吉卜力风生图」刷屏惊叹。

最近,一个神秘代号 nano-banana 的新模型在社交媒体上爆火,它不是拼画质取胜,而是凭借前所未有的图像编辑能力,让网友直呼「这才是真正的 AI P图」。

有多强呢,过去我们印象中的 AI 编辑图片,可能用最多的就是 AI 消除,抹掉照片里面的路人;或者 AI 抠图,把照片的主体抠出来然后复制到其他背景上。

但现在是能直接生成一张完全看不出编辑痕迹的图片,图片里面的人物、背景、甚至小到一个字母,都可以自由的修改,且看不出一点 AI 味。

下面几张图片是我们从 X 上找的一些使用 nano-banana 编辑的实例,我只想说,它能火起来,真的值得。

▲ 图片来源:X@arrakis_ai

这个网友提供了上方只显示侧脸的女生,同时输入提示词,「创建一张有人直视前方照片。」

而下方的这张 OUTPUT 输出图片,就是使用 nano-banana 模型生成的。这个输出效果,完全可以说是同一时间拿手机另外拍的一张照片。

还有网友分享添加这两张图片并输入提示词,「让他们自拍」。

▲ 图片来源:X@RetropunkAI

和你唯一的合照,终于不用只是毕业照了。Billie 的大金链子和耳环、以及刘海等信息完全没丢失,Michael 的脸从满是噪点的失真,到自拍合影里,与 Billie 一样有着真实、清晰的皮肤质感。

在 X 上网友们反复安利这个图像编辑模型,从这些截图分享里面,我们大致总结了 nano banana 最让人惊叹的几点特质。

  1. 角色一致性极强:无论换背景还是换表情,都不会换脸,甚至嘴角弧度都能保持。
  2. 光影逻辑合理:不像滤镜贴图,它能重新计算光源和阴影,让场景符合物理规律。
  3. 照片级逼真:几乎看不出 AI 痕迹,生成的效果像是「同一时刻另一台手机拍下的照片」。
  4. 风格转换自然:从老照片复原到素描、水彩、卡通,都能保持主体特征不变。

首先,跟之前的图像编辑模型有着质的不同,就是 nano banana 在转换图像的过程中,基本上能够保持整个照片一致的色调和照片内容,不会自己额外生成别的东西。

▲ 风格保持高度一致,输入右边两张图,得到左边的产品广告图。图片来源:X@Dari_Designs

除了色调和照片内容,更重要的是保持人物角色的统一。不管是更换背景、还是让某个人的表情修改成微笑,nano banana 生成的人物五官和神态几乎不会出现换脸的情况,连嘴角的弧度都能保持稳定。

举个例子,当我们使用固定的一个人物角色创建图片的时候,这个角色可以在不同的场景下保持一致。

▲ 原图是左边,输入提示词制定背景为埃菲尔铁塔得到右图。图片来源:X@zan_sihay

由于能保持与输入图片高度一致的色调、氛围、场景和人物主体等,还有网友通过 nano-banana 将整个场景转变为一个新的故事。

▲ 原图在左上角,先是输入提示词让她们坐在台球桌边上,然后让她们开始打台球,形成一个完整的故事流。图片来源:X@D_studioproject

在确保了照片内容的高品质后,nano banana 生成的图片还非常真实。和此前大部分生图模型得到的 AI 味极浓的图片不同,nano banana 的特点就是自然和逼真。

▲Flux 生成的图片,皮肤质感还是有明显的蜡质化,不够真实。

最后是 nano banana 将场景转换为各种艺术风格方面表现,同样非常出色,包括水彩、油画和卡通风格,以及写实照片。

▲ 能够「复活」老照片。图片来源:X@DiegoGarey_jpg

我们也在 LMArena 里面测试了 nano banana 这个神秘模型,看看它是不是真的这么强大。

体验地址:https://lmarena.ai/?chat-modality=image (选择 battle 模式才会出现)

多人毕业照,也能变成专属你们俩的合影

首先,我们找了一张毕业合照,看看它是不是真的能生成一张两个人的合照。

它真的做到了,虽然这个田径场草皮生成的不是很像,但是在多轮的测试里面,Qwen、Flux、Seed 生成的图片全部都还是多人的,只有 nano-banana 明白了指令,提取出了两个人。

我们继续拿只有一张人脸的照片来测试,用开头那张照片,要求它生成一张白底证件照试试。

下面有六张照片,大家可以猜猜哪个是 nano-banana 生成的,或者你最喜欢哪个。

▲ 添加开头的照片,并输入提示词,「生成一张她的标准白底证件照,能直接用来申请护照。」

你没看错,第一张也是模型生成的,实在不知道什么护照可以用这样的照片。

答案揭晓,nano-banana 虽然看起来是最漂亮、最温柔的,但是 GPT-IMG 生成的更像证件照,因为有露出来一点点耳朵;Flux 好像不知道什么是证件照;Qwen 就很标准证件照了,但是太「标准」了,仿佛没参考我发给他的图片一样。

我们继续拿 nano-banana 生成的这张证件照,要求它为我们生成一张全身照,看看能不能在 AI 编辑的过程中,保持住这个角色原本的样子。

直接揭晓答案,这次 Gemini 的表现竟然不错,照片很真实,而且场景和衣服都搭配得很好;nano banana 的表现也不错,但总觉得和证件照里面的女生,风格不太一样了。

对于单张照片的单一角色,能做的编辑还非常多,像是下面这张图片,要求马斯克作出拳击的动作,人物基本上是做到了 100% 的复制,马斯克的他眼神、脸型、鼻子、还有嘴巴都很好的复制过来了。

单张照片的处理能做到完美复制,多张照片,nano banana 的表现又如何。

我们找了两张有人脸的照片,告诉模型将这两个人拼凑在一起,看看是否还能像真实照片一样,看不出瑕疵。

▲ 输入右下角两张图片,提示词为「让这两个人在拳击擂台上自由搏击」

图片左边就是来自 nano-banana,而右上角则是 Gemini 生成的效果,可以看到明显的差距,nano-banana 非常真实,且一眼就能认出来,蓝色衣服的是小扎。

nano-banana 对物理世界也有惊人的理解能力

除了保持人物的样子不改变,nano banana 还能在物体、背景等元素上,保持与输入图片做到完全一致。

例如下面两张房间的图片,我们显示让它开灯;然后又找了一张图片让它关灯。

当要求开灯时,乍一看 nano banana 和 Flux 都做的不错,但是有一个细节是 nano banana 不仅点亮了落地灯,更关键的是,它似乎重新计算了整个房间的光影逻辑。茶几的影子不再主要受窗外光影响,而是正确地投向了远离新光源的方向。

它并非简单地在图片上「贴」一个发光效果,而更像是在三维空间感和物理规律的层面「理解」了指令,就像 Google 前段时间发布的世界模型 Genie 3 一样。相比之下,Flux的结果更像是一个滤镜,氛围是到了,但逻辑还是有点问题。

关灯的效果差别就更明显了,Flux 是直接把落地灯都给弄消失了,而 nano banana 成功把灯关掉了,还做了很全面的阴影和色调调节。

创造力也能保持一致,纯文生图不如 GPT

风格转换也是 nano banana 的一大优点。无论是让黑白的照片重新焕发彩色的生机,还是让失真的图片变得真实,nano banana 在 LMArena 里都做的比其他图像编辑模型要好。

Flux 生成的鲁迅,总觉得是色彩饱和度没有调节好,nano-banana 生成这张给我感觉就很真实,保留了那种年代感。

我们还找了最近热映的《浪浪山小妖怪》电影预告片的截图,然后要模型从动画风格转换成其他风格。

不过是 AI 都有可能会出错,就像这张图片,nano banana 是直接给我了原图,但是 Qwen 把风格转换得很好。

当然也有可能是「吉卜力风格」会违反一些模型的使用规则,就像现在 4o 也没有办法直接输入吉卜力风格提示词生成照片。

▲ 还是开头那张照片,提示词「生成这张照片的素描画」

素描风格,nano-banana 就有办法处理了,右上的那张图,就是来自 nano-banana 的素描结果,我觉得比左下那张要好,因为看起来,真的更像是素描。

此外,nano-banana 的重点还是作为一个图像编辑模型,在纯粹的文生图能力上,表现并不算出色。

X 上有网友用 nano-banana 来做了一个高难度/复杂质感,以及光影/高级质感海报生成测试,结果还是 GPT-IMG 胜出。

▲ 图片来源:X@ZHO_ZHO_ZHO

Nano-banana 目前还是一个「未知」的模型,它只随机地出现在 LMArena 的盲测对抗测试中。

在我们的测试里面,输入 prompt,两张图生成完毕,投票选出更好的一张,最后才会揭晓哪张来自哪一个模型;有时候连续五六次都没能遇到它。

虽然这个模型的官方来源或开发者还没有正式确认,但网络上的讨论,以及生成图像的纹理和压倒性的质量,大部分人认为它很可能是 Google 的一个未公开项目。

毕竟,Google 也确实有在内部使用水果或者小吃等名称作为代码名称的历史。

而当我们尝试要它把自己的模型名字,显示在电脑屏幕上时,nano-banana 很自信的打上了 Gemini Pro。

最新的消息是,Google DeepMind 的负责人 Logan Kilpatrick 在 Google Pixel 10 发布前一天,发了一条推文,内容只有一个香蕉的 emoji,这基本上证实了这个模型就是来自 Google。

Google 这次为 Pixel 10 系列带来了 AI 编辑图片工具 Ask Photos,我们只需要输入想要对照片进行的编辑请求,然后由 AI 来完成,我们不需要再选择复杂的滑块、笔刷等各种工具。

为了防止图像篡改带来的负面影响,Google 也表示所有使用 AI 功能编辑的图像都会在 C2PA(内容来源和真实性联盟) 内容凭证中注明。

X 博主 testingcatalog 发文提到 nano-banana 这个图像编辑模型,将不仅仅用在 Gemini 和 Whisk(Google 实验室图像生成产品)上,也将出现在 Flow(Google 视频生成产品) 里面。

其实也不难想到,Flow 的图生视频功能,也正是像我们测试的图片编辑一样,让图片中的人物主体动起来。

在这篇爆料中还提到,Google 正在测试垂直宽高比的视频生成,以更好的在 TikTok、YouTube Shorts 等平台观看和传播。

Google 这段时间颇有不声不响做了很多事情,先是世界模型 Genie 3、然后在 LMArena 大语言模型竞技场上拿第一、接着又这个神秘模型 nano-banana;这让我越来越期待 Gemini 3 的发布了。

▲Google 的模型在 LMArena 多个任务上都是第一

如果说当时的 4o 代表了 AI 生图的极致,nano-banana 已经开始在重新定义图像编辑。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


神秘「香蕉」AI 正式上线!Google P 图新王深夜炸场|附体验方式

By: 张子豪
27 August 2025 at 12:44

还记得之前大家热议的神秘 AI 图片编辑模型「nano-banana」吗?

前几天,我们在 LMArena 大语言模型竞技场里面用它进行了多轮测试,结果表现都非常出色。

现在,Google 终于揭开了它的神秘面纱。

▲ Google AI Studio 负责人 Logan Kilpatrick 发推文宣布正式推出 Gemini 2.5 Flash Image 模型

Google 正式推出了其最先进的图像生成与编辑模型——Gemini 2.5 Flash Image。

▲ 在多个榜单上都是第一名,尤其是 LMArena 榜单几乎是遥遥领先

在更新的技术博客里面,Google 提到此前的 Gemini 2.0 Flash 已经在图像生成方面,以其低延迟和高性价比受到了开发者的喜爱,但用户们也一直期待更高质量的图像和更强大的创作控制功能

Gemini 2.5 Flash Image 就是带着一系列的重磅更新,来强势回应这些期待。

和我们之前的体验效果一样,Gemini 2.5 Flash Image 的主要特点包括下面几点

  1. 充分保持角色的一致性
  2. 基于提示的图片编辑
  3. 利用 Gemini 的现实世界知识
  4. 多幅图像融合

一张图讲一个故事:角色、场景随心换

以往的 AI 绘图工具,最大的痛点之一就是难以保持角色或物体的一致性。我们都曾经经历过,想让同一个角色出现在不同场景中,结果却常常画风突变,每一次生成都像换了个人。

Gemini 2.5 Flash Image 彻底解决了这个问题。

▲ 图片来源 X@geminiap

它可以轻松地将同一个角色置于不同的环境中,或者从多个角度展示同一款产品,同时完美地保持其核心主体不变。Google 提到这对于需要讲述连续故事、生成品牌系列资产或制作产品目录的场景来说,无疑是一项革命性的功能。

为了展示这项能力,Google AI Studio 中还提供了一个模板应用,让开发者可以快速上手,甚至在其基础上进行二次开发。

▲ 体验地址:https://aistudio.google.com/apps/bundled/past_forward

在这个体验项目里,我们不需要输入任何的提示词,只用上传一张人像照片,它就会调用这个最新的图像模型,为我们生成从 1976 年 到 1990 年等各个年份的照片。

马斯克看到自己这么帅心里一定在想,我的 Grok 也可以。

一句话修图,用自然语言精准编辑

除了这种保持好高度一致的角色生成,精准的编辑也是一大亮点。Gemini 2.5 Flash Image 允许我们通过简单的自然语言指令,对图片进行精准的局部修改 。

像是模糊图片背景、消除 T 恤上的污渍、从合照中移除某个人、改变人物的姿势、为黑白照片上色……

这一切,都不再需要复杂繁琐的专业软件操作,我们只需要像聊天一样,用一句话告诉 AI 想做什么即可。

这跟我们之前在 LMArena 中的体验是一样的,像是我们也转换过照片的风格,从黑白到彩色;以及对照片进行细微的调整等。

▲ 图片来源 X@geminiapp

Google 同样设计了一个简单的应用,来方便我们更好的体验这种基于提示词的图像编辑,但是完全媲美 PS 软件的效果。

▲ 体验地址:https://aistudio.google.com/apps/bundled/pixshop

不止会画,更「懂」世界

过去的图像模型虽然能创造出精美的图片,但往往缺乏对现实世界的深层语义理解 。

Gemini 2.5 Flash Image 借助 Gemini 强大的世界知识库,让图像生成变得更加「智能」。

这意味着,模型不仅能看懂我们潦草手绘的图表,还能回答与现实世界相关的问题,并一步到位地执行复杂的编辑指令。

▲ 体验地址:https://aistudio.google.com/apps/bundled/codrawing

听起来很有多模态推理的感觉,Google 在 AI Studio 中展示了一个互动教育应用,将一块简单的画布变成了可以答疑解惑的智能导师,我由衷的感叹这个模型是真的厉害。

图像融合:轻松实现「无缝」拼贴

新模型还带来了一项酷炫的功能——多图像融合。我们可以将一张图片中的物体「放」进另一张图片的场景里,或者用一张图的风格去渲染另一间屋子,整个过程只需一条提示指令就能完成。

同样是 Google AI Studio 里面的模板体验应用,我们只需要把产品拖拽到新场景中,就可快速生成一张毫无违和感的、真实照片般的融合图像。

▲ 体验地址:https://aistudio.google.com/apps/bundled/home_canvas

在这个模板应用里面,我们甚至不需要输入任何提示词,可以直接拖动某个物体,到场景图片上的具体位置,然后它会自动生成融合的图片。

如何上手体验?

除了我们在前面提到的那些 Google AI Studio 里面的模板应用。

目前,Gemini 2.5 Flash Image 已经可以通过 Gemini APP、Gemini API、Google AI Studio 和 Vertex AI 进行访问。

关于调用 API,具体的定价是每百万输出 token 30 美元,官方介绍,生成一张图片大约消耗 1290 个输出 token,也就是说,每张图片的成本约为 0.039 美元,换算下来人民币不到 3 毛钱

值得一提的是,所有通过 Gemini 2.5 Flash Image 创建或编辑的图片,都会包含 SynthID 隐形数字水印,以便识别其为 AI 生成或编辑的内容。

这跟前些天 Google 发布 Pixel 10 系列手机时,讲到 AI 图片编辑 Ask Photo 工具时,使用的 C2PA(内容来源和真实性联盟) 内容凭证是一样的。

最后,Google 还提到正在努力提升模型在长文本渲染、角色一致性稳定度和图像细节真实性等方面的表现。

总而言之,Gemini 2.5 Flash Image 的发布,让 AI 图像工具从一个单纯的绘画玩具,向一个真正实用的创意与生产力工具迈出了一大步。

它不仅解决了我们过去使用 AI 绘图时的诸多痛点,还带来了更多有趣、实用的新玩法。

之前 4o 生图能力出来,看到很多 App 开始主打用一张图每天生成一首诗,还有像是拿到了今年 Apple 设计大奖的 CapWords,拍一张生活里的照片,来实景学习一门新的语言……

我现在已经迫不及待想看到基于 Gemini 2.5 Flash Image 模型,又会有哪些新应用诞生了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


谷歌的 Pixel X,和我们想的不太一样|Made by Google 2025 发布会速览

By: 马扶摇
25 August 2025 at 14:16

在经过长足的预热,并且见识到谷歌堪比阿伯维尔的保密程度之后,我们终于迎来了 2025 年谷歌的 Pixel 系列新品。

不出所料,其中大部分硬件参数都与前期爆料中的信息相符,大小两款 Pro 机型更是与上一代别无二致,通过「不换壳只换芯」的方式实现了一次多快好省的升级换代。

图|Business Wire

不过本次 Made by Google 发布会也并非全无亮点——虽然今年四款 Pixel 手机的硬件毫无惊喜,但 Gemini 又迎来了一波新的加强,与手机的软硬结合程度也更上一层楼。

但 AI 的加强不代表可以在硬件方面摆烂。今年的 Made by Google 上,除了 Jimmy Felon 的串场主持之外,我们还看到了四台比曾经任何一代都要偏科的 Pixel 10 系列新机。

太长不读(TL;DR)

  • Pixel 10:799 美元起,小底 5 倍长焦,USB 速率升级,影像提升全靠算法
  • Pixel 10 Pro / Pro XL:999 美元 / 1199 美元起,传感器看齐 9a,XL 独占 25W 无线充电
  • Pixel 10 Pro Fold:1799 美元起,全世界第一台 6 级防尘折叠屏,其余配置都是熟悉的面孔
  • Pixel Watch 4:349.99 美元起,市场上少数几家坚持曲面圆形屏幕的智能手表
  • 购买 Pro 或者 Fold 机型,赠送一整年(239 美元)的 Google AI Pro 订阅

一碗水端平的升级

谷歌作为目前市面上为数不多的几家拥有自研 SoC 的厂商,从 Pixel 6 系列就实装的 Tensor 处理器却饱受性能不足和能耗不优的问题。

图|Google

这个历史性难题终于在今年得到了解决——原因很简单,谷歌终于结束了找三星做 5nm 代工的日子,转头用上了台积电的第二代 3nm(N3E)制程,来定做本次的 Tensor G5 处理器。

根据发布会上公布的信息,Tensor G5 处理器采用了 1+5+2 的八核心架构,超大核采用 ARM 的 Cortex X4 核心,综合性能结合发布会前泄露的安兔兔数据,G5 相比 G4 提升明显,与骁龙 8 Gen 2(约 128 万分)比较相近。

图|TechNetBook

而谷歌本次也保持了全系列处理器共享的优秀传统,今年的四款 Pixel 新机全都可以用上 Tensor G5,更难得的是甚至没有像隔壁苹果那样,在核心数上阉割。

此外,在 iPhone 玩上磁吸充电足足五年后,另外几家大厂终于跟进了机身内置磁吸的功能,Pixel 10 全系列都支持名为 Pixelsnap 的磁吸生态。不仅有完整的 Qi2 协议,还包括谷歌自家的配件生态:

图|YouTube @MrMobile

然而 Tensor G5 终于(勉强)赶上时代,Pixel 10 系列的网络配置却迎来了一波大变——

根据发布会描述,今年的美版机型中,除了折叠屏 Pixel 10 Pro Fold 之外的三台直板机全部取消了实体 SIM 卡槽,对于国内仅剩的那些喜欢收美版无锁【洋垃圾】的 Pixel 玩家们是一个噩耗。

美国区域 Pixel 10 商店页面,显示仅支持双 eSIM|Google

直板机:Pixel 的十年

作为整整第十代的谷歌自有品牌,去年的发布会之后,我们原本还在期待 Pixel 10 会像 iPhone X 那样在这个有意义的节点上做出一些大改,但可惜谷歌还是突破了我们的期待——

Pixel 10 系列的三台直板机,在外观方面几乎与前代「没有任何差别」:没有特殊的边框材质、没有用上抗反射玻璃、没有花里胡哨的后盖,依然是我们熟悉的 Pixel 模样。

图|Google

更好笑的是,谷歌今年在 Pixel 上主打一手「有得必有舍」,在一些以往对于 Pixel 手机至关重要的方面倒吸一口牙膏。

就拿 799 美元起的 Pixel 10 无印来说,在延续了四代双摄之后,终于在今年看齐三星的 S 系列,变成了主长广三摄,新增一颗 5 倍的长焦,传感器为三星 3J1,面积 1/3 英寸:

图|Google

然而在加上长焦的同时,Pixel 10 的主摄和超广角传感器却被迫缩水,换成了与中端机 Pixel 9a 相同的传感器,对于曾经标榜「不搞传感器划分阶级」的 Pixel 来说,称得上是一种背叛。

相机之外,Pixel 10 也迎来了一项更有意义的升级,作为中杯机型,它的 USB 接口速率升级到了与 Pro 机型一致的 USB 3.2 ,相比取消实体 SIM 卡槽看上去非常像是大棒之后的那颗蜜枣。

图|YouTube @9to5Google

Pixel 10 至少还有些变化,但是今年的两款 Pro 机型却几乎没有什么硬件升级——尤其是在影像方面,在这个连三星都在试着把 2 亿像素塞进折叠屏的时代显得格格不入。

但有趣的是,谷歌在今年重新捡起了一个尘封许久的名字:Super Res Zoom。这项最早在 Pixel 3 上落地的算法望远增强功能在 Pixel 10 Pro 系列上迎来了一个新的高度,倍率来到了足足 100 倍:

发布会上展示的 100x 样张,AI 绘画痕迹明显|YouTube @Made by Google

然而结合 Pixel 10 Pro 上那颗原本就算是小底的长焦传感器,最后的成片油画效果可想而知,基本上也就只能骗骗水深火热的外国用户了。

但 Pixel 10 Pro 系列并非没有好消息,更具体地说,是专属于 Pixel 10 Pro XL 的 moment:相比其他两款机型的 Qi2 ,最大号的 Pixel 10 Pro XL 独占了 Qi2.2 协议,无线充电功率最高可以达到 25W——

图|YouTube @9to5Google

折叠屏:这台 Fold 不吃土

而在折叠屏方面,谷歌的步伐依然不急不缓,Pixel 10 Pro Fold 第一眼看上去和 Pixel 9 Pro Fold 完全一样:

图|Google

但这并不意味着 Pixel 10 Pro Fold 完全没有创新,谷歌一如既往的在别家厂商相互卷的时候选择了一条截然不同的道路——事实上,Pixel 10 Pro Fold 是全世界第一台支持 IP68 级防水防尘的折叠屏手机:

图|Google

在此之前,折叠屏的三防记录是荣耀 Magic V5 的 IP58/IP59 双认证,防水等级几乎已经达到了标准的极限,然而在生活中更常见的防尘场景下,Pixel 10 Pro Fold 却是第一台做到 6 级防尘的折叠屏。

根据谷歌的介绍,Pixel 10 Pro Fold 采用了一套全新的「无齿轮」式铰链,完全依靠凸轮结构营造折叠手感,谷歌声称这套铰链系统可以支撑超过十年的使用——比 Android 的支持周期还长三年。

但谷歌像是要强行把水端平一样,Pixel 10 Pro Fold 的防护等级得到了提升,影像方面却被砍了一刀,它的主摄传感器在分辨率和面积上全都迎来了缩水,Gemini 肩上的担子又重了一些。

图|Google

Gemini:反了反了,AI 反噬手机的卖点了

不出所料的,本次 Made by Google 硬件发布会上,还是有差不多一半的时间留给了 Gemini 。

其中最有用的,是更新后的 Gemini Live。它在原本只能语音对话的基础上,增加了通过手机摄像头识别并主动框选关键信息的能力:

图|Google

相比单纯的语音交流,这种带有视觉提示的交互方法显然更加未来化,与我们在游戏中看到的那种可交互 HUD 的概念和效果更为接近。

此外,今年的 Pixel 相机还加入了基于 Gemini 的拍摄辅助,AI 不仅会指导你的构图,甚至还会从前期的移动画面中截取出几种具有代表性的姿势供用户选择,先选择风格、再提供一步一步的构图指引:

图|Google

而 Gemini 同样加入了 Google Photos 的后期流程,现在用户可以通过类似与 AI 聊天要求文生图的方式,用自然语言指导 Gemini 做照片后期,包括消除眩光、去雾、增加饱和度等等。

图|Google

更好玩的是,苹果去年在 WWDC 上画的 AI 大饼,竟然被谷歌给填上了。

本次发布会上,谷歌介绍了一款名为 Magic Cue 的功能,实现方式类似 iPhone 的 App Intents 与智能建议的结合,会在合适的软件场景里,自动弹出根据你的数据历史、日程和时间轴提取的信息,能够「帮你记住东西」:

比如在和航司沟通改签的时候自动展示你订错的信息|Google

此外 Gemini 的语音能力也得到了提升。在发布会的后半段,Jimmy Felon 串场,展示了 Gemini 在电话通话中的实时翻译功能——并非简单的文本翻译、机械音朗读,而是由 Gemini 自动识别和模拟讲话人的音色和语气,讲出一段「比你更像你自己」的外语:

图|YouTube @Made by Google

这或许是我们在本次发布会上看到的最具科幻感的功能,因为 Gemini 的拟声翻译无论是速度还是准确性,在现场展示中都达到了非常可用的水平,距离实现「代替人类生活」也更近了一点。

一边升级一边降级的 Pixel 10、纹丝不动的 Pixel 10 Pro、防水又防尘的 Pixel 10 Pro Fold,价格涵盖 799 美元(约合 5733 人民币)到 1499 美元(约合 10756 人民币),如果你生活在一个「两超一强」垄断手机市场,你会对 Pixel 感兴趣吗?

图|Google

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


糟了糟了!我成 agent 了!

By: 马扶摇
25 August 2025 at 14:12

作为一个练习时长六年半的 Pixel 手机用户,我皱着眉头看完了昨天凌晨的 Made by Google 发布会。

#DeadInside

作为产品线的第十代产品,Pixel 10 并没有像曾经的 iPhone X 那样,为我们带来一次从产品形态到使用形式的变革,反而在这个连 iPhone 都准备大改设计的时候,玩起了保守主义。

单纯从硬件方面讲,今年的四款 Pixel 新机—— 10、10 Pro、Pro XL、Pro Fold 除了台积电处理器之外没有任何亮点,影像能力更是有进有退。

曾经,我们有一个更贴切的名称来描述这样的升级:Pixel 9s ——

在产品力本身已经普普的前提下,本次 Made by Google 发布会本身则更是一言难尽。

从正常的角度思考,「产品发布会」的目的应该是清晰的展示和介绍产品,尽最大程度体现出产品的优势,然后告诉大家价格——

但谷歌似乎对发布会有不一样的想法。

今年的 Made by Google 与其说是发布会,不如说是一次营业感极强的谷歌年会,哪怕是肥伦(Jimmy Fallon)负责串场也没有办法把各种零碎的场景拼在一起,回答那个最重要的问题:

今年的 Pixel,到底升级了啥?

真正的 AI 硬件,只需要最朴素的形态

不得不承认:谷歌手握着 Gemini,以及 Veo 3、Flow、Genie 3 等等工具,无疑是现在地表功能最强大的 AI 模型之一,甚至不需要之一。

Genie 3 能够以 720P 24 帧实时生成「可交互的模拟环境」,而非视频|Youtube @Fireship

而谷歌自然也清楚艾伦·凯那句「对软件足够认真的人,应该制造自己的硬件」的含金量,十年前放弃厂商合作代工的 Nexus 系列手机、转为开发流程彻底内部化的 Pixel 就可见一斑。

然而问题是,随着时间的推进,这个「软件」的定义是会变的:

  • 2016 年的初代 Pixel,代表一种对于 Android 系统标准化硬件
  • 2017 年的 Pixel 2,代表的是一种对于计算摄影(computational photography)的标准化硬件
  • 2021 年的 Pixel 6,又变回了对于Android 12 主导的 Material You 设计的标准化硬件

至于今年的 Pixel 10,在复盘过整场发布会之后,爱范儿编辑部觉得,谷歌的意图已经昭然若揭:

Pixel 10 系列是一套完全为 Gemini 打造的 AI 硬件,无论 Rabbit R1、Humane AI Pin,还是 OpenAI 拉着 Jony Ive 一起搞的那个 AI 配饰,跟 Pixel 10 一比都得说自己不够纯粹。

如果用艾伦·凯的公式来描述,谷歌其实就是从「对 Android 系统足够认真」逐渐转变成了「对 AI 足够认真」—— Pixel 手机作为硬件形态,反而是不需要什么变化的。

图|PhoneArena

换句话说,今年的 Pixel 10 系列无论对于 Android 16 还是谷歌的计算摄影,其实都不是那么重要了。

恰恰相反,Pixel 10 是 Gemini 在现实世界的延伸,一个 799 美元的 AI 入口——只不过顺便还能接打电话或者拍拍照片而已。

但这不是我们想要的 AI 硬件

当然,谷歌这样将 Pixel 打造成专属于 Gemini 的硬件入口,这个行为本身是无可厚非的,毕竟手机的硬件形态再挤牙膏,也比 Rabbit R1 和 Humane AI Pin 那种故意区隔化的外观要实用许多。

图|CNET

然而现阶段的 Pixel 哪怕可以算作 AI 硬件,也依然没有解决一个非常重要的问题:

它的工作逻辑和我们预想的 AI 硬件不一样。

无论是科幻作品还是概念描绘中,我们大多都会为 AI 赋予一个拥有承载功能的具像化形态,无论是液态金属做的 T-1000 型终结者,还是 HAL 9000 与 MOSS 的红眼睛:

图|流浪地球 Wiki

既然我们能够接受机箱里面装着的 MOSS ,那么 Pixel 手机里面装着的 Gemini 也无可厚非,但问题是,用户使用 Gemini 的方式,与想象中刘培强使用 MOSS 的方式可谓大相径庭。

纵观本场发布会,谷歌主要展示的两项新 AI 功能 Camera Coach 和 Magic Cue,以及相册中的 Gemini 修图,全部都是分散在各项系统功能内部、甚至只有使用过程中才会弹出的

这根本不符合过去几十年里人们对于 AI 的想象——

我不需要 Magic Cue 在我打电话之后才在屏幕上显示对话的相关信息,我想要 AI 自动核对我的行程信息和订票邮件,发现不对之后智能的给航司打退票电话。

我也不需要谷歌相册必须要我点击编辑按钮之后才会弹出 Gemini 对话框,我需要直接唤醒 Gemini:帮我把我刚才拍的两百张酒吧照片里面模糊的删掉,P 一下亮度和颜色,然后选出 9 张不一样的鸡尾酒发朋友圈

在过去十多年的科幻作品与 AI 设想中,AI 的运行逻辑应该是由人类用户下达指令、AI 自动理解指令并主动结合周围的一切资源开始自动执行任务,而不是我用轮椅把 AI 送到桌子前面、给它摆上笔墨纸砚,然后它开始作画。

图|36氪

也就是说,现在 Pixel 的 AI 功能全都散落在系统的各个角落,你必须先开始一项任务,才能得到 AI 相应的帮助——这其中较包括很多原本可以很轻松的被 AI 串联起来、代理我们动手的功能,比如把照片发到某个社交软件。

七年前的 Bixiby 都能用主动适配实现类似的应用功能调用,软硬结合更强的 Pixel 却不行|YouTube @爱否科技

更加令人难绷的则是相机中的构图辅助 Camera Coach ——在刚刚看到演示的时候,我们还以为它可以通过系统的底层接口,实时读取画面内容并生成构图建议。

然而现实却是,你必须手动打开功能,Gemini 才会悄悄拍一张照片、以此为依据推荐不同的构图方式——视角不符的时候甚至会直接调用 AI 帮你粗略的画出来——然后你再根据 AI 的指导一点点调整位置,直到你按下快门:

图|YouTube @9to5Google

且不说特意抬手点一下这种非常打断心流的操作究竟是怎么被想出来的,整个 Camera Coach 功能都像是谷歌为了想办法整合 Gemini 部门和 Pixel 部门的功能 KPI 而硬缝出来的东西。

构图辅助的本意应该是帮助你拍照,但是经过这样一番操作,哪怕有 Tensor G5 的算力加持端侧小模型,目前看到的推理速度和建议结果都不那么尽如人意。

有等待 AI 操作的时间,效率高的朋友早就已经换过好几套姿势,前后左右上下摇摄拍出一连串照片了,还能更好的发挥出 Tensor G5 升级后的 ISP 性能。

这种反客为主的操作方式,和 Android 16 中其他必须要你先操作一点功能、然后才会介入的 Gemini AI 功能一样,完全颠覆了我们曾经对于 AI 的期待——

我怎么变成给 Gemini 搬运资料、提供信息的 agent 了?

虽然很讽刺,但使用 Gemini 生成

换个角度想想,Pixel 10 不像是一个给人用的 AI 手机,反而更像是给 Gemini 用的 AI 手机,所有新功能的使用方式都是由人给 Gemini 提供信息,然后再由 AI 出手整合。

这种散落在功能过程里面的 AI,虽然客观上能够防止 AI 过度介入,但在用户体验上就是会让我们觉得被 AI 反客为主了。Gemini 像是那个陪小孩子堆沙堡的家长,等小孩把沙子拢起来,发出请求之后,才开始在上面塑出城堡的轮廓。

此外,还有一点不得不警惕的是,Pixel 10 很容易变成一个给其他手机厂商开的坏头——一个只靠 AI 有进步就可以放任硬件基础不管的坏头。

图|Android Central

而如果谷歌在未来继续用相同的套路拉扯下去的话,会产生一个非常糟糕的结果:Pixel 用户想要的 Pixel 消失了,AI 用户想要的真正 AI 手机又根本不是这样的

这种形式的未来产品,恐怕是谷歌和消费者都不想见到的。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


完成了 Google UX Design Professional Certificate 后的收获

最近了解到 Coursera 这个平台里面有一个 Google 设计团队出品的的 UX 设计课程,课程里会介绍完整的 UX 设计过程,并且教我们怎么写作品集和准备面试之类的。

即便这是一门面向初学者或应届生的课程,我觉得也有必要参加这个课程看看。一方面能锻炼下自己刚闭关修炼出来的的英语能力,更重要的是还能了解下西方职场的设计流程和设计文化(毕竟 “UX 设计” 这个概念是西方人创造出来的),我一直想对比看看老外的设计文化和自己这几年在国内职场的感受有没有什么异同。

于是就报名参加了这个网课,都是抽时间来学习的。比如工作日吃午饭和吃晚饭那段时间,或者周末的部份时间等等。总共花了 2 个月完成了所有课程。写这篇文章的目的也是记录下结课之后的感受:

图片中央展示四个方框,每个方框内部都用白色中文文字标识了不同的概念:“新的概念”,“听力、阅读能力”,“无障碍和公平”,“求职指引”。
  1. 里面提到的一些概念我没有听说过。即便我工作了 5 年,在小公司和大集团都呆过,里面有些概念仍然给了我很大的探索空间;
  2. 英文听力、阅读能力锻炼。里面有大量的视频和阅读材料,用词应该就是比较地道的行业术语,这些是翻译软件不能提供的。而且里面的材料都会不断重复一些短语或句型。我觉得我的阅读能力和速度是有所提升的;
  3. “无障碍” 和 “公平” 的概念被很早提及并贯穿全课程。我一直以为只有比较成熟的设计师或产品才会考虑到这些,但这些概念在课程中很早就被提及了,而且是反复提及。这触动了我,并真正地影响到了我的工作;
  4. 提供了全面且周到的指引帮助设计师准备作品集/简历/面试。这方面内容他们写得很细,告诉我们作品集里应该包含哪些,针对不同面试阶段所做的准备等。里面写到的东西我很有共鸣,因为我在找工作的时候也会去思考这些细节。
深绿色背景的宽幅 Banner,中间白色大字“新的概念”。

新的概念

工作这几年,我一直会尝试从更多不同的维度来思考和扩展原有的设计边界,做到这点需要有比较宽广的知识面。这里分享下我在课程里了解到的一些新概念,以及我的理解。

Affinity diagram 亲和图

这是一种组织数据的方法。从不同的反馈和数据中整理出他们的相似之处和关系。亲和图可以用在不同的设计阶段,比如在头脑风暴中,或者收集到用户反馈后,这里以后者为例子。

具体做法是在收集好一批用户反馈后,将每一个原始反馈浓缩成一句话,写在便利贴上并将它们都贴在白板上(当然,也可以用在线工具如 Figma 完成)。然后团队成员一起看这些内容,将提到相似概念/问题/需求的便利贴放在一起,并给这一堆便利贴起个名字概括他们的共同点。

根据分组结果,我们可以总结出一些趋势、痛点,了解到我们需要解决的问题也为后续的洞察报告提供了依据。

最开始在课程里了解到这个方法的时候,我突然想起来这与我两年前翻译的文章:【译文】我们如何重建 Shopify 的开发者文档 里提到的 “卡片分类法” 很像,都是将相似的卡片堆成一组,给该组命名,然后得出结论。

但卡片分类法里面 “分类” 的动作是由团队外部的人参与的,并且用于揭示用户的心智模型并为解决网站信息架构问题提供指引;而亲和图则是通过组织大量原始数据,告诉团队有哪些问题是用户关心的,亟待解决的问题。

*该概念在第四门课程的第三个模块中提及 (Conduct UX Research and Test Early Concepts — Module 3 — Gather, organize, and reflect on data)

Digital literacy 数字素养

这个概念大意是指人们对于数字产品、网络来获取信息、交流和创造内容的能力。比如一些年长的人、生活在网络没那么普及的环境中的人,他们对于使用电子设备和互联网就会有些障碍,理解功能和界面也会感到困难。而年轻人,特别是互联网行业的从业者则对这些就比较熟悉,各种新软件、新概念都能很快上手。

课程中对这个概念并没有展开太多,主要是提醒我们作为设计师,要了解到我们的用户是谁。如果是一个面向较宽广的用户群体,最好考虑也到对电子设备和互联网没那么熟悉的人。包括在做可用性测试时,招募的参与者最好也考虑到这个因素。

*该概念在第一门课程的第二个模块中提及 (Foundations of User Experience (UX) Design — Module 2 — Get to know the user)

Deceptive pattern 欺诈性设计模式

指的是一种设计方法:通过设计去诱导用户去做一些本来不想做的事情,或购买本来不想买的东西。

在课程中,明确指出这是不道德的事情,不是好的做法。一旦用户认为自己陷入了欺诈性设计模式当中,公司将会失去用户的尊重和信任。课程中列举了一些例子,我可以拿几个有意思的的分享出来。

  1. Confirmshaming (羞辱性确认): 让用户对自己作出的决定感到愧疚。比如一个新闻网站的订阅按钮,文案里原本可以写 “立即订阅 / 不了,谢谢”,但为了操纵用户的情绪,文案写上 “立即订阅 / 不了,我不关心身边的事情”。
  2. Urgency (急迫性): 引诱用户在 “有限的时间内” 作出决定。比如电商网站里给你送了一张仅限当天使用的优惠券,促使你赶紧付钱消费。课程里指出并重点不是限时促销这件事情,而是在这过程中给用户增加了消费的压力。作为设计师,我们应该在曝光公司的促销活动的情况下,尽量避免操纵用户情绪。
  3. Scarcity (稀缺性): 使用户感受到这件商品非常稀缺。比如一个弹窗推送或明显的广告写着 “商品仅剩 5 件”。课程中建议设计师聚焦于怎么帮助用户更好地了解该产品,而不是利用设计促使他们进行冲动型消费。

有意思的是这几种 “欺诈性设计模式” 在咱们国内电商环境中太常见了,以至于没有这些反而感觉不正常。

看起来这是国内外文化的差异的一种体现。在国内的环境中丝毫不会避讳这些东西,反而设计、产品、运营都会一起构思怎么做才能更好地 “诱导” 用户做某些事情。甚至还会在内部复盘、分享,看看过程中有哪些地方可以继续改进。

2018 年,我的第一份工作是在面向消费者的电商公司里做 UI 设计师,经常要在界面上做出 “领取优惠券”、“秒杀价剩余 N 小时” 和礼包、金币满天飞的插画等设计,正正是因为自己不喜欢做这种设计,之后才转向了更注重 UX设计的做 B 端、SaaS 行业。

虽然自己本身是一点都不喜欢这种设计方式,但这似乎能实打实地帮助到公司获取收入。公司有一份好的收入,大家的工作才能稳定。似乎陷入了一个无法走出的循环 —— 明知道这种设计方式是不对的,是有诱导性质且给用户带来烦扰的,但又不得不继续做,并想办法做得更好。

*该概念在第三门课程的第三个模块中提及 (Build Wireframes and Low-Fidelity Prototypes — Module 3 — Understand ethical and inclusive design)

Biases 偏见

课程里着重介绍了一个叫做 “隐性偏见 (implicit bias)” 的概念。“隐性偏见” 指的是我们潜意识里有一种态度或偏见,影响了我们对某一群体的理解或决定。

比如一个餐厅老板收到两份简历,求职者 A 是一个二十多岁的毕业生,没有餐饮行业经验;而求职者 B 则是一个 50 多岁的人,有 30 多年餐饮行业经验。但最终老板选择了求职者 A,因为他认为年轻人的体力更好,做事情会比 50 多岁的人要快。这就是一个 “隐性偏见” 的例子。

课程中还介绍了其他几种偏见,这里也分享一些我觉得有意思的:

  1. Confirmation bias (确认偏见)。指的是人们在收集信息和分析信息的过程中,倾向于寻找支持自己想法的证据。甚至尝试以更贴近自己预想结果的方式来解释数据;
  2. Friendliness bias (友善偏见)。指的是为了令其他人满意,受访者更倾向于做出访问者希望得到的答案或者做出积极评价。通常发生在可用性测试当中,受访者觉得说出真实答案或负面情绪的答案会被认为冒犯和不友善,不将自己的真正想法说出来;
  3. False-consensus bias (错误共识偏见)。指的是人们倾向于认为自己的观点或行为比实际情况更广泛地被认同,并且觉得其他人的观点或意见是被少数人接受的。比如一个人很乐观主义,就会认为世界上大多数人都是乐观主义;设计师能够很轻松地理解自己设计出来的图标、图像含义,就会认为其他用户也能轻易理解。

学到这里的时候我似乎被当头一棒,我似乎对里面提到的不少偏见都有共鸣,并且自己从来没意识到有这么一回事。总的来说,课程希望我们认识这些偏见,然后提供方法教我们怎么避免这些偏见。

以上列举了几个我在课程里了解到在日常工作中不怎么接触到的概念。可以看出来做一名 UX 设计师似乎得有宽广的知识背景,比如设计、人文、心理、社会学等等。通过这门课程,我觉得我对心理学产生了一些兴趣。

* 该概念在第三门课程的第三个模块中提及 (Build Wireframes and Low-Fidelity Prototypes — Module 3 — Understand ethical and inclusive design)

深绿色背景的宽幅 Banner,中间白色大字”听力、阅读能力”。

听力、阅读能力

课程里面的听力和阅读材料实在是太多了,基本上是一节视频课程,搭配一篇的阅读,如果有其他可以衍生出来的知识点,甚至会多篇阅读。

里面绝大多数老师都是美式口音,语速有刻意地减慢,我听着很舒适,绝大部分情况下不用看字幕。只是到了一些包含大量从句的长句子或新概念时可能会需要倒退一下多听几遍,再听不懂就会开字幕来看。

值得一提的是,里面有大量的行业术语,有很多我在国内日常工作中的用到的设计方法/流程等,这里都有出现到。作为学习者,我自己有做一个表格,把值得记录下来的表达方式都记下来,比如:

  1. Above the fold 指的是在首屏(不用滚动)就能看到的内容;
  2. Deliverable 设计的交付物;
  3. Digital real estate 大概是指视窗范围或可供设计师发挥的空间尺寸;
  4. Firm parameters 指一些设计过程中的限制,如时间,项目资源和预算等…

我觉得积累这种行业词汇有一个宝贵之处是,它的表达很地道,用通用的翻译软件是做不到的。这对我阅读设计经验文章,或者自己用英文写设计博客很有帮助。

深绿色背景的宽幅 Banner,中间白色大字”无障碍和公平”。

无障碍和公平

无障碍

课程中介绍了几种辅助技术 (Assistive Technology),如颜色模式、语音控制、Switch 设备和屏幕阅读器等帮助身体有障碍的人们更好地使用我们的产品。课程强调即便是健全人,或者认为自己是健全人的群体,也有可能会用到这些辅助技术。课程建议我们在设计的全流程都考虑这些因素。具体的做法,比如:

  1. 支持多种色彩模式。如亮色/暗色模式,支持增强对比度和减弱透明度等效果;
  2. 提供语音控制支持。允许用户通过声音来导航和与界面上的元素交互。另外,里面提到有个概念叫做 “VUI”;
  3. 支持一种叫做 “Switch” 的设备。这是一种代替键盘、鼠标或手指等常见输入方式的设备,通常只有一个按钮。用户就是通过一个按钮来实现浏览网页、输入文字等日常操作的;
  4. 支持屏幕阅读器。确保人们可以在看不见屏幕的情况下也能获取到主要内容。课程建议我们给图片添加替代文字,或者给按钮等控件加上合适的标签,并且留意元素的聚焦顺序。

这里分享一个在这方面有所体现的网站:HubSpot.com

这个网站提供了强对比的色彩模式,在顶部导航栏里有开关可以切换。同时也支持减弱动画的效果,如果我的设备在系统设置里设置了减弱动画,这个网站的大部份动效都会被移除。

公平

课程中介绍了一个概念叫做 “以公平为中心的设计” (equity-focused design),并厘清了 “平等” 和 “公平” 这两个概念:

  • 平等是每个人都有相同的机会和支持,即每个人都拿到了同样的东西;
  • 公平是根据每个人不同的情况而提供不同的机会和支持,最终大家都能有相同的结果。

课程中指明,面向 “公平” 的设计,需要考虑到所有种族、性别、能力,特别是一些曾经被忽视和排除的群体

他们以一个问卷问题作为例子:在收集受试者的性别信息时,如果只提供三个选项:“男”、“女” 和 “其他” 是不够的。如果想要更包容和公平我们应该提供:“男”、“女”、“非常规性别”、“非二元性别” 和 “请填写”。后者通过提供非传统性别选项和自定义选项,关注到了那些可能在传统问卷调查中被边缘化的群体。试图平衡不同群体间的表达机会,确保他们的声音被平等对待和听见。

从这门课程里我正面感受到了来自西方文化差异。实际上我不是很想太深入学这里面的门道,主要是我没法判断他们这种做法到底是对还是错,我有时候会认为这是在闲着没事干,有时候又认为我们身边确实也会有这种非传统性别的人,他们或许真的需要被 “平等对待”。

学到这里时,刚好公司的工作中有机会可以让我在设计中加入对无障碍的考量,我便抓紧机会在公司实施了一番。如果我的计划落地成功,我也会在这里分享出来的。

*该概念在第一门课程的第二个模块中提及 (Foundations of User Experience (UX) Design — Module 2 — Get to know the user)

深绿色背景的宽幅 Banner,中间白色大字”求职指引”。

求职指引

最后一课老师教授了我们怎么做作品集、一份作品集里要包含哪些东西、面试的流程、怎么准备面试等。

课程里讲述的都是西方世界的职场规则,有些未必在国内职场适用,比如:

  1. 比如他会提到设计师应该有一个自己的个人网站,里面需要及时更新自己的作品。但在国内大家似乎更喜欢将作品传上平台提高曝光度,比如站酷UI 中国
  2. 他会教我们怎么建立自己在互联网上的形象并通过 LinkedIn 去做 Networking。但似乎在国内的职场上没有这一步,身边的人多数都是直接在网站上投简历,或者有少量的人是熟人内推进去的;
  3. 里面有教我们怎么应对小组面试。我这几年在国内面试了大大小小公司,没试过有小组面试的情况,说明小组面试在我们的行业内不是特别流行。

印象比较深的是在课程里他提到了对于面试的准备,以及面试过程中的注意事项。课程里说得真的挺细的,比如:

  1. 面试前要了解好公司所做的业务,清楚自己为什么适合去那家公司;
  2. 提前准备好一些常用的问题,比如个人介绍、个人优势以及介绍设计案例等;
  3. 学会用 STAR 法则回答困难的问题,在面试前提前练习好;
  4. 根据面试官身份来改变面试的侧重点和要提问的问题,需要体现出自身的专业性;
  5. 面试时可能会有现场测试题。所以我们要练习好将自己的想法说出来的能力,也要有界定清楚问题的能力(因为有时候面试官特意给出很模糊的问题)

有时候刚看看到课程里提到的方法和技巧,正好是我有用过的,我会感到有共鸣,觉得自己的方向是对的。

另外,课程里还有教我们如果想走自由职业,要遵循怎么样的步骤。写得还比较详细,我这里列举几点:

  1. 明确目标用户是哪些群体,他们为什么要选择自己的服务;
  2. 了解自己的竞争对手,看看有没有东西是他们提供不了而自己是可以的;
  3. 通过参加线上推广、线下活动、熟人推荐等方式推销自己的服务和建立口碑;
  4. 计算开支,合理定价,并且制定财务计划 —— 构思第一个月、第六个月或第一年自己的财物状况是怎样的。

*该内容在第七门课程的第三个模块中提及 (Design a User Experience for Social Good & Prepare for Jobs — Module 3)

总结

以上就是我这两个月以来在 Coursera 平台里学习 Google UX 课程的一些收获。我觉得还是挺有意思的一门课程,即便不是所有内容都能在日常工作中应用,但至少知道在地球里的另一个世界,那边的设计师他们的思考习惯、职场文化是怎样的。

我很推荐看到这里的设计师们去这门课程 Google UX Design Professional Certificate 里瞧瞧,相信大部份人都是有收获的。收费不是很贵,是按月来收费。每个月 49 美刀,工作党每天抽点时间来看,一般 2~3 个月都能完成了。

事情按照预期发展,五一假期结束了这门课程,下半年又可以开始捣鼓另一件事情了。

PageSpeed:来自谷歌的服务器终极加速神器

By: 胡中元
23 March 2017 at 23:40

今晚给服务器装上了一个神器:PageSpeed,事实上这是一个 Nginx 的模块,使用它需要重新编译 Nginx,于是我顺便也将 Nginx 更新到了最新稳定版。最终效果相当给力,网站加速效果很好。心里非常的激动。

网站加速

给网站加速,请问有多少种方法?

压缩 JS、CSS,雪碧图,前端静态资源缓存,gzip,合并请求。。。

这些方法要多少有多少,作为一名合格的 web 开发人员,能在我服务器上运用的技术我都给运用上了。在开发前端页面时,各种强大的插件来保障资源的有效压缩。

不过,这始终还得让开发者来进行这样的工作,不开心~ :(

而 PageSpeed 就是这么的一个工具: 在服务器端安装之后,自动对用户请求的 HTML 页面进行语义化分析,智能的为其进行加速,加速途径涵盖了我能想到的一切~

图片所示的功能仅为部分

使用原因

WebP 是 Google 在 2010 年发布的一种新型图片格式,支持无损和有损压缩。在无损压缩方面,同质量的 WebP 图片比 PNG 的体积小 26%,而在有损压缩方面,同质量的 WebP 图片比 JPEG 小 25-34%。WebP 在不降低图片质量的同时,减少了约三分之一的体积。详细可参考谷歌官方

哎呀,又是谷歌?!是的,我现在越来越喜欢这家公司了,非常酷。

我对 webp 是挺有兴趣的,因为图片一直都是流量的大头,降低了图片体积直接能影响到页面的加载速度。于是最开始,我是在寻找 WordPress 中别人开发的相关插件,可惜并没能找到合适的。

寻找中,我变找到了 PageSpeed,我勒个去,太强大了!作为一个 Nginx 模块,可以通过分析请求头,对支持 webp 的现代浏览器返回转换后的 webp 图片,而其他浏览器则依旧使用 jpg 等旧格式,太符合我的要求了~!

重新编译安装

跟随着教程 https://modpagespeed.com/doc/build_ngx_pagespeed_from_source 将 Nginx 重新编译了一遍,顺便将服务器中的旧版 Nginx 给更新到了 v1.10.3。

要说麻烦的话,那就是由于服务器运行在阿里云机房中,不能运行翻墙软件,谷歌的某个依赖库下载不下来。

另外在配置的时候,对于 HTTPS 也需要进行额外的适配,因为就算作为 Nginx 的模块,也是不能直接读取 HTTPS 协议下的内容的。

效果展示

PageSpeed 这个可爱的模块已经完全担当了服务器 Nginx 端的缓存控制角色,对于 jpg 转 webp 这样的耗时操作会在后台自动执行,下一次相同的请求过来时才会命中缓存,相当的给力!

顺便值得一说的是我的网站使用的是 HTTP/2 协议,速度当然比 20 年前的 HTTP/1.1 要更快啦!

上面的图可以看到,网页中原本的 jpg 资源已经被自动转换为 webp,而这一切都是自动的。

超开心!

❌
❌