Normal view

There are new articles available, click to refresh the page.
Yesterday — 30 May 2025Main stream

从全球流量排名看中文信息茧房

By: Anonymous
17 April 2025 at 23:25

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

截止 2025 年 3 月 1 日,根据 Similarweb 网站排名, 当全球网民在 Google 检索知识、在 YouTube 观看视频、在 Facebook 分享生活时,中国互联网用户正困守在一个由百度(第 15 位)、淘宝(跌出前 100 位)和微信构筑的数字孤岛。

Alexa 数据显示,全球前 15 大流量平台中,仅百度(第 15 位)、俄罗斯 Yandex(第 12 位)和部分受限的雅虎(第 10 位)能在境内正常访问。

这种物理层面网络隔绝,造就了人类文明史上最吊诡的景观:14 亿人口的市场与全球 60%的英语信息之间,横亘着无形的数字柏林墙。

搜索引擎的对比尤为刺眼:Google853 亿月访问量统治着全球信息分发,而百度虽在中国市场独占鳌头,其国际影响力却仅限于中文世界。

更令人深思的是,即便在被封锁的状态下,Google 仍以断层优势稳居榜首,这种”缺席的统治力”印证了开放生态的顽强生命力。

正如三星退出中国仍保持全球销量第一,谷歌被屏蔽 13 年依然傲视群雄,这些现象都在叩问:我们引以为傲的”市场规模”,是否只是温水煮青蛙的幻象?

当英语世界创造着占全球 60%的互联网内容,中文信息仅贡献 1.3%的微小份额,这种悬殊对比揭开了残酷真相:每个中文网民本质上都生活在经过三重过滤的”楚门世界”。

在抖音推送的娱乐至死中,在微博热搜的议程设置里,在微信朋友圈的信息茧房内,人们接触的所谓”海量信息”,不过是浩瀚知识海洋中的涓滴之水。

这种认知局限在学术领域尤为致命。

维基百科(第 8 位)作为全球最大的知识共享平台,其英文词条数量是中文版的 15 倍。

当中国学生还在百度百科检索被阉割的知识时,国际学术界早已在 arXiv、PubMed 等开放平台实现知识共享。

更可怕的是,那些呼吁”取消英语教育”的喧嚣,正在将阶层固化推向深渊——精英阶层通过匿名服务突破封锁获取全球 60%的信息,而普通民众却被永久禁锢在 1.3%的围城之中。

中国互联网企业看似辉煌的流量数据,实则暴露出结构性危机。

淘宝虽在国内电商市场称雄,其全球排名却已跌出前 100;腾讯视频坐拥庞大用户群,但内容创新力远逊于 Netflix(第 18 位);即便是引以为傲的短视频平台 TikTok(第 14 位),也因地缘政治风险在多个市场遭遇封杀。

这种”内卷式繁荣”折射出中国互联网经济的致命伤:过度依赖封闭市场,缺乏真正的全球竞争力。

反观亚马逊(第 13 位)的全球化布局,其日本、德国、印度站点同步跻身全球百强,这种”多点开花”的生态正是中国企业欠缺的。

当我们的电商平台还在为”二选一”垄断沾沾自喜时,Booking.com 已通过全球化运营实现月访问量飙升。这种对比残酷地揭示:在温室里培育的巨头,终究难敌旷野中生长的猛兽。

打破困局需要三重觉醒:

首先,必须承认中文信息生态的先天不足,1.3%的占比不仅是数量劣势,更是质量危机——当百度百科充斥着商业软文,当知网沦为空壳论文的仓库,我们拿什么参与全球知识生产?

其次,要正视语言壁垒带来的认知断层,英语不应是特权的通行证,而应成为公民的基础素养。

最后,需要重建开放包容的互联网精神,正如 B 站通过引进国际优质内容实现破圈,真正的文化自信从来不是闭关锁国。

那些叫嚣”取消英语”的愚昧,那些沉醉”市场规模”的虚妄,那些迷信”信息管控”的短视,终将被证明是文明进程中的逆流。

当俄罗斯 Yandex 都在努力突破语言边界时,我们是否该反思:困守 1.3%的信息孤岛,真的能孕育出引领人类文明的力量吗?答案,早已写在谷歌 853 亿月访问量的星辰大海里。

OpenAI 神秘硬件细节曝光,我用 AI 还原了真机,注入苹果设计灵魂

By: 徐豫
28 May 2025 at 15:20

这段时间,有一款神秘 AI 硬件吊足了网友们的胃口——比肩 iPhone 和 MacBook 的使用场景和频率,但不带屏幕,又不是 AI 眼镜、AI 耳机、AI pin、iPod……它背后的老板还放言要「量产1亿台」

OpenAI CEO 奥特曼和苹果前首席设计官艾维联创的 io 公司,究竟用 AI 捣鼓了什么「开辟新赛道的硬件设备」,好难猜啊!

于是,虽然奥特曼透露计划明年末正式发布该产品,但现在已有不少 X 网友忍不住打起了 AI「猜」图的主意。万一它知道些「内幕」呢,对吧?

目前市场上有关 io 首款硬件设备细节的爆料,主要有以下几点:

  1.  无屏幕,通过内置摄像头和麦克风实现外界环境交互
  2.  外形设计风格类似 iPod Shuffle
  3.  未采用 AI 眼镜、智能手机、耳机这几种当下流行的 AI 硬件形态
  4.  比 AI pin 大一些
  5.  有挂脖式设计
  6.  可以与智能手机、PC 联动

话不多说,先来看看 AI 创作博主 Ben Geskin 在 X 上甩出的「io 产品图」,有近 9000 人次的 X 网友前来围观。

综合来看,上图不仅覆盖了这几点核心爆料信息,印上了自家金主 OpenAI 的 Logo,还设计出了一种不常见的 AI 硬件形态——毕竟多少有点「撞脸」更常见的剃须刀、按摩仪、充电宝……

Ben Geskin 该帖评论区里,有其他 X 网友接力晒出其他款式的「io 产品图」。

由 OpenAI 的 ChatGPT 生成的「GPT 版 Apple Watch」:

不是 AI 眼镜、耳机自带摄像头,因此推导智能手表设有摄像头?倒也是说得过去。

由 xAI 的 Grok 生成的「便携桌面版 AI 摄像头」:

这种场合,怎么能少了拥有当前「地表最强文生视频模型」Veo 3 的Google 呢?那么,Google 最新版文生图模型 Imagen 4 的表现如何,让我们直接请出 Gemini,先睹为快。

爱范儿把同一套「预测 io 产品图」的提示词,分别抛给了搭载 Imagen 4 的 Gemini、搭载 GPT-4o 的 ChatGPT 以及搭载 Grok-3 的 Grok,然后它们各自给出了如下模拟产品图。

单次此轮生成效果来看,三者都基本覆盖了爆料信息中的产品设计要素。其中,Gemini 和 ChatGPT 的产品图更贴合可挂脖的设计点,而这两者相比之下,Gemini 生成的产品图在视觉质感上会略胜一筹。

按照 Google 官方的说法,Imagen 4 能够更清晰地呈现诸如皮肤、毛发、复杂纹理等图像细节部分,也更擅长创作「照片级」、「写实风格」的 AI 图像。同时,其宣称 Imagen 4 所生成的 AI 图像支持各种长宽比,且分辨率高达 2 K。

不过有一说一,Gemini 所设计的这款 io 产品「长得有点人山人海的」,越看越像 Apple Watch+AI pin+登山包挂绳的结合体……

另外,Gemini 还同时给出了能体现「io 新产品与智能手机、PC 设备隔空联动」的示意图。

除此之外,Imagen 4 还可以把握住一些抽象风格的 AI 图像创作需求。

并且,该 AI 模型进一步升级了拼写、排版方面的出图质量,可优化贺卡、海报、漫画等场景的 AI 创作

鸡蛋盒外印刷包装上的英文内容清晰、准确、美观:

多格漫画中,故事剧情连续,图文内容相配,远景、中景、近景画幅兼顾:

近期走红网络的像素风漫画也能拿捏:

Imagen 4 现已在 Gemini App、Whisk、Vertex AI,以及 Workspace 的 PPT、Video、Doc 等产品中上线。

据 Google I/O 大会方面透露,Imagen 4 后续将推出一个快速版本,届时其 AI 生图速度将是上一代 Imagen 3 的 10 倍,让我们一起拭目以待吧。

一位细节控的摄影师

如果说 prompt 关键词还原度、画面主体内容完整度,现在市面上主流的文生图模型都能做到「有鼻子有眼的了」——总体水平相差并不大。

因此,在图像生成质量这块儿,Google 开始卷细节了,宣称 Imagen 4 有「更细腻的色彩」和「更精致的细节」。这听起来没什么实感,还是得「用图说话」。

基于同一套提示词:

一只金毛狗在沙滩上找贝壳(a golden retriever finding shells on the beach)

爱范儿对比了 Imagen 4模型、Imagen 4 上一代模型 Imagen 3,以及豆包 Seedream3.0 所给出的图像效果。

这幅由 Imagen 3 生成的 AI 图像中,主体金毛狗的神态、贝壳的纹理、狗爪踩沙滩的痕迹,背景中的蓝天白云、海浪轻抚,都十分清晰和逼真。

并且,仔细看金毛狗的毛发似乎还被海水打湿了,一绺一绺的。

其实刚看到 Imagen 3 生成的杰作时,有点担心 Imagen 4 会不会打不赢。

不过,后者确实也没让人失望,用实力演绎了什么叫做「盘顺条亮」

首先,从整体来看,Imagen 4 生成的图像色调更柔和,色彩也更自然,例如天蓝色渐变的天空、远深近浅的大海。

再者,从局部来看,金毛狗的毛发细节满满,不仅更有光泽、光影分布更匀称,而且还原了蓬松感,看起来就很好撸。

另外还有一个细节处理也很亮眼,那便是狗子的眼神。图像中金毛狗的眼神看向了沙滩上的贝壳海螺,对应了 prompt 中的「正在找(finding)」。

作为一组对比参照,豆包的表现也很抗打。下图虽然整体色彩偏暗,但画面细节也十分丰富,例如海风吹起的浪花激荡、海风吹动的狗毛根根分明、金毛刨出贝壳后爪子粘上了不少沙子……

美中不足的是,这3幅图像都有个相似的问题——背景及其虚化效果的 AI 味还是有点重

而 Google 官方给出的示例中,Imagen 4 还能「细节控」到「指哪刻画哪」。卡皮巴拉短而硬的皮毛、油画的笔触、泡泡的光影、水晶表层的构造都可以准确地捕捉到。

同时,在图像质感和 2K 清晰度把握这块,Imagen 4 有的成品甚至可以媲美专业摄影作品了。

一位美商高的设计师

当爱范儿向最新 Gemini 2.5 Flash 版本的 Gemini 提出,「设计一款带电子屏的帆布包,有大中小型号」时,这位多模态 AI 助手花费 10 秒左右,便交出了如下设计图。

该设计图很直观地展示了「帆布包」和「电子屏」两个设计元素,并且左边一列标注了大、中、小的字样,右边区域则通过一些类似于「水杯」、「笔刷」的参照物,来体现不同尺寸的区别。

而且值得一提的是,其外观样式设计整体线条流畅不生硬,还保留了一些「手绘」的感觉。

然后,爱范儿进一步要求 Gemini 写明电子屏帆布包的具体尺寸。从此次生成结果来看,其主要英文单词和罗马数字都较为清晰且拼写准确,但涉及英文单位、标点符号的部分则会出现乱码的情况。

如果对于生成结果不满意,点击 UI 聊天框界面的「更新(Update)」选项,Gemini 会擦除此条生成结果,根据新输入的 prompt 重新执行输出。

产品设计图有了,还缺个产品名。Gemini 帮忙想了一个简单粗暴的名字「Canvas Connect」。

上述步骤实际生成结果与提示词的误差不算太大,需要重新调试生成的地方并不多。

不过,轮到相应海报、邀请函的设计时,如果提示词中有语义较为模糊的地方,Gemini 很大可能就会错意了。

Gemini 先是根据电子屏帆布包「Canvas Connect」的产品设计图,给出了左图的产品海报。接下来,prompt 要求是让它改一下海报的配色,主色调是棕色和绿色,其余部分不变。

然而,由于 prompt 中没有写明「帆布包」的配色不变,Gemini 更换海报底色时,把帆布包的配色也一并改了,如左图所示。

改写这段 prompt 后,Gemini 做到了仅更换海报而非产品的配色,主题色从粉色变为绿色。其从思考 prompt 背后的用户需求,到理解匹配需求,再到生成 AI 图像,总耗时大约是 10 秒左右。

而且,无论是电子屏的画面,真人模特的动作、神态,还是文字内容,都无明显改动。这个案例综合反映出 Imagen 4 模型文生图的可控性较强,文字排版较为美观,大体上可复用。

可惜的是,一些成段、成片的文字内容,目前很大程度上还需要依赖精细 prompt 来控制调试。

Gemini:甲方爸爸,第 10086 稿设计图已上传,我可以打卡下班了吧?

别急,Imagen 4 还有许多设计玩法等着一众网友们去探索呢。

爱范儿试了一下,发现它可以把海报中的真人模特,直接替换成发型、穿搭、动作都较为贴合的卡通人物形象,即上图最右侧那张海报。这也不失为懒得 P 图美颜时的一种交图思路。

不过,如果不提出具体要求,海报原有的排版也会随之改变。这点目前需要在prompt的部分多花些功夫。

或者来一个「风格活泼有趣」、「文本内容隽永」、「适配社交媒体」的电子邀请函吧。

最后,别忘了让 Gemini 来一段自带 emoji 和 tag 词条的宣发文案,「邀请你共同见证 Canvas Connect 新品发布时刻😉#TechStyle」。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Before yesterdayMain stream

「抢跑」GPT-5!Google 发布最强 AI 全家桶,史上最贵 AI 会员定价 1800 元/月

By: 莫崇宇
21 May 2025 at 06:34

去年的 Google I/O 前一天,OpenAI 甩出 GPT-4o 狙击。

今年攻守之势异也。

前几天 OpenAI 透露 GPT-5 将 All in One,集成各种产品。刚刚,Google 就把这个思路贯彻到 I/O 大会,直接掏出了自家有史以来最强的 AI 全家桶。

从发布 Gemini 2.5 Pro 与 Flash 两款模型,到 AI Mode,再到 Veo 3、Imagen 4,以及面向开发者与创作者的 AI 套件等,Google 几乎把从模型到产品的路径都压缩到一场发布会里。

更准确地说,当下最火的 AI 应用场景,都被 Google「预埋」进了产品接口里,让人意识到它仍是全球最具工程实力和生态整合能力的 AI 巨头之一。

也难怪许多网友调侃,将近两个小时的发布会过后,又将有一大批初创公司死于 Google 之手。

不过,也不难看出,发布会上有一些功能仍停留在「预告片」和小范围测试阶段,距离真正的落地或许还有不小的距离。

帮我「买票 + 找座 + 填表」一口气搞定,Google 新 AI 搜索卷疯了

AI 正在重写搜索这件事的底层逻辑。

在去年的 I/O 大会上,Google 推出了 AI 概览(AI Overviews)功能,至今已拥有超过 15 亿的月活跃用户。

生成式 AI 逐渐改变了人们的搜索方式,但随之而来的却是,我们不再满足于在搜索框里输入简单的问题,而是抛出更复杂、更长、更具多模态的提问。

今天,Google 再次加码搜索与 AI 的融合,推出一种端到端的 AI 搜索体验——AI Mode。

正如 Google CEO 桑达尔·皮查伊介绍的那样,这是 Google 有史以来最强大的 AI 搜索形态,不仅具备更先进的推理能力和多模态理解能力,还支持通过上下文追问和网页链接进行深度探索。

例如,当用户面对一个需要复杂解读的搜索问题,AI Mode 可启动「深度搜索」机制,不同信息之间进行推理,并在几分钟内生成一份专家级的引用报告,为你节省数小时的研究时间。

与此同时,Google 也将 Project Astra 的多模态能力接入搜索,进一步提升搜索的实时交互性。通过 Search Live 功能,用户只需打开摄像头,即可通过画面实时提问并获得反馈。

今年是 Agent 元年,Google 也很贴心地推出了 Project Mariner Agent 功能,能帮助用户更高效地完成任务。

例如,只需一句「帮我找两个这个周六比赛的实惠票,位于下层座位」,AI Mode 便能自动跨多个票务平台检索选项,实时比较价格和库存,并完成表单填写等繁琐操作,大幅提升效率。

借助 Gemini 模型和 Google 购物图谱的强大支持,Google AI Mode 能够帮助你缩小商品范围并提供灵感。如果你想看看衣服穿在自己身上的效果,只需要上传一张自己的照片,就能实现虚拟试穿衣服。

此外,AI Mode 也具备强大的个性化能力,能根据用户上下文偏好给出定制化建议,还可生成图表和可视化结果,尤其在体育和金融类搜索中表现出色。

该功能今日起已在美国全面上线,未来将推广至更多地区。

会写代码、还省 Tokens,Gemini 2.5 拿到「学霸」人设

在模型能力方面,Google 此次发布了 Gemini 2.5 Pro 的 I/O 版本,在各大排行榜上独占鳌头。

现在,Gemini 2.5 Pro 引入了名为「Deep Think」的推理增强模式。这项功能可在生成答案前考虑多个假设,从而更深入地理解问题背景。

2.5 Pro Deep Think 在 2025 年美国数学奥林匹克(USAMO)以及 LiveCodeBench(编程基准)排名领先,并在 MMMU(测试多模态推理)中获得了 84.0% 的分数。

不过,Google 表示,将会花更多时间进行前沿安全评估,并征求安全专家的进一步意见。作为第一步,Deep Think 功能目前将通过 Gemini API 向小范围测试者开放。

同样得到升级的还有注重效率的 Gemini 2.5 Flash。

新版 2.5 Flash 在推理、多模态、代码和长上下文等关键基准上都有了改进,同时在效率上更高,评估中使用的 tokens 减少了 20% 至 30%。

2.5 Flash 现已在 Gemini 应用程序中向所有人开放,并将在 6 月初通过 Google AI Studio 面向开发者和 Vertex AI 向企业全面发布。

开发者体验上,2.5 Pro 和 2.5 Flash 将在 Gemini API 和 Vertex AI 中引入了「思维摘要」功能,可将模型的推理路径以标题、关键信息和调用工具等方式进行结构化呈现。

开发者也将从中受益,Google 宣布在 Gemini API 和 SDK 中正式支持 MCP 工具,让开发者可以轻松接入更多开源工具和插件生态。

音乐、电影、图像全套上线,Google 把 AI 玩出了花

本次发布会,Google 带来了新一代图像和视频模型——Veo 3 和 Imagen 4。

与传统视频生成不同,Veo 3 是一款支持音频的视频生成模型,能在城市街景中模拟交通、鸟鸣,甚至角色对话,显著提升沉浸感。

该模型不仅在文本和图像提示的基础上生成视频,还能精确实现物理环境与口型同步,极大提升了视频创作的真实感。

目前,Veo 3 已在 Gemini 应用和 Flow 平台上向 Ultra 订阅用户开放,并已在 Vertex AI 平台上为企业用户提供支持。

上文提到的 Flow 正是 Google 为创作者打造的一款 AI 电影制作工具。

用户只需用自然语言描述电影场景,即可管理演员、地点、道具和风格,自动生成叙事片段。Flow 已在美国向 Gemini Pro 和 Ultra 用户开放,全球范围的推广也在推进中。

在图像生成方面,新版 Imagen 4 提升了精度与速度,细节表现上可逼真展现织物、水滴与动物毛发,同时也能生成偏抽象类型的风格。

它支持 2K 分辨率和多种长宽比生成,在排版和拼写方面也有显著优化,适合制作贺卡、海报甚至漫画。

Imagen 4 今日已在 Gemini、Whisk、Vertex AI 以及 Workspace 的 Slides、Vids 和 Docs 中上线,据悉,未来还将推出速度快十倍的版本。

在音乐创作方面,Google 扩大了 Lyria 2 驱动的 Music AI Sandbox 的访问权限,并上线了互动式音乐生成模型 Lyria RealTime。该模型现已通过 API 和 AI Studio 向开发者开放。

考虑到由 Veo 3、Imagen 4 和 Lyria 2 生成的内容将继续带有 SynthID 水印,Google 发布了全新的 SynthID Detector。

用户只需上传文件,即可识别其中是否包含 SynthID 水印,用于防伪和追踪 AI 内容来源。

Google 要造「世界模型」,连任务都能帮你做了?

Google 希望将 Gemini 打造成一个「世界模型」,既能计划、理解,也能模拟现实世界的各个方面。

Google DeepMind CEO Demis Hassabis 表示,这一方向正是 Project Astra 的核心理念之一。

过去一年里,Google 已将视频理解、屏幕共享、记忆功能等逐步集成进 Gemini Live。如今,Gemini 新的语音输出加入了原生音频,更加自然;记忆与 computer use 能力也同步增强。

此外,Google 还在探索如何利用 Agent 能力帮助人们处理多任务。

Project Mariner 就是其中之一,能够同时完成最多十项任务,比如信息查询、预订、购物与调研。已面向美国 Ultra 用户开放,并即将集成至 Gemini API 与其他核心产品中。

AI 新功能扎堆发布,会诞生真正的杀手锏吗

NotebookLM 官方昨日宣布,上线 24 小时就已经成为 App Store 中排名第 2 的生产力应用和第 9 的整体应用。

作为 Google 在 AI 笔记工具上的一次重要探索,NotebookLM 提供音频概览和思维导图等功能。

其中,音频概览目前已支持超过 80 种语言,而本周,Google 也宣布将为这一功能引入更高的可定制性,用户可根据需要选择摘要的长度,无论是快速浏览还是深入阅读都不在话下。

这项功能首先将在英语中推出,随后将扩展到更多语言。

与此同时,Google 也在回应用户对视觉呈现的诉求,即将在 NotebookLM 中加入视频概览功能,用户只需一键即可将笔记内容转化为教育类视频,用更直观的方式传递信息。

在 AI 编程领域,Google还带来了 Jules 的最新进展。

这个最初出现在 Google Labs 的自主编码助手,能够理解代码并自主完成诸如编写测试、构建功能和修复 Bug 等开发任务,如今已经正式进入公开 Beta 测试阶段。

此外,Google 还推出了全新的订阅服务 Google AI Ultra。

该计划为专业用户提供 Google 最强大模型和高级功能的无限制访问,适合电影制作人、开发者、创意工作者等专业人士,月费为 249.99 美元。

目前,该计划已经在美国上线,并将很快扩展至其他国家。

实际上,AI 如今不缺模型,也不缺功能,真正稀缺的,是一个能嵌入日常生活、真正打进主流用户心智的「杀手级产品」。

Google 当然明白这个道理,也正全力以赴寻找答案。

因此,我们看到,在这次的发布会上,Google 几乎什么都做了,也什么都提了:从文本、图像、视频、音乐,到搜索、Agent、创作工具,一应俱全。

牌已经亮完,技术也到位,现在,Google 只差一记真正击中用户痛点的落子。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Suno – AI 创作音乐 5 分钟实战教程

By: Anonymous
2 May 2025 at 12:09

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

AI 生成音乐工具,海外有 Suno、Udio,国内有字节的海绵音乐、天工 AI 音乐等。

个人体验看,Suno 综合实力最强,几乎是遥遥领先。

尤其是最近更新了 4.5 版,提示词遵循能力大大提升。

可玩性、可用性猛的提升,非常酷。

官网:
https://suno.com/

iOS 版下载地址

‎Make and explore music with Suno. Whether you’re a shower singer or a charting artist, we break barriers between you and the song you dream of making. No instrument needed, just imagination. Begin your musical journey with 10 free songs per day. – * Your subscription will be charged to your App

注册有积分,可免费生成音乐,但不能用最近刚出的 4.5 模型。

如想体验,用我链接,互赚点积分。

No Description

但是,想玩最牛模型,双币信用卡 Stripe 支付(有被拒概率),或某宝买成品号(75 元左右/月)。

以网页版为例。

点击 Create->Simple,输入音乐风格和主题提示词,点橙色的 Create 按钮。

就能生成一首还 OK 的歌。

是不是很简单?

如想相对精确控制一首歌的歌词、每小节风格/唱腔/器乐等。

就要用 Custom 模式,可理解为专家模式。

不要怕,其实也很简单。

核心输入就三个:

负向提示词,可以避免完全不想要的风格,选填。

比如喜欢重金属的,肯定要俗套的流行乐。

不会写歌词怎么办?

点击 Lyrics 模型下的“Full Song”,出现弹窗,输入主题和风格。

然后点击“Write Lyrics”,AI 自动生成两个版本,选一个即可。

如不满意,可手动修改。

或点“By Line”,选中待修改段落,让 AI 继续改。

虽方便,但生成歌词质量一般。

也没用上很多 Suno 的一些隐藏控制技巧。

理论上,任何一首歌,都是结构的。

类似于文章的起承转合。
一般不会上来就是高潮。

让 AI 给了一些常见音乐结构组成的解释。

主歌是讲述故事或表达主题的部分,歌词内容通常每段不同,推动歌曲情节发展。

位于主歌和副歌之间,起到过渡和增强期待感的作用,旋律和情绪通常逐渐上升。

歌曲中最核心、最具记忆点的部分,通常包含主题和 Hook(钩子),旋律和歌词多次重复,是整首歌的高潮。

在歌曲后半段出现,提供音乐和情感上的转折,带来新鲜感,通常旋律和和声与主歌、副歌不同。

歌曲的结尾部分,用于收尾和渐渐结束,帮助听众从情绪中平稳过渡出来。

• Post-Chorus(后副歌):副歌后的延伸部分,通常更具能量或舞曲感。
• Drop:电子音乐中高潮爆发的部分,常在前副歌后出现。
• Interlude(间奏):歌曲中段的器乐过渡部分,给听众短暂休息。
• Breakdown:乐器简化或重新编排的部分,常用于突出某种情绪或为高潮做铺垫。
• Refrain(叠句):在每个主歌结尾重复的短句,加强记忆点。
• Spoken Word(说唱/对白):用说话或朗诵的方式表达内容,增加表现力。
• Ad-libs(即兴短句):歌手即兴添加的背景声音或短句,增强歌曲表现力。

Suno 4.5 升级后,语义理解和遵循能力大幅提升。

能在歌词(Lyrics)中做段落标记,以控制歌曲的结构和情绪走向。

支持的结构标记如下:

此外,通过搜索官方 Reddit 社区,发现还有一些更细的控制。

比如

窗前明月光(明月光)

效果:括号内也会跟着唱出来,像叠唱和声效果。

再比如,Suno 对中文理解不到位。

某字发音不对,也可以通过小括号加上音标。

春花秋月何时了(liǎo)

避免唱成 le

[]括号也很有用,比如想指定某段用甜美女声唱,可以这么写:

[Verse 1: Narrative] [Sweet Female Vocal]

没关系。

像我们普通人。

音乐风格也了解的不多。

所以,借助 AI ,我把上面的技巧写到了一个提示词中。

模型推荐 Claude 3.7 sonnet,或 Gemini 2.5 Pro。

另外发现,如果是中文歌,豆包写歌词更押韵,但音乐标记做的不够好。

推荐模型组合使用,加上人工微调,完成你的歌词。

大概效果如下:

与此同时,还会生成正向和负向风格提示词、推荐歌名。

只需要复制粘贴到 Suno 中即可。

刷 Reddit,发现一些专业搞音乐的网友。

他们的用法:用 Suno 找创作灵感。

通过录音哼唱,生成纯音乐歌曲。

如何做?

点创作界面中的 Audio

可录音(也可上传一段音乐)

支持最多 120s 音频,以此为基础生成翻版或延长。

注意: 上传或录制的音频,会做版权检测,测了一些大牌乐队歌曲,都不让用…

先用 Suno 生成纯音乐,挑选最喜欢的一首,下载为 MP3。

打开谷歌 AIStudio,上传后让它基于歌曲写 Lyrics 歌词。

Google AI Studio is the fastest way to start building with Gemini, our next generation family of multimodal generative AI models.

示例如下:

谷歌多模态 AI 威武,不少音乐人喜欢这个 Use Case。

可能有人好奇,这么多复杂技巧怎么发现的?

工具Google Deep Research + 提示词:

调研下 suno.ai 的歌词创作和 lyrics 写法

十多分钟后,输出一份完整报告。

为方便查看,我做成了一个网站:

对于更具诗意、结构更复杂或不规则的歌词,Suno AI 也能进行处理,前提是用户提供了结构清晰、格式规范的输入文本。但是,AI 的默认倾向可能是生成更简单、重复性更强的旋律和结构。 因此,要成功演绎复杂的诗歌式歌词,很大程度上依赖于用户输入的质量以及是否使用了恰当的格式化技巧来引导 AI。 适合度:★★★☆☆ (适合,但需要更多技巧和高质量输入)

AI 音乐真的太神奇了。

以前觉得,创作音乐是天才和专业人士的专属。

现在,有了 AI,普通人也能写歌、作曲、制作,甚至能做出让自己感动的作品。

每次听到自己用 AI 做出的歌,心里都特别激动。

技术让梦想变得触手可及,也让更多人敢于尝试、表达自己。

希望大家多多体验 AI 音乐,别害怕不会乐理,不会写词。只要你有想法,有热情,AI 会帮你把它变成现实。

如果你觉得这篇文章有用,欢迎点赞支持。你的鼓励,是我继续分享的动力。

让我们一起用 AI,玩出更多音乐的可能!

Android 新设计被指抄袭苹果?但这可能改变你用手机的方式

By: 周奕旨
7 May 2025 at 18:03

在科技行业的年度盛事中,除了被称为「科技春晚」的苹果秋季发布会,还有一场发布会,虽在国内的声量稍逊,却深刻影响着占据全球智能手机市场半壁江山的 Android 生态——Google I/O 开发者大会。

不过,就在今年 I/O 大会启幕前夕,Google 却上演了一段小插曲:一篇关于设计语言的博文被悄然发布,然后在短时间内被删除。

这篇昙花一现的博文,犹如一扇被意外推开的窄门,虽然惊鸿一瞥后便匆匆关闭,却已足够让我们窥见 Google 对安卓系统未来设计所勾勒的蓝图雏形,及其背后酝酿着的诸多革新思路。

下一代设计,是学会表达

虽然博文在互联网上存在的时间很短,但还是被捕捉了下来,数字化的互联网档案库 Wayback Machine 精准捕捉到了这篇博文的详细内容。

博文的标题,开门见山地指出新设计语言 Material 3 Expressive 三大核心特性——更好、更简单、更有情感。

在明确核心特性后,Google 提出了一个引导性问题:

什么是表达性设计?

表达性设计能激发情感。它通过设计传递功能,帮助用户达成目标——可以理解为有灵魂的设计。

Material 3 Expressive 的核心要素包括色彩、形状、尺寸、动态效果和容器设计,这些设计元素需要提升产品的视觉吸引力,还能通过突出关键操作、分组相似元素,显著提升界面的可用性。

简单来说,就是 Material 3 Expressive 表达性设计以大胆的形状与充满活力的色调,创造愉悦的用户体验。

不过,这样的自问自答,可能听起来仍然有些抽象,对吧?

没关系,Google 在这篇博文中充分解构了 Material 3 Expressive 设计语言,我们接着往下看。

想要从零打造一个设计语言,前置条件是大量的研究,Google 设计了一系列方式,包括:

  • 眼动追踪:观察用户注意力集中在哪些区域
  • 问卷与焦点小组:评估用户对不同设计的情绪反应
  • 实验:情绪与偏好
  • 可用性测试:测量用户理解与操作界面的速度

举例来说,哪个进度指示器能让等待感觉更短,同时展现出高级感?哪种按钮尺寸能提升点击效率,又不喧宾夺主?Google 还研究了新浮动工具栏在现代感、清洁度、活力感知上的表现,以及组件的可见性和整体可用性。

比如下面的音乐播放软件,就通过不同形状、尺寸与颜色的按钮重构界面,重新排布画面元素,达成个性化表达的效果。

▲ 左:非表达性设计 / 右:表达性设计

从调研结果建立指南,再依照指南进行设计。这些研究帮助 Google 创造了 Material 3 Expressive 这一表达性设计语言的指南。

与表达性设计对应的,就是遵循 iOS 人机交互指南的「非表达性设计」。

一直以来,苹果认为设计应该强调清晰、功能性和内容优先,界面元素、文本、图标都应该易于理解和识别,为用户的注意力服务,而不是与内容争夺焦点。

呼声很高的拟物化设计也是由于这条核心的设计哲学,退出历史舞台。

不过,Google 的研究显示,在不同年龄段用户中,表达性设计普遍更受欢迎。尤其在 18-34 岁的用户中,有超过 80% 的比例表示更喜欢表达性设计,认为它视觉更吸引人且更愿意使用。

不过,表达性设计的回归,并不意味着拟物化设计的复兴,Google 对表达性设计的理解,更侧重于其所传达的「酷」。

Google 研究了 Caleb Warren 等人在 2019 年发布的论文《Brand Coolness》,这篇文论认为一些品牌之所以吸引人,是因为它们拥有一种独特的「酷」。

这些酷往往象征着反叛、突破、原创的,而随着大众接受这些元素,其形象就会更受欢迎,也更具标志性。

这也是为什么某些产品成为了流行风潮中的必备单品,人人都想拥有;而另一些产品,即使功能相似,却始终无法引发同样的共鸣。

Google 的研究发现,采用 Material 3 Expressive 设计后,用户对「酷」的感知显著提升:

  • 亚文化感知提升了 32%,让品牌显得更贴近潮流、更懂行
  • 现代感提升了 34%,让品牌形象更显新颖、具前瞻性
  • 叛逆性提升了 30%,让品牌更具突破性,表现出敢于挑战常规、引领创新的特质

更重要的是,Google 认为这种「酷感」不仅仅是上面那些流于表面的印象指标,而是能实际驱动用户行为意图的东西。

换句话说,用户更愿意尝试或切换到采用这种设计的产品,这为表达性设计提供了有力的支撑。

这种「酷」不仅利于品牌的建设,也有在实用上也有正面反馈。

Google 将不同的参与者带入实验室,让他们与 Material 3 Expressive 和当前 Material 3 版本的 10 款不同应用程序进行交互,且进行了随机排序。参与者发现,使用采用表达性设计的界面,他们能够以最高 4 倍的速度找到关键的用户界面元素,这表明这些设计能够迅速将用户的注意力引导到屏幕上的重要区域。

当然,在博文的最后,Google 也坦言,这种表达性设计并非万能的解决方案。当表达性设计过度介入基本的交互范式时,可能会导致可用性下降,从而间接影响用户的情绪。

为此,Google 将会提供指导,明确如何使用表达性元素,同时确保基本的交互范式不会受到影响。

值得一提的是,Material 3 Expressive 设计语言的源头,来源于 2022 年的一次分享。

当时,Google 的研究实习生在慕尼黑一家啤酒馆中向同事分享了她对 Material Design 在谷歌应用中用户情感反馈的初步发现,这次分享却意外引发了一场团队范围内的设计辩论:

为什么所有应用看起来如此相似?如此无聊?难道不能让设计更有趣、更富有情感吗?

抛出疑问后,Google 花了三年的时间,围绕这一问题展开了数十轮设计与研究迭代,通过 46 项独立研究、数百种设计方案,以及全球 18000 多名参与者的反馈,最终打造出一套既美观又高度可用的系统,推动 Material Design 进化来到用户的面前。

不约而同,却背道而驰的设计

虽然 Wayback Machine 捕捉下来的博文信息缺少了部分超链接,要等 Material 3 Expressive 正式推出后才能一览全貌,但我们仍不难 看出,Google 正在为 Android 系统筹备一场大刀阔斧的设计革新。

无独有偶,就在前段时间,iOS 19 的设计也传出将迎来重大变动,但不同的是,苹果对下一代设计的理解,几乎与 Google 背道而驰。

在 iOS 19 中,苹果将 Vision Pro 作为设计锚点,推动整体视觉风格向 visionOS 靠拢,并大量使用毛玻璃等材质,来承担界面中的层级分化任务。这一设计理念最终可能成为 iPhone、iPad、Mac 以及 Vision Pro 等设备共同的交互认知体系——

在基于屏幕显示的移动终端(如 iPhone、iPad 和 Mac)中,毛玻璃材质将用于平面层级的轻量化交互;而在 Vision Pro 中,它则用于支持三维空间中的多窗口叠加与深度交互。

显然,苹果仍将 Vision Pro 视为「明日产品」,并希望以其设计理念为基础,构建下一代用户界面体系。

本轮更新预计将覆盖操作系统的核心视觉元素,包括图标、菜单、应用、窗口样式及系统按钮,其整体目标是通过简化交互逻辑,让用户更高效、更自然地使用设备——从这个角度来看,苹果依旧坚定地遵循着「非表达性设计」的人机交互指南。

如果一切顺利的话,这套全新的系统体系将在今年 6 月的 WWDC 上与我们见面,并更新在 iOS 19、iPadOS 19、macOS 16、visionOS 3 等系统中。

有趣的是,在这篇博文泄露后,有人指出,Google 这个尚未正式推出的 Material 3 Expressive 设计语言与 iOS 的某些元素具有很高的相似度。

具体来说,手机状态栏中的电池图标,展示了这种设计的相似性。

与传统 Android 上那种竖直放置、形状锐利的矩形电池图标不同,新的电池图标采用了圆润的边角,呈水平放置状态,电池图标内还可以显示数字,并且使用了较为圆润的字体风格。

除此之外,部分界面的新的悬浮工具栏,也与苹果传闻的 iOS 19 的悬浮菜单栏有些撞车。

▲ 图片来自 @MysticLeak

高情商地说,这或许也算是 iOS 与 Android 一直以来「你中有我,我中有你」的证据吧。

不过,要是我们将目光放到更大的设计理念上来看,Google Material 3 Expressive 的「表达性设计」与苹果 iOS 19 的「非表达性设计」,完全是两个不同的思路,毫无疑问可以称得上真的分道扬镳了。

比起小细节上的争议,苹果和 Google 同时对设计语言进行大规模改动这件事,其实更有意思。

在这个时间点,两家手机行业的巨头,几乎同时对设计语言进行改动,却走向截然不同的方向,一下子让手机市场再次热闹了起来,但细究之下,我们不难发现,这其实是一件必然的事情。

目前,智能手机的主流设计基本还是以 2013 年推出的 iOS 7 与 2014 年推出的 Material Design 为主,但时间已经过去十几年,手机的模样早已天翻地覆,竞争也更为激烈紧张。

在智能手机功能日益成熟且趋于同质化,又像所有行业一样,逐渐陷入缓慢与停滞的背景下,影像成为高端旗舰手机的竞争主战场,但相较而言,影像对手机阵营的整体影响力依然有限。

此时,厂家再次把目光放在设计上,通过全面更新设计语言和视觉效果,对自家阵营的所有设备进行整体翻新,寻求差异化,是个吸引并留住用户的机会,也是探索新的增长点的好办法。

但从为手机买单的我们来说,如果设计的更迭仅仅停留在表面的视觉革新,那就很容易变成新时代的「诺基亚换壳」,固然能带来一时的新鲜感,但最终还是会陷入换汤不换药、没有创新的困境中。

曾为 Nike、Microsoft、Adobe、Facebook 等知名品牌提供设计服务的设计师 Frank Chimero 在他的著作《The Shape of Design》中表达过自己的见解:

设计是一种承诺,承诺你能做出最好的事。

在这里,我想将这句话做个小小的更改:设计是一种承诺,承诺你能做出更好的事。

只有这样,设计的探索,才能成为真正的创新。

让我有个美满旅程

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


5 大免费邮件转发服务,替代临时邮箱方案

By: Anonymous
18 March 2025 at 13:18

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

以往要对付垃圾邮件我会推荐使用临时邮箱来取代真实 Email 邮箱,临时邮箱又被称为临时邮箱、一次性邮箱或随用即丢邮箱,最知名的 10 分钟邮箱大家应该都听过。临时邮箱的原理是进入网页后随机生成 Email 地址,可使用该地址来注册账号、接收验证邮件并通过认证,同时保持匿名状态,不泄漏自己的真实邮箱,毕竟大多数的人都会有一个主要电子邮件地址,通过地址进行查找很容易就找到个人相关信息。

尽管临时邮箱有相当优异的便利性,也能实现以匿名邮箱收取 Email 邮件,但遗憾的是它们有个最大缺点就是无法重复使用,当离开服务、关闭网页后就无法继续使用相同的邮箱地址收件〔有些临时邮箱可设置密码就不在此列〕,但有部分服务可能会在指定情况需要重新以 Email 进行验证,如此一来就会造成后续使用上的麻烦。

电子邮件转发〔Email Forwarding〕又称为「邮件别名」〔Email Aliases〕服务,简单来说,它可以将发送到随机生成匿名 Email 地址的邮件转送到用户真实邮箱,由于这些邮件别名不会包含与你有关的字串,就不用担心被识别出真实身份。电子邮件转发功能将 Email 正确转发到用户真实邮箱,同时也保持 Email 地址匿名性。

实际案例:

假设你使用邮件转发服务在某电商网站注册账户,该网站只会看到你设置的邮件别名,而非你的真实 Email。即便该网站发生安全事件,外泄的也是邮件别名,无法直接联系到你的真实邮箱。

各种网络服务安全事件频传,如果使用 Have I been pwned、Data Breach Checker、Firefox MonitorGoogle One 暗网报告查询,会发现我们平常使用的 Email 地址可能都已经被外流很多次了。还好密码大多数都会经过加密〔hash〕,不会以明码方式储存,但用户账号、Email 等个人资料就很容易被收集后于暗网兜售。

黑客利用这些外泄的账号、Email 和密码组合去攻击用户常用的服务,有可能就会被登入滥用,因此这些资料很可能成为垃圾邮件或是网络钓鱼诈骗的目标。以邮件转发服务生成随机、不易被识别的 Email 地址有助于保护自己的真实身份。

接下来我将会列出五个推荐的邮件转发、邮件别名服务,列出的邮件转发服务注册就能使用,不是电子邮件自带的邮件别名功能。

Firefox Relay 是 Mozilla 提供的邮件转发邮箱功能,免费版在全世界大多数国家都能使用,免费版就能符合大部分用户需求。

Firefox Relay 注册账号后可以获取五组转发邮箱,可以随意生成无限组合转发邮箱来保护真实邮箱,别名可以随时暂停或删除,避免该邮箱继续接收邮件。收到邮件、转发时会自动移除邮件追踪器,以提供用户更好的隐私防护。

如果你从未使用过邮件转发服务,我会推荐从 Firefox Relay 开始。

直接前往 Firefox Relay

SimpleLogin 是一项开源、匿名邮件转发服务,2022 年被 Proton 公司收购成为旗下的产品。免费方案有提供十组邮件别名,无流量和接收邮件数量限制,与各种浏览器、移动设备都有相当好的整合,如果不想额外安装扩展,通过网页操作界面一样可以进行设置使用。

比较特别的是 SimpleLogin 具有「Reply from alias」功能,可以从邮件别名直接回复邮件,而不用通过真实邮件地址。付费后可以设置域名,享有无限制的邮件别名、Catch-all 等功能。

直接前往 SimpleLogin

知名的查找引擎服务 DuckDuckGo 也有邮件保护方案〔Email Protection〕,让用户通过 @duck.com 邮件地址来隐藏真实邮箱,在接收到新邮件时 DuckDuckGo 会先将邮件内的追踪器移除〔和 Firefox Relay 一样〕,在将邮件转发到用户 Email 地址,这项服务不会储存任何收到的邮件内容。

需要先在浏览器下载、安装 DuckDuckGo 扩展才能进行设置,或是要从手机下载应用程序。

比较特别的是 DuckDuckGo 邮件保护计划有一项比较特别的功能「Private Duck Address Generator」,可在现有的邮件转发地址再生成随机的邮箱地址,有点像多一层保护的概念。

直接前往 DuckDuckGo Email

Addy.io〔旧名 AnonAddy〕是匿名的电子邮件转发服务,主要用途是保护用户真实邮箱地址,免费方案就提供无限制的邮件别名,不过可用的共用网域别名、真实 Email 地址数量和别名域名有限制,免费和付费最主要差异依然是可否设置域名,要注意的是 Addy 回复功能是需要付费才能使用。

如果有直接以匿名转发邮件回复的需求,建议可以使用前面介绍过的 SimpleLogin 代替。

直接前往 Addy.io

5 大免费邮件转发服务,替代临时邮箱方案

Forward Email 是无限制电子邮件转发服务,跟前面几项不同的是它是唯一提供免费设置域名功能的服务,可以使用自己的域名转发邮件,也具有发送邮件功能。基本方案已具备相当完整的功能,唯有在需要一些付费项目或团队功能时才需要升级方案。

Forward Email 是 100% 开源的服务商,非常透明且注重隐私和安全性,服务不倚赖任何第三方,也不会对任何用户记录进行储存,最自豪的是它是目前世界上唯一使用抗量子和单独加密 SQLite 的邮箱。

直接前往 Forward Email

Google Gemini 免费 AI 对话修图实测!一句话PS、换背景、创作系列图画

By: Anonymous
9 March 2025 at 13:51

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

你拍下一些照片,却觉得照片的背景不够完美?你是内容创作者,但找不到文章合适的配图?你是电商卖家,想位产品设计更吸引人的配图?你是老师,需要为教材找出一系列搭配的示范图片?以前,我们修图可能需要 学 Photoshop,需要花很多时间调整细节,或是要下载各种修图 App,还要在图库中翻找适合自己的图片文件。

但现在,只要一个 AI 指令,就能让我们需要的照片「瞬间改造完成」。

如果你想体验看看类似的工作流程,可以试试看前两天推出的 Google Gemini 免费 AI 修图!只要「一句话」,你就能改变图片,换背景、改风格、添加新元素,甚至创造连续漫画。
〔类似功能,在 Google Pixel 系列手机的 Google 相册中也能部分实现,Adobe、Canva 等的 AI 修图也能实现部分功能。〕

这篇文章,我会实测 Gemini 的 AI 修图能力〔而且免费即可使用〕,看看它怎么帮助我们「一句话变出想要的修图效果」!

我将分成三种应用角度来介绍,这些全部都能在 Gemini 中用自然语言下指令,便可以把照片生成或改造:

基础照片修图:让拍坏的照片变完美

替换背景、增加物品、改变颜色光线、调整风格。

进阶场景创作:为文章制作主题插图、让商品看起来更吸引人

搭配原始照片,制作特殊场景图

搭配原始照片,重新设计房间或产品

连续系列照片生成:根据文章、教材内容,生成一系列互相搭配的图片

模拟图文食谱

说故事的连续漫画、图画

文章中搭配的系列配图

首先,这个功能目前〔2025/3/14〕尚未开放在正式版的 Gemini 中,但可以通过免费账号即可登入的「 Google AI Studio 」来使用。

Google 账号注册登入后,进入一个新的对话框,并在右边控制列的「Model」菜单,切换到「Gemini 2.0 flash experimental」,就可以利用其 AI 来创作图片、修改图片,最大的特色是:

这个 Gemini 模型可以上传自己的图片,用「自然语言」下指令,请 AI 在图片上修图或生成新内容。

就如同 experimental 所说的「实验性」,实际测试结果,这个 AI 修图功能确实很神奇,也能够看到一些未来修图、创作图片的新可能性,不过可下载的图片质量等限制,目前还是不足以真正用在商业用途上的。

Google Gemini 免费 AI 对话修图实测!一句话PS、换背景、创作系列图画

在「Gemini 2.0 flash experimental」的对话框中,我们可以先上传一张原始照片,如果想要替换背景,只要简单的说一句这样的指令:「把照片的背景换成草地。」

就可以在 10 几秒的处理后,完成下图的成果。可以看到,Gemini 的「修图」是真的可以保留原始照片中的内容,只修改我要修改的部分。所以是真的 AI 修图,而不是 AI 重新生成图片。

我也可以上传一张风景照片,然后下指令:「把照片的天空改成大晴天。」Gemini 同样可以处理这样的调整。〔在 Google Pixel 手机的 Google 相册中就有类似功能可用〕

如果想要替换照片风格,套用艺术滤镜,也可以用 AI 下指令:「把照片变成中国水墨画风格。」就能轻松转换风格。

不过当然跟真正的艺术滤镜还是有落差,例如下图中我要 AI 把照片改成「彩色的铅笔绘画风格」,看起来还可以,不过专业的艺术滤镜一定会处理得更好。

除了可以用「Gemini 2.0 flash experimental」的 AI 修图外,也可以在原始照片上进行创作。

例如延续上面的图片案例,我对 AI 下指令:「拓展成一幅横幅的中国水墨画。」十几秒后,照片就变成了一幅新的水墨风景画。

或是我的书籍封面,上传后,下指令说到:「我想把原书的图片,摆在一张高雅的书桌上。」结果还真的可以顺利生成新的产品摆拍图。

不过如果细看,书籍封面上有些小字其实是有瑕疵的。

因为 Gemini 是对话的模式,所以在原始照片的改造上,我们可以通过多次讨论,让 AI 在原始照片上陆续添加内容,制作出自己需要的场景图。

例如下面原本只是单纯公园照片,我先请 Gemini:「在这张照片的草地上,加上一对正在野餐的男女朋友。」于是生成了下面的图片。

然后我继续追问:「让两人旁边有一只小狗在奔跑。」

然后再下指令:「旁边的道路上,也有零星的路人在散步。」

最后说「让天空变得更晴朗。」于是我要的最终场景图,就通过 AI 创作完成了。

我还做了一个尝试,先上传一张原始的房间照片〔某家旅馆〕。

然后我陆续对 AI 下了下面这些指令:

结果 AI 生成了下面这样的图片,第一张是原图,第二张是最后生成的图片,改造的图片还是保有原图的空间格局,只是风格焕然一新。

Google Gemini 本来就可以生成图片,但「Gemini 2.0 flash experimental」比较厉害的是可以分析文章内容,生成适合的配图,或是一系列的连续漫画、故事图片

例如,我对「Gemini 2.0 flash experimental」下了这样的指令:「你是意大利面专家,提供给我一道海鲜意大利面的食谱,请一步一步处理,用文字具体列出关键步骤,并在步骤后搭配图片。」

结果他「一次」就生成了下面的连续图文教程内容,这是在一次的问答后就完成的结果。

我假设自己写了一篇游记,于是请 AI「设计一系列素描画,展现一个人在京都街头散步的故事,请一步一步分析,以京都的场景,搭配素描画风格,设计有意思的散步故事,创作一连图画。」

结果「Gemini 2.0 flash experimental」也在一次的生成中,提供给我下面连续故事图,比较神奇的是这些连续图片中都有类似的人物,保持图片连贯性,虽然风格上有点跳跃。

还可以这样问 AI,我让 Gemini 自己思考如何设计一系列进入书店场景的图片,Gemini 自己写了一大篇分析内容后,才开始设计并产出图片。

但效果看起来还不错。

所以,在功能上,利用现在〔2025/3/15〕在 Google AI Studio 中的「Gemini 2.0 flash experimental」,你可以上传原始照片请 AI 修图、改图。也可以让 AI 读一篇文章、思考一个主题,生成一系列连续图片。

未来这个功能越来越成熟,或许有下面这些应用可能性:

现在,你也可以通过免费账号即可登入的「 Google AI Studio 」来试试看。

Aux Machina – AI 驱动的免费图片生成工具,简单高效神器

By: Anonymous
28 December 2024 at 15:11

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

Aux Machina 是一款由人工智能 AI 技术驱动的图片生成工具,协助设计师、运营人员和内容创作者快速、轻松地创建设置视觉内容,以往常见的图片生成器大多使用提示词〔Prompt〕来描述要生成的图片,Aux Machina 提供用户上传图片来制作类似结果,再利用文字描述对生成后的图片进行微调,最终生成令人惊叹的视觉效果。

Aux Machina 将这样的流程简化,直接上传图片后就可以快速生成四张相似、但又不太一样的结果。此外,也能够以关键词查找网络上的图片,再将它加入 Aux Machina 以生成近似的图片。

Aux Machina 在操作上也很容易,用户必须先注册账户〔免费〕,就能在免费试用方案下生成图片,每月最高的生成数量为 100 张图片,可使用于商业用途,若有更多生成需求可付费升级 Pro 方案或购买单次付费,不过当前服务的计价方式尚未很完整,有兴趣的朋友就先去试玩一下吧!

No Description

进入 Aux Machina 网站后点击右上角「Try for Free」,接着会看到注册、登入页面,推荐直接使用 Google 或是 Facebook 账户注册登入即可,完全不用经过任何验证。

关键词查找图片

登入后就会看到 AI 图片生成工具,先介绍第一种方法,直接输入关键词查找网络上的图片〔下方有 AI 图片生成器服务列表,不过在免费方案只能使用 Berserq 无法选择其他服务〕。

点击图片右上角「爱心」后再点击下方工具栏的「Generate」就能以 AI 生成相似的图片结果。

Aux Machina – AI 驱动的免费图片生成工具,简单高效神器

以图生图功能

另一个「以图生图」方式是点击查找栏位右侧的「相机」图标,会出现上传图片的功能,支持 JPEG、PNG、WEBP、AVIF、JFIF 五种图片格式。

把要生成的原始图片拖曳后点击「Upload Images」上传。

设置细部调整

Aux Machina 就会以 AI 人工智能技术生成四张类似、但又有一点不太一样的图片。

下方会有一个「Want to make changes?」功能,可以在选择图片后输入描述、对画面进行细部修改编辑。

下载与使用图片

将光标移动到图片上方,点击右下角「Download」就能下载、保存图片,以 AI 生成的图片素材可自由使用于个人和商业用途,无需标示出处来源,也不用担心会有侵权问题。

Aux Machina 网站有提到未来还会加入更多 AI 辅助图片工具,例如:更换背景、影像变化、图片文字编辑、图片分辨率增强、去除背景、转为草图、魔术橡皮擦或是转向量图等等,不过目前的图片生成器已经很有用,若有需要各种图片素材的话可以使用它进行生成。

tldraw computer – 画张流程图轻松打造 AI 自动化任务实测指南

By: Anonymous
22 December 2024 at 14:33

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

你是否因为不会写程序,总觉得无法打造自己的自动化工作流程?每次设置 AI 工具都需要大量手动操作,效率难以提升?试试看一个实验性的新工具:「tldraw computer」,通过直觉的流程图设计,就能将繁琐 AI 指令与工作流程视觉化,打造高效率的 AI 自动化系统!

一开始使用 AI 〔指得是 ChatGPTGoogle Gemini 这类工具〕,我们可能会问:「生成一个某某主题的报告。」但当继续深入使用,真的把 AI 当作工作辅助工具,就会发现这样简单的提问是不行的,我们需要把任务「切割成」不同步骤,一个阶段一个阶段让 AI 处理,然后通过反问讨论,整合出最终更好的内容。

这时候,我们要请 AI 生成报告草稿,可能会先请 AI 设置 TA、痛点,再请 AI 做资料研究、摘要,然后请 AI 根据资料思考出更好的报告论述逻辑,然后才请 AI 根据这样的逻辑与资料,最后总结出一个更深入的报告大纲。

那么,如果上述的操作流程,可以用「视觉化」的流程图规划出来,然后 AI 就会自动跑完所有流程,生出我们需要的成果呢?这就是今天分享的这个最新 AI 工具:「tldraw computer」所具备的独特功能。

「 tldraw 」是很知名且好用的在线流程图工具,不过她们最新推出的「 tldraw computer 」AI 功能,不是要帮我们画流程图,而是让我们用简单好上手的流程图,规划出自己想要的 AI 自动化工作流程,打造一个可以根据更复杂逻辑生成报告、文章、设计图、声音文件的 AI 自动化助手。

「tldraw computer」内核特色:

「tldraw computer」用途:

我们先来看看「tldraw computer」这个工具可以完成什么样的应用案例,分享一个简单版实例:我自己常常会需要把拍照扫描的纸张图片,转换成一个有效的文字内容,就利用这个工具来建立一个快速扫描与修正文字的 AI 工具

我可以在「tldraw computer」流程图上设置一个上传图片的卡片框,然后拉一条连接线。接着在一个 AI 的指令框框里,输入我希望用什么样的逻辑来识别图片并修饰文字。然后接下来我再拉一条连接线,设置一个输出的文字框,让 AI 可以把完成的结果输出到这里。

而在使用的时候,我就只要在「第一步:上传图片的卡片框」把图片上传,按下右上方的播放启动按钮。这时候,这个工具就会自动跑流程图上的步骤,把扫描出来的文字转换成我需要的内容。

「tldraw computer」目前使用的 AI 模型是 Gemini,看起来无论是中文的文字还是手写字,都能够非常有效的识别完成。

tldraw computer – 画张流程图轻松打造 AI 自动化任务实测指南

接下来我们来看一个比较进阶复杂的应用案例。我想让 AI 帮我写一篇文章的草稿,但是就像前面提到的,直接让它撰写通常不会有很好的结果。

所以我利用「tldraw computer」工具画出一个文章产出的工作流程图。在流程图的一开始,我利用两张绿色的卡片,让我可以自己简单的设置这篇文章要解决什么 TA 问题,以及这篇文章想要采用什么方法论来解决问题。

接着,我开始用「tldraw computer」流程图展开我希望 AI 一步一步处理的自动化步骤。

首先,我利用红色的卡片设计 AI 处理的指令,请 AI 根据我的 TA 问题,写出一段有效的痛点描述。接着再请 AI 利用我想要介绍的方法论,写出一段这个方法论的重点思维基本背景的介绍文字。

但是,这样还不够。我继续往下画流程图。我让 AI 根据他自己输出的 TA 痛点以及方法论的重点,重新思考,拟出文章最好的架构。这个架构需要具体,有操作步骤,而且每个方法、每个步骤都要尽量有深入的诠释。

然后接下来,我让 AI 一步一步的把这篇文章往下扩展,有了文章的架构之后,我再请 AI 从这个架构出发,让这篇文章有一个完整的故事开场,有方法论重点,也有具体操作步骤,把前面的内容做一个有效的并且延伸插件的整合。

最后,我再画出下一步的 AI 流程图。我请 AI 用惯用的语言,用口语更亲切的方式来润饰改写它产出的文稿,输出一个解决痛点、介绍方法的一篇中文文章草稿。

甚至我可以再继续往下拉出下一步的流程图,放上一张声音的输出卡片,让 AI 把这篇文章的草稿转换成一个精简扼要的介绍音频文件。

有兴趣的朋友,可以看看我完成的这个 AI 自动化的工作流程图,看看上面的内容:https://computer.tldraw.com/t/szQY1iuGZCHAEmwzFASShH〔网址可以查看生成结果,如果要试用这个 AI 自动化流程工具,需要注册一免费账号。〕

当我有了这样的一个自动化的工作流程图,以后我只要每次回头修改一开始的两张绿色卡片,后面 AI 就会像刚才一样,自动跑完我已经设计好的工作流程,一步一步的去设计结构,推演文章进行润饰,甚至最后产出声音文件。我可以立刻获得最后输出的文章草稿以及声音文件的结果。

看完两个具体案例,最后我来分享「tldraw computer」如何操作?

先注册一个免费账号,建立一个 AI 自动化工作流程〔图〕的项目。

A computer by tldraw.

建立 AI 流程的基本逻辑是:输入、〔AI〕处理、〔AI〕输出。

掌握上面这个逻辑,你就能快速设计出一个有效的 AI 自动化工作流程。

首先,我们要设置「输入」内容的填写框,这是 AI 工作流程的起点,就像是要告诉 AI 目标、结果、资料的意思。

在「tldraw computer」中,利用 Text 或 Image 等卡片,可以设置输入文字、上传图片的填写框,作为启动流程的起点。

接着,我们要告诉「tldraw computer」如果去处理输入的内容,这时候从输入内容的卡片,画出连接线,连接到「Instruction」这个卡片上,然后在「Instruction」中说明希望 AI 如何处理内容的指令。

「tldraw computer」会根据我们简单的指令,自己做优化,让 AI 处理内容的结果更好。

然后,我们继续从「Instruction」卡片画出连接线,这时候可以连到 Text、Image、Speech、Website 等卡片,代表要让 AI 处理后,输出什么格式的内容。

重复上面:输入、处理、输出,三阶段流程,我们就可以串联出一个更复杂的 AI 自动化工作流程。

通过流程图的规划方式,我可以继续推进下一步的 AI 处理流程,甚至利用连接线把不同段落的内容连接到需要的步骤上,建立我自己需要的工作步骤。

最后,「tldraw computer」也提供了一些辅助功能,让设计这样的流程图更简单。

例如有一个启动按钮,让我们到时候只要按下启动,后面的 AI 流程就会自动跑完。

或是像流程图一样可以设置大小颜色,这样帮助我们分辨流程图中不同的卡片类型。

tldraw computer还有不少高级功能,有兴趣的朋友可以进一步玩玩看。

整体来说,「tldraw computer」是一个强大且易上手的自动化工具,让我们能够轻松打造自己的 AI 流程,推荐大家试试看。

Claude 新功能 MCP (模型上下文协议)使用指南

By: Anonymous
27 November 2024 at 13:59

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

Claude (Anthropic) 最近出了个 MCP (Model Context Protocol,模型上下文协议) 协议,让我朋友圈有刷屏之势,能清晰感受到,大伙儿都非常欣喜。我自己试用之后,决定写下这篇文章,分享给你。

MCP 是一种新的开放标准协议,用来在大模型和数据源之间建立安全双向的链接。这是它的官方示意图。

这张图展示了使用 Claude 或其他 IDE 时,通过这种双向沟通协议,模型(目前指 Claude)可以与不同的数据服务器进行连接。每个连接的数据源可能千差万别,比如上图里面前两个连接本地数据,第三个则直接通过互联网操作远程文件。

MCP 有什么用?为什么会让这么多开发者与用户欢欣鼓舞?

MCP 是一种统一的集成方式,交互界面完全一致。如果其他大模型也跟进,那么以后连接数据的感觉,就像给不同的电子设备使用 USB-C 接口,而不用准备那么多种不同的线缆插头。

更重要的是 MCP 的设计目标——提升安全性与控制力。因为以前处理数据时,我们通常采用极端的处理方式,很不安全。

第一种是将数据上传到大模型的对话中。这会带来两个问题:

另一种方式是让大模型获得本地管理员级别处理权限,帮助我们自动处理本地数据。之前我 给你介绍过的 Open Interpreter 就属于这种方式。看起来非常方便、灵活,但 AI 代理在本地以管理员权限进行各种操作,看到所有文件。如果它被植入不安全的代码,控制你的计算机,可能导致隐私和重要数据泄露,后果严重性不言而喻。

为解决上述两种极端数据交互方式带来的问题,Claude 提供了 MCP 作为一种解决方案。作为协议,它是完全开放的。后续其他主流 AI 企业能否跟进,咱们说不准。但是现在就可以用 Claude 来体验一下 MCP 带来的数据交互好处。

我们先沿着官方的 参考资料有快速上手指南 操作一下。指南非常简洁,步骤清晰,跟着做并不难。

官方教程给出了一个最简单的数据操作样例,是一个 SQLite 数据库。

SQLite 设置非常简单,单文件即可运行。我讲数据库课程超过 10 年,一直用的就是 SQLite。学生不用一上来就去学习架设服务器、权限管理,而是直接拿过来就可以学习 SQL 查询语句。对文科生来说,这都是一个非常简单的界面。

在上手教程里,我们会操作一个本地 SQLite 文件,与 Claude 进行交互。我们需要预先安装一些软件,不过很简单,你照着指南里面这个命令拷贝到终端执行就行。

下面是在我电脑上执行过程截图。

当然别忘了,你需要 下载 Claude Desktop 应用的最新版本,这是执行后续操作的前提。

之后,你需要建立一个 SQLite 的数据库样例文件。咱们先按照官方的设定来操作,复制页面上的这段代码,直接在终端执行就能搞定。

只要没有报错,你就拥有一个本地的 SQLite 样例数据了。

它存储在你的用户目录下,叫做 test.db .

下面你需要做的,是本次教程里最为不方便的操作——修改 Claude 配置文件。我相信在未来的版本当中,这个操作是能够通过图形化的界面来拖拽完成的。不过现在还是原型系统,你暂且忍耐一下。教程里明确告诉你设定文件的路径,你照着这个来执行就好。

你可以用 Visual Studio Code 或者类似的编辑器打开指定的配置文件路径。我这里用的是 Cursor。打开该文件后,你需要把教程代码段里的内容填进去。

不过这里有一个注意事项——你需要把原先代码中的 username 换成你自己在 macOS 上实际的用户名。这个很重要,不然连不上数据,会耽误你很多宝贵时间查错……别问我怎么知道的。

之后注意,你需要在 macOS重启你的 Claude Desktop App

到此,设定就算完成了。

下面,咱们实际看看 Claude 是如何与 test.db 这个数据文件交互。官网给出的流程图是这样的:

如图所示,Claude 先要和我们刚刚搭建的 SQLite MCP 服务之间建立连接,然后可以执行查询的操作。

首先,我们先用提示词来把这二者连接起来。这里的提问我是直接从人家官方的快速开始教程里面照抄的——「你能不能连接我的 SQLite 这个数据库,然后告诉我哪些商品现在可售,以及他们的售价?」

Can you connect to my SQLite database and tell me what products are available, and their prices?

Claude 立即就会明白需要和 SQLite MCP 沟通。

然后它就找我们要权限。我选择这一整次对话都可以给它开放权限(Allow for This Chat)。注意,这就是我刚刚跟你提到的安全性——大模型要做什么操作、找我们要什么样的权限、权限开放的时间范围多大……我们都可以自己来控制。

大模型开始与 MCP 通讯,执行一系列的 SQL 语句,通过查询返回结果。

注意,Claude 不像 SQLite 简单给你返回一个表格作为结果,而是用自然语言回答你的问题。这个样例中,它把现在可售商品都给你列出来,并且后面都标上价格。这种交互就显得非常自然。

下面我们来继续提出另一个样例问题——「在你的数据库中,商品平均价格是多少?」

What’s the average price of all products in the database?

这次大模型没有找我们再要权限。因为刚刚已经说明,整轮对话,它都可以获得 MCP 服务数据的操作权限。

执行后,Claude 告诉我们,平均值为 82.14 美元。

你会发现我们刚刚一直用英文来提问,这是因为教程是英文的,咱们为了方便拷贝了问题。但对 Claude 来说,中文完全不是问题。用中文来问「你能分析价格分布并提出任何定价的优化建议吗?」Claude 就会用中文来答。当然,背后还是连接 MCP 服务,调用 SQL 进行查询。

当查询遇到问题时,Claude 会自动反思,并且重组查询式,依照 MCP 服务返回的 SQLite 查询表格结果,告诉你不同的价格分布。

基于这些分析结果,它会给出优化建议,如价格策略、产品组合、促销策略和定价心理学应用等。

注意这是你单独用 SQLite 查询数据库无法直接给出的结果,SQLite 只能给出表格。而根据背景知识对查询结果表格进行解读,才是大模型的能力体现

既然跑通了官网给出的样例,我们接下来换上我讲数据库课程时常用的样例数据集,叫做 colleges。这个数据集来自斯坦福大学的一门 MOOC,包含学生申请大学的模拟数据。

数据集包括三个表格:apply(谁申请了哪个学校的哪个专业,是否被录取)、colleges(所有大学的列表)和 students(所有学生的信息)。

平时上课时,我在这几个表之间来回操作,教学生如何跨越表格综合信息返回正确的结果。

这次,咱们不用任何的 SQL 命令撰写,而是直接用自然语言来提问。首先,你要确保 MCP 连接成功。注意你需要修改配置文件里,数据库文件的路径,指向 colleges.db 。

对了,之后别忘了重启 Claude Desktop。

我的问题为:「你能否连接我的 SQLite 数据库,并告诉我里面有什么?」

Can you connect to my SQLite database and tell me what’s in it?

还是索要了一系列权限后,Claude 告诉我们有三个表:college、student、apply。

之后,通过进一步查询,Claude 为我们介绍 college 表中有哪些字段,student 和 apply 表又分别有哪些字段。至此意味着 MCP 数据连接成功。

Claude 会给出一些建议,告诉你可以问哪些问题。

不过我还是用自己的问题好了:「哪些同学报考了 Stanford 并且被录取?」

Claude 通过 MCP 执行查询,告诉我 Amy、Fay、Jay、Helen 这几个学生被斯坦福大学录取,并且说明了他们的 GPA 和专业信息。

Claude 特别指出,「有意思的是」被录取的学生中,两名被计算机科学专业录取,两名被历史专业录取,大多数学生 GPA 都很高,3.7 以上,但也有一位学生 GPA 较低,仍被历史专业录取。2.9 的 GPA 也能被斯坦福录取,这确实「很有意思」。

接下来咱们问它第二个问题:「哪些学生没有被任何学校录取,是因为分数太低吗?」

Claude 返回了两个学生的信息,并且说明 Bob 申请了 Berkeley 的生物专业,而 Craig 申请了 MIT 的计算机科学专业。

它总结说,这些没被录取的学生 GPA 其实不低,这表明 GPA 其实不是唯一的录取标准。然后 Claude 甚至还专门给出了报考大学的方法建议。

如果单单使用 SQL 查询,你不可能获得这些建议,这也是利用大模型做数据分析的有趣之处。Claude 通过 MCP 把当前的 SQL 查询结果与申请美国大学的背景知识有机地联系起来,厉害不?

但实际上,它的回答是错的

我教了十多年数据库课,对这个数据集非常熟悉。这里有一个陷阱——这个数据库里,有的学生没有申请任何一所大学。你不申请大学,当然不可能被任何一所大学录取,对吧?因此,在回答这个问题的时候,你的查询不能只看那些全部申请都被拒的学生。

所以我进一步提示它:

注意被所有申请的学校拒绝和没有被任何一所学校录取是不一样的。

我只提示到这,并没有说「有的学生没有申请学校」。但 Claude 很聪明,马上反应过来。它依然先找出所有提交过申请但没被录取的学生状况。后来它说,「让我们看看数据库中还有哪些学生是完全没有提交任何申请的」。注意这个查询,是它自己总结出来的。

综合分析后,它的答案是:刚才答案中那两个没有问题,是申请后却被所有申请的学校拒绝的学生;但还有若干完全没有提交申请的学生,分别是 Doris、Amy、Gary 和 Edward。

它还补充道,「这确实是两种完全不同的情况。谢谢您的纠正」。

很懂礼貌嘛,孺子可教。

Claude MCP 给我们带来的,绝不只是查询更简单、结果更全面、数据更安全这样的优势。至少,它打破了 Claude 处理数据长度和类型的限制。在 Claude 对话里,你想上传文件,就会看到限制——最多五个文件,每个文件不得超过 30 兆。

我找了一个上课时用到的数据库叫 movie.db。这个数据库包含了若干年的电影信息,虽然只有 246.7 兆,但这样的文件想在现在的 Claude 对话当中使用,那断然是不可能的。

你上传不上去,不仅仅是因为它体积太大,更是由于这种 .db 格式 Claude 就不允许上传,你连选择它都没有机会。

这些文件都是灰色的,不能点选。但是现在不一样了,我们直接把配置 MCP 路径修改成 movie.db,然后来连接。

Claude 找出这里面有三张表,分别包括了电影、演员和他们饰演角色的记录。

我问:「有多少女演员同时出演过《哈利・波特》电影的前两部?」你不要小看这个问题,你首先得知道《哈利・波特》电影的前两部都是啥。Claude 查询经过一些波折,但它非常勤恳地重构查询,然后告诉我们,这两部电影分别是《哈利・波特与魔法石》和《哈利・波特与密室》。

之后它列出了 8 个同时出现在两部电影中女演员的名单,还介绍了这个系列中的主要角色,如赫敏和麦格教授。我觉得这个回答非常好。

如果你在学习 SQL,那么还可以打开它的中间分析过程来查看完整 SQL 语句。

你可以自己用 SQLite 工具来验证查询结果。但更多时候,你兴许能从它的答案中得到参考和借鉴。

我必须说明一点——本文所演示的内容,只是 MCP 能力的冰山一角。MCP 现在支持的数据服务,就已包括 GitHubGoogle Drive、Slack 等。

甚至,你还可以用十几分钟的时间,干脆构建一个自己的 MCP 服务。官网分别提供了 Python 和 Typescript 语言版本的对应教程。

而仅从 SQLite 的样例看,MCP 目前就可以连接本地数据库,不用像原先那样把整个数据来回上传下载。安全性和控制力比以前显著增强。

Claude 通过 MCP 作为中介,能很好地分析 SQLite 的数据集。在咱们展示的例子中,MCP 的优点是把大模型和数据有机结合起来——通过对外部世界规律的微妙体悟,在真实任务中有效帮助你充分利用自己的数据。

提示词的清晰度依然很重要。例如刚才提到的「申请了学校但没有被录取」和「完全没有申请学校」这样的问题,有时还需要我们引导一下。

试想我们把不同的数据来源综合起来,在一个对话中综合调用,这种感觉像更是一种「化学反应」,想想就让人兴奋。希望 MCP 的出现,能激发你的创意,让你利用多元数据集获得更为深入的洞察。

还是那句话,「临渊羡鱼不如退而结网」。与其看个热闹,不如自己动手试一试。哪怕你只是按照 Claude 官网的教程走一遍也好,相信也能获得更为直接的感悟。

欢迎你把自己尝试 Claude + MCP 的结果分享在留言区,我们一起交流讨论。

祝 AI 辅助数据利用愉快!

Recraft – 打败 Midjourney,匿名屠榜的 AI 生图黑马,人人都能设计海报

By: Anonymous
19 November 2024 at 17:08

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

如今 AI 圈更新产品的节奏,让每个和键盘难舍难分的编辑明白了一句台词:你还有多少惊喜是朕不知道的?

这不,又一个 AI 生图神器来了:Recraft。

好用在哪?一句话概括就是:人负责排列组合,AI 负责美工,审美挺好,还不容易出错。

对于普通人来说,设计海报又又又变得更简单了,我们就是 AI 的甲方,给它一套毛坯,它给你一次次不重样的精装。

Generate and edit vector art, icons, 3d images and illustrations in a wide range of styles suitable for websites, print and marketing

请问,设计一张海报,需要几步?Recraft 表示,三步就够了。

首先,在空白画布上,拉出一个紫色的框框;其次,在你想要的位置放入图片、文字,输入提示词;最后,点击生成按钮,AI 就能帮你化腐朽为神奇。

只要等待十几秒,一张海报出现在你面前。比如这样,轻轻松松把文字变成 3D。

▲ 图片来自:X@recraftai

或者,你想做个表情包,有图,有文案,但不知道怎么组合更好看,也可以交给 Recraft,让它来扩图,把文字自然地融进场景里。

▲ 左边,AI 生成;右边,草图

甚至,我们不上传图片,纯打字,让 Recraft 一条龙生成海报也没问题。

文字渲染一直是图片生成模型的痛点,但 Recraft 牛逼在,可以 hold 住一大段文字。

A 妹主演的《魔法坏女巫》将在 11 月上映,国内也会引进,然而,电影还在文火加热,设计简陋的海报已经被群嘲了。

不如让 Recraft 重做一次吧,我用不同字号,把文案排列了一下,草图这就算做好了,然后参考原海报,反推提示词,说明了画面的要素,接下来交给 AI 一键美化。

▲ 左边,AI 生成;右边,草图

可喜可贺,该有的都有,文字没有错误,每一行都被 AI 精心设计,和官方海报一比,风格不同,但没有差到哪里去。

Recraft – 打败 Midjourney,匿名屠榜的 AI 生图黑马,人人都能设计海报

▲ 左边,AI 生成;右边,官方海报

除了从头设计,Recraft 还可以处理多张图片,满足追星族和嗑 CP 爱好者的要求——把喜欢的角色 P 到一起,看起来不突兀。

以哈利波特和毒液为例,上传需要的两张照片,背景不同怎么办?这里不得不提 Recraft 一个非常实用的功能:一键抠图。

是的,传统的 P 图软件都有抠图功能,这不算什么,但 AI 生图工具,考虑到这个大众功能并加进产品的,不多。

抠图之后,配上文案,看起来仍然有次元壁,默认字体也丑了点,没关系,选择你想要的画风,让 AI 统一优化,就有同框的感觉了。

▲ 左边:优化后,右边:优化前

擅长设计平面是不够的,Recraft 的一个功能更让人拍案叫绝:Mockup,做立体物体的图案设计。

先让它生成一个普通的红色棒球帽,中间的绿色框框,用来生成图片,或者上传自己的图片,然后图片可以和帽子完美融入。

比如,加上一段文案:「make cats great again」(让猫猫再次伟大)。

抠图去除多余的背景,把图标拉伸到满意的大小、旋转和移动到合适的位置,它始终保持透视效果,自适应地贴合表面。

以此类推,T 恤、杯子、徽章也是一样的,吃谷虽然快乐,但伤钱包,以后可以自己给自己做周边,赛博欣赏,自娱自乐了。

▲ 仅示意,徽章是 Recraft 生成的,图案是上传的

请问,我为什么一直在让 AI 设计英文内容?

因为 Recraft 有硬伤:可以用中文提示词,但输出不了中文。哪怕我明确要求,某段话请用中文写,它也会「贴心」地给我翻译成英文。

但只要能登上 Recraft,就有免费额度可用,设计海报、封面、产品图、表情包…… 有便宜可占,已经很香了。

我们知道 Midjourney、DALL-E、Flux、Ideogram,但这个 Recraft 是何门何派?

前段时间,文生图模型 red_panda 在 X 一鸣惊人,因为它在 Hugging Face 的排行榜拿下了第一名,把有名有姓的前辈踩在脚下。

这个排名,靠两两图片对比得出,比的是综合能力,包括审美、提示词理解、身体结构准确性、文字生成质量等。

网友猜测,red_panda 是「小熊猫」的意思,难道来自中国?关子没有卖多久,幕后团队就出来自曝了。

red_panda 基于模型 Recraft V3,背后的公司是 2022 年成立、总部在伦敦的 Recraft AI,创始人曾在 Google、微软工作过。

Recraft 一朝成名天下闻,不是没有道理,这个产品集了各家之所长。

▲ 图片来自:X@recraftai

论高清、光影、真实感,Recraft 不输 Flux。

同时,它对新手友好,有很多不错的预设风格,游走在写实和艺术之间,不用写复杂的提示词,就能模拟各种摄影和绘画效果。

▲「Hard Flash」风格,强烈、直白的闪光灯效果

Recraft 擅长的长文本图像生成,准确度怕是让拿文本做招牌的 Ideogram 都自愧不如,而且,它很听话,可以让我们决定文本的大小和位置。

▲ 图片来自:X@recraftai

不过,Recraft 也可能出现文本错误,并且导致背景变形。当我模仿《火星救援》的风格做马斯克的海报,他的脸像被整容了,还是失败的那种。

▲ 左边:AI 生成;右边:草图

当 AI 生图工具都在增强可控性,Recraft 不落下风,Midjourney 的修改局部功能,它也有。

我们框选出某个区域,然后用提示词告诉 AI 怎么修改,加个帽子轻轻松松。

十八般武艺都会一点的 Recraft,会抢设计师的工作吗?恰恰相反,它是来交个朋友的,把自己定义成:面向设计师的生成式 AI。

所以,Recraft 具备了一些设计师们需要的功能,比如样式也可以通过更多的图像输入给模型,保持风格的稳定。

Recraft 还做了一个小小的协作功能,画布可以共享,让对方评论,因为「有时候,两个人的想法比一个人的想法更好」。

▲ 图片来自:X@recraftai

更喜闻乐见的是,Recraft 生成的图片可以免费商用。

当然,不是设计师的小白们,比如我,也可以玩得很开心,分分钟做出自己喜欢的海报。

而且,本就没必要将人和工具比较,Recraft 是来和 Canva 等设计工具、Midjourney 等 AI 生图工具同台竞争的,用户们坐享其成。

▲ 图片来自:X@recraftai

Canva 的 CEO Melanie Perkins 说过,Canva 希望让每一个人都设计出他们可以想象的任何东西,无论说什么语言,用什么设备。

所以,他们打破 Adobe 的门槛,简化了设计流程,提供了各种模板、部件、图片、字体,让用户增减元素。

▲ 图片来自:X@recraftai

AI 的进化方向,和这位 CEO 的愿景是一样的:为全世界赋予设计的能力。

但我们的选择,越来越不局限了,不是必须选择哪个产品,不是必须听某个创始人的故事,工具能帮我们做的越来越多,我们按下的按钮越来越少,甚至可以不亲手操作,人人都能设计一点东西,如果我们还愿意称之为设计。

Google vs ChatGPT 搜索体验对比实测

By: DUN
2 November 2024 at 15:22

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

随着 的新实时搜索功能, ChatGPT 正在将自己定位为传统搜索引擎如 的竞争对手。ChatGPT 以其对话式的响应而闻名,能够提供实时的上下文信息而不带广告。

我抓住机会看看 ChatGPT Search 与 Google 长期以来的搜索专业性相比如何。我进行了几次比较,涵盖了速度、准确性、视觉效果和整体用户体验等类别。以下是它们的表现。

问题“东京的主要旅游景点有哪些?”

Google 的搜索引擎非常快速,结果在毫秒内就能交付。搜索引擎拥有多年的优化经验,并且有专门为高速索引和检索而构建的基础设施,可以立即获得来自多个来源的广泛相关结果。

ChatGPT 的搜索同样快速,并为每个地点生成了更清晰、更用户友好的图像和信息。显然,AI 通过从相关来源提取信息来生成响应,然后以对话的方式分享这些信息。结果感觉更加友好,几乎就像 AI 很高兴我去旅行一样。

使用体验ChatGPT Search
在以对话且简洁的方式提供有价值的快速响应方面领先。

问题: “解释气候变化和全球变暖之间的区别。”

Google
 的响应来自 Gemini,概述了气候变化和全球变暖,并将其包裹在一个简短的段落中。从那里,我可以向下滚动并搜索一些来自 NASA、USGS.gov 甚至 Quora 的链接。显然,算法优先考虑流行和权威的来源,但它也是以广告驱动的,这意味着顶部结果有时包括我看到的来自联合利华的赞助内容。此外,对于复杂的主题,我自己需要浏览多个链接才能拼凑出完整的答案。

ChatGPT 提供了直接的答案,从网络中提取经过的信息,然后添加了一个可点击的「来源」图标。这个功能减少了我在 Google 搜索中从多个收集信息的时间。在这个搜索和其他搜索中,ChatGPT 的总结对于一般查询甚至更详细的主题都是准确的,其设计允许更干净、更加集中的体验。(不过,请记住,广告可能会在未来出现。)

使用体验ChatGPT Search
在便捷和准确的直接答案方面赢得了这一轮。

问题: 苹果目前的股价是多少?最近有什么更新?

Google 实际上没有给我一个立即的答案。相反,我得到了一个指向 Yahoo Finance 的链接,我可以点击并希望自己找到答案。

ChatGPT
在毫秒内,答案就在我眼前。我还得到了关于苹果的新闻和更新,当然,还有来源。ChatGPT Search 真是令人耳目一新。我得到了问题的答案,而不需要四处寻找细节。通过将答案直接呈现在我面前,我节省了时间,而不需要再点击几次。显然,对于实时的股票 或天气更新,ChatGPT 提供了可比的准确性,甚至在深度上超过了 Google 庞大的视觉库。

使用体验ChatGPT Search
继续以其策划的实时直接答案给我留下深刻印象,显示出未来更新的潜力。

问题: 给我展示媒体对心理健康影响的最新研究。

Google 提供了如此多不同的答案,我甚至不知道该从哪里开始。从 Gemini 的响应到侧边栏,再到下面的链接结果,整个体验极其杂乱——这是我在使用 ChatGPT Search 时从未注意到的。此外,Google 的广告模式意味着用户数据通常被用来提供个性化广告。虽然 Google 有广泛的隐私政策和设置,但其广告驱动的方法可能导致不总是优先考虑用户隐私的定向内容。

ChatGPT 再次,ChatGPT 搜索提供了一个更清晰的界面,没有推广内容。对于这种个人化的搜索,额外的隐私关注方式让我非常感激。作为一个希望在搜索过程中不被广告定向的用户,这种方式对我来说更具吸引力——或者在之后。

使用体验ChatGPT Search
在考虑隐私和负责任的内容使用方面领先。对于敏感搜索,不被广告定向是一个巨大的优势。

问题: 什么是我客厅里最好的电视?

Google 我说的就是我说的,Google。在纠正我输入「What's」而不是「What is」后,Google 给我回应了一些链接,所有这些链接都是赞助的,我需要点击才能找到电视。在得到这个回应后,我感觉我需要再次问它以帮助缩小范围。然而,在赞助链接下,还有来自内容发布者的链接。

ChatGPT 为我缩小了范围,包含了图像,并给出了我想要的答案。AI 确实感觉像是一个朋友,提供有价值的信息。每个电视图像旁边都有一段介绍,提供关于每个电视的信息。与 Google 相比,这种设计感觉更加干净和简洁。此外,对话格式直观,我可以滚动浏览推荐,而不需要像在 Google 搜索中那样需要浏览多个链接。

使用体验ChatGPT Search
提供了一个令人耳目一新的体验,直接回答和具体示例。

问题: 谁在民调中领先?

Google 的结果包括有关选举的新闻故事。我希望通过这个问题获得关于今天总统选举民调中谁领先的直接结果。我不得不挖掘新闻故事才能找到答案。

ChatGPT 给了我我想要的结果,直接提供了事实。选举新闻无处不在,所以我不需要阅读更多的新闻故事。ChatGPT 给了我一个直接的答案。

使用体验ChatGPT Search
提供了没有繁琐的实时答案。

问题: 洋基队在世界大赛中是如何崩溃的?

Google 的第一个结果是从《纽约时报》关于该主题的故事中提取的引用。这是一个快速的响应和直接的答案。然而,它让我感觉我没有得到完整的故事。

ChatGPT 提供了更全面的回应,从更多来源提取信息,但仍然感觉干净简洁。我得到了洋基队彻底失败的完整画面。

使用体验ChatGPT Search
再次提供了我所寻找的实时答案,并增加了确认我获得所有信息的全面性。

ChatGPTGoogle 在不同领域都表现出色,但它们满足的需求略有不同。如果你在寻找全面的搜索结果,拥有大量来源和视觉效果,Google 仍然是强者。

然而,如果你的优先事项是清晰、无广告、对话式的响应以及内置的实时更新,ChatGPT 提供了一种流畅、用户友好的体验,可能很快就会成为日常查询的主流。

ChatGPT Search 提供的无杂乱答案以及支持它们的来源是全面且可靠的。我对 ChatGPT 的答案更有信心,因为它们简洁且没有广告商的支持。结果感觉就像是专为我准备的。在杂乱的网络中,ChatGPT 就像一个乐于助人的朋友,我喜欢这种感觉。

开源许可证选择器 – 轻松比较、选择合适的开源许可协议

By: Anonymous
3 October 2024 at 16:45

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

如果常在查找程序或浏览 源码,会每个项目底下都有一个 LICENSE 文件,这也是程序使用的许可协议,若想使用这个项目的源码或相关资料就必须了解许可方式,简单来说,许可协议规范的是什么可以做、什么不能做,必须遵守才能合法使用。

比较常见的有 GNU 通用公众许可协议〔GPL〕、Apache 许可协议、MIT 许可协议和 BSD 许可协议等,大家一定都曾经听过或看过。

不过许可协议本身就很复杂,即使去查找维基百科或上的资料也不一定可以短时间看懂,有开发者将许可变得更简单,通过问答选择题来推荐开源许可,以互动方式显示最适合的开源许可选项,同时以更浅显易懂的解释、条列出优缺点,在更短时间内找出最适合的许可方式。

开源许可证选择器〔Open Source License Chooser〕是为需要选择许可的用户提供指引,将枯燥的法律术语转为更容易被大众理解的语言,除此之外,有「许可比较器」最多可将三种许可加入比较功能,以表格方式列出彼此之间的差异。

如果你不是开发者,纯粹想知道指定的开源许可信息,也可以在「开源许可选择器」获取相关说明。

Choose the perfect open source license for your project with our humorous and easy-to-understand guide. No legal jargon, just straight talk!

进入「开源许可选择器」后先从右上角 Language 切换语言,有英文和简体中文语系。

接着从左边开始回答问题,完成后右边就会显示适合的许可许可证。

问题有五题,每一题都会有三个选项,主要就是分为是、否或是不确定,例如是否希望别人使用你的源码赚钱、别人能否修改你的源码、是否担心遇到专利流氓、是否会通过网络提供服务、是否在意其他开源项目的相容性,描述上都很平易近人,即使没有任何法律背景也很容易理解。

开源许可证选择器 – 轻松比较、选择合适的开源许可协议

这项服务一共收录 15 种开放源码许可,会依照用户的回答推荐许可方式,例如下图就有 MIT License 和 Apache License 2.0 两种,它会有一段简单介绍、趣味解释〔以其他更生活化的方式描述此许可〕,更重要的是下方会有优点和缺点、使用量和示例项目。

React、Angular 使用的是 MIT 许可协议,目前已超过 140 万个网站使用。

可以点击「了解更多」连到许可官方网页以获取更多信息〔或者以名称去 查找〕。

从「许可比较」功能可以选择最多三个许可类型,以表格方式列出更易于比较,包括描述、允许商业使用、网络服务相容、修改限制、优点、缺点、使用量和示例项目,支持可加入比较的开源许可有:

如果想知道开源许可被使用的比例,也可参考「许可使用情形图表」页面,主流是 MIT License、Apache License 2.0、BSD 3-Clause License 和 GNU GPL-3.0到图表上会显示使用量。

ChatGPT Canvas 全新 AI 写作、源码、文本编辑工具,功能测试

By: Anonymous
2 October 2024 at 14:47

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

最近推出会主动思考推理的「 o1-preview 」,以及更即时、自然的「高级语音对话模式」后,今天又再次推出新功能:ChatGPT Canvas」,这是基于 GPT-4o 架构开发的全新 写作、源码编辑界面。让 ChatGPT 不再只能对话,而可以进行更深入、准确的内容创作工作。

第一波更新中,ChatGPT Plus 和 Team 用户会先获得 Canvas 功能,而全球的企业和版用户将会在下周获得使用权限。并且 还计划在 Canvas 正式发布后,向所有 ChatGPT 用户开放这项新的人机协作界面。

实际测试后,我觉得可以把「ChatGPT Canvas」想象成一种 AI 文本、源码,在这个中,人和 AI 可以更有效率的协作,共同编辑更好的内容成果。

以前的 ChatGPT 是即时通,一切内容要在对话中生成,也只能用对话引导 AI 去生成、修改,这很多时候会有点麻烦,常常在问答的过程偏离主题,难以指定要修改的部分,容易愈改愈乱,再也回不去之前更好的版本。

但是「ChatGPT Canvas」能够解决上述问题,它让人与 AI 在一个类似文本编辑的界面中讨论,就像多人一起编辑一份在线文件那样,可以一起处理文字、源码内容,可以针对任何指定段落修改,能够整合人与 AI 各自编写的内容,最后一起合作完成一份文本。

于是, ChatGPT 不再只是「对话软件」,而可以当作真正的「AI 文本内容、源码内容编辑器」,你可以利用来处理下面的工作流程:

在这篇文章中,我通过一个完整的写作实测案例,带大家了解 Canvas 的操作流程、快捷功能以及它如何帮助创作者解决具体问题。

ChatGPT 的 AI 模型中切换到「GPT-4o with canvas」模式,下面我测试看看利用这个新界面编写一篇文章。

首先,我先利用原本常用的 AI 指令结构,结合我的想法草稿,请 ChatGPT 改写成一篇完整的文章内容。

ChatGPT Canvas 全新 AI 写作、源码、文本编辑工具,功能测试

当 AI 开始编写文章草稿,或是源码时,「GPT-4o with canvas」就会像是下图这样,进入独立的文件编辑界面。

进入独立的 Canvas 编辑界面后,最大的优点就是,我们甚至可以直接在上面修改 AI 生成的文章内容。

于是这样一来,可以实现更流畅的「人与 AI 的协同写作流程」。

以前 AI 生成的内容,我们有不满意的地方,无法人为的介入修改,只能让 AI 自己去改,而常常愈改愈乱。

现在, AI 生成的草稿,我可以直接在编辑界面介入,修改成我觉得更好的版本,然后再请 AI 接续调整,实现真正的人与 AI 协同合作。

「GPT-4o with canvas」不只可以修改内容,也可以调整粗体、标题样式,就像是一个结合 AI 功能的简易 Word 编辑器,还支持 markdown 编辑格式

以文章写作的 ChatGPT Canvas 界面为例,编辑界面右下方会出现一排「快捷功能菜单」,文章写作、源码编辑会有不同的对应菜单。

「快捷菜单」中有很多默认功能,可以快速修改整篇文章、源码的内容。

例如其中有一个「阅读等级」的调整按钮,可以把文章的内容改成从小孩子到博士等级的不同风格与深度。

下面是一篇我让 AI 改写的、文章,我让 ChatGPT 把原本相对专业的文章内容,改成适合小朋友阅读的版本。

而下面是同一篇第二大脑的教程文章,我让 ChatGPT 把原本相对口语的草稿,改成更精炼、专业的文章风格。〔可以跟上面的小朋友版本进行比较,都是同一篇草稿的不同阅读等级修改。

通过快捷功能,一个按钮就可以快速转换我们需要的文字深度与风格。

以文章编辑界面为例,具备下面几种快捷功能:

下图是按下「建议编辑」后,ChatGPT 针对不同段落提供的编辑建议,我只要按下允许,就可以让 AI 直接进行修改。

这是不是跟以前的对话生成内容有很大的不同?现在 ChatGPT 可以针对一篇长篇文章,提供各种分段的调整、建议与修改。

除了整篇文章的快捷修改、建议外,在「ChatGPT Canvas」的编辑界面中,我可以任意圈选一段觉得有问题的段落,这时候会浮现「Ask ChatGPT」的按钮,点击后,我可以输入这一段的修改建议,让 ChatGPT 去进行指定段落的调整。

这是不是很像我们在 Google 文件上提供伙伴文章修改建议?只是这一次,AI 成为我的伙伴,听从我的指令去修改。

更棒的事,在「ChatGPT Canvas」中不用再怕 AI 修改内容后,回不去之前可能更好的版本。

因为在编辑器中,自带了可以还原之前版本的功能,而且不只可以还原到前一个版本,也可以回到上上版、上上上版,或是跳回最新版本。

经过简单的文章写作实测,我们可以看到 ChatGPT Canvas 的可能性,它突破了传统 AI 对话生成文本的限制,将人机协同的创作流程无缝结合,无论是在写作还是程序设计的应用场景中,Canvas 以更灵活的编辑能力和快捷的功能,帮助用户实现了更精准、有效的工作流程。

对于我相对熟悉的文章创作者而言,ChatGPT Canvas 不仅提供了文稿即时的优化、编辑建议,还能调整文本的阅读等级和风格,帮助你快速针对不同的受众进行调整。而对于程序员,Canvas 的源码、注解添加与错误修正功能,让程序开发过程变得易于维护。

这样的功能让人与 AI 之间的互动变得更具深度,不再只是被动地接受 AI 的生成内容,而是能主动参与其中,实现真正的协同创作。

无论你是需要改进写作的创作者、需要帮助调试的程序员,还是想要在教育中使用 AI 辅助的教师或学生,ChatGPT Canvas 都是一个值得一试的工具。

Google NotebookLM 更新:用 AI 研究英文 YouTube,批量获取整理视频、音频内容

By: Anonymous
30 September 2024 at 13:12

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

Google NotebookLM 是一个强大的,可以让我们上传各种不同内容,建立属于自己的 库。通过这个工具,我们可以用自己专属的文件、PPT、网页、文章,让 AI 生成各种新的报告、文案、文章,甚至是客服解答。

这个工具让很多团队和公司都觉得非常实用。比起从别人的数据库中生成内容,直接从自己的专业文件与专属知识中获得 AI 回应,对工作的性来说更有效。

NotebookLM 推出了一个全新的升级,比前阵子推出的生成英文 Podcast 更实用!

现在它可以支持上传「 」,和上传自己的「录音文件」,让你用更多不同的内容建立属于自己的 AI 数据库。AI 会自动分析 YouTube 视频的字幕,并将录音文件转成各种语言的字幕,从而帮助你生成所需的内容。

这次升级带来了许多新的应用可能性,例如:

Google NotebookLM 原本已经支持上传 Google 文件、简报和网址进行分析,而现在更加入了 YouTube 视频和录音文件的支持。无论是中文、英文、日文等多国语言,NotebookLM 都能进行高效的 AI 整理与生成。

接下来,我通过图文介绍,这些新功能的实际使用方式。

打开「 Google NotebookLM 」,建立一个新的笔记本,然后就可以上传各种文件、文件、影音内容。

而在这次更新中,上传的内容增加了「YouTube」与「录音文件」两种选项。

Google NotebookLM 更新:用 AI 研究英文 YouTube,批量获取整理视频、音频内容

上传 YouTube 时,其实就是贴上 YouTube 视频的网址即可。

Google NotebookLM 不支持某些视频,例如没有字幕、不公开、最近才上传的视频,都可能导入失败。

我把自己收集的大量跟「个人知识管理系统」有关的英文 YouTube 视频,全部上传到 Google NotebookLM,立刻整理成「中文」的第二大脑学习笔记内容。

看起来效果还算是精准有效。

也可以把 YouTube 视频,跟其他的文件、网页文章,全部一起上传到同一个数据库。

AI 生成的内容与回答,也会从数据库的不同视频、不同文章多种不同内容,整理出答案,引用不同形式的参考资料。

也就是说,现在文字、视频、声音内容,都可以在 Google NotebookLM 的同一个数据库中进行解析,让 AI 同时分析多种内容形式,生成更有效地回答。

AI 问答时,针对 YouTube 视频,AI 会抓出视频的字幕进行解析与诠释,回答时也会引用视频内容,我们可以看到视频完整的字幕稿,以及跟答案有关的引用部分。

另外这次升级,Google NotebookLM 还推出了一个更实用的更新,就是可以上传录音文件,解析出完整字幕〔中文也支持〕,并进行知识问答或整理

下面是我把一个 40~50 分钟的录音文件上传,解析出的完整字幕内容。

字幕本身不算很完美,但理解内容没问题,更重要的是,这些录音字幕,就可以变成 AI 未来生成我需要的内容的素材。

例如我上传很多次很长时间的会议录音文件,问他会议中的某个重点:

Google NotebookLM 就可以正确的挑出示哪一个会议录音文件的哪一段内容,提供回答,也可以在引用中直接让我跳到该次会议的录音字幕段落!

我也可以汇整一个项目多次的会议录音文件,请 AI 根据会议录音文件撰写报告、文案Google NotebookLM 也表现得还不错。

或者,我之前常常提到,我喜欢用说的把想法讲出来,再看怎么语音转文字,变成报告或文章的草稿。

Google NotebookLM 中,我现在可以更自在地先把想法完成的录音下来,把录音文件上传,让 NotebookLM 整理杂乱想法,引用原文,改写成通顺文章。

Google NotebookLM 的最新升级让它成为学习与工作上的强大工具,特别是支持 YouTube 视频和录音文件的上传与解析!

无论是学习英文视频、整理会议录音,还是将录音内容转换成报告和文章,Google NotebookLM 都能以有效帮助我们处理繁琐的资料,并生成实用的 AI 回应。

通过整合多种语言与多形式内容〔文章、PDF、简报、网页、视频、录音等等〕,Google NotebookLM 这个工具让学习和工作流程变得更聪明,无论你是学生、老师、职场专业人士,还是创作者,NotebookLM 都是一个值得试试看的 AI 助手。

Lessons I learned after completing the Google UX Design Professional Certificate

The image is a presentation slide with a dark green background and white text. The text reads “Lessons I learned after completing the Google UX Design Professional Certificate.” The logo “LRD.IM” is also displayed.

Recently, I heard that Coursera has a UX design course developed by Google’s design team. This course covers the entire design process and teaches us how to present our portfolio, prepare interviews, and the like.

It is necessary to enroll in this course even though it is designed primarily for beginners and fresh graduates. It would enhance my English skills on one hand, and deepen my understanding of Western design practices and culture on the other. Since the term “UX design” is called out by Western designers and I am eager to compare Western design cultures with those I’ve experienced in China.

So I enrolled in this online course, trying to spare my time on it. Such as during lunch and dinner breaks on weekdays, or parts of the weekend. I completed the whole certificate within two months. And now I’d like to write down what I learned from this course:

The image shows a dark green presentation slide with four text boxes labeled “New concepts,” “Listening and Reading Proficiency,” “Accessibility and equity,” and “Guidance for Job Hunting.” The text is in white and each box has a rounded edge.
  1. Introducing concepts I had never heard of. Despite my 5+ yoe in a wide range of companies, from startups to large corporations in China, those new concepts opened up a lot of room for me to explore.
  2. Enhancing my listening and reading skills. The course covers plenty of video and reading materials that include industry jargon that translators cannot provide. Moreover, certain phrases and sentence structures are repeatedly used throughout the course. I think my reading skills and speed are slightly improved.
  3. Pointing out concepts like accessibility and equity early throughout the course. I used to think only seasoned designers or well-developed products consider these aspects, however, they are mentioned early on and repeatedly. These concepts resonated with me and will truly influence my work.
  4. Elaborating comprehensive and detailed guidance for designers to prepare their portfolios, resumes, and interviews. They not only tell us what content should be included in our portfolios, but also how to prepare for interviews at different stages. I resonated with these instructions as well, since I did think those details over when looking for a new job.

Table of content

This is a wide banner-like image with a dark green background and the words “New concepts” in large, white text centered across the slide.

New concepts

I have consistently tried to think about and expand design boundaries through different aspects, which requires a breadth of knowledge. Here, I will share several new concepts along with my personal understanding.

Affinity diagram

This is a method of synthesizing that organizes data into groups with common themes or relationships. It can be used in different stages of the design process, such as during brainstorming or after collecting users feedback. The example below focuses on the latter.

After collecting a batch of user feedback, the design team condense each piece of feedback into a single sentence and write it on sticky notes. Then we post them up on a whiteboard or digital tools like Figma. Then the design team look for sticky notes that reference similar ideas, issues, or functionality and collaboratively organizes them into clusters representing different themes.

When I first learned about this approach in the course, I realized that this approach is similar to another method called “Card sorting” that was included in an article I translated earlier named [English to Chinese Translation] How we rebuilt Shopify’s developer docs. Both methods involve clustering sticky notes, naming these groups and summarizing the themes or relationships.

However, card sorting is implemented by external participants and aims to uncover users’ mental models to improve information architecture; Whereas affinity diagramming organizes a large amount of raw data to show the team which problems users are most concerned about and consider high priority.

* This concept is mentioned in Module 3 of Course 4 (Conduct UX Research and Test Early Concepts — Module 3 — Gather, organize, and reflect on data)

Digital literacy

This concept refers to an individual’s ability to gather, communicate, and create content using digital products and the internet. For example, senior adults or those living in areas with poor internet infrastructure may find it difficult to understand interfaces and functionalities, they are considered to have lower digital literacy.

In contrast, young people, especially those working in the information technology industries, are typically familiar with new software and concepts, and can quickly adapt to them.

This course does not dig deeply into this concept, rather, it emphasizes the importance of understanding our users. If our product targets a broad range of users, it is good to consider the needs of users with lower digital literacy. Moreover, this factor should also be considered when recruiting participants for usability tests.

* This concept is mentioned in Module 2 of Course 1 (Foundations of User Experience (UX) Design — Module 2 — Get to know the user)

Deceptive pattern

This concept refers to a group of UX methods that trick users into doing or buying something they wouldn’t otherwise have done or bought.

In the course, instructors clearly point out that this is an unethical and not a good practice. Businesses may lose their clients’ respect and trust once clients realize that they have fallen into deceptive patterns. I will share a few interesting examples that the course provided.

  1. Confirmshaming: Making users feel ashamed of their decision. For example, a subscribe button on a news website usually reads “Subscribe now / No thanks”. BBut if the service provider wants to manipulate readers’ emotions, the text might be changed to: “Subscribe now / No, I don’t care about things around me.”
  2. Urgency: Pushing users to make a decision within a limited time. For example, an e-commerce website might give you a coupon that is only available for 24 hours, prompting you to purchase items without a thoughtful consideration. The course doesn’t judge these marketing strategies or promotions; instead, it suggests that we should avoid putting pressure on users. As designers, we should try our best to balance business promotions and avoid manipulating users’ emotions.
  3. Scarcity: Making users very aware of the limited number of items. For example, a popup or attractive advertisement stating “Only 5 items left in stock.” The course suggests that designers should concentrate on helping users to understand products better, rather than using designs to encourage impulsive buying.

It is really interesting that these deceptive patterns are so common in the Chinese e-commerce industry that it might seem unusual if those strategies were to disappear.

This seems to reflect cultural differences between China and the West. In China, core team members, such as designers, product managers, and operators, collaboratively discuss how to induce and prompt users to make a hasty decision. Also, we regularly hold reflections to discuss and share insights on how to deeply incite users’ motivation.

In 2018, I landed my first job as a UI designer at an e-commerce company. One of my main tasks is designing promotions, such as “claim your vouchers”, “flash sales ending in N hours”, and creating illustrations of red pockets and flying coins, and the like. I didn’t really like these approaches at that time, so I eventually turned to the B2B and SaaS industry, focusing more on UX design.

Although I am not fond of these types of designs, these seem to really help companies grow and generate income. We could stabilize our employment only if our company were earning profits. Perhaps that is an inextricable cycle: obviously, deceptive patterns are unethical and bad as they are inducing and annoying our users, but we must continuously implement these approaches and think about how to make them more effective.

* This concept is mentioned in Module 3 of Course 3 (Build Wireframes and Low-Fidelity Prototypes — Module 3 — Understand ethical and inclusive design)

Biases

The course thoroughly explains a concept called “implicit bias”. It refers to the collection of attitudes and stereotypes associated, influencing our understanding of and decisions for a specific group of people.

For example, imagine you’re designing an app to help parents buy childcare. To personalize your onboarding process, you start by displaying bold text saying, “Welcome, moms. We’re here to help you…”

This is an example of implicit bias, since it excludes every other type of caregiver, like grandparents, guardians, dads and others.

In addition, here are some interesting biases the course introduced:

  1. Confirmation bias. Refers to the tendency to find evidence that supports people’s assumptions when gathering and analyzing information.
  2. Friendliness bias. Refers to the tendency to give more desirable answers or positive comments in order to please interviewers. This usually occurs in usability tests, where participants may not share their honest feedback because they are afraid that real answers or negative comments might offend interviewers and be considered unfriendly.
  3. False-consensus bias. Refers to the tendency that people tend to believe that their personal views or behaviors are more widely accepted than they actually are, and consider others’ opinions to be minor or marginal. For example, an optimist might think that most people around the world are optimistic; or designers can easily understand iconographies and illustrations they created, they might assume other users might easily to understand too.

I was shocked when I was learning this part. I strongly resonated with these biases which I had never perceived before. After all, the course lets us be aware of these biases and provides approaches to help us avoid falling into these pitfalls.

* This concept is mentioned in Module 3 of Course 3 (Build Wireframes and Low-Fidelity Prototypes — Module 3 — Understand ethical and inclusive design)

I listed some concepts above that I had barely encountered in my workspace. Becoming a UX designer appears to require a broad range of knowledge, such as design, the humanities, psychology, and sociology. I am now interested in psychology after completing this course.

This is a wide banner-like image with a dark green background and the words “Listening and Reading Proficiency” in large, white text centered across the slide.

Listening and Reading Proficiency

There are plenty of listening and reading materials involved in the course. Typically, each video lesson is accompanied by an article. If there are additional knowledge points, a single video might be accompanied by two or three articles.

Most instructors in the course speak with American accents. They also speak slowly and clearly, which makes me comfortable and usually allows me to understand without opening closed caption. Sometimes, I need to rewind a few seconds when they are speaking long sentences with many clauses or introducing new concepts, and I will open closed captions if I am still confused.

It is worth pointing out that the course contains lots of industry jargon, and I resonated with this because I used similar approaches or processes in my workspace by using Chinese. As a learner, I created a spreadsheet to record expressions that might be useful, such as:

  1. Above the fold, the content on a web page that doesn’t require scrolling to experience;
  2. Deliverable, final products like mockups or documents that can be handed over to clients or developers to bring designs to life.
  3. Digital real estate, space within the digital interface where designers can arrange visual elements;
  4. Firm parameters, refer to rigid design boundaries or limitations like time, project resources, and budget.

I think it is valuable to collect this industry jargon because it is authentically expressed, which can’t be translated by common translation tools. This will be helpful for me to read design articles and write blogs in English.

This is a wide banner-like image with a dark green background and the words “Accessibility and Equity” in large, white text centered across the slide.

Accessibility and Equity

Accessibility

The course introduces several assistive technologies, such as color modification, voice control, switch devices, and screen readers, which can help people with different types of disabilities to use our products easily.

Instructors also point out that even people who don’t have disabilities, or who do not perceive themselves as having disabilities might benefit from these assistive technologies. The course suggests that we think these factors over throughout the entire design process. For instance:

  1. Supporting color modification. Features that increase the contrast of colors on a screen, like high-contrast mode or dark mode;
  2. Supporting voice control. Allows users to navigate and interact with the elements on their devices using only their voice. They also mention a concept called “Voice User Interface (VUI)”;
  3. Supporting switch devices. This is a one-button device that functions as an alternative to conventional input methods such as the keyboard, mouse, and touch, allowing users to complete common tasks like browsing webpages and typing text;
  4. Supporting screen readers. Allows users with vision impairment to perceive the content. The course suggests that we write alternative text to images, add appropriate aria labels to interactive elements like buttons, and consider the focus order of elements.

Here is a website that demonstrates the color modification feature: HubSpot.com

On the top navigation of this website, it provides a switch for us to toggle a high-contrast mode. Moreover, it also supports reduced motion effects — if I enable the reduced motion setting on my device, this website will minimize motion effects as much as possible.

Equity

The course also introduces a concept called “equity-focused design.”

Instructors clearly define the difference between “equality” and “equity”:

  1. Equality: Providing the same amount of opportunity and support, everyone receives the same thing;
  2. Equity: Providing different amount of opportunity and support according to individual circumstances, ensuring everyone can achieve the same outcomes.

The course also points out that equity-focused design means considering all races, genders, and abilities, especially focusing on groups that have been historically underrepresented or ignored when building products.

They use a survey question as an example: when gathering participants’ demographic information like gender, it is not enough to provide three options: “Male”, “Female” and “Other”. To make our design more inclusive and equitable, we should offer additional choices, including “Male”, “Female”, “Gender-nonconforming”, “nonbinary” and a blank field. The latter provides non-conventional gender options, uplifting those who might be marginalized in conventional surveys. This approach also aims to balance the opportunities for all groups to express themselves, ensuring their voices are treated fairly and heard.

In this lesson, I clearly faced a culture gap from the West. In fact, I don’t really like to dig into this concept deeply, mainly because I can’t determine whether this approach is right. Sometimes I think it is unnecessarily complicated, but at other times, I recognize that there are people with non-traditional genders around us who may truly be eager to be treated fairly.

When I was learning this lesson, I realized that there was an opportunity to incorporate accessibility features into the project I was recently working on. I will write a new post if this project lands successfully.

* This concept is mentioned in Module 2 of Course 1 (Foundations of User Experience (UX) Design — Module 2 — Get to know the user)

This is a wide banner-like image with a dark green background and the words “Guidance for Job Hunting” in large, white text centered across the slide.

Guidance for Job Hunting

In the final course, instructors teach us how to lay out a portfolio and what content should be included. They also inform us the process of interviews and how to thoroughly prepare for interviews.

The guidance they mentioned is for the Western workplace, which may not seamlessly fit in the Chinese workplace. For example:

  1. They point out that designers should have a personal website and case studies regularly. However, Chinese designers prefer to publish their case studies on public platforms like ZCOOL and UI.CN;
  2. They also teach us how to build our digital presence and network through LinkedIn. However, these approaches are not common in the Chinese job market, where the most popular methods are directly submitting resumes and getting recommendations through acquaintances.
  3. They inform us how to handle panel interviews. I have interviewed with a wide range of companies, from startups to corporations, and never encountered panel interviews, which means that the panel interview is not popular in this industry.

I was deeply impressed by how they elaborated on the preparation and important considerations during the interview process. For example:

  1. Research the main business of the company you interview for beforehand, and clearly understand why you are a good fit for the company;
  2. Prepare answers to common interview questions beforehand, such as a personal introduction, your strengths, and descriptions of your case studies;
  3. We should learn how to answer difficult questions using the STAR method, and prepare well before starting an interview;
  4. Adapt the focus and questions according to the interviewer’s role to show you are a professional;
  5. During the interview process, you might be asked to complete a task. Therefore, we should practice the ability to think aloud and clearly define questions, since interviewers might pose vague questions on purpose.

I resonated with the approaches and tricks mentioned in the course that I had previously used, which gave me a strong feeling that I was on the right track.

Additionally, the course also provides detailed instructions on how to pursue freelance design work. For instance:

  1. Clearly identify your target audience and understand why they should choose your service;
  2. Know your competitors, identifying what they can’t provide but you can;
  3. Promote your service and build word-of-mouth by attending online and in-person events, and getting recommended through acquaintances;
  4. Calculate the business expenses, set fair prices for your services, and make financial projections — estimate what your finances will look like in the first month, the first 6 months, and the first year.

* This concept is mentioned in Module 3 of Course 7 (Design a User Experience for Social Good & Prepare for Jobs — Module 3)

To sum it up

Well, above are lessons I’ve learned from the Google UX Design Professional Certificate on Coursera over the past two months. I think that this is an interesting course, although not all content can be applied in my daily work, I’ve also learned the thinking processes and workplace cultures of designers in another part of the world.

I strongly recommend designers reading this post consider to enrolling in the Google UX Design Professional Certificate, by doing this, you might probably gain new insights. The course costs $49 monthly, which is not expensive. It is likely to complete the entire course over two or three months if you have a full-time job.

Things worked as I expected, and I will start my next project in the second half of the year.


Lessons I learned after completing the Google UX Design Professional Certificate was originally published in Bootcamp on Medium, where people are continuing the conversation by highlighting and responding to this story.

完成了 Google UX Design Professional Certificate 后的收获

最近了解到 Coursera 这个平台里面有一个 Google 设计团队出品的的 UX 设计课程,课程里会介绍完整的 UX 设计过程,并且教我们怎么写作品集和准备面试之类的。

即便这是一门面向初学者或应届生的课程,我觉得也有必要参加这个课程看看。一方面能锻炼下自己刚闭关修炼出来的的英语能力,更重要的是还能了解下西方职场的设计流程和设计文化(毕竟 “UX 设计” 这个概念是西方人创造出来的),我一直想对比看看老外的设计文化和自己这几年在国内职场的感受有没有什么异同。

于是就报名参加了这个网课,都是抽时间来学习的。比如工作日吃午饭和吃晚饭那段时间,或者周末的部份时间等等。总共花了 2 个月完成了所有课程。写这篇文章的目的也是记录下结课之后的感受:

图片中央展示四个方框,每个方框内部都用白色中文文字标识了不同的概念:“新的概念”,“听力、阅读能力”,“无障碍和公平”,“求职指引”。
  1. 里面提到的一些概念我没有听说过。即便我工作了 5 年,在小公司和大集团都呆过,里面有些概念仍然给了我很大的探索空间;
  2. 英文听力、阅读能力锻炼。里面有大量的视频和阅读材料,用词应该就是比较地道的行业术语,这些是翻译软件不能提供的。而且里面的材料都会不断重复一些短语或句型。我觉得我的阅读能力和速度是有所提升的;
  3. “无障碍” 和 “公平” 的概念被很早提及并贯穿全课程。我一直以为只有比较成熟的设计师或产品才会考虑到这些,但这些概念在课程中很早就被提及了,而且是反复提及。这触动了我,并真正地影响到了我的工作;
  4. 提供了全面且周到的指引帮助设计师准备作品集/简历/面试。这方面内容他们写得很细,告诉我们作品集里应该包含哪些,针对不同面试阶段所做的准备等。里面写到的东西我很有共鸣,因为我在找工作的时候也会去思考这些细节。
深绿色背景的宽幅 Banner,中间白色大字“新的概念”。

新的概念

工作这几年,我一直会尝试从更多不同的维度来思考和扩展原有的设计边界,做到这点需要有比较宽广的知识面。这里分享下我在课程里了解到的一些新概念,以及我的理解。

Affinity diagram 亲和图

这是一种组织数据的方法。从不同的反馈和数据中整理出他们的相似之处和关系。亲和图可以用在不同的设计阶段,比如在头脑风暴中,或者收集到用户反馈后,这里以后者为例子。

具体做法是在收集好一批用户反馈后,将每一个原始反馈浓缩成一句话,写在便利贴上并将它们都贴在白板上(当然,也可以用在线工具如 Figma 完成)。然后团队成员一起看这些内容,将提到相似概念/问题/需求的便利贴放在一起,并给这一堆便利贴起个名字概括他们的共同点。

根据分组结果,我们可以总结出一些趋势、痛点,了解到我们需要解决的问题也为后续的洞察报告提供了依据。

最开始在课程里了解到这个方法的时候,我突然想起来这与我两年前翻译的文章:【译文】我们如何重建 Shopify 的开发者文档 里提到的 “卡片分类法” 很像,都是将相似的卡片堆成一组,给该组命名,然后得出结论。

但卡片分类法里面 “分类” 的动作是由团队外部的人参与的,并且用于揭示用户的心智模型并为解决网站信息架构问题提供指引;而亲和图则是通过组织大量原始数据,告诉团队有哪些问题是用户关心的,亟待解决的问题。

*该概念在第四门课程的第三个模块中提及 (Conduct UX Research and Test Early Concepts — Module 3 — Gather, organize, and reflect on data)

Digital literacy 数字素养

这个概念大意是指人们对于数字产品、网络来获取信息、交流和创造内容的能力。比如一些年长的人、生活在网络没那么普及的环境中的人,他们对于使用电子设备和互联网就会有些障碍,理解功能和界面也会感到困难。而年轻人,特别是互联网行业的从业者则对这些就比较熟悉,各种新软件、新概念都能很快上手。

课程中对这个概念并没有展开太多,主要是提醒我们作为设计师,要了解到我们的用户是谁。如果是一个面向较宽广的用户群体,最好考虑也到对电子设备和互联网没那么熟悉的人。包括在做可用性测试时,招募的参与者最好也考虑到这个因素。

*该概念在第一门课程的第二个模块中提及 (Foundations of User Experience (UX) Design — Module 2 — Get to know the user)

Deceptive pattern 欺诈性设计模式

指的是一种设计方法:通过设计去诱导用户去做一些本来不想做的事情,或购买本来不想买的东西。

在课程中,明确指出这是不道德的事情,不是好的做法。一旦用户认为自己陷入了欺诈性设计模式当中,公司将会失去用户的尊重和信任。课程中列举了一些例子,我可以拿几个有意思的的分享出来。

  1. Confirmshaming (羞辱性确认): 让用户对自己作出的决定感到愧疚。比如一个新闻网站的订阅按钮,文案里原本可以写 “立即订阅 / 不了,谢谢”,但为了操纵用户的情绪,文案写上 “立即订阅 / 不了,我不关心身边的事情”。
  2. Urgency (急迫性): 引诱用户在 “有限的时间内” 作出决定。比如电商网站里给你送了一张仅限当天使用的优惠券,促使你赶紧付钱消费。课程里指出并重点不是限时促销这件事情,而是在这过程中给用户增加了消费的压力。作为设计师,我们应该在曝光公司的促销活动的情况下,尽量避免操纵用户情绪。
  3. Scarcity (稀缺性): 使用户感受到这件商品非常稀缺。比如一个弹窗推送或明显的广告写着 “商品仅剩 5 件”。课程中建议设计师聚焦于怎么帮助用户更好地了解该产品,而不是利用设计促使他们进行冲动型消费。

有意思的是这几种 “欺诈性设计模式” 在咱们国内电商环境中太常见了,以至于没有这些反而感觉不正常。

看起来这是国内外文化的差异的一种体现。在国内的环境中丝毫不会避讳这些东西,反而设计、产品、运营都会一起构思怎么做才能更好地 “诱导” 用户做某些事情。甚至还会在内部复盘、分享,看看过程中有哪些地方可以继续改进。

2018 年,我的第一份工作是在面向消费者的电商公司里做 UI 设计师,经常要在界面上做出 “领取优惠券”、“秒杀价剩余 N 小时” 和礼包、金币满天飞的插画等设计,正正是因为自己不喜欢做这种设计,之后才转向了更注重 UX设计的做 B 端、SaaS 行业。

虽然自己本身是一点都不喜欢这种设计方式,但这似乎能实打实地帮助到公司获取收入。公司有一份好的收入,大家的工作才能稳定。似乎陷入了一个无法走出的循环 —— 明知道这种设计方式是不对的,是有诱导性质且给用户带来烦扰的,但又不得不继续做,并想办法做得更好。

*该概念在第三门课程的第三个模块中提及 (Build Wireframes and Low-Fidelity Prototypes — Module 3 — Understand ethical and inclusive design)

Biases 偏见

课程里着重介绍了一个叫做 “隐性偏见 (implicit bias)” 的概念。“隐性偏见” 指的是我们潜意识里有一种态度或偏见,影响了我们对某一群体的理解或决定。

比如一个餐厅老板收到两份简历,求职者 A 是一个二十多岁的毕业生,没有餐饮行业经验;而求职者 B 则是一个 50 多岁的人,有 30 多年餐饮行业经验。但最终老板选择了求职者 A,因为他认为年轻人的体力更好,做事情会比 50 多岁的人要快。这就是一个 “隐性偏见” 的例子。

课程中还介绍了其他几种偏见,这里也分享一些我觉得有意思的:

  1. Confirmation bias (确认偏见)。指的是人们在收集信息和分析信息的过程中,倾向于寻找支持自己想法的证据。甚至尝试以更贴近自己预想结果的方式来解释数据;
  2. Friendliness bias (友善偏见)。指的是为了令其他人满意,受访者更倾向于做出访问者希望得到的答案或者做出积极评价。通常发生在可用性测试当中,受访者觉得说出真实答案或负面情绪的答案会被认为冒犯和不友善,不将自己的真正想法说出来;
  3. False-consensus bias (错误共识偏见)。指的是人们倾向于认为自己的观点或行为比实际情况更广泛地被认同,并且觉得其他人的观点或意见是被少数人接受的。比如一个人很乐观主义,就会认为世界上大多数人都是乐观主义;设计师能够很轻松地理解自己设计出来的图标、图像含义,就会认为其他用户也能轻易理解。

学到这里的时候我似乎被当头一棒,我似乎对里面提到的不少偏见都有共鸣,并且自己从来没意识到有这么一回事。总的来说,课程希望我们认识这些偏见,然后提供方法教我们怎么避免这些偏见。

以上列举了几个我在课程里了解到在日常工作中不怎么接触到的概念。可以看出来做一名 UX 设计师似乎得有宽广的知识背景,比如设计、人文、心理、社会学等等。通过这门课程,我觉得我对心理学产生了一些兴趣。

* 该概念在第三门课程的第三个模块中提及 (Build Wireframes and Low-Fidelity Prototypes — Module 3 — Understand ethical and inclusive design)

深绿色背景的宽幅 Banner,中间白色大字”听力、阅读能力”。

听力、阅读能力

课程里面的听力和阅读材料实在是太多了,基本上是一节视频课程,搭配一篇的阅读,如果有其他可以衍生出来的知识点,甚至会多篇阅读。

里面绝大多数老师都是美式口音,语速有刻意地减慢,我听着很舒适,绝大部分情况下不用看字幕。只是到了一些包含大量从句的长句子或新概念时可能会需要倒退一下多听几遍,再听不懂就会开字幕来看。

值得一提的是,里面有大量的行业术语,有很多我在国内日常工作中的用到的设计方法/流程等,这里都有出现到。作为学习者,我自己有做一个表格,把值得记录下来的表达方式都记下来,比如:

  1. Above the fold 指的是在首屏(不用滚动)就能看到的内容;
  2. Deliverable 设计的交付物;
  3. Digital real estate 大概是指视窗范围或可供设计师发挥的空间尺寸;
  4. Firm parameters 指一些设计过程中的限制,如时间,项目资源和预算等…

我觉得积累这种行业词汇有一个宝贵之处是,它的表达很地道,用通用的翻译软件是做不到的。这对我阅读设计经验文章,或者自己用英文写设计博客很有帮助。

深绿色背景的宽幅 Banner,中间白色大字”无障碍和公平”。

无障碍和公平

无障碍

课程中介绍了几种辅助技术 (Assistive Technology),如颜色模式、语音控制、Switch 设备和屏幕阅读器等帮助身体有障碍的人们更好地使用我们的产品。课程强调即便是健全人,或者认为自己是健全人的群体,也有可能会用到这些辅助技术。课程建议我们在设计的全流程都考虑这些因素。具体的做法,比如:

  1. 支持多种色彩模式。如亮色/暗色模式,支持增强对比度和减弱透明度等效果;
  2. 提供语音控制支持。允许用户通过声音来导航和与界面上的元素交互。另外,里面提到有个概念叫做 “VUI”;
  3. 支持一种叫做 “Switch” 的设备。这是一种代替键盘、鼠标或手指等常见输入方式的设备,通常只有一个按钮。用户就是通过一个按钮来实现浏览网页、输入文字等日常操作的;
  4. 支持屏幕阅读器。确保人们可以在看不见屏幕的情况下也能获取到主要内容。课程建议我们给图片添加替代文字,或者给按钮等控件加上合适的标签,并且留意元素的聚焦顺序。

这里分享一个在这方面有所体现的网站:HubSpot.com

这个网站提供了强对比的色彩模式,在顶部导航栏里有开关可以切换。同时也支持减弱动画的效果,如果我的设备在系统设置里设置了减弱动画,这个网站的大部份动效都会被移除。

公平

课程中介绍了一个概念叫做 “以公平为中心的设计” (equity-focused design),并厘清了 “平等” 和 “公平” 这两个概念:

  • 平等是每个人都有相同的机会和支持,即每个人都拿到了同样的东西;
  • 公平是根据每个人不同的情况而提供不同的机会和支持,最终大家都能有相同的结果。

课程中指明,面向 “公平” 的设计,需要考虑到所有种族、性别、能力,特别是一些曾经被忽视和排除的群体

他们以一个问卷问题作为例子:在收集受试者的性别信息时,如果只提供三个选项:“男”、“女” 和 “其他” 是不够的。如果想要更包容和公平我们应该提供:“男”、“女”、“非常规性别”、“非二元性别” 和 “请填写”。后者通过提供非传统性别选项和自定义选项,关注到了那些可能在传统问卷调查中被边缘化的群体。试图平衡不同群体间的表达机会,确保他们的声音被平等对待和听见。

从这门课程里我正面感受到了来自西方文化差异。实际上我不是很想太深入学这里面的门道,主要是我没法判断他们这种做法到底是对还是错,我有时候会认为这是在闲着没事干,有时候又认为我们身边确实也会有这种非传统性别的人,他们或许真的需要被 “平等对待”。

学到这里时,刚好公司的工作中有机会可以让我在设计中加入对无障碍的考量,我便抓紧机会在公司实施了一番。如果我的计划落地成功,我也会在这里分享出来的。

*该概念在第一门课程的第二个模块中提及 (Foundations of User Experience (UX) Design — Module 2 — Get to know the user)

深绿色背景的宽幅 Banner,中间白色大字”求职指引”。

求职指引

最后一课老师教授了我们怎么做作品集、一份作品集里要包含哪些东西、面试的流程、怎么准备面试等。

课程里讲述的都是西方世界的职场规则,有些未必在国内职场适用,比如:

  1. 比如他会提到设计师应该有一个自己的个人网站,里面需要及时更新自己的作品。但在国内大家似乎更喜欢将作品传上平台提高曝光度,比如站酷UI 中国
  2. 他会教我们怎么建立自己在互联网上的形象并通过 LinkedIn 去做 Networking。但似乎在国内的职场上没有这一步,身边的人多数都是直接在网站上投简历,或者有少量的人是熟人内推进去的;
  3. 里面有教我们怎么应对小组面试。我这几年在国内面试了大大小小公司,没试过有小组面试的情况,说明小组面试在我们的行业内不是特别流行。

印象比较深的是在课程里他提到了对于面试的准备,以及面试过程中的注意事项。课程里说得真的挺细的,比如:

  1. 面试前要了解好公司所做的业务,清楚自己为什么适合去那家公司;
  2. 提前准备好一些常用的问题,比如个人介绍、个人优势以及介绍设计案例等;
  3. 学会用 STAR 法则回答困难的问题,在面试前提前练习好;
  4. 根据面试官身份来改变面试的侧重点和要提问的问题,需要体现出自身的专业性;
  5. 面试时可能会有现场测试题。所以我们要练习好将自己的想法说出来的能力,也要有界定清楚问题的能力(因为有时候面试官特意给出很模糊的问题)

有时候刚看看到课程里提到的方法和技巧,正好是我有用过的,我会感到有共鸣,觉得自己的方向是对的。

另外,课程里还有教我们如果想走自由职业,要遵循怎么样的步骤。写得还比较详细,我这里列举几点:

  1. 明确目标用户是哪些群体,他们为什么要选择自己的服务;
  2. 了解自己的竞争对手,看看有没有东西是他们提供不了而自己是可以的;
  3. 通过参加线上推广、线下活动、熟人推荐等方式推销自己的服务和建立口碑;
  4. 计算开支,合理定价,并且制定财务计划 —— 构思第一个月、第六个月或第一年自己的财物状况是怎样的。

*该内容在第七门课程的第三个模块中提及 (Design a User Experience for Social Good & Prepare for Jobs — Module 3)

总结

以上就是我这两个月以来在 Coursera 平台里学习 Google UX 课程的一些收获。我觉得还是挺有意思的一门课程,即便不是所有内容都能在日常工作中应用,但至少知道在地球里的另一个世界,那边的设计师他们的思考习惯、职场文化是怎样的。

我很推荐看到这里的设计师们去这门课程 Google UX Design Professional Certificate 里瞧瞧,相信大部份人都是有收获的。收费不是很贵,是按月来收费。每个月 49 美刀,工作党每天抽点时间来看,一般 2~3 个月都能完成了。

事情按照预期发展,五一假期结束了这门课程,下半年又可以开始捣鼓另一件事情了。

【纪录片】Objectified · 设计面面观

By: Steven
24 November 2023 at 13:45
🎥 点击封面,进入视频播放页面

昨天整理硬盘时,在众多历史文档中翻到了这部纪录片。因为年代比较久远,可能一些年轻的设计师和学生都还没有看过,所以上传上来分享给大家。这部影片上映时,我正好从学校里毕业走向工作,其中的不少案例、观点都对我有不少长久的影响。

现在是 2023 年 11 月,距离这部影片上映已经过去了 14 年零 8 个月。其中一定不乏一些略显过时的东西,也存在一些只存在于大公司而不适用于多数公司的内容,但我一向认为,设计师最难能可贵的品质之一,就是从不同的领域和人物身上获取对世界的洞察。因此,对这部影片,我们可以有所取舍地看,结合眼下 AI 的形势,一并观察和思考。这才是观看这类年代久远的纪录片,比较好的方式。

祝你有所收获!

制片人&导演:Gary Hustwit

参演人员:Jonathan Ive(苹果前设计总监)、Dieter Rams(设计十诫)、深泽直人(无印良品)、纽约现代艺术馆馆长 Paola Antonelli,慕尼黑 BMW 首席设计师 Chris Bangle,巴黎兄弟设计组合 Ronan & Erwan Bouroullec,美国明尼阿波利斯市 Walker 艺术中心平面设计师 Andrew Blauvelt 等世界最具影响力的设计师。

视频封面设计苏志斌SUiTHiNK

《 Objectified 》是一部以工业设计为主题的长篇独立纪录片。影片详尽地展示了创造工业产品流程的实录片断,并记录了与世界顶尖设计师们的交谈与讨论。导演 Gary Hustwit 用洞察深切的镜头记录了这些在我们身边随处可见的工业设计产品,看似稀松平常的设计背后,却是设计师们倾尽全力的良苦用心。

又名: 设计面面观 / 造物 / 工业设计纪录片造物 / 客观化

上映日期: 2009-03-14

同时,也顺手重制了八年前给深大录的公开课的视频封面,从原来拿视频截图当封面,替换成了新版本。虽然也就是简单排了下版面,但起码,看上去像个网课的样子了。

🎥 点击封面,进入视频播放页面

如何在Gmail中添加其它邮箱来收发邮件?

By: fengooge
11 June 2023 at 19:27
最近在 Gmail 的邮箱设置中,通过「用这个地址发送邮件」添加第三方邮箱账号,总是会出现错误而无法添加。最终折腾了好多次才发现问题的解决办法,现分享出来供大家参考。步骤及说明如下:1、通过「用这个地址发送邮件」无法成功添加时,可通过下图所示的「查收其他账号的邮件」功能添加我反复尝试通过「用这个地址发送邮件」入口添加,结果均告失败,最终通过「查收其他账号的邮件」添加成功。2、可选择通过「Gmaillify」功能进行账号关联将自己的第三方账号与 Gmail 关联后,就可以方便快捷地在 Gmail 中查收其它平台的邮件,而且可以直接在 Gmail 中用关联的第三方邮箱账号发送邮件,效果和直接在第三方平台发送邮件一样(收件人看到的发件人不是 Gmail 账号,而是关联的第三方账号)。需要注意的是,一个 Gmail 账号只能够与一个第三方账号进行「Gmaillify」方式的关联,其它账号只能够

如何在谷歌电子表格(Google Sheets)中生成日期选择器

By: fengooge
30 December 2022 at 17:25
在使用谷歌电子表格(Google spreadsheet,Google Sheets)时,有时候需要在单元格中输入日期,如果输入法本身没有快捷输入日期的功能,通过手动输入则会非常繁琐,有没有办法让单元格生成日期选择器,通过点选操作就可以快速输入日期呢?方法是有的,按照下面的操作就可以完成。1、选中某个(或多个)需要设置日期选择器的单元格,右键选择【数据(data)】——【数据验证(data validation)】;2、选择【添加规则(Add rule)】,完成以下几个设置:2-1、在【应用范围(Apply to range)】一栏修改生效的表格范围,例如 B1 到 B13 之间的表格则写为:B1:B13(英文输入);2-2、在【条件(Criteria)】一栏选择【是有效日期(is valid date)】,点击完成。双击在上述设置生效范围内的单元格,即会出现日期选择器(如下图所示),点

❌
❌