Normal view

There are new articles available, click to refresh the page.
Yesterday — 21 December 2024Main stream

这个 AI 生图神器太好玩了,连提示词都不用写

By: 张成晨
21 December 2024 at 18:08

AI 生图工具,已经多得泛滥了,但 Google 最新推出的 Whisk,还是找到了一种很新的玩法,让见过世面的网友也直呼好玩。

只需输入三张图片,subject(主题)、scene(场景)、style(风格),Whisk 就可以生成一张博采众长的图片。

▲ 图片来自:Google

举个例子,主题是老人,场景是藤蔓,风格是 90 年代复古动漫,写上「角色骑着飞行自行车」的提示词,等待一会儿,一张类似吉卜力画风的新图片诞生了。

▲ 图片来自:Google

老人还是那个老人,戴帽子,穿西装,拿着书,但他骑上了提示词里的车,场景和风格也都变成了参考图片的样子。

Whisk 的长处便在这里——让我们少写、不写提示词的同时,轻松玩转各种风格,妈妈再也不担心我不会写提示词了。

别写复杂的提示词了,直接把图片端上来就行

别看只需要几张图片,Whisk 的玩法简单,却又无穷无尽。

刷刷刷上传三张图片——主题图片,麦当劳薯条;场景图片,莫奈画作《睡莲》;风格图片,像素风游戏《星露谷物语》。

不写提示词,直接生成,Whisk 给出的结果,一张更比三张强。

除了上传自己的图片,我们也可以掷骰子,让 Whisk 随机生成主题、场景、风格。

其实,Whisk 为我们提供的预设风格已经很够用,徽章、贴纸、刺绣、黏土、美漫、马赛克拼贴等等,特色鲜明,效果立竿见影。

只要有脑洞和想象力,无需一个字,仅仅通过不同图片的排列组合,我们可以不断地做完形填空的游戏——主题+场景+风格,而且不是每个空都必须填。

▲ 1.主题图片,熏鸡;2.场景图片,梵高《星月夜》画作;3.风格图片,日本木版画

▲ 1.主题图片,《戴珍珠耳环的少女》;2.场景图片,电影《千与千寻》剧照;3.风格图片,蒙德里安抽象画

▲ 1.主题图片,微信「死亡笑脸」表情包;2.场景图片,电影《星际穿越》剧照;3.风格图片,史努比漫画截图

▲ 1.主题图片,冲浪默认头像粉色恐龙 momo;2.风格图片,Jellycat 玩偶

另外,Whisk 的每一次生成,场景和风格只能选择一个参考图片,但主题可以选择多个。这意味着什么?我们可以让多个角色同框了!

比如,让马斯克、奥特曼、扎克伯格通通变成珐琅徽章。

三位的服装、装饰、神态都还原得挺好,扎克伯格的话筒和项链都没漏掉,但人脸没法保持一致性,全部变成了大众脸。

虽然 Whisk 减少了写提示词的需求,但你需要写的话,Whisk 也鼓励。

在对话框加上一句「角色们都举着一块告示牌,上面写着 AGI」,徽章小人们轻轻松松地遵循了提示词。

如果我们需要某个场景或者某种风格,但一时找不到参考图,Whisk 的预设也没有提供呢?

解决方式很简单,没有图片,那就写提示词,让 Whisk 临场发挥一个。

就像我需要一个让角色站上去的、像素风格的底座作为场景,就让 Whisk 帮我生成了。

然后,再把猫猫表情包作为主题图片,把像素小鸡作为风格图片,就可以得到一个有底座的像素猫猫。

总之,Whisk 就是非常自由,像橡皮泥一样,怎么捏都可以。

既生图又识图,把复杂的工作流包装成有趣的「打蛋器」

Whisk,其实是 Google 多模态模型秀肌肉的一种方式。

为了让我们少写提示词,Whisk 整合了视觉理解和图片生成能力。

Gemini 模型识别图片,自动生成详细的描述,然后这些描述会被输入到 Google 的图片生成模型 Imagen 3,由 Imagen 3 生图。

Whisk 是这样的,用户只要上传和生成图片就可以了,但它自己要考虑的事情就很多了。

Whisk 的每张图片,不管是上传的还是生成的,都写了很长的底层提示词,并且不藏着掩着,我们点开图片就能看,也可以上手修改。

如果把一个人作为主题图片,Whisk 会详细地描述他的外貌特征,场景图片也是类似的。

▲ Whisk 对奥特曼的描述:「一个肤色较浅的男子,有着短而深棕色的卷发,从胸部以上展示。他有着浅色的眼睛。他穿着一件浅米色的针织圆领毛衣。背景是一面斑驳的灰色混凝土墙。男子的表情严肃而中性。光线有些昏暗,他的右脸有轻微的阴影。」

风格图片略有些不同,如果把一张动画截图作为风格参考,Whisk 不会说,画面里有三个人,而是描述这幅画的色彩、光线、线条……

▲ Whisk 对史努比画风的描述:「这张图片以卡通风格呈现,具有粗犷的轮廓和平面着色。色彩调色板有限,主要使用原色和柔和的次要颜色。光线均匀,缺乏强烈的阴影或高光,给人一种简单、几乎孩童般的质感。线条清晰且一致,带有轻微不均匀的质感,暗示手绘的效果。整体美学让人联想到经典的连环漫画或儿童动画。」

所以,Whisk 不是精准地复制图片,而是提取图片的特点和精髓,将主题、场景、风格自然地融合在一起,各司其职,互不干扰。

同时,Whisk 也叠了甲——只从图片提取少量关键特征,结果可能和预期不同。这也解释了,为什么 Whisk 做不到人脸的精准还原。

所以,哪怕选择不那么抽象的复古胶片风格,三位大佬的脸也是和本尊都不挨着,但其他细节都很准确。

物体也是一样,特斯拉的赛博皮卡,经过特征提取再生成之后,变得非常普通。

但如果是麦当劳薯条这种素材丰富的超级 IP,效果倒还不错,可以拿来当广告图了。试过一些迪士尼的角色,Whisk 复刻得也原模原样,但图就不放上来了。

另外,Whisk 还存在一个问题——没法做很细致的风格参考,模仿不了某种特定的画风。

当我让 Whisk 生成蒙娜丽莎的乐高小人,出来的结果让我两眼一黑,但多加一句提示词,「让角色更像乐高人物」,Whisk 又能模仿个七八成。

某个漫画家的画风就更难模仿了,上传漫画截图让 Whisk 参考,它最终给出的是一个非常普通的漫画风格图片,就算通过提示词强调作品、角色、漫画家,也不起什么作用。

其实,Whisk 好玩就够了,它更适合做一些不追求精准的创意探索,俗称整活。

Whisk 可以翻译为「搅拌」或者「打蛋器」,Google 的这个名字取得即视感很强,可不就是把食材都混搭在一起吗?

Whisk 的不精准,也让它的定位和传统的图片编辑器不同,更像是一种创意工具。有了什么脑洞,由它实现粗略的视觉效果。

▲ Whisk 生成,1.主题图片,《火影忍者》截图;2.风格图片,毛绒玩具

以前实现 Whisk 这种风格化的效果,跑通一整个图像生成的流程,我们可能需要在 ComfyUI 搭建工作流。

但现在有了 Whisk,好像就在玩抽卡游戏或者开盲盒,而且只要能登录(限美国地区),目前还免费。

体验指路👇
https://labs.google/fx/zh/tools/whisk

Google 领先的模型能力固然是前提和基础,但设计出被大家需要的产品,仍然需要创造力和审美。

很喜欢 Whisk 的 slogan:「prompt less, play more.」(少写提示词,多玩耍。)

Whisk 出自 Google labs,之前爆火的 AI 播客 NotebookLM,也是出自这里,后来慢慢发展为成熟的项目。这个实验室,本身就是这句 slogan 的最好注解。

强大的模型能力,有新意的产品,开放的心态,曾经似乎被 OpenAI 威胁的 Google,风轻云淡地展现出了王者归来的姿态。

利若秋霜,辟除凶殃。 工作邮箱:zhangchengchen@ifanr.com

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Before yesterdayMain stream

Google 不再是最好的搜索引擎

By: wildlynx
20 December 2024 at 08:31
wildlynx:

越来越多的用户通过社交媒体谈论 Google Search 搜索质量的下降,认为 Brave Search 或付费搜索引擎 Kagi 的搜索质量好于 Google Search 。Google 已经支配搜索引擎市场长达二十多年,它是自己成功的最大的敌人,它的衰落也是源自于其贪婪。过去几年 Google 在广告领域的市场份额在逐渐减少,从 2017 年的 34.7% 降至 2024 年的大约 28.8%,亚马逊在产品搜索以及 TikTok 的服务内搜索逐渐取代了它的位置。Google 在网络广告领域的份额也可能跌至五成以内。它的市场份额在萎缩,但 Google 不想让收入也萎缩,它的方法是在搜索结果中加入更多广告,这进一步导致了搜索质量的下降。基于大模型的 AI 聊天机器人的流行也让更多用户在寻找答案时不是访问搜索引擎而是询问 AI 。

https://www.solidot.org/story?sid=80099 https://lemmy.world/post/23279500 https://www.theregister.com/2024/12/16/opinion_column_perplexity_vs_google/?td=rt-3a

Google 推出 XR 版 Android,将首批登陆三星头显

By: 范津瑞
14 December 2024 at 17:40

Google 终于再次入局 XR(扩展现实)生态,推出了其专为 XR 设备打造的操作系统「Android XR」

Google 在本周四发布了「Android XR」的首个开发者预览版,这一操作系统将用于头显设备和智能眼镜等近期大热的 XR 设备当中。Android 生态系统总裁萨米尔·萨马特(Sameer Samat)表示对这个领域「并不陌生」。

此前,Google 也发布过 Daydream 头显和 Google Glass 等类似的 XR 产品,但它们的销量不及预期,市场表现并不理想。而现在 Google 认为技术已经发展到了「可以再次尝试 XR」的阶段,尤其是在 AI 领域。

▲图源:The Keyword

由于 Android XR 是基于 Android 系统开发的,因此其可以兼容和直接使用 Google PlayStore 上的大部分手机和平板应用,就像苹果的 Vision Pro 支持运行 iPad 应用一样,为用户保证了丰富完整的应用库。

此外,Google 正在为 XR 设备的「沉浸式屏幕」重新设计 YouTube、Maps 和 Photos 等应用,还将准备推出一个可以进行多窗口多任务处理的 Chrome 浏览器,以及可从 AR 视图切换到虚拟家庭影院的 Google TV:

▲Android XR 的 YouTube 界面

▲Android XR 的相册(Photos)界面

▲Android XR 的 Google TV 界面

在 Android XR 中,就连「搜索」也变得十分优雅,看到、画圈、搜索一气呵成:

▲Android XR 中「圈一下」即可搜索

目前,该预览版已经支持 ARCore、Android Studio 和 Unity 等工具的使用。Google 为开发者们提供了 API 和硬件开发套件,还在 Android Studio 中加入了 Android XR 模拟器用于可视化,以便他们开发 XR 应用和产品。

▲移植到 Android XR 平台的 Unity 游戏「Job Simulator」(图源:Android)

Google 认为,头显设备可以实现虚拟世界和现实世界的无缝衔接,而智能眼镜则更像是一位始终在线的「伴侣」。因此,XR 设备才是「AI」真正能够发挥作用的地方,也是一种更为自然的应用形态。

Google 将 AI 体验定位为 Android XR 的核心。与举着手机让 AI「观察世界」不同,Android XR 将深度内置谷歌自家的多模态大模型「Gemini AI」,通过其基于语音及自然对话的用户界面,为用户提供全新的交互体验。

▲图源:The Keyword

这种基于 AI「理解」的操控体验是手势或者手柄控制完全不能比的。虽然 Vision Pro 也能够使用其智能助理 Siri 进行操作,但 Gemini AI 的智能程度似乎略胜一筹。Google 对 AI 助理和 XR 设备进行集成的评价是「杀手级」。

萨马特则称 Android XR 是首个「完全为 Gemini 时代搭建的平台」。

使用搭载 Android XR 系统的 XR 设备,用户可以流畅地翻译所见所闻;或者用 Gemini 直接提取好友们在群聊中提到的那家餐厅的菜单,然后让其「带路」,实时显示导航路线,诸如此类:

▲用 Gemini 实时翻译

▲用 Gemini 实时导航

除了系统层面的推陈出新,Google 还在 XR 硬件方面有了新的进展。

去年,Google 与三星、高通达成合作,宣布共同开发 XR 硬件。现在来看,三星刚刚公开的全新头显设备「Project Moohan」也许就是这次合作的结晶,预计将于 2025 年正式推出。

从外观来看,Project Moohan 像是 Meta Quest 3 和 Apple Vision Pro 的混合体,极具未来主义风格。The Verge 的编辑在实际上手体验后表示其使用起来轻巧、舒适。

▲图源:The Verge

Project Moohan 预计将搭载高通骁龙 XR Plus Gen2 处理器,拥有 90 Hz 的刷新率和 4.3K 的单眼分辨率。据说其分辨率在自动校准瞳距后还能有所提升。

最重要的是,Project Moohan 将成为首批搭载 Android XR 的 XR 设备。这意味其不仅能够轻松实现沉浸式观看和增强现实体验的切换,还支持用 Gemini 进行控制。当然,这款设备也支持手势识别和控制器控制。

值得一提的是,Moohan 的发音在韩语中意为「无限」。实际上,三星表示 Project Moohan 将会配备「最先进的显示技术、透视(Passthrough)功能和自然的多模态输入能力」。

也许,三星的愿景是利用虚拟现实提供的「无限」空间为用户带来沉浸式的体验。

▲图源:三星

不仅仅是头显设备,Google 还在 AR 眼镜领域有所动作。据悉,在 12 日举办的 Android XR 发布会上,Google 正式官宣与国产 AR 眼镜品牌 XREAL 达成战略合作。也就是说,Android XR 将在晚些时候开始登陆 AR 眼镜平台

2024 年无疑是 AR 智能眼镜爆发的一年,苹果、Google 和 Meta 等科技巨头都在积极探索这一产品线的可能性,而国内的百度、小米等大厂,以及 XREAL 和雷鸟(RayNeo)这样的后起之秀,也在为消费者不断带来惊喜。

那么,Google 的重新下场能否复刻 Android 时代的辉煌,让 2025 年成为「XR 元年」呢?

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


5 分钟完成 1000 万亿年计算任务,Google 的量子芯片意味着什么?

By: 范津瑞
11 December 2024 at 18:00

遇事不决,量子力学。

量子力学诞生距今已有 120 多年的历史了。从光的双缝干涉实验到「薛定谔的猫」思想实验,它似乎是我们想象当中最神秘最深奥的物理学定律。美国理论物理学家理查德·费曼(Richard Phillips Feynman)曾说:

如果你认为你了解量子力学,那你就不了解量子力学。

即使量子力学距离我们相当遥远,却也在快速地发展:2016 年,我国成功发射「墨子号」量子科学实验卫星;2022 年的诺贝尔物理学奖授予了三位科学家,以表彰他们在「量子信息科学」研究方面的贡献。

▲2022 年诺贝尔物理学奖得主(图源:证券时报)

而 Google 近日也在「量子力学」方面有了大动作,堪称「里程碑」式的创新。

Google 量子人工智能团队「Quantum AI」的创始人兼负责人哈特穆特·内文(Hartmut Neven)在博客发表文章,宣布推出其最新的量子芯片「Willow」,并称其为大规模量子计算机铺平了道路。

在文章中,内文称这款芯片「在许多指标上都拥有最先进的性能」,并且「实现了两项重大成就」:

  • 其一,是 Willow 增加了「量子比特」的使用数量(105 个),并且「成倍地」减少了错误;
  • 其二,是 Willow 在不到 5 分钟的时间内完成了其最新的「随机电路采样(RCS)基准测试」。

▲图源:Google

要想理解以上这些突破性成就,我们就必须要了解量子计算机/量子芯片的工作原理。

量子力学的核心概念之一是「叠加」,即一个量子系统可以同时存在于多个状态,而量子计算机正是利用这种叠加性质来创建「量子比特(Qubits)」,这是量子计算机中的基本计算单元。

与经典计算机中的二进制比特(Classic Bits)不同,量子比特可以同时处于 0 和 1 的「叠加态」。该状态使得量子计算机能够同时处理多个计算路径或状态,从而在解决某些复杂问题时比经典计算机更快、更高效。

▲图源:Microsoft

此外,量子比特之间还具有一种叫做「量子纠缠」的特殊关系:当量子比特相互纠缠时,无论距离多远,其中一个量子比特的状态会立即影响另一个量子比特的状态。

此时我们就可以根据某个量子比特的状态得知其他量子比特的状态,这也就达到了信息传递的效果。这种特性使得量子计算机能够在处理复杂问题时更有效地共享和传递信息。

然而,量子比特的状态非常脆弱,容易受到外部环境(温度、振动、电磁等)的干扰,导致量子信息丢失,这种现象称为「量子退相干」。由于纠缠,错误可能会从一个量子比特传播到其他量子比特,进而影响计算能力。

并且因为量子比特倾向于与其环境快速交换信息,导致完成计算所需的信息很难被保护。通常,一台量子计算机使用的量子比特越多,发生的错误就越多,整个系统也就更加倾向于「经典系统」。

▲量子纠错示意(图源:Microsoft)

但根据内文的说法,Google 的研究人员引入了一种新的「量子纠错」方法,能够实现 Willow 芯片所使用的量子比特越多,反而会减少更多的错误,并且错误率呈指数级下降。

内文在文章中表示这一历史性成就在该领域中被称为「低于阈值」,即能够在增加量子比特数量的同时减少错误。内文还强调自彼得·肖尔(Peter Shor)于 1995 年引入量子纠错以来,这一直是一项极其困难的挑战。

因此,「低于阈值」能够展现「纠错方面的真正进展」,而 Willow 是首个低于阈值的系统,它表明建设超大型量子计算机的可能性确实存在。这一研究结果还被刊登在《Nature》杂志上。

▲图源:Google

此外,内文在文章中宣称 Willow 在 5 分钟之内就完成了声称「当今量子计算机上完成的最难的经典基准测试」的随机电路采样(RCS)测试,并称 Willow 的这些最新结果是「迄今为止最好的」。

作为对比,世界上运算速度最快的超级计算机要 10^25 年才能计算完成 RCS,这个时间甚至超过了宇宙的年龄(约 138 亿年)。

随机电路采样(Random Circuit Sampling,简称 RCS)测试是一种用于评估量子计算机性能的方法。其核心思想是利用量子计算机执行随机选择的量子门操作,生成随机的量子态,然后对这些量子态进行采样和测量。

RCS 最早就是由内文所在的团队提出的,内文称其现在是「该领域的通用标准」。

▲图源:Google

值得一提的是,2019 年,Google 就宣称其开发的量子处理器「Sycamore」仅用三分钟就可以完成当时世界上最快的超级计算机一万年才能完成的计算,还强调其研究团队已经取得了「量子霸权」。

IBM 对 Sycamore 的计算测试结果提出了异议,并且「量子霸权」这个词也引起了不小的争议,尽管 Google 强调该词只是一个「艺术术语」。后来,Google 尽量避免使用这个词语,只是说已经实现了「超越经典计算」。

此外,IBM 和霍尼韦尔(HoneyWell)公司在他们的量子力学研究中一般使用「量子体积」这个术语来描述和量化其量子计算机设备,Google 却完全不用这个概念。缺少统一标准,导致竞品之间难以进行对比。

▲图源:Google

内文表示,量子技术在收集 AI 训练数据、发展新能源汽车和发现新药方面都有其用武之地。

与此同时,他还展望了 Google 量子力学研究的下一个目标:完成一个既「与实际程序相关」,又是「经典计算机无法实现」的计算,真正做到「有用」并且「超越经典」。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Claude 新功能 MCP (模型上下文协议)使用指南

By: Anonymous
27 November 2024 at 13:59

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

Claude (Anthropic) 最近出了个 MCP (Model Context Protocol,模型上下文协议) 协议,让我朋友圈有刷屏之势,能清晰感受到,大伙儿都非常欣喜。我自己试用之后,决定写下这篇文章,分享给你。

MCP 是一种新的开放标准协议,用来在大模型和数据源之间建立安全双向的链接。这是它的官方示意图。

这张图展示了使用 Claude 或其他 IDE 时,通过这种双向沟通协议,模型(目前指 Claude)可以与不同的数据服务器进行连接。每个连接的数据源可能千差万别,比如上图里面前两个连接本地数据,第三个则直接通过互联网操作远程文件。

MCP 有什么用?为什么会让这么多开发者与用户欢欣鼓舞?

MCP 是一种统一的集成方式,交互界面完全一致。如果其他大模型也跟进,那么以后连接数据的感觉,就像给不同的电子设备使用 USB-C 接口,而不用准备那么多种不同的线缆插头。

更重要的是 MCP 的设计目标——提升安全性与控制力。因为以前处理数据时,我们通常采用极端的处理方式,很不安全。

第一种是将数据上传到大模型的对话中。这会带来两个问题:

另一种方式是让大模型获得本地管理员级别处理权限,帮助我们自动处理本地数据。之前我 给你介绍过的 Open Interpreter 就属于这种方式。看起来非常方便、灵活,但 AI 代理在本地以管理员权限进行各种操作,看到所有文件。如果它被植入不安全的代码,控制你的计算机,可能导致隐私和重要数据泄露,后果严重性不言而喻。

为解决上述两种极端数据交互方式带来的问题,Claude 提供了 MCP 作为一种解决方案。作为协议,它是完全开放的。后续其他主流 AI 企业能否跟进,咱们说不准。但是现在就可以用 Claude 来体验一下 MCP 带来的数据交互好处。

我们先沿着官方的 参考资料有快速上手指南 操作一下。指南非常简洁,步骤清晰,跟着做并不难。

官方教程给出了一个最简单的数据操作样例,是一个 SQLite 数据库。

SQLite 设置非常简单,单文件即可运行。我讲数据库课程超过 10 年,一直用的就是 SQLite。学生不用一上来就去学习架设服务器、权限管理,而是直接拿过来就可以学习 SQL 查询语句。对文科生来说,这都是一个非常简单的界面。

在上手教程里,我们会操作一个本地 SQLite 文件,与 Claude 进行交互。我们需要预先安装一些软件,不过很简单,你照着指南里面这个命令拷贝到终端执行就行。

下面是在我电脑上执行过程截图。

当然别忘了,你需要 下载 Claude Desktop 应用的最新版本,这是执行后续操作的前提。

之后,你需要建立一个 SQLite 的数据库样例文件。咱们先按照官方的设定来操作,复制页面上的这段代码,直接在终端执行就能搞定。

只要没有报错,你就拥有一个本地的 SQLite 样例数据了。

它存储在你的用户目录下,叫做 test.db .

下面你需要做的,是本次教程里最为不方便的操作——修改 Claude 配置文件。我相信在未来的版本当中,这个操作是能够通过图形化的界面来拖拽完成的。不过现在还是原型系统,你暂且忍耐一下。教程里明确告诉你设定文件的路径,你照着这个来执行就好。

你可以用 Visual Studio Code 或者类似的编辑器打开指定的配置文件路径。我这里用的是 Cursor。打开该文件后,你需要把教程代码段里的内容填进去。

不过这里有一个注意事项——你需要把原先代码中的 username 换成你自己在 macOS 上实际的用户名。这个很重要,不然连不上数据,会耽误你很多宝贵时间查错……别问我怎么知道的。

之后注意,你需要在 macOS重启你的 Claude Desktop App

到此,设定就算完成了。

下面,咱们实际看看 Claude 是如何与 test.db 这个数据文件交互。官网给出的流程图是这样的:

如图所示,Claude 先要和我们刚刚搭建的 SQLite MCP 服务之间建立连接,然后可以执行查询的操作。

首先,我们先用提示词来把这二者连接起来。这里的提问我是直接从人家官方的快速开始教程里面照抄的——「你能不能连接我的 SQLite 这个数据库,然后告诉我哪些商品现在可售,以及他们的售价?」

Can you connect to my SQLite database and tell me what products are available, and their prices?

Claude 立即就会明白需要和 SQLite MCP 沟通。

然后它就找我们要权限。我选择这一整次对话都可以给它开放权限(Allow for This Chat)。注意,这就是我刚刚跟你提到的安全性——大模型要做什么操作、找我们要什么样的权限、权限开放的时间范围多大……我们都可以自己来控制。

大模型开始与 MCP 通讯,执行一系列的 SQL 语句,通过查询返回结果。

注意,Claude 不像 SQLite 简单给你返回一个表格作为结果,而是用自然语言回答你的问题。这个样例中,它把现在可售商品都给你列出来,并且后面都标上价格。这种交互就显得非常自然。

下面我们来继续提出另一个样例问题——「在你的数据库中,商品平均价格是多少?」

What’s the average price of all products in the database?

这次大模型没有找我们再要权限。因为刚刚已经说明,整轮对话,它都可以获得 MCP 服务数据的操作权限。

执行后,Claude 告诉我们,平均值为 82.14 美元。

你会发现我们刚刚一直用英文来提问,这是因为教程是英文的,咱们为了方便拷贝了问题。但对 Claude 来说,中文完全不是问题。用中文来问「你能分析价格分布并提出任何定价的优化建议吗?」Claude 就会用中文来答。当然,背后还是连接 MCP 服务,调用 SQL 进行查询。

当查询遇到问题时,Claude 会自动反思,并且重组查询式,依照 MCP 服务返回的 SQLite 查询表格结果,告诉你不同的价格分布。

基于这些分析结果,它会给出优化建议,如价格策略、产品组合、促销策略和定价心理学应用等。

注意这是你单独用 SQLite 查询数据库无法直接给出的结果,SQLite 只能给出表格。而根据背景知识对查询结果表格进行解读,才是大模型的能力体现

既然跑通了官网给出的样例,我们接下来换上我讲数据库课程时常用的样例数据集,叫做 colleges。这个数据集来自斯坦福大学的一门 MOOC,包含学生申请大学的模拟数据。

数据集包括三个表格:apply(谁申请了哪个学校的哪个专业,是否被录取)、colleges(所有大学的列表)和 students(所有学生的信息)。

平时上课时,我在这几个表之间来回操作,教学生如何跨越表格综合信息返回正确的结果。

这次,咱们不用任何的 SQL 命令撰写,而是直接用自然语言来提问。首先,你要确保 MCP 连接成功。注意你需要修改配置文件里,数据库文件的路径,指向 colleges.db 。

对了,之后别忘了重启 Claude Desktop。

我的问题为:「你能否连接我的 SQLite 数据库,并告诉我里面有什么?」

Can you connect to my SQLite database and tell me what’s in it?

还是索要了一系列权限后,Claude 告诉我们有三个表:college、student、apply。

之后,通过进一步查询,Claude 为我们介绍 college 表中有哪些字段,student 和 apply 表又分别有哪些字段。至此意味着 MCP 数据连接成功。

Claude 会给出一些建议,告诉你可以问哪些问题。

不过我还是用自己的问题好了:「哪些同学报考了 Stanford 并且被录取?」

Claude 通过 MCP 执行查询,告诉我 Amy、Fay、Jay、Helen 这几个学生被斯坦福大学录取,并且说明了他们的 GPA 和专业信息。

Claude 特别指出,「有意思的是」被录取的学生中,两名被计算机科学专业录取,两名被历史专业录取,大多数学生 GPA 都很高,3.7 以上,但也有一位学生 GPA 较低,仍被历史专业录取。2.9 的 GPA 也能被斯坦福录取,这确实「很有意思」。

接下来咱们问它第二个问题:「哪些学生没有被任何学校录取,是因为分数太低吗?」

Claude 返回了两个学生的信息,并且说明 Bob 申请了 Berkeley 的生物专业,而 Craig 申请了 MIT 的计算机科学专业。

它总结说,这些没被录取的学生 GPA 其实不低,这表明 GPA 其实不是唯一的录取标准。然后 Claude 甚至还专门给出了报考大学的方法建议。

如果单单使用 SQL 查询,你不可能获得这些建议,这也是利用大模型做数据分析的有趣之处。Claude 通过 MCP 把当前的 SQL 查询结果与申请美国大学的背景知识有机地联系起来,厉害不?

但实际上,它的回答是错的

我教了十多年数据库课,对这个数据集非常熟悉。这里有一个陷阱——这个数据库里,有的学生没有申请任何一所大学。你不申请大学,当然不可能被任何一所大学录取,对吧?因此,在回答这个问题的时候,你的查询不能只看那些全部申请都被拒的学生。

所以我进一步提示它:

注意被所有申请的学校拒绝和没有被任何一所学校录取是不一样的。

我只提示到这,并没有说「有的学生没有申请学校」。但 Claude 很聪明,马上反应过来。它依然先找出所有提交过申请但没被录取的学生状况。后来它说,「让我们看看数据库中还有哪些学生是完全没有提交任何申请的」。注意这个查询,是它自己总结出来的。

综合分析后,它的答案是:刚才答案中那两个没有问题,是申请后却被所有申请的学校拒绝的学生;但还有若干完全没有提交申请的学生,分别是 Doris、Amy、Gary 和 Edward。

它还补充道,「这确实是两种完全不同的情况。谢谢您的纠正」。

很懂礼貌嘛,孺子可教。

Claude MCP 给我们带来的,绝不只是查询更简单、结果更全面、数据更安全这样的优势。至少,它打破了 Claude 处理数据长度和类型的限制。在 Claude 对话里,你想上传文件,就会看到限制——最多五个文件,每个文件不得超过 30 兆。

我找了一个上课时用到的数据库叫 movie.db。这个数据库包含了若干年的电影信息,虽然只有 246.7 兆,但这样的文件想在现在的 Claude 对话当中使用,那断然是不可能的。

你上传不上去,不仅仅是因为它体积太大,更是由于这种 .db 格式 Claude 就不允许上传,你连选择它都没有机会。

这些文件都是灰色的,不能点选。但是现在不一样了,我们直接把配置 MCP 路径修改成 movie.db,然后来连接。

Claude 找出这里面有三张表,分别包括了电影、演员和他们饰演角色的记录。

我问:「有多少女演员同时出演过《哈利・波特》电影的前两部?」你不要小看这个问题,你首先得知道《哈利・波特》电影的前两部都是啥。Claude 查询经过一些波折,但它非常勤恳地重构查询,然后告诉我们,这两部电影分别是《哈利・波特与魔法石》和《哈利・波特与密室》。

之后它列出了 8 个同时出现在两部电影中女演员的名单,还介绍了这个系列中的主要角色,如赫敏和麦格教授。我觉得这个回答非常好。

如果你在学习 SQL,那么还可以打开它的中间分析过程来查看完整 SQL 语句。

你可以自己用 SQLite 工具来验证查询结果。但更多时候,你兴许能从它的答案中得到参考和借鉴。

我必须说明一点——本文所演示的内容,只是 MCP 能力的冰山一角。MCP 现在支持的数据服务,就已包括 GitHubGoogle Drive、Slack 等。

甚至,你还可以用十几分钟的时间,干脆构建一个自己的 MCP 服务。官网分别提供了 Python 和 Typescript 语言版本的对应教程。

而仅从 SQLite 的样例看,MCP 目前就可以连接本地数据库,不用像原先那样把整个数据来回上传下载。安全性和控制力比以前显著增强。

Claude 通过 MCP 作为中介,能很好地分析 SQLite 的数据集。在咱们展示的例子中,MCP 的优点是把大模型和数据有机结合起来——通过对外部世界规律的微妙体悟,在真实任务中有效帮助你充分利用自己的数据。

提示词的清晰度依然很重要。例如刚才提到的「申请了学校但没有被录取」和「完全没有申请学校」这样的问题,有时还需要我们引导一下。

试想我们把不同的数据来源综合起来,在一个对话中综合调用,这种感觉像更是一种「化学反应」,想想就让人兴奋。希望 MCP 的出现,能激发你的创意,让你利用多元数据集获得更为深入的洞察。

还是那句话,「临渊羡鱼不如退而结网」。与其看个热闹,不如自己动手试一试。哪怕你只是按照 Claude 官网的教程走一遍也好,相信也能获得更为直接的感悟。

欢迎你把自己尝试 Claude + MCP 的结果分享在留言区,我们一起交流讨论。

祝 AI 辅助数据利用愉快!

前 Android 团队再度聚首,计划开发 AI 时代的「操作系统」

By: 范津瑞
30 November 2024 at 18:00

人工智能助理,或者「AI 代理」无疑是近期 AI 领域的热词之一,许多科技公司都已经在这条赛道上押宝。

以移动端为例,苹果为了使其智能助理「Siri」更加聪明,为其接入了大语言模型 ChatGPT,并计划使其拥有感知和理解屏幕内容的能力。

荣耀在不久之前发布的 Magic 9.0 系统则标志着手机正式进入「自动驾驶」时代,其内置的「YOYO 智能体」得益于 AI 内核的加持,还能实现「一句话操控手机」。

▲图源:TechRadar

而在 AI 技术同样深度介入的 PC 端,人工智能助理的能力也不容忽视:Anthropic 在上个月发布的最新 Claude 模型中同步推出了「computer use」功能,旨在代替用户直接与计算机进行交互。

据悉,OpenAI 也有计划入局该领域,将于明年 1 月推出一款名为「Operator」的 AI 代理。OpenAI 首席产品官凯文·韦尔(Kevin Weil)表示让 ChatGPT 具备自主执行任务的能力将是明年 OpenAI 的一大重点。

▲图源:TNCR

在 Android 操作系统出现之前,即使移动平台的前景相当广阔,但作为开发者来讲,在移动设备上构建任何东西都很困难。

对此,前 Google 高管大卫·辛格尔顿(David Singleton)认为在人工智能时代,同样的情况正在上演。他指出「我们可以看到 AI 的前景,但作为开发人员,构建任何好的东西真的很难」。

基于以上理念和考虑,辛格尔顿同前 Google 副总裁雨果·巴拉(Hugo Barra)等人联合创办了 AI Agent 操作系统创企「/dev/agents」。后者于 26 日在 X 上公开宣布了这一消息。

▲图源 :X

/dev/agents 在今年 10 月成立,总部位于美国旧金山,目前已经不再处于隐身状态。正如巴拉在推文中所说,新公司将「回到我们的 Android 根源,为人们和 AI 代理构建一个新的操作系统」。

换句话说,目前开发者缺乏构建 AI 代理的标准工具和系统,而 /dev/agents 计划构建一个统一的、基于云的跨平台操作系统,进而充分实发挥 AI 代理的潜力。公司预计将在明年初到中旬推出其产品的第一个版本。

这相当于一个「通用技术框架」,类似于 iOS 或者 Android 操作系统。此外,该公司还计划使用生成式 AI 提供个性化的用户界面,让人们能够更自然地与硬件设备上的代理进行交互。

▲图源:MakeUseOf

值得一提的是,/dev/agents 的联合创始人们个个来头不小。公司的 CEO 辛格尔顿在谷歌期间领导了安卓核心应用的开发和 Google Store 团队,末期则主要负责可穿戴设备安卓系统。后来离开谷歌,加入了金融科技企业 Stripe。

/dev/agents 的 CPO 巴拉此前在谷歌担任移动业务产品经理,负责移动与安卓业务,后来加入 Android 团队,负责整个安卓生态系统的软硬件业务,一路升至谷歌副总裁的职位。2013 年,巴拉加入小米集团,全权负责其海外业务。

公司的 CTO 和设计负责人分别由费卡斯·柯克帕特里克(Ficus Kirkpatrick)和尼古拉斯·吉特科夫(Nicholas Jitkoff)担任,前者负责安卓 1.0 版本从内核到应用程序所有层级的软件堆栈,后者则是初代安卓语音搜索和操作的负责人。

除了四位联合创始人以外,/dev/agents 还有另外两名员工。巴拉表示「这是一个构建了过去三代操作系统(安卓系统、可穿戴设备和 AR/VR)的团队」。

▲David Singleton(图源:CNBC)

也正是因为如此「豪华」的初创阵容,使得 /dev/agents 已经筹集到了 5600 万美元的种子轮融资,与此同时本轮融资对公司的估值达到 5 亿美元。

领投的风险投资公司「Index Ventures」的合伙人尼娜·阿查吉安(Nina Achadjian)认为创始人的背景是决定投资的核心,并且表示她抓住了支持该公司的机会:

这是一个非常困难的技术问题,也是一个非常大的想法。如果有一个团队来做这件事的话,从头开始构建 Android 和 Stripe 的团队,应该成为这个团队。

联合领投的 Alphabet 的独立成长基金 CapitalG 更是毫不吝啬对四位联合创始人的赞美,称他们是「本世纪每一次重大计算平台转变的先驱」,并且作为投资者,「遇到像这样出色的创始团队确实很少见」。

▲图源:CaptialG

许多投资者相信 AI 代理的功能将会越来越齐全,但同时他们也承认目前仍然没有通用的 AI 基础设施。尽管不少公司正在开发 AI 代理框架的不同部分,但 /dev/agents 的支持者认为,新的第三方操作系统将会成为释放潜力的关键。

另外,辛格尔顿表示 /dev/agents 的商业模式与 Android 的获利方式大致相同,可能会从销售额中分成,或向用户收取订阅费用。他还表示公司计划保持相对灵活的运营模式,类似于 Android 早期。

辛格尔顿在接受彭博社采访时说「我们需要一个类似 Android 的 AI 时刻」,这也是他对 /dev/agents 和人工智能代理的未来愿景。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Recraft – 打败 Midjourney,匿名屠榜的 AI 生图黑马,人人都能设计海报

By: Anonymous
19 November 2024 at 17:08

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

如今 AI 圈更新产品的节奏,让每个和键盘难舍难分的编辑明白了一句台词:你还有多少惊喜是朕不知道的?

这不,又一个 AI 生图神器来了:Recraft。

好用在哪?一句话概括就是:人负责排列组合,AI 负责美工,审美挺好,还不容易出错。

对于普通人来说,设计海报又又又变得更简单了,我们就是 AI 的甲方,给它一套毛坯,它给你一次次不重样的精装。

Generate and edit vector art, icons, 3d images and illustrations in a wide range of styles suitable for websites, print and marketing

请问,设计一张海报,需要几步?Recraft 表示,三步就够了。

首先,在空白画布上,拉出一个紫色的框框;其次,在你想要的位置放入图片、文字,输入提示词;最后,点击生成按钮,AI 就能帮你化腐朽为神奇。

只要等待十几秒,一张海报出现在你面前。比如这样,轻轻松松把文字变成 3D。

▲ 图片来自:X@recraftai

或者,你想做个表情包,有图,有文案,但不知道怎么组合更好看,也可以交给 Recraft,让它来扩图,把文字自然地融进场景里。

▲ 左边,AI 生成;右边,草图

甚至,我们不上传图片,纯打字,让 Recraft 一条龙生成海报也没问题。

文字渲染一直是图片生成模型的痛点,但 Recraft 牛逼在,可以 hold 住一大段文字。

A 妹主演的《魔法坏女巫》将在 11 月上映,国内也会引进,然而,电影还在文火加热,设计简陋的海报已经被群嘲了。

不如让 Recraft 重做一次吧,我用不同字号,把文案排列了一下,草图这就算做好了,然后参考原海报,反推提示词,说明了画面的要素,接下来交给 AI 一键美化。

▲ 左边,AI 生成;右边,草图

可喜可贺,该有的都有,文字没有错误,每一行都被 AI 精心设计,和官方海报一比,风格不同,但没有差到哪里去。

Recraft – 打败 Midjourney,匿名屠榜的 AI 生图黑马,人人都能设计海报

▲ 左边,AI 生成;右边,官方海报

除了从头设计,Recraft 还可以处理多张图片,满足追星族和嗑 CP 爱好者的要求——把喜欢的角色 P 到一起,看起来不突兀。

以哈利波特和毒液为例,上传需要的两张照片,背景不同怎么办?这里不得不提 Recraft 一个非常实用的功能:一键抠图。

是的,传统的 P 图软件都有抠图功能,这不算什么,但 AI 生图工具,考虑到这个大众功能并加进产品的,不多。

抠图之后,配上文案,看起来仍然有次元壁,默认字体也丑了点,没关系,选择你想要的画风,让 AI 统一优化,就有同框的感觉了。

▲ 左边:优化后,右边:优化前

擅长设计平面是不够的,Recraft 的一个功能更让人拍案叫绝:Mockup,做立体物体的图案设计。

先让它生成一个普通的红色棒球帽,中间的绿色框框,用来生成图片,或者上传自己的图片,然后图片可以和帽子完美融入。

比如,加上一段文案:「make cats great again」(让猫猫再次伟大)。

抠图去除多余的背景,把图标拉伸到满意的大小、旋转和移动到合适的位置,它始终保持透视效果,自适应地贴合表面。

以此类推,T 恤、杯子、徽章也是一样的,吃谷虽然快乐,但伤钱包,以后可以自己给自己做周边,赛博欣赏,自娱自乐了。

▲ 仅示意,徽章是 Recraft 生成的,图案是上传的

请问,我为什么一直在让 AI 设计英文内容?

因为 Recraft 有硬伤:可以用中文提示词,但输出不了中文。哪怕我明确要求,某段话请用中文写,它也会「贴心」地给我翻译成英文。

但只要能登上 Recraft,就有免费额度可用,设计海报、封面、产品图、表情包…… 有便宜可占,已经很香了。

我们知道 Midjourney、DALL-E、Flux、Ideogram,但这个 Recraft 是何门何派?

前段时间,文生图模型 red_panda 在 X 一鸣惊人,因为它在 Hugging Face 的排行榜拿下了第一名,把有名有姓的前辈踩在脚下。

这个排名,靠两两图片对比得出,比的是综合能力,包括审美、提示词理解、身体结构准确性、文字生成质量等。

网友猜测,red_panda 是「小熊猫」的意思,难道来自中国?关子没有卖多久,幕后团队就出来自曝了。

red_panda 基于模型 Recraft V3,背后的公司是 2022 年成立、总部在伦敦的 Recraft AI,创始人曾在 Google、微软工作过。

Recraft 一朝成名天下闻,不是没有道理,这个产品集了各家之所长。

▲ 图片来自:X@recraftai

论高清、光影、真实感,Recraft 不输 Flux。

同时,它对新手友好,有很多不错的预设风格,游走在写实和艺术之间,不用写复杂的提示词,就能模拟各种摄影和绘画效果。

▲「Hard Flash」风格,强烈、直白的闪光灯效果

Recraft 擅长的长文本图像生成,准确度怕是让拿文本做招牌的 Ideogram 都自愧不如,而且,它很听话,可以让我们决定文本的大小和位置。

▲ 图片来自:X@recraftai

不过,Recraft 也可能出现文本错误,并且导致背景变形。当我模仿《火星救援》的风格做马斯克的海报,他的脸像被整容了,还是失败的那种。

▲ 左边:AI 生成;右边:草图

当 AI 生图工具都在增强可控性,Recraft 不落下风,Midjourney 的修改局部功能,它也有。

我们框选出某个区域,然后用提示词告诉 AI 怎么修改,加个帽子轻轻松松。

十八般武艺都会一点的 Recraft,会抢设计师的工作吗?恰恰相反,它是来交个朋友的,把自己定义成:面向设计师的生成式 AI。

所以,Recraft 具备了一些设计师们需要的功能,比如样式也可以通过更多的图像输入给模型,保持风格的稳定。

Recraft 还做了一个小小的协作功能,画布可以共享,让对方评论,因为「有时候,两个人的想法比一个人的想法更好」。

▲ 图片来自:X@recraftai

更喜闻乐见的是,Recraft 生成的图片可以免费商用。

当然,不是设计师的小白们,比如我,也可以玩得很开心,分分钟做出自己喜欢的海报。

而且,本就没必要将人和工具比较,Recraft 是来和 Canva 等设计工具、Midjourney 等 AI 生图工具同台竞争的,用户们坐享其成。

▲ 图片来自:X@recraftai

Canva 的 CEO Melanie Perkins 说过,Canva 希望让每一个人都设计出他们可以想象的任何东西,无论说什么语言,用什么设备。

所以,他们打破 Adobe 的门槛,简化了设计流程,提供了各种模板、部件、图片、字体,让用户增减元素。

▲ 图片来自:X@recraftai

AI 的进化方向,和这位 CEO 的愿景是一样的:为全世界赋予设计的能力。

但我们的选择,越来越不局限了,不是必须选择哪个产品,不是必须听某个创始人的故事,工具能帮我们做的越来越多,我们按下的按钮越来越少,甚至可以不亲手操作,人人都能设计一点东西,如果我们还愿意称之为设计。

Google vs ChatGPT 搜索体验对比实测

By: DUN
2 November 2024 at 15:22

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

随着 的新实时搜索功能, ChatGPT 正在将自己定位为传统搜索引擎如 的竞争对手。ChatGPT 以其对话式的响应而闻名,能够提供实时的上下文信息而不带广告。

我抓住机会看看 ChatGPT Search 与 Google 长期以来的搜索专业性相比如何。我进行了几次比较,涵盖了速度、准确性、视觉效果和整体用户体验等类别。以下是它们的表现。

问题“东京的主要旅游景点有哪些?”

Google 的搜索引擎非常快速,结果在毫秒内就能交付。搜索引擎拥有多年的优化经验,并且有专门为高速索引和检索而构建的基础设施,可以立即获得来自多个来源的广泛相关结果。

ChatGPT 的搜索同样快速,并为每个地点生成了更清晰、更用户友好的图像和信息。显然,AI 通过从相关来源提取信息来生成响应,然后以对话的方式分享这些信息。结果感觉更加友好,几乎就像 AI 很高兴我去旅行一样。

使用体验ChatGPT Search
在以对话且简洁的方式提供有价值的快速响应方面领先。

问题: “解释气候变化和全球变暖之间的区别。”

Google
 的响应来自 Gemini,概述了气候变化和全球变暖,并将其包裹在一个简短的段落中。从那里,我可以向下滚动并搜索一些来自 NASA、USGS.gov 甚至 Quora 的链接。显然,算法优先考虑流行和权威的来源,但它也是以广告驱动的,这意味着顶部结果有时包括我看到的来自联合利华的赞助内容。此外,对于复杂的主题,我自己需要浏览多个链接才能拼凑出完整的答案。

ChatGPT 提供了直接的答案,从网络中提取经过的信息,然后添加了一个可点击的「来源」图标。这个功能减少了我在 Google 搜索中从多个收集信息的时间。在这个搜索和其他搜索中,ChatGPT 的总结对于一般查询甚至更详细的主题都是准确的,其设计允许更干净、更加集中的体验。(不过,请记住,广告可能会在未来出现。)

使用体验ChatGPT Search
在便捷和准确的直接答案方面赢得了这一轮。

问题: 苹果目前的股价是多少?最近有什么更新?

Google 实际上没有给我一个立即的答案。相反,我得到了一个指向 Yahoo Finance 的链接,我可以点击并希望自己找到答案。

ChatGPT
在毫秒内,答案就在我眼前。我还得到了关于苹果的新闻和更新,当然,还有来源。ChatGPT Search 真是令人耳目一新。我得到了问题的答案,而不需要四处寻找细节。通过将答案直接呈现在我面前,我节省了时间,而不需要再点击几次。显然,对于实时的股票 或天气更新,ChatGPT 提供了可比的准确性,甚至在深度上超过了 Google 庞大的视觉库。

使用体验ChatGPT Search
继续以其策划的实时直接答案给我留下深刻印象,显示出未来更新的潜力。

问题: 给我展示媒体对心理健康影响的最新研究。

Google 提供了如此多不同的答案,我甚至不知道该从哪里开始。从 Gemini 的响应到侧边栏,再到下面的链接结果,整个体验极其杂乱——这是我在使用 ChatGPT Search 时从未注意到的。此外,Google 的广告模式意味着用户数据通常被用来提供个性化广告。虽然 Google 有广泛的隐私政策和设置,但其广告驱动的方法可能导致不总是优先考虑用户隐私的定向内容。

ChatGPT 再次,ChatGPT 搜索提供了一个更清晰的界面,没有推广内容。对于这种个人化的搜索,额外的隐私关注方式让我非常感激。作为一个希望在搜索过程中不被广告定向的用户,这种方式对我来说更具吸引力——或者在之后。

使用体验ChatGPT Search
在考虑隐私和负责任的内容使用方面领先。对于敏感搜索,不被广告定向是一个巨大的优势。

问题: 什么是我客厅里最好的电视?

Google 我说的就是我说的,Google。在纠正我输入「What's」而不是「What is」后,Google 给我回应了一些链接,所有这些链接都是赞助的,我需要点击才能找到电视。在得到这个回应后,我感觉我需要再次问它以帮助缩小范围。然而,在赞助链接下,还有来自内容发布者的链接。

ChatGPT 为我缩小了范围,包含了图像,并给出了我想要的答案。AI 确实感觉像是一个朋友,提供有价值的信息。每个电视图像旁边都有一段介绍,提供关于每个电视的信息。与 Google 相比,这种设计感觉更加干净和简洁。此外,对话格式直观,我可以滚动浏览推荐,而不需要像在 Google 搜索中那样需要浏览多个链接。

使用体验ChatGPT Search
提供了一个令人耳目一新的体验,直接回答和具体示例。

问题: 谁在民调中领先?

Google 的结果包括有关选举的新闻故事。我希望通过这个问题获得关于今天总统选举民调中谁领先的直接结果。我不得不挖掘新闻故事才能找到答案。

ChatGPT 给了我我想要的结果,直接提供了事实。选举新闻无处不在,所以我不需要阅读更多的新闻故事。ChatGPT 给了我一个直接的答案。

使用体验ChatGPT Search
提供了没有繁琐的实时答案。

问题: 洋基队在世界大赛中是如何崩溃的?

Google 的第一个结果是从《纽约时报》关于该主题的故事中提取的引用。这是一个快速的响应和直接的答案。然而,它让我感觉我没有得到完整的故事。

ChatGPT 提供了更全面的回应,从更多来源提取信息,但仍然感觉干净简洁。我得到了洋基队彻底失败的完整画面。

使用体验ChatGPT Search
再次提供了我所寻找的实时答案,并增加了确认我获得所有信息的全面性。

ChatGPTGoogle 在不同领域都表现出色,但它们满足的需求略有不同。如果你在寻找全面的搜索结果,拥有大量来源和视觉效果,Google 仍然是强者。

然而,如果你的优先事项是清晰、无广告、对话式的响应以及内置的实时更新,ChatGPT 提供了一种流畅、用户友好的体验,可能很快就会成为日常查询的主流。

ChatGPT Search 提供的无杂乱答案以及支持它们的来源是全面且可靠的。我对 ChatGPT 的答案更有信心,因为它们简洁且没有广告商的支持。结果感觉就像是专为我准备的。在杂乱的网络中,ChatGPT 就像一个乐于助人的朋友,我喜欢这种感觉。

开源许可证选择器 – 轻松比较、选择合适的开源许可协议

By: Anonymous
3 October 2024 at 16:45

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

如果常在查找程序或浏览 源码,会每个项目底下都有一个 LICENSE 文件,这也是程序使用的许可协议,若想使用这个项目的源码或相关资料就必须了解许可方式,简单来说,许可协议规范的是什么可以做、什么不能做,必须遵守才能合法使用。

比较常见的有 GNU 通用公众许可协议〔GPL〕、Apache 许可协议、MIT 许可协议和 BSD 许可协议等,大家一定都曾经听过或看过。

不过许可协议本身就很复杂,即使去查找维基百科或上的资料也不一定可以短时间看懂,有开发者将许可变得更简单,通过问答选择题来推荐开源许可,以互动方式显示最适合的开源许可选项,同时以更浅显易懂的解释、条列出优缺点,在更短时间内找出最适合的许可方式。

开源许可证选择器〔Open Source License Chooser〕是为需要选择许可的用户提供指引,将枯燥的法律术语转为更容易被大众理解的语言,除此之外,有「许可比较器」最多可将三种许可加入比较功能,以表格方式列出彼此之间的差异。

如果你不是开发者,纯粹想知道指定的开源许可信息,也可以在「开源许可选择器」获取相关说明。

Choose the perfect open source license for your project with our humorous and easy-to-understand guide. No legal jargon, just straight talk!

进入「开源许可选择器」后先从右上角 Language 切换语言,有英文和简体中文语系。

接着从左边开始回答问题,完成后右边就会显示适合的许可许可证。

问题有五题,每一题都会有三个选项,主要就是分为是、否或是不确定,例如是否希望别人使用你的源码赚钱、别人能否修改你的源码、是否担心遇到专利流氓、是否会通过网络提供服务、是否在意其他开源项目的相容性,描述上都很平易近人,即使没有任何法律背景也很容易理解。

开源许可证选择器 – 轻松比较、选择合适的开源许可协议

这项服务一共收录 15 种开放源码许可,会依照用户的回答推荐许可方式,例如下图就有 MIT License 和 Apache License 2.0 两种,它会有一段简单介绍、趣味解释〔以其他更生活化的方式描述此许可〕,更重要的是下方会有优点和缺点、使用量和示例项目。

React、Angular 使用的是 MIT 许可协议,目前已超过 140 万个网站使用。

可以点击「了解更多」连到许可官方网页以获取更多信息〔或者以名称去 查找〕。

从「许可比较」功能可以选择最多三个许可类型,以表格方式列出更易于比较,包括描述、允许商业使用、网络服务相容、修改限制、优点、缺点、使用量和示例项目,支持可加入比较的开源许可有:

如果想知道开源许可被使用的比例,也可参考「许可使用情形图表」页面,主流是 MIT License、Apache License 2.0、BSD 3-Clause License 和 GNU GPL-3.0到图表上会显示使用量。

ChatGPT Canvas 全新 AI 写作、源码、文本编辑工具,功能测试

By: Anonymous
2 October 2024 at 14:47

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

最近推出会主动思考推理的「 o1-preview 」,以及更即时、自然的「高级语音对话模式」后,今天又再次推出新功能:ChatGPT Canvas」,这是基于 GPT-4o 架构开发的全新 写作、源码编辑界面。让 ChatGPT 不再只能对话,而可以进行更深入、准确的内容创作工作。

第一波更新中,ChatGPT Plus 和 Team 用户会先获得 Canvas 功能,而全球的企业和版用户将会在下周获得使用权限。并且 还计划在 Canvas 正式发布后,向所有 ChatGPT 用户开放这项新的人机协作界面。

实际测试后,我觉得可以把「ChatGPT Canvas」想象成一种 AI 文本、源码,在这个中,人和 AI 可以更有效率的协作,共同编辑更好的内容成果。

以前的 ChatGPT 是即时通,一切内容要在对话中生成,也只能用对话引导 AI 去生成、修改,这很多时候会有点麻烦,常常在问答的过程偏离主题,难以指定要修改的部分,容易愈改愈乱,再也回不去之前更好的版本。

但是「ChatGPT Canvas」能够解决上述问题,它让人与 AI 在一个类似文本编辑的界面中讨论,就像多人一起编辑一份在线文件那样,可以一起处理文字、源码内容,可以针对任何指定段落修改,能够整合人与 AI 各自编写的内容,最后一起合作完成一份文本。

于是, ChatGPT 不再只是「对话软件」,而可以当作真正的「AI 文本内容、源码内容编辑器」,你可以利用来处理下面的工作流程:

在这篇文章中,我通过一个完整的写作实测案例,带大家了解 Canvas 的操作流程、快捷功能以及它如何帮助创作者解决具体问题。

ChatGPT 的 AI 模型中切换到「GPT-4o with canvas」模式,下面我测试看看利用这个新界面编写一篇文章。

首先,我先利用原本常用的 AI 指令结构,结合我的想法草稿,请 ChatGPT 改写成一篇完整的文章内容。

ChatGPT Canvas 全新 AI 写作、源码、文本编辑工具,功能测试

当 AI 开始编写文章草稿,或是源码时,「GPT-4o with canvas」就会像是下图这样,进入独立的文件编辑界面。

进入独立的 Canvas 编辑界面后,最大的优点就是,我们甚至可以直接在上面修改 AI 生成的文章内容。

于是这样一来,可以实现更流畅的「人与 AI 的协同写作流程」。

以前 AI 生成的内容,我们有不满意的地方,无法人为的介入修改,只能让 AI 自己去改,而常常愈改愈乱。

现在, AI 生成的草稿,我可以直接在编辑界面介入,修改成我觉得更好的版本,然后再请 AI 接续调整,实现真正的人与 AI 协同合作。

「GPT-4o with canvas」不只可以修改内容,也可以调整粗体、标题样式,就像是一个结合 AI 功能的简易 Word 编辑器,还支持 markdown 编辑格式

以文章写作的 ChatGPT Canvas 界面为例,编辑界面右下方会出现一排「快捷功能菜单」,文章写作、源码编辑会有不同的对应菜单。

「快捷菜单」中有很多默认功能,可以快速修改整篇文章、源码的内容。

例如其中有一个「阅读等级」的调整按钮,可以把文章的内容改成从小孩子到博士等级的不同风格与深度。

下面是一篇我让 AI 改写的、文章,我让 ChatGPT 把原本相对专业的文章内容,改成适合小朋友阅读的版本。

而下面是同一篇第二大脑的教程文章,我让 ChatGPT 把原本相对口语的草稿,改成更精炼、专业的文章风格。〔可以跟上面的小朋友版本进行比较,都是同一篇草稿的不同阅读等级修改。

通过快捷功能,一个按钮就可以快速转换我们需要的文字深度与风格。

以文章编辑界面为例,具备下面几种快捷功能:

下图是按下「建议编辑」后,ChatGPT 针对不同段落提供的编辑建议,我只要按下允许,就可以让 AI 直接进行修改。

这是不是跟以前的对话生成内容有很大的不同?现在 ChatGPT 可以针对一篇长篇文章,提供各种分段的调整、建议与修改。

除了整篇文章的快捷修改、建议外,在「ChatGPT Canvas」的编辑界面中,我可以任意圈选一段觉得有问题的段落,这时候会浮现「Ask ChatGPT」的按钮,点击后,我可以输入这一段的修改建议,让 ChatGPT 去进行指定段落的调整。

这是不是很像我们在 Google 文件上提供伙伴文章修改建议?只是这一次,AI 成为我的伙伴,听从我的指令去修改。

更棒的事,在「ChatGPT Canvas」中不用再怕 AI 修改内容后,回不去之前可能更好的版本。

因为在编辑器中,自带了可以还原之前版本的功能,而且不只可以还原到前一个版本,也可以回到上上版、上上上版,或是跳回最新版本。

经过简单的文章写作实测,我们可以看到 ChatGPT Canvas 的可能性,它突破了传统 AI 对话生成文本的限制,将人机协同的创作流程无缝结合,无论是在写作还是程序设计的应用场景中,Canvas 以更灵活的编辑能力和快捷的功能,帮助用户实现了更精准、有效的工作流程。

对于我相对熟悉的文章创作者而言,ChatGPT Canvas 不仅提供了文稿即时的优化、编辑建议,还能调整文本的阅读等级和风格,帮助你快速针对不同的受众进行调整。而对于程序员,Canvas 的源码、注解添加与错误修正功能,让程序开发过程变得易于维护。

这样的功能让人与 AI 之间的互动变得更具深度,不再只是被动地接受 AI 的生成内容,而是能主动参与其中,实现真正的协同创作。

无论你是需要改进写作的创作者、需要帮助调试的程序员,还是想要在教育中使用 AI 辅助的教师或学生,ChatGPT Canvas 都是一个值得一试的工具。

ChatGPT 中文语音对话测试心得,头脑风暴、即时口译、冥想教练

By: Anonymous
25 September 2024 at 15:38

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

之前让许多人惊艳的「进阶语音模式」功能,今天开始陆续针对 Plus 与 Team 用户推出。这个模式最大的特色,就是可以用更加自然〔接近于真的跟一个人聊天〕的对话方式,让用户通过语音与 进行交流。

相较于旧版的功能,新的语音交谈过程更加流畅、AI 反应迅速、接话过程几乎没有等待,也能随时打断 AI、插入新话题,除了可以支持多国语言在同一个对话中自由切换外,还能让 AI 模仿或调整各种对话风格等等。

那时候在 推出的官方中,这个 AI 进阶语音不只是更自然流畅而已,他还可以结合看的功能〔摄影镜头〕来回答用户问题,或是在语音中识别出用户的情感而提供对应的回应,这些跟原本拟人化的语音结合在一起,效果确实令人惊艳。

不过目前的「进阶语音模式」功能,似乎还没有当时视频中「完成体」的样子,在我实际的测试中,目前的〔2024/9/25〕的「进阶语音模式」有下面这些特点与限制:

ChatGPT 中文语音对话测试心得,头脑风暴、即时口译、冥想教练

我测试了几个 ChatGPT「进阶语音模式」的情境,下面跟大家「纯心得」,之所以叫做纯心得,就是因为我没有时间录制成视频再剪辑,所以真实过程其实是手机 上的语音对话,但我就用事后图文的结果来说明

首先,我之前就尝试过,利用跟 ChatGPT 进行一来一往的语音对话,一起构思一个企划案、文章草稿,例如,ChatGPT 假装成一个采访者,采访我对某个主题的想法,引导我把想法说出来,最后我就可以把这些内容转换成报告或文章。

旧版本的时候,其实我就已经觉得满好用的,只是那时候 ChatGPT 的每一次回应「要等很久」,所以对话过程相对生硬很多。

但使用新版的「进阶语音」模式,整个对话讨论过程完全不需要等待,AI 几乎都可以立即回应、接话,而当我 AI 说的东西走偏时,我也可以立即打断他,重新拉回主题。

最大的改变就是整个过程会更迅速,更节省时间,而脑中的想法可以更顺畅地说出,更有头脑风暴的感觉。

我喜欢用这种来回对话的方式,把很多想法激发出来。

经过完整的语音讨论后,请 AI 统整前面的讨论,整理成报告、文章的草稿。

不过,最后这一段我用的是文字的指令,当我这样做之后,这个聊天室就不能再进入进阶语音模式了

其实现在有很多 App 可以做类似的事情,无论是真人还是 AI,有一个在线家教,通过语音来教我们学习一些事情。

于是我试试看让 ChatGPT 通过「进阶语音模式」,当一个冥想教练。

首先,我先试试看在对话中让他调整语调。〔毕竟冥想教练的语调应该更缓和、舒服一点〕

然后我请他当一个冥想教练,通过进阶语音模式,引导我进行深呼吸的练习,或是引导我做大脑放松,效果还可以,这看起来也是一个适合 ChatGPT「进阶语音模式」做的事情。

当然,在这种特别需要情感的情况下,AI 的声调听起来还是比真人的语调生硬一点点。

或者,我也请 ChatGPT 通过「进阶语音模式」当一个英文家教,带我练习口说。

相较于旧版本,因为现在对话过程更流畅,所以更有面对面家教的感觉。例如我先跟他说明想要学习的背景,通过讨论,我们决定一起来练习旅行中的英文。接着 AI 提示我可以先练习餐厅中使用的英文,于是他先说几句如何点餐的用语,然后要求我照着念一次,并且会给我即时回馈。

这部分的过程非常顺畅也满有用的,而且可以通过对话随时调整成自己想要学习的内容,比很多固定的英文学习 App 更好用。

我也尝试看看把这样的「进阶语音」当作翻译来使用看看,以后如果有旅行、会议场合,可否帮我更快速、流畅的翻译双方沟通的内容呢?

首先,我进入语音对话后,先做一些设置,请 ChatGPT 充当即时口译的角色,并告诉他听到什么语言时,要口译成什么语言。

然后我说了一段中文,他很顺畅地直接翻译成正确的日文内容,当然,是用说的说出来。

然后我尝试在不同的语言之间切换,ChatGPT 的 AI 语音都可以即时口译成我需要的另一种语言。

而且当使用台语〔闽南语〕沟通时,ChatGPT 的 AI 语音也能听得懂,并且也会用台语回答。

整体来说,昨天初步测试,上述几个应用情境,对我来说就可以生成很大帮助:

使用 ChatGPT Plus 或 Team 版本的用户,值得试试看。

Google NotebookLM 更新:用 AI 研究英文 YouTube,批量获取整理视频、音频内容

By: Anonymous
30 September 2024 at 13:12

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

Google NotebookLM 是一个强大的,可以让我们上传各种不同内容,建立属于自己的 库。通过这个工具,我们可以用自己专属的文件、PPT、网页、文章,让 AI 生成各种新的报告、文案、文章,甚至是客服解答。

这个工具让很多团队和公司都觉得非常实用。比起从别人的数据库中生成内容,直接从自己的专业文件与专属知识中获得 AI 回应,对工作的性来说更有效。

NotebookLM 推出了一个全新的升级,比前阵子推出的生成英文 Podcast 更实用!

现在它可以支持上传「 」,和上传自己的「录音文件」,让你用更多不同的内容建立属于自己的 AI 数据库。AI 会自动分析 YouTube 视频的字幕,并将录音文件转成各种语言的字幕,从而帮助你生成所需的内容。

这次升级带来了许多新的应用可能性,例如:

Google NotebookLM 原本已经支持上传 Google 文件、简报和网址进行分析,而现在更加入了 YouTube 视频和录音文件的支持。无论是中文、英文、日文等多国语言,NotebookLM 都能进行高效的 AI 整理与生成。

接下来,我通过图文介绍,这些新功能的实际使用方式。

打开「 Google NotebookLM 」,建立一个新的笔记本,然后就可以上传各种文件、文件、影音内容。

而在这次更新中,上传的内容增加了「YouTube」与「录音文件」两种选项。

Google NotebookLM 更新:用 AI 研究英文 YouTube,批量获取整理视频、音频内容

上传 YouTube 时,其实就是贴上 YouTube 视频的网址即可。

Google NotebookLM 不支持某些视频,例如没有字幕、不公开、最近才上传的视频,都可能导入失败。

我把自己收集的大量跟「个人知识管理系统」有关的英文 YouTube 视频,全部上传到 Google NotebookLM,立刻整理成「中文」的第二大脑学习笔记内容。

看起来效果还算是精准有效。

也可以把 YouTube 视频,跟其他的文件、网页文章,全部一起上传到同一个数据库。

AI 生成的内容与回答,也会从数据库的不同视频、不同文章多种不同内容,整理出答案,引用不同形式的参考资料。

也就是说,现在文字、视频、声音内容,都可以在 Google NotebookLM 的同一个数据库中进行解析,让 AI 同时分析多种内容形式,生成更有效地回答。

AI 问答时,针对 YouTube 视频,AI 会抓出视频的字幕进行解析与诠释,回答时也会引用视频内容,我们可以看到视频完整的字幕稿,以及跟答案有关的引用部分。

另外这次升级,Google NotebookLM 还推出了一个更实用的更新,就是可以上传录音文件,解析出完整字幕〔中文也支持〕,并进行知识问答或整理

下面是我把一个 40~50 分钟的录音文件上传,解析出的完整字幕内容。

字幕本身不算很完美,但理解内容没问题,更重要的是,这些录音字幕,就可以变成 AI 未来生成我需要的内容的素材。

例如我上传很多次很长时间的会议录音文件,问他会议中的某个重点:

Google NotebookLM 就可以正确的挑出示哪一个会议录音文件的哪一段内容,提供回答,也可以在引用中直接让我跳到该次会议的录音字幕段落!

我也可以汇整一个项目多次的会议录音文件,请 AI 根据会议录音文件撰写报告、文案Google NotebookLM 也表现得还不错。

或者,我之前常常提到,我喜欢用说的把想法讲出来,再看怎么语音转文字,变成报告或文章的草稿。

Google NotebookLM 中,我现在可以更自在地先把想法完成的录音下来,把录音文件上传,让 NotebookLM 整理杂乱想法,引用原文,改写成通顺文章。

Google NotebookLM 的最新升级让它成为学习与工作上的强大工具,特别是支持 YouTube 视频和录音文件的上传与解析!

无论是学习英文视频、整理会议录音,还是将录音内容转换成报告和文章,Google NotebookLM 都能以有效帮助我们处理繁琐的资料,并生成实用的 AI 回应。

通过整合多种语言与多形式内容〔文章、PDF、简报、网页、视频、录音等等〕,Google NotebookLM 这个工具让学习和工作流程变得更聪明,无论你是学生、老师、职场专业人士,还是创作者,NotebookLM 都是一个值得试试看的 AI 助手。

ChatGPT o1 会主动思考推理的 AI,新模型发布实测总结

By: Anonymous
8 September 2024 at 12:45

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

ChatGPT o1 会主动思考推理的 AI,新模型发布实测总结

今天发布「 ChatGPT o1-preview」,是会尝试主动思考的 语言模型, Plus 订阅用户现在就可使用。

根据 OpenAI 的说法:「我们训练这些模型〔ChatGPT o1-preview〕在回应前花更多时间思考问题,就像人类一样。通过训练,它们学会精炼思考过程、尝试不同策略,并能察觉自己的错误。」「如果您正在解决科学、程序设计、数学和相关领域的复杂问题,这些增强的推理能力可能特别有用。」

我自己在讲 ChatGPT 提升工作效率的相关课程时,常常强调一个设计指令的重点:「如果我们写 AI 指令〔 prompt、提示语〕时,可以让 AI 写出自己在想什么、怎么处理任务,通常生成的内容结果会相对更好。

从用户端的角度来看「ChatGPT o1-preview」,就是在 AI 生成内容前,会先展开一步一步的思考流程,它可能会选择思考的策略与切入点,有时会提出一些批判思考,也会更仔细的分析资料细节来做深入处理。

在这个过程中,ChatGPT o1-preview」生成内容的速度其实比 GPT-4o 要慢上不少,可能需要 30~60 秒的思考时间〔或者更久〕,才会开始一步一步的生成内容。

也因为这样的「思考」过程需要耗费更多运算,所以即使是 ChatGPT Plus 用户,在使用「ChatGPT o1-preview」时也有一些限制:

也就是说,目前「ChatGPT o1-preview」比较像是「GPT-4o」的辅助,在进行一些需要深入分析资料、产出有逻辑结果的任务,或者像是科学、数学、程序代码相关领域时,可以运用。

今天这篇文章,我就从自己日常惯用的几个 AI 辅助需求:翻译、摘要、企划思考、文案,以及有时用代码写个小的角度,以实际案例测试看看,「ChatGPT o1-preview」的效果如何,并和「GPT-4o」同样指令下的结果作比较。

当然,如果能从科学、数学与代码的角度来更好,不过从我个人常用角度出发,也想验证看看 ChatGPT o1-preview 是否能满足我的日常工作需求,也提供大家参考。

下面,先提供大家下面测试案例的快速心得比较表格。

翻译结果更简洁有力,文句白话流畅。

用语更符合台湾惯用词汇。

在「白话流畅度」与「专业用语」间平衡得更好。

翻译结果相对较弱,文句不如 o1-preview 流畅。

能计算分数并回馈对错。

无需修改即可使用。

需要多次反复调整才能达到可用程度。

提供具体、逻辑分明的建议步骤和文章架构。

深入分析资料细节。

缺乏深入的分析和明确的建议。

能整理出详细的步骤和操作要点。

细节完整程度略有不足。

缺乏社交贴文所需的流畅性和吸引力。

更注重性和准确性,避免使用版权材料。

可能在细节上不够精准。

首先来试试看翻译〔英翻中〕,我通常会用下面指令来要求 ChatGPT 翻译文章:「把下面这篇 XXX 主题的文章,翻译成中文,请一段一段翻译,尽量在维持原文语意,主题风格的情况下,让上下文的语句更自然通顺,遇到专有名词时附注英文原文,并在第一遍基本翻译后,用台湾惯用词汇与语气进行最后修饰。

下图「左方」,是「ChatGPT o1-preview」翻译的结果。下图「右方」,是「GPT-4o」翻译的结果。

结论是,「ChatGPT o1-preview」花了 57 秒完成一整篇文章的翻译〔文章是 OpenAIChatGPT o1-preview」官方公告〕,但是翻译的结果比「GPT-4o」优异不少。

例如,大多数时候,ChatGPT o1-preview」翻译的文句更加简洁有力〔相对「GPT-4o」〕,可以在许多段落看到这样的差别。

ChatGPT o1-preview」翻译的结果也更白话,相对流畅,用语更符合我指定的中文用语。

ChatGPT o1-preview」在「白话的流畅度」与「专业用语」之间也相对更能拿捏得当,会让人更容易看懂,但又保持专业用语的明确性。

我让「ChatGPT o1-preview」测试直接写一个九九乘法表小工具。o1 同样会先思考撰写工具的逻辑,然后才开始写出程序代码。

我提供的指令是:「我的小孩正在练习记忆数学的 99 乘法表 ,你可以设计一个协助她练习的小游戏吗?

请一步一步分析,从简单的 2 与 5 的乘法表开始,然后练习 3、4、6、7、8、9 的乘法表,根据每一个乘法表设计一个记忆游戏,游戏一开始可以选择要练习哪一个乘法表,进入后可以随机考验该乘法表的熟练度,最好设计有游戏机制。

下面是 ChatGPT o1-preview 第一次生成的 99 乘法表小游戏,我没有做任何的修改,但是正确性、界面美化、操作流畅度都已经达到可用的程度,还会计算分数与回馈对错。

下面是旧版 GPT-4o 第一次生成的小游戏,基本界面可操作,但有一些明显错误〔如下图〕,可能还需要多几次的反复问答,才能调整正确。

我也很常跟 ChatGPT 一起讨论沟通企划案,下面是新旧版本生成的结果比较。

我提供了许多参考资料,请 AI 帮我做产品的企划报告。

ChatGPT o1-preview」在生成过程中,会主动做一些反向思考,与探索不同的报告呈现方式,并且提供一些具体的、逻辑分明的建议步骤,这些不一定有出现在我的指令中。

下面是 ChatGPT o1-preview 生成的版本,我举出其中一部分,它提出了一个撰写初稿的建议方案,并指出了一些明确的试写步骤、文章架构方向。

下面是 GPT-4o 类似段落的版本,虽然也提出了撰写初稿的建议,但整体的说明就比较一般,少了一些明确的、深入的分析与建议。

我也测试了用两个版本去摘要同一篇文章。

下面是 ChatGPT o1-preview 的版本,可以看到文章细节整理得更深入、完整、有条理。

下面是 GPT-4o 版本摘要的结果,基本架构也相似,但细节的完整程度就有一点落差。

不过,ChatGPT o1-preview 也有他不擅长的内容,目前看起来它撰写流畅文案的效果,反而没有 GPT-4o 好〔现在写文案相对效果最好的可能是 Claude 3.5 Sonnet 〕。

下面我请 AI 根据参考资料写出社交贴文上的文案。

ChatGPT o1-preview 版本,AI 会思考撰写过程,撰写时会进行更多安全性、准确性的思考,例如避免使用版权材料

但是多次尝试后, ChatGPT o1-preview 版本目前的结果,比较像是把参考资料更有结构、更有逻辑的分析整理,不太像是社交贴文。

相较之下, GPT 4o 的版本,可能细节没有那么精准,但文案比较流畅。〔如下图〕

以上就是我的初步测试案例与心得,提供大家参考。

3 款 Chrome 插件,检查谁在用你的 Cookie

By: Anonymous
23 August 2024 at 12:09

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

等每个弹出一个 Cookie 弹窗让你选择给不给用 Cookie,倒不如用插件一举解决这个烦恼。

🏪 接受所有 Cookies – Chrome 应用商店

这个插件解决的不是 Cookie 本身, 而是减少 Cookie 弹窗给用户带来的影响。

这个插件安装完毕后无需任何配置,它会自动处理大部分情况。在大多数情况下,扩展功能会阻止或隐藏与 Cookie 有关的弹出式窗口。(比如装完插件后试试打开 StackOverflow,左下角的弹窗就消失了)

具体点讲,它把网站通常要求使用的 Cookie 分为三类:技术、分析和营销。

当网站需要正常工作时,这款插件会自动判断,是接受 Cookie 政策,还是接受所有 Cookie,或是只接受必要的 Cookie。以尽可能减少对你的干扰。

WhoUsesCookies 这个插件能够看到 Chrome 插件使用的 Cookie 范围,并允许立即将插件禁用。

🔗 WhoUsesCookies – Github

因为 Cookie 中存储的信息可能包括用户的登录状态、浏览偏好,甚至是敏感的加密货币钱包数据。如果某个恶意扩展插件获得了读取 Cookie 的权限,它可以轻松获取并滥用这些敏感信息。

这个插件目前没有在 Chrome 商店上架,你需要手动安装。

插件安装完毕后,只需点击浏览器工具栏中的「谁在用 Cookie」图标,即可查看哪些已安装的浏览器插件拥有 Cookie 访问权限。用户可以根据检测结果,决定是否禁用某些不必要或存在潜在风险的插件。

为了避嫌,插件还在 页面提供了「手动插件的性」的方法。用户可以自行检查插件的权限设置。以下是如何在 系统上手动检查插件权限的步骤:

通过这种手动检查的方法,用户可以进一步验证插件是否存在未授权的权限请求,从而确保使用安全。

在日常浏览网页的过程中,我们的浏览器会收集并存储站点数据,如 Cookie、IndexedDB 和 LocalStorage 等。这些数据虽然有助于提升浏览体验,但也会占用存储空间。

如果你想在离开某些网页的同时立即清除 Cookie,但又在常用的网站里保留 Cookie(因为 Cookie 通常还会被用于维持登录状态),可以试试 Cookie AutoDelete 插件

🏪 Cookie AutoDelete – Chrome 应用商店

🔗 Cookie-AutoDelete – GitHub

使用 Cookie AutoDelete 插件很简单,为了充分发挥它的功能,可以遵循它的使用文档做一些配置:

📄 插件使用文档

n.eko – 一键远程操作的多合一浏览器 Docker,支持 Firefox、Chrome、Edge、vivaldi、VLC

By: Anonymous
18 August 2024 at 12:38

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

n.eko 是一款多合一的工具,可以本地运行,也可以在 Docker 中运行。

n.eko 满足几乎一切都运行在浏览器里面的需求。因为运维需要,有些内部服务需要透传一下,单纯的服务没问题,但是一些厂商设备没有命令行。只可以用网页操作。这个项目甚至支持远程音,WebRTC 技术,还有登录。

Neko 可以让你在虚拟环境中运行功能齐全的浏览器,可以像在常规浏览器上一样浏览网页、运行程序,所有这些都在且隔离的环境中进行。

另外,还支持多用户同时使用。Neko 这样写着:

借助 Neko,您可以轻松、安全地与其他人共享浏览器的访问,而不必担心维护单独的配置或设置。无论您需要在项目上进行协作、访问共享,还是只是想与朋友或家人共享浏览器的访问权限,Neko 都能轻松实现。

听起来很不错啊:

Neko 也是举办观看派对和互动演示的绝佳工具。凭借其虚拟浏览器功能,Neko 允许您举办可从任何地方访问的观看聚会和演示,而无需亲自聚会。即使您无法亲自见面,也可以轻松地与朋友和同事保持联系。借助 Neko,您可以轻松举办观看聚会或进行互动演示,无论是休闲还是工作。只需邀请您的客人加入虚拟环境,您就可以共享屏幕并与他们实时互动

N.eko 针对不同浏览器提供了不同的镜像:

推荐配置为 1280×720@30、4 核、3gb 内存,当然越搞越好。

docker-compose.yml 文件:

然后 docker-compose up -d 运行即可,使用 IP:8080 访问。

N.eko 甚至还有一个 VLC 版本…可以用来看剧

详细的可阅读文档

全球 AI 产品 Top100 出炉!只有一个国产应用进前十

By: Anonymous
19 August 2024 at 13:18

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

8 月 21 日,硅谷知名投资机构 a16z,根据近半年的数据,选出了前 100 名 应用

大多数人在使用哪些 AI 产品?哪些类别更受欢迎?用户会坚持使用哪些 AI 产品,而不是转瞬即忘?接下来,我们一起来看看。

这已经是 a16z 第三次发布 AI 百强榜单了,第一次是 2023 年 9 月,第二次是 2024 年 3 月,半年一更,频率稳定。

a16z 的评选方法是,基于 Similarweb、Sensor Tower 的数据,每 6 个月排一次名,榜单分成 2 部分:

全球 AI 产品 Top100 出炉!只有一个国产应用进前十

▲网页端前 50

▲移动端前 50

网页端和移动端的 TOP10 里,美图秀秀国际版 Meitu 属于国产,靠粘土滤镜爆红的 Remini 最开始也是出海产品,后被一家意大利公司收购。

接下来我们分门别类地谈谈,首先是通用型 AI 助手。

第三次了,ChatGPT 还是遥遥领先,在网页和移动端都拿下第一,绝对的 killer app

与此同时,ChatGPT 不如对手们增长势头猛烈。谁才是最好的 AI 助理,尚且没有定论。

▲增长指数

黄仁勋爱用的 AI 搜索 Perplexity 在网页端排名第三,并首次入围移动端榜单,正好排在第 50 名,差点名落孙山。

Perplexity 超过 7 分钟的用户平均停留时间,甚至略胜于 ChatGPT

比起 等传统搜索,Perplexity 直接提供简洁、实时、相对准确、可以引用信息来源的答案。数据说明,AI 搜索的形式在一定程度上走通了。

OpenAI 的 Sam Altman 也对这种形式保持认可,然而,OpenAI 的 AI 搜索 SearchGPT 还在小范围地内测,用户比 CEO 更着急。

ChatGPT 定位最像、竞争更直接的产品是 Claude,来自前 OpenAI 员工创立的 Anthropic。这次,Claude 的排名有所提升,在网页端排名第四,好过上个榜单的第十。

今年 6 月,Claude 推出的新功能 Artifacts 突破了聊天窗口的限制,可以实现实时可视化、互动编程等,拓展了用户与 Claude 交互的方式,好评不少。

▲Artifacts

除了早已功成名就的一代目,通用助手的赛道也有一些后起之秀。

字节跳动这次一次性上榜了五个产品:教育应用 Gauth、开发平台 Coze、通用助手豆包、豆包英文版 Cici、照片和编辑 Hypic。

除了 Hypic,其他都是首次出现在榜单,其中,豆包移动端第 26 名、网页端第 47 名,Cici 也在移动端排到第 34 名。

豆包的功能发展得很全面,并且多端覆盖,使用门槛又低,日常场景够用,所以有这么大的用户量,也在情理之中。论做产品和商业化,还得看字节。

另外,AI 助手 Luzia 首次上榜移动端,一来就是第 25 名。

你可能没有听说过这款产品,它主要服务西班牙语环境,全球拥有 4500 万名用户。最初,Luzia 作为 WhatsApp 的聊天机器人出道,但 2023 年 12 月有了独立的 app

除了什么都能聊的通用助手,消费者对于 AI 还有哪些垂直的、特别的需求?

一个重要的趋势是,大家都在用 AI 搞创作,并且创作的形式越来越丰富了。

a16z 的网页端榜单里,52% 的公司支持图像、视频音乐、语音等的内容生成和编辑。

其中包括 7 家新上榜的公司,排名还不低,视频生成工具 Luma 排在第 14 名,音乐生成工具 Udio 排在第 33 名。

和 Udio 同一个赛道、被称为音乐界 ChatGPT 的 Suno,存在感更是暴涨,从今年 3 月的第 36 名,上升到今年 8 月的第 5 名。

榜单和榜单的纵向比较也很有意思,之前的榜单里,大多数内容生成工具围绕图像。

但现在,图像生成的占比降到了 41%,只有一个图片生成工具(SeaArt)首次上榜,视频生成工具出现了三个新面孔(Luma、Viggle 和 Vidnoz)。

端新增产品

Udio 上线于今年 4 月,6 月则是 AI 视频工具爆发的一月,快手可灵、Dream Machine 的 Luma AI、Runway 的 Gen-3 Alpha 接二连三发布。

可以看到,不过半年,AI 在音乐和视频上的输出质量,都卷出了成绩。

至于移动端,最常见的创作形式是编辑图像、视频。相关工具占到榜单的 22%,是移动端的第二大产品类别。

▲Adobe Express

虽然也有初创公司涌现,但排名更高的,是那些在生成式 AI 浪潮里转型、推出更多玩法的传统创意公司。

其中有我们比较熟悉的名字,美图秀秀国际版 Meitu 在第 9 名,字节跳动旗下的照片和视频编辑器、醒图国际版 Hypic,位列第 19 名。

另外,韩国互联网巨擘 Naver 旗下的相机应用 SNOW 第 30 名,内置了 Adobe Firefly 生成式 AI 的 Adobe Express 第 35 名。

之前 washingtonpost 做过一个调查:人们会和聊天机器人说什么?他们分析了数千次对话,第一是搞黄色,第二是完成家庭作业。

最近也有一款很火的 P 肌肉应用 Gigabody,让你提前看看增肌之后的模样。它会产出很多照骗,也会打击健身人群的自信心,因为很可能练了半天,还不如 Gigabody。

举出这两个例子,是为了佐证 a16z 的结论。

a16z 移动和网页端的榜单,都出现了一个很有意思的新类别:美学和约会。

其中包括三个新入围移动端榜单的工具:LooksMax AI(第 43 名)、Umax(第 44 名)和 RIZZ(第 49 名)。

▲移动端新增产品

LooksMax 和 Umax 采集用户的照片并评分,然后给出建议,提升你的魅力。Umax 甚至会给出一个「满分模板」,也就是 AI 眼里你的完美模样。

LooksMax 不仅照顾到了颜控的看脸需求,也会分析用户声音的吸引力。

但它们的用户规模并不大,LooksMax 超过 200 万,Umax 在 100 万左右。

可能和这个赛道太卷有关,上网随便搜搜能够找到大量身体美颜滤镜,减肥、增肌、健身、变胖、换衣服,AI 都能帮忙,我们不再需要在 B 站学习复杂的 PS 教程

但这些应用的套路又都很类似,靠订阅赚钱,能赚多少是多少,Umax 每周收费 4.99 美元,LooksMax 每周收费 3.99 美元。

如果说 LooksMax 和 Umax 是认识更多发展对象的敲门砖,下一步就该用 RIZZ 了。

笨嘴拙舌的用户,可以用它提升回复约会 app 消息的水平。上传对话截图、个人资料等,RIZZ 都可以教你说些高情商表达。

古代的邹忌问身边人「吾与徐公孰美」,童话里的皇后问魔镜谁是世界上最好看的人,现在的人们则在问 AI:我怎么变得更帅、更漂亮、更有魅力,怎么不算一种科技与狠活呢?

食色性也,情感关系未必在人和人之间,也可以是人机。这次,AI 伴侣应用 Character.AI 排在移动端的第十,上次是第十六。

其实,上榜的还有一些尺度更大的 AI 伴侣应用,包括 Janitor、SpicyChat、candy.ai、Crushon 等,但 a16z 没有特别强调出来。

拿 a16z 今年 8 月的榜单和今年 3 月相比,近 30% 的公司是新公司。

如果再拿今年 3 月和去年 9 月的榜单相比,那么这个数字是 40%。

可见 AI 产品竞争之激烈和残酷,新一代 AI 原生产品和公司的发展速度,前所未有地快。

下一个爆款的 AI 产品,可能会是什么?答案或许在社交产品 Discord 出现。

a16z 发现,Discord 的流量,能够体现一个产品有没有潜力,尤其在内容生成方面。

Discord 的好处是,提供了服务器和交流社区,开发者无需构建完整的前端产品,所以它很适合作为一个沙盒,用来验证 PMF(产品与市场契合度)。

很多产品都是从 Discord 起步,构建社区,测试功能,积累用户,然后才有自己的独立,比如 Suno 和

时至今日,Midjourney 还是所有 Discord 服务器邀请流量的第一名。

▲ 在 Discord 受欢迎的 AI 公司

截至 7 月,10 家 AI 公司在所有 Discord 服务器邀请流量中排名前 100,与 1 月相比,其中一半是新秀。

AI 继续发展下去,未来可能连 app 的概念都会消失,人手一个 agent,AI 主动帮我们解决需求,但现在,我们还是从被用户选择的 app 中,一窥 AI 的可用性如何被定义。

常言道「不要创造需求」,产品的成功不在于通过广告等人为方式制造需求和虚假繁荣,而是找到并满足已经存在的、真实的需求。

AI 也是这样,融资、刷屏、炒作之后,依然是沉默的大多数,做出最诚实也最落地的投票。其中,有没有你正在使用并欣赏的产品呢?

We crunched the data to find out: Which gen AI apps are people actually using? And which are they returning to, versus dabbling and dropping?


2024 年 3 月:

Thousands of new AI-native companies are vying for attention. We crunched the data to find out: Which generative AI products are people actually using?


2023 年 9 月:
https://a16z.com/how-are-consumers-using-generative-ai/

PicLumen – 免费好用的 AI 图片生成与编辑工具,支持免费商用

By: Anonymous
13 August 2024 at 13:26

DUN.IM BLOG

DUN.IM BLOG

PicLumen 提供一整套由 人工技术驱动的照片编辑和生成,用户在注册后从控制台输入提示词生成各种图片,选择不同的图片模型、长宽比、画质或进行各种细项的微调,此外,PicLumen 还整合 AI 抠图和编辑工具,可以说是非常先进、快速且方便易用的图片生成功能。

AI 生成的图片素材可自由使用于个人和商业用途,无需额外付费购买授权,生成的图片相当真实,任何类型的图片都能制作生成,不过要注意你只能将自己生成的图片使用于商业用途,其他人的图片可用作参考,但是不允许直接使用〔稍作修改即可〕。

如同大多数的 AI 图片生成器服务,PicLumen 也提供「探索」功能,查看其他用户生成的图片素材,也可以获取他们使用的提示词、反向提示词和各项参数,或是对图片进行「重混」〔Remix〕,如果没有什么灵感的话不妨在探索页面查看其他用户所使用的提示词和相关参数。

依照 PicLumen 支持中心提供的页面所述,PicLumen 生成的图片可以用于个人和商业用途,但要注意以下几点重要事项:

Create your unlimited AI images with PicLumen's AI image generator. Join the best AI image creator and turn your text to images freely.

进入 PicLumen 后点击首页「Generate for Free」按钮,来到登入注册页面,必须先注册账号才能使用,也可直接以 账户快速登入。

PicLumen – 免费好用的 AI 图片生成与编辑工具,支持免费商用

登入后会看到「探索」页面,也就是其他用户以 PicLumen AI 生成的图片,点击后会看到提示词和相关信息。

如果要自己生成图片,点击左上角「Create」进入图片制作工具。

生成器上方有几个可供调整的选项,包括 AI 图片模型、图片长宽比、画质和单次生成图片数〔最多四张〕。

长宽比〔Aspect Ratio〕功能很好用,预先选择要使用的图片比例后就不用后续编辑裁切。

将提示词输入后点击右边的「Generate」就能开始生成图片,速度很快,不到一分钟就会出现结果。

提示词右上角还有一个选项,可以设置反向提示词、CFG Scale、Steps 和 Seed。

PicLumen 一次可生成 1-4 张图片结果,看起来会有点像〔但又不太一样〕,如果不满意可微调提示词或切换为不同的图片 AI 模型,重新生成新的图片。

点击图片后会进入详细资料页面,从中间的按钮就能图片、AI 抠图或 AI 放大〔如下图红色圈选处〕。

PicLumen 还能将图片直接以 AI 去除背景,省去手动抠图的步骤,去除的效果也很优异!

前面有提到 PicLumen 本身也能查看其他人生成的图片,点击左上角「Explore」就能探索更多图片,很厉害的是利用 PicLumen 可以制作出各种风格的素材,从详细信息页面就能看到提示词和相关选项,稍微研究一下、修改后也能制作出很专业的图片哦!

在探索页面点击其他用户制作的 AI 图片,右下角会有一个「Remix」按钮能快速将相关信息带入 AI 生成器。

The Maps Express – 简单方便一键查询 Google 地图的 Chrome 扩展

By: Anonymous
9 August 2024 at 13:14

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

The Maps Express」是一款 扩展程序,支持各种常见浏览器例如 的 Safari、Chrome 上的 Edge、Chrome、Brave、Arc、Opera,安装后可在选取要查询的地点时通过鼠标右键菜单或快捷键快速查询 Maps,能保存最近查询的十条历史记录,还能将地点收藏〔支持导出、导入功能〕,非常方便!

值得一提的是 The Maps Express 有一项「 摘要」功能,通过 Google Gemini 对当前网页进行分析、快速找出可能的餐厅、咖啡店、商家或景点关键词,让用户以 Google Maps 快速查询相关结果。

No Description

进入 Chrome 程序商店页面,点击右上角「加到 Chrome」安装到浏览器后即可使用。

那么要如何进行查询呢?很简单,只要选取店家名称、右键菜单就有「通过 The Maps Express 查询」快速带入 Google Maps 查询地点,也可使用快捷键〔Ctrl+Shift+S/⌘+Shift+S〕进行操作。

如此一来就将好几个步骤的操作过程简化成一个动作。

The Maps Express 本身也具有查询功能,点击扩展按钮后会进入类似如下的窗口,最上方的查询字段就如同是 Google 地图查询功能,可以快速在地图查询指定地标,查询记录会保留近期查询的 10 条记录,这些信息只会存在用户的浏览器。

点击查询记录的地标会快速打开 Google 地图,将光标移到地标上可以「加入收藏」。

The Maps Express 收藏清单功能基本上可以算是更方便的 Google Maps 收藏功能,将地标加入收藏后还能利用下方的功能进行导出或导入〔格式为 .JSON〕。

再来介绍一下 The Maps Express 最有趣的「页面摘要,可以使用 AI 技术来摘要地点,第一次使用时需要设置一下 API 密钥,不过不会太难,只要有 Google 账户、几个步骤就能搞定。

点击 API 后会有设置说明,浅显易懂,先连接到 Google AI Studio 页面,第一次使用会有注意事项,勾选底下第一项同意使用条款,按下「Continue」继续到下一个步骤。

接着点击中间的「Create API key」建立一个 API 密钥。

按下「Create API key in new project」按钮,如下图箭头标示位置。

生成 API 密钥后按下「复制」获取这段代码,回到 The Maps Express 扩展贴上后即可进入 AI 功能。

The Maps Express 页面摘要工具是使用 AI 来摘要地点,简单来说,在网页点击「Gemini 摘要」后就会自动分析网页出现的地标,将相关结果自动加入、方便用户以 Google Maps 查询或是加入收藏。

下图就是使用 AI 页面摘要、分析上的文章后得出的相关地标,非常快速、准确!几乎把文章中列出来的所有咖啡店都呈现在列表,省去要一个一个复制查询的时间,如果平常会经常在网络上查询信息的朋友可以试试看这项功能〔只是前置需要几个设置步骤〕。

Claude AI – 根据论文生成网页互动小游戏,进行学习教育

By: Anonymous
24 June 2024 at 14:19

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

有没有可能让 Claude 将枯燥的论文 PDF、科学研究资料,重新梳理、设计转换成一个比较有意思的互动小

于是找了几篇科学研究论文,例如海龟的研究、蓝鹊的介绍资料等等,将 PDF 上传给 Claude AI,请他用「儿童故事的方式」设计成问答冒险游戏,效果还不错

基本上一分钟内就可以生成一个基本版本,如果想要调整,在 Claude AI 中来回几次问答修改,也不会超过两、三分钟的时间,然后就有一个可用的故事问答冒险游戏,通过游戏互动,可以学会某种科学或自然知识。

这个「超短时间内可完成」的效果,或许离真正商用游戏的要求还很远,但当作老师、父母给学生孩子的有趣测验,而且课堂、生活中随时需要,立即可以生成,已经绰绰有余,值得试试看。

下面就来看看我实际测试的其中一个「海龟大冒险」的真实操作过程。

首先,我在「 Claude 」 先上传一篇海龟研究的科学论文 PDF,结合下面的指令,请其根据论文设计出一个适合小学生的冒险故事互动游戏〔查找论文可用:SciSpace 论文研究 AI 助手,中文文献问答、摘要引用与报告改写〕:

///

下面是 Claude AI 第一个回答中就做出来的版本,已经有一个简洁的互动界面,可以按下开始冒险进行问答计分,但还有题目数量还不够多。

于是我进一步追问,只是简单的请他设计出更完整的游戏过程,在第二个版本中题目数量开始增加,但总分还不是 100 分。

于是我再次追问,请他根据总分是 100 分来设计题目,于是完成了第三个版本的互动网页。

这个小海龟大冒险的互动网页,可以直接在 Claude 右方的 「 Artifacts 」预览中互动,也可以成 HTML 文件,在中直接进入并游玩。

下面是几张游戏过程截图,他根据论文资料,设计出了一些有效的问题,并提供有效的选项,勾选正确选项后会计算分数。

看起来中文内容等也都能正常分析与显示。

虽然没办法直接设计出图文搭配的视觉化内容,但这样基本的文字问答互动,是可行的,而且成功率高。

完成简单的故事冒险后,也会提供评分。

当然,如果你熟悉网页设计,你可以在这个版本的基础上进一步修改。

但如果不熟悉网页设计, Claude 几分钟内就可以做出来的这个游戏化学习互动版本,也已经可以让父母跟孩子做互动,老师给学生做简单测验了。

很多时候带小孩去一些博物馆、科学馆,也常常看到这类简单但有趣的、故事性的问答互动。

而现在用 AI 可以快速的制作出各种版本,只要给他一篇论文资料,就能快速产出有故事性的问答小游戏。

Claude AI – 根据论文生成网页互动小游戏,进行学习教育

下面是我利用蓝鹊研究资料的论文,设计的另外一个故事互动小游戏。指令如下,你可以复制其结构,只要换成你的主题,试试看生成你需要的学习小游戏:

如果你是使用 Claude 版本,要注意一些限制:

所以如果你是免费版本,更适合使用一篇短文,生成互动小游戏,作为自己临时的、随手的与问答互动需求。

GeoSpy.ai – 利用 AI 轻松获取照片拍摄地点

By: Anonymous
23 June 2024 at 13:08

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

GeoSpy.ai」是一个照片地点引擎,利用 来找出照片地点,利用强大的 AI 人工,可以在用户上传照片后以 AI 预测照片拍摄位置,这对于要搜索拍摄地点提供非常好的效果,以往可能只能通过以图找图方式找到相关的照片,但这通常要有一些很容易被识别出来的主体物,但这项服务就摆脱以往的限制。

GeoSpy.ai 使用方法很简单,只要上传照片就会有结果了,但是不一定 100% 准确,结果会标示照片可能出现的城市和座标信息,我试了几张照片,有些正确有些就真的错得离谱,不过整体来说还算蛮好玩的,搜索结果也会显示 Maps 信息,可以搭配街景功能查看是不是相关地点。

AI powered geo-location. Uncover the location photos were taken from by harnessing the power of ai

进入 GeoSpy.ai 后会看到很简单的功能,将照片拖曳或是点击、选择要分析的照片上传。

GeoSpy.ai 就会分析照片拍摄地点,在结果页面列出国家、城市、座标和 Google Maps 链接,不一定 100% 正确但可作为参考。

往下滑动会有分析的来源,可以看到其他相似建筑物和地点的照片,有助于识别是否为同个地点。

很有趣的是 GeoSpy.ai 也能分析、显示的地理位置信息,虽然不一定准确还是能作为参考,点击下方按钮就可以在 Google Maps 显示相关座标位置,同时利用街景模式查看是否是同个位置。

GeoSpy.ai – 利用 AI 轻松获取照片拍摄地点

Luma AI – 免费文字生成视频实测,支持中文和图片直接生成

By: Anonymous
9 June 2024 at 20:59

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

这几天很热门的 AI 是:「Luma dream machine」,一款 AI 生成 5 秒钟动态的在线服务,并且号称有逼真的物理反应、运镜和人物动作,可类比之前 Open AI 公布的 Sora ,不过 Sora 虽然效果惊人〔还可生成一分钟视频〕,却尚未对一般用户开放。而 「Luma dream machine」 已经可以让一般用户直接试用,提供每天最多生成 10 个短片,每个月最多生成 30 个视频的免费账号额度。

如果想要试试看 AI 直接生成逼真视频效果,那么「 Luma dream machine」会是目前能够让我们马上可以体验看看的选择,在电影运镜与真实物理效果上,也确实比 Pika 之类 AI 生成动态画面的成品更突出。

Luma AI – 免费文字生成视频实测,支持中文和图片直接生成

Luma AI 上宣称的几个特色为:

而我针对上面宣传的几个特色,实际去测试后,目前的心得是:

例如下面这个雨中场景的短片〔可点击这个链接,观看短片播放〕,就可以注意到背景与路人基本上稳定,但前景的两个主角虽然有拟真的跑步动作但也有明显的错误,而指令虽然是英文但也没有 100% 符合。

下面是我实际测试的几段短片的合辑,可以看看从一般用户角度出发,生成的视频可能出现的各种成功、失败情况。

无论如何,我们都可以注册一个免费账号,试试看「https://lumalabs.ai/dream-machine」。

接着在指令列,输入对于视频场景、动作的描述。可输入中文指令,也可输入英文指令。通过「Enhance prompt」可以帮助指令最佳化,但也可能是因为这样而对于中英文指令似乎都无法 100% 掌握。

等待一小段时间,就可以根据我们的文字指令,生成 5 秒中的短视频。

在视频上点击右键,选择,就能获得 MP4 文件。

下面这段山谷溪流小船的视频〔点击链接播放〕效果就不错。

另外一个很适合「Luma dream machine」的使用方式,是把经典、真实照片中的人物变成电影短片场景。

例如我可以在指令列先上传一张狮子照片,然后辅助指令描述,让 AI 根据照片来生成。

这时候 Luma AI 会根据照片内的实景、人物生成更多的影格,最后串联出一个电影短片。

例如这个狮子走过草地的照片变成的电影短片〔点击观看〕,草地的场景被自动延伸生成,狮子也从侧面多出了正面,虽然多少有些不自然的地方,但也足够让人惊艳。

我还下载了一张第一次世界大战时的黑白照片,尝试让 AI 把照片中的军队动起来。

最后,Luma AI 自动延伸了房屋后的场景,并让军队往前前进〔点击观看视频〕,虽然,视频一开始的动作还好,但很明显的视频后段前进的步伐非常不自然〔人物动作依然比较容易出错〕。

在 Open AI 的 Sora 尚未开放前,就让我们来试试看「 Luma dream machine」,体验一下 AI 生成视频的效果吧!

整合利用 11 款 AI 工具,打造高效率个人专属工作流程

By: Anonymous
7 June 2024 at 15:24

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

众多的 AI 工具让人眼花缭乱,根据不同需求有不同的工具选择,要如何针对自己的工作流程,选择适合自己的 AI 工具呢?有时候最困难的是不要在一大堆工具里迷失,才能建立刚刚好适合自己的 AI 工具组合。

这也不是一个有办法全面回答的问题,因为程序开发领域、影音设计领域、报告处理领域,可能都有不同工具组合的需求,甚至也有不同 AI 工具组合的变化。

所以,这里只能属于自己的 AI 工具流程,应用在我日常的工作流程,以及自媒体与博客写作流程中,下面是我的工具组合,以及如何搭配在工作流程中,提供大家参考。

工具流程没有标准答案,欢迎大家在留言分享你的选择与组合。

想要快速掌握我常用的 11 个 AI 工具的朋友,可以直接参考下面的表格,并通过工具名称的链接,进入到相关的工具的介绍文章。

我如何搭配这些工具,进入我真实的工作流程中呢?下面这张流程图,可以展示出目前我的工作流程。

如果你说,为什么没有 AI 视频编辑工具?没有 AI 源码工具?没有更进阶的 AI 图像编辑工具?很简单,因为这就是我目前需要的真实工作流程,每一个人需要的工具会有不同处,也欢迎分享你的工作流程与工具。

但工作流程的逻辑可以套用在不同的工作需求上。

以上就是我目前利用这些工具的工作流程,提供大家参考,也欢迎分享你的工作流程,大家互相参照。

ChatGPT Mac 官方客户端,无需灰度等待,抢先使用 GPT-4o 和语音模式指南

By: Anonymous
23 May 2024 at 12:58

DUN.IM BLOG

DUN.IM BLOG

ChatGPT Mac 官方客户端,无需灰度等待,抢先使用 GPT-4o 和语音模式指南

OpenAI 今年 5 月 13 日宣布推出适用于 macOS 桌面程序〔来源,可以将 ChatGPT 整合到电脑上运行各种操作,不再受限于,还能通过快捷键快速进入 ChatGPT 发送信息,其中最引人注目的是语音模式,受益于 GPT-4o 模型提供更快的回应速度,达到用户和 AI 双向几乎没有延迟,犹如跟真人对话,如果有关注 OpenAI 发表会 Live Demo 应该会非常期待这个新功能。

虽然 OpenAI 表示 ChatGPT 应用程序会在发表会后先向 ChatGPT Plus 会员推出,最终用户一样可以使用该应用程序〔不过使用限制较严格〕,但从国外讨论来看目前还无法从官网找到 Mac 应用程序的链接,不过有抢先使用的攻略,有兴趣的朋友可以试试看。

当然 ChatGPT 应用程序未来还会推出 版本。

ChatGPT Mac 桌面应用程序要求必须为 macOS 14 以上,只支持 Apple Silicon 内核〔M1、M2 或 M3〕,较早之前的 Intel Mac 无法使用,我本身是 ChatGPT 免费用户,依然可以使用 Mac 应用程序。

先从以下链接获取 ChatGPTMac 版应用程序,oaistatic.com 是 OpenAI 公司用于托管静态文件的域名〔可在 ChatGPT 网站源码找到该域名〕,性是没有问题的。

下载后运行、将 ChatGPT 拖曳到应用程序资料夹即可使用。

进入 ChatGPT Mac 应用程序,第一步是先登入 OpenAI 账户,可使用 账户登入或使用电子邮件注册账号。

目前在登入时会跳出下面「即将推出」错误信息,会有「你尚无桌面版应用程序的存取权。你仍可以在 https://chatgpt.com 使用 ChatGPT」,这个错误和免费或付费用户无关,是官方仍在灰度提供给用户应用的使用

绕想要过限制使用很简单,只要重新登录应用程序,在登入后跳出错误信息前立刻以快捷键〔Command + Q〕推出应用,重新进入应用程序后就能绕过并进入主画面,强制关闭应用程序的时间点大概就是按下登入后跳出一个大窗口时,可以多试两回,时间点不会太难抓。

第一次进入 ChatGPT 应用程序后就会有一个启动工具介绍,简单来说就是快捷键组合,默认情况可以在按下「Option + Space」后快速打开 ChatGPT 聊天工具。

如此一来就能利用快速键进入聊天对话框,发送信息至 ChatGPT

如果你想将快捷键设置成其他按键组合,在 ChatGPT 应用程序设置选项可以找到键盘快捷键设置功能。

顺带一提,在写这篇文章时 ChatGPT 已有 GPT-4o 模型,从下方选项就能切换 GPT-4o 或 GPT-3.5,GPT-4o 的反应速度更快,免费用户也能使用,但问答次数有限。

ChatGPT 应用程序另一大特色就是可以抢先进入非常强大的「语音交谈」功能,点击右下角耳机图案就会看到相关介绍,可以通过语音方式和 ChatGPT 进行口语对话,不需查看屏幕,也几乎能够在口说后即时获得答复,整个对话过程会被转为文字内容,事后也能利用文字回顾和 AI 的对话记录。

进入新语音模式后会有几种不同的声音可以选择,不过语音 Sky 和好莱坞女星史嘉蕾乔韩森声音雷同引发争议,已从原先放出来的五种声音选项中移除,剩下 Ember、Cove、Breeze 和 Juniper。

通过全新的语音模式就能以口说方式和 ChatGPT AI 对话,我试着使用中文一样听得懂!搭配上 GPT-4o 回应速度真的很厉害,在很短时间就能获得回应,对话内容也会转为文字显示于聊天记录中,有兴趣想要体验一下最新技术的朋友可以去玩玩看。

ChatGPT 关联 Google 网盘功能,自动化分析处理 Excel 表格能力增强

By: Anonymous
18 May 2024 at 16:48

DUN.IM BLOG

DUN.IM BLOG

ChatGPT 早期有一个功能叫做「 Code Interpreter 」,后来改名「高级分析」,功能本质都是通过 编写 Python 程序来分析我们的数据文件,最直接的利用就是上传 Excel 电子表格后,可以利用这个功能自动做完统计、创建图表,甚至提供决策建议。

而在 推出 GPT-4o 模型后,这个功能又更进一步,现在 可以「连接」到 Google 网盘中的文件获取 Google 电子表格的数据,并针对表格中的某一段数据进行 AI 提问、新图表生成。

前阵子开放 GPT-4o 后,许多功能〔包含 GPT-4o 〕也开放给用户试用〔有使用次数限制〕,我也看到有免费用户可以利用 GPT-4o 上传 Excel,制作简单的统计图表。〔ChatGPT Code Interpreter 八种应用:分析 Excel、制作图表与动画

现在,Plus 会员用户〔ChatGPT Plus、Team 和 Enterprise 用户〕也迎来了一个更强大的、可直接互动的 Excel、Google 电子表格 AI 分析统计功能,配合 GPT-4o,付费用户应该这几天就陆续收到更新。 在改进的「互动式」数据分析功能中,有下面这些特色:

如果你的付费 ChatGPT 账户获得了新功能,会看到提问中原本可以上传文件的按钮,现在可以直接关联 Google Drive、OneDrive 中的文件。 只要授权 Google Drive 或 OneDrive,就能直接获取网盘上的电子表格或文件,带入 ChatGPT 进行分析。 ChatGPT 关联 Google 网盘功能,自动化分析处理 Excel 表格能力增强

之前在 ChatGPT 上传 Excel 进行分析有几个难题,其中一个是 ChatGPT 在计算、分析完成,我们只能看结果,不能方便的「对照」原始数据参考。

而现在,只要电子表格的格式支持〔有些比较复杂的表格会无法正常显示〕,上传文件〔或连接 Google 电子表格〕后,可以在 ChatGPT 中直接「载入」完整表格内容,还可展开表格进行讨论。 把表格展开,就会变成左边是电子表格,右边是 ChatGPT 问答,我们能够一边对照电子表格,一边进行提问。〔很像其他第三方的 AI 问答的设计,例如: ChatDoc

ChatGPT Plus 之前分析 Excel 时还有一个问题,就是他针对整份文件做分析,如果我想单独分析其中一部分数据,就要在提问中做各种描述与限制,让 AI 理解我要处理哪一部分的数据内容。

现在这个问题就迎刃而解。 如图我可以在 ChatGPT 的电子表格浏览窗口中,先点击需要分析的字段,然后在右方提问下指令:「统计每个人的支出总金额」。让 AI 明确知道我想针对哪几个字段做整理或分析。

明确的指定字段, ChatGPT 的分析会更准确地完成总金额的统计。 而在分析过程中,发现 ChatGPT 现在喜欢生成新的电子表格,通过预览提供统计分析后的结果给我:

新版数据分析功能还解决了一个问题:中文图表。 之前 ChatGPT 生成的图表无法显示中文〔除非你先提供他字型文件〕。

不过,现在我们不只可以利用 ChatGPT 分析中文的电子表格文件,也可以在浏览窗口选择需要的范围,制作中文统计图表。 生成的电子表格图表支持显示中文〔如果切换到传统图表,中文默认一样是无法显示的空格〕。 还可以把图表下载成 PNG 图片,会正常显示中文,默认是透明底图。

结合这些新功能,ChatGPT 的数据分析不只可以帮我们画统计图、做决策建议,还可以帮我们「处理数据表格」。

如图这份旅行记账表中,我先在 ChatGPT 的电子表格浏览窗口选择需要的字段,请 ChatGPT 自动帮我:「根据最新汇率做货币转换」于是 ChatGPT 帮我在表格上加了一栏新的字段,然后直接根据原本的美金、日币完成汇率换算,填写最新金额。 虽然这不是直接改在原始的云端电子表格上,但我可以下载这份新的电子表格替换。

我先让 ChatGPT 帮我生成一个模拟的产品销售表格,ChatGPT 用表格方式直接生成的数据(没有利用 Python 的编程方式),在累计销售数量与金额上有问题。 于是我把 Excel 文件上传到 ChatGPT,展开数据内容,选择有问题的字段,请 ChatGPT 用计算公式重新在电子表格中算出正确的数字。 ChatGPT 就会自动写 Python 来做数据统计,这次确认完成后,ChatGPT 添加了新的一列,把正确数据跟错误数据进行对比展示。 现在我请 ChatGPT 把正确数据替换到原始表格中,ChatGPT 经过了一阵数据运算,最后提供给我可下载的电子表格文件链接。

下图就是我下载电子表格后进入的结果,除了中文有正常显示外,原本的累计销售数量字段已经被替换成正确版本了。

最后,我把 ChatGPT 提供给我的正确 Excel 报表,再次上传 ChatGPT,请他做统计图,并提供给我决策建议。

如果你拥有 ChatGPT Plus 版本,推荐试试这个最新功能。

Lessons I learned after completing the Google UX Design Professional Certificate

The image is a presentation slide with a dark green background and white text. The text reads “Lessons I learned after completing the Google UX Design Professional Certificate.” The logo “LRD.IM” is also displayed.

Recently, I heard that Coursera has a UX design course developed by Google’s design team. This course covers the entire design process and teaches us how to present our portfolio, prepare interviews, and the like.

It is necessary to enroll in this course even though it is designed primarily for beginners and fresh graduates. It would enhance my English skills on one hand, and deepen my understanding of Western design practices and culture on the other. Since the term “UX design” is called out by Western designers and I am eager to compare Western design cultures with those I’ve experienced in China.

So I enrolled in this online course, trying to spare my time on it. Such as during lunch and dinner breaks on weekdays, or parts of the weekend. I completed the whole certificate within two months. And now I’d like to write down what I learned from this course:

The image shows a dark green presentation slide with four text boxes labeled “New concepts,” “Listening and Reading Proficiency,” “Accessibility and equity,” and “Guidance for Job Hunting.” The text is in white and each box has a rounded edge.
  1. Introducing concepts I had never heard of. Despite my 5+ yoe in a wide range of companies, from startups to large corporations in China, those new concepts opened up a lot of room for me to explore.
  2. Enhancing my listening and reading skills. The course covers plenty of video and reading materials that include industry jargon that translators cannot provide. Moreover, certain phrases and sentence structures are repeatedly used throughout the course. I think my reading skills and speed are slightly improved.
  3. Pointing out concepts like accessibility and equity early throughout the course. I used to think only seasoned designers or well-developed products consider these aspects, however, they are mentioned early on and repeatedly. These concepts resonated with me and will truly influence my work.
  4. Elaborating comprehensive and detailed guidance for designers to prepare their portfolios, resumes, and interviews. They not only tell us what content should be included in our portfolios, but also how to prepare for interviews at different stages. I resonated with these instructions as well, since I did think those details over when looking for a new job.

Table of content

This is a wide banner-like image with a dark green background and the words “New concepts” in large, white text centered across the slide.

New concepts

I have consistently tried to think about and expand design boundaries through different aspects, which requires a breadth of knowledge. Here, I will share several new concepts along with my personal understanding.

Affinity diagram

This is a method of synthesizing that organizes data into groups with common themes or relationships. It can be used in different stages of the design process, such as during brainstorming or after collecting users feedback. The example below focuses on the latter.

After collecting a batch of user feedback, the design team condense each piece of feedback into a single sentence and write it on sticky notes. Then we post them up on a whiteboard or digital tools like Figma. Then the design team look for sticky notes that reference similar ideas, issues, or functionality and collaboratively organizes them into clusters representing different themes.

When I first learned about this approach in the course, I realized that this approach is similar to another method called “Card sorting” that was included in an article I translated earlier named [English to Chinese Translation] How we rebuilt Shopify’s developer docs. Both methods involve clustering sticky notes, naming these groups and summarizing the themes or relationships.

However, card sorting is implemented by external participants and aims to uncover users’ mental models to improve information architecture; Whereas affinity diagramming organizes a large amount of raw data to show the team which problems users are most concerned about and consider high priority.

* This concept is mentioned in Module 3 of Course 4 (Conduct UX Research and Test Early Concepts — Module 3 — Gather, organize, and reflect on data)

Digital literacy

This concept refers to an individual’s ability to gather, communicate, and create content using digital products and the internet. For example, senior adults or those living in areas with poor internet infrastructure may find it difficult to understand interfaces and functionalities, they are considered to have lower digital literacy.

In contrast, young people, especially those working in the information technology industries, are typically familiar with new software and concepts, and can quickly adapt to them.

This course does not dig deeply into this concept, rather, it emphasizes the importance of understanding our users. If our product targets a broad range of users, it is good to consider the needs of users with lower digital literacy. Moreover, this factor should also be considered when recruiting participants for usability tests.

* This concept is mentioned in Module 2 of Course 1 (Foundations of User Experience (UX) Design — Module 2 — Get to know the user)

Deceptive pattern

This concept refers to a group of UX methods that trick users into doing or buying something they wouldn’t otherwise have done or bought.

In the course, instructors clearly point out that this is an unethical and not a good practice. Businesses may lose their clients’ respect and trust once clients realize that they have fallen into deceptive patterns. I will share a few interesting examples that the course provided.

  1. Confirmshaming: Making users feel ashamed of their decision. For example, a subscribe button on a news website usually reads “Subscribe now / No thanks”. BBut if the service provider wants to manipulate readers’ emotions, the text might be changed to: “Subscribe now / No, I don’t care about things around me.”
  2. Urgency: Pushing users to make a decision within a limited time. For example, an e-commerce website might give you a coupon that is only available for 24 hours, prompting you to purchase items without a thoughtful consideration. The course doesn’t judge these marketing strategies or promotions; instead, it suggests that we should avoid putting pressure on users. As designers, we should try our best to balance business promotions and avoid manipulating users’ emotions.
  3. Scarcity: Making users very aware of the limited number of items. For example, a popup or attractive advertisement stating “Only 5 items left in stock.” The course suggests that designers should concentrate on helping users to understand products better, rather than using designs to encourage impulsive buying.

It is really interesting that these deceptive patterns are so common in the Chinese e-commerce industry that it might seem unusual if those strategies were to disappear.

This seems to reflect cultural differences between China and the West. In China, core team members, such as designers, product managers, and operators, collaboratively discuss how to induce and prompt users to make a hasty decision. Also, we regularly hold reflections to discuss and share insights on how to deeply incite users’ motivation.

In 2018, I landed my first job as a UI designer at an e-commerce company. One of my main tasks is designing promotions, such as “claim your vouchers”, “flash sales ending in N hours”, and creating illustrations of red pockets and flying coins, and the like. I didn’t really like these approaches at that time, so I eventually turned to the B2B and SaaS industry, focusing more on UX design.

Although I am not fond of these types of designs, these seem to really help companies grow and generate income. We could stabilize our employment only if our company were earning profits. Perhaps that is an inextricable cycle: obviously, deceptive patterns are unethical and bad as they are inducing and annoying our users, but we must continuously implement these approaches and think about how to make them more effective.

* This concept is mentioned in Module 3 of Course 3 (Build Wireframes and Low-Fidelity Prototypes — Module 3 — Understand ethical and inclusive design)

Biases

The course thoroughly explains a concept called “implicit bias”. It refers to the collection of attitudes and stereotypes associated, influencing our understanding of and decisions for a specific group of people.

For example, imagine you’re designing an app to help parents buy childcare. To personalize your onboarding process, you start by displaying bold text saying, “Welcome, moms. We’re here to help you…”

This is an example of implicit bias, since it excludes every other type of caregiver, like grandparents, guardians, dads and others.

In addition, here are some interesting biases the course introduced:

  1. Confirmation bias. Refers to the tendency to find evidence that supports people’s assumptions when gathering and analyzing information.
  2. Friendliness bias. Refers to the tendency to give more desirable answers or positive comments in order to please interviewers. This usually occurs in usability tests, where participants may not share their honest feedback because they are afraid that real answers or negative comments might offend interviewers and be considered unfriendly.
  3. False-consensus bias. Refers to the tendency that people tend to believe that their personal views or behaviors are more widely accepted than they actually are, and consider others’ opinions to be minor or marginal. For example, an optimist might think that most people around the world are optimistic; or designers can easily understand iconographies and illustrations they created, they might assume other users might easily to understand too.

I was shocked when I was learning this part. I strongly resonated with these biases which I had never perceived before. After all, the course lets us be aware of these biases and provides approaches to help us avoid falling into these pitfalls.

* This concept is mentioned in Module 3 of Course 3 (Build Wireframes and Low-Fidelity Prototypes — Module 3 — Understand ethical and inclusive design)

I listed some concepts above that I had barely encountered in my workspace. Becoming a UX designer appears to require a broad range of knowledge, such as design, the humanities, psychology, and sociology. I am now interested in psychology after completing this course.

This is a wide banner-like image with a dark green background and the words “Listening and Reading Proficiency” in large, white text centered across the slide.

Listening and Reading Proficiency

There are plenty of listening and reading materials involved in the course. Typically, each video lesson is accompanied by an article. If there are additional knowledge points, a single video might be accompanied by two or three articles.

Most instructors in the course speak with American accents. They also speak slowly and clearly, which makes me comfortable and usually allows me to understand without opening closed caption. Sometimes, I need to rewind a few seconds when they are speaking long sentences with many clauses or introducing new concepts, and I will open closed captions if I am still confused.

It is worth pointing out that the course contains lots of industry jargon, and I resonated with this because I used similar approaches or processes in my workspace by using Chinese. As a learner, I created a spreadsheet to record expressions that might be useful, such as:

  1. Above the fold, the content on a web page that doesn’t require scrolling to experience;
  2. Deliverable, final products like mockups or documents that can be handed over to clients or developers to bring designs to life.
  3. Digital real estate, space within the digital interface where designers can arrange visual elements;
  4. Firm parameters, refer to rigid design boundaries or limitations like time, project resources, and budget.

I think it is valuable to collect this industry jargon because it is authentically expressed, which can’t be translated by common translation tools. This will be helpful for me to read design articles and write blogs in English.

This is a wide banner-like image with a dark green background and the words “Accessibility and Equity” in large, white text centered across the slide.

Accessibility and Equity

Accessibility

The course introduces several assistive technologies, such as color modification, voice control, switch devices, and screen readers, which can help people with different types of disabilities to use our products easily.

Instructors also point out that even people who don’t have disabilities, or who do not perceive themselves as having disabilities might benefit from these assistive technologies. The course suggests that we think these factors over throughout the entire design process. For instance:

  1. Supporting color modification. Features that increase the contrast of colors on a screen, like high-contrast mode or dark mode;
  2. Supporting voice control. Allows users to navigate and interact with the elements on their devices using only their voice. They also mention a concept called “Voice User Interface (VUI)”;
  3. Supporting switch devices. This is a one-button device that functions as an alternative to conventional input methods such as the keyboard, mouse, and touch, allowing users to complete common tasks like browsing webpages and typing text;
  4. Supporting screen readers. Allows users with vision impairment to perceive the content. The course suggests that we write alternative text to images, add appropriate aria labels to interactive elements like buttons, and consider the focus order of elements.

Here is a website that demonstrates the color modification feature: HubSpot.com

On the top navigation of this website, it provides a switch for us to toggle a high-contrast mode. Moreover, it also supports reduced motion effects — if I enable the reduced motion setting on my device, this website will minimize motion effects as much as possible.

Equity

The course also introduces a concept called “equity-focused design.”

Instructors clearly define the difference between “equality” and “equity”:

  1. Equality: Providing the same amount of opportunity and support, everyone receives the same thing;
  2. Equity: Providing different amount of opportunity and support according to individual circumstances, ensuring everyone can achieve the same outcomes.

The course also points out that equity-focused design means considering all races, genders, and abilities, especially focusing on groups that have been historically underrepresented or ignored when building products.

They use a survey question as an example: when gathering participants’ demographic information like gender, it is not enough to provide three options: “Male”, “Female” and “Other”. To make our design more inclusive and equitable, we should offer additional choices, including “Male”, “Female”, “Gender-nonconforming”, “nonbinary” and a blank field. The latter provides non-conventional gender options, uplifting those who might be marginalized in conventional surveys. This approach also aims to balance the opportunities for all groups to express themselves, ensuring their voices are treated fairly and heard.

In this lesson, I clearly faced a culture gap from the West. In fact, I don’t really like to dig into this concept deeply, mainly because I can’t determine whether this approach is right. Sometimes I think it is unnecessarily complicated, but at other times, I recognize that there are people with non-traditional genders around us who may truly be eager to be treated fairly.

When I was learning this lesson, I realized that there was an opportunity to incorporate accessibility features into the project I was recently working on. I will write a new post if this project lands successfully.

* This concept is mentioned in Module 2 of Course 1 (Foundations of User Experience (UX) Design — Module 2 — Get to know the user)

This is a wide banner-like image with a dark green background and the words “Guidance for Job Hunting” in large, white text centered across the slide.

Guidance for Job Hunting

In the final course, instructors teach us how to lay out a portfolio and what content should be included. They also inform us the process of interviews and how to thoroughly prepare for interviews.

The guidance they mentioned is for the Western workplace, which may not seamlessly fit in the Chinese workplace. For example:

  1. They point out that designers should have a personal website and case studies regularly. However, Chinese designers prefer to publish their case studies on public platforms like ZCOOL and UI.CN;
  2. They also teach us how to build our digital presence and network through LinkedIn. However, these approaches are not common in the Chinese job market, where the most popular methods are directly submitting resumes and getting recommendations through acquaintances.
  3. They inform us how to handle panel interviews. I have interviewed with a wide range of companies, from startups to corporations, and never encountered panel interviews, which means that the panel interview is not popular in this industry.

I was deeply impressed by how they elaborated on the preparation and important considerations during the interview process. For example:

  1. Research the main business of the company you interview for beforehand, and clearly understand why you are a good fit for the company;
  2. Prepare answers to common interview questions beforehand, such as a personal introduction, your strengths, and descriptions of your case studies;
  3. We should learn how to answer difficult questions using the STAR method, and prepare well before starting an interview;
  4. Adapt the focus and questions according to the interviewer’s role to show you are a professional;
  5. During the interview process, you might be asked to complete a task. Therefore, we should practice the ability to think aloud and clearly define questions, since interviewers might pose vague questions on purpose.

I resonated with the approaches and tricks mentioned in the course that I had previously used, which gave me a strong feeling that I was on the right track.

Additionally, the course also provides detailed instructions on how to pursue freelance design work. For instance:

  1. Clearly identify your target audience and understand why they should choose your service;
  2. Know your competitors, identifying what they can’t provide but you can;
  3. Promote your service and build word-of-mouth by attending online and in-person events, and getting recommended through acquaintances;
  4. Calculate the business expenses, set fair prices for your services, and make financial projections — estimate what your finances will look like in the first month, the first 6 months, and the first year.

* This concept is mentioned in Module 3 of Course 7 (Design a User Experience for Social Good & Prepare for Jobs — Module 3)

To sum it up

Well, above are lessons I’ve learned from the Google UX Design Professional Certificate on Coursera over the past two months. I think that this is an interesting course, although not all content can be applied in my daily work, I’ve also learned the thinking processes and workplace cultures of designers in another part of the world.

I strongly recommend designers reading this post consider to enrolling in the Google UX Design Professional Certificate, by doing this, you might probably gain new insights. The course costs $49 monthly, which is not expensive. It is likely to complete the entire course over two or three months if you have a full-time job.

Things worked as I expected, and I will start my next project in the second half of the year.


Lessons I learned after completing the Google UX Design Professional Certificate was originally published in Bootcamp on Medium, where people are continuing the conversation by highlighting and responding to this story.

完成了 Google UX Design Professional Certificate 后的收获

最近了解到 Coursera 这个平台里面有一个 Google 设计团队出品的的 UX 设计课程,课程里会介绍完整的 UX 设计过程,并且教我们怎么写作品集和准备面试之类的。

即便这是一门面向初学者或应届生的课程,我觉得也有必要参加这个课程看看。一方面能锻炼下自己刚闭关修炼出来的的英语能力,更重要的是还能了解下西方职场的设计流程和设计文化(毕竟 “UX 设计” 这个概念是西方人创造出来的),我一直想对比看看老外的设计文化和自己这几年在国内职场的感受有没有什么异同。

于是就报名参加了这个网课,都是抽时间来学习的。比如工作日吃午饭和吃晚饭那段时间,或者周末的部份时间等等。总共花了 2 个月完成了所有课程。写这篇文章的目的也是记录下结课之后的感受:

图片中央展示四个方框,每个方框内部都用白色中文文字标识了不同的概念:“新的概念”,“听力、阅读能力”,“无障碍和公平”,“求职指引”。
  1. 里面提到的一些概念我没有听说过。即便我工作了 5 年,在小公司和大集团都呆过,里面有些概念仍然给了我很大的探索空间;
  2. 英文听力、阅读能力锻炼。里面有大量的视频和阅读材料,用词应该就是比较地道的行业术语,这些是翻译软件不能提供的。而且里面的材料都会不断重复一些短语或句型。我觉得我的阅读能力和速度是有所提升的;
  3. “无障碍” 和 “公平” 的概念被很早提及并贯穿全课程。我一直以为只有比较成熟的设计师或产品才会考虑到这些,但这些概念在课程中很早就被提及了,而且是反复提及。这触动了我,并真正地影响到了我的工作;
  4. 提供了全面且周到的指引帮助设计师准备作品集/简历/面试。这方面内容他们写得很细,告诉我们作品集里应该包含哪些,针对不同面试阶段所做的准备等。里面写到的东西我很有共鸣,因为我在找工作的时候也会去思考这些细节。
深绿色背景的宽幅 Banner,中间白色大字“新的概念”。

新的概念

工作这几年,我一直会尝试从更多不同的维度来思考和扩展原有的设计边界,做到这点需要有比较宽广的知识面。这里分享下我在课程里了解到的一些新概念,以及我的理解。

Affinity diagram 亲和图

这是一种组织数据的方法。从不同的反馈和数据中整理出他们的相似之处和关系。亲和图可以用在不同的设计阶段,比如在头脑风暴中,或者收集到用户反馈后,这里以后者为例子。

具体做法是在收集好一批用户反馈后,将每一个原始反馈浓缩成一句话,写在便利贴上并将它们都贴在白板上(当然,也可以用在线工具如 Figma 完成)。然后团队成员一起看这些内容,将提到相似概念/问题/需求的便利贴放在一起,并给这一堆便利贴起个名字概括他们的共同点。

根据分组结果,我们可以总结出一些趋势、痛点,了解到我们需要解决的问题也为后续的洞察报告提供了依据。

最开始在课程里了解到这个方法的时候,我突然想起来这与我两年前翻译的文章:【译文】我们如何重建 Shopify 的开发者文档 里提到的 “卡片分类法” 很像,都是将相似的卡片堆成一组,给该组命名,然后得出结论。

但卡片分类法里面 “分类” 的动作是由团队外部的人参与的,并且用于揭示用户的心智模型并为解决网站信息架构问题提供指引;而亲和图则是通过组织大量原始数据,告诉团队有哪些问题是用户关心的,亟待解决的问题。

*该概念在第四门课程的第三个模块中提及 (Conduct UX Research and Test Early Concepts — Module 3 — Gather, organize, and reflect on data)

Digital literacy 数字素养

这个概念大意是指人们对于数字产品、网络来获取信息、交流和创造内容的能力。比如一些年长的人、生活在网络没那么普及的环境中的人,他们对于使用电子设备和互联网就会有些障碍,理解功能和界面也会感到困难。而年轻人,特别是互联网行业的从业者则对这些就比较熟悉,各种新软件、新概念都能很快上手。

课程中对这个概念并没有展开太多,主要是提醒我们作为设计师,要了解到我们的用户是谁。如果是一个面向较宽广的用户群体,最好考虑也到对电子设备和互联网没那么熟悉的人。包括在做可用性测试时,招募的参与者最好也考虑到这个因素。

*该概念在第一门课程的第二个模块中提及 (Foundations of User Experience (UX) Design — Module 2 — Get to know the user)

Deceptive pattern 欺诈性设计模式

指的是一种设计方法:通过设计去诱导用户去做一些本来不想做的事情,或购买本来不想买的东西。

在课程中,明确指出这是不道德的事情,不是好的做法。一旦用户认为自己陷入了欺诈性设计模式当中,公司将会失去用户的尊重和信任。课程中列举了一些例子,我可以拿几个有意思的的分享出来。

  1. Confirmshaming (羞辱性确认): 让用户对自己作出的决定感到愧疚。比如一个新闻网站的订阅按钮,文案里原本可以写 “立即订阅 / 不了,谢谢”,但为了操纵用户的情绪,文案写上 “立即订阅 / 不了,我不关心身边的事情”。
  2. Urgency (急迫性): 引诱用户在 “有限的时间内” 作出决定。比如电商网站里给你送了一张仅限当天使用的优惠券,促使你赶紧付钱消费。课程里指出并重点不是限时促销这件事情,而是在这过程中给用户增加了消费的压力。作为设计师,我们应该在曝光公司的促销活动的情况下,尽量避免操纵用户情绪。
  3. Scarcity (稀缺性): 使用户感受到这件商品非常稀缺。比如一个弹窗推送或明显的广告写着 “商品仅剩 5 件”。课程中建议设计师聚焦于怎么帮助用户更好地了解该产品,而不是利用设计促使他们进行冲动型消费。

有意思的是这几种 “欺诈性设计模式” 在咱们国内电商环境中太常见了,以至于没有这些反而感觉不正常。

看起来这是国内外文化的差异的一种体现。在国内的环境中丝毫不会避讳这些东西,反而设计、产品、运营都会一起构思怎么做才能更好地 “诱导” 用户做某些事情。甚至还会在内部复盘、分享,看看过程中有哪些地方可以继续改进。

2018 年,我的第一份工作是在面向消费者的电商公司里做 UI 设计师,经常要在界面上做出 “领取优惠券”、“秒杀价剩余 N 小时” 和礼包、金币满天飞的插画等设计,正正是因为自己不喜欢做这种设计,之后才转向了更注重 UX设计的做 B 端、SaaS 行业。

虽然自己本身是一点都不喜欢这种设计方式,但这似乎能实打实地帮助到公司获取收入。公司有一份好的收入,大家的工作才能稳定。似乎陷入了一个无法走出的循环 —— 明知道这种设计方式是不对的,是有诱导性质且给用户带来烦扰的,但又不得不继续做,并想办法做得更好。

*该概念在第三门课程的第三个模块中提及 (Build Wireframes and Low-Fidelity Prototypes — Module 3 — Understand ethical and inclusive design)

Biases 偏见

课程里着重介绍了一个叫做 “隐性偏见 (implicit bias)” 的概念。“隐性偏见” 指的是我们潜意识里有一种态度或偏见,影响了我们对某一群体的理解或决定。

比如一个餐厅老板收到两份简历,求职者 A 是一个二十多岁的毕业生,没有餐饮行业经验;而求职者 B 则是一个 50 多岁的人,有 30 多年餐饮行业经验。但最终老板选择了求职者 A,因为他认为年轻人的体力更好,做事情会比 50 多岁的人要快。这就是一个 “隐性偏见” 的例子。

课程中还介绍了其他几种偏见,这里也分享一些我觉得有意思的:

  1. Confirmation bias (确认偏见)。指的是人们在收集信息和分析信息的过程中,倾向于寻找支持自己想法的证据。甚至尝试以更贴近自己预想结果的方式来解释数据;
  2. Friendliness bias (友善偏见)。指的是为了令其他人满意,受访者更倾向于做出访问者希望得到的答案或者做出积极评价。通常发生在可用性测试当中,受访者觉得说出真实答案或负面情绪的答案会被认为冒犯和不友善,不将自己的真正想法说出来;
  3. False-consensus bias (错误共识偏见)。指的是人们倾向于认为自己的观点或行为比实际情况更广泛地被认同,并且觉得其他人的观点或意见是被少数人接受的。比如一个人很乐观主义,就会认为世界上大多数人都是乐观主义;设计师能够很轻松地理解自己设计出来的图标、图像含义,就会认为其他用户也能轻易理解。

学到这里的时候我似乎被当头一棒,我似乎对里面提到的不少偏见都有共鸣,并且自己从来没意识到有这么一回事。总的来说,课程希望我们认识这些偏见,然后提供方法教我们怎么避免这些偏见。

以上列举了几个我在课程里了解到在日常工作中不怎么接触到的概念。可以看出来做一名 UX 设计师似乎得有宽广的知识背景,比如设计、人文、心理、社会学等等。通过这门课程,我觉得我对心理学产生了一些兴趣。

* 该概念在第三门课程的第三个模块中提及 (Build Wireframes and Low-Fidelity Prototypes — Module 3 — Understand ethical and inclusive design)

深绿色背景的宽幅 Banner,中间白色大字”听力、阅读能力”。

听力、阅读能力

课程里面的听力和阅读材料实在是太多了,基本上是一节视频课程,搭配一篇的阅读,如果有其他可以衍生出来的知识点,甚至会多篇阅读。

里面绝大多数老师都是美式口音,语速有刻意地减慢,我听着很舒适,绝大部分情况下不用看字幕。只是到了一些包含大量从句的长句子或新概念时可能会需要倒退一下多听几遍,再听不懂就会开字幕来看。

值得一提的是,里面有大量的行业术语,有很多我在国内日常工作中的用到的设计方法/流程等,这里都有出现到。作为学习者,我自己有做一个表格,把值得记录下来的表达方式都记下来,比如:

  1. Above the fold 指的是在首屏(不用滚动)就能看到的内容;
  2. Deliverable 设计的交付物;
  3. Digital real estate 大概是指视窗范围或可供设计师发挥的空间尺寸;
  4. Firm parameters 指一些设计过程中的限制,如时间,项目资源和预算等…

我觉得积累这种行业词汇有一个宝贵之处是,它的表达很地道,用通用的翻译软件是做不到的。这对我阅读设计经验文章,或者自己用英文写设计博客很有帮助。

深绿色背景的宽幅 Banner,中间白色大字”无障碍和公平”。

无障碍和公平

无障碍

课程中介绍了几种辅助技术 (Assistive Technology),如颜色模式、语音控制、Switch 设备和屏幕阅读器等帮助身体有障碍的人们更好地使用我们的产品。课程强调即便是健全人,或者认为自己是健全人的群体,也有可能会用到这些辅助技术。课程建议我们在设计的全流程都考虑这些因素。具体的做法,比如:

  1. 支持多种色彩模式。如亮色/暗色模式,支持增强对比度和减弱透明度等效果;
  2. 提供语音控制支持。允许用户通过声音来导航和与界面上的元素交互。另外,里面提到有个概念叫做 “VUI”;
  3. 支持一种叫做 “Switch” 的设备。这是一种代替键盘、鼠标或手指等常见输入方式的设备,通常只有一个按钮。用户就是通过一个按钮来实现浏览网页、输入文字等日常操作的;
  4. 支持屏幕阅读器。确保人们可以在看不见屏幕的情况下也能获取到主要内容。课程建议我们给图片添加替代文字,或者给按钮等控件加上合适的标签,并且留意元素的聚焦顺序。

这里分享一个在这方面有所体现的网站:HubSpot.com

这个网站提供了强对比的色彩模式,在顶部导航栏里有开关可以切换。同时也支持减弱动画的效果,如果我的设备在系统设置里设置了减弱动画,这个网站的大部份动效都会被移除。

公平

课程中介绍了一个概念叫做 “以公平为中心的设计” (equity-focused design),并厘清了 “平等” 和 “公平” 这两个概念:

  • 平等是每个人都有相同的机会和支持,即每个人都拿到了同样的东西;
  • 公平是根据每个人不同的情况而提供不同的机会和支持,最终大家都能有相同的结果。

课程中指明,面向 “公平” 的设计,需要考虑到所有种族、性别、能力,特别是一些曾经被忽视和排除的群体

他们以一个问卷问题作为例子:在收集受试者的性别信息时,如果只提供三个选项:“男”、“女” 和 “其他” 是不够的。如果想要更包容和公平我们应该提供:“男”、“女”、“非常规性别”、“非二元性别” 和 “请填写”。后者通过提供非传统性别选项和自定义选项,关注到了那些可能在传统问卷调查中被边缘化的群体。试图平衡不同群体间的表达机会,确保他们的声音被平等对待和听见。

从这门课程里我正面感受到了来自西方文化差异。实际上我不是很想太深入学这里面的门道,主要是我没法判断他们这种做法到底是对还是错,我有时候会认为这是在闲着没事干,有时候又认为我们身边确实也会有这种非传统性别的人,他们或许真的需要被 “平等对待”。

学到这里时,刚好公司的工作中有机会可以让我在设计中加入对无障碍的考量,我便抓紧机会在公司实施了一番。如果我的计划落地成功,我也会在这里分享出来的。

*该概念在第一门课程的第二个模块中提及 (Foundations of User Experience (UX) Design — Module 2 — Get to know the user)

深绿色背景的宽幅 Banner,中间白色大字”求职指引”。

求职指引

最后一课老师教授了我们怎么做作品集、一份作品集里要包含哪些东西、面试的流程、怎么准备面试等。

课程里讲述的都是西方世界的职场规则,有些未必在国内职场适用,比如:

  1. 比如他会提到设计师应该有一个自己的个人网站,里面需要及时更新自己的作品。但在国内大家似乎更喜欢将作品传上平台提高曝光度,比如站酷UI 中国
  2. 他会教我们怎么建立自己在互联网上的形象并通过 LinkedIn 去做 Networking。但似乎在国内的职场上没有这一步,身边的人多数都是直接在网站上投简历,或者有少量的人是熟人内推进去的;
  3. 里面有教我们怎么应对小组面试。我这几年在国内面试了大大小小公司,没试过有小组面试的情况,说明小组面试在我们的行业内不是特别流行。

印象比较深的是在课程里他提到了对于面试的准备,以及面试过程中的注意事项。课程里说得真的挺细的,比如:

  1. 面试前要了解好公司所做的业务,清楚自己为什么适合去那家公司;
  2. 提前准备好一些常用的问题,比如个人介绍、个人优势以及介绍设计案例等;
  3. 学会用 STAR 法则回答困难的问题,在面试前提前练习好;
  4. 根据面试官身份来改变面试的侧重点和要提问的问题,需要体现出自身的专业性;
  5. 面试时可能会有现场测试题。所以我们要练习好将自己的想法说出来的能力,也要有界定清楚问题的能力(因为有时候面试官特意给出很模糊的问题)

有时候刚看看到课程里提到的方法和技巧,正好是我有用过的,我会感到有共鸣,觉得自己的方向是对的。

另外,课程里还有教我们如果想走自由职业,要遵循怎么样的步骤。写得还比较详细,我这里列举几点:

  1. 明确目标用户是哪些群体,他们为什么要选择自己的服务;
  2. 了解自己的竞争对手,看看有没有东西是他们提供不了而自己是可以的;
  3. 通过参加线上推广、线下活动、熟人推荐等方式推销自己的服务和建立口碑;
  4. 计算开支,合理定价,并且制定财务计划 —— 构思第一个月、第六个月或第一年自己的财物状况是怎样的。

*该内容在第七门课程的第三个模块中提及 (Design a User Experience for Social Good & Prepare for Jobs — Module 3)

总结

以上就是我这两个月以来在 Coursera 平台里学习 Google UX 课程的一些收获。我觉得还是挺有意思的一门课程,即便不是所有内容都能在日常工作中应用,但至少知道在地球里的另一个世界,那边的设计师他们的思考习惯、职场文化是怎样的。

我很推荐看到这里的设计师们去这门课程 Google UX Design Professional Certificate 里瞧瞧,相信大部份人都是有收获的。收费不是很贵,是按月来收费。每个月 49 美刀,工作党每天抽点时间来看,一般 2~3 个月都能完成了。

事情按照预期发展,五一假期结束了这门课程,下半年又可以开始捣鼓另一件事情了。

如何在Gmail中添加其它邮箱来收发邮件?

By: fengooge
11 June 2023 at 19:27
最近在 Gmail 的邮箱设置中,通过「用这个地址发送邮件」添加第三方邮箱账号,总是会出现错误而无法添加。最终折腾了好多次才发现问题的解决办法,现分享出来供大家参考。步骤及说明如下:1、通过「用这个地址发送邮件」无法成功添加时,可通过下图所示的「查收其他账号的邮件」功能添加我反复尝试通过「用这个地址发送邮件」入口添加,结果均告失败,最终通过「查收其他账号的邮件」添加成功。2、可选择通过「Gmaillify」功能进行账号关联将自己的第三方账号与 Gmail 关联后,就可以方便快捷地在 Gmail 中查收其它平台的邮件,而且可以直接在 Gmail 中用关联的第三方邮箱账号发送邮件,效果和直接在第三方平台发送邮件一样(收件人看到的发件人不是 Gmail 账号,而是关联的第三方账号)。需要注意的是,一个 Gmail 账号只能够与一个第三方账号进行「Gmaillify」方式的关联,

如何在谷歌电子表格(Google Sheets)中生成日期选择器

By: fengooge
30 December 2022 at 17:25
在使用谷歌电子表格(Google spreadsheet,Google Sheets)时,有时候需要在单元格中输入日期,如果输入法本身没有快捷输入日期的功能,通过手动输入则会非常繁琐,有没有办法让单元格生成日期选择器,通过点选操作就可以快速输入日期呢?方法是有的,按照下面的操作就可以完成。1、选中某个(或多个)需要设置日期选择器的单元格,右键选择【数据(data)】——【数据验证(data validation)】;2、选择【添加规则(Add rule)】,完成以下几个设置:2-1、在【应用范围(Apply to range)】一栏修改生效的表格范围,例如 B1 到 B13 之间的表格则写为:B1:B13(英文输入);2-2、在【条件(Criteria)】一栏选择【是有效日期(is valid date)】,点击完成。双击在上述设置生效范围内的单元格,即会出现日期选择器(如下图所示),

❌
❌