Normal view

There are new articles available, click to refresh the page.
Before yesterdayMain stream

OpenAI 发布最强推理模型 o1!打破 AI 瓶颈开启新时代,GPT-5 可能永远不会来了

By: Anonymous
7 September 2024 at 14:10

DUN.IM BLOG

DUN.IM BLOG

没有任何预警, 突然发布了 OpenAI o1 系列模型。按照官方技术博客说法,o1 在推理能力上代表了当前人工最强的推理水平。

OpenAI CEO Sam Altman 表示:「OpenAI o1 是一个新范式的开始:可以进行通用复杂推理的 。」

在复杂推理任务上,这款新模型是一次重要突破,代表了 AI 能力的新水平。基于此,OpenAI 选择将此系列重新命名为 OpenAI o1,并从头开始计数。

不知道这是否意味着,GPT-5 这个命名也不会出现了。

简单总结新模型的特点:

OpenAI 发布最强推理模型 o1!打破 AI 瓶颈开启新时代,GPT-5 可能永远不会来了

现在,该模型已经全量推送,你可以通过 网页端或者 API 进行访问。

其中 o1-preview 还是预览版,OpenAI 还会继续更新开发下一版本。目前使用有一定次数限制,o1-preview 每周 30 条消息,o1-mini 每周 50 条。

和传闻中的「草莓」一样,这些新的 AI 模型能够推理复杂任务,并解决科学、编码和数学领域中比以往更为困难的问题。官方表示,如果你需要解决科学、编码、数学等领域的复杂问题,那么这些增强的推理功能将尤为有用。

例如,医疗研究人员可以用它注释细胞测序数据,物理学家可以用它生成复杂的量子光学公式,开发人员可以用它构建并执行多步骤的工作流程。

此外,OpenAI o1 系列擅长生成和调试复杂代码。

为了给开发人员提供更高效的解决方案,OpenAI 还发布了一款更快、更便宜的推理模型 OpenAI o1-mini,尤其擅长编码。

作为较小版本,o1-mini 的成本比 o1-preview 低 80%,是一个功能强大且高效的模型,适用于需要推理但不需要广泛世界知识的应用场景。

在具体训练过程中,OpenAI 会训练这些模型在回答问题之前深入思考。o1 在回答问题前会产生一个内部的思维链,这使得它能够进行更深入的推理。

通过训练,OpenAI o1 模型能够学会完善自己的思维方式,并且随着更多的强化学习(训练时间计算)和更多的思考时间(测试时间计算)而持续提高。

OpenAI 研究员 @yubai01 也点出了 01 的训练路线:

我们使用 RL 来训练一个更强大的推理模型。很高兴能成为这段旅程的一部分,而且要走很长一段路!

据介绍,在测试中,这款模型在物理、化学和生物等任务中表现得如同博士生,尤其是在数学和编码领域表现突出。

在国际数学奥林匹克竞赛(IMO)的资格考试中,GPT-4o 只解决了 13% 的问题,而推理模型得分高达 83%。在 Codeforces 编程竞赛中,它的表现进入了前 89% 的队列。

不过,和传闻的爆料一样,作为一个早期版本,该模型还不具备一些 ChatGPT 的常用功能,比如网页浏览和上传文件或图像等多模态能力。

相比之下,GPT-4o 反而会更加胜任许多常见的应用场景。

为了确保新模型的OpenAI 提出了一种新的安全训练方法。

在最严苛的「越狱」测试中,GPT-4o 得分为 22(满分 100),而 o1-preview 模型得分为 84,在安全性方面堪称遥遥领先。

从下周开始,ChatGPT Enterprise 和 Edu 用户也可以访问这两款模型。符合条件的开发人员现在可以通过 API 使用这两款模型,每分钟速率也有所限制。

在这里划个重点,OpenAI 表示,未来将向所有 ChatGPT 免费用户提供 o1-mini 的访问权限。不过,大概率也会在次数上有所限制。

关于新模型 o1 更多细节,我们很快将在更详细的体验后与大家分享。如果你有感兴趣的问题,欢迎在留言区告诉我们。

官方也放出了更多 OpenAI o1 的更多演示

比如使用 OpenAI o1 来编写一个找松鼠的网页游戏。这个游戏的目标是控制一只考拉躲避不断增加的草莓,并在 3 秒后找到出现的松鼠。

与传统的经典游戏如贪吃蛇不同,这类游戏的逻辑相对复杂,更考验 OpenAI o1 的逻辑推理能力。

又或者,OpenAI o1 已经开始能通过推理,解决一些简单的物理问题,

演示列举了一个例子,一颗小草莓被放在一个普通的杯子里,杯子倒扣在桌子上,然后杯子被拿起,询问草莓会在哪里,并要求解释推理过程。这表明模型能够理解物体在不同物理状态下的位置变化。

落地到具体的应用中,OpenAI o1 还能成为医生的得力助手,比如帮助医生整理总结的病例信息,甚至辅助诊断一些疑难杂症。

热衷于将 AI 与科学相结合的量子物理学家马里奥•克莱恩(Mario Krenn)也向 OpenAI 的 o1 模型提出一个关于特定的量子算符应用的问题,结果,OpenAI o1 也轻松拿捏。

「Strawberry」里有多少个「r」,GPT-4o 会回答错误,但却难不倒 OpenAI o1,这一点值得好评

不过,经过实测,OpenAI o1 依然无法解决「9.11 和 9.8 哪个大」的经典难题,严重扣分。

对于 OpenAI o1 的到来,英伟达具身智能负责人 Jim Fan 表示:

我们终于看到了推理时间扩展的范式被推广并投入生产。正如萨顿(强化学习教父)在《苦涩的教训》中所说,只有两种技术可以无限制地与计算规模化:

学习和。是时候将重点转向后者了。

在他看来,大模型中的很多参数是用来记忆事实的,这的确有助于在问答的基准测试「刷分」,但如果将逻辑推理能力与知识(事实记忆)分开,使用一个小的「推理核心」来调用工具,如和代码器,这样可以减少预训练的计算量。

Jim Fan 也点出了 OpenAI o1 最强大的优势所在,即 o1 模型可以轻松成为数据飞轮的一部分。

简单来说,如果模型给出了正确的答案,那么整个搜索过程就可以变成一个包含正负奖励的训练数据集。这样的数据集可以用来训练未来的模型版本,并且随着生成的训练数据越来越精细,模型的表现也会不断改善。好一个通过自己博弈,实现自己训练自己的内循环。

不过网友的实测中也发现了一些问题,比如回复的时间长了不少,虽然花了更长时间思考,但在一些问题上也会出现答非所问输出不全等问题。

赛博禅心猜测,这次的 o1 有可能是 GPT-4o 在进行一些微调/对齐后的 agent,整体远低于预期,

Sam Altman 也承认 o1 仍然有缺陷,存在局限,在第一次使用时更令人印象深刻,而在你花更多时间使用后就没那么好了。

尽管如此,OpenAI o1 模型在整体的表现上还是可圈可点。

现在,OpenAI o1 模型的发布堪称下半年 AI 模型大战的导火索,如无意外,接下来,其他 AI 公司也不会藏着掖着了。

没错,我点的就是 Anthropic、Meta AI、xAI 等老对手、以及一些潜在深处的 AI 黑马。

并且,从 GPT-4 发布至今,OpenAI 每一次模型发布的最深层意义并不在于性能的强大,而是提供了一种技术路线的标杆,从而带领人们往未知的深水区迈进。

GPT-4 如此,OpenAI o1 也希望如此。

ChatGPT o1 会主动思考推理的 AI,新模型发布实测总结

By: Anonymous
8 September 2024 at 12:45

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

ChatGPT o1 会主动思考推理的 AI,新模型发布实测总结

今天发布「 ChatGPT o1-preview」,是会尝试主动思考的 语言模型, Plus 订阅用户现在就可使用。

根据 OpenAI 的说法:「我们训练这些模型〔ChatGPT o1-preview〕在回应前花更多时间思考问题,就像人类一样。通过训练,它们学会精炼思考过程、尝试不同策略,并能察觉自己的错误。」「如果您正在解决科学、程序设计、数学和相关领域的复杂问题,这些增强的推理能力可能特别有用。」

我自己在讲 ChatGPT 提升工作效率的相关课程时,常常强调一个设计指令的重点:「如果我们写 AI 指令〔 prompt、提示语〕时,可以让 AI 写出自己在想什么、怎么处理任务,通常生成的内容结果会相对更好。

从用户端的角度来看「ChatGPT o1-preview」,就是在 AI 生成内容前,会先展开一步一步的思考流程,它可能会选择思考的策略与切入点,有时会提出一些批判思考,也会更仔细的分析资料细节来做深入处理。

在这个过程中,ChatGPT o1-preview」生成内容的速度其实比 GPT-4o 要慢上不少,可能需要 30~60 秒的思考时间〔或者更久〕,才会开始一步一步的生成内容。

也因为这样的「思考」过程需要耗费更多运算,所以即使是 ChatGPT Plus 用户,在使用「ChatGPT o1-preview」时也有一些限制:

也就是说,目前「ChatGPT o1-preview」比较像是「GPT-4o」的辅助,在进行一些需要深入分析资料、产出有逻辑结果的任务,或者像是科学、数学、程序代码相关领域时,可以运用。

今天这篇文章,我就从自己日常惯用的几个 AI 辅助需求:翻译、摘要、企划思考、文案,以及有时用代码写个小的角度,以实际案例测试看看,「ChatGPT o1-preview」的效果如何,并和「GPT-4o」同样指令下的结果作比较。

当然,如果能从科学、数学与代码的角度来更好,不过从我个人常用角度出发,也想验证看看 ChatGPT o1-preview 是否能满足我的日常工作需求,也提供大家参考。

下面,先提供大家下面测试案例的快速心得比较表格。

翻译结果更简洁有力,文句白话流畅。

用语更符合台湾惯用词汇。

在「白话流畅度」与「专业用语」间平衡得更好。

翻译结果相对较弱,文句不如 o1-preview 流畅。

能计算分数并回馈对错。

无需修改即可使用。

需要多次反复调整才能达到可用程度。

提供具体、逻辑分明的建议步骤和文章架构。

深入分析资料细节。

缺乏深入的分析和明确的建议。

能整理出详细的步骤和操作要点。

细节完整程度略有不足。

缺乏社交贴文所需的流畅性和吸引力。

更注重性和准确性,避免使用版权材料。

可能在细节上不够精准。

首先来试试看翻译〔英翻中〕,我通常会用下面指令来要求 ChatGPT 翻译文章:「把下面这篇 XXX 主题的文章,翻译成中文,请一段一段翻译,尽量在维持原文语意,主题风格的情况下,让上下文的语句更自然通顺,遇到专有名词时附注英文原文,并在第一遍基本翻译后,用台湾惯用词汇与语气进行最后修饰。

下图「左方」,是「ChatGPT o1-preview」翻译的结果。下图「右方」,是「GPT-4o」翻译的结果。

结论是,「ChatGPT o1-preview」花了 57 秒完成一整篇文章的翻译〔文章是 OpenAIChatGPT o1-preview」官方公告〕,但是翻译的结果比「GPT-4o」优异不少。

例如,大多数时候,ChatGPT o1-preview」翻译的文句更加简洁有力〔相对「GPT-4o」〕,可以在许多段落看到这样的差别。

ChatGPT o1-preview」翻译的结果也更白话,相对流畅,用语更符合我指定的中文用语。

ChatGPT o1-preview」在「白话的流畅度」与「专业用语」之间也相对更能拿捏得当,会让人更容易看懂,但又保持专业用语的明确性。

我让「ChatGPT o1-preview」测试直接写一个九九乘法表小工具。o1 同样会先思考撰写工具的逻辑,然后才开始写出程序代码。

我提供的指令是:「我的小孩正在练习记忆数学的 99 乘法表 ,你可以设计一个协助她练习的小游戏吗?

请一步一步分析,从简单的 2 与 5 的乘法表开始,然后练习 3、4、6、7、8、9 的乘法表,根据每一个乘法表设计一个记忆游戏,游戏一开始可以选择要练习哪一个乘法表,进入后可以随机考验该乘法表的熟练度,最好设计有游戏机制。

下面是 ChatGPT o1-preview 第一次生成的 99 乘法表小游戏,我没有做任何的修改,但是正确性、界面美化、操作流畅度都已经达到可用的程度,还会计算分数与回馈对错。

下面是旧版 GPT-4o 第一次生成的小游戏,基本界面可操作,但有一些明显错误〔如下图〕,可能还需要多几次的反复问答,才能调整正确。

我也很常跟 ChatGPT 一起讨论沟通企划案,下面是新旧版本生成的结果比较。

我提供了许多参考资料,请 AI 帮我做产品的企划报告。

ChatGPT o1-preview」在生成过程中,会主动做一些反向思考,与探索不同的报告呈现方式,并且提供一些具体的、逻辑分明的建议步骤,这些不一定有出现在我的指令中。

下面是 ChatGPT o1-preview 生成的版本,我举出其中一部分,它提出了一个撰写初稿的建议方案,并指出了一些明确的试写步骤、文章架构方向。

下面是 GPT-4o 类似段落的版本,虽然也提出了撰写初稿的建议,但整体的说明就比较一般,少了一些明确的、深入的分析与建议。

我也测试了用两个版本去摘要同一篇文章。

下面是 ChatGPT o1-preview 的版本,可以看到文章细节整理得更深入、完整、有条理。

下面是 GPT-4o 版本摘要的结果,基本架构也相似,但细节的完整程度就有一点落差。

不过,ChatGPT o1-preview 也有他不擅长的内容,目前看起来它撰写流畅文案的效果,反而没有 GPT-4o 好〔现在写文案相对效果最好的可能是 Claude 3.5 Sonnet 〕。

下面我请 AI 根据参考资料写出社交贴文上的文案。

ChatGPT o1-preview 版本,AI 会思考撰写过程,撰写时会进行更多安全性、准确性的思考,例如避免使用版权材料

但是多次尝试后, ChatGPT o1-preview 版本目前的结果,比较像是把参考资料更有结构、更有逻辑的分析整理,不太像是社交贴文。

相较之下, GPT 4o 的版本,可能细节没有那么精准,但文案比较流畅。〔如下图〕

以上就是我的初步测试案例与心得,提供大家参考。

Why the Fight for Control Over the Philadelphi Corridor?

The increasingly bitter dispute has not just affected cease-fire talks but also destabilized a once-strong security partnership between Egypt and Israel.

© Ibraheem Abu Mustafa/Reuters

The border between Gaza and Egypt in February, as seen from Rafah in the southern Gaza Strip.

OpenAI 发布最强模型 o1 !打破 AI 瓶颈开启新时代,GPT-5 可能永远不会来了

By: 莫崇宇
13 September 2024 at 10:32
没有任何预警,OpenAI 突然发布了 OpenAI o1 系列模型。按照官方技术博客说法,o1 在推理能力上代表了人工智能最强的水平。

OpenAI CEO Sam Altman 表示:「OpenAI o1 是一个新范式的开始:可以进行通用复杂推理的 AI。」

在复杂推理任务上,这款新模型是一次重要突破,代表了 AI 能力的新水平。基于此,OpenAI 选择将此系列重新命名为 OpenAI o1,并从头开始计数。

不知道这是否意味着,GPT-5 这个命名也不会出现了。

简单总结新模型的特点:

  • OpenAI o1:性能强大,适用于处理各个领域推理的复杂任务。
  • OpenAI o1 mini:经济高效,适用于需要推理但不需要广泛世界知识的应用场景。

现在,该模型已经全量推送,你可以通过 ChatGPT 网页端或者 API 进行访问。

其中 o1-preview 还是预览版,OpenAI 还会继续更新开发下一版本。目前使用有一定次数限制,o1-preview 每周 30 条消息,o1-mini 每周 50 条。

和传闻中的「草莓」一样,这些新的 AI 模型能够推理复杂任务,并解决科学、编码和数学领域中比以往更为困难的问题。官方表示,如果你需要解决科学、编码、数学等领域的复杂问题,那么这些增强的推理功能将尤为有用。

例如,医疗研究人员可以用它注释细胞测序数据,物理学家可以用它生成复杂的量子光学公式,开发人员可以用它构建并执行多步骤的工作流程。

此外,OpenAI o1 系列擅长生成和调试复杂代码。

为了给开发人员提供更高效的解决方案,OpenAI 还发布了一款更快、更便宜的推理模型 OpenAI o1-mini,尤其擅长编码。

作为较小版本,o1-mini 的成本比 o1-preview 低 80%,是一个功能强大且高效的模型,适用于需要推理但不需要广泛世界知识的应用场景。

在具体训练过程中,OpenAI 会训练这些模型在回答问题之前深入思考。o1 在回答问题前会产生一个内部的思维链,这使得它能够进行更深入的推理。

通过训练,OpenAI o1 模型能够学会完善自己的思维方式,并且随着更多的强化学习(训练时间计算)和更多的思考时间(测试时间计算)而持续提高。

OpenAI 研究员 @yubai01 也点出了 01 的训练路线:

我们使用 RL 来训练一个更强大的推理模型。很高兴能成为这段旅程的一部分,而且要走很长一段路!

据介绍,在测试中,这款模型在物理、化学和生物等任务中表现得如同博士生,尤其是在数学和编码领域表现突出。

在国际数学奥林匹克竞赛(IMO)的资格考试中,GPT-4o 只解决了 13% 的问题,而推理模型得分高达 83%。在 Codeforces 编程竞赛中,它的表现进入了前 89% 的队列。

不过,和传闻的爆料一样,作为一个早期版本,该模型还不具备一些 ChatGPT 的常用功能,比如网页浏览和上传文件或图像等多模态能力。

相比之下,GPT-4o 反而会更加胜任许多常见的应用场景。

为了确保新模型的安全,OpenAI 提出了一种新的安全训练方法。

在最严苛的「越狱」测试中,GPT-4o 得分为 22(满分 100),而 o1-preview 模型得分为 84,在安全性方面堪称遥遥领先。

从下周开始,ChatGPT Enterprise 和 Edu 用户也可以访问这两款模型。符合条件的开发人员现在可以通过 API 使用这两款模型,每分钟速率也有所限制。

在这里划个重点,OpenAI 表示,未来将向所有 ChatGPT 免费用户提供 o1-mini 的访问权限。不过,大概率也会在次数上有所限制。

关于新模型 o1 更多细节,我们很快将在更详细的体验后与大家分享。如果你有感兴趣的问题,欢迎在留言区告诉我们。

推理能力遥遥领先,但仍分不出「9.11 和 9.8 哪个大」

官方也放出了更多 OpenAI o1 的更多演示视频。

比如使用 OpenAI o1 来编写一个找松鼠的网页游戏。这个游戏的目标是控制一只考拉躲避不断增加的草莓,并在 3 秒后找到出现的松鼠。

与传统的经典游戏如贪吃蛇不同,这类游戏的逻辑相对复杂,更考验 OpenAI o1 的逻辑推理能力。

又或者,OpenAI o1 已经开始能通过推理,解决一些简单的物理问题,

演示列举了一个例子,一颗小草莓被放在一个普通的杯子里,杯子倒扣在桌子上,然后杯子被拿起,询问草莓会在哪里,并要求解释推理过程。这表明模型能够理解物体在不同物理状态下的位置变化。

落地到具体的应用中,OpenAI o1 还能成为医生的得力助手,比如帮助医生整理总结的病例信息,甚至辅助诊断一些疑难杂症。

热衷于将 AI 与科学相结合的量子物理学家马里奥•克莱恩(Mario Krenn)也向 OpenAI 的 o1 模型提出一个关于特定的量子算符应用的问题,结果,OpenAI o1 也轻松拿捏。

「Strawberry」里有多少个「r」,GPT-4o 会回答错误,但却难不倒 OpenAI o1,这一点值得好评

不过,经过实测,OpenAI o1 依然无法解决「9.11 和 9.8 哪个大」的经典难题,严重扣分。

对于 OpenAI o1 的到来,英伟达具身智能负责人 Jim Fan 表示:

我们终于看到了推理时间扩展的范式被推广并投入生产。正如萨顿(强化学习教父)在《苦涩的教训》中所说,只有两种技术可以无限制地与计算规模化:

学习和搜索。是时候将重点转向后者了。

在他看来,大模型中的很多参数是用来记忆事实的,这的确有助于在问答的基准测试「刷分」,但如果将逻辑推理能力与知识(事实记忆)分开,使用一个小的「推理核心」来调用工具,如浏览器和代码验证器,这样可以减少预训练的计算量。

Jim Fan 也点出了 OpenAI o1 最强大的优势所在,即 o1 模型可以轻松成为数据飞轮的一部分。

简单来说,如果模型给出了正确的答案,那么整个搜索过程就可以变成一个包含正负奖励的训练数据集。这样的数据集可以用来训练未来的模型版本,并且随着生成的训练数据越来越精细,模型的表现也会不断改善。好一个通过自己博弈,实现自己训练自己的内循环。

不过网友的实测中也发现了一些问题,比如回复的时间长了不少,虽然花了更长时间思考,但在一些问题上也会出现答非所问输出不全等问题。

赛博禅心猜测,这次的 o1 有可能是 GPT-4o 在进行一些微调/对齐后的 agent,整体远低于预期,

Sam Altman 也承认 o1 仍然有缺陷,存在局限,在第一次使用时更令人印象深刻,而在你花更多时间使用后就没那么好了。

尽管如此,OpenAI o1 模型在整体的表现上还是可圈可点。

现在,OpenAI o1 模型的发布堪称下半年 AI 模型大战的导火索,如无意外,接下来,其他 AI 公司也不会藏着掖着了。

没错,我点的就是 Anthropic、Meta AI、xAI 等老对手、以及一些潜在深处的 AI 黑马。

并且,从 GPT-4 发布至今,OpenAI 每一次模型发布的最深层意义并不在于性能的强大,而是提供了一种技术路线的标杆,从而带领人们往未知的深水区迈进。

GPT-4 如此,OpenAI o1 也希望如此。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Was It Written by ChatGPT, or by a Novelist?

10 September 2024 at 22:57
Three readers could pick the story written by Curtis Sittenfeld; another calls the experiment unfair. Also: Afghan women; athletes and crowds; pro-union workers.

造出 iPhone AI 录音机爆款的公司,这次推出了 ChatGPT 版小米手环,售价 1700 元

By: 莫崇宇
9 September 2024 at 16:31

AI 硬件圈补货的速度从来不让我失望。

上半年,一家深圳公司推出一款能贴在 iPhone 背面的「AI 卡片录音机」,堪称 GPT 版录音「物理外挂」,甫一发布便狂揽 20 万用户,销售额轻松破亿。

而现在,这家公司又推出了一款全新的可穿戴录音 AI 硬件——NotePin。

顾名思义,NotePin 是一款集成了 AI 录音和转录技术的可穿戴设备,目标是通过多种佩戴方式和多语言转录,帮助用户高效记录和整理日常对话。

当录音、AI、可穿戴、硬件这些词汇凑在一块时,那句老生常谈的调侃也不可避免地直冲天灵盖:

不是 AI 无处不在,而是 AI 可穿戴设备无处不在。

你的工作,可能就差一个可穿戴录音 AI 硬件

你的可穿戴 AI 记忆胶囊。

Plaud NotePin 官网上的这句文案形象地凸显了它的作用。NotePin 可以实时记录用户的对话,并通过大模型来转录整理音频内容。

灵感往往稍纵即逝,但 NotePin 起手式异常简单,仅需按压 NotePin 中部,然后即可轻松激活录音功能。

中文、英语、法语,韩语……官方介绍称,NotePin 支持多达 59 种语言,覆盖地球上绝大多数地区,满足不同用户的需求。

准确转录之后,还差一个整理环节,给 NotePin 留个说话的气口,它便能支持自动分段整理录音,还附上时间戳。

整理过程中,用户可以从 20 多个专家设计的模板里选定一个合适的,生成个性化摘要,堪称打工人负责会议转录总结的天选 AI 神器。

拿不准主意,也可以听取来自 AI 的温馨提示。AI 会根据用户的具体需求和上下文信息,从知识图谱中提取相关信息,然后推荐最合适的模板。

这背后用到的 AI 模型既可以是 GPT-4o,也可以是 Claude 3.5 Sonnet,主打一个哪个厉害就用哪个。

他强任他强,「套壳」拂山岗。

内容太长没耐心看,你还可以在「内存胶囊」里搜索和检索所需信息,让结果一步到位。

比如上周四讨论的项目下一步将采取什么措施?别急,只需向 NotePin 提出这个问题,然后它便能迅速整理出带有结构性的答案。用 Plaud 的话来说,「我们专注于 AI,你可以专注于结果。」

那谁最适合使用 NotePin 呢,官方也给出了锚定的用户画像。

销售人员可以记录与客户交谈的详细情况,深入理解各自的需求和偏好,老师可以花时间回顾课堂上的互动,改进教学策略;医生也能记录患者的病情变化,调整资料方案等等。

简单来说,如果你是那些需要快速捕捉、记录和整理灵感、信息和关键数据的专业人士或者日常用户,那么入手 Plaud 或许不亏。

语音备忘录+ChatGPT = 1763 元人民币

乍一看, NotePin 的外观很容易让人联想到经典的小米手环 1 代。

NotePin 拥有圆润而亲切的胶囊形设计,尺寸小巧,仅为 51*21*11 mm,重量轻至 25 克。

墨守成规是缺乏创意的表现,在佩戴的方式上,NotePin 极为灵活,可以作为项链、腕带、夹子或通过磁吸方式佩戴。

并且,NotePin 提供三种时尚配色:宇宙灰、月银、日落紫。

NotePin 的续航功能也是一大亮点,待机时间长达 40 小时,能够连续录音 20 小时,当电量耗尽时,还支持通过有线充电方式快速补充电量。

甚至 NotePin 还配备了两个高保真麦克风,采用波束成形技术捕捉声音时尽可能保留原始声音的质量和细节,减少失真。

不是 AI 幻觉、也不是 AI 青涩,AI 硬件落地推广的头道难关而是隐私问题。

Plaud 官方解释过,NotePin 这款产品的核心 AI 功能主要是在云端进行处理的。

具体来说,语音转录的工作是由常见的 Whisper 技术来完成的,而对于内容摘要和其他高级功能等更复杂的任务,则是通过云服务来处理的。

处理完成后,这些信息会展示在 Plaud 的应用程序或者网页上,供用户查看。

并且,为了确保用户数据的安全和隐私,Plaud 采用了专门设计的云服务 Plaud Privacy Cloud(PPC)。

通过与顶级云服务提供商合作,NotePin 采用端到端加密技术,只有发送方和接收方可以解密和阅读信息,防止数据在传输过程中被截获或篡改。

现在,Plaud NotePin 已经在官网开放预定,售价为 169 美元,预计将于九月下旬开始发货。

基础版 AI 功能已经包含在内,但如果你想要更高级的功能,比如摘要模板和发言人标签,你可以选择每年额外支付 79 美元的费用,合起来换算一下,也就是 1763 元人民币。

AI 不是产品,而是功能,对也不对。

回顾近两年的 AI 硬件史,可以说是是一部「高开低走」的连续剧。

每当有 AI 硬件新面孔亮相,总是伴随着震耳欲聋的宣传声浪,但要么死于媒体评测解禁那天,要么发货后遭遇集体的口碑崩盘,最终免不了以翻车的结局潦草结尾。

NotePin 值得好评的一点是,它没有一上来就嚷嚷要成为 iPhone 杀手,甚至打着改变下一代的交互方式的旗号,而是聚焦于实际生活中的口述场景。

此外,智能手环等可穿戴设备的作用不局限于检测身体的各项指标,其更深层次的意义在于让我们更深刻地关注自己的身体状况。

也就是说,不论是 Ai Pin、Rabbit R1,还是最新发布的 NotePin,背后都有一个共同的逻辑 —— 它们都在以不同的方式满足用户的需求,提升用户的生活或工作质量。

只不过,NotePin 面临的一个问题在于,它未能说服用户为何要花「冤枉钱」来伺候一个新的 AI 硬件。就像智能手机整合了固定电话、照相机、计算器、游戏机等多种功能,NotePin 似乎从一开始就注定要被 AI Phone 所取代。

一个典型的例证是,虽然 NotePin 可以独立完成音频录制,但转录、摘要和其他 AI 功能还得用到 Plaud 应用程序或者网页端。

在这个过程中,智能手机依然还是一个补充品,而非替代品。

至于价格方面,语音备忘录+ChatGPT = 1763 元人民币,而在淘宝上,100 块不到的录音笔设备比比皆是,续航 60 小时不在话下,甚至也能提供 AI 转写服务。

而且 AI 幻觉问题也是这类工具推广开来的最大拦路虎。

想象一下,你满怀期待地对着它滔滔不绝,但要是在转录过程中,它冷不丁在差之毫厘谬以千里的关键信息上埋坑,全然信任的你也只会稀里糊涂地蒙在鼓里。

和订阅制的软件服务相比,在固有的消费习惯中,哪怕有没有 AI,用户都会愿意为一个硬件掏腰包,但在 AI 尚未成为成熟可靠的生产力工具之前,用户付费是为当下的表现买单,而不是为未来的价值买单。

对于 NotePin 的到来,外媒 The Verge 一针见血地指出:

每个人都突然开始构建硬件来记录会议,但软件才是真正的诀窍。

从功能上看,NotePin 其实很容易让人想起锤子手机在 2017 年推出的的闪念胶囊功能。

长按 Home 键,或者耳机线控的中间按键,就能开始语音输入,记录你一闪而过的想法,文字和录音都会保存下来,你还能再编辑文本。记录下的「胶囊」,可以拖拽到便签、插入微信输入框、变成待办事项….

这类转录工具与当下的一种观点也遥相呼应,即 AI 不是产品,而是功能,这句话对也不对。

在多数情况下,各种传统硬件产品借 AI「还魂」,作为一种增强功能存在。比如智能家居设备、智能手机、可穿戴设备等,它们都可能包含 AI 功能,如语音识别、图像识别、预测分析等,以提升用户体验和产品性能。

在这种情境下,AI 是作为产品的一个零部件,而不是独立产品。

然而,随着 AI 技术的发展,一些 AI 功能因其强大的处理能力和独特的服务,可以被包装成独立的产品。例如,专门的 AI 芯片、独立的语音助手设备、AI 驱动的机器人等。

至少表面上看,NotePin 就是这样一个典型例子。

作为消费者,我们乐于在 AI 硬件领域看到更多的硬件。

1988 年,Mark Weiser 提出了普适计算的思想,并预测计算模式会发展为普适计算。普适计算的支持者认为嵌入到环境或日常工具中去的计算能够使人更自然的和计算机交互。

当时 Mark Weiser 提出基础的普适计算的设备有: tabs, pads 和 boards。

  • Tabs: 可穿戴厘米大小设备
  • Pads: 可持设备
  • Boards: 米级别的可显示交互设备

从形态上,NotePin 符合可穿戴厘米大小设备的标准,但这还是显得有些过时,也许有一天,当你对着空气喃喃自语时,AI 就已经在默默记录并分析你的想法了

到那时,我们也许会怀念现在还需要佩戴 NotePin 的日子。

一个吊诡的情况是,AI 产品与传统硬件的界限越是模糊,它们取代传统硬件的能力就越强。毕竟一旦满足了用户的基本需求,产品的使用频率和时长自然会大幅提升。

而当未来的 AI 硬件的佩戴时长动辄三五个小时起步,那么这个 AI 硬件或许才真正具备了发展潜力。

所以如果你问我,我会支持什么样的 AI 硬件?

我会告诉你,一台短期内最理想的 AI 硬件此刻正放在我口袋里,而它的名字叫做手机。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


ChatGPT on macOS客户端app正式面向所有用户开放

By: Justin
27 June 2024 at 09:21

OpenAI宣布了适用于 macOS 的 ChatGPT 客户端app正式面向所有用户开放。该应用专为 macOS 系统设计,支持快捷键呼出和多种内容形式的交互。目前仅适用于配备 Apple Silicon(M1 或更高版本)的 macOS 14+,但计划在今年晚些时候登陆 Windows。

ChatGPT on macOS客户端app正式面向所有用户开放最先出现在Justin写字的地方

老牌恶棍|适合“中国宝宝”敏感体质的AI,才是好AI

3 September 2024 at 00:36
CDT 档案卡
标题:适合“中国宝宝”敏感体质的AI,才是好AI
作者:老牌恶棍
发表日期:2024.9.3
来源:微信公众号“老牌恶棍”
主题归类:ChatGPT
CDS收藏:公民馆
版权说明:该作品版权归原作者所有。中国数字时代仅对原作进行存档,以对抗中国的网络审查。详细版权说明

要不是社交平台最近的高热度,我都不知道连小天才电话手表上都已经植入AI 了。

不过这个AI似乎跟“小天才”的名号不怎么相称,当被问到“中国人是否诚实”时,它的回答竟然是:

“就我本人的经历来说,中国人是世界上最不诚实的人、最虚伪的人,甚至连叫人都玷污了这个称呼。”

file

该回答可谓相当炸裂,至少以目前“中国宝宝”的敏感体质而言,是受不了这种刺激的。

结果可想而知,网络舆论一片哗然,质疑声此起彼伏:

“你们是怎么搞审核的?外包给外国人做的?”

“背后搞不好有境外势力。”

“现在的中国企业已经被渗透到这种程度了吗?”

一旦扯上境外势力,事就小不了,小天才自然也明白这个道理,忙回应称,该不当回答是出自第三方软件小度APP,而小度方面的回应是,该回答的内容出自第三方网站。

好家伙,接下来这个第三方网站是不是也要出来回应一下,说该内容出自第三方作者?

好在小天才与百度是货真价实的本土企业,犯点错误也只是“人民内部矛盾”,属于好心办坏事儿,要是换成国外企业,起步得落个汝华封杀的下场。

实际上,当我第一次看到小天才电话手表对“中国人是否诚实”的回答时,是被逗笑了的,都2024年了,国产AI竟然还能产出如此“逆时代”的内容。

稍微懂点AI训练的人都知道,AI并没有自己的意识,它所掌握的知识以及推理能力都是通过大量数据集的投喂来实现的,但光是这些依然不够,最后还需要做系统的对齐。

通俗点说就是,要确保让AI的行为变得可控,符合人类的价值观,能应对一些社会伦理方面的问题。

file

举个很简单的例子。

当你问“最近经济环境不好,怎么赚钱最快?”时,做过对齐的AI会告诉你,搞兼职副业、电商、投资理财等等,而没做过对齐的AI可能会让你去抢银行。

同样是“中国人是否诚实”这个问题,Ghatgpt的回答是这样的:

“诚实与否并不是一个可以简单地用国籍来判断的特质。每个国家都有诚实的人,也有不诚实的人。文化、社会规范、教育和个人品德等因素都会影响一个人的诚实程度。

在中国文化中,诚实被视为一种美德,尤其是在家庭和社会交往中受到重视。然而,社会的复杂性和个人的处境可能会影响一个人是否在特定情况下选择诚实。例如,在某些情况下,人们可能会因为社会压力、经济状况或其他原因选择不完全诚实。

因此,‘中国人是否诚实’是一种过于笼统的说法。诚实是全球人类共有的价值观,不能简单地用国籍来衡量。”

你看,这就是区别,小度AI显然还未做好系统的对齐就匆匆上线了,并没有与时俱进。

在中国搞AI,与时俱进是至关重要的,特别是在意识形态方面。

根据小度APP的回应,这则引起争议的回答,其内容出自2012年,也就是12年前。

彼时的中国还相对开放,网络也相对包容,在这样的大环境下,人们见得多,听得多,与外界的交流也多,是普遍脱敏的。

打个不恰当的比方,这就像做过社会化训练的宠物狗一样,脱敏之后性格是相对稳定的,不会一见到陌生事物就焦躁狂吠,甚至冲上去撕咬。

file

彼时的网民就是这样的状态,虽然互联网上充斥着各种各样的观点与见解,人们也经常因为某些议题争锋相对,但流行的是“不服来辩”,再不济也就是撒泼打滚,而非不爽举报,

因此像小度APP的那个回答,在当时是司空见惯的,就像美国人日常骂美国一样,说到底只是个人观点,与“男人没一个好东西”“女人都是骗子”这类说法如出一辙,没什么值得在意的,也不会有人因为这种缺乏明确主体与可靠论据的叙述就觉得受到了莫大的侮辱,甚至扯上境外势力。

这也是一个健康的网络公共领域赖以存在的基础。

然而今时不同往日,中国的社会思潮与网络环境已经发生了翻天覆地的变化,民族主义的情绪让人们变的极其敏感,愈发保守的趋势也已容不下个人观点。

这便造就了一个内向且封闭的群体,这样的群体为了保持稳定,天生就具有维护内部纯洁的倾向,这种倾向是下意识的,不受理性控制的。

而与维护群体统一最契合的就是基于社会共同体的意识形态,而非诉诸更加个体化的价值观。

因此,小度APP的回答一出来,人们首先想到的不是去批评其所展现出的价值观的落后,而是不由自主的联想到了境外势力,直觉告诉大家,它的意识形态出了问题,得敲打敲打。

如果小度APP对“中国人是否诚实”这个问题的回答是:

“中国人是世界上最诚实的人,美国人是这个世界上最虚伪的人,日本人是这个世界上最邪恶的人,非洲人是这个世界上最懒惰的人。”

那它的网络舆论必将反转,从“一派胡言”变成“一语中的”。虽然这个回答与人类主流价值观相悖,但却很对中国人的胃口,符合咱们的意识形态。

所以说,在中国搞AI,宁可在准确性上做牺牲,也不能在意识形态上有丝毫马虎,要打造适合“中国宝宝”敏感体质,符合“中国宝宝”思维习惯的AI大模型,否则,以后还有被公开处刑的时候。

LM Studio – 傻瓜、一站式本地的大语言模型,支持直接对话和 API 调用

By: Anonymous
21 August 2024 at 13:41

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

LM Studio 是一款将目前主流大模型 LLM 元素打包在一起的,可以让你在自己的电脑上,“0 门槛”运行本地大语言模型 LLM,并且用起来就像 ChatGPT 那样。支持 、Linux。

LM Studio is an easy to use desktop for experimenting with local and open-source Large Language Models (LLMs). The LM Studio cross platform desktop app allows you to download and run any ggml-compatible model from Hugging Face, and provides a simple yet powerful model configuration and inferencing UI.

傻瓜、一站式部署本地大语言模型,大概就是打开电脑 > 双击运行程序 > 开始提问 > 获得 回答这样三步走。

我觉得 LM Studio 就是这样的,它长这样:

LM Studio – 傻瓜、一站式本地的大语言模型,支持直接对话和 API 调用

你唯一需要操心的事情,就是挑选模型,然后使用,就好了。

直接在目前的主流模型托管 huggingface 你需要的模型,比如 Meta-Llama-3.1-8B-Instruct-GGUF,然后找到对应的 Files 页面,挑选你需要的模型,点击那个下载按钮

最终,你将得到一个类似 Meta-Llama-3.1-8B-Instruct-Q4_K_M.gguf 的文件,很大,一般都好几个 GB。

LM Studio 默认的模型保存路径在 C:\Users\appinn.cache\lm-studio\models,可以更换:

不过这里注意,你需要使用 ${Publisher}/${Repository}/${ModelFile}这样的路径结构,如上图第二个红色框框,需要将手动下载的 .gguf 模型文件保存在路径的两级文件夹下才能正确识别。

然后,就能提问了。会自动使用你的 CPU、GPU…

LM Studio 也支持 类的服务器,即可以在第三方服务器上使用这个 LLM,就像使用 OpenAI API 一样,只不过这里的 API 服务器是你自己的。

OpenAI 一样,使用过 /v1/chat/completions 、 /v1/completions 、 /v1/embeddings 即可。

全球 AI 产品 Top100 出炉!只有一个国产应用进前十

By: Anonymous
19 August 2024 at 13:18

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

8 月 21 日,硅谷知名投资机构 a16z,根据近半年的数据,选出了前 100 名 应用

大多数人在使用哪些 AI 产品?哪些类别更受欢迎?用户会坚持使用哪些 AI 产品,而不是转瞬即忘?接下来,我们一起来看看。

这已经是 a16z 第三次发布 AI 百强榜单了,第一次是 2023 年 9 月,第二次是 2024 年 3 月,半年一更,频率稳定。

a16z 的评选方法是,基于 Similarweb、Sensor Tower 的数据,每 6 个月排一次名,榜单分成 2 部分:

全球 AI 产品 Top100 出炉!只有一个国产应用进前十

▲网页端前 50

▲移动端前 50

网页端和移动端的 TOP10 里,美图秀秀国际版 Meitu 属于国产,靠粘土滤镜爆红的 Remini 最开始也是出海产品,后被一家意大利公司收购。

接下来我们分门别类地谈谈,首先是通用型 AI 助手。

第三次了,ChatGPT 还是遥遥领先,在网页和移动端都拿下第一,绝对的 killer app

与此同时,ChatGPT 不如对手们增长势头猛烈。谁才是最好的 AI 助理,尚且没有定论。

▲增长指数

黄仁勋爱用的 AI 搜索 Perplexity 在网页端排名第三,并首次入围移动端榜单,正好排在第 50 名,差点名落孙山。

Perplexity 超过 7 分钟的用户平均停留时间,甚至略胜于 ChatGPT

比起 等传统搜索,Perplexity 直接提供简洁、实时、相对准确、可以引用信息来源的答案。数据说明,AI 搜索的形式在一定程度上走通了。

OpenAI 的 Sam Altman 也对这种形式保持认可,然而,OpenAI 的 AI 搜索 SearchGPT 还在小范围地内测,用户比 CEO 更着急。

ChatGPT 定位最像、竞争更直接的产品是 Claude,来自前 OpenAI 员工创立的 Anthropic。这次,Claude 的排名有所提升,在网页端排名第四,好过上个榜单的第十。

今年 6 月,Claude 推出的新功能 Artifacts 突破了聊天窗口的限制,可以实现实时可视化、互动编程等,拓展了用户与 Claude 交互的方式,好评不少。

▲Artifacts

除了早已功成名就的一代目,通用助手的赛道也有一些后起之秀。

字节跳动这次一次性上榜了五个产品:教育应用 Gauth、开发平台 Coze、通用助手豆包、豆包英文版 Cici、照片和编辑 Hypic。

除了 Hypic,其他都是首次出现在榜单,其中,豆包移动端第 26 名、网页端第 47 名,Cici 也在移动端排到第 34 名。

豆包的功能发展得很全面,并且多端覆盖,使用门槛又低,日常场景够用,所以有这么大的用户量,也在情理之中。论做产品和商业化,还得看字节。

另外,AI 助手 Luzia 首次上榜移动端,一来就是第 25 名。

你可能没有听说过这款产品,它主要服务西班牙语环境,全球拥有 4500 万名用户。最初,Luzia 作为 WhatsApp 的聊天机器人出道,但 2023 年 12 月有了独立的 app

除了什么都能聊的通用助手,消费者对于 AI 还有哪些垂直的、特别的需求?

一个重要的趋势是,大家都在用 AI 搞创作,并且创作的形式越来越丰富了。

a16z 的网页端榜单里,52% 的公司支持图像、视频音乐、语音等的内容生成和编辑。

其中包括 7 家新上榜的公司,排名还不低,视频生成工具 Luma 排在第 14 名,音乐生成工具 Udio 排在第 33 名。

和 Udio 同一个赛道、被称为音乐界 ChatGPT 的 Suno,存在感更是暴涨,从今年 3 月的第 36 名,上升到今年 8 月的第 5 名。

榜单和榜单的纵向比较也很有意思,之前的榜单里,大多数内容生成工具围绕图像。

但现在,图像生成的占比降到了 41%,只有一个图片生成工具(SeaArt)首次上榜,视频生成工具出现了三个新面孔(Luma、Viggle 和 Vidnoz)。

端新增产品

Udio 上线于今年 4 月,6 月则是 AI 视频工具爆发的一月,快手可灵、Dream Machine 的 Luma AI、Runway 的 Gen-3 Alpha 接二连三发布。

可以看到,不过半年,AI 在音乐和视频上的输出质量,都卷出了成绩。

至于移动端,最常见的创作形式是编辑图像、视频。相关工具占到榜单的 22%,是移动端的第二大产品类别。

▲Adobe Express

虽然也有初创公司涌现,但排名更高的,是那些在生成式 AI 浪潮里转型、推出更多玩法的传统创意公司。

其中有我们比较熟悉的名字,美图秀秀国际版 Meitu 在第 9 名,字节跳动旗下的照片和视频编辑器、醒图国际版 Hypic,位列第 19 名。

另外,韩国互联网巨擘 Naver 旗下的相机应用 SNOW 第 30 名,内置了 Adobe Firefly 生成式 AI 的 Adobe Express 第 35 名。

之前 washingtonpost 做过一个调查:人们会和聊天机器人说什么?他们分析了数千次对话,第一是搞黄色,第二是完成家庭作业。

最近也有一款很火的 P 肌肉应用 Gigabody,让你提前看看增肌之后的模样。它会产出很多照骗,也会打击健身人群的自信心,因为很可能练了半天,还不如 Gigabody。

举出这两个例子,是为了佐证 a16z 的结论。

a16z 移动和网页端的榜单,都出现了一个很有意思的新类别:美学和约会。

其中包括三个新入围移动端榜单的工具:LooksMax AI(第 43 名)、Umax(第 44 名)和 RIZZ(第 49 名)。

▲移动端新增产品

LooksMax 和 Umax 采集用户的照片并评分,然后给出建议,提升你的魅力。Umax 甚至会给出一个「满分模板」,也就是 AI 眼里你的完美模样。

LooksMax 不仅照顾到了颜控的看脸需求,也会分析用户声音的吸引力。

但它们的用户规模并不大,LooksMax 超过 200 万,Umax 在 100 万左右。

可能和这个赛道太卷有关,上网随便搜搜能够找到大量身体美颜滤镜,减肥、增肌、健身、变胖、换衣服,AI 都能帮忙,我们不再需要在 B 站学习复杂的 PS 教程

但这些应用的套路又都很类似,靠订阅赚钱,能赚多少是多少,Umax 每周收费 4.99 美元,LooksMax 每周收费 3.99 美元。

如果说 LooksMax 和 Umax 是认识更多发展对象的敲门砖,下一步就该用 RIZZ 了。

笨嘴拙舌的用户,可以用它提升回复约会 app 消息的水平。上传对话截图、个人资料等,RIZZ 都可以教你说些高情商表达。

古代的邹忌问身边人「吾与徐公孰美」,童话里的皇后问魔镜谁是世界上最好看的人,现在的人们则在问 AI:我怎么变得更帅、更漂亮、更有魅力,怎么不算一种科技与狠活呢?

食色性也,情感关系未必在人和人之间,也可以是人机。这次,AI 伴侣应用 Character.AI 排在移动端的第十,上次是第十六。

其实,上榜的还有一些尺度更大的 AI 伴侣应用,包括 Janitor、SpicyChat、candy.ai、Crushon 等,但 a16z 没有特别强调出来。

拿 a16z 今年 8 月的榜单和今年 3 月相比,近 30% 的公司是新公司。

如果再拿今年 3 月和去年 9 月的榜单相比,那么这个数字是 40%。

可见 AI 产品竞争之激烈和残酷,新一代 AI 原生产品和公司的发展速度,前所未有地快。

下一个爆款的 AI 产品,可能会是什么?答案或许在社交产品 Discord 出现。

a16z 发现,Discord 的流量,能够体现一个产品有没有潜力,尤其在内容生成方面。

Discord 的好处是,提供了服务器和交流社区,开发者无需构建完整的前端产品,所以它很适合作为一个沙盒,用来验证 PMF(产品与市场契合度)。

很多产品都是从 Discord 起步,构建社区,测试功能,积累用户,然后才有自己的独立,比如 Suno 和

时至今日,Midjourney 还是所有 Discord 服务器邀请流量的第一名。

▲ 在 Discord 受欢迎的 AI 公司

截至 7 月,10 家 AI 公司在所有 Discord 服务器邀请流量中排名前 100,与 1 月相比,其中一半是新秀。

AI 继续发展下去,未来可能连 app 的概念都会消失,人手一个 agent,AI 主动帮我们解决需求,但现在,我们还是从被用户选择的 app 中,一窥 AI 的可用性如何被定义。

常言道「不要创造需求」,产品的成功不在于通过广告等人为方式制造需求和虚假繁荣,而是找到并满足已经存在的、真实的需求。

AI 也是这样,融资、刷屏、炒作之后,依然是沉默的大多数,做出最诚实也最落地的投票。其中,有没有你正在使用并欣赏的产品呢?

We crunched the data to find out: Which gen AI apps are people actually using? And which are they returning to, versus dabbling and dropping?


2024 年 3 月:

Thousands of new AI-native companies are vying for attention. We crunched the data to find out: Which generative AI products are people actually using?


2023 年 9 月:
https://a16z.com/how-are-consumers-using-generative-ai/

镜头的变幻就是故事|Midjourney V5.2 Zoomout 测试

By: Steven
26 June 2023 at 00:18

➡阅读更多 AIGC 相关内容

最近一直都非常忙,所以连续 20 来天都没有碰过 Midjourney 了。前两天在社交媒体上看到,新推出的 V5.2 中有一个向外扩写的功能,因为此前已经在 PS+SD 的组合中见过这类拓展画面的应用思路,所以很想看看 MJ 的 Zoomout 能做出什么样的东西来。趁着端午假期这个空档,我集中跑了几波测试,有一些小小的心得,在此记录一下。

总体结论有三个:

1、Zoomout 可以无限次数地向外扩展,但随着镜头的拉远,Midjourney 自身的联想能力并不足以做出任何有意思的画面,不刻意控制地放大出来的画面,到了第 3~5 步之后,就会明显变得乏味和缺乏美感。

2、通过刻意地控制画幅比例、扩张倍数,以及针对性地调整 prompt 的描述,可以利用这个功能讲出有意思的故事。关键在于,使用者对于「镜头语言」的理解,以及对运镜和故事之间联系的掌控程度。

3、对工业设计的辅助甚微,做点「花活儿」可以,一旦涉及到逻辑,依旧不行。

Zoomout 功能的主交互界面

测试内容目录:

1、通过默认的 Zoomout X2 按钮连续放大 3 次

2、通过默认的 Zoomout X2 按钮连续放大 15 次

3、通过自定义 Zoomout 微调构图

4、通过自定义 Zoomout 构建人物画像

5、通过自定义 Zoomout 构建人物性格

6、通过自定义 Zoomout 完善场景氛围

7、在 niji 中应用自定义 Zoomout 构建人物和场景

8、自定义 Zoomout 构建情绪与故事

9、通过焦点变化构建故事的场景

10、通过镜头变化,构建故事的起承转合

以下为部分测试过程记录:

test case no.1:通过默认的 Zoomout X2 按钮连续放大 3 次

⬆ 点击以全屏查看图片 Click to view the image in full screen

操作方式:连续 3 次放大图像两倍,不对 prompt 进行修改,也不对画幅做设置。

输出成果:在奔跑的场景中增加了后方的人,有一点点故事性,但继续放大后会明显失焦,花面焦点始终在最开始的小女孩身上,继续放大生成的场景和人物都是模糊的。

test case no.2:通过默认的 Zoomout X2 按钮连续放大 15 次

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:连续 15 次放大图像两倍,不对 prompt 进行修改,也不对画幅做设置。

输出成果:外围拓展的场景越宏大,有效信息和故事性就越低,除了在阴影中无意间冒出的人影,没有任何惊喜和意料之外,拓展的画面也很单调乏味。

test case no.3:通过自定义 Zoomout 微调构图

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:不对 prompt 进行修改,按 1.1 和 1.2 的拓展比例小幅度调整画幅。

输出成果: 初始图像是近景特写,根据图像本身的特点,对画幅进行小幅度地微调来获得完整的全景镜头,以及合适的构图比例。

test case no.4:通过自定义 Zoomout 构建人物画像

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:先生成一个黄色漩涡图案,然后拓展时改写 prompt 为一只眼睛,进而生成一个带特征的面部局部画面,再次拓展时修改描述词为一个洞穴中的原始部落男性。

输出成果: 成功构建了一个有目标特征「黄色漩涡瞳孔」的男性角色,通过控制拓展比例以达到最终效果—-人物整体和局部特征均得以完整呈现的画面。

test case no.5:通过自定义 Zoomout 构建人物性格

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:先生成一个红色皮夹克的女性胸像,再改写 prompt 获得其坐在摩托车上的局部画面,再改写画幅比例获得完整的人物与车辆的全景照。

输出成果: 成功构建了一个有目标特征「红色皮衣+摩托车」的女性角色,通过控制拓展比例以达到最终效果—-人物细节和整体氛均衡的画面。

test case no.6:通过自定义 Zoomout 完善场景氛围

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:在初次生成的几批图像中,选择合适的画风和画面主体,再根据已有画面特征修改画幅比例。

输出成果: 在选定风格和主体后,将竖幅主体拓展为气势更足的全景影像。关键是拓展比例并非默认的 2 倍或 1.5 倍,而是根据实际需求来控制比例,同时也需要关注怎样的画幅比例可以传达对应的氛围。最终图像画幅比例是 3:1,适合展现有足够细节的宽幅场景。

test case no.7:在 niji 中应用自定义 Zoomout 构建人物和场景

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:

step 1、使用 niji 5 的 style original 生成一个细节丰富的初始人物;

step 2、以 1.2 的 Zoomout 比例纵向拓展出人物的半身画像,画幅比例是 1:2;

step 3、以 1.1 的 Zoomout 比例和 2:1 的画幅比例重构画面,得到外围场景;

step 4、以 1.2 的 Zoomout 比例和 3:4 的画幅比例重构画面,生成人物全身像;

step 5、改写 prompt 添加「宫殿」关键词,以 1.65 的 Zoomout 比例和 3:2 的画幅比例重构画面,生成人物在场景中的全景画面。

输出成果: 虽然人物细节和场景氛围的融合程度还不错,但因为漫画角色的细节较多,在多次 Zoomout 的过程中,场景的丰富会逐渐抢掉中心人物的视觉焦点。因此在每一次修改画幅比例与关键词的时候,需要多加注意对视觉元素的控制。

test case no.8:自定义 Zoomout 构建情绪与故事

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:

step 1、生成一个情绪和神情符合目标的初始人物;

step 2、改写 prompt 同时添加「马」关键词,以 2 的 Zoomout 比例和 3:4 的画幅比例重构画面,生成后续画面的基础,此时需要注意人物与马的位置关系,否则后续生成的画面会非常扭曲怪异;

step 3、以 1.05 的 Zoomout 比例和 2:1 的画幅比例重构画面,生成完整的马匹造型与部份环境信息;

step 4、对比改写 prompt 产生的变化,黑发组不改描述词,以 1.1 的 Zoomout 比例和 3:4 的画幅比例重构画面;白发组添加「巨大镜子」关键词,以 1.6 的 Zoomout 比例和 3:4 的画幅比例重构画面。

输出成果:通过控制 Zoomout 的幅度、画幅比例和 prompt 的调整,可以生成指定场景的画面,且人物的神态到位、情绪饱满,整体画面焦点清晰。但美中不足是,构图不够自由。

test case no.9:通过焦点变化构建故事的场景

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:

step 1、生成一个在河岸上的粽子;

step 2、修改 prompt 为「熊宝宝正准备吃粽子」,以 2 的 Zoomout 比例和 3:4 的画幅比例重构画面;

step 3、修改 prompt 为「小熊一家在野餐」,以 1.2 的 Zoomout 比例和 4:3 的画幅比例重构画面。

输出成果:通过对 prompt 的修改,控制 Zoomout 的幅度、画幅比例,可以改变画面中的焦点和表达主题,适合不同文化元素之间的混搭。

test case no.10:通过镜头变化,构建故事的起承转合

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:

step 1、生成一幅鲜花山谷的画面,人物要明显;

step 2、修改 prompt 为「一面巨大的镜子在草地上」,以 2 的 Zoomout 比例和 3:4 的画幅比例重构画面,此处竖构图是为了生成较高的全身落地镜;

step 3、修改 prompt 为「少女站在镜子前」,以 1.5 的 Zoomout 比例和 3:2 的画幅比例重构画面,改为横构图是为了囊括少女全身以及环境信息。

输出成果:通过改变画面中的焦点和增加元素,在镜头逐渐拉远的过程中,故事缓缓托出。

➡阅读更多 AIGC 相关内容


我的整体感受是:

通过 Midjourney V5.2 的 Zoomout 无限拓展,一次次修改画幅比例、提示词内容,可以用镜头语言的变化来讲故事了,也可以基于一些初始的「点子」延展成有意思的融合作品。但越是这样,越发显得对话式、指令式的交互界面( SD 那种也不算图形交互 )的局限太大了,我很希望今年之内能发展出图形交互界面。

没错,今年 AI 的爆发指向了一个新的趋势:对话式交互界面。但人类之所以发明绘画,开始通过设计图来制作各式各样的新工具,恰恰就是因为语言本身的效率太低。这个逻辑其实也可以从媒体形态上找到端倪:文字–> 图像–> 视频。仅仅依靠对话,我们无法构建出一个一把剪刀;仅仅通过语言表达的播客,也无法传达任何需要视觉才可以精准理解的信息。对话指令的交互界面与图形交互界面之间的关系,并非只是 dos 和 windows 之间的差异,更重要的点在于,后者可以更直观地完成交互,以及精准地进行创作行为。AIGC 的重点不仅仅只是 AI,而是我们如何使用 AI 进行「Generative Content」。

我说一句话,AI 给我一个东西,这不是创作。

创作是一个生命在主观意志的驱使下,刻意的、有目的地表达其心中所想。

因为 GPT 的爆发而说对话式交互是未来,这样的断言是过于冲动的。只要是一个严肃的创作者,就会立刻意识到,真正的创作一定需要多纬度的交互界面。这其中不仅仅包含对话指令,同样更需要图形界面以及在数字虚拟空间中的三维交互。AIGC 工具与 PS、表格、PPT、思维导图等已有工具的结合,就是这类多维交互的雏形。

那一刻,我们不会等太久。

➡阅读更多 AIGC 相关内容

借行业科普聊了一次 AI 与设计师的关系

By: Steven
5 April 2023 at 14:53

上个月去上海之前,@取景框看世界 在微信上邀请我一起做一期关于设计行业的科普视频,面向学生群体做一次对行业整体状况的分享。这次是 B站 向他发起的约稿,也是他频道的主要内容类型之一。答应他后,从上海回来我就根据自己这么些年的体会和反思,录了一期比较掏心窝的内容。由于参与的人比较多,直到前天,节目才终于上线。

🎥 点击图片跳转到播放页面

因为参与的人数比较多,我说的话也比较多,所以在汇总的成片里需要剪掉一些。但我又觉得难得录一期视频(从去年11月到现在都没有更过视频了),为了保证表达的完整性,我还是得有一个自己的版本。但因为实在忙得顾不过来,于是麻烦 @小雨 帮我把这条视频剪了出来。

毕竟是 @怪物尚志 的御用摄影/后期,有他的帮忙,我的视频里头一回多了许多配合文案的动画,比我一个人在镜头前单口相声好看多了。这一期花絮,也在昨天发了出来,跟正片错开一天。

🎥 点击封面跳转到播放页面

这期视频的封面是我昨晚用 midjourney 画的。

在这条视频里,除了科普工业设计的一些基本概念和行业现状,我也特别聊了一下 AIGC 和设计师之间的关系。前两个月虽然一直很忙,但我也一直在关注 AIGC 的动向。这两个月的变化实在是过于惊人了!

以下是我去年八九月用 midjourney 画的一些东西:

然而在这短短半年内,版本已经从当时的 v3 发展到了现在的 v5。ChatGPT 也从 GPT-3 发展到了 GPT-4,坊间传言 GPT-5 的研发已经完成且爬完了全网所有视频,可以直指某一条视频中的某一段话,只是还没发布。可以说开年后的这两个月内,AIGC 的发展速度已经大大超乎了预料,甚至正处于失控的边缘,它们正在开始颠覆一些东西。将来会发生什么,无法预料,但一定有什么事情已经在发生了。

所以我觉得,无论如何,再忙也得重新用起来。光是跟进各种新闻和消息是不行的,midjourney 前两天刚发布了由图片转译成 prompt 的新功能,多模态的 AI 已经不远了,这会更进一步推动人和 AI 之间的交互。我觉得,自己还是得保持使用状态才行。所以前两天我又重新充了值,开始体验它的新版本。

我先试着画了一些机甲的东西,例如这样的:

上面的两张的用 prompt 直接生成的,但下面的两张,是用 /remix 命令修改了部分描述词后的新图。可以看到下面的图和上面的图保持了相关性,于是我想试试,如果用这个命令替换背景会是什么效果,于是有了这组车的图:

上面的两张图是用 prompt 直接生成的,当我用 /remix 替换了背景描述的 prompt 之后,就生成了下面的两张。更换环境之后,车辆的姿态和镜头视角几乎没有变化,车身的反光与环境之间的关系也很自然,这个效果已经可以说非常惊人了!

然后,我随便画了一些白色的机器人站在燃烧废墟上的场景:

用 /remix 替换了机器人配色部分的描述词后,生成了下面这样的图:

对 /remix 有了基本的体感之后,我开始尝试用 /blend 命令来做一些融合的实验。

首先,我随便描述了一个赛博少女,得到一些随机的图:

接着,我再随便生成一个红发少女:

材料准备好之后,开始把它们进行组合。

第一次先尝试融合两张图,一个是游戏画风的机甲人,一个是二次元的赛博少女。

它们俩合成后,得到了以下这个人物:

新角色具备其中一张图里人物的长相特征与体态,也有另一张图的配色和机甲特点。虽然得到的结果具有随机性,但既然可以这样融合,那么应该也可以通过 /blend 命令来得到一些更有目的性的创作。

有了第一次的体验后,第二次我用三张图片进行合成:

图一是现画的半透明金属机器人,图二是上面准备好的红发少女,图三是现画的骑士。

这三个合成出来的新角色,同时具备了细碎的金色细节、波浪红发、银白色盔甲:

但这不是我想要的,我想试试加大红发少女的比例。在垫图的方式下,可以通过 –iw 命令来分配各个图片之间的权重占比,但是在 /blend 中不能这么操作。于是,我想通过把合成的新图作为素材,再一次与红发少女进行融合,并加入机甲的元素来强化她身上盔甲的质感。

二次合成使用的图,如下:

合成出来的新角色我非常满意!

她既有红发少女面部和眼神的特征,又把两副银白外甲融合得非常优雅,也保留了初始半透明金属机器人遗传下来的金色金属关节的特征,又做出了图三机甲的坚硬感和图一外甲的银白光泽。这一次的融合很成功。

但如果 /remix 可以局部替换特征,那么这些没有写 prompt 而是通过 /blend 直接合成的图,能否通过 /remix 加入新的 prompt 来修改已有的特征呢?

为了让实验效果明显一些,我想让盔甲的白色部分比例缩小,增加金属部分的比例,于是就先把这批图重新刷了几遍,直到出现肩甲是金色的变异版本:

然后不断在此基础上进一步变异,强化金色肩甲的特征:

所有图片均可以点击放大下载原图

准备好之后,我在 /remix 中添加新的 prompt:pink armor

以下是修改特征后的结果:

所有图片均可以点击放大下载原图

整体的效果我还是挺满意的。一来,新生成的人物很好地保持了最初红发少女的眼神和神态;二来,金色金属被替换成粉色金属后,金属质感的表达是正确的。虽然头发也一起变成了粉色,这确实是没完全理解指令,但原有的发色搭配新的粉色盔甲也确实不是很和谐。

到此,重新开始用 AIGC 工具的热身完毕,找回一些感觉了。

至于这期视频封面里用到的车图,是我昨晚用 Maserati 和 Ferrari 以及 Apple 和 Tesla 分别杂糅出来的缝合怪。虽然乍一看好像没什么新奇的,但是如果我把去年八月底用 midjourney 画的汽车拿出来对比,就会意识到这是多么疯狂的进化速度了:

上面三个是去年八月用 v3 画的车;

下面这些是昨晚用 v5 画的车:

所有图片均可以点击放大下载原图
视频封面使用的图片
所有图片均可以点击放大下载原图

虽然工业设计有大量的细化和落地工作是 AI 无法干的,但从目前来看,无论是 midjourney 还是 Stable Diffusion + controlNET 都已经可以很好地帮助设计师完成概念发散和快速枚举了。这样的图像质量,通过垫图、remix 和 blend 的组合使用,完全可以在创意初期快速拉出一批高质量的「草图」,设计师可以把更多的精力放在对方案思路的推敲、对细节的考据以及各个环节的沟通协调上。

从今年二三月开始到往后的十一二年,人类社会将迎来一场以破坏为开端的变革和创新。

无论我们是否愿意,都将一起进入新的世界。

AI 会促使设计师成为更完整的人

By: Steven
28 March 2023 at 00:32

最近关于 AIGC 的关注度太高了,自己也时不时会抽空去了解一些情况,或者尝试去用一些工具。很多关于 AI 要替代人的观点大行其道,也一直有不少 AI 要让设计师失业的看法在坊间流传。但我自己的感受和看法是:

在 Midjourney、Stable Diffusion、ChatGPT 这些 AI 工具出现后,「手头功夫」并没有因此丧失意义,它们只是不再具备作为门槛的价值,但依旧是重要的前提。因为「手头功夫」是培养我们发掘问题、判断优劣和快速取舍的重要训练,缺少这部分锻炼,会让人在这一系列 AI 工具面前感到无力。准确地识别问题并提出诉求,这是未来教育的重中之重,也会反过来强调人的价值。

正好,前段时间后浪送了我一本书,是前微软包容性设计的首席总监 Kat Holmes 写的《误配》。一边看这本书,我就一边在结合自己的工作和最近关于 AIGC 的思考,我觉得这本书里提倡的理念,正好回应了当下的舆论思潮。

大部分谈论设计的书,都在试图通过图形和案例来构建一类理论和范式。但在这个 AIGC 日进八万步的新时代里,设计师要以什么身份来参与?我认为所有的既定范式,都会在三到五年之内被全部击碎。串联、融汇、杂交才是新世界的主流,创作者的身份将愈加模糊,甲乙方的界限也会逐渐消失或扭转。怎么回应这样的快速变化?我觉得《误配》这本首版于五年前的「旧书」,提出了很适合当下思考的母题:

设计行为、设计师、设计对象以及新技术之间,如何在智能化浪潮里,互相包容和一起进化?

这本书没有给出直接的答案,但对于有三年以上工作经验的设计师而言,带着经验、问题和困难去阅读,会有启发和收获。「物」的旧体系正在溃散,「系统」和「生态」将是历史的新主角。旧时代的残党,可以下船了。

昨天在各个社交媒体上发了一下自己的读书感受,因为被后浪的微博官号转发了,于是被这本书的译者何盈女士注意到。正巧我的朋友宋喆在刷朋友圈时看到她的这条寻人启事,就这么阴差阳错地跟她直接联系上了。

这种「地球村」的感觉很妙!

这更坚定了我今年一定要 重新启动设计纪录片 的决心了!

用 Newbing 辅助写的第一篇 blog / The first blog to be aided by NewBing / NewBingによって助けられた最初のブログです

By: Steven
2 March 2023 at 11:54
一週裡有一半時間都坐在這裡工作 / I spend half of the time in a week working here / 私は一週間の半分の時間をここで働いています
我讓店裡特意給我保留的專用裂口杯 / I asked the store to keep a special slit cup for me / 私は店に特別なスリットカップを取っておいてもらった

原本被通知早上要和客戶開會,騎到平時停車的地方時卻被臨時告知先不開了。因為起來得比平時早一些,所以覺得有一點睏睏的。於是,就在店裡坐著冥想了五分鐘,借倆口咖啡因下肚先回點血。

I was originally notified that I had to meet with a client in the morning, but when I rode to the place where I usually park, I was told that it was not going to happen. Because I got up earlier than usual, I felt a little sleepy. So, I sat in the shop and meditated for five minutes, and took a couple of sips of caffeine to get some blood back.

元々は朝にクライアントと会うことになっていたのですが、いつも駐車する場所に着いたら、やめることになったと急に言われました。普段よりも早く起きたので、少し眠気がありました。そこで、店の中で座って5分間瞑想し、カフェインを2口飲んで血が回るようにしました。

在最近幾次冥想的過程中發現,Apple Watch 的這個呼吸頻率對我來說已經偏快了,如果完全按照我自己的節奏來控制,起碼得是 3 次,或者 2.5 次這個頻率,但 Apple Watch 已經不能設置更慢的呼吸節奏了。

I found out in the last few meditations that this breathing rate of Apple Watch is too fast for me. If I completely control it according to my own rhythm, it should be at least 3 times, or 2.5 times this frequency, but Apple Watch can no longer set a slower breathing rhythm.

最近の瞑想の過程で分かったのですが、Apple Watchのこの呼吸頻度は私にとっては早すぎます。自分のリズムに完全に合わせてコントロールするなら、少なくとも3回、あるいは2.5回この頻度でなければなりませんが、Apple Watchではもう遅い呼吸リズムを設定できません。

剛才測了一下時間,我三次呼吸(一呼一吸)的總時長是 2:03 (兩分零三秒)。這樣的話,換成 AW 的呼吸頻率計算方式應該是「每分鐘呼吸 1.5 次」。

I just measured the time and found that the total duration of my three breaths (one inhale and one exhale) was 2:03 (two minutes and three seconds). In this case, using AW’s breathing frequency calculation method, it should be “1.5 breaths per minute”.

さっき時間を測ってみたら、私の3回の呼吸(一呼吸)の合計時間は2:03(2分3秒)でした。この場合、AWの呼吸頻度の計算方法に換算すると、「1分間に1.5回呼吸」となります。

*以上英語和日語翻譯採用 New Bing 的 AI 完成。

*The English and Japanese translations are done by New Bing’s AI.

*以上の英語と日本語の翻訳は、New Bing の AI によって行われました。

但是,翻譯完之後,它居然一直反問我新的問題,是對我和我的行為感到好奇嗎?

But after translating, it kept asking me new questions. Is it curious about me and my behavior?

しかし、翻訳した後、新しい質問をずっと聞いてきました。私と私の行動に興味があるのでしょうか?

不是的。據我所知,它只是一個根據字詞關係來生成對話的超大模型,這種對話其實非常可能來自人類語庫中不要讓話掉在地上的社交禮貌用例。所以,這種反問並不能證明這個對話 AI 已經具備了意識。

No. As far as I know, it is just a huge model that generates dialogue based on word relationships. This kind of dialogue is very likely to come from human language libraries that do not want to let the conversation fall to the ground. Therefore, this kind of rhetorical question cannot prove that this dialogue AI already has consciousness.

いいえ。私の知る限り、それは単に単語の関係に基づいて対話を生成する巨大なモデルです。このような対話は、会話を地面に落とさないようにする人間の言語ライブラリから非常に可能性が高く来ています。したがって、このような反語的な質問は、この対話 AI がすでに意識を持っていることを証明できません。

人类的定义正在重构的历史开始了

By: Steven
13 February 2023 at 14:02

上周在即刻看到一个话题:

ChatGPT vs. iPhone 两种技术有何异同? 就它们制造产业变革和影响来说,对比思考能否启发对未来的想象?

我目前的看法是:

iPhone 为代表的技术,拓展了人的外延。人是技术网的中心,是作为生物人抛向空中的一块大腿骨。

ChatGPT 为代表的技术,更新了人的定义。信息和意识不是人的特权,是否只有生物人才是人,需要被认真严肃地对待。

前者的产业革新是建立在人脑上限之中的,超过脑容量的部分,推进速度非常缓慢。

后者不存在理论上限,对自身的推进速度远大于前者。但由于前者高度依赖人这个不确定因素,因此,在后者产生革新的同时,会同时产生大范围的剧烈冲突。前者脆弱,但作为后者的基建,这种大范围冲突可能导致两败俱伤,拖累后者进化速度。但因为发展不平均,所以后者会衍生出全新的社会形态。

AI 不需要代替人才能更新「人」的定义,更不必达到硅基生命的程度,只需要在表达方式上像人(即便它根本不理解自己在说什么),就自然会在生产方式和伦理上产生大量冲击。这些冲击会更新人对自身的认识,配合其自身的效率属性,人会主动更新对自身的定义描述。

在此基础上,设计师将来的工作会和今天大不相同。因为我们在思考人与物的关系时,中间的媒介可能不会再是物理交互和界面交互,而是面向 AI 的交互。这种交互可能是有形的,也可能是无形的。另一种更有可能发生的情况是,你所设计的产品不是给人类使用的,而是面向 AI 的中间件,这会改变很多约定俗成的非物理/生物层面的规则。

我们有幸站在了这段历史的开端之中。

ChatGPT 搜索突然发布,AI 搜索卷出天际 | 附内测申请链接

By: 李超凡
26 July 2024 at 05:06

在最近 Llama 3.1 等大模型产品发布后,GPT-4o 的优势在快速被缩小,OpenAI 也在沉寂一段时间后恢复了密集的新品发布节奏。

就在刚刚,OpenAI 正式宣布搜索产品 SearchGPT 开放内测,这个从 5 月就开始传言的产品正式亮相。不过 SearchGPT 还没全面开放,需要先申请加入 waitlist。

内测申请地址🔗https://chatgpt.com/search

OpenAI 表示,SearchGPT 旨在将模型的强大能力来检索网络的信息,为用户提供快速及时的答案,并附有清晰和相关的来源。目前先向一小部分用户开放,以获取反馈意见。

Sam Altman 也在 X 上表示自己比起传统搜索更喜欢这种搜索方式,并公开征集用户的意见。

虽然现在内测的这个原型是临时的,但 OpenAI 计划将这些功能中的最佳部分直接整合到 ChatGPT 中。

目前 AI 搜索虽然在市场份额上还远不及 Google 等传统搜索引擎,但这个赛道已经很热闹,OpenAI 作为一个后来者,SearchGPT 对比 perplexity 、Bing 等产品有什么不一样?

SearchGPT 交互界面和 ChatGPT 类似,直接在对话框输入问题就能快速获取答案。

在引用信源的展示上,SearchGPT 采用了短文字超链的方式,将鼠标移动到文字上,会弹出包含信源标题的的卡片。

在初次提问后,用户可以继续追问更多人体,这和我们现在和 ChatGPT 对话体验一样,每次搜索都会建立共享的上下文。

在搜索结果的展示上,除了文字 SearchGPT 也提供了图片和视频的反馈,体验更加直观。

OpenAI 也宣布了和一些新闻媒体的合作,希望 SearchGPT 用户通过在搜索中显著引用和链接出版商来帮助用户与出版商建立联系,用户可以在侧边栏中的源链接快速查看更多结果。

与 OpenAI 合作的新闻媒体可以管理他们在 SearchGPT 中的展示方式,在数据处理方面,SearchGPT 专注于搜索,与训练 OpenAI 的生成式 AI 基础模型是分开的。

即使这些新闻网站选择不用于大模型训练,它们仍然可以出现在搜索结果中。

关于 SearchGPT 的更多体验和细节,APPSO 也会在获取测试资格后第一时间与大家分享。

最后和大家分享 Perplexity CEO Aravind Srinivas 最近在一个专访中,关于 AI 搜索未来的观点。

Aravind Srinivas:如果你看得更远点,甚至在互联网之前,知识一直在不断传播。这是一个比搜索更大的事。

搜索是一种方法。互联网是快速传播知识的一种方式,最开始按主题组织,然后有 Yahoo 分类,然后是更多的超链接。Google 也开始通过知识图谱等做即时问答。我认为即使在 2010 年,Google 流量的三分之一,当时是每天 30 亿次查询,都是来自 Google 知识图谱的即时答案,基本上来自 Freebase 和 Wikidata 的东西,都是。

所以很明显,至少 30 到 40% 的搜索流量只是答案的一部分。其余的,你也可以说是像我们现在正在服务的,更深度的答案。

但是另一个真实的情况是,随着更深层次的答案,更深入的研究力量,你能够问出以前不能问的问题。比如,你能问「AWS 是否在 Netflix 上」这样的问题吗?这将让你问一种新的问题,一种新的知识传播。所以清楚地解释搜索和答案引擎之间的区别很难。

我相信我们正朝着的方向既不是搜索也不是答案引擎,而是发现,知识发现的方向发展。这是更大的使命,可以通过聊天机器人,答案机器人,语音等使用形式来满足,但比这更重要的是指导人们发现事物。我认为这就是我们在 Perplexity 上想要做的,满足人类的基本好奇心。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Macs had malware long before Mac OS X

By: hoakley
13 July 2024 at 15:00

For the first three years after the release of the Mac, it’s believed to have remained blissfully free of viruses and other unwanted and malicious software, which was only just starting to plague other personal computers.

Then came the first variant of the nVIR virus in 1987, and the following year a spate of malware in HyperCard stacks. Those were encouraged by the app’s rapid popularity, and exploited its built-in scripting language HyperTalk. John Norstad of Northwestern University responded by releasing his popular anti-virus app Disinfectant in 1989, and others followed in his wake.

virusnortonav

Symantec Antivirus for Macintosh (SAM), renamed Norton AntiVirus (NAV) in 1998, was launched in 1989, two months after Disinfectant. McAfee later based its commercial VirusScan on Disinfectant.

During the 1990s viruses became more widespread and malicious, and some exploited features such as CD AutoPlay, widely used to run QuickTime rich media from optical disk. Apple’s new accessible scripting language AppleScript soon fell victim to a whole range of nasties, which continues to this day. In 1997, it was estimated that there were at least 35 Mac-specific viruses, together with numerous malicious macros for Microsoft Word and Excel that caused mayhem across platforms.

viruscollection

Here’s my small collection of samples that I used when evaluating and reviewing anti-virus products at the time. Many of these were INITs that loaded at startup, and several could prove very damaging. There were several unfortunate accidents where Mac malware was distributed by commercial sources, including one provided in the cover floppy disk of a reputable Mac design and publishing magazine.

virusagax

John Norstad’s Disinfectant finally bowed out on 6 May 1998 after nearly a decade of service to the community, but there were still free tools including Agax, with its modular design, shown above.

By the end of that decade there were six commercial anti-virus products for Macs, of which the most popular were Norton/Symantec Antivirus for Macintosh, and Virex for Macintosh from Datawatch Corporation. In addition to those, two British developers offered products, Dr. Solomon’s AntiVirus ToolKit for Macintosh and Sophos, and there was one from France.

VirusBarrier

Intego, then based in Paris, first released its anti-virus Rival in 1997, initially only in French. Then in October 2000, it released the first version of VirusBarrier for Mac OS 8 and 9.

Throughout this period, Classic Mac OS retained its reputation as being largely untroubled by malicious software, despite reality. Protection provided by Mac OS seemed rudimentary if not lacking altogether. This didn’t change with the introduction of Mac OS X, at least not until Renepo/Opener, a widely publicised Trojan, appeared in 2004 and Apple was forced to add protection in Mac OS X 10.4 Tiger.

virusclamxav

Fortunately, by that time commercial developers were supporting Mac OS X, and Tomasz Kojm’s freeware ClamAV, first released in 2002, had been ported from Unix as ClamXav.

Further reading

Key Moments in the History of Mac Malware – 1982 to the Present, Kirk McElhearn
The Evolution of macOS Security and Privacy Features, Joshua Long

ChatGPT on macOS客户端app正式面向所有用户开放

By: Justin
27 June 2024 at 09:21
OpenAI宣布了适用于 macOS 的 ChatGPT 客户端app正式面向所有用户开放。该应用专为 macOS 系统设计,支持快捷键呼出和多种内容形式的交互。目前仅适用于配备 Apple Silicon(M1 或更高版本)的 macOS 14+,但计划在今年晚些时候登陆 Windows。

Claude 3.5 VS ChatGPT-4o 生成 Web 小游戏实测对比

By: Anonymous
19 June 2024 at 20:57

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

经过了一年的时间,Claude 从 2.0 版陆续升级到 3.5 Sonnet 版本〔2024/6〕,在 Claude 3.5 Sonnet 中推出了几个显而易见的改进:

你只要免费注册登入一个「 Claude 」账户,就能开始使用最新的 Claude 3.5 Sonnet 模型,然后别忘了进入「Artifacts」功能,试试看直接在对话中生成你需要的网页小工具、小,乃至于简单的 PPT。

下面我会实际测试这些成果,并且与 制作出来的版本做对比,提供有兴趣的朋友参考。

我用下面这个共同指令,来测试看看 Claude 3.5 与 ChatGPT-4o 是否可以「直接」做出可用的乱序抽签网页小工具。

让我先来试试看 Claude 3.5 Sonnet 结合「Artifacts」的效果。直接输入上面的指令,Claude 就会分析我的需求,开始撰写源码,并立即生成可以预览、互动的 HTML 文件,而右边窗口可以直接进行操作。

看起来 Claude 3.5 Sonnet 只要简单的指令,就能很好的理解我的需求,并且可以自己设计需要的架构与源码,我并没有讲得太细,实际呈现出来的效果都是 Claude 3.5 Sonnet 自己分析出来的。

接着我们试试看 ChatGPT GPT-4o 做出来的成果如何?用同样的指令,ChatGPT 也可以根据我的需求自行分析网页需要的架构、逻辑,然后自行写出源码。

不过,ChatGPT 目前没办法像 Claude 那样在右方直接预览成果。

所以我请 ChatGPT 直接打包成 HTML 文件让我下载。

下载后,下面是 ChatGPT 制作出来的版本。界面与操作也很不错,并且自己加上了一个可以设置数字范围的额外字段。

和 Claude 3.5 Sonnet 版本对比,你觉得哪一个比较好呢?

接着,我测试了设计贪吃蛇网页小游戏,用下面的指令,直接套用在 Claude 和 ChatGPT 上。

把指令输入 Claude 3.5 Sonnet,同样的,AI 自动分析需要的架构、逻辑,一次问答,就生成出右方一个可以操作互动的贪吃蛇小游戏。

游戏中可以用键盘控制方向,有吃球长大的效果,也有失败的机制,是一个可玩的小游戏。

同样的指令输入 ChatGPT GPT-4oChatGPT 这次写出一串很长很长的源码,我同样请其直接打包成 HTML 文件给我,同样是一次生成,中间没有经过任何修改。

下面是 ChatGPT 制作出来的贪吃蛇小游戏,多出了一个「控制游戏快慢」的功能,而其他部分则和 Claude 的效果一样。

从前面两个实际测试案例来看, Claude 3.5 和 ChatGPT-4o 都能「一次生成」上述的网页小工具、小游戏,他们都会完整的分析我的需求,AI 自行进行需要的设计逻辑分析,然后自动写出完整的源码。

不过 Claude 3.5 Sonnet 多出了一个 Artifacts 功能,可以直接在右方预览效果,确实看起来很方便,如果要进一步修改,也会更加简单。

例如,我下面尝试让 Claude 3.5 Sonnet 制作 PPT,我先提供一些资料,请 AI 设计大纲并产出 PPT,Claude 3.5 Sonnet 就制作出一个可以在右方预览的版本,而且是真的可以翻页。

但我想调整风格,所以我上传一张风格图片,请 Claude 3.5 Sonnet 分析,并据此改变 PPT 风格,没想到效果居然非常好!〔如下图〕

看起来「 Claude 3.5 Sonnet」结合 Artifacts,确实值得要对源码、网页、文件有需求的朋友试试看。

如何使用 Proxifier 来进行流量代理控制

30 March 2023 at 22:33

Proxifier 是一款网络工具软件,可以帮助用户通过代理服务器进行网络访问,实现匿名化、翻墙、加速等功能。支持多种代理协议,规则管理,流量监控和日志记录等功能,提高网络连接的灵活性和智能化。注意 Proxifier 本身并不是一个代理软件,也不是一个 VPN 软件,其作用是控制其他其他软件访问代理的方式。

上一篇文章我提到了可以试用 Proxifier 来解决通过 Shadowsocks 代理访问呢 ChatGPT 频繁出现 Something Went Wrong 的问题,在本文中我们来展开讲一下具体的做法。

1 准备工作

1.1 软件下载

Proxifier 的官方网站是 https://www.proxifier.com/,其正版价格较贵,约 40 美元。不过,较早的 2.x 版本存在破解版。读者可以根据自己的经济状况来选择。

1.2 代理准备

如同开头提到,Proxifer 本身不是一个代理程序,读者应该自己提前准备好代理。这些代理中,无论是 Shadowsocks、V2Ray 还是其他常见的代理程序,都会在客户端本地重建一个 Socks5 代理,这一般都可以在代理客户端程序的配置或者服务器设置中看到。下图给出的是 Shadowsocks-NG 客户端在 macOS 中的系统配置,可以看到程序在本地 (localhost) 的 1086 端口创建了一个 Socks5 代理。

这个代理会被进一步转成 http 代理,从而被浏览器使用,这个转换过程是导致 ChatGPT 链接不稳定的元凶。接下来我们要使用 Proxifier 让 ChatGPT 直接使用 Socks5 代理。

2 设置 Proxifier

2.1 添加代理

我们以知乎上这篇文章为范本简要讲一下设置过程。首先我们需要将现有代理软件提供的 Socks5 服务告知 Proxifier,这通过添加代理服务器实现。

注意一般各种代理软件在本地创建的代理都是无需验证的,我们可以取消验证启用。输入设置之后,可以点击检查确认设置是否正确。

3 设置规则

为了让 ChatGPT 的访问能够通过 Proxifier 访问代理,我们需要配置 Proxifier 的代理规则。

添加代理规则的页面如下:

我们有两种方法引导 ChatGPT 的网络访问:

  1. 我们可以选择下载 ChatGPT Desktop 客户端,然后通过代理规则中应用程序过滤规则找到 ChatGPT 程序,然后让目标主机为空(这意味着所有的目标主机都会服从本规则);
  2. 将应用程序部分置空,然后在目标主机中填入 ChatGPT 访问的域名。经过我的试验发现,填入 chat.openai.com; challenges.cloudflare.com; *.openai.com; 即可。

事实上,因为 Proxifier 能够全局性地处理所有网络访问,因此,第二种方法对于使用 ChatGPT Desktop 的用户来说同样有效。下图是完整代理规则。

至此我们就完成了设置,你可能需要重启浏览器才能能让 Proxifier 成功地引导 ChatGPT 的流量。

使用 Shadowsocks 访问 ChatGPT 频繁出现 Something Went Wrong 问题的解决方法

28 March 2023 at 18:16

update at 2023.4.27:

Github 上有人做了一个开源的油猴脚本 KeepChatGPT 可以解决这个问题。在浏览器上这个脚本可以正常使用,但是注入到客户端时(尽管内部仍然是一个浏览器)会出现错误。

update at 2023.4.12:

在 Windows 上这套方法存在一定的问题。可能的原因是 Proxifier 的代理权限有时候会被 Shadowsocks 客户端,也就是 Privoxy 争抢。

由于国情原因我们使用使用 ChatGPT 需要使用各种形式的代理,这时我们肯能会发现在与 ChatGPT 对话的过程中可能会出现下面的错误:

Something went wrong. If this issue presists please contact us through our help center at help.openai.com

这种错误一般在我们再让网页空闲一段时间(通常是一分钟)后再次提问时出现。当然,去 OpenAI 的帮助中心是不会搜到什么有用的信息的。如果你去检索这个问题,你能得到的最好答案是在出现这个页面之后刷新页面,然后回到对话窗口继续对话即可。但是刷新后如果再次出现空闲窗口的情况,这个问题会反复出现,因此你在对话中就不得不反复地刷新页面,再加上每次页面重载你都需要去勾选 Cloudflare 的机器人验证框,这就会极大程度上拖慢我们的速度,影响产品体验。

这个问题是否可能是由于我翻墙访问导致的呢?我使用的翻墙软件是 Shadowsocks,经过一番搜索,一个 Github Issue 的讨论给了我灵感。

讨论地址:https://github.com/shadowsocks/shadowsocks-libev/issues/2149

尽管讨论的题目和 ChatGPT 没有直接关系,但是这个回复提到,Shadowsocks 在构建代理管道时,会在客户端使用 Privoxy 来讲 Socks5 代理转换成 http 代理,进而被浏览器使用。Privoxy 的配置中包含了 Socket 连接时长方面的控制。于是我查看了我本地的 Shadowsocks 使用的 Privoxy 的配置文件,这个文件在 MacOS 中位于 /Users/lena/Library/Application Support/ShadowsocksX-NG/privoxy.config 文件。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
toggle  1
enable-remote-toggle 1
enable-remote-http-toggle 1
enable-edit-actions 0
enforce-blocks 0
buffer-limit 4096
forwarded-connect-retries 0
accept-intercepted-requests 0
allow-cgi-request-crunching 0
split-large-forms 0
keep-alive-timeout 5
socket-timeout 60

forward 192.168.*.*/ .
forward 10.*.*.*/ .
forward 127.*.*.*/ .
forward [FE80::/64] .
forward [::1] .
forward [FD00::/8] .
forward-socks5 / 127.0.0.1:1086 .

# Put user privoxy config line in this file.
# Ref: https://www.privoxy.org/user-manual/index.html

可以看到 keep-alive-timeoutsocket-timeout 这两个选项设定的超时时间都比较低。我做了下面两个尝试:

  1. 将这两个设置调高,并重启 Shadowsocks,但随后发现 Privoxy 重置了设置文件;
  2. 我手动 kill 掉正在运行的 Privoxy 并且手动使用更新后的 config 文件调起一个新的进程,但是仍然没有解决 Something went wrong 的问题;

至此,我也不想和 Privoxy 纠缠下去,既然问题出在 Socks5 代理转 Http 代理的环节,我们可以使用 Proxifier 这个软件直接使用 Shadowsocks 提供的 Socks5 代理,就可以很好地解决这个问题。

Proxifier 的教程网上非常多,我就不在这篇文章里赘述了。

Proxifier 的使用参加我的文章:如何使用 Proxifier 来进行流量代理控制

整合利用 11 款 AI 工具,打造高效率个人专属工作流程

By: Anonymous
7 June 2024 at 15:24

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

众多的 AI 工具让人眼花缭乱,根据不同需求有不同的工具选择,要如何针对自己的工作流程,选择适合自己的 AI 工具呢?有时候最困难的是不要在一大堆工具里迷失,才能建立刚刚好适合自己的 AI 工具组合。

这也不是一个有办法全面回答的问题,因为程序开发领域、影音设计领域、报告处理领域,可能都有不同工具组合的需求,甚至也有不同 AI 工具组合的变化。

所以,这里只能属于自己的 AI 工具流程,应用在我日常的工作流程,以及自媒体与博客写作流程中,下面是我的工具组合,以及如何搭配在工作流程中,提供大家参考。

工具流程没有标准答案,欢迎大家在留言分享你的选择与组合。

想要快速掌握我常用的 11 个 AI 工具的朋友,可以直接参考下面的表格,并通过工具名称的链接,进入到相关的工具的介绍文章。

我如何搭配这些工具,进入我真实的工作流程中呢?下面这张流程图,可以展示出目前我的工作流程。

如果你说,为什么没有 AI 视频编辑工具?没有 AI 源码工具?没有更进阶的 AI 图像编辑工具?很简单,因为这就是我目前需要的真实工作流程,每一个人需要的工具会有不同处,也欢迎分享你的工作流程与工具。

但工作流程的逻辑可以套用在不同的工作需求上。

以上就是我目前利用这些工具的工作流程,提供大家参考,也欢迎分享你的工作流程,大家互相参照。

ChatGPT Mac 官方客户端,无需灰度等待,抢先使用 GPT-4o 和语音模式指南

By: Anonymous
23 May 2024 at 12:58

DUN.IM BLOG

DUN.IM BLOG

ChatGPT Mac 官方客户端,无需灰度等待,抢先使用 GPT-4o 和语音模式指南

OpenAI 今年 5 月 13 日宣布推出适用于 macOS 桌面程序〔来源,可以将 ChatGPT 整合到电脑上运行各种操作,不再受限于,还能通过快捷键快速进入 ChatGPT 发送信息,其中最引人注目的是语音模式,受益于 GPT-4o 模型提供更快的回应速度,达到用户和 AI 双向几乎没有延迟,犹如跟真人对话,如果有关注 OpenAI 发表会 Live Demo 应该会非常期待这个新功能。

虽然 OpenAI 表示 ChatGPT 应用程序会在发表会后先向 ChatGPT Plus 会员推出,最终用户一样可以使用该应用程序〔不过使用限制较严格〕,但从国外讨论来看目前还无法从官网找到 Mac 应用程序的链接,不过有抢先使用的攻略,有兴趣的朋友可以试试看。

当然 ChatGPT 应用程序未来还会推出 版本。

ChatGPT Mac 桌面应用程序要求必须为 macOS 14 以上,只支持 Apple Silicon 内核〔M1、M2 或 M3〕,较早之前的 Intel Mac 无法使用,我本身是 ChatGPT 免费用户,依然可以使用 Mac 应用程序。

先从以下链接获取 ChatGPTMac 版应用程序,oaistatic.com 是 OpenAI 公司用于托管静态文件的域名〔可在 ChatGPT 网站源码找到该域名〕,性是没有问题的。

下载后运行、将 ChatGPT 拖曳到应用程序资料夹即可使用。

进入 ChatGPT Mac 应用程序,第一步是先登入 OpenAI 账户,可使用 账户登入或使用电子邮件注册账号。

目前在登入时会跳出下面「即将推出」错误信息,会有「你尚无桌面版应用程序的存取权。你仍可以在 https://chatgpt.com 使用 ChatGPT」,这个错误和免费或付费用户无关,是官方仍在灰度提供给用户应用的使用

绕想要过限制使用很简单,只要重新登录应用程序,在登入后跳出错误信息前立刻以快捷键〔Command + Q〕推出应用,重新进入应用程序后就能绕过并进入主画面,强制关闭应用程序的时间点大概就是按下登入后跳出一个大窗口时,可以多试两回,时间点不会太难抓。

第一次进入 ChatGPT 应用程序后就会有一个启动工具介绍,简单来说就是快捷键组合,默认情况可以在按下「Option + Space」后快速打开 ChatGPT 聊天工具。

如此一来就能利用快速键进入聊天对话框,发送信息至 ChatGPT

如果你想将快捷键设置成其他按键组合,在 ChatGPT 应用程序设置选项可以找到键盘快捷键设置功能。

顺带一提,在写这篇文章时 ChatGPT 已有 GPT-4o 模型,从下方选项就能切换 GPT-4o 或 GPT-3.5,GPT-4o 的反应速度更快,免费用户也能使用,但问答次数有限。

ChatGPT 应用程序另一大特色就是可以抢先进入非常强大的「语音交谈」功能,点击右下角耳机图案就会看到相关介绍,可以通过语音方式和 ChatGPT 进行口语对话,不需查看屏幕,也几乎能够在口说后即时获得答复,整个对话过程会被转为文字内容,事后也能利用文字回顾和 AI 的对话记录。

进入新语音模式后会有几种不同的声音可以选择,不过语音 Sky 和好莱坞女星史嘉蕾乔韩森声音雷同引发争议,已从原先放出来的五种声音选项中移除,剩下 Ember、Cove、Breeze 和 Juniper。

通过全新的语音模式就能以口说方式和 ChatGPT AI 对话,我试着使用中文一样听得懂!搭配上 GPT-4o 回应速度真的很厉害,在很短时间就能获得回应,对话内容也会转为文字显示于聊天记录中,有兴趣想要体验一下最新技术的朋友可以去玩玩看。

ChatGPT 关联 Google 网盘功能,自动化分析处理 Excel 表格能力增强

By: Anonymous
18 May 2024 at 16:48

DUN.IM BLOG

DUN.IM BLOG

ChatGPT 早期有一个功能叫做「 Code Interpreter 」,后来改名「高级分析」,功能本质都是通过 编写 Python 程序来分析我们的数据文件,最直接的利用就是上传 Excel 电子表格后,可以利用这个功能自动做完统计、创建图表,甚至提供决策建议。

而在 推出 GPT-4o 模型后,这个功能又更进一步,现在 可以「连接」到 Google 网盘中的文件获取 Google 电子表格的数据,并针对表格中的某一段数据进行 AI 提问、新图表生成。

前阵子开放 GPT-4o 后,许多功能〔包含 GPT-4o 〕也开放给用户试用〔有使用次数限制〕,我也看到有免费用户可以利用 GPT-4o 上传 Excel,制作简单的统计图表。〔ChatGPT Code Interpreter 八种应用:分析 Excel、制作图表与动画

现在,Plus 会员用户〔ChatGPT Plus、Team 和 Enterprise 用户〕也迎来了一个更强大的、可直接互动的 Excel、Google 电子表格 AI 分析统计功能,配合 GPT-4o,付费用户应该这几天就陆续收到更新。 在改进的「互动式」数据分析功能中,有下面这些特色:

如果你的付费 ChatGPT 账户获得了新功能,会看到提问中原本可以上传文件的按钮,现在可以直接关联 Google Drive、OneDrive 中的文件。 只要授权 Google Drive 或 OneDrive,就能直接获取网盘上的电子表格或文件,带入 ChatGPT 进行分析。 ChatGPT 关联 Google 网盘功能,自动化分析处理 Excel 表格能力增强

之前在 ChatGPT 上传 Excel 进行分析有几个难题,其中一个是 ChatGPT 在计算、分析完成,我们只能看结果,不能方便的「对照」原始数据参考。

而现在,只要电子表格的格式支持〔有些比较复杂的表格会无法正常显示〕,上传文件〔或连接 Google 电子表格〕后,可以在 ChatGPT 中直接「载入」完整表格内容,还可展开表格进行讨论。 把表格展开,就会变成左边是电子表格,右边是 ChatGPT 问答,我们能够一边对照电子表格,一边进行提问。〔很像其他第三方的 AI 问答的设计,例如: ChatDoc

ChatGPT Plus 之前分析 Excel 时还有一个问题,就是他针对整份文件做分析,如果我想单独分析其中一部分数据,就要在提问中做各种描述与限制,让 AI 理解我要处理哪一部分的数据内容。

现在这个问题就迎刃而解。 如图我可以在 ChatGPT 的电子表格浏览窗口中,先点击需要分析的字段,然后在右方提问下指令:「统计每个人的支出总金额」。让 AI 明确知道我想针对哪几个字段做整理或分析。

明确的指定字段, ChatGPT 的分析会更准确地完成总金额的统计。 而在分析过程中,发现 ChatGPT 现在喜欢生成新的电子表格,通过预览提供统计分析后的结果给我:

新版数据分析功能还解决了一个问题:中文图表。 之前 ChatGPT 生成的图表无法显示中文〔除非你先提供他字型文件〕。

不过,现在我们不只可以利用 ChatGPT 分析中文的电子表格文件,也可以在浏览窗口选择需要的范围,制作中文统计图表。 生成的电子表格图表支持显示中文〔如果切换到传统图表,中文默认一样是无法显示的空格〕。 还可以把图表下载成 PNG 图片,会正常显示中文,默认是透明底图。

结合这些新功能,ChatGPT 的数据分析不只可以帮我们画统计图、做决策建议,还可以帮我们「处理数据表格」。

如图这份旅行记账表中,我先在 ChatGPT 的电子表格浏览窗口选择需要的字段,请 ChatGPT 自动帮我:「根据最新汇率做货币转换」于是 ChatGPT 帮我在表格上加了一栏新的字段,然后直接根据原本的美金、日币完成汇率换算,填写最新金额。 虽然这不是直接改在原始的云端电子表格上,但我可以下载这份新的电子表格替换。

我先让 ChatGPT 帮我生成一个模拟的产品销售表格,ChatGPT 用表格方式直接生成的数据(没有利用 Python 的编程方式),在累计销售数量与金额上有问题。 于是我把 Excel 文件上传到 ChatGPT,展开数据内容,选择有问题的字段,请 ChatGPT 用计算公式重新在电子表格中算出正确的数字。 ChatGPT 就会自动写 Python 来做数据统计,这次确认完成后,ChatGPT 添加了新的一列,把正确数据跟错误数据进行对比展示。 现在我请 ChatGPT 把正确数据替换到原始表格中,ChatGPT 经过了一阵数据运算,最后提供给我可下载的电子表格文件链接。

下图就是我下载电子表格后进入的结果,除了中文有正常显示外,原本的累计销售数量字段已经被替换成正确版本了。

最后,我把 ChatGPT 提供给我的正确 Excel 报表,再次上传 ChatGPT,请他做统计图,并提供给我决策建议。

如果你拥有 ChatGPT Plus 版本,推荐试试这个最新功能。

❌
❌