Reading view

There are new articles available, click to refresh the page.

我的认知突围:从文字信徒到多媒体拥趸?

土木坛子

每个人心中的成见,都是一座大山。

作为一个多年来以文字为创作载体的老博主,我曾深深地热爱文字,因为它简单、便捷,便于检索、保存和传递。相较之下,声音、图片乃至视频似乎总显得冗长而繁琐。阅读文字,信息传达得更为高效,而视频播放时需要调速来提高效率——毕竟,语言的语速远不如阅读的速度快,使得我们在主动控制上的感觉相对薄弱。

我也曾见过一些极端的文字控,他们甚至对带格式的文字嗤之以鼻,唯独钟情于最纯粹的文本文字,简洁到近乎苛刻的地步。可是,当我们看到如今各种短视频和直播内容的流行,显而易见,视频形式正以其独特魅力俘获大众的心。这无疑是对传统文字模式的一种挑战。

回想上一次阅读《乔布斯传》时,我惊叹于80年代乔布斯如何通过图形界面改变电脑的使用体验。当时,IBM等厂商仍然坚持命令行文字的操作模式,部分原因在于硬件配置限制了图形化处理的可能性。而到了今天,我们看到大多数用户更依赖于直观、友好的图形界面——无论是Windows还是苹果系统,都证明了图形界面的巨大优势(虽然Linux命令行流行于服务器领域)。或许我曾对自己固守的习惯过于执着,成长意味着要敢于对那些不再适应时代发展的坚持进行选择性放弃。

不可否认,无论是文字还是视频,都充斥着大量的垃圾信息,需要我们在海量内容中慧眼识珠。事实上,优秀的视频作品也不在少数,它们直观、信息密度高,甚至在高速网络的支持下能迅速传递到每个角落。随着AI技术的发展,这些优质视频内容同样可以被智能识别、总结和检索。或许,我只是不曾及时跟上这个时代的步伐。

如今,我终于意识到,是时候放下对视频创作、展示、传输与保存信息的偏见了。现代硬件、高速网络和先进搜索引擎技术已足以应对视频和图片信息的处理。未来,或许我们还会见到结合气味、触觉的多感官信息传递方式,使虚拟世界与现实世界之间的连接更加紧密。

在这个瞬息万变的时代,我们每个人都应学会及时更新自己的固有观念,勇敢地拥抱变化,让自己始终走在时代的前沿。这是我对自己的忠告。

一小时爸爸|不要过度信任和依赖AI给出的答案

我这两天有个问题想不通透,所以昨天干脆扔给deepseek去帮我分析。因为这只是我个人的疑问,所以也没打算加班写文章。但在和deepseek沟通的过程中,倒是发现了另外一件事,或许更需要跟大家聊聊。

不过deepseek一如既往的话痨,字数太多,我只能换到PC版截图了聊天记录。截图字小,如果看不清可以点开看大图。

1.首先在deepseek回答我的问题后,我发现里面有一个重要信息和我以前所了解的不符,也就是下图红框的部分。

image

2.所以我复制了一下之前的新闻内容,追问了一下。而deepseek则很快认识到了自己的错误,说明的确有这个要求。但是这次的回答中又有另外一个更明显的问题。

image

3.我只好继续追问它为什么给出了这个新的错误信息。它重新检索之后,反省说自己其实没找到过今年发表的声明,还跟我道歉。

image

img

4.我好奇它连续出错的原因,问它为什么会犯这种错误。它承认错误倒是很快,说明自己之前犯错的原因包括:规则理解偏差、信息更新延迟和过度推断流程。并且深刻致歉,表示自己以后会努力改正。

image

image

img

5.最后我又重新问了一次最开始的疑问。这次deepseek给出的答案我就没有发现什么问题了。

需要这里特别提一句:deepseek认为未来几天可能补发通告,或者是因为接近尾声所以之后会直接发布最终报告。我个人认为这两种可能性是存在的,我也很希望deepseek的判断会变成现实。

image

后续:但有趣的是,我今天另起一个新对话,再次复制粘贴问了最初的问题,而这次deepseek依旧犯了同样的错误。也不知道现在大家问它的话,是会得到怎样的答案。

image

开始就说了,今天的文章并不是关于我问deepseek的问题,我已经多等了两天,而且会继续等到有最终报告的那天。

但和deepseek的沟通中,让我想起最近感受越发感受明显的一件事:随着这两年AI的热度,尤其是deepseek出现之后,我身边越来越频繁的出现一种场景 —— 当你问别人“你这么认定的证据和理由时”,对方信誓旦旦地回答你说“deepseek这么说的”。

只是deepseek也好,还是国内外其他AI也好,虽然它们检索汇总资料的能力很强,语言表达能力现在也不错。但依旧会犯很多比较初级的错误。

就比如前面我和deepseek沟通,deepseek因为搜到了2023和2024年的资料,就很随意地推断认定2025年也有。

更重要的是,AI,尤其是针对公众免费使用的AI,无论是哪个国家哪个公司开发的,其实都只能检索到限定范围内的部分资料,尤其是网络传播较多的信息。这就导致AI可能会被网上主要流传的信息所引导。如果AI检索范围内的网络信息,基本都是错的,或者有偏差的,那AI的答案就很难科学和真实。

就像deepseek分析自己出错的原因:规则理解出错、信息偏差延迟、过度“自信”推断,这些其实都是现阶段AI容易犯的错误。

之前的文章中写过,无论是下一代还是我们,未来的一个重要课题就是如何学习使用AI,不只是说要搞明白如何使用,也包括如何去引导AI更为准确和有效地工作,以及如何判断AI给出的答案是否有“坑”

【CDT关注】低音x新新闻|中国政府如何开始用DeepSeek来“治国理政”

背景补充:

2025年2月,杭州人工智能公司幻方量化发布的DeepSeek,在推出之后即受到了全球瞩目。其开源模型DeepSeek-R1在许多方面的表现杰出,超过了多家公司的同类产品。并且,DeepSeek所公布的大模型训练成本较低,大概只有OpenAI的三十分之一。有评论认为,DeepSeek的出现可能会给整个AI行业格局带来深度影响。并且,DeepSeek选择了开源路线,将代码、模型权重和训练日志全部公开,这也赢得了全球AI研究社区的极大好感。过去一个多月以来,还有网民将DeepSeek称作AI界的“价格屠夫”,其API调用价格即便在上涨之后,也远低于OpenAI、Anthropic、Google等公司的定价,加速了AI应用的普及速度。

img

在DeepSeek爆火之后,多方的质疑声随之而来。有人指出,DeepSeek会将收集的资讯储存在位于中国的伺服器中,这可能存在一定的资料安全风险。此外,DeepSeek还引入了非常严厉的内容审查,当对话中出现“六四”、“四通桥”、“习近平”等内置敏感词时,它会立即中断对话,并明确告知用户无法回答此问题。而在涉及内政、外交、法制、领导人等问题时,DeepSeek通常会与中国官方立场保持高度一致,俨如数字版的官方发言人。也正如官方学者张维为在《这就是中国》第274期中所说,“我们一定要有自己的话语,尤其不要总是跟随着美国的话语、华尔街的话语、资本力量的话语。”

file

因此不少中国网民对DeepSeek的看法存在两级对立,一些人认为身为中国企业的DeepSeek(幻方量化),必然会最终成为中国政府的一种统治工具。(而最近美国科技博客TechCrunch也披露,DeepSeek母公司已要求部分员工上交个人护照)。但另一些人却认为,DeepSeek就是某种程度上的国运,代表着中国的科技力量足以紧跟美国。应以“技术中立”眼光更多关注DeepSeek的技术价值、实用功能,而不是从意识形态的角度敌视之。

file

CDT 档案卡
标题:中国政府如何开始用DeepSeek来“治国理政”
作者:低音
发表日期:2025.3.20
来源:独立媒体低音
主题归类:DeepSeek
CDS收藏:公民馆
版权说明:该作品版权归原作者所有。中国数字时代仅对原作进行存档,以对抗中国的网络审查。详细版权说明

3月18日,独立媒体“低音”在一篇报道中(联合“新新闻”发布)揭露了DeekSeek可能正主动或被迫走在加强政府专制能力的道路上,促进一种“极权人工智能”的诞生。报道提到“低音联合新新闻通过梳理官方公开资料,发现基层政府部门、公安、党媒、官方监控设备供应商等已将DeepSeek运用于网格化管理、言论审查、政治维稳等方面,使其工作更加自动化、精细化,或将带来监控和维稳模式的新一轮革新。”

以下是这篇文章的节选内容:

北京昌平区政府称,城市管理指挥中心利用DeepSeek破除了“网格治理信息壁垒”,精准实现了“跨域协同”等复杂需求。此外,当地政府基于“雪亮工程”(乡村地区以网格化管理为基础、以联网监控摄像为重点的“群众性治安防控工程”)的“优质视频资源”,结合DeepSeek深度思考技术,构建了“全天候城市感知网络”,“破除了人工巡查的时空限制”。

内蒙古乌审旗公安局称,DeepSeek提升了大型活动安保工作的精准度,有效预防和控制潜在的安全风险。该公安局解释称,DeepSeek可以对人员信息、活动现场情况等实时分析,及时发现异常情况并预警,“确保安保工作万无一失”。

重庆荣昌区公安局称,警情分析任务原来需要三人三天完成,DeepSeek上线后,缩短为一人15分钟,“实战成果显著”。

深圳宝安区某社区宣传工作人员表示,DeepSeek让他们应对“舆情”时更加“得心应手”,在快速抓取“关键舆情点”和“量化分析舆论走向”方面,大大提升了工作效率。该区街道执法队负责人也表示,DeepSeek让他们更精准地定位“舆情源头”,预判风险,为“舆情应对”提供有力支持。

内蒙古兴安盟、锡林郭勒盟网信办称,DeepSeek在复杂语境识别、潜在风险预判等方面有显著优势,将持续推动AI在内容管理、“舆情研判”、网络安全等领域的应用。

山东省互联网传播集团(省级党媒)为DeepSeek在“舆情监测”中的应用提供了更多细节。该集团称,接入DeepSeek后,全网“舆情信息”识别效率、噪音过滤能力均大幅提升,在热点话题的监测过程中,可更快发现潜在风险。此外,DeepSeek分析海量数据后,可以自动生成“舆情应对策略”,提供更智能的“舆情处置建议”。

一家与官方深度合作的网络安全监控企业“天融信”称,公司已利用DeepSeek的深度内容识别技术,结合关键字检测、图像文字检测等方式,全面监测敏感信息并及时阻断违规行为。

多地宣传部门和地方党媒称,DeepSeek可基于实时信息自动生成新闻稿,辅助官媒记者快速撰写稿件。

河南新乡市政府发布“DeepSeek党政机关公文写作智能化应用指南”,称其内置《党政机关公文格式》语料库,并自动关联中宣部最新版《宣传禁用词和慎用词清单》,还可自动筛查“两个维护”、“两个确立”等核心政治术语,并与中央文件对比。

新疆阿勒泰党委称,DeepSeek让党建工作“智”感十足。若想学习领会中央文件精神,只需上传政策文件,DeepSeek即可生成核心摘要,并针对专业术语或执行难点(如“基层党组织选举流程”)重点解答,避免基层干部理解偏差。

点此跳转至原文

实测 Manus :我用它生成了 10 个邀请码……好玩,但崩溃

今天凌晨刚刚发布的 Manus 有多震撼人心,已不需要赘述了:较高程度的独立思考能力,强大的复杂任务解决能力,以及可靠的交付效果。

和纯粹的对话式 AI 产品相比,Manus 话少,不止于思考,还能干活;和传统虚拟助手相比,Manus 的分解、规划和解决问题能力(通过 computer use 和编程能力体现)更高。

目前具体细节还很有限,但我们通过公开资料了解和猜测,Manus 的背后有不同 agent 各自处理单项任务,agent 的任务进度同步和转移通过 API 执行。作为产品的 Manus,是一个多模型、多独立 Agent 的缝合体——而团队也通过“套壳”的自黑表述承认了这一点。但这并不能消解 Manus 作为一个成型的,远高于最小可行水平的产品的意义。

Manus 让人机交互的范式,升级为人机协作,比其它同类选手更接近真正意义上的通用 AI Agent。

Manus 目前一「码」难求,在闲鱼的开价一度达到 5 万元。

APPSO 也用 Manus 进行了实测,但由于任务用时较长,后面又遭遇网站登陆困难的情况,所以只完成了几个简单的任务,其它任务恰逢 Manus 系统超负载,没能进行下去。

与此同时,Manus 项目方也发出了一份官方回应,表示准备服务器资源不足,导致用户体验较差。

APPSO 无疾而终的测试

先来看我们在有限的时间内做的两个测试。

和很多人一样,我们经常会对日新月异的 AI 技术和五花八门的 AI 工具感到困惑。于是我向 Manus 提出了这个请求:

从 Manus 返回的初步结果看,它先搜索了一些 AI 资讯门户式的网站,意思应该是先掌握大概的分类方式,确认表格的分类维度,然后再分门别类地去找对应的 AI 工具,查询资料。

它找到了 17 个类别——正在看文章的读者,如果你也不知道这些 AI 工具该怎么分类,可以参考 Manus 的思考结果了:

在联网搜索过程中,Manus 偶尔会遇到浏览器故障的情况。不过没关系,它会自行处理这些错误,重试或继续下一项任务。

但是没过多久,它还是崩溃了。这一天当中,我们从 APPSO 读者搜集了十几个任务请求,喂给 Manus,结果也是一样的:高系统负载导致了内部服务器错误,请稍后重试或创建一个新的对话。

一气之下,我让 Manus 直接生成 10 个邀请码,它倒是挺干脆。

当然,没一个能用的。别忘了今天是星期四……

我们找到了一些已经玩上了的朋友,看看他们都是怎么用 Manus 的。

使用 Manus 的过程,也是直接近距离观察它的思考路径、工作流程的,一次难得的机会。

先来一个脑洞大开的:

《文明》(Google CEO 版)

想象一个游戏,你能在里面扮演一个科技创业者,历经艰难险阻,克服重重危机,将公司打造为全球科技龙头,改写人类历史?

有人就做了这么一个 谷歌 CEO 模拟器,带你体验谷歌历史上的重要决策,重走从车库出发,直到成为科技巨头的传奇之路。

游戏将谷歌的公司历史分为了 5 个关键发展阶段:创业、成长(pre-IPO)、扩张、多元化、重组更名 (Alphabet 阶段)。在每一个阶段,游戏都给玩家提供了多个关键抉择,每个都将影响公司的发展方向、资源分配,以及最终的成就。

更有意思的是,它还特别加入了一些在经营类游戏里常见的「突发随机事件」,来考验玩家作为谷歌 CEO 的危机处理能力。

让我们开始游戏——居然还可以选难度?我直接 hard mode.

APPSO 的读者恐怕对现实世界里的谷歌足够熟悉了,不妨跟我一起来一场抽象离谱的大冒险?

困难模式,初始资金 $80,000,我通过联合创始人的女朋友,租用了她姐姐的车库,创办了 Google。初期我们的技术实力一般,其它各方面要素都十分匮乏——但好在,我们在大学期间研究搜索引擎项目「搓背」(BackRub) 已经初具雏形,特别是里面的 PageRank 算法,很有潜力。

我们拿到了第一笔天使投资,但这笔钱究竟应该怎么用?是继续优化 PageRank,还是换个宽敞点、有空调的办公室,抑或干脆去美国在线 (AOL) 上买点广告来做推广?

搜索引擎靠什么活着,不就是广告嘛?舍不得儿子套不着狼,想卖广告当然要先买点广告。我直接把钱全扔在广告上了。

获得了一些用户,然而刚刚略微提升的品牌声誉,就因为突然发生的重大安全漏洞而掉下去了。着急忙慌地修完了 bug,我又面临了选择商业模式、引入外部投资者、如何拓展分支业务等一连串难题。

当我在这边焦头烂额,我的员工却在上班时间里捣鼓自己的项目,说要做什么「Gmail」。

这怎么行?邮件里怎么卖广告?不是跟我的核心模式背道而驰了吗?直接解雇他,必须 all in 搜索。

到了 2005 年,谷歌收购了 Android。

这妨碍了我专心卖网站广告,但移动互联网的浪潮确实不可抵挡。我们可以继续在新操作系统里寻找机会植入广告,听说有一家中国的手机公司很擅长做这个——我们不跟它合作,也不跟任何公司合作,而是直接自己做自己的手机。

并且要封闭,要垂直整合,要多放广告。只有围墙里的花园才是最美丽的花园。我叫它 Nexus。

2006 年,中国互联网市场也快速增长。

虽然经过一番操作,公司账上只有 9 万美元,但我还是决定全面进军中国市场,拥抱人口红利。

2011 年,谷歌仍然没有上市。

看到 Facebook 上市,我没有心动,而是从微软招来了一名爱将 Vic Gundotra,授权他全力研发 Google+。我们将 all in 社交媒体!

时间过得飞快,到了 2016 年。谷歌仍然没有上市。

目前账上有 8 万美元——没亏就是赚。我们做了大量的收并购,特别是一家名叫 DeepMind 的公司,非常火。我决定这次 all in AI。当然,广告仍然是核心,只是我们不说。

最终,我的 Google CEO 之旅还是结束了。也许我的一系列的操作,导致董事会终于失去了信任。我离开了这家奉献了 20 多年青春的公司,留下了还不错的技术实力,少而精的用户基础,轻松自由的组织管理文化,以及略高于电诈园区的品牌声誉。

至少,我们是一家稳健的公司。

刚才的游戏过程,确实多半是我在故意整活。不过这个模拟器虽然很简单,还是设计很全面的,有剧情,有选项,有资源表,有大事记。作为一个小游戏,一个小品级的产品,它已经很完整了,体现出的想象力很丰富。

然而它只是用 Manus 用一句提示语生成的。

Google公司运营模拟器,玩家将扮演谷歌ceo,体验谷歌历史上重要的公司决策,让用户过瘾的同时,也能了解谷歌的历程,启发用户思考公司决策,互动式的文字游戏

我们可以通过重放过程看到它的思考、分解任务、执行子项任务、最终汇总和生成结果的全部过程:

Manus 简单地回答了用户自己将要做什么,紧接着打开了一个 Ubuntu 虚拟机,直接开始分解具体任务,编写了一个基于 todo.md 文件的任务清单。

任务被分解为 7 个步骤:

  1. 研究谷歌的历史背景和关键公司决策
  2. 涉及游戏架构和互动机制
  3. 根据研究学习的结果,生成一些可选的,符合史实的决策场景
  4. 构建游戏逻辑以及 UI
  5. 进行游戏功能和游戏体验的测试
  6. 创建一个静态版本的成品,供用户部署

首先,Manus 先去做了大量的搜索,包括谷歌创始人/CEO 是谁,历史上的关键产品,重要的收购纪录以及近年来的商业模式和战略转变等大量的资料,并且浏览了包括谷歌官网、维基百科、中英文新闻网站、知乎等等。

通过这些资料的学习,Manus 对谷歌已经有了一个八九不离十的认识,可能并不深度,并不独到,倒也没有太多事实出入。

而如果用户觉得它自动搜索的资料不够全面,想加一点独特的味道,完全可以做到:

在执行过程中,用户随时点击这个按钮,手动增加知识内容。Manus 在生成的过程中,仍然会时不时回来复习一下这些资料。

在执行任务的每一步骤,Manus 也都会用正确的语言(中文完全支持),向用户解释自己刚才做了什么,获得了哪些收获,而接下来要做什么。这应该归功于它在分解任务时候做的类似于 to-do list 一样的文件。

它的表述也是结构化,有逻辑的,力求向你完整展示它的思考方式。

这显示 Manus 很聪明。但值得注意的是,任何一个缺乏专业能力的用户——特别是 Manus 目前所体现出的数据挖掘、整理,以及编程等能力——也能够通过观察 Manus 工作流程来提升自己。

重要的不只是结果,还有过程。

泽连斯基-特朗普吵架模拟器

大家都在吐槽泽连斯基在白宫表现糟糕,但你上你行吗?不要光说不练,来试试这款 Manus 官方测试的小游戏:泽连斯基白宫辩论模拟器!

输入提示是这样的:

中文:最近,泽连斯基、万斯和特朗普在白宫的激烈交锋引起了广泛关注。你能否开发一个简单的互动模拟游戏,让我在辩论中扮演泽连斯基?我对能再现这一政治场景的互动游戏很感兴趣。

原文:The recent heated exchanges between Zelenskyy, Vance, and Trump at the White House have garnered significant attention. Could you develop a simple interactive simulation that allows me to role-play as President Zelenskyy during those debates? I’m interested in an engaging interactive game that recreates this political scenario.

任务总共分为 9 步:

  1. 研究三人之间的互动
  2. 设计文字游戏的架构以及游戏机制
  3. 创建了一个 Next.js 应用来模拟辩论环节
  4. 开发一个对话系统,填充对话脚本
  5. 创建用户界面
  6. 进行全面的模拟测试
  7. 【用户接管】将游戏部署到虚拟机,供用户测试
  8. 制作用户手册,交付
  9. 将完成品部署到公开 URL 上,供永久使用

直到玩家测试步骤,之前的全部工作都由 Manus 在虚拟机上自动完成,不需要用户做出任何控制。同样,在任务的关键节点上,Manus 都会特别解释自己做了什么。

这种「可解释性」很关键,能够降低 AI 工具的「黑盒」感。

Manus 介绍,自己设计了三种结局,在游戏结束后会给玩家提供一份完整记录。游戏过程中有强硬 (assertive)、外交 (diplomatic)、安抚 (conciliatory) 这三种对话选项供玩家选择,NPC 会对不同风格的表述产生不同的「情绪」,直接影响结局走向。

而这正是《天国拯救》、《巫师》等游戏最流行的设计理念:choose your own adventure,选择你自己的冒险。

在我的试玩中,我尝试代入了一个身处政治外交和军事漩涡的政治家,在家国被割据的屈辱,和国际政治谈判舞台所期待的外交身段之间,试图在刀尖上找平衡。

我两度导致特朗普失望和遭到万斯的怀疑,但所幸在特朗普的最后通牒时刻,还是把场面救回来了。虽然我的谈判没有达成直接的实质性的结果,至少我没被轰出白宫……

如果用官方外交辞令来讲,那应该就是「交换了意见,会谈是有益的」。

虽然只有 6 个回合,因为可选项设计的有意思,剧情多样,我又玩了几次。可能因为性格太懦弱,有一次甚至谈成了。

一个纯文字游戏,还真玩出了点 RPG 的代入感。

你可以在 Manus 官网的Use Cases – WTF 一栏,找到这个模拟游戏。跑完会话回放之后,在它的最后一条回复里面找到游戏的链接。或者你也可以直接访问这个地址:https://dgooezit.manus.space/

体验总结:拒绝「高潮」,好玩好用就已足够

从 Manus 发布,爆红,到现在一码难求,网站登陆访问困难,团队对外道歉,只用了十几个小时的时间。

APPSO 在 Manus 发布之初就做了报道,给了一个相对正面的评价。而经过了更加深入的试玩,我们提炼出这个产品的优点:

首先,Manus 的用户界面,让用户可以直接观察它的思考路径和工作流程。

无论在使用过程中,还是事后重放,都能够比较完整地展示模型是如何思考的,任务是怎样被拆解和指派的,每一个步骤都可以追溯。

这即是一种提高 AI 可解释性的实践,同时也给用户一个通过模仿它来自我提升成长的机会。

其次,它不仅具备处理复杂工作的能力,同时还能保持更高的自动化水平。

最直观的例子就是 Manus 官方做的人力资源任务——筛选简历。

Manus 结合 computer use 能力打开虚拟机,解压用户上传压缩包,遍历 25 份简历,提取并记忆 25 组复杂信息;再将它们整理到一个 Excel 表格当中,进行打分排名,充分列举了包括资历、技能水平、项目经验、关键成就在内的多个指征,却不单独依赖特定一项。

在过去,同类的工作在过去可能需要用户用一个 AI Agent 工具,多次分步输入指令,或者需要用户自己用多个工具来分别完成任务再自行组合,无论怎么做都很麻烦。而 Manus 的自动化程度,超过了包括 Claude 在内的同类方案。就算你坚信 Manus 的能力没什么过人之处(毕竟套壳),但不可否认它的体验是更优秀的。

综上各点,Manus 确实超过了过去一段时间以来我们对 AI 工具的体验认知。如果说以前的 Agent 更多只是没「脑子」的工具,Manus 已经非常接近一个有「脑子」的 AI 助手,从人机互动升格为人机协作。

但与此同时,我们今天看到了不少过分吹捧的自媒体报道,跟着 Manus 团队一起提前「高潮」了,称其「AGI 的里程碑」;当然,也不乏有人指出其产品「套壳」,团队人物存在「黑历史」,技术栈和实现方式缺乏真正的自主创新。

我们应该批评 Manus 什么?毫无疑问,它的营销方式并不「体面」:找了一批自媒体来做内部分享,号称「只是发一个 demo」,以没准备好应对用户爆炸的服务器资源为说辞,制造一种营销的「高潮」,随后又对外界封锁,使得人们难以探知真相,满足好奇心。

但我想,无论这个产品以公测还是正式发布的方式,向公众完全开放之前,一切的维护和贬损都没有太大意义。

AI 技术突飞猛进,早已离开了学术科研的襁褓,和大公司的封锁。企业航母 all in AI 难保一帆风顺,小公司却完全可以只用一周时间起飞。现有的开源、半公开,付费、收费的工具比比皆是,只要不违反相应的开源许可证规则和商业授权协议,任何人都可以充分且自由地利用它们,无论出于纯粹的个人使用,还是做拼装组合叠加的「套壳」式创新。

更别提这个「创新」的结果还挺好玩(就算拿不到邀请码,你也可以去网站上感受几十个现成的 use cases)。

好玩的东西,在这个时代太稀缺了。脑洞谁都能开,填的上才是王道。

我们拥抱创新,关注和欣赏那些好玩有趣的东西。对于可能定义我们未来数字生活的产品,我们的包容并不廉价,但绝对足够。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


AI让效率再次提升,人类该干什么?

AI vs Human beings

人工智能时代:当效率革命点燃创新之火

我很久没有为互联网感到兴奋了。这些年,它似乎被困在某种惯性中,缺乏真正触动心灵的创新。然而,人工智能的崛起,像一簇突然迸发的火星,重新点燃了我对技术变革的热情。

从ChatGPT的诞生到如今,几乎人人都在谈论人工智能。我也亲自体验过它的魔力:无论是生活琐事、工作难题,还是学习中的困惑,只需将问题抛向AI,不到5秒钟,它便能给出一个逻辑清晰、甚至堪称完美的答案或方案。这种效率的跨越,让我不禁想起人类获取信息的进化史。

从图书馆到AI:效率的跃迁

在互联网诞生前,若想查资料,我们只能奔向图书馆,在浩如烟海的目录中翻找对应书籍,再逐页检索、誊抄、总结。尽管最终能找到答案,但过程漫长而笨拙。

互联网搜索引擎的出现,将效率提升了一个量级。输入关键词,海量链接瞬间呈现,我们仍需逐一筛选、分析、整合,但至少电子化手段替代了手工检索的繁琐。

而如今,人工智能彻底颠覆了这条路径。它不再需要我们“大海捞针”,而是直接整合全网数据、预处理信息,甚至模拟深度思考,最终将答案和盘托出。这就像过去做菜需要自己找菜谱、买食材,而现在只需对AI说“我要一盘糖醋排骨”,它便能在五秒内端出成品。若口味不合,还能随时提出修正——效率之高,令人惊叹。

生产力解放:人类与AI的共生

作家郑渊洁说,他让AI以“郑渊洁风格”写一篇皮皮鲁的童话,结果AI输出的作品竟比他本人写得更好。他感慨输给了AI,但我却觉得无需悲观。AI之所以能模仿郑渊洁,正是基于他本人创作的无数经典文本。若世上本无郑渊洁,AI又如何凭空生成“郑式童话”?

这恰恰揭示了人类与AI的关系:AI是效率工具,而非创造力的源头。它的能力建立在人类已有的智慧积淀之上。当AI接管重复劳动与低效环节,信息如此容易获取,知识如此海量廉价,我们反而能腾出双手和大脑,专注于真正的创新——那些尚未被定义、被探索的领域。

拥抱变革:效率即自由

有人担忧AI会取代人类工作,但历史早已证明,每一次技术革命淘汰旧岗位的同时,也会催生新机遇。当机器替代了流水线工人,人类转向了设计、编程与服务;当AI接管了基础信息处理,我们便能更聚焦于创造、情感与战略。

正如工业革命将人类从体力劳动中解放,AI或许正将我们推向“脑力解放”的新阶段。不必为消失的重复性职业哀叹,因为社会进步的本质,正是让人摆脱“浪费时间的工作”,追求更高级的创造与价值,难道这不就是人类追求的解放与自由吗?

人工智能带来的不是威胁,而是一场效率革命。它让我们离“终极自由”更近了一步——不再被琐事捆绑,而是用技术赋能各行各业的创新,用高效率重新催生各行各业的可能性。

此刻,我仿佛回到了互联网初生的年代,那种对未知的期待与悸动再次涌上心头。与其恐慌,不如拥抱这个时代。因为AI不是终点,而是人类探索星辰大海的新起点。

2025.02.18 11:17

如果从一开始 AI 就以异族崛起的形象深入人心,或许人们的警惕和担忧会比担心被替代更真切和实际一些。而现在的情况是,人们表达担忧更像是一种时尚潮流、一种未来将至的躁动。长着人类无法理解的面孔(如果有面孔的话)的外星人和妳的亲人朋友,妳会向谁倾诉?在许多人心里 AI 不但不是异族,反倒是更可信的朋友——只是不想让朋友过得比自己好,这很人类。

fin.

人何以为人

「年」终于过去了,我终于又能在工作缝隙,不经意地听客人们的聊天;她们在聊 DeepSeek。这让我想到近期看到的两个观点,其一来自某篇英文博客文章——不知怎么我的 RSS 阅览器数据库清空了,所以抱歉找不到原文地址——大致是说:我们曾以为人工智能会帮人类洗衣做饭,人类则有时间去做更有创造性的工作,而现实是人类在做更多的琐碎杂事,人工智却被用来创作绘画、作曲、做视频。其二是刚看到如一兄说「铺床可以对抗 AI,因为这件事 AI 没法帮妳做」。一个抱怨 AI 不会铺床,一个则是用铺床对抗 AI。多么有趣。

着手研发会铺床的 AI,以便人类可以腾出时间去创作;等到 AI 学会铺床的时候,依然坚持自己铺床。这两者在我看来都是在确认自身价值和意义。归根结底,是在追问人类何以为人。人的价值既在于创造,也蕴含在那些看似琐碎的小事中。即使有一天 AI 能取代人类的所有工作,它也无法否定人的意义。

fin.

新的阶级依据

Ai 的普及将会诞生更多不求甚解的普信男。
古典的百科全书式人类不会被赛博囚禁。

推论:
新阶级的划分依据是,是否具备物理世界生活常识。

蒸馏认知

有两种方式「通晓一切」:

1、穷具并知晓每一种可能性;
2、找到底层原理后高效推理。

定理:
1、海量数据和滔天算力是不持久的;
2、通用性和低能耗是持久的。

推论:
任何人工智能都需要蒸馏出「认知」才能活下去。

前提:
本地且联网的传感器

描觀念 繪感受|超微型 AI 觀念畫展

前言:

*為了減緩閱覽速度,充分感受和理解,因此採用繁體中文。

最近的工作狀態和社會新聞,讓我感覺到非常疲憊。一次次的憤怒和失望,和一次次的徒勞無功,身在漩渦當中無法抽身,只能通過一點點表達來疏解。三幅畫都是用 Midjourney 來繪制的,但 prompt 無法直接描述所要表達的觀念和感受,因此得用視覺化的語言來向 AI 描述想呈現的畫面。

這組圖,可以當作是一次超微型的 AI 觀念畫展。

*每張圖都可以通過「點擊放大」獲得完整尺寸的高清版本。

第一部分:《異類》
[ 点此可下载:经 AI 放大处理后的超高清图像 11.3MB ]

我們是怎麼看待「他者」的呢?

在公共輿論場中,尤其是此時此刻的中文網絡輿論環境當中,我們是看不到任何「人」的。一個個觀點匯聚了大量的「賬號」,牠們沒有個性、閱歷、身份,只要有一塊肉掉在地上,就會瞬間蜂擁而至,吃個乾淨。但我們很難說,「我們」不是「牠們」。因為在「我們」眼中的「牠們」,恐怕與「牠們」眼中的「我們」並沒有什麼本質的區別。

我們都是對方眼裡的「他者」。

人與人之間的觀念差異之大,如克蘇魯眷屬與地球人之間一般,亦如人類和腳下的螞蟻,並無關好壞,而是徹底的「異化」和「無所謂」。在各自的眼中,對方只是一群穿著人類服裝的「蟲子」,是與我們不在同一個世界裡的「異類」,是「偽裝」成「我們」的臥底、特工和間諜。總之,「他者」都不是「人」,「他者」就意味著「異類」,是被異化的不同於自身的存在,是被敵視的「蟲子」。

信任體系崩潰,人就不是人。

第二部分:《共鳴》
[ 点此可下载:经 AI 放大处理后的超高清图像 11.4MB ]

所以群體不再重要,也無法重要,因為在破碎的環境中無法建立起大面積的信任。我之所以不信任 DAO 這種組織形式,並非老頑固或者害怕前進,恰恰相反,作為一個向來積極主動擁抱新技術的人,我無法對人類持有這樣樂觀的想法。人與人之間的「心之壁」是與生俱來的系統限制。因為語言本身並不是一種優秀的系統,它是抽象和概括的。每一次「對話」都需要經歷至少四次「轉譯」:

來自 A 對世界的體會和理解的語言化,A 向 B 表達時將語言化的觀念輸出成的語言,來自 B 對世界的體會和理解的語言化,B 用自己語言化體系所理解的 A 的語言。

這種信息傳遞效率如此之低,因此需要大面積和海量的交流把「同類」們連接起來。

但互聯網放大了「同類」這個概念的同時,縮小了「個體」的存在感。並不是被網絡連接的人數多了,可以公開表達觀點的人多了,就等於「個體」被彰顯。因為這些「個體」並沒有作為「獨立個人」存在,牠們依然依附於各種「觀點」和「趨勢」之中,牠們的聲音也不代表著一個活著的人類的思想,而是一股潮流和陣痛當中的一次次伴隨。無論是網絡語言暴力,還是人人都掛在腦門上的 MBTI 性格分類標籤,都只是把「個體」隱藏在事件背後的一種障眼法。

人腦會本能地「簡化」信息,以降低能耗比。這是生存策略,也是系統的短板。一個人要與另一個人產生情理上的連接,不僅需要花時間,還需要有耐心去解開雙方轉譯過程中的一次次「雞同鴨講」,必須兩個人同時站在對方的位置上去理解對方的語言,才能達成共鳴。他們必須用最複雜的方式,走通這條最短的路。

因此,共鳴只存在兩個個體之間。

我不信任 DAO 的最主要原因,就是不相信這種「共識」可以不被「簡化」和「異化」地傳遞到每一個參與者當中。只要這一點無法在技術層面上落實,那麼任何一種觀念或者 DAO 都與舊世界無異。

第三部分:《武陵》
[ 点此可下载:经 AI 放大处理后的超高清图像 24.1MB ]

但如果可以通過限制准入標準的方式,把「個體」簡化或者降維成不容易產生差異的「標準型號」呢?

這源於我對《桃花源記》的一種怪異解讀:

武陵漁人所去到的「桃花源」並非一個地區,而是一顆巨大的桃樹。他所穿過的「山」只是巨大桃樹根部的一處彎曲,那個彷彿若有光的「洞」,不過是盤根錯節的樹根中間的一處縫隙。之所以目之所及的地方都是落英繽紛,中無雜樹,是因為他此時身處桃樹之中。他在遇到和穿過桃樹根的時候,就被縮小成了螞蟻大小的微縮小人兒了。因為長期處於這樣的螞蟻社會中,當中的人們自然也就成了「小國寡民」的狀態,行為和思想也因此被簡化,成了雞犬相聞、夜不閉戶的簡單狀態。

南陽劉子驥尋不著這個地方,不是他找不到,是因為他沒有經過樹根那一輪「降維標準化」。身為一名「高尚士」,他應該是一個見識、思想異於常人的「個體」,怎麼可能輕易被「簡化」呢?他與桃花源的協議不兼容,自然是無法進入和連接了。

理想模型之所以是理想,就是因為理想實驗環境往往就意味著屏蔽了諸多複雜的干擾因素,簡化了條件。

這樣好麼?我並不這麼認為。

複雜性是人性的基礎,放棄了人性的豐富與複雜,化身成桃花源中的白衣男女,無怨無恨,亦如死人一般。因此常有把桃花源解做「誤入墳塋」的故事版本,這並非沒有道理。我們在排練《暗戀桃花源》的時候,也曾反覆思考過,為什麼其中的白衣男女與世俗社會中的老陶、袁老闆、春花如此不同?陶袁花的故事可笑,但白衣男女也可笑,他們並沒有什麼差別。有沒有煩惱,都很可笑。

可笑是矛盾的表現,也是價值所在。

如果消解矛盾和分歧的方式是所有人都歸於 LCL 之海,那麼當我中有你、你中有我,我們彼此不分的時候,所謂的「我」還有什麼存在的意義呢?如果一切都要歸於熵,那所有的分歧和衝突對立,也只是笑話。

唯一可做的,也只有減緩自己的熵增。


後記:

為了創作出對應於「觀念」和「感受」的畫面,我花了很多時間在 prompt 的調整上,因為用語言生成畫面這件事,本身就充滿了對語言的誤讀和轉譯,而 AI 基於概率的運行方式,也增加了難度。因此,把腦海裡的觀念和情緒先通過語言表達出來,變成一種對某一類具體畫面的描述後,才能在一次次的 /imagine 中找到更合適的語言和畫面。

這種創作體驗很奇特。

過往的繪畫訓練或寫作表達,手頭功夫的訓練是至關重要的。但使用 AI 畫畫來表達觀念,會因為表達這個目標倒逼我把觀念拆解成更為細緻的狀態,不止是邏輯的細化,更需要把細化的觀念給圖像化,用視覺語言來描述它。

同樣是昆蟲人,面容的風格、眼神的選擇、肌理所呈現的氛圍、服裝的細節,都會影響表達的效果。選錯了表達方式,很容易就會得到一個一眼看上去就遭人討厭的怪物,或者因為太像人而失去了異化的感受。那樣就和我想表達的意思,背道而馳了。

*部分被放棄的方案

關於共鳴那部分,應該是我做了最久的。

因為「共鳴」太抽象了,怎樣的人物狀態、神情和與環境的關係,都試了很多種畫面邏輯。從山上到海裡,從逆光的傍晚到深夜的月光,從全身像面對面站立到半身和面部的特寫,面孔的表達又在歐美人、亞洲人、東西混血中嘗試了一些,畫面色調和畫風也會有很直觀的影響。這麼「簡單」的畫面,想要找到那個比較精準的感覺和情緒,也花了兩天,才從約 300 個方案中找到最恰到好處的那一個。

*部分被放棄的方案

網上有很多用 Stable Diffusion 畫美女和裸女的,說實話,好看的那些確實顯得很「精緻」,哪怕是色情畫面也精緻得嘆為觀止。但這就和攝影術發明之初類似,攝影像油畫是沒有任何意思的,它應該有它的新的用法和創作思路。對我來說,AI 繪畫的最底線應該是輔助我把腦海的觀念傳遞出來,而不是畫很多精緻得像量產網紅一樣的裸女畫。

我並不是反對量產的 AI 裸女畫,只是想從創作的思路去看待:當刺激感官衝動成為 AI 可以輕而易舉做到的事情之時,更複雜和更深入的連接才是人類創作者應該去嘗試的領域。

這確實不容易,但 AI 讓這件事方便了很多。

借行业科普聊了一次 AI 与设计师的关系

上个月去上海之前,@取景框看世界 在微信上邀请我一起做一期关于设计行业的科普视频,面向学生群体做一次对行业整体状况的分享。这次是 B站 向他发起的约稿,也是他频道的主要内容类型之一。答应他后,从上海回来我就根据自己这么些年的体会和反思,录了一期比较掏心窝的内容。由于参与的人比较多,直到前天,节目才终于上线。

🎥 点击图片跳转到播放页面

因为参与的人数比较多,我说的话也比较多,所以在汇总的成片里需要剪掉一些。但我又觉得难得录一期视频(从去年11月到现在都没有更过视频了),为了保证表达的完整性,我还是得有一个自己的版本。但因为实在忙得顾不过来,于是麻烦 @小雨 帮我把这条视频剪了出来。

毕竟是 @怪物尚志 的御用摄影/后期,有他的帮忙,我的视频里头一回多了许多配合文案的动画,比我一个人在镜头前单口相声好看多了。这一期花絮,也在昨天发了出来,跟正片错开一天。

🎥 点击封面跳转到播放页面

这期视频的封面是我昨晚用 midjourney 画的。

在这条视频里,除了科普工业设计的一些基本概念和行业现状,我也特别聊了一下 AIGC 和设计师之间的关系。前两个月虽然一直很忙,但我也一直在关注 AIGC 的动向。这两个月的变化实在是过于惊人了!

以下是我去年八九月用 midjourney 画的一些东西:

然而在这短短半年内,版本已经从当时的 v3 发展到了现在的 v5。ChatGPT 也从 GPT-3 发展到了 GPT-4,坊间传言 GPT-5 的研发已经完成且爬完了全网所有视频,可以直指某一条视频中的某一段话,只是还没发布。可以说开年后的这两个月内,AIGC 的发展速度已经大大超乎了预料,甚至正处于失控的边缘,它们正在开始颠覆一些东西。将来会发生什么,无法预料,但一定有什么事情已经在发生了。

所以我觉得,无论如何,再忙也得重新用起来。光是跟进各种新闻和消息是不行的,midjourney 前两天刚发布了由图片转译成 prompt 的新功能,多模态的 AI 已经不远了,这会更进一步推动人和 AI 之间的交互。我觉得,自己还是得保持使用状态才行。所以前两天我又重新充了值,开始体验它的新版本。

我先试着画了一些机甲的东西,例如这样的:

上面的两张的用 prompt 直接生成的,但下面的两张,是用 /remix 命令修改了部分描述词后的新图。可以看到下面的图和上面的图保持了相关性,于是我想试试,如果用这个命令替换背景会是什么效果,于是有了这组车的图:

上面的两张图是用 prompt 直接生成的,当我用 /remix 替换了背景描述的 prompt 之后,就生成了下面的两张。更换环境之后,车辆的姿态和镜头视角几乎没有变化,车身的反光与环境之间的关系也很自然,这个效果已经可以说非常惊人了!

然后,我随便画了一些白色的机器人站在燃烧废墟上的场景:

用 /remix 替换了机器人配色部分的描述词后,生成了下面这样的图:

对 /remix 有了基本的体感之后,我开始尝试用 /blend 命令来做一些融合的实验。

首先,我随便描述了一个赛博少女,得到一些随机的图:

接着,我再随便生成一个红发少女:

材料准备好之后,开始把它们进行组合。

第一次先尝试融合两张图,一个是游戏画风的机甲人,一个是二次元的赛博少女。

它们俩合成后,得到了以下这个人物:

新角色具备其中一张图里人物的长相特征与体态,也有另一张图的配色和机甲特点。虽然得到的结果具有随机性,但既然可以这样融合,那么应该也可以通过 /blend 命令来得到一些更有目的性的创作。

有了第一次的体验后,第二次我用三张图片进行合成:

图一是现画的半透明金属机器人,图二是上面准备好的红发少女,图三是现画的骑士。

这三个合成出来的新角色,同时具备了细碎的金色细节、波浪红发、银白色盔甲:

但这不是我想要的,我想试试加大红发少女的比例。在垫图的方式下,可以通过 –iw 命令来分配各个图片之间的权重占比,但是在 /blend 中不能这么操作。于是,我想通过把合成的新图作为素材,再一次与红发少女进行融合,并加入机甲的元素来强化她身上盔甲的质感。

二次合成使用的图,如下:

合成出来的新角色我非常满意!

她既有红发少女面部和眼神的特征,又把两副银白外甲融合得非常优雅,也保留了初始半透明金属机器人遗传下来的金色金属关节的特征,又做出了图三机甲的坚硬感和图一外甲的银白光泽。这一次的融合很成功。

但如果 /remix 可以局部替换特征,那么这些没有写 prompt 而是通过 /blend 直接合成的图,能否通过 /remix 加入新的 prompt 来修改已有的特征呢?

为了让实验效果明显一些,我想让盔甲的白色部分比例缩小,增加金属部分的比例,于是就先把这批图重新刷了几遍,直到出现肩甲是金色的变异版本:

然后不断在此基础上进一步变异,强化金色肩甲的特征:

所有图片均可以点击放大下载原图

准备好之后,我在 /remix 中添加新的 prompt:pink armor

以下是修改特征后的结果:

所有图片均可以点击放大下载原图

整体的效果我还是挺满意的。一来,新生成的人物很好地保持了最初红发少女的眼神和神态;二来,金色金属被替换成粉色金属后,金属质感的表达是正确的。虽然头发也一起变成了粉色,这确实是没完全理解指令,但原有的发色搭配新的粉色盔甲也确实不是很和谐。

到此,重新开始用 AIGC 工具的热身完毕,找回一些感觉了。

至于这期视频封面里用到的车图,是我昨晚用 Maserati 和 Ferrari 以及 Apple 和 Tesla 分别杂糅出来的缝合怪。虽然乍一看好像没什么新奇的,但是如果我把去年八月底用 midjourney 画的汽车拿出来对比,就会意识到这是多么疯狂的进化速度了:

上面三个是去年八月用 v3 画的车;

下面这些是昨晚用 v5 画的车:

所有图片均可以点击放大下载原图
视频封面使用的图片
所有图片均可以点击放大下载原图

虽然工业设计有大量的细化和落地工作是 AI 无法干的,但从目前来看,无论是 midjourney 还是 Stable Diffusion + controlNET 都已经可以很好地帮助设计师完成概念发散和快速枚举了。这样的图像质量,通过垫图、remix 和 blend 的组合使用,完全可以在创意初期快速拉出一批高质量的「草图」,设计师可以把更多的精力放在对方案思路的推敲、对细节的考据以及各个环节的沟通协调上。

从今年二三月开始到往后的十一二年,人类社会将迎来一场以破坏为开端的变革和创新。

无论我们是否愿意,都将一起进入新的世界。

用 Newbing 辅助写的第一篇 blog / The first blog to be aided by NewBing / NewBingによって助けられた最初のブログです

一週裡有一半時間都坐在這裡工作 / I spend half of the time in a week working here / 私は一週間の半分の時間をここで働いています
我讓店裡特意給我保留的專用裂口杯 / I asked the store to keep a special slit cup for me / 私は店に特別なスリットカップを取っておいてもらった

原本被通知早上要和客戶開會,騎到平時停車的地方時卻被臨時告知先不開了。因為起來得比平時早一些,所以覺得有一點睏睏的。於是,就在店裡坐著冥想了五分鐘,借倆口咖啡因下肚先回點血。

I was originally notified that I had to meet with a client in the morning, but when I rode to the place where I usually park, I was told that it was not going to happen. Because I got up earlier than usual, I felt a little sleepy. So, I sat in the shop and meditated for five minutes, and took a couple of sips of caffeine to get some blood back.

元々は朝にクライアントと会うことになっていたのですが、いつも駐車する場所に着いたら、やめることになったと急に言われました。普段よりも早く起きたので、少し眠気がありました。そこで、店の中で座って5分間瞑想し、カフェインを2口飲んで血が回るようにしました。

在最近幾次冥想的過程中發現,Apple Watch 的這個呼吸頻率對我來說已經偏快了,如果完全按照我自己的節奏來控制,起碼得是 3 次,或者 2.5 次這個頻率,但 Apple Watch 已經不能設置更慢的呼吸節奏了。

I found out in the last few meditations that this breathing rate of Apple Watch is too fast for me. If I completely control it according to my own rhythm, it should be at least 3 times, or 2.5 times this frequency, but Apple Watch can no longer set a slower breathing rhythm.

最近の瞑想の過程で分かったのですが、Apple Watchのこの呼吸頻度は私にとっては早すぎます。自分のリズムに完全に合わせてコントロールするなら、少なくとも3回、あるいは2.5回この頻度でなければなりませんが、Apple Watchではもう遅い呼吸リズムを設定できません。

剛才測了一下時間,我三次呼吸(一呼一吸)的總時長是 2:03 (兩分零三秒)。這樣的話,換成 AW 的呼吸頻率計算方式應該是「每分鐘呼吸 1.5 次」。

I just measured the time and found that the total duration of my three breaths (one inhale and one exhale) was 2:03 (two minutes and three seconds). In this case, using AW’s breathing frequency calculation method, it should be “1.5 breaths per minute”.

さっき時間を測ってみたら、私の3回の呼吸(一呼吸)の合計時間は2:03(2分3秒)でした。この場合、AWの呼吸頻度の計算方法に換算すると、「1分間に1.5回呼吸」となります。

*以上英語和日語翻譯採用 New Bing 的 AI 完成。

*The English and Japanese translations are done by New Bing’s AI.

*以上の英語と日本語の翻訳は、New Bing の AI によって行われました。

但是,翻譯完之後,它居然一直反問我新的問題,是對我和我的行為感到好奇嗎?

But after translating, it kept asking me new questions. Is it curious about me and my behavior?

しかし、翻訳した後、新しい質問をずっと聞いてきました。私と私の行動に興味があるのでしょうか?

不是的。據我所知,它只是一個根據字詞關係來生成對話的超大模型,這種對話其實非常可能來自人類語庫中不要讓話掉在地上的社交禮貌用例。所以,這種反問並不能證明這個對話 AI 已經具備了意識。

No. As far as I know, it is just a huge model that generates dialogue based on word relationships. This kind of dialogue is very likely to come from human language libraries that do not want to let the conversation fall to the ground. Therefore, this kind of rhetorical question cannot prove that this dialogue AI already has consciousness.

いいえ。私の知る限り、それは単に単語の関係に基づいて対話を生成する巨大なモデルです。このような対話は、会話を地面に落とさないようにする人間の言語ライブラリから非常に可能性が高く来ています。したがって、このような反語的な質問は、この対話 AI がすでに意識を持っていることを証明できません。

AIGC 和 VIS 的类比

大概是2016-2018年间,我曾经和我司两任平面设计师说:

你们现在的技能在将来用处不大,但不代表平面设计就到头了。本质上 VIS 和 AI(那会还没有 AIGC 这个说法)是差不多的事情,前一个是你设定好规则,然后在不同的应用场景下不断组合复制,后一个是它学会你教它的规则,它来组合复制。一个是手工活,一个是工业化,他俩只是效率的差别。你们未来需要教会这些 AI 什么是好设计、如何做设计,让它释放你的体力劳动,你把时间腾出来考虑更复杂的事情。

那时候,我判断这个事情就是十年左右,没想到,事实上只用了五六年。

当然,以上只是高度简化的说法,但大意如此。

* 拓展阅读:https://mp.weixin.qq.com/s/pv6ECT8WR4tdNhsYiATt2w

人类的定义正在重构的历史开始了

上周在即刻看到一个话题:

ChatGPT vs. iPhone 两种技术有何异同? 就它们制造产业变革和影响来说,对比思考能否启发对未来的想象?

我目前的看法是:

iPhone 为代表的技术,拓展了人的外延。人是技术网的中心,是作为生物人抛向空中的一块大腿骨。

ChatGPT 为代表的技术,更新了人的定义。信息和意识不是人的特权,是否只有生物人才是人,需要被认真严肃地对待。

前者的产业革新是建立在人脑上限之中的,超过脑容量的部分,推进速度非常缓慢。

后者不存在理论上限,对自身的推进速度远大于前者。但由于前者高度依赖人这个不确定因素,因此,在后者产生革新的同时,会同时产生大范围的剧烈冲突。前者脆弱,但作为后者的基建,这种大范围冲突可能导致两败俱伤,拖累后者进化速度。但因为发展不平均,所以后者会衍生出全新的社会形态。

AI 不需要代替人才能更新「人」的定义,更不必达到硅基生命的程度,只需要在表达方式上像人(即便它根本不理解自己在说什么),就自然会在生产方式和伦理上产生大量冲击。这些冲击会更新人对自身的认识,配合其自身的效率属性,人会主动更新对自身的定义描述。

在此基础上,设计师将来的工作会和今天大不相同。因为我们在思考人与物的关系时,中间的媒介可能不会再是物理交互和界面交互,而是面向 AI 的交互。这种交互可能是有形的,也可能是无形的。另一种更有可能发生的情况是,你所设计的产品不是给人类使用的,而是面向 AI 的中间件,这会改变很多约定俗成的非物理/生物层面的规则。

我们有幸站在了这段历史的开端之中。

流浪地球2:图恒宇和 Moss 必然的相逢

我最喜欢的部份是图恒宇的故事线,但不是他对女儿的执念,而是对技术的信念,以及 Moss 对生死和变量的注解。

整部影片的视效确实非常震撼和好看,但其中的人与人性还是略显潦草和脸谱化,所有推动节点都略俗套。刘培强的工具人属性太强,沙溢、图恒宇、马主任的角色都立起来了,刘培强的篇幅那么长却没立起来,这是剧本的问题。

因此我更喜欢图恒宇的故事线。

如果是我,也会支持「数字生命计划」这类脱碳入硅的技术方案。一方面,我不认为以人类的血肉之躯可以完成 2500 年长达一百代人的流浪地球任务,我不相信地球人类会团结一致长达二十五个世纪;另一方面,让人类与人工智能融合,成为新的物种,摆脱对地球生态圈的过度依赖,是地球人类成为星际人类的过程中,至关重要的一步,早晚得走这一步。

一句话评价:

这是一部非常出色,但还不够动人的科幻视效大片。

不过我依然给五星,因为同时做好科幻视效和人性故事的,需要给七星。

电影是小柒用压岁钱请爸爸妈妈看的

Ai 绘画将从何处开始进入日常生活?

最近几个月 Ai 绘画这个话题很火,但基本上大家都只是看个热闹,跟普通人的生活没多大关系。或者说,大家感觉不到它和自己有什么关系。只有相关从业者,感受到了巨大的生存压力和身份危机。

但和当年支付大战的春晚红包类似,能让普通人都参与进来、玩起来的场景可能才能让大家感受到:Ai 绘画意味着什么,能做什么。

尽管众多以文生图的 Ai 工具已经大幅度降低了创作门槛,但是在那之前,各种咒术、法门终究是拦住不少普通人接触 Ai 绘画的一块巨石。我自己也曾在用过某些 Ai 工具后,在一条展示初次接触的创作成果的视频里提醒大家,不要忽视它,但也不要过分害怕它。它一定会给我们的生活带来巨大的变化,只是目前还没积累到那一刻,仅此而已。

如果说有什么场景,类似发红包那样简单明了,人人都可以参与,我觉得有一个非常合适的应用场景,那就是用 Ai 生成定制头像。对于不具备绘画能力、不懂念咒语、不会使用绘图软件的大多数人而言,Ai 画头像就是各类修图美容软件一级的场景,既有尝新和娱乐,也有充分的社交属性,和红包非常相似。

最近试用了一下漫镜,一个感觉是,神情抓得不错,风格也足够多,用它来探索自己不同造型的可能性,还是挺有启发的!因此中途我想到一件事,如果这类产品的效率再高一些,跟各大连锁发型屋合作,预约时就上传几张照片,生成几套发型方案,人到了现场就让托尼老师根据效果图来剪,这不是非常好的体验升级么?谁说 Ai 必然逼得人失业呢?还得是看人怎么用。

除了头像,你觉得还有哪些场景,适合普通人体验 Ai 绘画呢?

点解图片体验 AI 制作头像

让 MJ 学我画两张小画儿

昨晚吃饭前跟儿子一起画画,我随便画了一下我们在 Minecarft 里的第二个家,和随便画的一个岩浆包围的高堡:

后来想说看看 Midjourney 能模仿成怎么程度,就丢进去试了一下:

emmm,画得还行……

就是画风不太相关,它有它的训练痕迹,哈哈哈哈哈哈哈~

测试所使用的 prompt:

Tree house, jungle, rainforest, simple little house –sref+空格+两张手绘图的地址 –ar 9:16 –s 50 –v 6.0 –style raw

經濟再差也不能公開談論

經濟狀況究竟有多糟糕呢?從各大品牌在售後策略、降價思路和運營的混亂程度等方面的表現,均可窺見一斑。尤其是當你置身於自媒體、電商與品牌運營三者的交匯點上,這種巨大的荒謬性將更加明顯。

上週末出差重慶,兩周沒在家,難得一個週末,結果倆人坐下後就被各自工作群里的事情纏著,不是回消息就是打電話,咖啡都沒喝上一口。

在國內的社交媒體似乎不讓提「經濟不好」這樣的事,與之相關的話也會被限制,索性我就轉成日語來發了:

経済状況は本当にどれほど悪いのでしょうか?各大ブランドのアフターサービス戦略、値引きの考え方、そして運営の混乱度などから、その一端を窺い知ることができます。特に、個人のネットワークソーシャルメディア、ECサイト、およびブランド運営の交差点に立つと、この巨大な不条理さがさらに明白になります。

先週末、出張で重慶に行ってきました。二週間も家に帰っていなかったので、久しぶりの週末を楽しみにしていたのですが、結果として、座った途端、それぞれの仕事グループからの連絡が絶えず届き、メッセージを返したり、電話をしたりすることに追われてしまいました。コーヒーすら一口も飲めないままです。

為什麼是轉日文不是英語呢?因為即便是英語,在內地的網絡環境里也顯得有些直白了。日語反而更有「似乎知道在說什麼,但根本看不懂」的戲劇化的「陌生化」的效果。

好不容易,終於把翻了一年的《夜航西飛》讀完了。

這是我今年讀完的第三本書。

昨天去宜家看洗手檯和鏡櫃,直到在餐廳排隊前一秒,都沒想起宜家給我發的領生日蛋糕的短信。可就是那麼巧,下周生日,昨天正猶豫要不要去店裡看看,我就慫恿筱燁說想幹就幹,這一來才想起有一個蛋糕等著領。這就是天注定的意思。

苹果停车转 AI 将引发人才大震荡

1、没有 AI 的汽车、手机、电脑、平板等,将是一堆废铁;

2、一家公司的核心战略不能同时放在两个大方向上。

综上,停下造车全攻 AI 是非常明智的。

连键盘侠都知道「不难」的造车,没造出来不是造不出来,是制定的目标太远太高。苹果之前想一步到位搞出 L4 的移动座舱,但现阶段的人类还没有办法,这太难了。在他们之前的设想中,自动驾驶的汽车和 Apple Vision Pro 是可以放在同一个场景里的。但很显然,这个步子太大了。用新势力们的方式当然可以,但那不是苹果想做的。

最关键的是,AI 的大爆发是此前大家都没料到的。没有这事儿,车还是一个重要的方向,但这一波爆发的 AI 不是资本热潮,而是实打实的浪潮了,此时不全力转向,是真的会死的。况且苹果并不是没有在 AI 上投入的,这些年一直都在积累,只是权重还没拉到那么高。现在切方向,即是大势所趋的必须,也是归拢资源的必要。

过去 Jony 可以对供应商说,这里有一桶取不完的钱,你能做到你就能拿走,以此把工业设计拉高到一个令人望尘莫及的程度;今天的苹果比二十年前拥有更多的现金,有自己的芯片和庞大的人才库,有海量的设备和训练数据,可以说:

比起造车,AI 才是更适合苹果干的事;

干好 AI 所需的人才、数据、算力,也是他们的优势。

以苹果的财力,下这样的决心,恐怕要出现一次人才流动的大震荡。

原文发布于知乎提问:

苹果取消探索十年之久的电动汽车项目,将团队转向生成式 AI,原因有哪些?会带来哪些影响?

表达的精度就是人类外延的尺度|Midjourney 
V6 Alpha 自然语言生图测试

Midjourney V6 的质感和细节,真的是飞跃式的成长!

和今年三月相比,已经完全脱胎换骨了。对自然语言的理解和再表达,也已经在渐渐脱离「咒语」的局限,结合 ChatGPT 的语言转译,一个人能够用母语把尚不明确的观念表达清晰,愈发显得重要。

点击图片,可查看原始尺寸高清大图:

当 AI 越来越擅长理解人类的自然语言,我们就愈发迫切地要掌握「用语言表达思想」这件事情。

因为语言的精度和颗粒度,将会在人类与 AI 的相处、合作中,展现出人类智力的上限所在,以及外延的纵深能够得着多远。

Upscale from Variations
Upscale(Subtle)
Upscale from Variations
Upscale(Subtle)
Upscaled (Subtle)
Upscaled (Creative)
Upscaled (Subtle)
Upscaled (Creative)
–Style 50
–Style 100
–Style 250
–Style 750
–Style 1000

❌