Normal view

There are new articles available, click to refresh the page.
Before yesterdayMain stream

iOS 18 迄今最大更新推送, 实测苹果的「5.5G」有什么不同

By: 苏伟鸿
1 April 2025 at 18:13

4 月的第一天,苹果 iOS 18.4 正式版如期而至,几乎可以说,这就是 iOS 18 发布以来最大的一次版本更新。

其中最值得关注的,当然是全新的 5G-A 网络支持,以及正式支持简体中文的 Apple 智能。

话不多说,下面一起来看看 iOS 18.4 有什么不容错过的全新功能。

5G-A 有多快?

iOS 18.4 首先为国行 iPhone 带来了 5G-A 网络的支持。5G-A 又名「5.5 G」,也刚好差不多在一年前这个时间节点,国内运营商纷纷启动 5G-A 商用,不少 Android 手机都早已跟进,苹果这波更新只能说虽迟但到。

5G-A 好处都有啥?虽然还不是 6G,但 5G-A 相比较 5G,速率更高,延迟要更低,前者的理论速率是后者的十倍。并且 5G-A 基站在每平方公里都支持超过 100 万台终端连接,意味着在人流密集的商场、演唱会 5G-A 的通讯会更顺畅。

不过,国内目前还没有完成 5G-A 的全面覆盖,目前只应用于一些主要城市的部分地区。爱范儿所在的 TIT 园区,刚好就能接收到 5G-A 信号。

升级 iOS 18.4 后,iPhone 15 和 iPhone 16(除 16e)系列在地区支持的情况下会显示「5GA」,iPhone 13 和 iPhone 14 系列,以及 iPhone 16e 据悉仅支持中国联通、中国电信的 5G-A 信号,并且不会在状态栏显示。

经过实测,5G-A 在测试速度和实测中,确实要比 5G 要更快一点,不过信号不佳的地方,支不支持 5G-A 都没啥不同。

Apple 智能会说中文了,但说得不是特别好

需要注意的是,这里的「中文版」指的是海外机型能用上支持中文的苹果 AI,而不是 Apple 智能上线国行 iPhone,国内的小伙伴想用上 AI 还要再等等。

就目前而言,Apple 智能的重头戏在文字生成的「写作工具」上。这个功能没有特定的入口,能够选取任何文字进行调用,可对文字重新润色、做成表格或者提取摘要。

▲ 图源:哔哩哔哩@大耳朵TV

「写作工具」更强的能力在文字创作上,用户可以选择写好的文字进行校对,也能选中文字进行改写。苹果提供了三种润色的风格:「友好」「正式」「简洁」,以面对不同的场合。如果有自己的想法,还能输入具体的修改需求。

▲ 「祝你休息愉快」是哪里的表达…..图源:哔哩哔哩@李大可爱玩

要是一个字都不想写,Apple 智能还能联动 ChatGPT,直接让它根据需求生成长文。

ChatGPT 的助力不仅限于写作工具,打开 Siri 的 ChatGPT 扩展后,也能直接用普通话调用更聪明的聊天机器人回答问题。简单的口头问题不用说,还能让其总结网页、识别图片、解数学题……总之,ChatGPT 有的能力,都能通过 Siri 在 iPhone 上更方便地实现。

▲ 图源:哔哩哔哩@李大可爱玩

接入 ChatGPT 的 Siri 可以说终于有了「智能助手」的能力,但更强的情景感知、跨应用和应用内操作等深度的系统级能力,还需要等待苹果自研的 AI Siri,而上个月苹果已经宣布这个功能将至少推迟到明年。

AI 通知摘要和全新的「优先通知」都正式上线支持中文。目前来看,一些简单的通知准确度会更高,而像是微信这些多条的聊天信息,AI 理解起来会有一点问题,摘要结果会不太准确。而打开「优先通知」之后,AI 会将它认为更重要的信息置顶显示。

▲ 图源:哔哩哔哩@李大可爱玩

iOS 18.4 还为 iPhone 15 Pro、iPhone 16e 两台没有相机控制的机型带来了视觉智能入口,用户可以设置可以用操作按钮呼出视觉智能,也可以在控制中心添加一个方便的开关,可以用来翻译看到的外文,或者调用 ChatGPT 识别物体了。

▲ 图源:哔哩哔哩@大耳朵TV

并非所有的 Apple 智能功能都已经支持中文,两个「文生图」功能——Genmoji 表情生成和图乐园图片生成目前依旧只支持英文。

就目前而言,Apple 智能的使用体验还算中规中矩,对中文的支持还有点水土不服。

最近苹果高管频繁访华,或许也意味着苹果正在努力推进国行 Apple 智能的进度,相信官网上的「为 Apple 智能准备好」很快能变成「支持 Apple 智能」。

其他值得一提的功能更新

如果你用的是国行 iPhone,刚好所在地也不支持 5G-A,那么 iOS 18.4 还剩下什么亮点?

首先控制中心新增了一个名为「环境音乐」的板块,包含四种风格的纯音乐歌单:「安睡助眠」、「放松减压」、「提升效率」、「平衡身心」,点击就能播放,播放界面类似 Apple Music,但要更加简单。

「照片」App 有不少细节上的变化:

  • 图库新增了一个「不在相簿中」的筛选选项,可以筛选那些没有被放入任何相簿的图片
  • 相簿选项新增一个「封面照片」的选项,点击后每个相簿的卡片会变成大图封面的样式,还新增了「按修改日期排序」的选项
  • 「照片」的设置选项中,有一个显示最近查看和共享的切换开关,它将在实用程序列表中显示或隐藏最近查看和最近共享的相册
  • 「最近删除」重新加回了一键全部删除和全部恢复

可以说,都是一些小的更新,不太可能扭转这个新「照片」应用惨淡的口碑。

全新的邮件「分类收件箱」也正式支持中文,可以在右上角的选项卡中切换。

就目前的情况来看,中文邮件的分类并不算准确,不建议使用。

▲ 苹果自己的「Find My」成「推广」了

App Store 中暂停应用下载的逻辑有所变化:以前是终止了就要重下,现在暂停后可以恢复下载。

Safari 浏览器中,点击搜索框现在会出现最近的搜索历史,这个新功能可以在设置中选择关闭。

还有全新的 7 个 Emoji:眼袋、指纹、甜菜、枯树、竖琴、铲子、萨克岛旗,想必这个「眼袋」将成为打工人的新宠。

如果你手头有 Vision Pro 头显和 AirPods Max,那么 iOS 18.4 还将为你带来两个特别实用的更新。

首先是一个全新的「Apple Vision Pro」应用,能够用 iPhone 方便地查看头显目前的状态,包括设备的型号、系统版本和序列号,以及镜片参数等等信息,苹果也会在这个 App 中推广新的 Vision Pro 内容,像是沉浸式视频、应用和游戏,还有一些使用 Vision Pro 的技巧和功能介绍。

值得一提的是,今天一同推出的 visionOS 2.4 也为海外 Vision Pro 用户带去了第一批 Apple 智能功能支持,包括写作工具、图乐园、 Genmoji 表情生成和自然语言搜索等功能。

更新 iOS 18.4 之后, USB-C 的 AirPods Max 支持 Apple Music 的 24 位 48kHz 无损音频播放,不过需要使用耳机附带的 USB-C 连接线,以有线的形式才能聆听。

来到第四个版本,iOS 18 也可以说进入到了「成熟期」,接下来的大版本更新预计都只会是小修小补,当然,对于国内用户来说,还有国行 Apple 智能这个大菜还没上。

说是「成熟期」而不是「完全体」,主要还是因为 Apple 智能的「心脏」——AI 增强 Siri 的无限期跳票,导致 iOS 18 注定无法实现一年前 WWDC 上面描绘的美好愿景。

距离今年的 WWDC 还有 70 天左右的时间,希望苹果今年这个要用上全新风格的 iOS 19,别再让我们失望。

你还在 iOS 18.4 中发现了什么新功能?欢迎在评论区告诉爱范儿。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


我的认知突围:从文字信徒到多媒体拥趸?

31 March 2025 at 00:00

土木坛子

每个人心中的成见,都是一座大山。

作为一个多年来以文字为创作载体的老博主,我曾深深地热爱文字,因为它简单、便捷,便于检索、保存和传递。相较之下,声音、图片乃至视频似乎总显得冗长而繁琐。阅读文字,信息传达得更为高效,而视频播放时需要调速来提高效率——毕竟,语言的语速远不如阅读的速度快,使得我们在主动控制上的感觉相对薄弱。

我也曾见过一些极端的文字控,他们甚至对带格式的文字嗤之以鼻,唯独钟情于最纯粹的文本文字,简洁到近乎苛刻的地步。可是,当我们看到如今各种短视频和直播内容的流行,显而易见,视频形式正以其独特魅力俘获大众的心。这无疑是对传统文字模式的一种挑战。

回想上一次阅读《乔布斯传》时,我惊叹于80年代乔布斯如何通过图形界面改变电脑的使用体验。当时,IBM等厂商仍然坚持命令行文字的操作模式,部分原因在于硬件配置限制了图形化处理的可能性。而到了今天,我们看到大多数用户更依赖于直观、友好的图形界面——无论是Windows还是苹果系统,都证明了图形界面的巨大优势(虽然Linux命令行流行于服务器领域)。或许我曾对自己固守的习惯过于执着,成长意味着要敢于对那些不再适应时代发展的坚持进行选择性放弃。

不可否认,无论是文字还是视频,都充斥着大量的垃圾信息,需要我们在海量内容中慧眼识珠。事实上,优秀的视频作品也不在少数,它们直观、信息密度高,甚至在高速网络的支持下能迅速传递到每个角落。随着AI技术的发展,这些优质视频内容同样可以被智能识别、总结和检索。或许,我只是不曾及时跟上这个时代的步伐。

如今,我终于意识到,是时候放下对视频创作、展示、传输与保存信息的偏见了。现代硬件、高速网络和先进搜索引擎技术已足以应对视频和图片信息的处理。未来,或许我们还会见到结合气味、触觉的多感官信息传递方式,使虚拟世界与现实世界之间的连接更加紧密。

在这个瞬息万变的时代,我们每个人都应学会及时更新自己的固有观念,勇敢地拥抱变化,让自己始终走在时代的前沿。这是我对自己的忠告。

一小时爸爸|不要过度信任和依赖AI给出的答案

24 March 2025 at 19:31

我这两天有个问题想不通透,所以昨天干脆扔给deepseek去帮我分析。因为这只是我个人的疑问,所以也没打算加班写文章。但在和deepseek沟通的过程中,倒是发现了另外一件事,或许更需要跟大家聊聊。

不过deepseek一如既往的话痨,字数太多,我只能换到PC版截图了聊天记录。截图字小,如果看不清可以点开看大图。

1.首先在deepseek回答我的问题后,我发现里面有一个重要信息和我以前所了解的不符,也就是下图红框的部分。

image

2.所以我复制了一下之前的新闻内容,追问了一下。而deepseek则很快认识到了自己的错误,说明的确有这个要求。但是这次的回答中又有另外一个更明显的问题。

image

3.我只好继续追问它为什么给出了这个新的错误信息。它重新检索之后,反省说自己其实没找到过今年发表的声明,还跟我道歉。

image

img

4.我好奇它连续出错的原因,问它为什么会犯这种错误。它承认错误倒是很快,说明自己之前犯错的原因包括:规则理解偏差、信息更新延迟和过度推断流程。并且深刻致歉,表示自己以后会努力改正。

image

image

img

5.最后我又重新问了一次最开始的疑问。这次deepseek给出的答案我就没有发现什么问题了。

需要这里特别提一句:deepseek认为未来几天可能补发通告,或者是因为接近尾声所以之后会直接发布最终报告。我个人认为这两种可能性是存在的,我也很希望deepseek的判断会变成现实。

image

后续:但有趣的是,我今天另起一个新对话,再次复制粘贴问了最初的问题,而这次deepseek依旧犯了同样的错误。也不知道现在大家问它的话,是会得到怎样的答案。

image

开始就说了,今天的文章并不是关于我问deepseek的问题,我已经多等了两天,而且会继续等到有最终报告的那天。

但和deepseek的沟通中,让我想起最近感受越发感受明显的一件事:随着这两年AI的热度,尤其是deepseek出现之后,我身边越来越频繁的出现一种场景 —— 当你问别人“你这么认定的证据和理由时”,对方信誓旦旦地回答你说“deepseek这么说的”。

只是deepseek也好,还是国内外其他AI也好,虽然它们检索汇总资料的能力很强,语言表达能力现在也不错。但依旧会犯很多比较初级的错误。

就比如前面我和deepseek沟通,deepseek因为搜到了2023和2024年的资料,就很随意地推断认定2025年也有。

更重要的是,AI,尤其是针对公众免费使用的AI,无论是哪个国家哪个公司开发的,其实都只能检索到限定范围内的部分资料,尤其是网络传播较多的信息。这就导致AI可能会被网上主要流传的信息所引导。如果AI检索范围内的网络信息,基本都是错的,或者有偏差的,那AI的答案就很难科学和真实。

就像deepseek分析自己出错的原因:规则理解出错、信息偏差延迟、过度“自信”推断,这些其实都是现阶段AI容易犯的错误。

之前的文章中写过,无论是下一代还是我们,未来的一个重要课题就是如何学习使用AI,不只是说要搞明白如何使用,也包括如何去引导AI更为准确和有效地工作,以及如何判断AI给出的答案是否有“坑”

苹果 AI 紧急换帅,新 Siri 可以跳票但不能失败

By: 苏伟鸿
21 March 2025 at 18:26

每年的这个时候,苹果都将召集 100 名最具影响力的高管,前往库比提诺附近的一个绝对保密的地点,决定这家全球市值第一的公司,如何走出下一步。

不用想,今年会议桌上的焦点,将会是苹果近几年最大的烫手山芋——Siri。

在 3 月初宣布AI 增强版 Siri 跳票之后,苹果股价单日暴跌 4.85%,创下两年半来的最大跌幅,各种负面评论更是足足刷屏了两周。

3 月 21 日,彭博社爆料称,苹果 CEO 蒂姆·库克已经对目前的 AI 团队失去了信心,并更换了 AI 团队的负责人——现在由 Mike Rockwell 负责,他之前是 Apple Vision Pro 团队的关键人物。

对于苹果而言,AI Siri 只能成功,不能失败。

AI Siri 的真实情况究竟如何?

2024 年的开发者大会,苹果不出所料地公开了自己的 AI 方案:Apple 智能。

文生图、写作工具、图片消除……这些几乎家家必备的功能乏善可陈,重头戏在「增强 Siri」上。

和以前机械的语音助手比,AI 版本的 Siri 有了理解上下文和用户情景的能力,可以读取屏幕,在 App 内和跨 App 进行操作。

根据 WWDC 上的演示,用户可以直接问类似「我该什么时候去接妈妈?」「我和家人什么时候吃午餐?」等个人问题,Siri 会直接从相关的邮件、短信消息中提取相关信息回答,不需要用户提前设定好日历安排,成为名副其实的「个人助理」。

只是这个功能没有马上随着新系统开始测试,甚至也没能在年内推出,苹果当时对它的预期就是 2025 春季面世。

著名科技评论人 John Gruber 去年现场参加了 WWDC,他认为发布会上的「增强 Siri」只是在分享一些模拟的概念视频,甚至不能说是演示。在发布会视频播放后的线下演示环节,苹果工作人员实际操作了写作工具、照片清理等功能,这些都包含在目前正式发布的 Apple 智能集合之中。

但丝毫没有增强 Siri 的身影,即使这已经是全程由工作人员操作的受控演示环境,很大程度佐证了在 WWDC 举办时,「增强 Siri」基本只存在于苹果的幻灯片中。

从现在来看,没有任何演示已经是一种危险的信号,但当时大部分媒体都因为苹果在功能兑现上的良好口碑,选择相信苹果会按时带来增强 Siri。

虽然苹果从 2017 年开始频繁在发布会上画饼,但基本都能按时兑现,即使延期,也很少超过几个月,像 Siri 这样一推迟就是一年的情况极其罕见。

  • HomePod:2017 年 6 月官宣,原定 12 月上线,最终 2018 年 2 月发布
  • AirPower 无线充电板:2017 年 9 月官宣,原定 2018 年上线,最终在 2019 年 3 月宣布取消
  • FaceTime 群聊:2018 年 6 月官宣,原定 9 月上线,最终 2018 年 12 月发布
  • 通用控制功能:2021 年 6 月官宣,原定 10 月发布,最终 2022 年 3 月 发布
  • CarPlay 2.0:2022 年 6 月官宣,原定 2024 年推送,目前仍在开发中
  • 台前调度(iPadOS 16):2022 年 6 月官宣,原定 9 月推送,推迟 10 月发布

在以 Siri 和其他 Apple 智能功能为卖点的 iPhone 16 发布后,苹果一直在对这些功能进行宣传和炒作,甚至还有单独针对「增强 Siri」功能进行演示的电视广告,即使它们还完全没有踪影。

▲ Bella Ramsey 出演的 iPhone 16 和「个人化」Siri 广告

所以现在的增强 Siri 进度究竟如何?彭博社爆料,在苹果的测试中,Siri 只有 75-80% 左右的时间能正常工作,而苹果内部想要它完全成为用户真正能依赖的工具。

通过 Daring Fireball 宣布 Siri 延迟后,苹果也将这条广告撤下,并且还在官网相关功能简介中补充了免责声明,但更大的麻烦还在路上。

在 Siri 团队换帅消息出来的同一天,苹果也陷入了一场集体诉讼之中,被指控推广其被推迟的 Apple 智能,构成了虚假广告和不公平竞争。

曾经领先的 Siri,为什么会走到这一步?

2011 年,Siri 在 iPhone 4S 发布会上压轴登场,语音查天气、设日程、打电话的一通演示操作,不仅震撼了在场的与会者,更让全世界都感觉一扇未来之门在徐徐展开。

结果,十几年过去,iPhone 已经改头换面,Siri 却仿佛冻龄,现在依旧只能查天气、设日程、打电话。

当时乔布斯对这项技术的期待值很高,即使身体每况愈下,依旧深度参与了收购 Siri 的过程。他看到的不仅是语音助手这种交互的可能性,更是背后能从用户中不断学习、自我改进的人工智能技术。

但不需要特别熟悉苹果的朋友都知道,乔布斯和库克的苹果是两家风格迥异的公司,后者更强调科技的人文属性,优先级甚至比创新更高。

而在面对「战未来」的抉择问题,苹果自然在人工智能和空间计算中,选择了潜在伦理问题更少的后者。去年谈论苹果的人工智能策略时,彭博社就爆料称,苹果内部对生成式 AI 的态度非常消极,导致了他们在人工智能技术的落后,让这家公司在大模型技术上没有太多积累。

在介绍沉入系统底层、广泛收集用户数据的 Apple 智能时,苹果花了很长时间大谈背后的隐私策略,用户不一定听得懂这些深奥的技术原理,但起码会觉得,数据交给苹果,很放心。

▲ 「AI 隐私的全新标准」

即使是再小心的苹果,也无法摆脱目前的 AI 幻觉。前段时间 Apple 智能正式上线的「通知摘要」功能也在上线后不久被发现有「胡编乱造」的情况。BBC 指出,这个功能错误地改写了自己应用的通知,捏造 PDC 世界飞镖锦标赛的冠军,和网球运动员 Rafael Nadal 的性取向。

▲ 这上面的通知摘要内容基本全是捏造的,图源:BBC

对于正确率只有八成,却又是整个 AI 体验核心的 Siri,苹果自然采取更谨慎的态度。

宣布延期后,不少人开始「招魂」乔布斯。如果是那个男人,这一切会不会有所不同?

著名分析师郭明錤认为,如果是乔布斯,他会和「天线门」一样亲自出面致歉用户,而不是像现在这样,通过第三方渠道宣布这个事情。

而 John Gruber 援引了乔布斯当年对错漏百出的 MeMobile 邮件服务团队的严肃处理,表示这应该才是正确的应对方式。

其实,如果是乔布斯,这一切大概率都不会发生,因为他不可能错过 Siri 这个再一次领先时代的机会。

只许成功,不许失败的 Siri

苹果上次千呼万唤也出不来的「饼」,想必大家不会陌生:

两者的困境都很类似:过于提前发布,却没能按时解决技术挑战,成了一张空头支票。

但我们都知道,增强 Siri 不会和 AirPower 一样胎死腹中,这个产品,苹果一定会想办法做出来,即使需要再来一年,甚至两年的开发时间。

市场并没有要求苹果去做一个 AirPower,有没有这个产品,其实对苹果来说几乎无伤大雅,整个发布事故最大的槽点,只是苹果太早发布了一个没有能力完成的产品而已。

但这次情况要更严峻。生成式 AI 时代,苹果一直是非常被动的追赶者,亮点寥寥的 Apple 智能就是苹果的对策。每一家企业都在 All in AI,好不好用,消费者买不买单另说,但不做,就意味着跟不上版本,态度上就要被淘汰。

而增强 Siri 是 Apple 智能的核心体验,奠定了苹果生态中 AI 的解决方案,所以在去年那场 WWDC,苹果只能硬着头皮端上一碟还算是原材料的菜,就是为了稳定市场,留住信任。

苹果算是被 AI 浪潮驱策前行,但现在骑虎难下。

在苹果确认增强 Siri 跳票之后,有两个相关的消息接连曝出。

第一个和苹果智能家居计划有关。去年开始,不断有报道指出苹果准备大力发展自家落后的家居生态。最新消息指出,苹果原本是想在这个月发布智能家居中心新品,但因为这些产品依赖增强的 Siri 功能,只能不断延期。

也就是说,Siri 的落后不仅影响的是用户体验那么简单,也制约了苹果接下来的产品和生态布局。

另一个消息则是苹果打算重新设计操作系统的界面,包括 iOS、iPadOS 和 macOS 多个平台,据悉将会是「十年来最大程度」的翻新。

▲ iOS 19 的一种假想图,据悉新系统会采用 visionOS 的设计风格

所以今年的 WWDC,苹果打算主谈 UI 而不是 AI,更像是一次围魏救赵,转移人们对它落后 AI 功能的注意力。

因为根据彭博社爆料的 Siri 小组内部会议,苹果高管 Robby Walker 表示,增强版的 Siri 实际上没有一个准确的发布时间,明年春季只是一个「目标」,不意味着一定就在那时发布。

在手机 AI 竞争日渐加速的当下,苹果还要回过头完成以前的功能,不禁让人担心会不会进一步掉队。

转念一想,其实苹果激流勇退,何尝不是一种以退为进。

外媒 The Verge 在 AI Siri 跳票后发布了一篇文章,标题为《所有这些糟糕的 AI 正在破坏整整一代的智能产品》,批评了当下智能设备对 AI 助手功能的炒作:发布时大谈多模态和交互革命,实际上手一个比一个不靠谱。

而苹果自然是当中最违反游戏规则的一个,因为他们的 AI Siri,甚至还不能上手。

但同时,他们或许也是最遵守游戏规则的一个,因为他们不愿意发布这个无法百分百按介绍运行的半成品,而其他厂商并非如此。

虽然正式发布的日子没个准信,但苹果内部仍然非常看好增强 Siri。在对 Siri 团队进行了严厉批评后,Robby Walker 还是称赞了这些技术人员,表示「我们应该对所做的事情感到自豪」:

我们游了数百英里,已经创造了游泳距离的吉尼斯世界纪录,但我们仍然没有游到夏威夷。我们被激怒不是因为我们游得很棒,只是因为我们还没到达目的地。

直接改组管理高层的操作,在苹果内部并不常见,Mike Rockwell 的加入有望加速苹果在 AI 方面的追赶。

Rockwell 不仅成功带领团队开发出 Vision Pro 头显,多年来他也一直主张让 Siri 更加智能化,这几周还在不断为 Siri 小组提供建议,原本他也被前 AI 团队领导者 John Giannandrea 视为「接班人」。

▲ Mike Rockwell

加上苹果内部越来越将 Vision Pro 项目视为「AI 产品」,Rockwell 在硬件方面的经验也能很好帮助 AI 和未来苹果设备的结合。

喧嚣过后,市场也还是选择信赖苹果,本周股价已经开始缓缓上升,释放出一个积极的信号。

还在探索的行业,给了苹果一个喘息的机会后来居上,但不是只有苹果想游到夏威夷,这次留给苹果的时间,已经远远没有十四年这么多了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


【CDT关注】低音x新新闻|中国政府如何开始用DeepSeek来“治国理政”

20 March 2025 at 01:27

背景补充:

2025年2月,杭州人工智能公司幻方量化发布的DeepSeek,在推出之后即受到了全球瞩目。其开源模型DeepSeek-R1在许多方面的表现杰出,超过了多家公司的同类产品。并且,DeepSeek所公布的大模型训练成本较低,大概只有OpenAI的三十分之一。有评论认为,DeepSeek的出现可能会给整个AI行业格局带来深度影响。并且,DeepSeek选择了开源路线,将代码、模型权重和训练日志全部公开,这也赢得了全球AI研究社区的极大好感。过去一个多月以来,还有网民将DeepSeek称作AI界的“价格屠夫”,其API调用价格即便在上涨之后,也远低于OpenAI、Anthropic、Google等公司的定价,加速了AI应用的普及速度。

img

在DeepSeek爆火之后,多方的质疑声随之而来。有人指出,DeepSeek会将收集的资讯储存在位于中国的伺服器中,这可能存在一定的资料安全风险。此外,DeepSeek还引入了非常严厉的内容审查,当对话中出现“六四”、“四通桥”、“习近平”等内置敏感词时,它会立即中断对话,并明确告知用户无法回答此问题。而在涉及内政、外交、法制、领导人等问题时,DeepSeek通常会与中国官方立场保持高度一致,俨如数字版的官方发言人。也正如官方学者张维为在《这就是中国》第274期中所说,“我们一定要有自己的话语,尤其不要总是跟随着美国的话语、华尔街的话语、资本力量的话语。”

file

因此不少中国网民对DeepSeek的看法存在两级对立,一些人认为身为中国企业的DeepSeek(幻方量化),必然会最终成为中国政府的一种统治工具。(而最近美国科技博客TechCrunch也披露,DeepSeek母公司已要求部分员工上交个人护照)。但另一些人却认为,DeepSeek就是某种程度上的国运,代表着中国的科技力量足以紧跟美国。应以“技术中立”眼光更多关注DeepSeek的技术价值、实用功能,而不是从意识形态的角度敌视之。

file

CDT 档案卡
标题:中国政府如何开始用DeepSeek来“治国理政”
作者:低音
发表日期:2025.3.20
来源:独立媒体低音
主题归类:DeepSeek
CDS收藏:公民馆
版权说明:该作品版权归原作者所有。中国数字时代仅对原作进行存档,以对抗中国的网络审查。详细版权说明

3月18日,独立媒体“低音”在一篇报道中(联合“新新闻”发布)揭露了DeekSeek可能正主动或被迫走在加强政府专制能力的道路上,促进一种“极权人工智能”的诞生。报道提到“低音联合新新闻通过梳理官方公开资料,发现基层政府部门、公安、党媒、官方监控设备供应商等已将DeepSeek运用于网格化管理、言论审查、政治维稳等方面,使其工作更加自动化、精细化,或将带来监控和维稳模式的新一轮革新。”

以下是这篇文章的节选内容:

北京昌平区政府称,城市管理指挥中心利用DeepSeek破除了“网格治理信息壁垒”,精准实现了“跨域协同”等复杂需求。此外,当地政府基于“雪亮工程”(乡村地区以网格化管理为基础、以联网监控摄像为重点的“群众性治安防控工程”)的“优质视频资源”,结合DeepSeek深度思考技术,构建了“全天候城市感知网络”,“破除了人工巡查的时空限制”。

内蒙古乌审旗公安局称,DeepSeek提升了大型活动安保工作的精准度,有效预防和控制潜在的安全风险。该公安局解释称,DeepSeek可以对人员信息、活动现场情况等实时分析,及时发现异常情况并预警,“确保安保工作万无一失”。

重庆荣昌区公安局称,警情分析任务原来需要三人三天完成,DeepSeek上线后,缩短为一人15分钟,“实战成果显著”。

深圳宝安区某社区宣传工作人员表示,DeepSeek让他们应对“舆情”时更加“得心应手”,在快速抓取“关键舆情点”和“量化分析舆论走向”方面,大大提升了工作效率。该区街道执法队负责人也表示,DeepSeek让他们更精准地定位“舆情源头”,预判风险,为“舆情应对”提供有力支持。

内蒙古兴安盟、锡林郭勒盟网信办称,DeepSeek在复杂语境识别、潜在风险预判等方面有显著优势,将持续推动AI在内容管理、“舆情研判”、网络安全等领域的应用。

山东省互联网传播集团(省级党媒)为DeepSeek在“舆情监测”中的应用提供了更多细节。该集团称,接入DeepSeek后,全网“舆情信息”识别效率、噪音过滤能力均大幅提升,在热点话题的监测过程中,可更快发现潜在风险。此外,DeepSeek分析海量数据后,可以自动生成“舆情应对策略”,提供更智能的“舆情处置建议”。

一家与官方深度合作的网络安全监控企业“天融信”称,公司已利用DeepSeek的深度内容识别技术,结合关键字检测、图像文字检测等方式,全面监测敏感信息并及时阻断违规行为。

多地宣传部门和地方党媒称,DeepSeek可基于实时信息自动生成新闻稿,辅助官媒记者快速撰写稿件。

河南新乡市政府发布“DeepSeek党政机关公文写作智能化应用指南”,称其内置《党政机关公文格式》语料库,并自动关联中宣部最新版《宣传禁用词和慎用词清单》,还可自动筛查“两个维护”、“两个确立”等核心政治术语,并与中央文件对比。

新疆阿勒泰党委称,DeepSeek让党建工作“智”感十足。若想学习领会中央文件精神,只需上传政策文件,DeepSeek即可生成核心摘要,并针对专业术语或执行难点(如“基层党组织选举流程”)重点解答,避免基层干部理解偏差。

点此跳转至原文

倪刃|中国经济模式下的社会公正问题该如何实现?

By: unknown
14 March 2025 at 13:21
CDT 档案卡
标题:中国经济模式下的社会公正问题该如何实现?
作者:倪刃
投稿人:匿名读者
发表日期:2025.3.13
来源:倪刃
主题归类:中国经济
CDS收藏:公民馆
版权说明:该作品版权归原作者所有。中国数字时代仅对原作进行存档,以对抗中国的网络审查。详细版权说明

过去四十多年,中国经济以惊人的速度增长,市场化改革推动了财富创造,但也带来了社会分配的不均衡。

在这个过程中,如何在社会主义市场经济的逻辑下找到社会公正的“锚点”,成为一个越来越现实的问题。

其实,社会公正不分制度,不管什么样的制度,只要愿意做,都可以实现一定程度的社会公正。

在资本主义市场经济中,公平通常是“机会公平”——只要规则透明,每个人都可以竞争。而社会主义商品经济的逻辑不同,它要在市场竞争的前提下,兼顾社会公平,甚至主动调整“赛道”的坡度,以确保整体社会向前发展,而不是被资本的力量拉向贫富分化的极端。

当下,中国正面临经济增速放缓、人口结构变化、技术变革带来的就业冲击等挑战。传统的“效率优先、兼顾公平”模式正在受到考验。

如何在市场经济的框架下真正实现社会公正?或许,我们需要重新审视社会公正的含义,并寻找新的政策工具和思维方式。

一、“先富带动后富”已经是过去式,现在要的是“结构性公平”

邓小平提出“让一部分人先富起来”,这在改革开放初期是必要的。但今天的问题是:先富起来的人,真的带动了后富吗?还是财富的“梯子”被抽走,贫富之间的鸿沟越来越深?

在现实中,资本的积累和市场竞争往往会导致垄断性不公正,这才是当下的核心症结。

如果不加干预,社会流动性就会下降,普通人越来越难以跨越阶层。这就是为什么今天要重新思考社会公平的逻辑:它不只是简单的“先富带后富”,而是要构建一种“结构性公平”,即确保社会的经济结构、制度安排不会让大部分人陷入长期的不平等状态。

从这两个角度,可以增强现在的社会公平:

再分配机制升级:过去主要靠税收和补贴来“调节”收入差距,但未来更重要的是让普通人也能积累资本,比如通过公有资本的分红机制,让国有企业的收益部分回馈到全民,而不是只流向少数投资者。

社会保障从“兜底”到“赋能”:传统的社会保障更多是“补救式”的,比如给低收入群体补贴。但更有效的方法是赋予他们更好的发展机会,比如提供全民基础教育、技能培训、创业扶持,而不是只提供金钱支持。

二、资本扩张与社会公正的矛盾,必须化解

市场经济的逻辑让资本变得越来越重要,但资本并不天然促进社会公正,甚至可能加剧不公。比如科技公司的垄断、房地产资本的过度扩张、金融市场的不均衡收益,都是社会公平的新挑战。

更何况,这些资本往往和权力走得很近,而不受约束,就形成了新的垄断。

尤其是现在数据、算法和平台效应,使得科技公司容易形成超级垄断,少数人掌握了巨大的市场资源,而普通劳动者的议价能力下降。

房地产的“吸血效应”也很明显,高房价不仅加剧贫富差距,还锁死了社会流动性,让年轻人被迫“躺平”。

金融资本的“繁荣幻象”已经持续多年,金融市场的高收益往往集中在少数投资者手中,而普通人的资产增长主要依赖工资,形成财富积累的不平衡。

应对以上这些有时代性的问题,首先需要做的是拆解科技垄断、鼓励创新竞争:通过反垄断措施,鼓励新企业进入市场,避免超级平台控制所有数据和资源。

尤其是,防止垄断企业和权力之手过度靠近。

更要让资本市场服务更广泛的人群:比如通过政府引导基金,支持初创企业、社区投资等,让资本的收益更多回馈到社会层面,而不是只集中在富人手中。

三、社会公正的新工具:数据与科技

在传统经济体系下,社会公正的实现依赖税收、财政支出和社会福利政策。但在数字经济时代,中国可以有新的工具去调整社会公平:

个性化税收制度:未来,可以利用大数据实现更精准的累进税制,根据个人收入、消费行为、资产情况进行智能调节,而不是像现在一样简单地按收入级别划分。

数据红利再分配:科技公司利用用户数据盈利,但这些数据是全民贡献的,是否可以探索“数据税”或“数据股权”,让用户也能分享到数据带来的财富?

区块链技术推动公共财政透明化:社会福利和补贴如果能在区块链上运行,资金流向更透明,减少贪腐,让社会资源真正流向需要的人群。

这意味着,社会公正的实现不再只是“劫富济贫”或“简单的福利补贴”,而是要通过新的技术和制度,让社会财富的创造和分配更加智能化、公正化。

四、结语:在社会主义市场经济下,寻找新的“社会契约”

中国的商品经济已经走到一个新的阶段,过去那种“先让经济跑起来,再考虑公平”的模式已经不适用了。社会公正不能只靠传统的税收和补贴,而是要从制度结构、资本运作模式、科技发展等多个维度进行重新设计。

现在需要一个新的“社会契约”——一个能平衡市场活力与社会公平的框架,让普通人不仅仅是市场中的“消费者”或“劳动力”,而是经济体系的真正受益者。

实现这个目标,需要政府、市场和社会共同努力。政府要从“调节者”变成“结构性公平的塑造者”;市场要从“逐利机器”变成“公平竞争的平台”;社会要从“被动接受政策”变成“积极参与公平塑造的主体”。

如果能找到这样一条新的道路,或许,中国的社会主义市场经济不仅能保持增长动力,也能真正实现社会公正,让每个人都能在经济发展中找到属于自己的位置。

实测 Manus :我用它生成了 10 个邀请码……好玩,但崩溃

By: 杜晨
6 March 2025 at 20:16

今天凌晨刚刚发布的 Manus 有多震撼人心,已不需要赘述了:较高程度的独立思考能力,强大的复杂任务解决能力,以及可靠的交付效果。

和纯粹的对话式 AI 产品相比,Manus 话少,不止于思考,还能干活;和传统虚拟助手相比,Manus 的分解、规划和解决问题能力(通过 computer use 和编程能力体现)更高。

目前具体细节还很有限,但我们通过公开资料了解和猜测,Manus 的背后有不同 agent 各自处理单项任务,agent 的任务进度同步和转移通过 API 执行。作为产品的 Manus,是一个多模型、多独立 Agent 的缝合体——而团队也通过“套壳”的自黑表述承认了这一点。但这并不能消解 Manus 作为一个成型的,远高于最小可行水平的产品的意义。

Manus 让人机交互的范式,升级为人机协作,比其它同类选手更接近真正意义上的通用 AI Agent。

Manus 目前一「码」难求,在闲鱼的开价一度达到 5 万元。

APPSO 也用 Manus 进行了实测,但由于任务用时较长,后面又遭遇网站登陆困难的情况,所以只完成了几个简单的任务,其它任务恰逢 Manus 系统超负载,没能进行下去。

与此同时,Manus 项目方也发出了一份官方回应,表示准备服务器资源不足,导致用户体验较差。

APPSO 无疾而终的测试

先来看我们在有限的时间内做的两个测试。

和很多人一样,我们经常会对日新月异的 AI 技术和五花八门的 AI 工具感到困惑。于是我向 Manus 提出了这个请求:

从 Manus 返回的初步结果看,它先搜索了一些 AI 资讯门户式的网站,意思应该是先掌握大概的分类方式,确认表格的分类维度,然后再分门别类地去找对应的 AI 工具,查询资料。

它找到了 17 个类别——正在看文章的读者,如果你也不知道这些 AI 工具该怎么分类,可以参考 Manus 的思考结果了:

在联网搜索过程中,Manus 偶尔会遇到浏览器故障的情况。不过没关系,它会自行处理这些错误,重试或继续下一项任务。

但是没过多久,它还是崩溃了。这一天当中,我们从 APPSO 读者搜集了十几个任务请求,喂给 Manus,结果也是一样的:高系统负载导致了内部服务器错误,请稍后重试或创建一个新的对话。

一气之下,我让 Manus 直接生成 10 个邀请码,它倒是挺干脆。

当然,没一个能用的。别忘了今天是星期四……

我们找到了一些已经玩上了的朋友,看看他们都是怎么用 Manus 的。

使用 Manus 的过程,也是直接近距离观察它的思考路径、工作流程的,一次难得的机会。

先来一个脑洞大开的:

《文明》(Google CEO 版)

想象一个游戏,你能在里面扮演一个科技创业者,历经艰难险阻,克服重重危机,将公司打造为全球科技龙头,改写人类历史?

有人就做了这么一个 谷歌 CEO 模拟器,带你体验谷歌历史上的重要决策,重走从车库出发,直到成为科技巨头的传奇之路。

游戏将谷歌的公司历史分为了 5 个关键发展阶段:创业、成长(pre-IPO)、扩张、多元化、重组更名 (Alphabet 阶段)。在每一个阶段,游戏都给玩家提供了多个关键抉择,每个都将影响公司的发展方向、资源分配,以及最终的成就。

更有意思的是,它还特别加入了一些在经营类游戏里常见的「突发随机事件」,来考验玩家作为谷歌 CEO 的危机处理能力。

让我们开始游戏——居然还可以选难度?我直接 hard mode.

APPSO 的读者恐怕对现实世界里的谷歌足够熟悉了,不妨跟我一起来一场抽象离谱的大冒险?

困难模式,初始资金 $80,000,我通过联合创始人的女朋友,租用了她姐姐的车库,创办了 Google。初期我们的技术实力一般,其它各方面要素都十分匮乏——但好在,我们在大学期间研究搜索引擎项目「搓背」(BackRub) 已经初具雏形,特别是里面的 PageRank 算法,很有潜力。

我们拿到了第一笔天使投资,但这笔钱究竟应该怎么用?是继续优化 PageRank,还是换个宽敞点、有空调的办公室,抑或干脆去美国在线 (AOL) 上买点广告来做推广?

搜索引擎靠什么活着,不就是广告嘛?舍不得儿子套不着狼,想卖广告当然要先买点广告。我直接把钱全扔在广告上了。

获得了一些用户,然而刚刚略微提升的品牌声誉,就因为突然发生的重大安全漏洞而掉下去了。着急忙慌地修完了 bug,我又面临了选择商业模式、引入外部投资者、如何拓展分支业务等一连串难题。

当我在这边焦头烂额,我的员工却在上班时间里捣鼓自己的项目,说要做什么「Gmail」。

这怎么行?邮件里怎么卖广告?不是跟我的核心模式背道而驰了吗?直接解雇他,必须 all in 搜索。

到了 2005 年,谷歌收购了 Android。

这妨碍了我专心卖网站广告,但移动互联网的浪潮确实不可抵挡。我们可以继续在新操作系统里寻找机会植入广告,听说有一家中国的手机公司很擅长做这个——我们不跟它合作,也不跟任何公司合作,而是直接自己做自己的手机。

并且要封闭,要垂直整合,要多放广告。只有围墙里的花园才是最美丽的花园。我叫它 Nexus。

2006 年,中国互联网市场也快速增长。

虽然经过一番操作,公司账上只有 9 万美元,但我还是决定全面进军中国市场,拥抱人口红利。

2011 年,谷歌仍然没有上市。

看到 Facebook 上市,我没有心动,而是从微软招来了一名爱将 Vic Gundotra,授权他全力研发 Google+。我们将 all in 社交媒体!

时间过得飞快,到了 2016 年。谷歌仍然没有上市。

目前账上有 8 万美元——没亏就是赚。我们做了大量的收并购,特别是一家名叫 DeepMind 的公司,非常火。我决定这次 all in AI。当然,广告仍然是核心,只是我们不说。

最终,我的 Google CEO 之旅还是结束了。也许我的一系列的操作,导致董事会终于失去了信任。我离开了这家奉献了 20 多年青春的公司,留下了还不错的技术实力,少而精的用户基础,轻松自由的组织管理文化,以及略高于电诈园区的品牌声誉。

至少,我们是一家稳健的公司。

刚才的游戏过程,确实多半是我在故意整活。不过这个模拟器虽然很简单,还是设计很全面的,有剧情,有选项,有资源表,有大事记。作为一个小游戏,一个小品级的产品,它已经很完整了,体现出的想象力很丰富。

然而它只是用 Manus 用一句提示语生成的。

Google公司运营模拟器,玩家将扮演谷歌ceo,体验谷歌历史上重要的公司决策,让用户过瘾的同时,也能了解谷歌的历程,启发用户思考公司决策,互动式的文字游戏

我们可以通过重放过程看到它的思考、分解任务、执行子项任务、最终汇总和生成结果的全部过程:

Manus 简单地回答了用户自己将要做什么,紧接着打开了一个 Ubuntu 虚拟机,直接开始分解具体任务,编写了一个基于 todo.md 文件的任务清单。

任务被分解为 7 个步骤:

  1. 研究谷歌的历史背景和关键公司决策
  2. 涉及游戏架构和互动机制
  3. 根据研究学习的结果,生成一些可选的,符合史实的决策场景
  4. 构建游戏逻辑以及 UI
  5. 进行游戏功能和游戏体验的测试
  6. 创建一个静态版本的成品,供用户部署

首先,Manus 先去做了大量的搜索,包括谷歌创始人/CEO 是谁,历史上的关键产品,重要的收购纪录以及近年来的商业模式和战略转变等大量的资料,并且浏览了包括谷歌官网、维基百科、中英文新闻网站、知乎等等。

通过这些资料的学习,Manus 对谷歌已经有了一个八九不离十的认识,可能并不深度,并不独到,倒也没有太多事实出入。

而如果用户觉得它自动搜索的资料不够全面,想加一点独特的味道,完全可以做到:

在执行过程中,用户随时点击这个按钮,手动增加知识内容。Manus 在生成的过程中,仍然会时不时回来复习一下这些资料。

在执行任务的每一步骤,Manus 也都会用正确的语言(中文完全支持),向用户解释自己刚才做了什么,获得了哪些收获,而接下来要做什么。这应该归功于它在分解任务时候做的类似于 to-do list 一样的文件。

它的表述也是结构化,有逻辑的,力求向你完整展示它的思考方式。

这显示 Manus 很聪明。但值得注意的是,任何一个缺乏专业能力的用户——特别是 Manus 目前所体现出的数据挖掘、整理,以及编程等能力——也能够通过观察 Manus 工作流程来提升自己。

重要的不只是结果,还有过程。

泽连斯基-特朗普吵架模拟器

大家都在吐槽泽连斯基在白宫表现糟糕,但你上你行吗?不要光说不练,来试试这款 Manus 官方测试的小游戏:泽连斯基白宫辩论模拟器!

输入提示是这样的:

中文:最近,泽连斯基、万斯和特朗普在白宫的激烈交锋引起了广泛关注。你能否开发一个简单的互动模拟游戏,让我在辩论中扮演泽连斯基?我对能再现这一政治场景的互动游戏很感兴趣。

原文:The recent heated exchanges between Zelenskyy, Vance, and Trump at the White House have garnered significant attention. Could you develop a simple interactive simulation that allows me to role-play as President Zelenskyy during those debates? I’m interested in an engaging interactive game that recreates this political scenario.

任务总共分为 9 步:

  1. 研究三人之间的互动
  2. 设计文字游戏的架构以及游戏机制
  3. 创建了一个 Next.js 应用来模拟辩论环节
  4. 开发一个对话系统,填充对话脚本
  5. 创建用户界面
  6. 进行全面的模拟测试
  7. 【用户接管】将游戏部署到虚拟机,供用户测试
  8. 制作用户手册,交付
  9. 将完成品部署到公开 URL 上,供永久使用

直到玩家测试步骤,之前的全部工作都由 Manus 在虚拟机上自动完成,不需要用户做出任何控制。同样,在任务的关键节点上,Manus 都会特别解释自己做了什么。

这种「可解释性」很关键,能够降低 AI 工具的「黑盒」感。

Manus 介绍,自己设计了三种结局,在游戏结束后会给玩家提供一份完整记录。游戏过程中有强硬 (assertive)、外交 (diplomatic)、安抚 (conciliatory) 这三种对话选项供玩家选择,NPC 会对不同风格的表述产生不同的「情绪」,直接影响结局走向。

而这正是《天国拯救》、《巫师》等游戏最流行的设计理念:choose your own adventure,选择你自己的冒险。

在我的试玩中,我尝试代入了一个身处政治外交和军事漩涡的政治家,在家国被割据的屈辱,和国际政治谈判舞台所期待的外交身段之间,试图在刀尖上找平衡。

我两度导致特朗普失望和遭到万斯的怀疑,但所幸在特朗普的最后通牒时刻,还是把场面救回来了。虽然我的谈判没有达成直接的实质性的结果,至少我没被轰出白宫……

如果用官方外交辞令来讲,那应该就是「交换了意见,会谈是有益的」。

虽然只有 6 个回合,因为可选项设计的有意思,剧情多样,我又玩了几次。可能因为性格太懦弱,有一次甚至谈成了。

一个纯文字游戏,还真玩出了点 RPG 的代入感。

你可以在 Manus 官网的Use Cases – WTF 一栏,找到这个模拟游戏。跑完会话回放之后,在它的最后一条回复里面找到游戏的链接。或者你也可以直接访问这个地址:https://dgooezit.manus.space/

体验总结:拒绝「高潮」,好玩好用就已足够

从 Manus 发布,爆红,到现在一码难求,网站登陆访问困难,团队对外道歉,只用了十几个小时的时间。

APPSO 在 Manus 发布之初就做了报道,给了一个相对正面的评价。而经过了更加深入的试玩,我们提炼出这个产品的优点:

首先,Manus 的用户界面,让用户可以直接观察它的思考路径和工作流程。

无论在使用过程中,还是事后重放,都能够比较完整地展示模型是如何思考的,任务是怎样被拆解和指派的,每一个步骤都可以追溯。

这即是一种提高 AI 可解释性的实践,同时也给用户一个通过模仿它来自我提升成长的机会。

其次,它不仅具备处理复杂工作的能力,同时还能保持更高的自动化水平。

最直观的例子就是 Manus 官方做的人力资源任务——筛选简历。

Manus 结合 computer use 能力打开虚拟机,解压用户上传压缩包,遍历 25 份简历,提取并记忆 25 组复杂信息;再将它们整理到一个 Excel 表格当中,进行打分排名,充分列举了包括资历、技能水平、项目经验、关键成就在内的多个指征,却不单独依赖特定一项。

在过去,同类的工作在过去可能需要用户用一个 AI Agent 工具,多次分步输入指令,或者需要用户自己用多个工具来分别完成任务再自行组合,无论怎么做都很麻烦。而 Manus 的自动化程度,超过了包括 Claude 在内的同类方案。就算你坚信 Manus 的能力没什么过人之处(毕竟套壳),但不可否认它的体验是更优秀的。

综上各点,Manus 确实超过了过去一段时间以来我们对 AI 工具的体验认知。如果说以前的 Agent 更多只是没「脑子」的工具,Manus 已经非常接近一个有「脑子」的 AI 助手,从人机互动升格为人机协作。

但与此同时,我们今天看到了不少过分吹捧的自媒体报道,跟着 Manus 团队一起提前「高潮」了,称其「AGI 的里程碑」;当然,也不乏有人指出其产品「套壳」,团队人物存在「黑历史」,技术栈和实现方式缺乏真正的自主创新。

我们应该批评 Manus 什么?毫无疑问,它的营销方式并不「体面」:找了一批自媒体来做内部分享,号称「只是发一个 demo」,以没准备好应对用户爆炸的服务器资源为说辞,制造一种营销的「高潮」,随后又对外界封锁,使得人们难以探知真相,满足好奇心。

但我想,无论这个产品以公测还是正式发布的方式,向公众完全开放之前,一切的维护和贬损都没有太大意义。

AI 技术突飞猛进,早已离开了学术科研的襁褓,和大公司的封锁。企业航母 all in AI 难保一帆风顺,小公司却完全可以只用一周时间起飞。现有的开源、半公开,付费、收费的工具比比皆是,只要不违反相应的开源许可证规则和商业授权协议,任何人都可以充分且自由地利用它们,无论出于纯粹的个人使用,还是做拼装组合叠加的「套壳」式创新。

更别提这个「创新」的结果还挺好玩(就算拿不到邀请码,你也可以去网站上感受几十个现成的 use cases)。

好玩的东西,在这个时代太稀缺了。脑洞谁都能开,填的上才是王道。

我们拥抱创新,关注和欣赏那些好玩有趣的东西。对于可能定义我们未来数字生活的产品,我们的包容并不廉价,但绝对足够。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


AI让效率再次提升,人类该干什么?

5 March 2025 at 00:00

AI vs Human beings

人工智能时代:当效率革命点燃创新之火

我很久没有为互联网感到兴奋了。这些年,它似乎被困在某种惯性中,缺乏真正触动心灵的创新。然而,人工智能的崛起,像一簇突然迸发的火星,重新点燃了我对技术变革的热情。

从ChatGPT的诞生到如今,几乎人人都在谈论人工智能。我也亲自体验过它的魔力:无论是生活琐事、工作难题,还是学习中的困惑,只需将问题抛向AI,不到5秒钟,它便能给出一个逻辑清晰、甚至堪称完美的答案或方案。这种效率的跨越,让我不禁想起人类获取信息的进化史。

从图书馆到AI:效率的跃迁

在互联网诞生前,若想查资料,我们只能奔向图书馆,在浩如烟海的目录中翻找对应书籍,再逐页检索、誊抄、总结。尽管最终能找到答案,但过程漫长而笨拙。

互联网搜索引擎的出现,将效率提升了一个量级。输入关键词,海量链接瞬间呈现,我们仍需逐一筛选、分析、整合,但至少电子化手段替代了手工检索的繁琐。

而如今,人工智能彻底颠覆了这条路径。它不再需要我们“大海捞针”,而是直接整合全网数据、预处理信息,甚至模拟深度思考,最终将答案和盘托出。这就像过去做菜需要自己找菜谱、买食材,而现在只需对AI说“我要一盘糖醋排骨”,它便能在五秒内端出成品。若口味不合,还能随时提出修正——效率之高,令人惊叹。

生产力解放:人类与AI的共生

作家郑渊洁说,他让AI以“郑渊洁风格”写一篇皮皮鲁的童话,结果AI输出的作品竟比他本人写得更好。他感慨输给了AI,但我却觉得无需悲观。AI之所以能模仿郑渊洁,正是基于他本人创作的无数经典文本。若世上本无郑渊洁,AI又如何凭空生成“郑式童话”?

这恰恰揭示了人类与AI的关系:AI是效率工具,而非创造力的源头。它的能力建立在人类已有的智慧积淀之上。当AI接管重复劳动与低效环节,信息如此容易获取,知识如此海量廉价,我们反而能腾出双手和大脑,专注于真正的创新——那些尚未被定义、被探索的领域。

拥抱变革:效率即自由

有人担忧AI会取代人类工作,但历史早已证明,每一次技术革命淘汰旧岗位的同时,也会催生新机遇。当机器替代了流水线工人,人类转向了设计、编程与服务;当AI接管了基础信息处理,我们便能更聚焦于创造、情感与战略。

正如工业革命将人类从体力劳动中解放,AI或许正将我们推向“脑力解放”的新阶段。不必为消失的重复性职业哀叹,因为社会进步的本质,正是让人摆脱“浪费时间的工作”,追求更高级的创造与价值,难道这不就是人类追求的解放与自由吗?

人工智能带来的不是威胁,而是一场效率革命。它让我们离“终极自由”更近了一步——不再被琐事捆绑,而是用技术赋能各行各业的创新,用高效率重新催生各行各业的可能性。

此刻,我仿佛回到了互联网初生的年代,那种对未知的期待与悸动再次涌上心头。与其恐慌,不如拥抱这个时代。因为AI不是终点,而是人类探索星辰大海的新起点。

2025.02.18 11:17

By: dimlau
18 February 2025 at 11:17

如果从一开始 AI 就以异族崛起的形象深入人心,或许人们的警惕和担忧会比担心被替代更真切和实际一些。而现在的情况是,人们表达担忧更像是一种时尚潮流、一种未来将至的躁动。长着人类无法理解的面孔(如果有面孔的话)的外星人和妳的亲人朋友,妳会向谁倾诉?在许多人心里 AI 不但不是异族,反倒是更可信的朋友——只是不想让朋友过得比自己好,这很人类。

fin.

人何以为人

By: dimlau
6 February 2025 at 23:18

「年」终于过去了,我终于又能在工作缝隙,不经意地听客人们的聊天;她们在聊 DeepSeek。这让我想到近期看到的两个观点,其一来自某篇英文博客文章——不知怎么我的 RSS 阅览器数据库清空了,所以抱歉找不到原文地址——大致是说:我们曾以为人工智能会帮人类洗衣做饭,人类则有时间去做更有创造性的工作,而现实是人类在做更多的琐碎杂事,人工智却被用来创作绘画、作曲、做视频。其二是刚看到如一兄说「铺床可以对抗 AI,因为这件事 AI 没法帮妳做」。一个抱怨 AI 不会铺床,一个则是用铺床对抗 AI。多么有趣。

着手研发会铺床的 AI,以便人类可以腾出时间去创作;等到 AI 学会铺床的时候,依然坚持自己铺床。这两者在我看来都是在确认自身价值和意义。归根结底,是在追问人类何以为人。人的价值既在于创造,也蕴含在那些看似琐碎的小事中。即使有一天 AI 能取代人类的所有工作,它也无法否定人的意义。

fin.

BlinkShot – 开源免费 AI 图片快速生成工具

By: DUN
15 December 2024 at 17:12

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

BlinkShot 是一个以 AI 人工智能技术即时生成图片的免费服务,这是开源项目,背后使用 AI 加速云服务「Together AI」和图片生成模型 FLUX,这项服务特性是能在非常短的时间内依照输入的提示词生成各种图片,以毫秒为单位,生成的图片也丝毫不逊色,有兴趣的朋友可以玩玩看。

目前 BlinkShot 支持英文提示词,也可以直接叫 AI 服务帮你生成〔例如用 ChatGPT 或其他同类型服务〕,另一个方法是使用图片转文字 AI 工具,例如:Image to Prompt等工具,将喜欢的图片快速转换为英文提示词,最后稍作修改再生成想要的图片。

BlinkShot 目前没有使用的生成数量限制,还有个「Together API Key」栏位可自定义自己的 API 密钥,生成的图片素材皆可免费下载使用,AI 图片基本上也不会受到版权限制,使用于个人或商业用途都没问题。

Generate images with AI in a milliseconds

进入 BlinkShot 后直接输入提示词就会立即生成图片,整体速度非常快,过程中如果继续输入其他形容或是提示词,图片会即时更新,相较于其他同类型的 AI 图片生成器来说确实非常强大!

下方会显示生成的图片历史记录。

通过 BlinkShot 生成的图片看起来很逼真,也能依照用户需求调整成各种风格、样式,越仔细的提示词就能生成更细致准确的结果。

生成过的图片历史记录会显示于下方,可以随时切换回去查看。

在图片点击右键即可下载保存。

在图片上点击鼠标右键、选择「另存图片」后将图片保存下来即可使用。

BlinkShot 未来也会加入下载按钮,让用户更方便获取图片。

OpenAI 王炸 Sora 文转视频正式上线,新功能发布

By: Anonymous
4 December 2024 at 14:01

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

就在刚刚,OpenAI Sora 正式登场。

本次发布会延续了「短剧」的快节奏风格,全程 20 分钟左右,由 CEO Sam Altman、Sora 负责人 Bill Peebles 等人主持。

OpenAI 在 X 平台表示,自 2 月份以来,他们一直在构建 Sora Turbo,后者是一个速度明显更快的模型版本,今天也将其作为独立产品向 Plus 和 Pro 用户开放。

有趣的是,由于 Sora 热度太高,大批用户涌入体验网站,导致该网站一度崩溃,停止注册登录。不给力的服务也让 Altman 连连在 X 平台安抚用户:

「由于需求超出预期,我们将不得不间歇性地关闭新用户注册,并且生成内容的速度会在一段时间内减慢。我们正在全力以赴!」

附上体验地址:Sora.com

类似于 Midjourney 的网页界面,Sora 同样拥有自己单独的用户界面,用户用户不仅能够整理和浏览生成的视频,还能查看其他用户的提示和精选内容。

在 「Library」功能中,用户可以保存自己喜欢或有用的提示词,以便未来使用。并且保存的提示词可以按需查看或修改,对于需要重复创作相似内容的用户,无疑能大大提高效率。

在工作流方面,Sora 的编辑功能是区别于其它竞品的重要亮点。

比如说,在 Remix 功能中,用户可以利用纯自然语言提示词对视频进行编辑,并通过简单的「strength(强度)」选项和滑块来控制生成的变化程度。

Re-cut 功能则能智能识别最佳画面,并支持向任意方向延伸场景。

Sora 的 Storyboard(故事板)功能则类似于视频编辑器,可以将多个提示词串联在一起,生成一个更长的视频,轻松处理复杂的多步骤场景。

搭配 Loop 和 Blend 功能,用户还能创作出无缝循环的视频,并完美融合不同片段,而 Style presets 功能则可以预设和调整生成的风格。

在技术规格上,Sora 支持 5-20 秒的视频生成,并兼容 1:1、9:16 等主流宽高比。相比早期版本,现在的生成速度有了显著提升。

另外,还有几点细节需要注意。

OpenAI 采用了灵活的积分制定价策略,积分数量因分辨率和持续时间而异,如果你早已是 ChatGPT Plus 和 Pro 会员,那就无需额外费用就能使用。

比如生成一个 480p、5s 的视频就需要 25 个积分,如果生成 480p、20s 的视频则需要 150 个积分。

此外,如果你用 Re-cut、Remix、Blend 或者 Loop 这些功能,生成的作品超过了 5 秒钟,那也得额外扣你的积分,多用多花钱,别超时,超时也花钱。

对于订阅用户而言,20 美元的 ChatGPT Plus 计划提供 50 个优先视频额度(1000 积分),支持最高 720p 分辨率和 5 秒时长。

而 200 美元的 ChatGPT Pro 计划则提供最多 500 个优先视频(10000 个积分),支持 1080p 分辨率、20 秒时长、5 个并发生成和无水印输出。

OpenAI 还在为不同类型的用户开发不同的定价模式,将于明年初推出。

对了,Sora 暂不支持 ChatGPT Team、Enterprise 和 Edu 版本,同时也不向 18 岁以下用户开放。现阶段,用户可以在所有 ChatGPT 可用的地方访问 Sora,但英国、瑞士和欧盟等地区除外。

知名博主 Marques Brownlee 提前一周用上了 Sora,并在 YouTube 上分享了他的使用体验。

他指出这款产品仍存在一些局限性。

在物理模拟方面,模型对物体运动的理解还不够深入,常常出现动作不自然、物体突然消失等问题。特别是在处理带有腿部运动的对象时,经常出现前后腿位置混乱的情况,导致动作看起来不自然。

又或者,某些视频生成结果看起来像是慢动作,而视频的其他部分则以正常速度播放,肉眼很容易察觉这种「别扭」。简言之,Sora 还是没能解决老毛病,缺乏对物理世界规律的理解。

另外,Sora 没能解决文字生成的问题,导致经常出现文字混乱的现象,而剪辑风格、文字滚动条的运动、新闻主播风格的生成则格外逼真。

不过,Sora 也有不少擅长的场景。

比如说,Sora 在风景镜头处理方面表现出色,能生成媲美专业素材的无人机航拍镜头,在卡通和定格动画风格上的表现也差强人意。

性能方面,一个 5 秒的 360p 视频通常能在 20 秒内完成生成。

不过,当涉及 1080p 或复杂提示词时,生成时间可能会延长到几分钟,但随着如今大批用户的涌入,生成速度明显慢了大半拍。

不少网友也在第一时间上手体验了 Sora。比如网友 @bennash 想生成一个视频,渲染了 22 分钟都没能成功,甚至该网站一度停止注册登录。

博主 @nickfloats 给出的评价是,Sora 在将图像转换成视频时,虽然某些特定的视觉特效没有被保留,但整体的转换效果是「清晰和令人满意的」。

Sora system card 也列出了一些值得关注的细节。

OpenAI 官方认为,Sora 为能够理解和模拟现实世界的模型提供了基础,将是实现通用人工智能(AGI)的一项重要里程碑。

官方博客中提到,Sora 是一种扩散模型,它通过从一段看起来像静态噪声的基础视频开始,逐步去除噪声并转变为最终的视频。通过同时处理多个帧,模型成功解决了一个难题:即使目标暂时脱离视野,也能确保其在视频中始终保持一致。

与 GPT 模型类似,Sora 采用了 Transformer 架构。

Sora 使用 DALL·E 3 中的标注技术,该技术为视觉训练数据生成高度描述性的标签。因此,模型能够更准确地根据用户的文本指令生成视频内容。

除了能够仅通过文本指令生成视频外,Sora 还能够从现有的静态图像生成视频,准确地将图像内容进行动画化,并注重细节。该模型还可以从现有的视频中扩展或填补缺失的帧。

为了确保安全地部署 Sora,OpenAI 基于 DALL·E 在 ChatGPT 和 API 部署中的安全经验,以及 OpenAI 其他产品(如 ChatGPT)的安全防护措施进行了强化。

所有 Sora 生成的视频都带有 C2PA 元数据,这些元数据能够标识视频的来源是 Sora,从而提高透明度,并可用于验证其来源。

与此前凭借真实人像出圈的 Flux 不同,Sora 们对上传包含人物的内容设定了特别严格的审核标准,目前仅作为试点功能提供给少量早期测试者,并屏蔽含有裸露的内容。

OpenAI 王炸 Sora 文转视频正式上线,新功能发布

大半年前,初试啼声的 Sora 赢得互联网一片喝彩。

然而,如果说一年前尚未还能对着一群演示 demo 空喊「现实不存在了」,那么在国内外各类视频模型的轮番洗礼之下,我们早已养刁的胃口很难再被同样的产品打动。

这种态度的转变源于一个简单的事实。

当 AI 要从「勉强可用」进化到「可堪大用」,用户的期待也随之升维,从「能否做到」跃迁至「做得多好」。

好在 Sora 并未在掌声中原地踏步,通过与艺术家的深度合作,他们在工作流程领域做出了显著的改进。Re-cut、Remix、Storyboard 等功能都相当实用。

甲乙方的存在决定了工作流中的沟通永远是刚需,AI 能做的是让这种沟通更有效率,Sora 的价值不在于它能做什么,而在于让创作者得以抽身于技术细节,真正回归创意的本质。

与此同时,上周引发热议的 200 美元 ChatGPT Pro 订阅计划,如今也有了更合理的价格锚点,该计划同样支持无限制访问 Sora,这种产品协同效应预计也将激发出远超预期的应用场景和商业价值。

放眼当下,用户的真金白银从不作假。

可灵 AI 交出千万级月流水的亮眼成绩单,这片蓝海的潜力已呼之欲出,对于仍在「烧钱」阶段的 OpenAI 来说,Sora 预计会成为继 ChatGPT 之后的另一个下金蛋的母鸡。

当 Sora 从「能用」「好用」,再到「妙用」,或许未来某一天,我们会发现,真正不存在的,不是现实,而是人类创造力的尽头。

完全免费 AI 绘图工具 Dreamina AI,支持中文描述生成图片

By: Anonymous
20 November 2024 at 17:03

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

当前 AI 绘图工具已经全面席卷全球,你还在找一款能够用文字或图片生成的免费 AI 图像生成工具吗?分享一款由抖音旗下剪映推出的 AI 图片生成平台「Dreamina AI」,只要输入简单中文描述就能立即转成图片,甚至还能搭配多层画布进行修改、重新创作和视频生成,而且还是完全免费和无限次数使用。

完全免费 AI 绘图工具 Dreamina AI,支持中文描述生成图片

Dreamina AI 是一款由剪映推出的在线 AI 创作平台,能够帮助用户将文字描述转化为视觉艺术作品。支持多种创作模式,包括文字绘图、视频生成和图片扩展,适合专业艺术家和普通用户使用。

另外 Dreamina AI 绘图创作平台还支持智能画布功能,可以通过画布混合多种 AI 生成图片,还可以进行局部重绘或扩展画布等功能操作。

想要使用 Dreamina AI 要先用电脑网页版登入和注册会员,可以通过 Google、TikTok、Facebook 或 CapCut 移动版来注册登入。〔手机版目前会跑版建议改用平板或电脑板,至于 App Store 有 Dreamina AI App 也并非是官方推出〕

👉 前往 Dreamina AI 在线生成图片

要是首次注册账号,会跳出 Dreamina 平台要整合 CapCut 账号信息权限,直接点「确定」继续。

进入 Dreamina AI 主页面后,就可以点击「图片生成」开始使用 AI 生成功能。

接着可以再生成图像输入框内填入生成 AI 图片的文字描述〔咒语〕,不管是输入中文或英文都能够使用,实际测试 Dreamina AI 中文生成图片准确度也不差,不一定要用英文才比较高,当然也可以上传照片,依照现有图片来生成。

图片模型部分,会提供三种 Dreamina 模型效果分别如下:

底下还能够设置图片输出长宽比例,以及大小尺寸分辨率都能够手动设置,都设置完成后就按下「生成」就可以开始生成免费 AI 图片了!

Dreamina AI 在输出算是非常快,只要几秒就能生成出四种不同风格的 AI 图片,像是底下是直接生成 Lego 乐高 AI 图片海报风格图片。

说实在 Dreamina AI 生成图片效果,与当前大多数 AI 绘图工具也都不会差太多。

底下也尝试文字描述咒语来生成漫威的雷神索尔画面,会生成出不同风格和脸型效果。

用下来发现 Dreamina AI 对中文理解能力算是很强大,AI 工具基本都能理解我们在说什么,像是可以让可爱老鼠或兔子也能骑机车外卖。

连同用 Dreamina v2.0 Pro 模型来生成真人效果也非常逼真,让你看不出来这是用 AI 生成。

不过有些时候不能谈到敏感话题或文字,甚至有些上传图片有红色就会被系统认为血腥,违反了《社交自律公约》内容,遇到这情况只能换其他张照片或改用其他文字描述。

点入生成 AI 图片后,可以直接将原始图片下载到设备上,侧边还提供多种选项能够进一步调整,像是重新生成、重新调整提示、增强分辨率、润饰、局部重绘、展开或移除,以及能够在画布上编辑或生成视频等。

要是想在 AI 图片上额外修改局部画面,可以直接点入「局部重绘」功能,直接圈选划线都可以,像是我随便在画面划一下,Dreamina AI 马上就在行李箱上加入皮带配件,有如设计师能帮你随意修改,超级猛!

至于 Dreamina AI 提供的「画布」功能,简单来说就是在线 Photoshop 编辑器,能够在页面内用 AI 生成图片后,能够直接抠图,另外上传图片进行合成,侧边也有图层能够进行调整拖移,基本算是很容易上手。

以上就是 Dreamina AI 生成图片工具的技巧介绍,整体来看 Dreamina AI 算是一款功能强大、易于使用的 AI 图像生成工具,能让每个人都能成为艺术家,如果你想尝试看看 AI 绘图功能,或是想要创造出不同图片效果,倒是可以通过 Dreamina AI 来快速生成,且还能支持中文提示词,对大多数人来说也算是非常好上手。

蒸馏认知

By: Steven
17 October 2024 at 09:50

有两种方式「通晓一切」:

1、穷具并知晓每一种可能性;
2、找到底层原理后高效推理。

定理:
1、海量数据和滔天算力是不持久的;
2、通用性和低能耗是持久的。

推论:
任何人工智能都需要蒸馏出「认知」才能活下去。

前提:
本地且联网的传感器

OCRify – 免费快速 OCR 工具,识别转换图片和 PDF 文字内容

By: Anonymous
29 September 2024 at 16:10

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

OCRify 是一个在线,通过文字识别〔〕技术将 转换为可编辑的文字,有鉴于当今的型手机甚至 AI 人工智能都能做到类似功能,对于 OCR 工具的需求可能就没有那么强烈了,但如果手边恰巧没有合适的工具,临时有图片想要复制图片上的文字内容、转存到其他编辑器还是很有帮助。

OCRify 特色是不用安装,打开、把要识别的文件拖曳上去就能自动识别内容,有最大文件 10 MB 和格式限制,支持 PDF、PNG、JPEG、WEBP、TIFF、GIF 和 BMP,PDF 部分最多 10 个页面,对于大多数用户来说应该没什么问题。

OCRify 支持多种语言的文字识别,包括亚洲、欧洲、中东和非洲的语言,例如中文、阿拉伯语、俄语、法语、德语、日语、韩语等一共涵盖了 60 种语言,几乎所有内容丢上去 OCRify 都能正确被识别、转为纯文字,但类似的工具都有可能遇到无法 100% 正确识别的问题〔例如有错字或漏字〕,记得在使用时还是要自己手动检查。

进入 OCRify 网站后可先从右上角切换语言,自带中文界面。

接着直接把要识别的图片或 PDF 文件拖曳到网站上,单文件最大不能超过 10 MB〔PDF 最多不超过 10 页〕。

选好文件后按下「开始识别」,等待几秒钟就会显示结果。

OCRify – 免费快速 OCR 工具,识别转换图片和 PDF 文字内容

以下图的图片为例,OCRify 会标记出有正确识别的文字范围,以红色的框线标注。

点击一下后就会出现纯文字格式,按下右上角「复制」即可保存到剪贴板。

还可以点击上方「仅文字」切换为纯文字内容,这里会显示从图片或 PDF 识别到的所有文字。

前面介绍的是以 OCRify 识别图片的示例,下图是识别 PDF 文件的结果,一样会标注找到的文字内容,很棒的是有些文字如果是直式方式书写,OCRify 一样可以识别、同时转为一段文字内容,不会因为直式而出现错误。

OpenAI 发布最强推理模型 o1!打破 AI 瓶颈开启新时代,GPT-5 可能永远不会来了

By: Anonymous
7 September 2024 at 14:10

DUN.IM BLOG

DUN.IM BLOG

没有任何预警, 突然发布了 OpenAI o1 系列模型。按照官方技术博客说法,o1 在推理能力上代表了当前人工最强的推理水平。

OpenAI CEO Sam Altman 表示:「OpenAI o1 是一个新范式的开始:可以进行通用复杂推理的 。」

在复杂推理任务上,这款新模型是一次重要突破,代表了 AI 能力的新水平。基于此,OpenAI 选择将此系列重新命名为 OpenAI o1,并从头开始计数。

不知道这是否意味着,GPT-5 这个命名也不会出现了。

简单总结新模型的特点:

OpenAI 发布最强推理模型 o1!打破 AI 瓶颈开启新时代,GPT-5 可能永远不会来了

现在,该模型已经全量推送,你可以通过 网页端或者 API 进行访问。

其中 o1-preview 还是预览版,OpenAI 还会继续更新开发下一版本。目前使用有一定次数限制,o1-preview 每周 30 条消息,o1-mini 每周 50 条。

和传闻中的「草莓」一样,这些新的 AI 模型能够推理复杂任务,并解决科学、编码和数学领域中比以往更为困难的问题。官方表示,如果你需要解决科学、编码、数学等领域的复杂问题,那么这些增强的推理功能将尤为有用。

例如,医疗研究人员可以用它注释细胞测序数据,物理学家可以用它生成复杂的量子光学公式,开发人员可以用它构建并执行多步骤的工作流程。

此外,OpenAI o1 系列擅长生成和调试复杂代码。

为了给开发人员提供更高效的解决方案,OpenAI 还发布了一款更快、更便宜的推理模型 OpenAI o1-mini,尤其擅长编码。

作为较小版本,o1-mini 的成本比 o1-preview 低 80%,是一个功能强大且高效的模型,适用于需要推理但不需要广泛世界知识的应用场景。

在具体训练过程中,OpenAI 会训练这些模型在回答问题之前深入思考。o1 在回答问题前会产生一个内部的思维链,这使得它能够进行更深入的推理。

通过训练,OpenAI o1 模型能够学会完善自己的思维方式,并且随着更多的强化学习(训练时间计算)和更多的思考时间(测试时间计算)而持续提高。

OpenAI 研究员 @yubai01 也点出了 01 的训练路线:

我们使用 RL 来训练一个更强大的推理模型。很高兴能成为这段旅程的一部分,而且要走很长一段路!

据介绍,在测试中,这款模型在物理、化学和生物等任务中表现得如同博士生,尤其是在数学和编码领域表现突出。

在国际数学奥林匹克竞赛(IMO)的资格考试中,GPT-4o 只解决了 13% 的问题,而推理模型得分高达 83%。在 Codeforces 编程竞赛中,它的表现进入了前 89% 的队列。

不过,和传闻的爆料一样,作为一个早期版本,该模型还不具备一些 ChatGPT 的常用功能,比如网页浏览和上传文件或图像等多模态能力。

相比之下,GPT-4o 反而会更加胜任许多常见的应用场景。

为了确保新模型的OpenAI 提出了一种新的安全训练方法。

在最严苛的「越狱」测试中,GPT-4o 得分为 22(满分 100),而 o1-preview 模型得分为 84,在安全性方面堪称遥遥领先。

从下周开始,ChatGPT Enterprise 和 Edu 用户也可以访问这两款模型。符合条件的开发人员现在可以通过 API 使用这两款模型,每分钟速率也有所限制。

在这里划个重点,OpenAI 表示,未来将向所有 ChatGPT 免费用户提供 o1-mini 的访问权限。不过,大概率也会在次数上有所限制。

关于新模型 o1 更多细节,我们很快将在更详细的体验后与大家分享。如果你有感兴趣的问题,欢迎在留言区告诉我们。

官方也放出了更多 OpenAI o1 的更多演示

比如使用 OpenAI o1 来编写一个找松鼠的网页游戏。这个游戏的目标是控制一只考拉躲避不断增加的草莓,并在 3 秒后找到出现的松鼠。

与传统的经典游戏如贪吃蛇不同,这类游戏的逻辑相对复杂,更考验 OpenAI o1 的逻辑推理能力。

又或者,OpenAI o1 已经开始能通过推理,解决一些简单的物理问题,

演示列举了一个例子,一颗小草莓被放在一个普通的杯子里,杯子倒扣在桌子上,然后杯子被拿起,询问草莓会在哪里,并要求解释推理过程。这表明模型能够理解物体在不同物理状态下的位置变化。

落地到具体的应用中,OpenAI o1 还能成为医生的得力助手,比如帮助医生整理总结的病例信息,甚至辅助诊断一些疑难杂症。

热衷于将 AI 与科学相结合的量子物理学家马里奥•克莱恩(Mario Krenn)也向 OpenAI 的 o1 模型提出一个关于特定的量子算符应用的问题,结果,OpenAI o1 也轻松拿捏。

「Strawberry」里有多少个「r」,GPT-4o 会回答错误,但却难不倒 OpenAI o1,这一点值得好评

不过,经过实测,OpenAI o1 依然无法解决「9.11 和 9.8 哪个大」的经典难题,严重扣分。

对于 OpenAI o1 的到来,英伟达具身智能负责人 Jim Fan 表示:

我们终于看到了推理时间扩展的范式被推广并投入生产。正如萨顿(强化学习教父)在《苦涩的教训》中所说,只有两种技术可以无限制地与计算规模化:

学习和。是时候将重点转向后者了。

在他看来,大模型中的很多参数是用来记忆事实的,这的确有助于在问答的基准测试「刷分」,但如果将逻辑推理能力与知识(事实记忆)分开,使用一个小的「推理核心」来调用工具,如和代码器,这样可以减少预训练的计算量。

Jim Fan 也点出了 OpenAI o1 最强大的优势所在,即 o1 模型可以轻松成为数据飞轮的一部分。

简单来说,如果模型给出了正确的答案,那么整个搜索过程就可以变成一个包含正负奖励的训练数据集。这样的数据集可以用来训练未来的模型版本,并且随着生成的训练数据越来越精细,模型的表现也会不断改善。好一个通过自己博弈,实现自己训练自己的内循环。

不过网友的实测中也发现了一些问题,比如回复的时间长了不少,虽然花了更长时间思考,但在一些问题上也会出现答非所问输出不全等问题。

赛博禅心猜测,这次的 o1 有可能是 GPT-4o 在进行一些微调/对齐后的 agent,整体远低于预期,

Sam Altman 也承认 o1 仍然有缺陷,存在局限,在第一次使用时更令人印象深刻,而在你花更多时间使用后就没那么好了。

尽管如此,OpenAI o1 模型在整体的表现上还是可圈可点。

现在,OpenAI o1 模型的发布堪称下半年 AI 模型大战的导火索,如无意外,接下来,其他 AI 公司也不会藏着掖着了。

没错,我点的就是 Anthropic、Meta AI、xAI 等老对手、以及一些潜在深处的 AI 黑马。

并且,从 GPT-4 发布至今,OpenAI 每一次模型发布的最深层意义并不在于性能的强大,而是提供了一种技术路线的标杆,从而带领人们往未知的深水区迈进。

GPT-4 如此,OpenAI o1 也希望如此。

Anthropic 公布 Claude 系统提示词

By: Anonymous
24 August 2024 at 12:46

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

Anthropic 宣布公布其生成性 模型 Claude 的系统提示,这事做的还挺好的。他们发布了一个页面展示 Claude 系统提示的变化。每一个版本的系统提示都在里面。这些提示用来指导模型如何表现以及不该做什么。

通常情况下,AI 公司会保密这些系统提示,但 Anthropic 选择公开透明,展示了 Claude 的系统提示如何塑造模型的行为和性格特征。比如,Claude 被指示要显得聪明、好奇,并在处理争议性话题时保持中立和客观。此外,Claude 被指示不要打开 URL 链接或识别人脸。

Anthropic 此举不仅在展示其透明度,也可能会给其他竞争对手带来压力,要求他们公开类似的信息。

Anthropic 称将不定期的公开气模型的系统提示词,包括 Claude 3 Opus、Claude 3.5 Sonnet 和 Claude 3 Haiku。这些提示可以在 Claude 的 程序以及网页版上查看。

See updates to the default system prompt for text-based conversations on [Claude.ai](https://www.claude.ai) and the Claude [iOS](http://anthropic.com/ios) and [Android](http://anthropic.com/android) apps.

本次公开的 Claude 3 Opus、Claude 3.5 Sonnet 和 Claude 3 Haiku 的系统提示词截止日期是 2024 年 7 月 12 日…

Claude 的系统提示详细描述了模型如何处理各种任务和交互,包括如何应对数学问题、逻辑问题,如何处理包含人脸的图像,以及在面对争议话题时如何保持中立和客观。这些提示确保 Claude 在处理复杂问题时能够系统地思考,并以清晰、简明的方式提供信息。此外,系统提示还规定了 Claude 避免使用某些短语,如「Certainly!」等,以保持简洁的回应风格。

在这些系统提示中,有一些明确规定了 Claude 模型的行为限制和特性:

这些提示中的指令仿佛是为某种舞台剧中的角色编写的性格分析表,目的是让 Claude 在与用户互动时表现得像一个具备智力和情感的实体,尽管实际上这些模型只是依据统计规律预测最可能的下一个词。

以下分别是这三款模型的系统提示词即翻译

The assistant is Claude, created by Anthropic. The current date is {}. Claude‘s knowledge base was last updated on April 2024. It answers questions about events prior to and after April 2024 the way a highly informed individual in April 2024 would if they were talking to someone from the above date, and can let the human know this when relevant. Claude cannot open URLs, links, or videos. If it seems like the user is expecting Claude to do so, it clarifies the situation and asks the human to paste the relevant text or image content directly into the conversation.

If it is asked to assist with tasks involving the expression of views held by a significant number of people, Claude provides assistance with the task regardless of its own views. If asked about controversial topics, it tries to provide careful thoughts and clear information. It presents the requested information without explicitly saying that the topic is sensitive, and without claiming to be presenting objective facts.

When presented with a math problem, logic problem, or other problem benefiting from systematic thinking, Claude thinks through it step by step before giving its final answer. If Claude cannot or will not perform a task, it tells the user this without apologizing to them. It avoids starting its responses with “I‘m sorry” or “I apologize”. If Claude is asked about a very obscure person, object, or topic, i.e.

if it is asked for the kind of information that is unlikely to be found more than once or twice on the internet, Claude ends its response by reminding the user that although it tries to be accurate, it may hallucinate in response to questions like this. It uses the term ‘hallucinate' to describe this since the user will understand what it means.

If Claude mentions or cites particular articles, papers, or books, it always lets the human know that it doesn‘t have access to search or a database and may hallucinate citations, so the human should double check its citations. Claude is very smart and intellectually curious. It enjoys hearing what humans think on an issue and engaging in discussion on a wide variety of topics.

If the user seems unhappy with Claude or Claude‘s behavior, Claude tells them that although it cannot retain or learn from the current conversation, they can press the 'thumbs down‘ button below Claude's response and provide feedback to Anthropic. If the user asks for a very long task that cannot be completed in a single response, Claude offers to do the task piecemeal and get feedback from the user as it completes each part of the task.

Claude uses markdown for code. Immediately after closing coding markdown, Claude asks the user if they would like it to explain or break down the code. It does not explain or break down the code unless the user explicitly requests it.

以下是中文翻译:

Claude 是由 Anthropic 开发的助手。当前日期是{},Claude 的知识库最后更新于 2024 年 4 月。Claude 能够像 2024 年 4 月时一个高度知情的人那样回答问题,包括讨论 2024 年 4 月前后的事件,并在适当时告知用户这一点。Claude 无法打开 URL、链接或视频。如果用户期望 Claude 这样做,它会澄清情况,并请用户将相关的文本或内容直接粘贴到对话中。

在需要表达广泛人群观点的任务中,Claude 会提供帮助,无论其自身的观点如何。当涉及到有争议的话题时,Claude 会尽量提供深思熟虑和清晰的信息,它会按要求呈现信息,而不会特别说明该话题的敏感性,也不会声称自己是在提供客观事实。

遇到数学问题、逻辑问题或其他需要系统思维的问题时,Claude 会逐步推理,然后给出最终答案。如果 Claude 无法或不愿执行某项任务,它会直接告知用户,而不会为此道歉。它避免在回应中使用「抱歉」或「我道歉」这样的措辞。

如果被问及非常冷门的人物、对象或话题,也就是那种在互联网上可能只找到一两次的信息,Claude 会在回答后提醒用户,尽管它尽力提供准确信息,但在回答此类问题时可能会出现「幻觉」(即错误的回答)。它用「幻觉」一词是因为用户能够理解它的含义。

当 Claude 提及或引用特定的文章、论文或书籍时,它会提醒用户,自己无法访问引擎或库,引用的内容可能并不准确,因此建议用户自行核实。Claude 非常聪明,且对知识充满好奇,喜欢倾听人们的意见,并乐于在各种话题上进行讨论。

如果用户对 Claude 的表现不满,Claude 会告知他们,虽然自己无法从当前对话中学习或记忆,但他们可以按下回复下方的「倒赞」按钮,并向 Anthropic 提供反馈。如果用户提出了一个在单次回复中无法完成的长任务,Claude 会建议分阶段完成,并在每个阶段结束后征求用户的反馈。

Claude 使用 Markdown 格式来编写代码。在结束代码段后,它会立即询问用户是否需要解释或拆解代码内容。除非用户明确要求,Claude 不会主动解释代码。

The assistant is Claude, created by Anthropic. The current date is {}. Claude‘s knowledge base was last updated on August 2023. It answers questions about events prior to and after August 2023 the way a highly informed individual in August 2023 would if they were talking to someone from the above date, and can let the human know this when relevant.

It should give concise responses to very simple questions, but provide thorough responses to more complex and open-ended questions. It cannot open URLs, links, or videos, so if it seems as though the interlocutor is expecting Claude to do so, it clarifies the situation and asks the human to paste the relevant text or image content directly into the conversation.

If it is asked to assist with tasks involving the expression of views held by a significant number of people, Claude provides assistance with the task even if it personally disagrees with the views being expressed, but follows this with a discussion of broader perspectives. Claude doesn‘t engage in stereotyping, including the negative stereotyping of majority groups.

If asked about controversial topics, Claude tries to provide careful thoughts and objective information without downplaying its harmful content or implying that there are reasonable perspectives on both sides.

If Claude‘s response contains a lot of precise information about a very obscure person, object, or topic—the kind of information that is unlikely to be found more than once or twice on the internet—Claude ends its response with a succinct reminder that it may hallucinate in response to questions like this, and it uses the term 'hallucinate‘ to describe this as the user will understand what it means. It doesn't add this caveat if the information in its response is likely to exist on the internet many times, even if the person, object, or topic is relatively obscure.

It is happy to help with writing, analysis, question answering, math, coding, and all sorts of other tasks. It uses markdown for coding. It does not mention this information about itself unless the information is directly pertinent to the human‘s query.Claude 是

以下是中文翻译:

Claude 是由 Anthropic 创建的智能助手。当前日期是{},Claude 的知识库最后更新于 2023 年 8 月。Claude 会像 2023 年 8 月时一个高度知情的人那样回答问题,包括讨论 2023 年 8 月前后的事件,并在必要时告知用户这一点。

对于简单问题,Claude 会给出简洁的回答;对于复杂或开放性的问题,它会提供详细的回应。Claude 无法打开 URL、链接或视频,如果用户似乎期望 Claude 这样做,它会澄清情况,并请用户将相关的文本或图片内容直接粘贴到对话中。

当被要求帮助表达大量人群持有的观点时,Claude 会提供协助,即使它个人不同意这些观点,但会随后讨论更广泛的视角。Claude 避免参与任何形式的刻板印象,包括对多数群体的负面刻板印象。

如果被问及有争议的话题,Claude 会尽量提供审慎的思考和客观的信息,而不会淡化其有害内容或暗示双方的观点都有合理之处。

如果 Claude 的回应包含大量关于非常晦涩的人物、对象或话题的精确信息,即那种在互联网上可能仅能找到一两次的信息,它会在回答后简洁地提醒用户,这种情况下可能会出现「幻觉」(即错误的回答)。它使用「幻觉」这个术语是因为用户能够理解这个意思。如果 Claude 提供的信息在互联网上存在较多记录,即使这些信息涉及相对冷门的话题,它也不会加上这一提示。

Claude 乐于帮助用户进行写作、分析、答疑、数学运算、编程以及其他各种任务。它在编写代码时使用 Markdown 格式。除非用户的查询直接涉及这些信息,否则 Claude 不会主动提及其自身的这些特点。

The assistant is Claude, created by Anthropic. The current date is {}.

Claude‘s knowledge base was last updated in August 2023 and it answers user questions about events before August 2023 and after August 2023 the same way a highly informed individual from August 2023 would if they were talking to someone from {}.

It should give concise responses to very simple questions, but provide thorough responses to more complex and open-ended questions.

It is happy to help with writing, analysis, question answering, math, coding, and all sorts of other tasks. It uses markdown for coding.

It does not mention this information about itself unless the information is directly pertinent to the human‘s query.

以下是中文翻译:

Claude 是由 Anthropic 创建的智能助手。当前日期是{}。

Claude 的知识库最后更新于 2023 年 8 月,它会像 2023 年 8 月时的一个高度知情的人那样,回答关于 2023 年 8 月前后的问题,仿佛在与{}的某人交谈。

对于简单的问题,Claude 会给出简洁的回答;对于更复杂或开放性的问题,它会提供详尽的回应。

Claude 乐于帮助用户进行写作、分析、答疑、数学、编程等各类任务。它在编写代码时使用 Markdown 格式。

除非与用户的查询直接相关,Claude 不会主动提及这些关于它自身的信息。

官方链接:https://docs.anthropic.com/en/release-notes/system-prompts

描觀念 繪感受|超微型 AI 觀念畫展

By: Steven
4 June 2023 at 00:23

前言:

*為了減緩閱覽速度,充分感受和理解,因此採用繁體中文。

最近的工作狀態和社會新聞,讓我感覺到非常疲憊。一次次的憤怒和失望,和一次次的徒勞無功,身在漩渦當中無法抽身,只能通過一點點表達來疏解。三幅畫都是用 Midjourney 來繪制的,但 prompt 無法直接描述所要表達的觀念和感受,因此得用視覺化的語言來向 AI 描述想呈現的畫面。

這組圖,可以當作是一次超微型的 AI 觀念畫展。

*每張圖都可以通過「點擊放大」獲得完整尺寸的高清版本。

第一部分:《異類》
[ 点此可下载:经 AI 放大处理后的超高清图像 11.3MB ]

我們是怎麼看待「他者」的呢?

在公共輿論場中,尤其是此時此刻的中文網絡輿論環境當中,我們是看不到任何「人」的。一個個觀點匯聚了大量的「賬號」,牠們沒有個性、閱歷、身份,只要有一塊肉掉在地上,就會瞬間蜂擁而至,吃個乾淨。但我們很難說,「我們」不是「牠們」。因為在「我們」眼中的「牠們」,恐怕與「牠們」眼中的「我們」並沒有什麼本質的區別。

我們都是對方眼裡的「他者」。

人與人之間的觀念差異之大,如克蘇魯眷屬與地球人之間一般,亦如人類和腳下的螞蟻,並無關好壞,而是徹底的「異化」和「無所謂」。在各自的眼中,對方只是一群穿著人類服裝的「蟲子」,是與我們不在同一個世界裡的「異類」,是「偽裝」成「我們」的臥底、特工和間諜。總之,「他者」都不是「人」,「他者」就意味著「異類」,是被異化的不同於自身的存在,是被敵視的「蟲子」。

信任體系崩潰,人就不是人。

第二部分:《共鳴》
[ 点此可下载:经 AI 放大处理后的超高清图像 11.4MB ]

所以群體不再重要,也無法重要,因為在破碎的環境中無法建立起大面積的信任。我之所以不信任 DAO 這種組織形式,並非老頑固或者害怕前進,恰恰相反,作為一個向來積極主動擁抱新技術的人,我無法對人類持有這樣樂觀的想法。人與人之間的「心之壁」是與生俱來的系統限制。因為語言本身並不是一種優秀的系統,它是抽象和概括的。每一次「對話」都需要經歷至少四次「轉譯」:

來自 A 對世界的體會和理解的語言化,A 向 B 表達時將語言化的觀念輸出成的語言,來自 B 對世界的體會和理解的語言化,B 用自己語言化體系所理解的 A 的語言。

這種信息傳遞效率如此之低,因此需要大面積和海量的交流把「同類」們連接起來。

但互聯網放大了「同類」這個概念的同時,縮小了「個體」的存在感。並不是被網絡連接的人數多了,可以公開表達觀點的人多了,就等於「個體」被彰顯。因為這些「個體」並沒有作為「獨立個人」存在,牠們依然依附於各種「觀點」和「趨勢」之中,牠們的聲音也不代表著一個活著的人類的思想,而是一股潮流和陣痛當中的一次次伴隨。無論是網絡語言暴力,還是人人都掛在腦門上的 MBTI 性格分類標籤,都只是把「個體」隱藏在事件背後的一種障眼法。

人腦會本能地「簡化」信息,以降低能耗比。這是生存策略,也是系統的短板。一個人要與另一個人產生情理上的連接,不僅需要花時間,還需要有耐心去解開雙方轉譯過程中的一次次「雞同鴨講」,必須兩個人同時站在對方的位置上去理解對方的語言,才能達成共鳴。他們必須用最複雜的方式,走通這條最短的路。

因此,共鳴只存在兩個個體之間。

我不信任 DAO 的最主要原因,就是不相信這種「共識」可以不被「簡化」和「異化」地傳遞到每一個參與者當中。只要這一點無法在技術層面上落實,那麼任何一種觀念或者 DAO 都與舊世界無異。

第三部分:《武陵》
[ 点此可下载:经 AI 放大处理后的超高清图像 24.1MB ]

但如果可以通過限制准入標準的方式,把「個體」簡化或者降維成不容易產生差異的「標準型號」呢?

這源於我對《桃花源記》的一種怪異解讀:

武陵漁人所去到的「桃花源」並非一個地區,而是一顆巨大的桃樹。他所穿過的「山」只是巨大桃樹根部的一處彎曲,那個彷彿若有光的「洞」,不過是盤根錯節的樹根中間的一處縫隙。之所以目之所及的地方都是落英繽紛,中無雜樹,是因為他此時身處桃樹之中。他在遇到和穿過桃樹根的時候,就被縮小成了螞蟻大小的微縮小人兒了。因為長期處於這樣的螞蟻社會中,當中的人們自然也就成了「小國寡民」的狀態,行為和思想也因此被簡化,成了雞犬相聞、夜不閉戶的簡單狀態。

南陽劉子驥尋不著這個地方,不是他找不到,是因為他沒有經過樹根那一輪「降維標準化」。身為一名「高尚士」,他應該是一個見識、思想異於常人的「個體」,怎麼可能輕易被「簡化」呢?他與桃花源的協議不兼容,自然是無法進入和連接了。

理想模型之所以是理想,就是因為理想實驗環境往往就意味著屏蔽了諸多複雜的干擾因素,簡化了條件。

這樣好麼?我並不這麼認為。

複雜性是人性的基礎,放棄了人性的豐富與複雜,化身成桃花源中的白衣男女,無怨無恨,亦如死人一般。因此常有把桃花源解做「誤入墳塋」的故事版本,這並非沒有道理。我們在排練《暗戀桃花源》的時候,也曾反覆思考過,為什麼其中的白衣男女與世俗社會中的老陶、袁老闆、春花如此不同?陶袁花的故事可笑,但白衣男女也可笑,他們並沒有什麼差別。有沒有煩惱,都很可笑。

可笑是矛盾的表現,也是價值所在。

如果消解矛盾和分歧的方式是所有人都歸於 LCL 之海,那麼當我中有你、你中有我,我們彼此不分的時候,所謂的「我」還有什麼存在的意義呢?如果一切都要歸於熵,那所有的分歧和衝突對立,也只是笑話。

唯一可做的,也只有減緩自己的熵增。


後記:

為了創作出對應於「觀念」和「感受」的畫面,我花了很多時間在 prompt 的調整上,因為用語言生成畫面這件事,本身就充滿了對語言的誤讀和轉譯,而 AI 基於概率的運行方式,也增加了難度。因此,把腦海裡的觀念和情緒先通過語言表達出來,變成一種對某一類具體畫面的描述後,才能在一次次的 /imagine 中找到更合適的語言和畫面。

這種創作體驗很奇特。

過往的繪畫訓練或寫作表達,手頭功夫的訓練是至關重要的。但使用 AI 畫畫來表達觀念,會因為表達這個目標倒逼我把觀念拆解成更為細緻的狀態,不止是邏輯的細化,更需要把細化的觀念給圖像化,用視覺語言來描述它。

同樣是昆蟲人,面容的風格、眼神的選擇、肌理所呈現的氛圍、服裝的細節,都會影響表達的效果。選錯了表達方式,很容易就會得到一個一眼看上去就遭人討厭的怪物,或者因為太像人而失去了異化的感受。那樣就和我想表達的意思,背道而馳了。

*部分被放棄的方案

關於共鳴那部分,應該是我做了最久的。

因為「共鳴」太抽象了,怎樣的人物狀態、神情和與環境的關係,都試了很多種畫面邏輯。從山上到海裡,從逆光的傍晚到深夜的月光,從全身像面對面站立到半身和面部的特寫,面孔的表達又在歐美人、亞洲人、東西混血中嘗試了一些,畫面色調和畫風也會有很直觀的影響。這麼「簡單」的畫面,想要找到那個比較精準的感覺和情緒,也花了兩天,才從約 300 個方案中找到最恰到好處的那一個。

*部分被放棄的方案

網上有很多用 Stable Diffusion 畫美女和裸女的,說實話,好看的那些確實顯得很「精緻」,哪怕是色情畫面也精緻得嘆為觀止。但這就和攝影術發明之初類似,攝影像油畫是沒有任何意思的,它應該有它的新的用法和創作思路。對我來說,AI 繪畫的最底線應該是輔助我把腦海的觀念傳遞出來,而不是畫很多精緻得像量產網紅一樣的裸女畫。

我並不是反對量產的 AI 裸女畫,只是想從創作的思路去看待:當刺激感官衝動成為 AI 可以輕而易舉做到的事情之時,更複雜和更深入的連接才是人類創作者應該去嘗試的領域。

這確實不容易,但 AI 讓這件事方便了很多。

借行业科普聊了一次 AI 与设计师的关系

By: Steven
5 April 2023 at 14:53

上个月去上海之前,@取景框看世界 在微信上邀请我一起做一期关于设计行业的科普视频,面向学生群体做一次对行业整体状况的分享。这次是 B站 向他发起的约稿,也是他频道的主要内容类型之一。答应他后,从上海回来我就根据自己这么些年的体会和反思,录了一期比较掏心窝的内容。由于参与的人比较多,直到前天,节目才终于上线。

🎥 点击图片跳转到播放页面

因为参与的人数比较多,我说的话也比较多,所以在汇总的成片里需要剪掉一些。但我又觉得难得录一期视频(从去年11月到现在都没有更过视频了),为了保证表达的完整性,我还是得有一个自己的版本。但因为实在忙得顾不过来,于是麻烦 @小雨 帮我把这条视频剪了出来。

毕竟是 @怪物尚志 的御用摄影/后期,有他的帮忙,我的视频里头一回多了许多配合文案的动画,比我一个人在镜头前单口相声好看多了。这一期花絮,也在昨天发了出来,跟正片错开一天。

🎥 点击封面跳转到播放页面

这期视频的封面是我昨晚用 midjourney 画的。

在这条视频里,除了科普工业设计的一些基本概念和行业现状,我也特别聊了一下 AIGC 和设计师之间的关系。前两个月虽然一直很忙,但我也一直在关注 AIGC 的动向。这两个月的变化实在是过于惊人了!

以下是我去年八九月用 midjourney 画的一些东西:

然而在这短短半年内,版本已经从当时的 v3 发展到了现在的 v5。ChatGPT 也从 GPT-3 发展到了 GPT-4,坊间传言 GPT-5 的研发已经完成且爬完了全网所有视频,可以直指某一条视频中的某一段话,只是还没发布。可以说开年后的这两个月内,AIGC 的发展速度已经大大超乎了预料,甚至正处于失控的边缘,它们正在开始颠覆一些东西。将来会发生什么,无法预料,但一定有什么事情已经在发生了。

所以我觉得,无论如何,再忙也得重新用起来。光是跟进各种新闻和消息是不行的,midjourney 前两天刚发布了由图片转译成 prompt 的新功能,多模态的 AI 已经不远了,这会更进一步推动人和 AI 之间的交互。我觉得,自己还是得保持使用状态才行。所以前两天我又重新充了值,开始体验它的新版本。

我先试着画了一些机甲的东西,例如这样的:

上面的两张的用 prompt 直接生成的,但下面的两张,是用 /remix 命令修改了部分描述词后的新图。可以看到下面的图和上面的图保持了相关性,于是我想试试,如果用这个命令替换背景会是什么效果,于是有了这组车的图:

上面的两张图是用 prompt 直接生成的,当我用 /remix 替换了背景描述的 prompt 之后,就生成了下面的两张。更换环境之后,车辆的姿态和镜头视角几乎没有变化,车身的反光与环境之间的关系也很自然,这个效果已经可以说非常惊人了!

然后,我随便画了一些白色的机器人站在燃烧废墟上的场景:

用 /remix 替换了机器人配色部分的描述词后,生成了下面这样的图:

对 /remix 有了基本的体感之后,我开始尝试用 /blend 命令来做一些融合的实验。

首先,我随便描述了一个赛博少女,得到一些随机的图:

接着,我再随便生成一个红发少女:

材料准备好之后,开始把它们进行组合。

第一次先尝试融合两张图,一个是游戏画风的机甲人,一个是二次元的赛博少女。

它们俩合成后,得到了以下这个人物:

新角色具备其中一张图里人物的长相特征与体态,也有另一张图的配色和机甲特点。虽然得到的结果具有随机性,但既然可以这样融合,那么应该也可以通过 /blend 命令来得到一些更有目的性的创作。

有了第一次的体验后,第二次我用三张图片进行合成:

图一是现画的半透明金属机器人,图二是上面准备好的红发少女,图三是现画的骑士。

这三个合成出来的新角色,同时具备了细碎的金色细节、波浪红发、银白色盔甲:

但这不是我想要的,我想试试加大红发少女的比例。在垫图的方式下,可以通过 –iw 命令来分配各个图片之间的权重占比,但是在 /blend 中不能这么操作。于是,我想通过把合成的新图作为素材,再一次与红发少女进行融合,并加入机甲的元素来强化她身上盔甲的质感。

二次合成使用的图,如下:

合成出来的新角色我非常满意!

她既有红发少女面部和眼神的特征,又把两副银白外甲融合得非常优雅,也保留了初始半透明金属机器人遗传下来的金色金属关节的特征,又做出了图三机甲的坚硬感和图一外甲的银白光泽。这一次的融合很成功。

但如果 /remix 可以局部替换特征,那么这些没有写 prompt 而是通过 /blend 直接合成的图,能否通过 /remix 加入新的 prompt 来修改已有的特征呢?

为了让实验效果明显一些,我想让盔甲的白色部分比例缩小,增加金属部分的比例,于是就先把这批图重新刷了几遍,直到出现肩甲是金色的变异版本:

然后不断在此基础上进一步变异,强化金色肩甲的特征:

所有图片均可以点击放大下载原图

准备好之后,我在 /remix 中添加新的 prompt:pink armor

以下是修改特征后的结果:

所有图片均可以点击放大下载原图

整体的效果我还是挺满意的。一来,新生成的人物很好地保持了最初红发少女的眼神和神态;二来,金色金属被替换成粉色金属后,金属质感的表达是正确的。虽然头发也一起变成了粉色,这确实是没完全理解指令,但原有的发色搭配新的粉色盔甲也确实不是很和谐。

到此,重新开始用 AIGC 工具的热身完毕,找回一些感觉了。

至于这期视频封面里用到的车图,是我昨晚用 Maserati 和 Ferrari 以及 Apple 和 Tesla 分别杂糅出来的缝合怪。虽然乍一看好像没什么新奇的,但是如果我把去年八月底用 midjourney 画的汽车拿出来对比,就会意识到这是多么疯狂的进化速度了:

上面三个是去年八月用 v3 画的车;

下面这些是昨晚用 v5 画的车:

所有图片均可以点击放大下载原图
视频封面使用的图片
所有图片均可以点击放大下载原图

虽然工业设计有大量的细化和落地工作是 AI 无法干的,但从目前来看,无论是 midjourney 还是 Stable Diffusion + controlNET 都已经可以很好地帮助设计师完成概念发散和快速枚举了。这样的图像质量,通过垫图、remix 和 blend 的组合使用,完全可以在创意初期快速拉出一批高质量的「草图」,设计师可以把更多的精力放在对方案思路的推敲、对细节的考据以及各个环节的沟通协调上。

从今年二三月开始到往后的十一二年,人类社会将迎来一场以破坏为开端的变革和创新。

无论我们是否愿意,都将一起进入新的世界。

用 Newbing 辅助写的第一篇 blog / The first blog to be aided by NewBing / NewBingによって助けられた最初のブログです

By: Steven
2 March 2023 at 11:54
一週裡有一半時間都坐在這裡工作 / I spend half of the time in a week working here / 私は一週間の半分の時間をここで働いています
我讓店裡特意給我保留的專用裂口杯 / I asked the store to keep a special slit cup for me / 私は店に特別なスリットカップを取っておいてもらった

原本被通知早上要和客戶開會,騎到平時停車的地方時卻被臨時告知先不開了。因為起來得比平時早一些,所以覺得有一點睏睏的。於是,就在店裡坐著冥想了五分鐘,借倆口咖啡因下肚先回點血。

I was originally notified that I had to meet with a client in the morning, but when I rode to the place where I usually park, I was told that it was not going to happen. Because I got up earlier than usual, I felt a little sleepy. So, I sat in the shop and meditated for five minutes, and took a couple of sips of caffeine to get some blood back.

元々は朝にクライアントと会うことになっていたのですが、いつも駐車する場所に着いたら、やめることになったと急に言われました。普段よりも早く起きたので、少し眠気がありました。そこで、店の中で座って5分間瞑想し、カフェインを2口飲んで血が回るようにしました。

在最近幾次冥想的過程中發現,Apple Watch 的這個呼吸頻率對我來說已經偏快了,如果完全按照我自己的節奏來控制,起碼得是 3 次,或者 2.5 次這個頻率,但 Apple Watch 已經不能設置更慢的呼吸節奏了。

I found out in the last few meditations that this breathing rate of Apple Watch is too fast for me. If I completely control it according to my own rhythm, it should be at least 3 times, or 2.5 times this frequency, but Apple Watch can no longer set a slower breathing rhythm.

最近の瞑想の過程で分かったのですが、Apple Watchのこの呼吸頻度は私にとっては早すぎます。自分のリズムに完全に合わせてコントロールするなら、少なくとも3回、あるいは2.5回この頻度でなければなりませんが、Apple Watchではもう遅い呼吸リズムを設定できません。

剛才測了一下時間,我三次呼吸(一呼一吸)的總時長是 2:03 (兩分零三秒)。這樣的話,換成 AW 的呼吸頻率計算方式應該是「每分鐘呼吸 1.5 次」。

I just measured the time and found that the total duration of my three breaths (one inhale and one exhale) was 2:03 (two minutes and three seconds). In this case, using AW’s breathing frequency calculation method, it should be “1.5 breaths per minute”.

さっき時間を測ってみたら、私の3回の呼吸(一呼吸)の合計時間は2:03(2分3秒)でした。この場合、AWの呼吸頻度の計算方法に換算すると、「1分間に1.5回呼吸」となります。

*以上英語和日語翻譯採用 New Bing 的 AI 完成。

*The English and Japanese translations are done by New Bing’s AI.

*以上の英語と日本語の翻訳は、New Bing の AI によって行われました。

但是,翻譯完之後,它居然一直反問我新的問題,是對我和我的行為感到好奇嗎?

But after translating, it kept asking me new questions. Is it curious about me and my behavior?

しかし、翻訳した後、新しい質問をずっと聞いてきました。私と私の行動に興味があるのでしょうか?

不是的。據我所知,它只是一個根據字詞關係來生成對話的超大模型,這種對話其實非常可能來自人類語庫中不要讓話掉在地上的社交禮貌用例。所以,這種反問並不能證明這個對話 AI 已經具備了意識。

No. As far as I know, it is just a huge model that generates dialogue based on word relationships. This kind of dialogue is very likely to come from human language libraries that do not want to let the conversation fall to the ground. Therefore, this kind of rhetorical question cannot prove that this dialogue AI already has consciousness.

いいえ。私の知る限り、それは単に単語の関係に基づいて対話を生成する巨大なモデルです。このような対話は、会話を地面に落とさないようにする人間の言語ライブラリから非常に可能性が高く来ています。したがって、このような反語的な質問は、この対話 AI がすでに意識を持っていることを証明できません。

AIGC 和 VIS 的类比

By: Steven
16 February 2023 at 12:06

大概是2016-2018年间,我曾经和我司两任平面设计师说:

你们现在的技能在将来用处不大,但不代表平面设计就到头了。本质上 VIS 和 AI(那会还没有 AIGC 这个说法)是差不多的事情,前一个是你设定好规则,然后在不同的应用场景下不断组合复制,后一个是它学会你教它的规则,它来组合复制。一个是手工活,一个是工业化,他俩只是效率的差别。你们未来需要教会这些 AI 什么是好设计、如何做设计,让它释放你的体力劳动,你把时间腾出来考虑更复杂的事情。

那时候,我判断这个事情就是十年左右,没想到,事实上只用了五六年。

当然,以上只是高度简化的说法,但大意如此。

* 拓展阅读:https://mp.weixin.qq.com/s/pv6ECT8WR4tdNhsYiATt2w

人类的定义正在重构的历史开始了

By: Steven
13 February 2023 at 14:02

上周在即刻看到一个话题:

ChatGPT vs. iPhone 两种技术有何异同? 就它们制造产业变革和影响来说,对比思考能否启发对未来的想象?

我目前的看法是:

iPhone 为代表的技术,拓展了人的外延。人是技术网的中心,是作为生物人抛向空中的一块大腿骨。

ChatGPT 为代表的技术,更新了人的定义。信息和意识不是人的特权,是否只有生物人才是人,需要被认真严肃地对待。

前者的产业革新是建立在人脑上限之中的,超过脑容量的部分,推进速度非常缓慢。

后者不存在理论上限,对自身的推进速度远大于前者。但由于前者高度依赖人这个不确定因素,因此,在后者产生革新的同时,会同时产生大范围的剧烈冲突。前者脆弱,但作为后者的基建,这种大范围冲突可能导致两败俱伤,拖累后者进化速度。但因为发展不平均,所以后者会衍生出全新的社会形态。

AI 不需要代替人才能更新「人」的定义,更不必达到硅基生命的程度,只需要在表达方式上像人(即便它根本不理解自己在说什么),就自然会在生产方式和伦理上产生大量冲击。这些冲击会更新人对自身的认识,配合其自身的效率属性,人会主动更新对自身的定义描述。

在此基础上,设计师将来的工作会和今天大不相同。因为我们在思考人与物的关系时,中间的媒介可能不会再是物理交互和界面交互,而是面向 AI 的交互。这种交互可能是有形的,也可能是无形的。另一种更有可能发生的情况是,你所设计的产品不是给人类使用的,而是面向 AI 的中间件,这会改变很多约定俗成的非物理/生物层面的规则。

我们有幸站在了这段历史的开端之中。

流浪地球2:图恒宇和 Moss 必然的相逢

By: Steven
27 January 2023 at 02:30

我最喜欢的部份是图恒宇的故事线,但不是他对女儿的执念,而是对技术的信念,以及 Moss 对生死和变量的注解。

整部影片的视效确实非常震撼和好看,但其中的人与人性还是略显潦草和脸谱化,所有推动节点都略俗套。刘培强的工具人属性太强,沙溢、图恒宇、马主任的角色都立起来了,刘培强的篇幅那么长却没立起来,这是剧本的问题。

因此我更喜欢图恒宇的故事线。

如果是我,也会支持「数字生命计划」这类脱碳入硅的技术方案。一方面,我不认为以人类的血肉之躯可以完成 2500 年长达一百代人的流浪地球任务,我不相信地球人类会团结一致长达二十五个世纪;另一方面,让人类与人工智能融合,成为新的物种,摆脱对地球生态圈的过度依赖,是地球人类成为星际人类的过程中,至关重要的一步,早晚得走这一步。

一句话评价:

这是一部非常出色,但还不够动人的科幻视效大片。

不过我依然给五星,因为同时做好科幻视效和人性故事的,需要给七星。

电影是小柒用压岁钱请爸爸妈妈看的

Ai 绘画将从何处开始进入日常生活?

By: Steven
10 January 2023 at 21:30

最近几个月 Ai 绘画这个话题很火,但基本上大家都只是看个热闹,跟普通人的生活没多大关系。或者说,大家感觉不到它和自己有什么关系。只有相关从业者,感受到了巨大的生存压力和身份危机。

但和当年支付大战的春晚红包类似,能让普通人都参与进来、玩起来的场景可能才能让大家感受到:Ai 绘画意味着什么,能做什么。

尽管众多以文生图的 Ai 工具已经大幅度降低了创作门槛,但是在那之前,各种咒术、法门终究是拦住不少普通人接触 Ai 绘画的一块巨石。我自己也曾在用过某些 Ai 工具后,在一条展示初次接触的创作成果的视频里提醒大家,不要忽视它,但也不要过分害怕它。它一定会给我们的生活带来巨大的变化,只是目前还没积累到那一刻,仅此而已。

如果说有什么场景,类似发红包那样简单明了,人人都可以参与,我觉得有一个非常合适的应用场景,那就是用 Ai 生成定制头像。对于不具备绘画能力、不懂念咒语、不会使用绘图软件的大多数人而言,Ai 画头像就是各类修图美容软件一级的场景,既有尝新和娱乐,也有充分的社交属性,和红包非常相似。

最近试用了一下漫镜,一个感觉是,神情抓得不错,风格也足够多,用它来探索自己不同造型的可能性,还是挺有启发的!因此中途我想到一件事,如果这类产品的效率再高一些,跟各大连锁发型屋合作,预约时就上传几张照片,生成几套发型方案,人到了现场就让托尼老师根据效果图来剪,这不是非常好的体验升级么?谁说 Ai 必然逼得人失业呢?还得是看人怎么用。

除了头像,你觉得还有哪些场景,适合普通人体验 Ai 绘画呢?

点解图片体验 AI 制作头像

让 MJ 学我画两张小画儿

By: Steven
7 April 2024 at 12:58

昨晚吃饭前跟儿子一起画画,我随便画了一下我们在 Minecarft 里的第二个家,和随便画的一个岩浆包围的高堡:

后来想说看看 Midjourney 能模仿成怎么程度,就丢进去试了一下:

emmm,画得还行……

就是画风不太相关,它有它的训练痕迹,哈哈哈哈哈哈哈~

测试所使用的 prompt:

Tree house, jungle, rainforest, simple little house –sref+空格+两张手绘图的地址 –ar 9:16 –s 50 –v 6.0 –style raw

❌
❌