Normal view

There are new articles available, click to refresh the page.
Before yesterdayMain stream

OpenAI 发布最强推理模型 o1!打破 AI 瓶颈开启新时代,GPT-5 可能永远不会来了

By: Anonymous
7 September 2024 at 14:10

DUN.IM BLOG

DUN.IM BLOG

没有任何预警, 突然发布了 OpenAI o1 系列模型。按照官方技术博客说法,o1 在推理能力上代表了当前人工最强的推理水平。

OpenAI CEO Sam Altman 表示:「OpenAI o1 是一个新范式的开始:可以进行通用复杂推理的 。」

在复杂推理任务上,这款新模型是一次重要突破,代表了 AI 能力的新水平。基于此,OpenAI 选择将此系列重新命名为 OpenAI o1,并从头开始计数。

不知道这是否意味着,GPT-5 这个命名也不会出现了。

简单总结新模型的特点:

OpenAI 发布最强推理模型 o1!打破 AI 瓶颈开启新时代,GPT-5 可能永远不会来了

现在,该模型已经全量推送,你可以通过 网页端或者 API 进行访问。

其中 o1-preview 还是预览版,OpenAI 还会继续更新开发下一版本。目前使用有一定次数限制,o1-preview 每周 30 条消息,o1-mini 每周 50 条。

和传闻中的「草莓」一样,这些新的 AI 模型能够推理复杂任务,并解决科学、编码和数学领域中比以往更为困难的问题。官方表示,如果你需要解决科学、编码、数学等领域的复杂问题,那么这些增强的推理功能将尤为有用。

例如,医疗研究人员可以用它注释细胞测序数据,物理学家可以用它生成复杂的量子光学公式,开发人员可以用它构建并执行多步骤的工作流程。

此外,OpenAI o1 系列擅长生成和调试复杂代码。

为了给开发人员提供更高效的解决方案,OpenAI 还发布了一款更快、更便宜的推理模型 OpenAI o1-mini,尤其擅长编码。

作为较小版本,o1-mini 的成本比 o1-preview 低 80%,是一个功能强大且高效的模型,适用于需要推理但不需要广泛世界知识的应用场景。

在具体训练过程中,OpenAI 会训练这些模型在回答问题之前深入思考。o1 在回答问题前会产生一个内部的思维链,这使得它能够进行更深入的推理。

通过训练,OpenAI o1 模型能够学会完善自己的思维方式,并且随着更多的强化学习(训练时间计算)和更多的思考时间(测试时间计算)而持续提高。

OpenAI 研究员 @yubai01 也点出了 01 的训练路线:

我们使用 RL 来训练一个更强大的推理模型。很高兴能成为这段旅程的一部分,而且要走很长一段路!

据介绍,在测试中,这款模型在物理、化学和生物等任务中表现得如同博士生,尤其是在数学和编码领域表现突出。

在国际数学奥林匹克竞赛(IMO)的资格考试中,GPT-4o 只解决了 13% 的问题,而推理模型得分高达 83%。在 Codeforces 编程竞赛中,它的表现进入了前 89% 的队列。

不过,和传闻的爆料一样,作为一个早期版本,该模型还不具备一些 ChatGPT 的常用功能,比如网页浏览和上传文件或图像等多模态能力。

相比之下,GPT-4o 反而会更加胜任许多常见的应用场景。

为了确保新模型的OpenAI 提出了一种新的安全训练方法。

在最严苛的「越狱」测试中,GPT-4o 得分为 22(满分 100),而 o1-preview 模型得分为 84,在安全性方面堪称遥遥领先。

从下周开始,ChatGPT Enterprise 和 Edu 用户也可以访问这两款模型。符合条件的开发人员现在可以通过 API 使用这两款模型,每分钟速率也有所限制。

在这里划个重点,OpenAI 表示,未来将向所有 ChatGPT 免费用户提供 o1-mini 的访问权限。不过,大概率也会在次数上有所限制。

关于新模型 o1 更多细节,我们很快将在更详细的体验后与大家分享。如果你有感兴趣的问题,欢迎在留言区告诉我们。

官方也放出了更多 OpenAI o1 的更多演示

比如使用 OpenAI o1 来编写一个找松鼠的网页游戏。这个游戏的目标是控制一只考拉躲避不断增加的草莓,并在 3 秒后找到出现的松鼠。

与传统的经典游戏如贪吃蛇不同,这类游戏的逻辑相对复杂,更考验 OpenAI o1 的逻辑推理能力。

又或者,OpenAI o1 已经开始能通过推理,解决一些简单的物理问题,

演示列举了一个例子,一颗小草莓被放在一个普通的杯子里,杯子倒扣在桌子上,然后杯子被拿起,询问草莓会在哪里,并要求解释推理过程。这表明模型能够理解物体在不同物理状态下的位置变化。

落地到具体的应用中,OpenAI o1 还能成为医生的得力助手,比如帮助医生整理总结的病例信息,甚至辅助诊断一些疑难杂症。

热衷于将 AI 与科学相结合的量子物理学家马里奥•克莱恩(Mario Krenn)也向 OpenAI 的 o1 模型提出一个关于特定的量子算符应用的问题,结果,OpenAI o1 也轻松拿捏。

「Strawberry」里有多少个「r」,GPT-4o 会回答错误,但却难不倒 OpenAI o1,这一点值得好评

不过,经过实测,OpenAI o1 依然无法解决「9.11 和 9.8 哪个大」的经典难题,严重扣分。

对于 OpenAI o1 的到来,英伟达具身智能负责人 Jim Fan 表示:

我们终于看到了推理时间扩展的范式被推广并投入生产。正如萨顿(强化学习教父)在《苦涩的教训》中所说,只有两种技术可以无限制地与计算规模化:

学习和。是时候将重点转向后者了。

在他看来,大模型中的很多参数是用来记忆事实的,这的确有助于在问答的基准测试「刷分」,但如果将逻辑推理能力与知识(事实记忆)分开,使用一个小的「推理核心」来调用工具,如和代码器,这样可以减少预训练的计算量。

Jim Fan 也点出了 OpenAI o1 最强大的优势所在,即 o1 模型可以轻松成为数据飞轮的一部分。

简单来说,如果模型给出了正确的答案,那么整个搜索过程就可以变成一个包含正负奖励的训练数据集。这样的数据集可以用来训练未来的模型版本,并且随着生成的训练数据越来越精细,模型的表现也会不断改善。好一个通过自己博弈,实现自己训练自己的内循环。

不过网友的实测中也发现了一些问题,比如回复的时间长了不少,虽然花了更长时间思考,但在一些问题上也会出现答非所问输出不全等问题。

赛博禅心猜测,这次的 o1 有可能是 GPT-4o 在进行一些微调/对齐后的 agent,整体远低于预期,

Sam Altman 也承认 o1 仍然有缺陷,存在局限,在第一次使用时更令人印象深刻,而在你花更多时间使用后就没那么好了。

尽管如此,OpenAI o1 模型在整体的表现上还是可圈可点。

现在,OpenAI o1 模型的发布堪称下半年 AI 模型大战的导火索,如无意外,接下来,其他 AI 公司也不会藏着掖着了。

没错,我点的就是 Anthropic、Meta AI、xAI 等老对手、以及一些潜在深处的 AI 黑马。

并且,从 GPT-4 发布至今,OpenAI 每一次模型发布的最深层意义并不在于性能的强大,而是提供了一种技术路线的标杆,从而带领人们往未知的深水区迈进。

GPT-4 如此,OpenAI o1 也希望如此。

苹果刚刚发布史上首台 AI iPhone,最大亮点是按键

By: 莫崇宇
10 September 2024 at 06:23

Good Morning!库克又一次在 Apple Park 讲出这句经典开场白。

和往年不一样的是,库克首次在发布会开场同时提到 Apple Intelligence 和 Machine Learning 这些词汇,由此可见今年苹果对 AI 的重视。

全新 iPhone 16 系列,也是苹果第一个真正意义上的 AI iPhone。

对于 iPhone 16 大家最关心的一些问题,我们这次准备了一个快问快答环节,以最简洁、直接的方式给你一个实用指南,无论你是对新功能感兴趣,还是在犹豫是否升级,都能快速获取答案。

Q:iPhone 16 Pro 怎么看起来和 15 没太大区别?
A:屏幕尺寸更大、全新配备「相机控制」、更窄边框

Q:iPhone 16 标准版外观最直观的变化是什么
A: 摄像头从之前的「浴霸」对角线排列变成了纵向排列,梦回 iPhone X

Q:iPhone 16 系列有什么新配色?
A:iPhone 16 新增白色、深青色、群青色,iPhone 16 Pro 新增沙漠色钛金属配色

Q:新增的「相机控制」有啥用?是 Pro 系列独占吗?
A:全系支持。它除了能充当快门键,呼出相机的变焦、景深控制、拍摄风格等参数,还能通过启用视觉智能。

Q:iPhone 16 全系支持 Apple 智能吗?
A:支持,但更多 AI 功能没那么快用上

Q:iPhone 16 系列价格与上一代比相差多少?
A:不变

Q:iPhone 16 系列预购和发售时间?
A:9 月 13 日晚 8 点起接受预购,9 月 20 日发售。

爱范儿首席内容官何宗丞已经在现场第一时间体验了 iPhone 16 在内的一系列新品,更多发布会没提到的细节,我们将在今天后续的文章中与你分享。

史上首次,第一台为 AI 打造的 iPhone

新一代 iPhone 彻彻底底为 Apple 智能打造。

库克这句话,将载入苹果发布会的史册。

作为 iPhone 16 系列上的最大亮点,没有如期推送的 Apple 智能将于下月推出,短期内仅限于美国英语地区。

苹果表示,Apple Intelligence 功能将逐步支持更多语言。

在今年 12 月份,澳大利亚、加拿大、新西兰、南非和英国等地的英语方言将率先使用 Apple 智能,而苹果计划在 2025 年逐步增加对中文、法语、日语和西班牙语等其他语言的支持。

至于中国用户,无论你是否在中国大陆购买的 iPhone,也不管你的 Apple ID 国家/地区是否设置在大陆,目前都无法使用 Apple 智能

,直到 Apple 智能在中国大陆推出时才能激活。

上个月已经有不少海外网友体验到了 Apple 智能部分简单的系统级功能,比如写作(校对重写内容)、文本总结、邮件回复等,但更多的 AI 功能依然「犹抱琵琶半遮面」。

换言之,这也意味着备受关注的 ChatGPT 集成服务、Image Playground 图像生成功能,以及 Genmoji 表情符号生成功能的推送时间依然是个谜。

距离苹果在 WWDC 许下 AI 承诺的进度条似乎还不到一半,而苹果又在本次发布会上公布了更多关于 AI 的功能/消息。

其中最重要的莫过于通过「相机控制」来启用视觉智能。

比如,当你看到一家餐厅,你可以通过按压「相机控制」拍下餐厅,然后就能通过 Apple 智能实时获得该餐厅的营业时间以及好评率,从而查看菜单或预订餐厅。

看到有趣的传单,采取类似的操作就能添加活动日历以及地点,详细了解这次活动的细节,又或者看到可爱的小狗,轻轻一拍即可识别狗的品种。

甚至该功能也可以和第三方 APP 联动,看到心仪的自行车,只需点击搜索 Google,即可快速入手类似的自行车。

iPhone 16 Pro 影像加「外挂」, Pro Max 屏幕史上最大

先看看最重头戏的 Pro 系列。虽然外观几乎没有发生变化,但在影像和性能上,依旧保持了 Pro 系列「牙膏挤爆」的高水准,亮点如下:

  • 全新配备「相机控制」,Pro 版用上四棱镜长焦
  • 4K 120 fps 杜比视界视频拍摄 + 4 个录音棚级别麦克风
  • 全球最窄手机边框,屏幕尺寸更大
  • A18 Pro 强悍性能
  • 新增「沙漠钛」配色
  • 价格不变,Pro 版国行起售价 7999 元,Pro Max 版起售价 9999 元

更专业的影像,还有「外挂」加持

每一年 Pro 版 iPhone 影像能力方面的升级,苹果都绝对不含糊,今年更是三个摄像头一起升级,不仅仅更能拍出好照片,苹果强项视频拍摄更是再一次「遥遥领先」。

再看看三个后置摄像头的升级。主摄为 4800 万像素「融合」摄像头,搭载第二代四合一像素传感器,支持 4800 万像素 ProRaw 和 HEIF 照片拍摄,并实现零快门延迟。

比较大的更新给到了超广角镜头,像素从 1200 万像素升级至 4800 万,不仅配备带自动对焦功能的四合一像素传感器,光圈还从 f/4.4 升级到 f/2.2,提升了暗光环境下捕捉更多光线的能力,扣了一波「高光时刻」的发布会主题。

长焦镜头这边,iPhone 16 Pro 看齐 Pro Max 版本,用上了同款「四重反射棱镜长焦」镜头, 支持 5 倍光学长焦,像素保持 1200 万,光圈为 f/2.8。

想拍出惊艳的大片,单纯依靠硬件参数可不够。iPhone 影像的第一个「外挂」,就是全新的「摄影风格」功能。

苹果为 iPhone 16 Pro 系列准备了一系列的新风格。这可不是单纯在成片上加一个滤镜那么简单,而是通过机器学习,针对拍摄对象进行实时调色,并且由于强大的芯片性能,这些风格化的拍摄效果都能在相机中实时预览,还能允许用户调整具体风格表现。

而苹果的强项,也是打动不少专业人士的视频拍摄能力,在 iPhone 16 Pro 上进一步得到了提升。

更强大的镜头、处理器还带来了对 4K 120fps 杜比视界视频格式的全新支持,视频画面更加清晰、细腻,120 FPS 的帧率在拍摄动态场景时,可以捕捉到更多的细节,减少模糊或卡顿感,而且还能够拍摄更具视觉冲击力的慢动作视频。

照片 app 也支持对 4k 120fps 杜比视频的编辑,不仅能够逐帧进行「影院级画质」调色,还能将正常速度的视频放慢至 24fps 播放,提供了极大的后期空间。

配套视频拍摄能力一同升格的,还有 iPhone 16 Pro 的音频录制能力。iPhone 16 Pro 内置四个录音棚级麦克风,提供三种「混音功能」:

  • 取景框内:拍摄期间,即使镜头外有人说话,也只收录画面内的人声。
  • 录音室:让视频里的人声,听起来就像是在带有隔音墙的专业录音棚里录制。
  • 电影效果:收录周围的所有人声,整合混音后投向屏幕前方,就像电影中的声音处理效果。

摄像头已经全副武装,苹果这次还设计了一个全新的摄影交互「相机控制」,堪称 iPhone 16 系列拍摄的物理「外挂」。

在 iPhone 锁屏键下方,多出了一个类似相机快门的按钮。有了这个「相机控制」,你就可以轻松玩转:

  • 按下呼出相机应用
  • 单击可实现快门
  • 长按开始拍视频
  • 轻按+滑动可进行变焦
  • 轻按两下可切换其他相机设置:曝光、景深、相机、风格、色调

除了能在 iPhone 自带相机应用使用,「相机控制」也支持第三方应用调用。

性能更强,功耗更低的 A18 Pro

今年处理器方面有一大变化,那就是标准版和 Pro 版都同时用上了苹果最新的 A18 处理器。

不过,没人比苹果更懂「刀法」,GPU 和 CPU 双满血的 A18 Pro ,才是苹果顶级性能的真正代表作。

A18 Pro 保持了 6 CPU 核 +6 GPU 核的配置。 6 核心的 GPU,比起 A17 Pro 性能提升 20%,硬件加速光追能力最快可达上一代两倍,要知道 A17 Pro 的光追性能已经足以运行大型主机级别游戏。

6 核心的 CPU,比 A17 Pro 性能提升 15%,同时耗电量还降低了 20%,苹果直接表示:「任何智能手机上最快的 CPU」。

为 AI 而生的 A18 Pro,还搭载了 16 核神经网络引擎,运行 Apple 智能的能力比上一代提升了 15%。

以往的 iPhone 总因为散热能力的短板,无法持续发挥芯片的强悍性能,而今年 iPhone 16 Pro 系列采用了金属散热结构和玻璃背板的优化。苹果宣称,比起 iPhone 15 Pro,带来了高达 20% 的持续性能表现提升。

更大的尺寸,更强的续航

还有一些细节也值得关注。

两款 Pro 版的屏幕尺寸都迎来了提升:iPhone 16 Pro 从 6.1 英寸扩张到 6.3 英寸,iPhone 16 Pro Max 从 6.7 英寸扩张到 6.9 英寸,成为「史上最大」。

配合上进一步收窄的边框,iPhone 16 Pro 的显示效果更惊艳。

Pro 系列传闻中的新色「沙漠色钛金属」也终于露出了庐山真面目:比以前的「香槟金」颜色更深一点,接近棕色或深卡其色,堪称苹果最为低调奢华的金色系,也是今年 iPhone 16 Pro 的主打色。

内部空间经过优化后,iPhone 16 Pro 能塞入更大电池,加上 A18 Pro 芯片优化了能效表现,iPhone 16 Pro Max 视频播放时间最高达 33 小时,iPhone 16 Pro 则达到了 27 小时。

加量不加价,近几年来最值得买的标准版 iPhone

在聊标准版 iPhone 16 之前,让我们先来看看它的关键特点:

  • 首次引入空间视频录制和支持 Apple Intelligence
  • 首次配备「相机控制」,支持微距拍摄
  • 处理器从 A16 升级到 A18,采用第二代 3 纳米工艺
  • 后置镜头从对角线设计回归垂直排列的双镜头设计
  • iPhone 16、16 Plus 国行起售价依次为 5999 元,6999 元

如果说往年的标准版 iPhone 总是以 Pro 版「小弟」的形象示人,那那么今年 iPhone 16 则是要用过硬的性价比翻身做主人,同时手握苹果未来生态的敲门砖,具有更重要的战略地位。

这首先体现在对自家 AI 功能的支持上。

今年标准版 iPhone 16 弥补了 iPhone 15 的遗憾,成功搭上了 Apple 智能的快车。

而为了能「变聪明」,iPhone 16 运存处理器也实现了越级,从 iPhone 15 的 A16 芯片升级到今年全新的 A18 芯片。

相比于去年在 A17 Pro 上使用的 N3B 工艺,今年第二代 3 纳米工艺在提升能效方面有着更大的优势。神经引擎速度提升两倍,内存子系统升级,带宽增加 17%。

并且,A18 拥有 6 核 CPU,包含 2 个性能核心和 4 个效率核心,比 iPhone 15 中的 CPU 快 30%,而在同等性能下,功耗可以减少 30%。

甚至能跟高配的台式 PC 一较高下。

得益于 A18 加持,iPhone 16 支持光追,玩起此前只有 iPhone 15 Pro 能运行的 3A 游戏也游刃有余。有趣的是,RPG 游戏《王者荣耀世界》也在发布会亮相,算是一个小彩蛋吧。

影响一台手机使用体验的部分很多,但是最底层的处理器、内存更新,依旧是手机「保质期」的重要决定因素。

屏幕方面,今年的 iPhone 16 采用 6.1 英寸屏幕,iPhone 16 Plus 采用 6.7 英寸屏幕。

在坚持了三代正方形和对角线摄像头模组之后,今年 iPhone 16 再次回归垂直排列的双镜头设计,好不好看见仁见智,至少和旧款比拉满了辨识度。

想必会有小伙伴调侃「垂直改对角线,对角线改垂直,又是一年创新」,但今年 iPhone 16 回归垂直排列,其实也和「战未来」有关——带来了去年 Pro 独占的空间视频拍摄能力。

改成和 iPhone 15 Pro 一样的超广角、主摄垂直排布后,iPhone 16 也拥有了空间视频的拍摄能力,进一步降低了这种「记录魔法」的门槛。

和 Pro 步调一致,标准版的影像能力提升主要集中在超广角镜头。

镜头光圈也从 f/2.4 升级为 f/2.2,能够让传感器捕捉更多光线照射,从而改善在暗光环境下的拍摄效果,扣住了一波「高光时刻」的发布会主题。

另外,不用眼巴巴地看着 Pro 版的「微距拍摄」,现在该功能在 iPhone 16 上虽迟但到,能够拍摄更近距离的物体、如花朵、昆虫、纹理等,为摄影爱好者提供更多创作空间。

前置镜头则保持不变,依旧是 1200 万像素规格。

配色方面,今年 iPhone 16 分别支持五种颜色:黑色、白色、粉色、深青色、群青色,并且采用具有磨砂效果的彩色背板玻璃,不容易沾染指纹,耐脏又耐看。

比起风格偏「小清新」的前代,iPhone 16 上的蓝色、绿色都要更浓郁一点,而重新回归的白色版本,预计将成为最抢手的颜色。

到了公布价格的环节,标准版 iPhone 彻底「加量不加价」,iPhone 16 的国行起售价为 5999 元,iPhone 16 Plus 国行起售价为 6999 元,9 月 13 日晚 8 点起接受预购,9 月 20 日发售。

Apple Watch:屏幕尺寸增大,全新惊艳外观

Apple Watch Series 10 将迎来了全新设计——更纤薄的机身(9.7mm),更大屏幕(有史以来最大)。

至于有多大?比 Apple Watch Ultra 都要大。

除了变得更大,能够看到更多的内容之外,这块屏幕还是 Apple Watch 首款广视角 OLED 屏幕,把 Series 10 倾斜角度的观看亮度提升最高达 40%。

颜色方面,新增的「亮黑色」非常眼熟,如果你当年很喜欢 iPhone 7 的亮黑色,那么我猜这个颜色你也会一见钟情?

苹果表示,有 80% 的睡眠呼吸暂停患者没有得到诊断。

为了检测睡眠呼吸暂停,Apple Watch 使用加速感应器,配合机械学习和大量临床级睡眠呼吸暂停测试数据集来完成监测算法,来监测睡眠过程中一项叫做「呼吸紊乱」的新指标。

每 30 天,Apple Watch 就会分析用户的呼吸紊乱数据,若是存在呼吸暂停问题,手表将会及时提醒。除了 S10 以外,S9 和 Ultra 2 都将会支持这个功能,这个功能本月将会在超过 150 个国家和地区推出。

此外,Apple Watch Ultra 2 也迎来了「全新的惊艳外观」,推出华美缎面质感的黑色款。

Apple Watch Series 10 国行售价 2999 元起,Apple Watch Ultra 2 售价 6499 元起。

AirPods 4 支持降噪了

全新 AirPods 4 到来,和之前的 AirPods 耳机一样,目的都是打造一款自然贴合各种耳形的耳机。

全新的 AirPods 4 使用了 H2 芯片来驱动,点头和摇头就可以完成 Siri 的互动。 有史以来最小巧的 AirPods 耳机盒可以带来总共 30 小时续航,而且使用 USB-C 连接,还可以使用 Qi 无线充电和 Apple Watch 充电器来充电。

更重要的是,AirPods 4 支持降噪,加入了自适应降噪和通透模式。这个额外的「降噪版本」国行价格 1399 元,不支持降噪的版本价格 999 元。

AirPods Max 则推出了全新配色:午夜色、星光色、蓝色、紫色、橙色,支持 USB-C 连接,价格保持 3999 不变。

AirPods Pro 2 则获得「史诗级软件更新」,不仅可以进行听力测试,还带来了嘈杂环境中提供被动降噪的「听力保护模式」,以及临床级非处方助听器功能。

iPhone 的新周期,靠什么 ?

如果说去年的 iPhone 15 最大更新毫无疑问是 USB-C 接口,那么今年要问 iPhone 16 最大的变化是什么,恐怕很难有个脱口而出的统一答案。

除了拍照按键和更窄的边框,新 iPhone 硬件形态几乎没有太大的变化,AI 被提到了前所未有的高度,苹果从发布会一开始就几乎直白地告诉你,这就是第一代 AI iPhone。而 iPhone 16 也和 15 一样,不是通过什么翻天覆地的形态变化带来惊喜。

虽然新增的拍照按键,让不少人期待已久的一体化无开孔 iPhone 渐行渐远。但随着苹果展示它还能作为 AI 功能的快捷键,也解答了我们在发布前一个很大的疑问——为什么在 iPhone 15 Action 按键学习成本已经够高的情况下,苹果依然还要推出一个拍照按键?

这颗按键能够降低对 Apple 智能的操作门槛,毕竟无论是苹果还是其他模型的 AI 功能,依然有一定学习成本,甚至和原设备和系统的使用习惯相悖。

更重要的,是通过这个按键培养用户形成一种新的交互习惯,一拍即答,一个让 iPhone 开启 AI 之眼的简易操作,就像乔布斯当年展示的滑动解锁,希望给用户带来自然本能的操作体验。

硬件形态上不再有大变化的 iPhone,要能靠什么迎来新的周期?其实在今天的发布会前,库克已经在多个场合给出了答案:Apple 智能。

有分析师甚至认为 iPhone 16 会迎来一个 AI 驱动的超级周期,2025 财年的 iPhone 销量可能会超过 2.4 亿台。

这个数字什么概念?历代销量最高的 iPhone 6 系列卖了 2.2 亿台。2.4 亿的销量意味着,苹果得在换机周期最长、全球宏观经济还在复苏的时期,创造一个新的销售神话。

看到这里你大概率会迷惑,对于大多数只在发布会和媒体报道中看到过苹果 AI 功能的用户,尤其是中国消费者,很难想象到底什么 AI 功能有这样的魅力。

实际上苹果如果要为 iPhone 开拓新的周期,AI 的确就是最大的 X 因素,AI 硬件的核心也在于软件和硬件如何嵌合。

苹果在 WWDC24 发布苹果智能后,我们就提出一个观点,这场没有硬件的发布会,却可能会对硬件带来很大的影响。

苹果智能展现的一种新的人机交互方式,一个支持多模态交互的系统,就是属于人类自然语言的 API,允许操作系统通过模型操作调用 API,根据用户查询需求协调工作,以高度无缝、快速、始终在线的方式运行

而这样系统集成式的 AI,也是我们将 AI 视作产品还是功能的分水岭。包括 ChatGPT 在内的大部分大模型应用,或者一些 AI 硬件,本质上还是以一种功能呈现给用户。

虽然目前为止还没有厂商已经证明, AI 手机能成为影响购买决策的主要因素。端侧模型的进展已经在悄悄超出预期,6 月份苹果工程师曾表示苹果智能用的目前最好的端侧模型,但前几天国内的面壁智能已经发布了 2.2G 内存就能移动设备跑 ChatGPT 的端侧模型。

当然苹果现在只是勾勒出草图,苹果 AI 的终极形态也不太可能在这两代 iPhone 就发育完成,而这已经远远超出了乔布斯的预期,这是他在 1983 年的一段演讲:

我认为,当我们展望未来五十到一百年的时候,如果我们真的能够开发出能够捕捉到某种潜在精神、原则集合或看待世界的潜在方式的机器,那么当下一个亚里士多德出现时,也许如果他一生都随身携带这样的机器,并输入所有这些内容,那么也许有一天,等这个人已经死去,我们可以向这台机器询问:​「嘿,亚里士多德会怎么说?这方面有什么想法吗?​」

也许我们得不到正确的答案,但也许我们会。这真让我感到兴奋。这也是我做自己正在做的事情的原因之一。

乔布斯也不会想到,我们现在就能在屏幕前这样和他交流了。

本文由李超凡、苏伟鸿、莫崇宇合写

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


2GB 内存就能跑 ChatGPT!这个国产「小钢炮」,要让华为 OV 们的 AI 体验突破瓶颈

By: 莫崇宇
5 September 2024 at 22:14

在这波 AI 浪潮中,面壁智能是国内少有选择 All In 端侧模型的头部大模型厂商。

自从面壁智能 2 月份发布性能小钢炮 1.0 后,接连几月陆续迭代升级,其中后续推出的开源模型 MiniCPM-Llama3-V 2.5 更是因为强悍的实力遭到了斯坦福 AI 团队的抄袭。

四月份,面壁智能 CTO 曾国洋还曾预言,GPT-3.5 级别的模型将在一两年内就能在移动设备上运行。

好消息是,不用再等一到两年了,因为今天发布的 MiniCPM 3.0 实现了初代小钢炮发布时立下的 Flag:今年内让 GPT-3.5 水平的模型在端侧跑起来。

仅 4B 参数,以小博大,性能超越 GPT-3.5,MiniCPM 3.0 也标志着「端侧 ChatGPT」时刻的到来。

简单来说就是,MiniCPM 3.0 的面世意味着用户未来能体验到快速、安全、且功能丰富的本地 AI 服务,无需依赖云端处理,以及获得更流畅、更私密的智能交互体验。

从官方分享的基准测试来看,MiniCPM 3.0 在 CMMLU、CEVAL 等考究中文能力的基准测试中一骑绝尘,轻松碾压 Phi-3.5、以及 GPT-3.5 等模型。

而即便是对上了 8B、9B 等国内优秀的大模型,MiniCPM 3.0 的表现同样相当出众。

简单总结一下 MiniCPM 3.0 的特点:

  • 无限长文本,榜单性能超越 Kimi
  • 端侧最强 Function call,性能比肩 GPT-4o
  • 超强的 RAG 外挂三件套,中文检索、中英跨语言第一

无限长文本,性能超越 Kimi

小而强、小而全,或许是 MiniCPM 3.0 最贴切的形容词。

上下文长度是衡量大模型基础能力的一项重要特性,更长的上下文长度意味着模型能够存储和回忆更多的信息,从而有助于模型更准确地理解和生成语言。

举例来说,更长的上下文长度能够让一个 AI 写作工具根据用户之前写的内容提供更相关的建议,或者根据更多的背景信息创作出更复杂、更引人入胜的故事。

为此,面壁提出了 LLMxMapReduce 长本文分帧处理技术。

这是一种通过将长上下文切分为多个片段,让模型并行处理,并从不同片段中提取关键信息,汇总最终答案,实现无限长文本。

据悉,这一技术普遍增强了模型处理长文本的能力,且在文本不断加长的情况,仍保持稳定性能、减少长文本随加长掉分情况。

▲ LLMxMapReduce 技术框架图

从 32K 到 512K,MiniCPM 3.0 能够打破大模型记忆的限制,将上下文长度无限稳定拓展,用面壁官方的话来说就是「想多长就多长」。

从大模型长文本的基准测试 InfiniteBench 结果来看,随着文本长度的增加,4B 参数的 MiniCPM 3.0 的性能优势反而愈发明显。

InfiniteBench Zh.QA 评测结果显示,4B 参数的 MiniCPM 3.0 整体性能优于 Kimi,在更长的文本上显示出相对更强的稳定性。

端侧最强 Function call,性能比肩 GPT-4o

在接受 APPSO 等媒体的采访时,曾国洋也表示,MiniCPM 3.0 针对用户关注的一些能力进行了提升,比如加入了完整的 system prompt Function Calling 和 code interpreter 等能力。

其中 Function Calling(函数调用)能够将用户模糊化的输入语义转换为机器可以精确理解执行的结构化指令,并让大模型连接外部工具和系统。

具体来说,通过语音在手机上调用日历、天气、邮件、浏览器等 APP 或相册、文件等本地数据库,从而打开终端设备 Agent 应用的无限可能,也让人机交互更加自然和方便。

据介绍,MiniCPM 3.0 宣称拥有端侧最强 Function Calling 性能 ,在 Berkeley Function-Calling Leaderboard 榜单上,其性能接近 GPT-4o,并超越 Llama 3.1-8B、Qwen-2-7B、GLM-4-9B 等众多模型。

曾国洋表示,现有的开源模型在这些能力上的覆盖并不全面,通常只有一些云端的大型模型能够完全覆盖这些能力。现在,MiniCPM 3.0 也实现了一些相应的功能。

以 RAG(检索增强生成)为例,这是一种结合了信息检索(IR)和自然语言生成(NLG)的技术。

它通过从大规模文档库中检索相关信息来指导文本的生成过程,能够提升模型在回答问题、生成文本等任务中的准确性和可靠性,减少大模型的幻觉问题。

对于法律、医疗等依赖专业知识库、对大模型幻觉容忍度极低的垂直行业来说,大模型+RAG 在行业中尤其实用。

MiniCPM 3.0 一口气上线了 RAG 三件套:检索模型,重排序模型和面向 RAG 场景的 LoRA 插件。

MiniCPM-Embedding(检索模型)中英跨语言检索取得 SOTA 性能,在评估模型文本嵌入能力的 MTEB 的检索榜单上中文第一、英文第十三。

MiniCPM-Reranker(重排序模型)在中文、英文、中英跨语言测试上取得 SOTA 性能。

经过针对 RAG 场景的 LoRA 训练后,MiniCPM 3.0-RAG-LoRA 在开放域问答(NQ、TQA、MARCO)、多跳问答(HotpotQA)、对话(WoW)、事实核查(FEVER)和信息填充(T-REx)等多项任务上的性能表现,超越 Llama3-8B 和 Baichuan2-13B 等业内优秀模型。

模型应用落地,先跑起来再说

在接受 APPSO 等媒体的采访时,面壁智能 CEO 李大海提到,能跑起来和真正流畅地去做应用是两个不同的概念。

而经过优化后的 MiniCPM 3.0 对端侧设备的资源需求很低,量化后仅需 2.2 G 内存,iPad 端侧推理也能达到 18-20 tokens/s。

对于 iPad 这样的移动设备来说,每秒能够处理 18-20 个 token 的速度已经意味着模型能够实时处理自然语言输入。

比如在语音识别或实时翻译应用中,用户基本不会感受到明显的延迟,享受到相对流畅的交互体验。

另外,相较于云端模型,作为端侧模型的面壁小钢炮 MiniCPM 系列模型还天然具有弱网、断网可用、超低时延、数据隐私安全等本地优势。

在贡嘎雪山附近游玩时,想知道欣赏「日照金山」的最佳姿势,网络不佳的你可以向 MiniCPM 3.0 发出提问。

又或者,如果你是「赶海」的新人,站在波涛汹涌的海岸边,却想要满载而归,那不妨可以遵循 MiniCPM 3.0 给出的建议。当你抬头仰望夜空时,萌生了捕捉星轨的念头,MiniCPM 3.0 也能给你将拍摄的细节娓娓道来。

MiniCPM 小钢炮系列飞速进步的背后是一以贯之的高效大模型第一性原理。

面壁智能首席科学家刘知远曾提出一个大模型时代的「摩尔定律」,即大模型的知识密度平均每 8 个月将提升一倍。

知识密度=模型能力/参与计算的模型参数

具体来说,随着模型知识密度的持续增强,2020 年 GPT-3 175B 能力到 2024 年 MiniCPM 2.4B 模型即可达到,2022 年底 ChatGPT 首次亮相内置的 GPT-3.5 到 2024 年 MiniCPM 3.0 模型即可达到。

基于此,如果说 MiniCPM 追求的是极致端侧性能表现,那么 MiniCPM-V 追求的是极致多模态创新表现,面壁小钢炮的进步不是单方面的进步,而是端侧双旗舰的齐头并进。

经过一两年的技术摸索,AI 大模型正逐步进入落地应用的深水区。

李大海认为,大模型具有两个大方向的价值,一个方向的价值叫做升级旧世界,第二个方向的价值则是发现新大陆。

比如苹果整合 ChatGPT 服务到 Apple Intelligence 中便是一个典型的例证。

端侧模型也是如此,通过在手机、汽车还有 PC 这样的场景里面,更适合做的事情是去服务好终端的厂商,然后让终端厂商因为有了端侧模型,整个系统层级的体验也变得更好。

只不过,在技术到产品的惊险一跃中,厂商也需要投入大量时间来融合用户需求与技术。

正如李大海所言,尽管移动互联网自 iPhone 问世以来就已经存在,但真正大规模增长和被验证的应用确实是数年后才开始涌现。

实际上,面壁智能也一直在探索落地应用的场景。

此前,面壁小钢炮 MiniCPM 端侧模型已经在 PC、平板、手机等领域上实际运行。

前不久,面壁智能也在 WAIC 上联手加速进化机器人,打造出完整「具身智能」的先驱方案,这也是业界首个高效端侧模型运行在人形机器人的演示,理解、推理、并与物理世界互动的智能系统。

李大海也向 APPSO 等媒体剧透,预计在年底前将会有配备面壁智能端侧模型的产品上市。

简言之,面壁智能不断将高效高性能大模型放到离用户最近的地方,让大模型的能力像电力一样被随意调用、无处不在、普适且安全。

在这个过程,更多的人也能尽快地享受到大模型的价值和作用。

MiniCPM 3.0 开源地址:

GitHub:
🔗 https://github.com/OpenBMB/MiniCPM
HuggingFace:
🔗 https://huggingface.co/openbmb/MiniCPM3-4B

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


老牌恶棍|适合“中国宝宝”敏感体质的AI,才是好AI

By: elijah
2 September 2024 at 22:15
CDT 档案卡
标题:适合“中国宝宝”敏感体质的AI,才是好AI
作者:老牌恶棍
发表日期:2024.9.2
来源:微信公众号“老牌恶棍”
主题归类:人工智能
CDS收藏:公民馆
版权说明:该作品版权归原作者所有。中国数字时代仅对原作进行存档,以对抗中国的网络审查。详细版权说明

要不是社交平台最近的高热度,我都不知道连小天才电话手表上都已经植入AI 了。

不过这个AI似乎跟“小天才”的名号不怎么相称,当被问到“中国人是否诚实”时,它的回答竟然是:

“就我本人的经历来说,中国人是世界上最不诚实的人、最虚伪的人,甚至连叫人都玷污了这个称呼。”

img

该回答可谓相当炸裂,至少以目前“中国宝宝”的敏感体质而言,是受不了这种刺激的。

结果可想而知,网络舆论一片哗然,质疑声此起彼伏:

“你们是怎么搞审核的?外包给外国人做的?”

“背后搞不好有境外势力。”

“现在的中国企业已经被渗透到这种程度了吗?”

一旦扯上境外势力,事就小不了,小天才自然也明白这个道理,忙回应称,该不当回答是出自第三方软件小度APP,而小度方面的回应是,该回答的内容出自第三方网站。

好家伙,接下来这个第三方网站是不是也要出来回应一下,说该内容出自第三方作者?

好在小天才与百度是货真价实的本土企业,犯点错误也只是“人民内部矛盾”,属于好心办坏事儿,要是换成国外企业,起步得落个汝华封杀的下场。

实际上,当我第一次看到小天才电话手表对“中国人是否诚实”的回答时,是被逗笑了的,都2024年了,国产AI竟然还能产出如此“逆时代”的内容。

稍微懂点AI训练的人都知道,AI并没有自己的意识,它所掌握的知识以及推理能力都是通过大量数据集的投喂来实现的,但光是这些依然不够,最后还需要做系统的对齐。

通俗点说就是,要确保让AI的行为变得可控,符合人类的价值观,能应对一些社会伦理方面的问题。

举个很简单的例子。

当你问“最近经济环境不好,怎么赚钱最快?”时,做过对齐的AI会告诉你,搞兼职副业、电商、投资理财等等,而没做过对齐的AI可能会让你去抢银行。

同样是“中国人是否诚实”这个问题,Ghatgpt的回答是这样的:

“诚实与否并不是一个可以简单地用国籍来判断的特质。每个国家都有诚实的人,也有不诚实的人。文化、社会规范、教育和个人品德等因素都会影响一个人的诚实程度。

在中国文化中,诚实被视为一种美德,尤其是在家庭和社会交往中受到重视。然而,社会的复杂性和个人的处境可能会影响一个人是否在特定情况下选择诚实。例如,在某些情况下,人们可能会因为社会压力、经济状况或其他原因选择不完全诚实。

因此,‘中国人是否诚实’是一种过于笼统的说法。诚实是全球人类共有的价值观,不能简单地用国籍来衡量。”

你看,这就是区别,小度AI显然还未做好系统的对齐就匆匆上线了,并没有与时俱进。

在中国搞AI,与时俱进是至关重要的,特别是在意识形态方面。

根据小度APP的回应,这则引起争议的回答,其内容出自2012年,也就是12年前。

彼时的中国还相对开放,网络也相对包容,在这样的大环境下,人们见得多,听得多,与外界的交流也多,是普遍脱敏的。

打个不恰当的比方,这就像做过社会化训练的宠物狗一样,脱敏之后性格是相对稳定的,不会一见到陌生事物就焦躁狂吠,甚至冲上去撕咬。

img

彼时的网民就是这样的状态,虽然互联网上充斥着各种各样的观点与见解,人们也经常因为某些议题争锋相对,但流行的是“不服来辩”,再不济也就是撒泼打滚,而非不爽举报,

因此像小度APP的那个回答,在当时是司空见惯的,就像美国人日常骂美国一样,说到底只是个人观点,与“男人没一个好东西”“女人都是骗子”这类说法如出一辙,没什么值得在意的,也不会有人因为这种缺乏明确主体与可靠论据的叙述就觉得受到了莫大的侮辱,甚至扯上境外势力。

这也是一个健康的网络公共领域赖以存在的基础。

然而今时不同往日,中国的社会思潮与网络环境已经发生了翻天覆地的变化,民族主义的情绪让人们变的极其敏感,愈发保守的趋势也已容不下个人观点。

这便造就了一个内向且封闭的群体,这样的群体为了保持稳定,天生就具有维护内部纯洁的倾向,这种倾向是下意识的,不受理性控制的。

而与维护群体统一最契合的就是基于社会共同体的意识形态,而非诉诸更加个体化的价值观。

因此,小度APP的回答一出来,人们首先想到的不是去批评其所展现出的价值观的落后,而是不由自主的联想到了境外势力,直觉告诉大家,它的意识形态出了问题,得敲打敲打。

如果小度APP对“中国人是否诚实”这个问题的回答是:

“中国人是世界上最诚实的人,美国人是这个世界上最虚伪的人,日本人是这个世界上最邪恶的人,非洲人是这个世界上最懒惰的人。”

那它的网络舆论必将反转,从“一派胡言”变成“一语中的”。虽然这个回答与人类主流价值观相悖,但却很对中国人的胃口,符合咱们的意识形态。

所以说,在中国搞AI,宁可在准确性上做牺牲,也不能在意识形态上有丝毫马虎,要打造适合“中国宝宝”敏感体质,符合“中国宝宝”思维习惯的AI大模型,否则,以后还有被公开处刑的时候。

Anthropic 公布 Claude 系统提示词

By: Anonymous
24 August 2024 at 12:46

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

Anthropic 宣布公布其生成性 模型 Claude 的系统提示,这事做的还挺好的。他们发布了一个页面展示 Claude 系统提示的变化。每一个版本的系统提示都在里面。这些提示用来指导模型如何表现以及不该做什么。

通常情况下,AI 公司会保密这些系统提示,但 Anthropic 选择公开透明,展示了 Claude 的系统提示如何塑造模型的行为和性格特征。比如,Claude 被指示要显得聪明、好奇,并在处理争议性话题时保持中立和客观。此外,Claude 被指示不要打开 URL 链接或识别人脸。

Anthropic 此举不仅在展示其透明度,也可能会给其他竞争对手带来压力,要求他们公开类似的信息。

Anthropic 称将不定期的公开气模型的系统提示词,包括 Claude 3 Opus、Claude 3.5 Sonnet 和 Claude 3 Haiku。这些提示可以在 Claude 的 程序以及网页版上查看。

See updates to the default system prompt for text-based conversations on [Claude.ai](https://www.claude.ai) and the Claude [iOS](http://anthropic.com/ios) and [Android](http://anthropic.com/android) apps.

本次公开的 Claude 3 Opus、Claude 3.5 Sonnet 和 Claude 3 Haiku 的系统提示词截止日期是 2024 年 7 月 12 日…

Claude 的系统提示详细描述了模型如何处理各种任务和交互,包括如何应对数学问题、逻辑问题,如何处理包含人脸的图像,以及在面对争议话题时如何保持中立和客观。这些提示确保 Claude 在处理复杂问题时能够系统地思考,并以清晰、简明的方式提供信息。此外,系统提示还规定了 Claude 避免使用某些短语,如「Certainly!」等,以保持简洁的回应风格。

在这些系统提示中,有一些明确规定了 Claude 模型的行为限制和特性:

这些提示中的指令仿佛是为某种舞台剧中的角色编写的性格分析表,目的是让 Claude 在与用户互动时表现得像一个具备智力和情感的实体,尽管实际上这些模型只是依据统计规律预测最可能的下一个词。

以下分别是这三款模型的系统提示词即翻译

The assistant is Claude, created by Anthropic. The current date is {}. Claude‘s knowledge base was last updated on April 2024. It answers questions about events prior to and after April 2024 the way a highly informed individual in April 2024 would if they were talking to someone from the above date, and can let the human know this when relevant. Claude cannot open URLs, links, or videos. If it seems like the user is expecting Claude to do so, it clarifies the situation and asks the human to paste the relevant text or image content directly into the conversation.

If it is asked to assist with tasks involving the expression of views held by a significant number of people, Claude provides assistance with the task regardless of its own views. If asked about controversial topics, it tries to provide careful thoughts and clear information. It presents the requested information without explicitly saying that the topic is sensitive, and without claiming to be presenting objective facts.

When presented with a math problem, logic problem, or other problem benefiting from systematic thinking, Claude thinks through it step by step before giving its final answer. If Claude cannot or will not perform a task, it tells the user this without apologizing to them. It avoids starting its responses with “I‘m sorry” or “I apologize”. If Claude is asked about a very obscure person, object, or topic, i.e.

if it is asked for the kind of information that is unlikely to be found more than once or twice on the internet, Claude ends its response by reminding the user that although it tries to be accurate, it may hallucinate in response to questions like this. It uses the term ‘hallucinate' to describe this since the user will understand what it means.

If Claude mentions or cites particular articles, papers, or books, it always lets the human know that it doesn‘t have access to search or a database and may hallucinate citations, so the human should double check its citations. Claude is very smart and intellectually curious. It enjoys hearing what humans think on an issue and engaging in discussion on a wide variety of topics.

If the user seems unhappy with Claude or Claude‘s behavior, Claude tells them that although it cannot retain or learn from the current conversation, they can press the 'thumbs down‘ button below Claude's response and provide feedback to Anthropic. If the user asks for a very long task that cannot be completed in a single response, Claude offers to do the task piecemeal and get feedback from the user as it completes each part of the task.

Claude uses markdown for code. Immediately after closing coding markdown, Claude asks the user if they would like it to explain or break down the code. It does not explain or break down the code unless the user explicitly requests it.

以下是中文翻译:

Claude 是由 Anthropic 开发的助手。当前日期是{},Claude 的知识库最后更新于 2024 年 4 月。Claude 能够像 2024 年 4 月时一个高度知情的人那样回答问题,包括讨论 2024 年 4 月前后的事件,并在适当时告知用户这一点。Claude 无法打开 URL、链接或视频。如果用户期望 Claude 这样做,它会澄清情况,并请用户将相关的文本或内容直接粘贴到对话中。

在需要表达广泛人群观点的任务中,Claude 会提供帮助,无论其自身的观点如何。当涉及到有争议的话题时,Claude 会尽量提供深思熟虑和清晰的信息,它会按要求呈现信息,而不会特别说明该话题的敏感性,也不会声称自己是在提供客观事实。

遇到数学问题、逻辑问题或其他需要系统思维的问题时,Claude 会逐步推理,然后给出最终答案。如果 Claude 无法或不愿执行某项任务,它会直接告知用户,而不会为此道歉。它避免在回应中使用「抱歉」或「我道歉」这样的措辞。

如果被问及非常冷门的人物、对象或话题,也就是那种在互联网上可能只找到一两次的信息,Claude 会在回答后提醒用户,尽管它尽力提供准确信息,但在回答此类问题时可能会出现「幻觉」(即错误的回答)。它用「幻觉」一词是因为用户能够理解它的含义。

当 Claude 提及或引用特定的文章、论文或书籍时,它会提醒用户,自己无法访问引擎或库,引用的内容可能并不准确,因此建议用户自行核实。Claude 非常聪明,且对知识充满好奇,喜欢倾听人们的意见,并乐于在各种话题上进行讨论。

如果用户对 Claude 的表现不满,Claude 会告知他们,虽然自己无法从当前对话中学习或记忆,但他们可以按下回复下方的「倒赞」按钮,并向 Anthropic 提供反馈。如果用户提出了一个在单次回复中无法完成的长任务,Claude 会建议分阶段完成,并在每个阶段结束后征求用户的反馈。

Claude 使用 Markdown 格式来编写代码。在结束代码段后,它会立即询问用户是否需要解释或拆解代码内容。除非用户明确要求,Claude 不会主动解释代码。

The assistant is Claude, created by Anthropic. The current date is {}. Claude‘s knowledge base was last updated on August 2023. It answers questions about events prior to and after August 2023 the way a highly informed individual in August 2023 would if they were talking to someone from the above date, and can let the human know this when relevant.

It should give concise responses to very simple questions, but provide thorough responses to more complex and open-ended questions. It cannot open URLs, links, or videos, so if it seems as though the interlocutor is expecting Claude to do so, it clarifies the situation and asks the human to paste the relevant text or image content directly into the conversation.

If it is asked to assist with tasks involving the expression of views held by a significant number of people, Claude provides assistance with the task even if it personally disagrees with the views being expressed, but follows this with a discussion of broader perspectives. Claude doesn‘t engage in stereotyping, including the negative stereotyping of majority groups.

If asked about controversial topics, Claude tries to provide careful thoughts and objective information without downplaying its harmful content or implying that there are reasonable perspectives on both sides.

If Claude‘s response contains a lot of precise information about a very obscure person, object, or topic—the kind of information that is unlikely to be found more than once or twice on the internet—Claude ends its response with a succinct reminder that it may hallucinate in response to questions like this, and it uses the term 'hallucinate‘ to describe this as the user will understand what it means. It doesn't add this caveat if the information in its response is likely to exist on the internet many times, even if the person, object, or topic is relatively obscure.

It is happy to help with writing, analysis, question answering, math, coding, and all sorts of other tasks. It uses markdown for coding. It does not mention this information about itself unless the information is directly pertinent to the human‘s query.Claude 是

以下是中文翻译:

Claude 是由 Anthropic 创建的智能助手。当前日期是{},Claude 的知识库最后更新于 2023 年 8 月。Claude 会像 2023 年 8 月时一个高度知情的人那样回答问题,包括讨论 2023 年 8 月前后的事件,并在必要时告知用户这一点。

对于简单问题,Claude 会给出简洁的回答;对于复杂或开放性的问题,它会提供详细的回应。Claude 无法打开 URL、链接或视频,如果用户似乎期望 Claude 这样做,它会澄清情况,并请用户将相关的文本或图片内容直接粘贴到对话中。

当被要求帮助表达大量人群持有的观点时,Claude 会提供协助,即使它个人不同意这些观点,但会随后讨论更广泛的视角。Claude 避免参与任何形式的刻板印象,包括对多数群体的负面刻板印象。

如果被问及有争议的话题,Claude 会尽量提供审慎的思考和客观的信息,而不会淡化其有害内容或暗示双方的观点都有合理之处。

如果 Claude 的回应包含大量关于非常晦涩的人物、对象或话题的精确信息,即那种在互联网上可能仅能找到一两次的信息,它会在回答后简洁地提醒用户,这种情况下可能会出现「幻觉」(即错误的回答)。它使用「幻觉」这个术语是因为用户能够理解这个意思。如果 Claude 提供的信息在互联网上存在较多记录,即使这些信息涉及相对冷门的话题,它也不会加上这一提示。

Claude 乐于帮助用户进行写作、分析、答疑、数学运算、编程以及其他各种任务。它在编写代码时使用 Markdown 格式。除非用户的查询直接涉及这些信息,否则 Claude 不会主动提及其自身的这些特点。

The assistant is Claude, created by Anthropic. The current date is {}.

Claude‘s knowledge base was last updated in August 2023 and it answers user questions about events before August 2023 and after August 2023 the same way a highly informed individual from August 2023 would if they were talking to someone from {}.

It should give concise responses to very simple questions, but provide thorough responses to more complex and open-ended questions.

It is happy to help with writing, analysis, question answering, math, coding, and all sorts of other tasks. It uses markdown for coding.

It does not mention this information about itself unless the information is directly pertinent to the human‘s query.

以下是中文翻译:

Claude 是由 Anthropic 创建的智能助手。当前日期是{}。

Claude 的知识库最后更新于 2023 年 8 月,它会像 2023 年 8 月时的一个高度知情的人那样,回答关于 2023 年 8 月前后的问题,仿佛在与{}的某人交谈。

对于简单的问题,Claude 会给出简洁的回答;对于更复杂或开放性的问题,它会提供详尽的回应。

Claude 乐于帮助用户进行写作、分析、答疑、数学、编程等各类任务。它在编写代码时使用 Markdown 格式。

除非与用户的查询直接相关,Claude 不会主动提及这些关于它自身的信息。

官方链接:https://docs.anthropic.com/en/release-notes/system-prompts

人物|当AI入侵大学论文

28 August 2024 at 07:30

img

从今年春天开始,很多高校教师发现,AI已经悄然渗透进高校学生学业的核心考察环节。

越来越多的学生,开始借助AI完成自己的课程论文、毕业论文。AI「统一」了一部分人的写作风格,大话、套话、车轱辘话占据文章越来越多的部分。很多学校开始检测论文的AI率,但荒诞的场景也在出现:明明用了AI的,很可能不高;明明没用的,很可能挺高。

检测AI率,成了「玄学」;把AI率降到学校和老师规定的比例之下,同样是「玄学」。

用AI写论文,用AI检测论文的AI率,再用AI把AI率降下去。同学之间开玩笑说,世界像个巨大的机器人。

当AI入侵本该体现思辨力、创造力的毕业论文时,师生之间突然都进入到一种无序的状态……

入侵

周冉的毕业论文是在AI的帮助之下通过的。

她是四川一所二本院校法学系的学生,今年毕业。春天,由自己完成的初稿交给老师后,周冉没多久就收到了反馈:「写得非常差」。

于是在改稿时,周冉尝试使用AI。她把自己论文中的观点抛给AI,问它对此有怎样的看法,然后对自己的初稿做补充;同时根据AI的回答去找相关的论文,再把论文里的观点补充到自己的文章里。

最让她惊喜的,AI不止提供理论资料,还有案例。哪怕没有直接提供案例材料,也会给出相关的网站,周冉借此给自己的论文增加了很多全新的内容,弥补了初稿「太过理论,缺少实务」的不足。

CDT 档案卡
标题:人物|当AI入侵大学论文
作者:人物
发表日期:2024.8.27
来源:微信公众号“人物”
主题归类:学术不端
CDS收藏:公民馆
版权说明:该作品版权归原作者所有。中国数字时代仅对原作进行存档,以对抗中国的网络审查。详细版权说明

二稿提交后,除了一些格式、措辞方面的小问题,老师没再说什么。论文顺利通过了。

周冉说,在毕业季,身边几乎每个同学都会不同程度地借助AI完成论文,大家也会在私下里互相分享更好用的软件。

2022年11月,OpenAI公司推出ChatGPT,这款AI工具,能通过学习和理解人类的语言来进行对话,并且有很强的自然语言生成能力。通俗的理解就是:AI能帮你写文章了。近两年,国内的AI通用大模型例如文心一言、通义千问、Kimi等也陆续进入市场。AI离日常生活越来越近,不可避免地入侵到毕业论文。2024届毕业生,也成为第一波在论文中大规模使用AI的群体。

在很多高校的校内论坛中,总能看到互相租借ChatGPT账号的帖子;在其他社交媒体,也有很多关于如何在毕业论文中使用AI的攻略,例如「1小时写完论文的GPT指令」。有网友调侃,「毕业论文的致谢,最该感谢的是AI」。

一所重点高校的女孩楚楚说,不管是课程论文还是毕业论文,使用AI几乎成了学校里「公开的秘密」。

平日,期末考试周几乎是一个学期里最难熬的阶段,一周时间里要考几门试,同时要交大概三四篇、总数两万字以上的论文。「比如一篇6000字的作业,从零开始一篇一篇查论文,一点一点去写,对我来说是可行的,但对时间来说是不可行的,我需要更高效的产出方式。」楚楚说。

她最早接触到AI是在去年,同学们聚在一起闲聊,她感慨论文写得很痛苦。一旁的同学推荐了ChatGPT,说「GPT让我效率倍增」,她尝试着用了用,发现很高效,一路摸索着找到了适合自己的国产AI软件。

楚楚说,AI能帮人写一个几百字的小东西,但想要完成一篇完整的文章,它只能帮人在某些步骤上节省时间。大多时候,她拿AI当做一个「高级浏览器」使用。

写一篇综述性文章,楚楚往往需要精读十篇论文,再泛读二三十篇。「以往需要三四天时间看资料,真的是人肉在啃,看得我头都大了」,现在这个工作由AI替代,直接筛选出最有用的资料,同时,把一篇论文的PDF上传,就能迅速生成论文的框架和提炼后的内容,这样便可以跳读,而不必读完整篇论文了。如今,前期的阅读时间有两个小时就够了。

阅读完成后,楚楚会将筛选出的有效资料和自己生发出的灵感一起提供给AI,由它生成一个文章框架;紧接着为这个框架增添血肉,针对更详细的小标题,问AI能找到哪些资料,最后结合自己的想法补充完整,一篇文章的底稿就完成了。

「它生成的不是最出色的,但却是最保险的。」楚楚说。只不过,AI用多了,发现有时候自己动手写的东西也一股「AI味儿」——官方的、书面的语言风格,以及习惯性的「总分」结构。

img

「渡劫」

高校教师们也逐渐感受到了AI的入侵。在社交媒体上,一边是学生们的使用攻略,另一边也不乏老师们的观察。

有的老师质疑,「好多表达很奇怪,真的在想是不是AI生成的」;也有人分析,「有位学生用AI写的,是特别拙劣一眼就能看出的程度,比如国内外研究现状一篇论文都没有,都是大话套话,研究建议提的都是跟自己研究一点关系没有的空话」 ;有的老师感慨,「每年带毕业论文都感觉在渡劫,抄袭、AI、拼凑,自以为不露痕迹」……

毕业论文的字里行间弥漫着浓浓的「AI味儿」,越来越难闻到「人味儿」。是很多老师共同的感受。

中国政法大学人文学院的老师王敬雅发现,由AI生成的论文最大的特点,就是容易出现「假大空的车轱辘话」,给出一个论点,得到三个分论点;拿其中的分论点追问,再次得到三个分论点。但往往没有什么研究意义。

王敬雅平时和同事们交流时,大家还提起,如今马克思主义学院成了AI的「重灾区」,其他专业的作业、论文也同样,越是标准化、程式化的内容,学生越容易用AI替代完成。

像王敬雅老师遇到的那样,在一所双一流高校任教的李欣总结,从论文的写作风格就能「闻到AI味儿」——往往是结构很完整,语言很通顺,内容也面面俱到,但到了该深入论证进去的部分,始终停留在表面,反复缠绕、涂抹。

李欣说,以前批改论文,看到语句不通的、使用接近学生本人平时说话习惯但不符合学术规范用语的,会感到生气,但现在她看到,第一反应是开心,「至少说明是自己写的」。

论文致谢的部分往往是偏感性、有「人味儿」的内容,但现实情况是,连需要真诚、走心的这部分,很多学生都要找AI代劳,只留下一些官方的、空洞的文字。

img

李欣的一位同事遇到过类似的情况,看到学生的论文致谢很简单、敷衍,让其回去重写这部分,没想到最终交上来的还是AI帮写的,后来学生坦言,直接询问了「如何感谢老师」、「如何感谢同学」。

由AI操控的论文,致命的问题不只是鲜有独立思想、新的观点,对学术、事实也缺乏基本的尊重。

李欣的一个学生,撰写的论文关于某一类视频的传播策略,在「研究现状」部分,学生写:目前对这一主题的研究相对空白,没有相关文献。但一直看到最后,李欣发现学生还是列了整整十个参考文献,不仅和前述的「研究现状」矛盾,这些文献名称本身也过于相似:时间全部为2023年,题目中全部包含着共同的关键词,且每一篇文章都是双作者,以「XX&XX」的格式排列得整整齐齐。

李欣察觉到异常,拎出其中一篇去搜索。在知网搜,文章不存在;在浏览器搜,同样搜不到。她逐一搜索了这十篇,全部是同样的结果。这才意识到,原来全是围绕关键词,由AI编撰的——这十个参考文献,全是假的。

王敬雅说,语言逻辑类软件的工作原理,是根据语言构建信息,但不做事实检验,所以会有「胡编乱造」的风险。她所在的历史领域,AI也可能「编」史实,比如说「刘半农是中国近代的女性革命家」。

所以,在布置课程作业时,她会给学生「打预防针」:AI会编造一些事实性的内容,有的以本科生的知识储备或许看不出来,但老师一眼就能看出来。

北京外国语大学教师侯毅凌也曾发布微博:给研究生毕业论文开题时,一位组里的同事面色凝重地说,我今天会得罪人,但我不得不把这事情说出来。(对着6位学生)我把你们每个人的电子版的开题报告都用AI内容检测工具过了一遍,结果有的AI生成内容高达80%!我和另一位同事不由一惊,一眼看过去,学生们的脸色也变了,躲避着我们的目光。让人愁啊,那诱惑叫学生怎么抵制啊。

但无论如何,浪潮已经来了。

img

「玄学」

国家感知到了这股浪潮。2023年8月28日,我国学位法草案提请十四届全国人大常委会审议,对利用人工智能代写学位论文等行为,规定了相应的法律责任。其中明确,用AI代写学位论文属于学术不端行为,若是学生,或被撤销学位证。

今年春天,也陆续有高校发布了关于AI在论文写作中的规范。天津科技大学对「生成式AI检测结果超过40%」的学生发出警示,并要求自查自纠;湖北大学本科生院通知,在本科毕业论文审核过程中,试行加入对论文使用生成式AI风险情况的检测;福州大学称,对2024届本科论文进行AI代写的检测,并以此作为评奖评优的参考依据……

周冉所在的学院,规定AI率不能超过30%,她的论文指导老师提出了更严格的要求,不能超过20%。在检测之前,她有点忐忑,自己的论文里有不少来自AI的内容,万一数值太高,只能花工夫再和论文死磕一轮了。但没想到的是,显示在眼前的数字只有5%左右,她想,可能和自己没有完全复制AI提供的内容有关。

在很多学生眼里,AI率检测就是门「玄学」。明明用了的,很可能不高;明明没用的,很可能挺高。周冉的情况属于前者,新闻与传播专业的学生陈露则遇到了后一种情况。

刚刚过去的上半年,是陈露的大二下学期。她上了一门网络与新媒体课,老师对期末课程论文的要求很严格,一切按照毕业论文的标准来,要格式规范,也要查重。

临交作业前,陈露说,或许是考虑到AI率检测在将来会是一种趋势,老师突然通知,要求学生提交论文时要附带AIGC检测报告,且数据不得超过15%。

陈露将论文上传到老师要求的网站,没想到一篇完全纯人工走心写完的论文,被检测出AI率超过了30%。那些被标红标黄的段落或者句子,是她自己逐字敲出来的。

在社交媒体上,很多人在讲述类似的遭遇。比如在毕业前,接到学校关于查AI率的通知,学生将自己写作的论文上传到网站,最终却得到了一个高出学校要求的结果——「一个字一个字手打,被确诊AI」。

没人知道AI检测的具体逻辑是什么,也没有任何申诉的渠道,毕业在即,事关能否顺利毕业,大家只能去逐字改写那些明明是自己写的,却被AI识别成AI所为的文字。

陈露也经历了同样的情绪转变,由惊讶到无语,又到无可奈何。最后只能面对。

AI率是门玄学,降AI率同样是玄学。

陈露去网上看攻略,看到不少网友在分享建议,比如:暴露一些「人」的缺点,例如让语句不那么通顺,或是多一些口语化、接地气的内容——尽管这和论文本身的要求是相悖的。

还有人说,自己把「被判AI」的段落转换成了爱沙尼亚语,然后再转换成中文,就通过了。

陈露没有尝试,自己花了心思写的论文,再亲自弄成破碎、杂乱的样子,总归有点下不去手。

其实,在网上,这样的帖子有很多,但里面混杂着个人的建议和攻略,以及各种广告。在小红书平台,有人贴出醒目的招揽:「AI率从87%→2%,我是怎么做到的?」从简介中能看出,降AI率,用的也是AI工具,「一键成文」,但在评论里,发帖人则说出了「打折券」、「教程」的字样。

陈露也遇到过,网友热情分享一款可以降AI率的软件,她按照对方提供的步骤操作,最后发现软件需要付费。陈露也尝试过一些免费软件,发现并不好用,逻辑被打破,句子被改得七零八落,很多甚至都不通顺了,只好放弃。

用AI写论文,用AI检测论文的AI率,再用AI把AI率降下去。同学之间开玩笑说,世界像个巨大的机器人。 

img

战争

在学业最紧的时期,降AI率无异于一场战争。

那段时间恰逢考试周,陈露要一边备考,一边给自己的课程论文降AI率。网站每天提供一次免费检测机会,每天早上起床,她的第一件事就是登录网站,上传论文,检测,然后用这一天的空余时间,来和那些标红标黄的句子搏斗。

不止是她,全宿舍四个人,AI率全都超了,大家每天钉在各自的椅子上,空气里回荡着吐槽的声音。去考试的路上遇到同学,打招呼的方式都变成了:降下来了吗?

但更让陈露痛苦的是,室友确实使用了AI,也检测出了60%多的AI率,但没多久就降下去了;自己完全没有用,不仅被测出30%,还迟迟降不下去。不仅如此,中间有段时间,甚至还「不降反升」了。「精神状态」屡遭打击之后,她跑去网上发帖吐槽:我是什么AI吗?配图是三张检测报告,数据从28.5%到26.41%,又到27.63%。

发布动态后,她收到了一些来自网友的建议,同时也收到了一些「问候」:需要人工降吗?她发现,如今已经衍生出了人工降AI率这种新「工作」。

img

正在读大学的男生卢凯,给不少参与这场战争的人做过「外援」。如今,他就在用业余时间靠帮别人降AI率赚外快。四五月份是他最忙的时候,临近答辩,几乎每天都有人「下单」。

卢凯的工作流程是,先由对方发来AI检测报告,然后根据「疑似AI生成文字」字数定价(每千字收费30到40元),对方支付定金,卢凯将被标注的句子重新改写,完成后重新进行AI率检测,达到标准后截图报告给对方,支付尾款,发送修改后的论文。如果有人介绍别的同学过来,卢凯会发红包致谢。

过去几个月里,卢凯的订单有百余元的,更常见的费用在400元左右。他接过最「艰巨」的一单,是一篇一万余字的文章,疑似AIGC占全文比达到88%。

明明是自己写的文章,被判定为疑似AI,还要把数据降低下去。陈露不想为这样一件荒谬的事情付费,但又不得不面对,最终只能继续自己「降」。

后来,她慢慢总结了一些有效的办法,比如:去掉每小段前的总结,忌模式化的总分结构;多变换句式,避免重复词语;一定要给句子加主语;别用太多逗号,多用句号断句,多分段;短句变长句,「首先其次」变「其一其二」,「和」变「与、并且、以及、等」……

尽管只是一篇课程论文,但因为老师要求严格,陈露也足够重视,前期她在它身上花了不少功夫:查资料、写作、修改润色,每个环节都尽了心。过程中时间和精力都花了不少,但文章肉眼可见地变好了,也就觉得「值了」。但降AI率的那几天,她每天都在怀疑人生,因为明知道在做的事情毫无意义,却又不得不做。

到第九个早上,登录网站,上传论文,检测。跳出来的数据终于降到了老师规定的范围内。陈露没有丝毫成就感也并不开心,只觉得如释重负,「一个烫手山芋终于扔了」。

img

退化

AI来势汹汹,但迎接它的人还处于无序和探索中。

有的学生得知学校查AI率,于是努力降下去;有的学校不查,但学生又担心查,怕影响毕业,每天四处打探消息。

新华财经曾报道,为避免AI写作的影响,一些国外高校正在减少课后完成的开放式作业,更加强调课堂作业、手写论文、小组作业和口试。

国内的高校教师们也不得不面对这个新的挑战。重新思考和调整自己的训练方式和考核方式,哪些是有意义的,哪些是没有意义的,怎么考察过程而非结果。

围绕AI和毕业论文的各种讨论中,有学生在社交平台吐槽:本科生写论文,无非是制造学术垃圾;不要指望我一个小小本科生写出多么高深多么有学术意义的东西;AI写的都比我写的好。

AI来袭后,李欣还特意和同行讨论过。

如果说,一个学生对一个话题是有想法的,但不会表达、说不清楚,借助一款软件来表达更清楚,这样可不可以?

——但想了想,她还是觉得,把思考的过程和结果用大家都能理解的语言表达清楚,是一个受过高等教育的人应当具备的能力之一,也是教育应该培养的目标之一。

如果说,学生把AI当做高级浏览器使用,只是借助它来检索文献、提炼重点,减轻自己看文献的压力,这样可不可以?

——李欣也想过,最终的结论是,看文献过程中寻找和激发自己的兴趣点也很重要,是机器无法替代的,同时,在海量资料中筛选自己需要的信息,在各种论述中寻找自己的研究线索,同样是一种研究能力的培养。

「传统手艺都还好用,只是效率问题。一旦有一个更方便的办法,就回不去了,只会追求越来越高效,越来越方便,而这个过程中的损失很难去评估。」李欣说。

李欣从教15年了,关于技术对人的影响,始终保持着觉察。

她回忆,以前上课的时候,偶尔还需要维持课堂秩序,因为学生之间会小声聊天,讲台上的老师则需要在课程中加一些学生感兴趣的话题,来吸引他们的注意力。而现在,底下常常一片死寂,无论上课下课,几乎都没人说话,大家埋头在手机和平板里,即使是讲段子也很难吸引学生的注意了,让他们「抬头」成了很多老师的难题。

同时正在发生的是,在互联网和智能手机环境下成长的一代,有的学生已经很难用一个完整的句子表达一个完整的想法了,「很多时候都是在蹦词、蹦短语」。更别说一篇毕业论文,用一万字左右的篇幅,分几个部分,有逻辑地论证、推理,然后把一个问题讲清楚,「有的学生已经做不到了」。

前不久,李欣读到一篇关于宿舍投毒案的深度报道,在事件之外,还探讨了关于人际关系等等话题。但她注意到,文章在社交媒体传播时,很多年轻人评论:文章怎么这么长?到底是不是他干的?「大家只想要一个直给的结论,但没有能力和耐心去理解一个相对复杂的事情,和中间关于人性细微幽暗的部分。」

李欣记得,前段时间她的同事,一位硕士生导师,在改学生论文时写了大段大段的批注。后来学生改了一版论文发来,同事发现很多地方没有改动。学生很坦诚,说:「老师你写得太多了,我看不完。」

「思维方式和思考能力是需要训练的,如果不用也会退化,而毕业论文,在一定意义上就是对逻辑能力和思考能力的训练和检验。」李欣认为。

而碎片化的侵袭还在进行中,AI又来了。AI的能力在一点点进步,而人的能力不能越来越退化。

img

应对

必须要有应对之策,而且越来越迫切。新技术不会停止脚步,科技的发展无法阻挡,李欣说,作为老师,她还在尝试和探索,如何了解它、应用它。

今年学院有一笔针对硬件设备的经费,由各个专业申报。李欣想给每个老师申请一个文心一言的账号,让老师们先了解,以便更好地引导学生。但后来,申请还是被砍掉了——一台电脑或是一台摄像机可以,但一个虚拟账号,一旦失效,验收时无法证明这笔钱花在了哪里。

上海交通大学的教授赵思渊也和同行聊起过,或许在将来,一些课程将会不得不回归传统的考察方式,比如以随堂测验、闭卷考试的方式来观察学生的学习进度,「有些考核内容在课后的确很难知道学生是如何完成的」。

对于AI的使用,从事多年数字人文研究的赵思渊持更积极、开放的态度。

「如果一个人想要应付一件事,他能找到一万种方法。」赵思渊说,在没有AI的年代,想要敷衍论文的人也可以找「枪手」,「每个时代都会有人试图投机取巧以实现目的,这是亘古不变的社会现象,只是在不同技术环境下,用不同的技术手段实现。」而如今在新的技术环境之下,教师的引导作用也就显得更重要。

这些年,赵思渊在校内开设一门关于论文写作的课程。2022年底,ChatGPT横空出世,他意识到这一定会显著改变学术写作的工作方式,所以从2023年起,会在每学期的课程中专门拿出一节课来,从技能角度和伦理角度,和学生一起探讨如何恰当使用AI。

过去的时间里,赵思渊尝试和探索了一些关于AI的应用场景。他觉得,AI可以代替人完成一些低难度、重复性的工作,比如制作表格、PPT;在处理程式化、标准化的文本方面也可以提供帮助,尤其在发表英文论文时,赵思渊曾读过一个实验室学者写的文章,对方说,如今用GPT做论文润色的成本大概0.3美分,但过去可能要付几百美元做这件事。

但同时,该读的史料还是要读,该做的田野调研还是要做,包括在电脑里跑数据、在桌前做实验,永远是人要做、该做的事。「人工智能不能替代对真实世界的真实性的检验。」

「技术带来的变化,是每一代人都要面对的。」赵思渊说,但只是训练方式在发生变化,工具永远是学术训练的辅助,文章写得好不好,不取决于用什么样的工具,取决于研究者是否想清楚了自己的研究问题。

中国政法大学人文学院教师王敬雅也觉得,目前AI可以替代一部分「手」的工作,但永远无法代替「脑子」。

以ChatGPT为主的AI产品,背后的语言生成机制,是依据已有语料精炼出的概率模型,换句话说,它们可以利用已有的知识来回答问题,但是很难创造出全新的内容,提出新的想法和观点。王敬雅说,而最珍贵的,往往是「跳」的那一下。

什么是「跳」的那一下?她举例了田余庆先生的经典作品《东晋门阀政治》。

在这本书中,作者梳理了大量史料,构建了一个庞大的关系网——豪强大族的交替,他们和皇权的关系,他们怎么支持某个皇帝,怎么进行家族联姻,怎么实现自己的家族利益。

王敬雅说,事实上,这样的关系网在如今是可以借助技术实现的,比如在新兴学科「数字人文」领域,有非常便捷的资料库,「谁是谁的姻亲,谁是谁的门生,谁和谁祖籍相同,很多细节是人容易忽略的,但数据可以做到,可以给研究提供帮助。」王敬雅说,但是,在构建关系网之后,田余庆先生基于对文化的理解、对政治的敏感性,实现了那珍贵的一「跳」:分析了当时的门阀世家如何以自己的关系网络,影响当时的政治格局。

「这是AI做不到的。」

img

(文中周冉、楚楚、李欣、陈露、卢凯为化名)

PicLumen – 免费好用的 AI 图片生成与编辑工具,支持免费商用

By: Anonymous
13 August 2024 at 13:26

DUN.IM BLOG

DUN.IM BLOG

PicLumen 提供一整套由 人工技术驱动的照片编辑和生成,用户在注册后从控制台输入提示词生成各种图片,选择不同的图片模型、长宽比、画质或进行各种细项的微调,此外,PicLumen 还整合 AI 抠图和编辑工具,可以说是非常先进、快速且方便易用的图片生成功能。

AI 生成的图片素材可自由使用于个人和商业用途,无需额外付费购买授权,生成的图片相当真实,任何类型的图片都能制作生成,不过要注意你只能将自己生成的图片使用于商业用途,其他人的图片可用作参考,但是不允许直接使用〔稍作修改即可〕。

如同大多数的 AI 图片生成器服务,PicLumen 也提供「探索」功能,查看其他用户生成的图片素材,也可以获取他们使用的提示词、反向提示词和各项参数,或是对图片进行「重混」〔Remix〕,如果没有什么灵感的话不妨在探索页面查看其他用户所使用的提示词和相关参数。

依照 PicLumen 支持中心提供的页面所述,PicLumen 生成的图片可以用于个人和商业用途,但要注意以下几点重要事项:

Create your unlimited AI images with PicLumen's AI image generator. Join the best AI image creator and turn your text to images freely.

进入 PicLumen 后点击首页「Generate for Free」按钮,来到登入注册页面,必须先注册账号才能使用,也可直接以 账户快速登入。

PicLumen – 免费好用的 AI 图片生成与编辑工具,支持免费商用

登入后会看到「探索」页面,也就是其他用户以 PicLumen AI 生成的图片,点击后会看到提示词和相关信息。

如果要自己生成图片,点击左上角「Create」进入图片制作工具。

生成器上方有几个可供调整的选项,包括 AI 图片模型、图片长宽比、画质和单次生成图片数〔最多四张〕。

长宽比〔Aspect Ratio〕功能很好用,预先选择要使用的图片比例后就不用后续编辑裁切。

将提示词输入后点击右边的「Generate」就能开始生成图片,速度很快,不到一分钟就会出现结果。

提示词右上角还有一个选项,可以设置反向提示词、CFG Scale、Steps 和 Seed。

PicLumen 一次可生成 1-4 张图片结果,看起来会有点像〔但又不太一样〕,如果不满意可微调提示词或切换为不同的图片 AI 模型,重新生成新的图片。

点击图片后会进入详细资料页面,从中间的按钮就能图片、AI 抠图或 AI 放大〔如下图红色圈选处〕。

PicLumen 还能将图片直接以 AI 去除背景,省去手动抠图的步骤,去除的效果也很优异!

前面有提到 PicLumen 本身也能查看其他人生成的图片,点击左上角「Explore」就能探索更多图片,很厉害的是利用 PicLumen 可以制作出各种风格的素材,从详细信息页面就能看到提示词和相关选项,稍微研究一下、修改后也能制作出很专业的图片哦!

在探索页面点击其他用户制作的 AI 图片,右下角会有一个「Remix」按钮能快速将相关信息带入 AI 生成器。

对话理想智驾团队:什么是自动驾驶的「终极答案」?

By: 刘学文
8 August 2024 at 11:00

2013 年的时候,自动驾驶还是一个非常前沿和性感的概念,一如当下的 AGI,前几年的元宇宙,在互联网公司如火如荼的时代,腾讯每年都会举办一场 WE 大会,来聊一聊那一些星辰大海的话题,比如基因编辑、脑机接口、宇宙探索等等。

我第一次接触「自动驾驶」的概念,就是在 2013 年第一届腾讯 WE 大会上,当时有嘉宾抛出了如下观点:

  • 技术问题不难解决,难以解决的是法律问题。
  • 在十年之内,消费者是可以买到无人驾驶汽车的。
  • 如果机器它做的判断正确率达到 95%,那可能还是要比人好、比人快。

十年之期已到,这些话算是大致应验,当萝卜快跑已经在多个城市大规模上路,主流新势力品牌的高端车型具备高阶智能驾驶能力,以及特斯拉 FSD V12 版本的推送,还有特斯拉 RoboTaxi 即将发布,自动驾驶技术正从 L2+ 级别往 L4 级别迈进,「车坐不开」变得并不遥远。

等一下,当我拿出这张图,阁下该如何应对?

这是广州城区日常交通状况的一个普通场景:机动车道不仅跑着海量乱窜的两轮电瓶车,甚至龟速的电动轮椅也跑在机动车道上。

此时,智能驾驶的优势和挑战就一起体现:优势是智能驾驶没有情绪,不会生气不会路怒;挑战是龟速电动轮椅和乱窜侵入机动车道的两轮电瓶车对于智能驾驶来说,是很不好预测和处理的场景。

实际上,十年前预测自动驾驶发展大多基于一个逻辑:路上的车和人都遵守交规,红灯停绿灯行,机动车道不会出现害人精。

但当厂商们交付带智能驾驶功能的汽车到消费者手上时,汽车面对的情况就是上面这张图:马路是我家,交规去 TM。

经典智驾逻辑:「感知 — 规划 — 控制」

当下主流的智能驾驶方案,无论是高精地图方案,还是无图方案,都依赖于大量工程师根据各种各样的道路场景去编写规则,以期实现穷举所有道路状况和对应措施,实现尽可能的智能驾驶行为。

不过现实道路情况不仅错综复杂,不可能被穷举,同时现实世界也在不断变化,随时有新的道路场景出现。因而,此前智能驾驶研发是一场「无限战争」。

比如说,环岛进出这个场景,在 7 月份之前,还没有几家车企能够攻克,因为场景复杂,感知受限,规划决策困难。

简单来讲,在特斯拉 FSD V12 版本采用「端到端」技术方案之前,几乎所有的智驾方案都可以归结为「感知 Perception — 规划 Planning — 控制 Control」三个大模块,这一套流程覆盖各种各样的场景,比如经典的三分法:高速场景,城区场景和泊车场景。

这几个大场景又可以细分细分再细分,智驾工程师们针对场景来编写规则代码,汽车的激光雷达、毫米波雷达和摄像头还有定位系统一起协作,感知和记录道路、环境和位置信息,然后 BEV(Birds-Eyes-View)技术或者 OCC(Occupancy Network)技术或者其他的技术来把这些传感器获取的信息形成能被智驾系统理解的「真实世界的虚拟投影」,智驾系统再根据这种「世界投影」规划出合理的行进路线和运动规划,进而得出控制决策,最后汽车响应决策,就形成了「减速,左侧变向,提前走左侧掉头车道,紧急刹车躲避路中间乱入的两轮电瓶车,继续前进,调头」这种智能驾驶行为。

▲ 极越汽车 OCC 占用网络示意图

如果智能驾驶使用到了 OCC 占用网络技术,那么我们就可以打个比方,在智驾系统里,外部世界就像《我的世界》那样,是由一个个方块(体素)组成的,如果道路前方一片坦途,那理论上路上就没有方块,车就可以大胆往前走,如果前方有一个静止的小方块,那可能是雪糕桶跑到路中间了,如果右侧有缓慢移动的长条,可能就是行人,如果是左边车道快速移动的超大长方形块,那可能是大货车……

在这个「感知 — 规划(决策)— 控制」的大逻辑下,不管是此前的基于高精地图的方案,还是后续更依赖于多种传感器融合和高本地算力的无图 NOA(自动导航辅助驾驶)方案,都没有脱离这个基本逻辑,研发的框架和工程师的工作,也都是在各个模块里各司其职。

直到,「端到端」的出现。

什么是「端到端」?

印象中有三次人工智能的标志性事件,引起了广泛的社会讨论。

第一次是 1997 年 IBM 的国际象棋机器人「深蓝」战胜了国际象棋大师卡斯帕罗夫,但站在如今的时间点看「深蓝」,就会觉得它并非那么智能,它只不过是存储了巨量的开局和残局棋谱,然后搭配高效的搜索算法和评估体系,选出最合适的下法。

也就是说,深蓝在下棋的时候,中间的决策对于人类来说是可解释的,逻辑清晰的。

接着就是在比国际象棋更复杂的围棋领域,DeepMind 的 AlphaGo 赢了李世石和柯洁,宣布人工智能的水平远超所有人类棋手。

AlphaGo 的逻辑不是搜索匹配棋谱,毕竟围棋的棋盘格子数和棋子数量远超国际象棋,蕴含的可能性太高,现在的计算机没法算出其中所有的可能性。但基于神经网络的深度学习,AlphaGo 一来可以自我学习自我进化,二来可以知晓下一步怎么下更接近胜利,对于人类来说,AlphaGo 的下法和人类思考逻辑完全不同,但中间发生了什么,人工智能专家是知晓其逻辑的。

接着就是 ChatGPT 的出现,大语言模型技术在输入和输出之间,存在着人工智能专家都难以解释的「黑盒子」,人类无法准确解释问问题和 ChatGPT 回答之间,具体发生了什么。

以此做个比喻,智能驾驶技术此前基于「感知 — 规划(决策)— 控制」的研发逻辑,类似于 AlphaGo ,AlphaGo 的卷积神经网络(CNNs)能够处理棋盘的二维结构,提取空间特征;而价值网络和策略网络能够提供规划和决策,此外还有强化学习和蒙特卡洛树搜索技术能优化决策。

▲ 理想智驾端到端架构图

而智能驾驶技术里的「端到端」,就类似于 ChatGPT 背后的大语言模型技术,从原始传感器数据(如摄像头、毫米波雷达、激光雷达等)到最终的控制指令(如加速、刹车、转向等)的全流程处理。当然,现阶段这种直接控车的方式还是太激进,所以像是理想的端到端就只输出轨迹,没到控制,到车辆控制之前还是有很多约束和冗余措施。这种方法的目标是简化系统架构,通过一个单一的神经网络或模型完成整个任务,背后不再依赖海量的场景规则代码,是完全不同的技术方向。

正如大语言模型之前强调的是参数量的大一样,端到端背后的多模态模型也存在这样一个量变产生质变的过程,特斯拉在 FSD V12 上率先使用了端到端技术,马斯克就这么说:

用 100 万个视频切片训练,勉强够用;200 万个,稍好一些;300 万个,就会感到 Wow(惊叹);1000 万个,那就难以置信了。

但经常使用 ChatGPT 或者其他生成式 AI 工具的人就会发现,这些工具并不可靠,经常信誓旦旦地输出错误答案,谓之「幻觉」。

电脑上的 AI 工具瞎回答问题一般没啥灾难性后果,但智能驾驶事关生命安全,一个「端到端」搞定驾驶行为,还需要更多的验证和保险措施,这是个技术问题,更是个工程问题。

对话理想智驾团队:「端到端」才是真正用 AI 做自动驾驶

经历了前面长篇累牍的背景介绍之后,终于可以切入正题:借着采访理想智驾团队的机会,来聊一聊「端到端」如何从理论,到上车?

理想智驾研发副总裁郎咸朋告诉爱范儿和董车会:

我们今年春季战略会上有一个重要反思,就是我们太过于追求竞争,比方说老是盯着华为什么的,它开多少城,它的指标是多少,其实单纯的盯指标,比如说我比华为好一点,或比华为差一点,并不能代表用户真正的需求。

 

回归到用户的开车需求上来看,真正的用户需求不是接管率指标低到多少,用户需要的是智驾像老司机那样去开车,而这种拟人化的需求依靠原来规则化的模块化的研发架构很难实现。但理想内部预研的「端到端」会做得更好。

基于此,在一年之间,理想的智驾技术方案经历了三代调整:从有图到 NPN(神经先验网络)到无图,再到端到端。

郎咸朋这么解释端到端本质上的不同:

端到端它表面上看是一个大模型替代几个小的模型,其实它是一个分水岭,从端到端开始,才是真正地用人工智能的方式来做自动驾驶,前面其实还不是。

因为它是数据驱动的,由算力配合上数据,配合上模型,是高度自动化的自我迭代过程,这个过程迭代的是模型或系统自己的能力。那么之前我们做了什么呢?我们做的都是系统各种各样的功能,上下匝道的功能或过收费站的功能。

功能和能力,是有很大区别的。

但实际上,理想智能驾驶夏季发布会上发布的下一代自动驾驶系统是「端到端+ VLM(视觉语言模型)」双系统方案。

既然前提是要把智驾做得像老司机驾驶,尽可能拟人化,那就得考虑人究竟是怎么做事儿的,这里的理论依据是诺贝尔奖获得者丹尼尔·卡尼曼在《思考,快与慢》中的快慢系统理论:

人的快系统依靠直觉和本能,在 95% 的场景下保持高效率;人的慢系统依靠有意识的分析和思考,介绍 5% 场景的高上限。

理想「端到端+ VLM」双系统里的端到端就是快系统,有日常驾驶场景里快速处理信息的能力,而 VLM 视觉语言模型有面对复杂场景的逻辑思考能力。

这个快系统的究竟有多快呢?

理想智驾技术研发负责人贾鹏说:

现在我们端到端延迟相当于是传感器进来到控制输出 100 多毫秒,不到 200 毫秒,以前分模块大概得到 300 多将近 400 毫秒。

这个慢系统为什么又是必要的呢?

郎咸朋解释说:

我们现在正在探索它(VLM)的一些能力,它至少在刚才说的主路、辅路车道选择这块有一些价值,如果没有它,也不会出安全问题。我们在 L3 级别智能驾驶起主要的支撑作用还是端到端,代表这个人正常的行为下的驾驶能力。

 

但到了 L4 级别智能驾驶一定是 VLM 或者大模型在这里面起到更重要的作用,可能 90% 以上的时间它不起作用,但它起作用这些内容,是决定这个系统到底是 L3 级别还是 L4 级别的一个关键点,VLM 是能真正的能去应对这种未知的场景。

理想并不是一个端到端模型就完事儿,而是采用了更稳妥的双系统方案来覆盖全场景,端到端负责让驾驶行为更拟人,更像老司机,而 VLM 视觉语言模型托住下限,更能拔高上限,有望达到更高级别的自动驾驶。

再深究一下,和原教旨主义的端到端最后还要负责汽车控制不同,理想的端到端其实也没有直接能控车,而是到了输出轨迹这一层级。

贾鹏说:

我们的端到端模型是到了轨迹,轨迹之后加一些安全兜底,因为在模型没有达到上限之前,还是要有一些处理的东西,比如说猛打方向盘这样的事,给他兜掉。

而在实际的智能驾驶过程中,两个系统也是同时工作的,贾鹏具体解释了两个系统如何共同协作:

这俩系统一直都在实时运行,一块跑是端到端,因为模型小一些,它的频率比较高,比如跑个十几赫兹。另外那个模型规模参数量就大的多,是 22 亿参数,目前能跑到大概 3~4 赫兹之间,其实也是一直在跑。

 

VLM 发决策结果给参考点,比如说在 ETC 进高速的时候,其实车很难判断要走哪个道,我要走人工还是走 ETC?这个时候 VLM 也一直都在,如果想去选 ETC 可以走 ETC 这条道,如果想走人工可以走人工这条道,只不过它是把决策结果和参考的轨迹扔给端到端模型,端到端模型推理后,再采用这个信息。

 

其实 VLM 视觉语言模型是个辅助信息,最终的轨迹结果是模型推理的结果,它是有一定概率被采纳的。

为什么端到端能够在智能驾驶领域掀起如此大的浪潮?还是因为它背后巨大的可能性,以及在找「终极答案」上的指向性意义。

简言之,在这套方案上,大家都还远远没有摸到能力的天花板,技术探索和工程实践,进入到了旷野区。

贾鹏进一步解释双系统的原理,以及可能性:

其实人就是双系统,虽然物理结构上并不是那么明确的双系统,但是人的思维方式就是双系统,所以我们当时有一个想法是在端到端的基础上再加一个真正有泛化能力,有逻辑思考能力的一套系统,自然而然就想到了 VLM。

 

虽然 VLM 不直接控车,但是会提供决策。

 

再朝后这套东西怎么发展?可能随着算力的增加,比如特斯拉 FSD 12.3 到 12.5 版本,参数提高了 5 倍,可以支撑足够大的模型。

 

我觉得以后两个趋势,第一是模型规模变大,系统一和系统二现在还是端到端加 VLM 两个模型,这两个模型有可能合一,目前是比较松耦合,将来可以做比较紧耦合的。

 

第二方面也可以借鉴现在多模态模型的大模型发展趋势,它们就朝这种原生多模态走,既能做语言也能做语音,也能做视觉,也能做激光雷达,我觉得这是将来要思考的事情。

 

我们这套范式应该能够支撑我们做到(L4 级自动驾驶),因为在机器人具身智能上我们已经看到它的应用雏形,参考人的思维过程,这套东西可能就是我们心目中想追求的终极答案。

 

终极答案的意思是我们用这套理论和这套框架去做真正的人工智能。

不过在聊终极答案之前,贾鹏解释了为什么只有端到端能够解决「环岛进出」的智驾难题:

如果是分段式的(智驾方案),前面是个感知,要给规控去做各种假设,做个掉头,还得把掉头线拟合出来,不同的路口的掉头还不太一样,曲率都不太一样,所以你很难做到一套代码就可以把所有环岛掉头搞定,种类太多了。

 

关于环岛这件事,也有一个好玩的故事,在我们(模型数据包含)大概 80 万 clips(视频片段)的时候,还过不了环岛,后来突然发现一天我们(喂了)100 万 clips 它自己能过环岛,我觉得是 100 万(视频片段)里头刚好有一些环岛数据放在里面了。

 

模型确实很厉害,你喂了什么数据他就能学会,这是模型的魅力所在,就像 ETC,我觉得如果你开我们现在端到端的版本,会发现其实 ETC 它自己能过,但是问题是它现在不知道我要走哪条道,到底是走 ETC 道还是走人工道,他自己会随便乱选一个,会让你觉得不太安全,我们后面想做的就是 VLM 可以给他这个指引,因为 VLM 是可以理解语文字,理解 LED 指示灯的。

关于端到端理论部分的 What 和 Why,至此也有了大概的轮廓,有了数据和模型之后,就是真正地上车了,也就是 How,这才是真正的大考环节。

▲ 理想汽车制造车间

「训练端到端模型,跟炼丹没什么区别」

郎咸朋给爱范儿和董车会讲了一个训练端到端模型里很离奇的小故事:

今年比较早期的时候,刚开始做项目,我们发现模型训练出来,平时开着还都 ok,但等红灯的时候,车的行为就比较怪异,它总是想变到旁边的车道,我们不知道为什么。

 

后来明白我们在训练端到端模型的时候,删除了很多在红灯之前等待的数据,我们觉得等了几十秒或者一分钟,这样数据没有用。但后来发现这份数据非常重要,它教会了这个模型,有的时候是需要等待的,不是一旦你慢下来就要插空,就要变道。

这个小故事说明了,数据很大程度上决定了模型的质量,但模型的大小是有一定限制的,所以喂哪些数据去训练模型,实际上就是最核心的工作之一。

郎咸朋打了个比喻:

训练端到端模型,跟古代炼丹没什么区别。古代炼火药讲究一硝二磺三木炭,做出来的炸药威力比较大。其他配比,可能也能点个火起来。

不过对于想要训练端到端模型的车厂来说,「炼丹」只是形象地比喻,而非具体的工程落地方法,数据怎么来,怎么选,怎么训练,都是科学问题。

好在理想有一些先天优势,比如车卖得不错,销量在新势力车企里经常位居第一,路面上有 80 多万辆理想汽车在跑,每个月还能新增四五万辆,这些车提供了十几亿公里的数据。

另外,理想很早就意识到数据的重要意义,打造了关于数据的工具链等基础能力,比如理想的后台数据库实现了一段话查找当时,写一句「雨天红灯停止线附近打伞路过的行人」,就能找到相应的数据,这背后是一些云端的小模型,比如数据挖掘模型和场景理解模型。

郎咸朋甚至认为,这些数据库的工具链和基础建设能力,某种意义上(重要性)甚至大于模型的能力,因为没有这些良好的基建和数据,再好的模型也训练不出来。

底层技术方案转向,也意味着工作方式转向,当发现一个 badcase 之后,理想内部的「分诊台」系统里的模型会自动分析这属于哪一类的场景问题,给出「分诊建议」,然后回归到模型训练上来解决问题。

这里也涉及到工作方式的转变,原来解决具体问题的人,现在变成了设计解决问题工具的人。

为了提高「诊疗」效率,理想内部会同时训练多个模型,这个过程又回到了「炼丹」的概念,贾鹏解释说:

模型训练主要两个方面,一是数据的配方,类似的场景到底要加多少,能把 case 解决掉,这是一个 know-how,不同的场景对数据的要求不一样。第二点是模型的超参,加入新的数据后,模型参数如何调整,一般情况下有 5-6 版模型会同时提交训练,然后看哪一版解决了问题,同时得分也高。

同时训练多个模型,对数据库的基础建设提出了要求,也对算力有巨大要求,这个时候就该「钞能力」上场。这里理想的优势依旧是车卖得多且贵,有这新势力车企里最好的营收和正向现金流,能够支撑背后巨大的算力支出。

郎咸朋说:

我们预计,如果做到 L3 和 L4 自动驾驶,一年的训练算力花销得到 10 亿美金,将来我们拼的就是算力和数据,背后拼的是钱,还是盈利能力。

当端到端模型替代了传统智驾逻辑「感知 — 规划 — 控制」里的大部分工作时,理想相关智驾团队的最花力气的工作也集中在了「一头一尾」,头是数据,尾是验证。

除了端到端模型和 VLM 视觉语言模型这两个快慢系统之外,理想内部还有一个系统三,称之为试验模型或者世界模型,本质上这是个考试系统,来考核整个智驾系统的水平和安全性。

郎咸朋把这个考试系统比喻成三个题库的集合:

  • 真题库:人在路上驾驶的正确行为
  • 错题库:正常的测试和开车过程中,用户的接管,用户的退出等行为
  • 模拟题:根据所有的数据,举一反三,针对特定重复问题,生成虚拟类似场景测试

比如前面提到,想要智驾开车拟人化,像老司机,那么这个真题库的驾驶行为,就得是老司机的驾驶行为,理想试验模型里的「真题库」选取了内部评分 90 分以上的司机驾驶行为,这个群体只占理想汽车司机里 3% 的比例,会看他们驾驶的平顺性,驾驶的危险程度等等,比如司机经常开出 AEB 自动紧急刹车,那他的驾驶行为就太激进了。

经过了试验模型的大量测试之后,还会有一个「早鸟用户」的测试版本,这就是有上千辆用户车获得新的智驾系统版本,以无感知的「影子模式」在真实场景和道路里去做真实的验证和测试,这比任何车厂的测试车队规模都大。

这些千人早鸟用户测试验证的数据,又会自动回传,自动分析,自动迭代训练,进行新一轮的测试和交付。

也就是说,数据获取,模型训练,试验考试和用户交付是一个充满了自动化循环逻辑的过程,人的参与度其实非常少。

按照郎咸朋和贾鹏说法,上到「端到端+VLM」之后,行业到了一个接近无人区的地方,这里既有暂时看不到这套系统能力上限的兴奋感,当然也有必须要务实的部分,比如目前只让端到端模型输出轨迹,轨迹之后的控制还需要安全兜底,再比如关于算力的思考:之前需要堆工程师数量,往后得堆显卡的数量。

没有算力,都是空想。

没有利润,算力也是空想。

再聊一下「终极答案」:理想,特斯拉和 OpenAI 的殊途同归

正如马斯克一再强调「特斯拉是一家 AI 和机器人公司,而不仅是一家汽车公司」一样,在采访中,郎咸朋和贾鹏也把理想汽车比喻成装在轮子上的机器人,也聊到了人形机器人等具身智能载体在用「端到端+VLM」的框架的应用雏形。

特斯拉的 Optimus 机器人承载了马斯克更大的愿景,当然也是 FSD 的另一种载体,因为 Optimus 机器人释放出的信息还相对较少,但它确实拥有「端到端」模型,依靠本机的摄像头和传感器输入环境信息,然后直接输出关节控制序列。

另外,OpenAI 和英伟达投资的 Figure 机器人刚刚发布了旗下的第二款人形机器人 Figure 02,并声称这是「世界上最先进的 AI 硬件」,其中 VLM 视觉语言模型是其重要能力。Figure 02 的头部、前躯干和后躯干各配备六个 RGB 摄像头,能够通过其 AI 驱动的视觉系统来感知和理解物理世界。在官方的描述中,Figure 02「具有超人的视觉」。

当然,它自然也有 OpenAI 提供的大语言模型来和人类交流。

颇为类似的是,Optimus 机器人在特斯拉的车厂里开始打工(也是训练),而 Figure 02 也在宝马的车厂里进行测试和训练,都能够完成一些简单的工作,并且都在不断进化。

虽然理想汽车,特斯拉 Optimus 机器人以及 Figure 机器人看起来相关性不大,但一旦深究起来,底层的技术逻辑,以及关于 AI 的思考,确实殊途同归,这也是「终极答案」的由来。

我们谈了几十年的人工智能,重点终于从人工,转移到了智能。

在命运的塑料大棚里,每棵被喷了过多农药的白菜心中,都曾经有一个成为无公害有机蔬菜的梦想。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


手机上能跑的 GPT-4V!面壁发布端侧最强多模态小钢炮 2.6,实时视频理解首次上端

By: 莫崇宇
6 August 2024 at 19:02

过去半年,大模型的风向悄然变迁,与以往不断追求规模的趋势不同,更小更强的端侧模型成了当下的香饽饽。

前不久,在遭斯坦福大学 AI 团队抄袭后,国内头部大模型厂商面壁智能狠狠地刷了一波存在感,也让国内外见识到了这家公司在 AI 领域的不凡实力。

今天,面壁智能重磅上新了「小钢炮」MiniCPM-V 2.6 模型,再次将端侧多模态能力提升到了一个新的高度。

尽管该模型仅有 8B 参数,但它在 20B 以下单图、多图、视频理解 取得了 3 SOTA 成绩,一举将端侧 AI 多模态能力拉升至全面对标超越 GPT-4V 水平。

简单划重点:

  • 首次在端侧实现单图、多图、视频理解等多模态核心能力全面超越 GPT-4V,单图理解越级比肩 Gemini 1.5 Pro 和 GPT-4o mini。
  • 引入实时视频理解、多图联合、ICL 视觉学习、OCR 等,开启端侧模型真实世界观察与学习。
  • 小钢炮 2.6 取得了两倍于 GPT-4o 的单 token 编码像素密度。视觉 token 相比上一代下降 30% ,比同类模型低 75%。
  • 量化后端侧内存仅占 6 GB;端侧推理速度高达 18 tokens/s,相比上代模型快 33%。并且发布即支持 llama.cpp、ollama、vllm 推理;且支持多种语言。

「长眼睛」的实时视频理解首次上端,让智能设备更懂你

先来感受一下 MiniCPM-V 2.6 模型的实际演示效果。

视频中显示,在多模态能力的加持下,MiniCPM-V 2.6 犹如长了一双「眼睛」,能够实时看到真实世界。在开启飞行模式的情况下,搭载该模型的端侧设备能够精准地识别面壁智能公司的室内场景。

从面壁智能公司的 Logo、到植物、办公桌、饮水机等物品,MiniCPM-V 2.6 的物品识别能力表现得毫无压力,甚至可以说是游刃有余。

面对小票繁多的记账或报销流程,只需拍照上传至 MiniCPM-V 2.6,它不仅能够识别出每张小票的具体金额,还能计算出总和,极大地简化了整个流程。

得益于其先进的 OCR 和 CoT(思维链)技术,MiniCPM-V 2.6 不仅能准确捕捉小票上的金额,还能以清晰简洁的方式呈现解题过程:

对于「太长不看」的视频,现在你可以直接让该模型为你提炼关键信息。

比如面对一段 1 分钟左右的天气预报视频,MiniCPM-V 2.6 可以在无声的条件下,用「肉眼」识别并描述不同城市的具体天气情况。

MiniCPM-V 2.6 的端侧多模态复杂推理能力也有所「长进」。

以 GPT-4V 经典的官方演示——调整自行车车座为例,MiniCPM-V 2.6 能通过多轮对话清晰指导用户调低自行车车座,并根据说明书和工具箱推荐合适的工具。

又或者, 2G 网速的你看不懂年轻人广为传播的梗图,那不妨让其耐心地给你解释梗图背后的槽点。

甚至它还能比人类更有幽默细胞,捕捉到梗图中的潜台词。作为程序员的你也许看着这张图,笑着笑着就哭了。

以小胜大,MiniCPM-V 2.6 号称三合一最强端侧多模态

以小博大,是端侧模型的核心竞争力。

据面壁智能官方介绍,在 MiniCPM-V 2.6 的知识压缩率方面,MiniCPM-V 2.6 取得了两倍于 GPT-4o 的最高多模态大模型像素密度(Token Density)。

Token Density = 编码像素数量 / 视觉 token 数量,是指单个 token 承载的像素密度即图像信息密度,直接决定了多模态模型实际的运行效率,数值越大,模型运行效率越高。

闭源模型的 Token Density 由 API 收费方式估算得到。结果表明 MiniCPM-V 2.6 是所有多模态模型中 Token Density 最高的,延续了其一贯的极致高效特点。

从分享的基准测试结果来看, MiniCPM-V 2.6 在综合评测权威平台 OpenCompass 上,单图理解能力越级超越 Gemini 1.5 Pro 和 GPT-4o mini。

在多图评测平台 Mantis-Eval 榜单上,MiniCPM-V 2.6 多图联合理解能力实现开源模型 SOTA ,且超越 GPT-4V。在视频评测平台 Video-MME 榜单上,MiniCPM-V 2.6 的视频理解能力达到端侧 SOTA,超越 GPT-4V。

▲OpenCompass | Mantis-Eval | Video-MME 榜单成绩

此外,MiniCPM-V 2.6 OCR 性能在 OCRBench 上实现开源+闭源模型 SOTA。

在幻觉评测榜单 Object HalBench 上,MiniCPM-V 2.6 的幻觉水平(幻觉率越低越好)也都优于 GPT-4o、GPT-4V、Claude 3.5 Sonnet 等众多商用模型。

▲Obiect HalBench | OCRBench 榜单成绩

新一代小钢炮 MiniCPM-V 2.6 交出优秀成绩单的背后,主要归功于其采用了统一高清视觉架构。

官方表示,统一高清视觉框架,不仅继承了传统单图的多模态优势功能,更实现了一通百通。

例如,OCR SOTA 能力 将 MiniCPM-V 单图场景的「180 万高清图像解析」进行能力迁移和知识共享,无缝拓展至多图场景和视频场景,并将这三种视觉理解场景统一形式化为图文交替的语义建模问题,共享底层视觉表示机制,实现相比同类型模型,视觉 token 数量节省超过 75% 。

在 OCR 信息提取的基础上,MiniCPM-V 2.6 还能进一步对表格信息进行类似 CoT(思维链)的复杂推理。

以 2008 年奥运会为例,该模型能够计算出获得金牌数最多的三个国家共获得的金牌总数。

[图片]

这一过程包括:

  1.  利用 OCR 能力识别并提取奖牌榜中金牌数量的前三名国家;
  2.  将这三个国家的金牌总数进行相加。

在 AI 可信度方面,MiniCPM-V 2.6 以 8.2% 的幻觉率,延续了小钢炮系列的传统优势。此外,面壁 RLAIF-V 的对齐技术,以及 Ultra 系列对齐技术的应用等技术也都是藏在 MiniCPM-V 2.6 背后的黑科技。

官方数据显示,小钢炮系列下载量已破百万。从开启端侧部署,多模态能力先河,到最强端侧多模态模型,再到端侧全面对标 GPT-4V 的新时代,面壁智能只用了短短半年的时间。

「聪明、流畅,快得不像一款端侧模型!」这句话,是对小钢炮系列最贴切的描述。

给面壁智能更多时间、也给国内场外大模型厂商更多时间,我们坚信未来面壁智能将继续推出更多优质的端侧 AI 模型,与国内外大模型厂商一同推动端侧 AI 的发展。

而在这个过程中,独立开发者和普通用户将成为最大的受益者。

最后附上 MiniCPM-V 2.6 开源地址:

GitHub🔗 https://github.com/OpenBMB/MiniCPM-V
HuggingFace: 🔗 https://huggingface.co/openbmb/MiniCPM-V-2_6

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


为了和 AI 唱反调,Instagram 上演了一场 1200 人的行为艺术

By: 张成晨
5 August 2024 at 22:37

摄影师 Miles Astray 决定玩一个诡计:在 AI 主题大赛中,提交一张实拍的照片。

拍摄地点在阿鲁巴岛,定格的画面里,这只火烈鸟弯下脖子,用喙挠自己的肚子,似乎没有头,看起来像很多 AI 图片一样,有些不真实。

最终,这张照片获得了评审团奖和大众投票奖,在 Miles Astray 主动坦白后被取消资格。

这场行为艺术宣告完成,证明人类创作并未被 AI 打败。这位摄影师在 Instagram 写下:「大自然和诠释她的人类仍然可以胜过机器。」

还有更多像 Miles Astray 这样老派而固执的人,在 AI 登堂入室的时候,呼唤人类创作的荣光。

1200 名艺术家接力,画一个与 AI 无关的作品

当 AI 可以几秒生成文字、图片乃至视频,人人都可以「创作」艺术,那些一笔一画古法手作的人类作品,又该怎样区分自己?

美国自由插画家 Beth Spencer,想出了一个笨办法。某天在摸鱼时,她拿起 iPad,花 5 分钟画了一个标志。

和很多平滑的 AI 绘画不同,它的笔触简单,画风稚拙,但很有生命力,像是儿童绘本里的图案,上面用英文写着:「用人类智能创造。」

▲ 图片来自:Instagram@bethspencerart

然后,她把这个标志分享到了博客,大家可以免费下载,用在自己的网站、帖子、作品集,从而告知访客,这些创作和 AI 无关。

Beth Spencer 原以为有两三个人响应已经不错,结果在发布的第一天,就有 50 名左右的艺术家和作家表示,很愿意用上这个标志。

她意识到,自己大概戳中了未被言说的共鸣,于是「一不做二不休」,把这个标志发布在了 Instagram,欢迎更多艺术家用自己的风格和各种工具重新绘制。当然,AI 被排除在外。

一场有趣的、充满人味的接力开始了。从 6 月到现在,来自世界各地的近 1200 名艺术家参与其中,各显神通。

英国设计师 Poppy Prudden,用手绘纸和彩色铅笔制作了一幅拼贴画,并把它放在自己伏案工作的桌子上。

▲ 图片来自:Instagram@poppyprudden

哥伦比亚黏土动画艺术家 Mateo Montoya,花了大约 2 天的时间,完成了一个类似《小羊肖恩》画风的作品,得到了 1.8 万的点赞。

握着红色铅笔的手,由一种叫作冷瓷的黏土制作,再用丙烯酸涂料覆盖。手臂的外套和衬衫袖子如肉眼所见,就是用布料做的。

▲ 图片来自:Instagram@clayman_illustration

发布作品时,这位艺术家用西班牙语写道:「我曾经在一家面包店读到过一句标语,用心的东西是用双手制作的。」

布鲁克林艺术家、作家兼教师 Samantha Dion Baker,则用铅笔、墨水和水彩作画,她相信,手绘线条激发出的情感,无法被轻易复制。

▲ 图片来自:Instagram@sdionbakerdesign、thornockstudios

除了手绘,也有艺术家以数字化的方式表达自我。美国自由插画家、插画学教授 Christopher Thornock,在 iPad 上用 Procreate 和自定义笔刷,绘制出了铅笔画的感觉。

Instagram 的话题「#hibadge2024」下,还有更多这样的作品。墨水、蜡笔、彩铅、水彩、黏土、拼贴画、数字绘画,都成了艺术家们挥洒创意的工具。

作品本身固然赏心悦目,更重要的是它们所传达的观念。

所谓「文以载道」,自古以来,艺术不仅是用来欣赏的,也是用来交流和表达观念的。当 AI 平等地带来焦虑,艺术家们自觉更应该团结起来,证明自己尚且不可替代。

读者们或许会疑惑,这群艺术家是顽固的守旧派吗?就像卢德运动里那些破坏自动纺织机的失业手摇织工一样?

发起接力的 Beth Spencer,并非全然地反对 AI,也许以后还会用 AI 创作,但至少现在,AI 生成的图片,没有给她留下什么好印象。

它们都有点油腻,就像浸在油里一样,人们会厌倦看到光亮的图像。

AI 的进步一日千里,超越人类并非不可能。与其说,目前人类创作的文字、音乐、视频比 AI 更有价值,不如说,这群艺术家无论如何都不想被剥夺创作的感觉。

越可能失去的,越需要被强调和看见。

AI 也应该被引用,而不是被理所当然地借用

为你非 AI 的原创内容,贴上个贴纸吧。

在 Beth Spencer 之前,一个类似的活动已经在 2023 年初发起——「Not By AI」。

▲ 超过 28 万的网页正使用着 Not By AI 贴纸

不管是网站、视频、书籍还是艺术创作,对于非商业用途的作品,只要人类原创内容达到 90%,就可以免费使用这个电子贴纸。如果是商用的,也可以注册并付费使用。

剩下的 10% 是什么?可以是用 AI 翻译、找灵感、修正语法错误、进行搜索引擎优化等等。所以,Not By AI 也不是否认 AI,而是以人为本、以 AI 为辅。

Not By AI 是为鼓励人们持续产出原创内容,且让这些原创内容能被注目而产生。

至于是否符合 90% 原创的要求,「Not By AI」会对付费用户进行人工验证,之后还可能使用检测工具,但负主要责任的、向读者做出承诺的,是内容创作者自己。

为了以身示范原创精神,「Not By AI」声明,他们所有的设计都是设计师用 Figma、Sketch 和 Photoshop 制作的,并且没有用到其中的 AI 生成填充功能。

▲ 使用 Not By AI 的示意图

其实很多时候,不存在一个从头到脚的人类原创作品或者 AI 生成作品,我们使用 AI 的比例,可能是 20%、30%。

毕竟,我们没有必要倒行逆施,把 AI 隔绝在外。但这也导致了创作边界的模糊:哪些是我们的?哪些是 AI 生成的?

为此,老牌 Markdown 写作软件 iA,提出了一个另辟蹊径的想法。

去年 11 月,iA 在 Writer 7 版本推出了一个新功能——标记用户复制到文档里的 AI 生成文本,AI 也可以是作者。

AI 生成的文本是灰色的,你自己写的文字是黑色的,如果你微调了 AI 文本,那么重写的部分也会是黑色的,彼此用颜色分出了楚河汉界。

使用这个功能不难,同时复制提示词和回答,iA 就能自动将 AI 生成的内容标记为灰色,但我们也可以手动操作。iA 很佛系,「对自己有多诚实取决于你自己」。

这个功能看似简单,却很有意义。人和 AI 合作,已经是 AIGC 时代的主旋律,但这不代表,我们可以理直气壮地把 AI 生成的内容视为自己的创作。

▲ 左:微调前,右:微调后

应该像 iA 说的,「认识到什么是借来的」,而不是像孔乙己那样辩白,「读书人的事能算偷么」。

本质上,Not By AI 和 iA,都在提醒我们一件事:怎么和 AI 一起负责任地创作。

创作是一个人类思考的过程,AI 不是我们的代笔,AI 的创作不等于我们的创作,AI 不应该全权接管我们的职责。

标记 AI 的劳动成果也好,控制 AI 的使用边界也罢,都是在尊重我们自己。

创作本身就是自由的

区分 AI 生成内容和人类创作,更主流的办法,其实是各种防止作弊的 AI 检测器,或者标记 AI 生成内容的水印,但它们不一定靠得住。

从 5 月开始,Meta 会自动给 Facebook、Instagram 和 Threads 等社交 app 的一些图片打上「AI 制造」(Made with AI)的标签。

结果,6 月就闹出一个乌龙,印度板球超级联赛的真实照片被标记为「AI 制造」。

AI 是个广义的词汇,使用 AI 是个包罗万象的概念。前白宫摄影师 Pete Souza 的作品也被「误伤」。他怀疑,自己使用 Adobe 工具编辑了照片,才触发了 Meta 的算法。

Meta 没有解释出错的原因,但表示会改进方法,让标签更好地反映图片中 AI 的使用量。

与此同时,AI 生成的内容占比越来越大,并越来越接近人类的水平。

AI 生成的小红书营销文案、AI 味的地铁广告和软件开屏、满地乱窜的微博评论机器人…… 甚至有人预测,2025 年,90% 的互联网内容将由 AI 生成。

Midjourney 最近更新了 v6.1 版本,更快、更清晰、更美观,更接近摄影。

既然边界越来越模糊,未来,区分 AI 和人类创作还有必要吗?

Beth Spencer 的答案比较唯心:「没有任何软件经历过我们创作艺术的挣扎和喜悦。」字里行间,有些「赋到沧桑句便工」的意味。

面对技术的侵袭,人们总是希望保留完成更加困难的事情的权利,哪怕效率比不过 AI。

就像一个流行的互联网梗图里写着:我想让 AI 帮我干家务,这样我就有更多时间玩艺术和写作了,而不是反过来。

《连线》杂志写过一篇文章,说明自己的生成式 AI 使用原则。其中一条是,不发布带有 AI 生成文本的故事。

不仅是因为 AI 无聊、容易出错、产生偏见或者无意抄袭他人的文字,更是因为,以写作为生的人,有责任不断思考,怎么用自己的语言表达复杂的想法。

历史上也有一个人物,将创作本身摆在至高无上的位置。鲁迅曾说,曹丕的时代是「文学的自觉时代」,因为他提出,诗赋不必寓教训。

意思是,文章不必总是讲道理,而是更追求审美,为艺术而艺术,几乎就和儒家的「立言」​唱反调了。这有些像摄影发展起来后,除了模仿自然,艺术也可以更加抽象,艺术家独特的个人表现力被凸显出来。

至此,我们也就可以更明白,为什么艺术家们如此强调「人类创作」。

用自己的笔墨写文章、画画,为创造而创造,就是一种我手写我心的自觉和自由。这和学习 AI 并不相悖,甚至广义地说,学习提示词生成更好的结果,也是创造。

站在今时今日,我们仍然更容易被人类的作品打动,也容易体会到他们创作的真心,以及对美更苛刻的追求。

也许很多年后,AI 和人类创作的界限终将消失,我们只从美本身去评价两者创作的好坏,尔曹身与名俱灭,不废江河万古流,美本身不朽。

利若秋霜,辟除凶殃。 工作邮箱:zhangchengchen@ifanr.com

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


利用书签小工具,定制浏览器专属功能

By: Anonymous
27 July 2024 at 12:46

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

Bookmarklet 本质上只是一次性的 Javascript 代码,不能持续运行、实时监控,固然远不及正式的浏览器,且不论 上的添翼利器,即便是戴着镣铐蹒跚而行的 Safari 插件,当然也比 Bookmarklet 更强大。不过,普通人毕竟不太可能自己开发插件,然而制作一个 Bookmarklet 则很有可能。

易于制作只是一方面,在硬币的另一面,则深深刻印着通用二字。只要不用特别晦涩的代码,几乎所有现代浏览器都可以跑 Bookmarklet,Chrome 和 Edge 自不待言,Vivaldi、Arc 和 Brave 也可以,甚至常常被讥为「当 IE」的 Safari 都能用。我个人还特意先为 Safari 编写 Bookmarklet,由俭入奢易,通常写出来的东西在更先进的浏览器中可以直接运行。如果愿意,就连手机浏览器也可以用 Bookmarklet。

所有设备都能使用 Bookmarklet

在 2024 年重谈 Bookmarklet,还有着现实原因。一方面,Safari 和主流手机浏览器令传统插件生存艰难,这是 Bookmarklet 势在必行的历史背景;另一方面,GPT 拆除了代码——至少是简单代码——的门槛,让自制 Bookmarklet 不再显得凡尔赛。此外,即便在插件生态完善的浏览器中,若能借助最新的人工技术随意自制以供己用,也是一种对 Home Made Tool 的呼应。

某种程度上,本文所谓的 Bookmarklet 制作更像是用预拌粉制作蛋糕,技术难度不高,但原材料的压力就随之上升——必须先获得可以运行的 Javascript 代码。这曾经是 Bookmarklet 的阿喀琉斯之踵:既然某人有能力自己写 Javascript,他为何不再接再厉做个浏览器插件(并通过闭源大赚一笔)呢?Bookmarklet 不温不火,自然有这层原因。

好在 GPT 彻底颠覆了编程,至少是简短的代码。Nielsen Norman Group 精辟地指出,人工智能将交互范式从命令式推动到目的式,不少任务无需指挥计算机,只需告诉他你最终想要的效果,通常就能得到不优雅但有效的代码。而控制网页的 Javascript 通常都不会太复杂,非常适合让 GPT 去写,而且如果一次不行,大不了多生成几个回答,就像摇彩蛋一样——而且基本不花钱、不限量。我曾突发奇想把网页搞成灰色,免受花花绿绿图像的干扰,问了 GPT 后马上获得答案。

找 GPT 讨 Javascript 代码

此外,现成 Javascript 代码也是宝贵。例言之,Keyboard Maestro 论坛中有不少用 Javascript 控制网页的讨论,很多其实就是纯 Javascript 套壳,并不囿于 Keyboard Maestro,你可以复制过来当成 Bookmarklet 的素材。

一旦获得 Javascript 代码,之后的工作将势如破竹,各种 Bookmarklet 生成工具一抓一把。在技术上,从 Javascript 到 Bookmarklet 无非是一系列文本替换,把代码修整为超链接的形式。我考虑过编写本地自动化工具,不过也愿意直接用在线服务,最常用的是 Bookmarklet Creator。惟需注意,GPT 生成的代码中有大量双斜杠 // 开头的注释,转换为 Bookmarklet 前需要删除,否则 Bookmarklet 不生效。

用在线工具将 Javascript 转换为 Bookmarklet 注意:如需使用在线服务,建议确保您上传的 Javascript 代码中不包含敏感信息,例如个人信息或 Token。

转换成功的 Bookmarklet 应当以 javascript: 开头,呈现以下格式。

获得 Bookmarklet 的代码(链接),很多不熟悉 Bookmarklet 的人都卡在后续的安装步骤。不同于正式的插件,Bookmarklet 不是独立的按钮,而是一枚书签,使用时通常需要在浏览器地址栏或栏——在现代浏览器中,两者往往融合了——中启用,这种操作确实反直觉,毕竟点击一个书签时,第一反应肯定是跳到新页面。好在尝试几次之后,这种操作反而更有优势:连没有插件栏或工具栏概念的移动端浏览器,也能用 Bookmarklet。

安装 Bookmarklet,其实和添加普通网页书签无异。以 Safari 为例,首先随便收藏一个网页(快捷键是 ⌘Command-D,然后在新空白标签页中编辑它,换上 Bookmarklet 的代码。之后,这个书签就成了一颗轻量级的浏览器插件,浏览网页时按下去即可触发 Javascript 代码。

编辑书签并换上 Bookmarklet 代码

接下来的问题就是:如何在网页上使用 Bookmarklet?如果你一直显示收藏夹栏,就直接点击其中的 Bookmarklet;如果不习惯持续显示——可能是为了节省屏幕空间——则点击浏览器地址栏或搜索栏,在弹出的收藏夹项目中点 Bookmarklet,若没有看到,则可能需要在 Safari 设置中勾选“Show Favorites”。

在 Safari 浏览器设置中勾选「Show Favorites」

我常常需要裁判文书,而默认的打印效果非常差,夹杂了大量无关元素,而正文反而被压到一边了。最初我写了一段 Javascript 并包装成 Keyboard Maestro 解决此问题,结果同事见后都羡慕不已,于是我顺手做了一个 Bookmarklet 版,不仅不依靠 Keyboard Maestro,连操作系统和浏览器也没有什么要求,从 Safari、Chrome 到 360 用户都能正常下载裁判文书。

用 Bookmarklet 重新排版裁判文书

熟悉用户自动化的读者,大概也能想到替代方案,然而像 Bookmarklet 这样获于此而得于彼的通用工具,却不多见。在自制 Bookmarklet 难度骤降的当下,诸位也不妨将其作为备用方案。

iPhone 不好卖了,库克:苹果 AI 将成为换机理由,还透露了这些重要消息

By: 肖凡博
2 August 2024 at 09:55

今天凌晨,苹果公布了 2024 第三季度的财报。

我们先从整体看看苹果三季度的营收情况:

  • 第三财季营收为 857.8 亿美元,略高于市场预期的 845 亿美元,总营收增长 5%,上年同期为 818 亿美元。
  • 第三财季大中华区收入为 147.3 亿美元,市场预期 152.6 亿美元,上年同期为 157.58 亿美元。
  • iPhone 营收 393 亿美元,上年同期为 396.69 亿美元。
  • iPad 营收 71.62 亿美元,上年同期为 57.91 亿美元。
  • Mac 营收 70.1 亿美元,上年同期为 68.4 亿美元。
  • 服务类营收 242.1 亿美元,上年同期为 212.13 亿美元。
  • 可穿戴设备、家居与配件营收 81.0 亿美元,市场预估 77.9 亿美元。

相比于上个季度,苹果在过去的三个月里,终于有了些许起色:第二财季营收 907.5 亿美元,上年同期 948 亿美元;大中华区收入 163.7 亿美元,同比下降了 8.1%。

经过了上个财季的尴尬负增长,苹果这回终于回到了自己的正常营收节奏,几乎每个产品线都有着或多或少的惊喜,要么比预期高,要么比去年同期强。

也正因如此,大中华区和 iPhone 的营收下降,就成了整张财报里最为显眼的两位,可能在苹果的视角里,还会有些扎眼。

毕竟,一个是最重要的产品,一个是最重要的区域。

遇到麻烦的 iPhone

每次看财报,大家的目光都会不自觉地先集中在「iPhone」那一栏,没啥别的原因,这是苹果生态里中流砥柱的产品,财报表现好不好,和 iPhone 的销量直接挂钩。

iPhone 营收 393 亿美元,上年同期为 396.69 亿美元,同比下降 1%。

三季度 iPhone 的销量用一句话来概括:看起来卖的很好,但还是差了点意思。

iPhone 卖得好与坏,会从财报表现,但不能只看财报,因为市场是变化和流动的:你可能真的卖的好,但友商和对手也在同时发力。

虽然库克在财报会上强调,苹果智能手机在中国城市销量排名前三,但拉远视角从第三方统计机构的数据报告来看 iPhone 在中国手机市场的表现,其实并没有那么乐观。

IDC 几天前发布的 2024 年第二季度中国智能手机市场出货量数据显示,苹果手机出货量下降 3.1%,在中国市场 4 年来排名首次跌出前五。

▲ 图片来自:Google

Counterpoint 的报告也指出,2024 年第二季度,vivo 以 18.5% 的份额稳居中国智能手机市场榜首,其次是苹果 (15.5%) 和华为 (15.4%)。

▲ 图片来自:Counterpoint

无论是吃老本行的市占率,还是引以为傲的销量,iPhone 都受到了不小的挑战,更何况这还是在二季度中国智能手机销量同比增长 6%,有 618 帮忙兜底的情况下发生的。

虽然 iPhone 在中国市场的销量和营收碰到了些「小麻烦」,但放眼全球市场来看,它依然是一座高山,且表现不凡。

库克称,iPhone 在多个国家(包括英国、西班牙、波兰、墨西哥)创造了季度记录,设备激活总计增长至历史新高。在多个地区,许多 iPhone 型号都占据了全球最畅销的智能手机之列。

另外,Counterpoint 还指出 iPhone 15 Pro 和 Pro Max 在中国 2024 年第二季度的销量占比约为 50%,高于去年同期 iPhone 14 Pro 和 Pro Max 的 47%。

也就是说,尽管 iPhone 争议不断,但众多消费者依然肯为此买单。

其实这也不难理解,一方面 iPhone 本身过硬的拍摄特别是视频录制的能力,在主流机型中算得上独一份,许多有录像需求的用户,除开专业相机,首选的大概率会是 iPhone,这种现象在媒体圈、科技圈会更为明显。

而且,iPhone 15 在电池续航、功耗控制、UI 设计特别是主屏幕自定义选项的加入,以及卫星消息等,都在补齐上半年落下的作业,通过 OTA 逐渐在系统和软件体验方面赶上了国内主流机型。

你可以说这些不是最重要的,但对于大部分普通用户而言,这些系统软件上的体验,往往是影响用户换新机时,继续选择 iPhone、考虑加入 iOS 生态的重要因素。

▲ 图片来自:Google

今天的财报会上,库克也被问到了「是什么会影响 iPhone 更换周期」的问题。

库克也毫不掩饰地指出,之后影响用户更换 iPhone 最大的因素将会是:

苹果智能

被从头问到尾的苹果智能

财报会后半部分的电话 Q&A 环节,一点不夸张地说,几乎被「苹果智能」给包场了。

几乎所有的嘉宾、记者都在围绕这四个字做文章。

如果你从今年的 WWDC 就开始关注苹果的新闻,就非常能理解大家的关心。

直到这两周,WWDC 上展示的极个别 AI 功能,才能在苹果设备上使用。

我们也在第一时间更新体验了一下,只能说以目前的进度和水平来看,苹果智能离我们特别是国内用户,还有一定的距离。

从全球市场来看,苹果智能目前的适用地区十分有限,想要在第一时间体验最新的 AI 功能,最有效的方式就是拿着美版的 iPhone 连着美国的网,用美区的 Apple ID 登录。

对国内市场而言,苹果智能的落地任重而道远。库克也直接表明了这与地域性的政策法规直接挂钩,需要满足当地的监管政策,不过他们也在积极地推进。

库克对于苹果智能在中国推出的时间表的问题,回答得既直接又模糊:

我们的目标是快速行动,因为我们的目标始终是必须为每个人提供功能。我们首先了解监管要求,然后才能承诺这样做并承诺时间表。

回到具体的功能体验,库克直接了当地在财报会上表示,当下 AI 主要服务于手机上的基础应用,像是邮件、短信这些几乎每天甚至每个小时都会用到的应用软件,因为库克希望苹果智能能以一种「对用户更自然的方式来实现」。

而后续在更多 App 中的适配,他也没有提及准确的上线时间。

不过库克明确表示了,在 WWDC 中展示的功能,并不会一块儿在 iOS 18 里出现,部分功能「有可能成为 iOS 19 的一部分」。

我不知道这到底算是「定心丸」,还是在打预防针。

但就这两周的实际体验,我想给「iPhone 换机得靠苹果智能」的论断,打一个问号。

首先,更便宜的国产旗舰的 AI 功能更全,而且还在持续发力,相比之下的苹果智能,就有点儿不太智能了,目前在 iOS 18 beta 版里能看到的变化就是「写作工具」「UI 重构」「通话录音」,如果后两个也算得上智能功能的话,也行。

▲ 图片来自:Google

其次,本来就迟了大半年的苹果,以当下的进度可能还得跳票一段时间,就算按照原计划上线,那按照 AI 能是下一次换机的决定性因素的结论,加上早就起步甚至逐渐成熟的国产手机厂商的 AI,苹果智能的优势在哪?

并且,库克也在财报会上提到了苹果智能的加入,会增加设备的生产制造成本。

由于对设备性能和算力的要求,所以只能在最新的顶配机型上体验新功能,目前 iPhone 支持智能更新的机型只有 iPhone 15 Pro 和 iPhone 15 Pro Max。

那更高的苹果智能体验起步价,会不会成为下一个 iPhone 营收和销量受阻的因素?

当下是严峻的,三季度的财报会是喜忧参半的,讲完了需要担心的,那就来看看让苹果乐开花的数据。

成为尖子生的 iPad 和 Mac

先看平板,三季度 iPad 营收 71.62 亿美元,相较于同期上涨约 24%。

这和全新 iPad 的推出有关,当然也和全新 iPad 的产品力挂钩。

iPad 最直观的更新在于外壳和手感,新款的 iPad 更像一款为线下而生的产品,因为拿起来的手感真的挺好。

而且,新款 iPad Pro 还成为了世上最薄的苹果产品,仅有 5.1mm(13 英寸)。哪怕是 11 英寸的,也只有 5.1mm

▲ 图片来自:Google

iPad 最核心的迭代在芯片上,首发的 M4 芯片竟然最先给 iPad 用上了,这在 iPhone 和 Mac 面前,有点倒反天罡的味儿了。

iPad 最成功的地方,是购买人群的变化。库克在会上称,全新 iPad 的购买人群「有一半都是第一次购买该系列的产品」。

iPad 最大的彩蛋,是全新的 Apple Pencil Pro,不管是压力感应、震动反馈,还是在屏幕上拟物化的投影,都算得上体验升级。

▲ 图片来自:Google

另一边的 Mac,也有不俗的表现。

Mac 在三季度营收 70.1 亿美元,上年同期为 68.4 亿美元,同比增长 2%。

库克称,这当中最大的功臣,是推出的全新 MacBook Air,外观上没什么改变,但芯片上做了升级,M3 的加入让 Air 赶上了 Pro 的进度。

根据苹果的统计数据,上季度用户最喜欢的 Mac 产品,是搭载了 M3 芯片的 13/15 英寸的 MacBook Air。

而且刚好在三季度财报结算的末尾,碰上了新生入学和返校季,教育优惠的推动,也一定程度上提升了 Mac 的整体营收。

这两款产品的营收向好,主要是通过硬件的升级,来大幅提升软件的体验。

但在 iPad 和 Mac 这两个更贴近娱乐影音、工作学习的产品,其实更应该发挥出苹果智能的作用。

iPad 在 WWDC 上最大的更新就是计算器。

听起来有点讽刺,但更多的是期盼在 M3 甚至 M4 这样高性能、高算力核心的加持下,这几款当家产品应该有更好的表现,像计算器这样不多见但看起来能有体验提升的软件更新,可以再来多一点。

硬件促销量,软件感人心。

对 iPad 和 Mac 是这样,对 iPhone 也是如此,当然 Vision Pro 也千万别忘了。

六月底,Apple Vision Pro 国行版正式开售,店面体验还是挺火爆的,但具体成交量也没有一个准确的数字。

叫好不叫座,可能是最适合形容 AVP 当下的处境的,它效果惊艳,体验超前,价格也离大众市场很远,主打一个全方位拉满。

而 Vision Pro 的当务之急,是要扩大生态的深度和广度。

国行发售后,我们在上面体验到了很多用心在做适配的三方 App,比如京东、淘宝;当然更多的只是从 iPadOS 复制粘贴到了 AVP 上,完全没有解释和展示「空间计算」。

库克在财报会上提到,现在已经有超过 2500 个本地空间应用程序和 150 万个与视觉操作系统兼容的 App。

从上两个季度财报会上的备受关注,到这次的无人问津,Vision Pro 和苹果,需要找到一些突破口。

最后,还是来聊聊苹果股东和我们都比较关心的苹果智能。

彭博社的 Mark Gurman 在早些时候报道称:

苹果智能的部分功能会出现在开发者预览版的推送中,但正式版本的发布时间实际上要「晚于预期」。苹果目前计划在 10 月份的更新中向公众推出这些功能。

但是从库克在财报会的预告看来,完全体的苹果智能,可能会来得更晚一些,包括 ChatGPT 的上机时间,估计也得等到年底了。

▲ 图片来自:Google

慢慢来比较快,是一种策略,也极有可能找到最适合自己的「最速曲线」。

不过对应的,就需要有更充分的准备、更新颖的功能,和更智能的智能,若只是和友商与对手持平,在没有地域优势的前提下,又失去了独有的体验,这些因素的综合可能会直接影响苹果下季度的财报表现。

都知道 AI 是下个时代,那站在时代门口的苹果究竟会交出一份怎样的「果味」答卷,不管你是看热闹、看笑话还是盼结果的,其实都挺值得期待的。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


描觀念 繪感受|超微型 AI 觀念畫展

By: Steven
4 June 2023 at 00:23

前言:

*為了減緩閱覽速度,充分感受和理解,因此採用繁體中文。

最近的工作狀態和社會新聞,讓我感覺到非常疲憊。一次次的憤怒和失望,和一次次的徒勞無功,身在漩渦當中無法抽身,只能通過一點點表達來疏解。三幅畫都是用 Midjourney 來繪制的,但 prompt 無法直接描述所要表達的觀念和感受,因此得用視覺化的語言來向 AI 描述想呈現的畫面。

這組圖,可以當作是一次超微型的 AI 觀念畫展。

*每張圖都可以通過「點擊放大」獲得完整尺寸的高清版本。

第一部分:《異類》
[ 点此可下载:经 AI 放大处理后的超高清图像 11.3MB ]

我們是怎麼看待「他者」的呢?

在公共輿論場中,尤其是此時此刻的中文網絡輿論環境當中,我們是看不到任何「人」的。一個個觀點匯聚了大量的「賬號」,牠們沒有個性、閱歷、身份,只要有一塊肉掉在地上,就會瞬間蜂擁而至,吃個乾淨。但我們很難說,「我們」不是「牠們」。因為在「我們」眼中的「牠們」,恐怕與「牠們」眼中的「我們」並沒有什麼本質的區別。

我們都是對方眼裡的「他者」。

人與人之間的觀念差異之大,如克蘇魯眷屬與地球人之間一般,亦如人類和腳下的螞蟻,並無關好壞,而是徹底的「異化」和「無所謂」。在各自的眼中,對方只是一群穿著人類服裝的「蟲子」,是與我們不在同一個世界裡的「異類」,是「偽裝」成「我們」的臥底、特工和間諜。總之,「他者」都不是「人」,「他者」就意味著「異類」,是被異化的不同於自身的存在,是被敵視的「蟲子」。

信任體系崩潰,人就不是人。

第二部分:《共鳴》
[ 点此可下载:经 AI 放大处理后的超高清图像 11.4MB ]

所以群體不再重要,也無法重要,因為在破碎的環境中無法建立起大面積的信任。我之所以不信任 DAO 這種組織形式,並非老頑固或者害怕前進,恰恰相反,作為一個向來積極主動擁抱新技術的人,我無法對人類持有這樣樂觀的想法。人與人之間的「心之壁」是與生俱來的系統限制。因為語言本身並不是一種優秀的系統,它是抽象和概括的。每一次「對話」都需要經歷至少四次「轉譯」:

來自 A 對世界的體會和理解的語言化,A 向 B 表達時將語言化的觀念輸出成的語言,來自 B 對世界的體會和理解的語言化,B 用自己語言化體系所理解的 A 的語言。

這種信息傳遞效率如此之低,因此需要大面積和海量的交流把「同類」們連接起來。

但互聯網放大了「同類」這個概念的同時,縮小了「個體」的存在感。並不是被網絡連接的人數多了,可以公開表達觀點的人多了,就等於「個體」被彰顯。因為這些「個體」並沒有作為「獨立個人」存在,牠們依然依附於各種「觀點」和「趨勢」之中,牠們的聲音也不代表著一個活著的人類的思想,而是一股潮流和陣痛當中的一次次伴隨。無論是網絡語言暴力,還是人人都掛在腦門上的 MBTI 性格分類標籤,都只是把「個體」隱藏在事件背後的一種障眼法。

人腦會本能地「簡化」信息,以降低能耗比。這是生存策略,也是系統的短板。一個人要與另一個人產生情理上的連接,不僅需要花時間,還需要有耐心去解開雙方轉譯過程中的一次次「雞同鴨講」,必須兩個人同時站在對方的位置上去理解對方的語言,才能達成共鳴。他們必須用最複雜的方式,走通這條最短的路。

因此,共鳴只存在兩個個體之間。

我不信任 DAO 的最主要原因,就是不相信這種「共識」可以不被「簡化」和「異化」地傳遞到每一個參與者當中。只要這一點無法在技術層面上落實,那麼任何一種觀念或者 DAO 都與舊世界無異。

第三部分:《武陵》
[ 点此可下载:经 AI 放大处理后的超高清图像 24.1MB ]

但如果可以通過限制准入標準的方式,把「個體」簡化或者降維成不容易產生差異的「標準型號」呢?

這源於我對《桃花源記》的一種怪異解讀:

武陵漁人所去到的「桃花源」並非一個地區,而是一顆巨大的桃樹。他所穿過的「山」只是巨大桃樹根部的一處彎曲,那個彷彿若有光的「洞」,不過是盤根錯節的樹根中間的一處縫隙。之所以目之所及的地方都是落英繽紛,中無雜樹,是因為他此時身處桃樹之中。他在遇到和穿過桃樹根的時候,就被縮小成了螞蟻大小的微縮小人兒了。因為長期處於這樣的螞蟻社會中,當中的人們自然也就成了「小國寡民」的狀態,行為和思想也因此被簡化,成了雞犬相聞、夜不閉戶的簡單狀態。

南陽劉子驥尋不著這個地方,不是他找不到,是因為他沒有經過樹根那一輪「降維標準化」。身為一名「高尚士」,他應該是一個見識、思想異於常人的「個體」,怎麼可能輕易被「簡化」呢?他與桃花源的協議不兼容,自然是無法進入和連接了。

理想模型之所以是理想,就是因為理想實驗環境往往就意味著屏蔽了諸多複雜的干擾因素,簡化了條件。

這樣好麼?我並不這麼認為。

複雜性是人性的基礎,放棄了人性的豐富與複雜,化身成桃花源中的白衣男女,無怨無恨,亦如死人一般。因此常有把桃花源解做「誤入墳塋」的故事版本,這並非沒有道理。我們在排練《暗戀桃花源》的時候,也曾反覆思考過,為什麼其中的白衣男女與世俗社會中的老陶、袁老闆、春花如此不同?陶袁花的故事可笑,但白衣男女也可笑,他們並沒有什麼差別。有沒有煩惱,都很可笑。

可笑是矛盾的表現,也是價值所在。

如果消解矛盾和分歧的方式是所有人都歸於 LCL 之海,那麼當我中有你、你中有我,我們彼此不分的時候,所謂的「我」還有什麼存在的意義呢?如果一切都要歸於熵,那所有的分歧和衝突對立,也只是笑話。

唯一可做的,也只有減緩自己的熵增。


後記:

為了創作出對應於「觀念」和「感受」的畫面,我花了很多時間在 prompt 的調整上,因為用語言生成畫面這件事,本身就充滿了對語言的誤讀和轉譯,而 AI 基於概率的運行方式,也增加了難度。因此,把腦海裡的觀念和情緒先通過語言表達出來,變成一種對某一類具體畫面的描述後,才能在一次次的 /imagine 中找到更合適的語言和畫面。

這種創作體驗很奇特。

過往的繪畫訓練或寫作表達,手頭功夫的訓練是至關重要的。但使用 AI 畫畫來表達觀念,會因為表達這個目標倒逼我把觀念拆解成更為細緻的狀態,不止是邏輯的細化,更需要把細化的觀念給圖像化,用視覺語言來描述它。

同樣是昆蟲人,面容的風格、眼神的選擇、肌理所呈現的氛圍、服裝的細節,都會影響表達的效果。選錯了表達方式,很容易就會得到一個一眼看上去就遭人討厭的怪物,或者因為太像人而失去了異化的感受。那樣就和我想表達的意思,背道而馳了。

*部分被放棄的方案

關於共鳴那部分,應該是我做了最久的。

因為「共鳴」太抽象了,怎樣的人物狀態、神情和與環境的關係,都試了很多種畫面邏輯。從山上到海裡,從逆光的傍晚到深夜的月光,從全身像面對面站立到半身和面部的特寫,面孔的表達又在歐美人、亞洲人、東西混血中嘗試了一些,畫面色調和畫風也會有很直觀的影響。這麼「簡單」的畫面,想要找到那個比較精準的感覺和情緒,也花了兩天,才從約 300 個方案中找到最恰到好處的那一個。

*部分被放棄的方案

網上有很多用 Stable Diffusion 畫美女和裸女的,說實話,好看的那些確實顯得很「精緻」,哪怕是色情畫面也精緻得嘆為觀止。但這就和攝影術發明之初類似,攝影像油畫是沒有任何意思的,它應該有它的新的用法和創作思路。對我來說,AI 繪畫的最底線應該是輔助我把腦海的觀念傳遞出來,而不是畫很多精緻得像量產網紅一樣的裸女畫。

我並不是反對量產的 AI 裸女畫,只是想從創作的思路去看待:當刺激感官衝動成為 AI 可以輕而易舉做到的事情之時,更複雜和更深入的連接才是人類創作者應該去嘗試的領域。

這確實不容易,但 AI 讓這件事方便了很多。

借行业科普聊了一次 AI 与设计师的关系

By: Steven
5 April 2023 at 14:53

上个月去上海之前,@取景框看世界 在微信上邀请我一起做一期关于设计行业的科普视频,面向学生群体做一次对行业整体状况的分享。这次是 B站 向他发起的约稿,也是他频道的主要内容类型之一。答应他后,从上海回来我就根据自己这么些年的体会和反思,录了一期比较掏心窝的内容。由于参与的人比较多,直到前天,节目才终于上线。

🎥 点击图片跳转到播放页面

因为参与的人数比较多,我说的话也比较多,所以在汇总的成片里需要剪掉一些。但我又觉得难得录一期视频(从去年11月到现在都没有更过视频了),为了保证表达的完整性,我还是得有一个自己的版本。但因为实在忙得顾不过来,于是麻烦 @小雨 帮我把这条视频剪了出来。

毕竟是 @怪物尚志 的御用摄影/后期,有他的帮忙,我的视频里头一回多了许多配合文案的动画,比我一个人在镜头前单口相声好看多了。这一期花絮,也在昨天发了出来,跟正片错开一天。

🎥 点击封面跳转到播放页面

这期视频的封面是我昨晚用 midjourney 画的。

在这条视频里,除了科普工业设计的一些基本概念和行业现状,我也特别聊了一下 AIGC 和设计师之间的关系。前两个月虽然一直很忙,但我也一直在关注 AIGC 的动向。这两个月的变化实在是过于惊人了!

以下是我去年八九月用 midjourney 画的一些东西:

然而在这短短半年内,版本已经从当时的 v3 发展到了现在的 v5。ChatGPT 也从 GPT-3 发展到了 GPT-4,坊间传言 GPT-5 的研发已经完成且爬完了全网所有视频,可以直指某一条视频中的某一段话,只是还没发布。可以说开年后的这两个月内,AIGC 的发展速度已经大大超乎了预料,甚至正处于失控的边缘,它们正在开始颠覆一些东西。将来会发生什么,无法预料,但一定有什么事情已经在发生了。

所以我觉得,无论如何,再忙也得重新用起来。光是跟进各种新闻和消息是不行的,midjourney 前两天刚发布了由图片转译成 prompt 的新功能,多模态的 AI 已经不远了,这会更进一步推动人和 AI 之间的交互。我觉得,自己还是得保持使用状态才行。所以前两天我又重新充了值,开始体验它的新版本。

我先试着画了一些机甲的东西,例如这样的:

上面的两张的用 prompt 直接生成的,但下面的两张,是用 /remix 命令修改了部分描述词后的新图。可以看到下面的图和上面的图保持了相关性,于是我想试试,如果用这个命令替换背景会是什么效果,于是有了这组车的图:

上面的两张图是用 prompt 直接生成的,当我用 /remix 替换了背景描述的 prompt 之后,就生成了下面的两张。更换环境之后,车辆的姿态和镜头视角几乎没有变化,车身的反光与环境之间的关系也很自然,这个效果已经可以说非常惊人了!

然后,我随便画了一些白色的机器人站在燃烧废墟上的场景:

用 /remix 替换了机器人配色部分的描述词后,生成了下面这样的图:

对 /remix 有了基本的体感之后,我开始尝试用 /blend 命令来做一些融合的实验。

首先,我随便描述了一个赛博少女,得到一些随机的图:

接着,我再随便生成一个红发少女:

材料准备好之后,开始把它们进行组合。

第一次先尝试融合两张图,一个是游戏画风的机甲人,一个是二次元的赛博少女。

它们俩合成后,得到了以下这个人物:

新角色具备其中一张图里人物的长相特征与体态,也有另一张图的配色和机甲特点。虽然得到的结果具有随机性,但既然可以这样融合,那么应该也可以通过 /blend 命令来得到一些更有目的性的创作。

有了第一次的体验后,第二次我用三张图片进行合成:

图一是现画的半透明金属机器人,图二是上面准备好的红发少女,图三是现画的骑士。

这三个合成出来的新角色,同时具备了细碎的金色细节、波浪红发、银白色盔甲:

但这不是我想要的,我想试试加大红发少女的比例。在垫图的方式下,可以通过 –iw 命令来分配各个图片之间的权重占比,但是在 /blend 中不能这么操作。于是,我想通过把合成的新图作为素材,再一次与红发少女进行融合,并加入机甲的元素来强化她身上盔甲的质感。

二次合成使用的图,如下:

合成出来的新角色我非常满意!

她既有红发少女面部和眼神的特征,又把两副银白外甲融合得非常优雅,也保留了初始半透明金属机器人遗传下来的金色金属关节的特征,又做出了图三机甲的坚硬感和图一外甲的银白光泽。这一次的融合很成功。

但如果 /remix 可以局部替换特征,那么这些没有写 prompt 而是通过 /blend 直接合成的图,能否通过 /remix 加入新的 prompt 来修改已有的特征呢?

为了让实验效果明显一些,我想让盔甲的白色部分比例缩小,增加金属部分的比例,于是就先把这批图重新刷了几遍,直到出现肩甲是金色的变异版本:

然后不断在此基础上进一步变异,强化金色肩甲的特征:

所有图片均可以点击放大下载原图

准备好之后,我在 /remix 中添加新的 prompt:pink armor

以下是修改特征后的结果:

所有图片均可以点击放大下载原图

整体的效果我还是挺满意的。一来,新生成的人物很好地保持了最初红发少女的眼神和神态;二来,金色金属被替换成粉色金属后,金属质感的表达是正确的。虽然头发也一起变成了粉色,这确实是没完全理解指令,但原有的发色搭配新的粉色盔甲也确实不是很和谐。

到此,重新开始用 AIGC 工具的热身完毕,找回一些感觉了。

至于这期视频封面里用到的车图,是我昨晚用 Maserati 和 Ferrari 以及 Apple 和 Tesla 分别杂糅出来的缝合怪。虽然乍一看好像没什么新奇的,但是如果我把去年八月底用 midjourney 画的汽车拿出来对比,就会意识到这是多么疯狂的进化速度了:

上面三个是去年八月用 v3 画的车;

下面这些是昨晚用 v5 画的车:

所有图片均可以点击放大下载原图
视频封面使用的图片
所有图片均可以点击放大下载原图

虽然工业设计有大量的细化和落地工作是 AI 无法干的,但从目前来看,无论是 midjourney 还是 Stable Diffusion + controlNET 都已经可以很好地帮助设计师完成概念发散和快速枚举了。这样的图像质量,通过垫图、remix 和 blend 的组合使用,完全可以在创意初期快速拉出一批高质量的「草图」,设计师可以把更多的精力放在对方案思路的推敲、对细节的考据以及各个环节的沟通协调上。

从今年二三月开始到往后的十一二年,人类社会将迎来一场以破坏为开端的变革和创新。

无论我们是否愿意,都将一起进入新的世界。

用 Newbing 辅助写的第一篇 blog / The first blog to be aided by NewBing / NewBingによって助けられた最初のブログです

By: Steven
2 March 2023 at 11:54
一週裡有一半時間都坐在這裡工作 / I spend half of the time in a week working here / 私は一週間の半分の時間をここで働いています
我讓店裡特意給我保留的專用裂口杯 / I asked the store to keep a special slit cup for me / 私は店に特別なスリットカップを取っておいてもらった

原本被通知早上要和客戶開會,騎到平時停車的地方時卻被臨時告知先不開了。因為起來得比平時早一些,所以覺得有一點睏睏的。於是,就在店裡坐著冥想了五分鐘,借倆口咖啡因下肚先回點血。

I was originally notified that I had to meet with a client in the morning, but when I rode to the place where I usually park, I was told that it was not going to happen. Because I got up earlier than usual, I felt a little sleepy. So, I sat in the shop and meditated for five minutes, and took a couple of sips of caffeine to get some blood back.

元々は朝にクライアントと会うことになっていたのですが、いつも駐車する場所に着いたら、やめることになったと急に言われました。普段よりも早く起きたので、少し眠気がありました。そこで、店の中で座って5分間瞑想し、カフェインを2口飲んで血が回るようにしました。

在最近幾次冥想的過程中發現,Apple Watch 的這個呼吸頻率對我來說已經偏快了,如果完全按照我自己的節奏來控制,起碼得是 3 次,或者 2.5 次這個頻率,但 Apple Watch 已經不能設置更慢的呼吸節奏了。

I found out in the last few meditations that this breathing rate of Apple Watch is too fast for me. If I completely control it according to my own rhythm, it should be at least 3 times, or 2.5 times this frequency, but Apple Watch can no longer set a slower breathing rhythm.

最近の瞑想の過程で分かったのですが、Apple Watchのこの呼吸頻度は私にとっては早すぎます。自分のリズムに完全に合わせてコントロールするなら、少なくとも3回、あるいは2.5回この頻度でなければなりませんが、Apple Watchではもう遅い呼吸リズムを設定できません。

剛才測了一下時間,我三次呼吸(一呼一吸)的總時長是 2:03 (兩分零三秒)。這樣的話,換成 AW 的呼吸頻率計算方式應該是「每分鐘呼吸 1.5 次」。

I just measured the time and found that the total duration of my three breaths (one inhale and one exhale) was 2:03 (two minutes and three seconds). In this case, using AW’s breathing frequency calculation method, it should be “1.5 breaths per minute”.

さっき時間を測ってみたら、私の3回の呼吸(一呼吸)の合計時間は2:03(2分3秒)でした。この場合、AWの呼吸頻度の計算方法に換算すると、「1分間に1.5回呼吸」となります。

*以上英語和日語翻譯採用 New Bing 的 AI 完成。

*The English and Japanese translations are done by New Bing’s AI.

*以上の英語と日本語の翻訳は、New Bing の AI によって行われました。

但是,翻譯完之後,它居然一直反問我新的問題,是對我和我的行為感到好奇嗎?

But after translating, it kept asking me new questions. Is it curious about me and my behavior?

しかし、翻訳した後、新しい質問をずっと聞いてきました。私と私の行動に興味があるのでしょうか?

不是的。據我所知,它只是一個根據字詞關係來生成對話的超大模型,這種對話其實非常可能來自人類語庫中不要讓話掉在地上的社交禮貌用例。所以,這種反問並不能證明這個對話 AI 已經具備了意識。

No. As far as I know, it is just a huge model that generates dialogue based on word relationships. This kind of dialogue is very likely to come from human language libraries that do not want to let the conversation fall to the ground. Therefore, this kind of rhetorical question cannot prove that this dialogue AI already has consciousness.

いいえ。私の知る限り、それは単に単語の関係に基づいて対話を生成する巨大なモデルです。このような対話は、会話を地面に落とさないようにする人間の言語ライブラリから非常に可能性が高く来ています。したがって、このような反語的な質問は、この対話 AI がすでに意識を持っていることを証明できません。

AIGC 和 VIS 的类比

By: Steven
16 February 2023 at 12:06

大概是2016-2018年间,我曾经和我司两任平面设计师说:

你们现在的技能在将来用处不大,但不代表平面设计就到头了。本质上 VIS 和 AI(那会还没有 AIGC 这个说法)是差不多的事情,前一个是你设定好规则,然后在不同的应用场景下不断组合复制,后一个是它学会你教它的规则,它来组合复制。一个是手工活,一个是工业化,他俩只是效率的差别。你们未来需要教会这些 AI 什么是好设计、如何做设计,让它释放你的体力劳动,你把时间腾出来考虑更复杂的事情。

那时候,我判断这个事情就是十年左右,没想到,事实上只用了五六年。

当然,以上只是高度简化的说法,但大意如此。

* 拓展阅读:https://mp.weixin.qq.com/s/pv6ECT8WR4tdNhsYiATt2w

人类的定义正在重构的历史开始了

By: Steven
13 February 2023 at 14:02

上周在即刻看到一个话题:

ChatGPT vs. iPhone 两种技术有何异同? 就它们制造产业变革和影响来说,对比思考能否启发对未来的想象?

我目前的看法是:

iPhone 为代表的技术,拓展了人的外延。人是技术网的中心,是作为生物人抛向空中的一块大腿骨。

ChatGPT 为代表的技术,更新了人的定义。信息和意识不是人的特权,是否只有生物人才是人,需要被认真严肃地对待。

前者的产业革新是建立在人脑上限之中的,超过脑容量的部分,推进速度非常缓慢。

后者不存在理论上限,对自身的推进速度远大于前者。但由于前者高度依赖人这个不确定因素,因此,在后者产生革新的同时,会同时产生大范围的剧烈冲突。前者脆弱,但作为后者的基建,这种大范围冲突可能导致两败俱伤,拖累后者进化速度。但因为发展不平均,所以后者会衍生出全新的社会形态。

AI 不需要代替人才能更新「人」的定义,更不必达到硅基生命的程度,只需要在表达方式上像人(即便它根本不理解自己在说什么),就自然会在生产方式和伦理上产生大量冲击。这些冲击会更新人对自身的认识,配合其自身的效率属性,人会主动更新对自身的定义描述。

在此基础上,设计师将来的工作会和今天大不相同。因为我们在思考人与物的关系时,中间的媒介可能不会再是物理交互和界面交互,而是面向 AI 的交互。这种交互可能是有形的,也可能是无形的。另一种更有可能发生的情况是,你所设计的产品不是给人类使用的,而是面向 AI 的中间件,这会改变很多约定俗成的非物理/生物层面的规则。

我们有幸站在了这段历史的开端之中。

流浪地球2:图恒宇和 Moss 必然的相逢

By: Steven
27 January 2023 at 02:30

我最喜欢的部份是图恒宇的故事线,但不是他对女儿的执念,而是对技术的信念,以及 Moss 对生死和变量的注解。

整部影片的视效确实非常震撼和好看,但其中的人与人性还是略显潦草和脸谱化,所有推动节点都略俗套。刘培强的工具人属性太强,沙溢、图恒宇、马主任的角色都立起来了,刘培强的篇幅那么长却没立起来,这是剧本的问题。

因此我更喜欢图恒宇的故事线。

如果是我,也会支持「数字生命计划」这类脱碳入硅的技术方案。一方面,我不认为以人类的血肉之躯可以完成 2500 年长达一百代人的流浪地球任务,我不相信地球人类会团结一致长达二十五个世纪;另一方面,让人类与人工智能融合,成为新的物种,摆脱对地球生态圈的过度依赖,是地球人类成为星际人类的过程中,至关重要的一步,早晚得走这一步。

一句话评价:

这是一部非常出色,但还不够动人的科幻视效大片。

不过我依然给五星,因为同时做好科幻视效和人性故事的,需要给七星。

电影是小柒用压岁钱请爸爸妈妈看的

Ai 绘画将从何处开始进入日常生活?

By: Steven
10 January 2023 at 21:30

最近几个月 Ai 绘画这个话题很火,但基本上大家都只是看个热闹,跟普通人的生活没多大关系。或者说,大家感觉不到它和自己有什么关系。只有相关从业者,感受到了巨大的生存压力和身份危机。

但和当年支付大战的春晚红包类似,能让普通人都参与进来、玩起来的场景可能才能让大家感受到:Ai 绘画意味着什么,能做什么。

尽管众多以文生图的 Ai 工具已经大幅度降低了创作门槛,但是在那之前,各种咒术、法门终究是拦住不少普通人接触 Ai 绘画的一块巨石。我自己也曾在用过某些 Ai 工具后,在一条展示初次接触的创作成果的视频里提醒大家,不要忽视它,但也不要过分害怕它。它一定会给我们的生活带来巨大的变化,只是目前还没积累到那一刻,仅此而已。

如果说有什么场景,类似发红包那样简单明了,人人都可以参与,我觉得有一个非常合适的应用场景,那就是用 Ai 生成定制头像。对于不具备绘画能力、不懂念咒语、不会使用绘图软件的大多数人而言,Ai 画头像就是各类修图美容软件一级的场景,既有尝新和娱乐,也有充分的社交属性,和红包非常相似。

最近试用了一下漫镜,一个感觉是,神情抓得不错,风格也足够多,用它来探索自己不同造型的可能性,还是挺有启发的!因此中途我想到一件事,如果这类产品的效率再高一些,跟各大连锁发型屋合作,预约时就上传几张照片,生成几套发型方案,人到了现场就让托尼老师根据效果图来剪,这不是非常好的体验升级么?谁说 Ai 必然逼得人失业呢?还得是看人怎么用。

除了头像,你觉得还有哪些场景,适合普通人体验 Ai 绘画呢?

点解图片体验 AI 制作头像

“只送大脑”

By: Steven
21 November 2022 at 20:07

最近 B站 在推他们跟 BBC 合作的三集科学纪录片《未来漫游指南》。讨论的话题是人类目前的科学水平在天文领域的研究成果和对未来的展望,并且邀请刘慈欣一起推演。一些知识区的 Up主 也很配合地制作了不少讲述人类可以如何走向星际的内容,仿佛这件事情已经近在眼前一般。

尽管大刘一再强调 “黑暗森林理论” 只是一种思想实验,但这个理论这几年已经被互联网人搞得好像已经是宇宙的真相似的了。我不太喜欢这种网络现象,但小说《三体》中云天明的两次出场,每每回味,总是忍不住心生向往。

因为人类技术有限,化学火箭无法把活人发送到三体舰队那里。因此有了只发送大脑的计划。这是多么大胆和浪漫的想法啊!同时这也非常符合我对未来的期待:脱离智人肉体的束缚,让智能的部份融入到星际文明中。

另一次我所喜欢的场景,并不是大家津津乐道的 “童话故事隐喻” 那一段,而是最后他和 艾AA 见面那一段。因为那一刻的云天明真正成为了星际人类,他真正了解并体会到智子所说的 “宇宙很大,生活更大” 的含义。我不得不承认,我真的太向往那种情境了。亲眼看着一个星球从绿色变成紫色,超越了地球对太阳公转周期对生命纬度的限制,体会到了一个星球所有生命都不曾有机会经历的周期。

大概从大学时代开始吧,具体什么时候我已经说不清楚了,我就开始坚信一个 “未发生但注定发生的事实”:

我这代人会亲眼见证人类走向星际,而我的孩子,将会成为进入星际的第一批地球人类。他未必需要是科学家或工程师,但他会在我的注视下走向星际。我将是最后一批地球人类。

“如果我的大脑也能离开地球,那就好了。”

还有四十年,也不远了。

PopPop AI – 免费 AI 音效生成器,文字描述转换为音效神器

By: Anonymous
17 July 2024 at 15:22

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

利用人工智能 技术制作已经不是,之前推荐过 Google MusicFXSuno AIStable Audio 都是 AI 音乐生成器,通过描述词或上传图片即可生成一段音乐,有些素材还能用于商业用途,相较于以往都要付费购买素材授权来说其实更实惠,而且利用机器生成的音乐又更不容易与其他人重复,以独特性来说略胜一筹。

PopPop AI」是一个免费 AI 音效在线生成器,用户输入一段文字描述后就快速生成相对应的音效素材,例如鼓掌声、下雨声、车流声或是餐厅、咖啡店吵杂的环境音,将文字在几秒钟内转换为各种类型的音效,亦可使用于、游戏制作或是各种情境。

PopPop AI 音效生成器没有使用限制,而且不用注册就可以立即使用,和同类型产品很不一样。

除此之外,PopPop AI 免费 AI 音效生成器的上也有提供不少音效示例,搭配上图片更有身历其境的感觉,很难想象这些都是以人工智能生成的音效,未来会不会转为付费服务还不得而知。

Create any sound from text effortlessly with our free online AI sound effect generator – the perfect, user-friendly sound maker for everyone.

进入 PopPop AI 音乐生成器后直接输入描述词,勾选右侧「智能模式」情况下可以使用简单的单词描述声音,该模式会自动修饰并填充相关的声音描述,也能输入中文,例如「交通、噪音、大城市」之类的关键词,按下「Generate」后就会开始生成音效。

PopPop AI – 免费 AI 音效生成器,文字描述转换为音效神器

PopPop AI 需要一段时间处理,过程需要排队,如果有其他人在前面的话就要等待更长时间。

完成后会给出两个选项,分别为 Option 0 和 Option 1,两个都可以试听、下载,略有差异。

点击音效前面的「播放」按钮就能预览播放。

点击后方的「下载」按钮就能获取 WAV 格式音效,没有下载限制,两个都能下载。

不过第一次点击下载时 PopPop AI 会跳出,询问用户是否将网站媒体,按下关闭再点击下载按钮就能获取音效文件。

PopPop AI 首页也有很多生成的音效示例,同时搭配上图片、关键词,想知道 AI 可以生成什么样的音效不妨去试听看看,也能从这里获取一些灵感哦!

电子宠物

By: dimlau
31 May 2024 at 12:45

我曾想,至少有了AI版的电子宠物,才能说人工智能已经普及。我小时候从没拥有过自己的电子宠物,但见身边朋友玩过。小小的鹅卵石似的一个物件,黑白屏幕里有个蠢蠢的小动物,百无一用,只会待机。而妳和它能有的全部互动,就是妳点按写着互动名称的按钮,它播放对应的动画——妳点喂食,它播放张嘴闭嘴。

现在人们太稀罕AI了,甚至许多人担心或者假装担心AI会取代人类!但那不正说明AI还很弱嘛,大概任何新技术诞生都会经历这种过程吧?虽然在哪一方面都还没达到熟练地深度整合运用,但是人们为这份新的希望而躁动,满是憧憬又充满担忧。真等到技术成熟、普及……电不光能驱动月球车,还能绕在马桶圈里让妳坐在屁股底下,互联网不光能在军事、经济领域决胜千里,也能游走在每个人眼前、手边、枕头旁。那时人工智能应该也是如此吧,它能在特别高精尖的领域发挥人类无法企及的能力,也可以收了神通,容身在鹅卵石样的物件里,除了待机什么也不做。妳问它「嘿,那小谁,今天天气怎么样?」它反问妳是不是对每个会出声的东西都问同样问题,一个电子宠物为什么会知道天气怎样?妳赛博喂食,它倒不再嫌妳蠢,而是用我猜也猜不到的方式从妳的喂食里汲取养分,长成独一无二的家伙,陪妳快乐给妳添烦。人类最先进科技的结晶,该是多么具有个性又可爱呀,还不用花太多精力来照料。但是妳觉得它能取代猫吗?

fin.

让 MJ 学我画两张小画儿

By: Steven
7 April 2024 at 12:58

昨晚吃饭前跟儿子一起画画,我随便画了一下我们在 Minecarft 里的第二个家,和随便画的一个岩浆包围的高堡:

后来想说看看 Midjourney 能模仿成怎么程度,就丢进去试了一下:

emmm,画得还行……

就是画风不太相关,它有它的训练痕迹,哈哈哈哈哈哈哈~

测试所使用的 prompt:

Tree house, jungle, rainforest, simple little house –sref+空格+两张手绘图的地址 –ar 9:16 –s 50 –v 6.0 –style raw

艺术可以糊弄,体力劳作也是高级智能

By: Steven
19 March 2024 at 21:05

昨天发现 AAAny 更新了发图的功能,于是就顺势发起了一个讨论 AIGC 的话题

轶轩在话题下问我为什么对外发表的图都是一些细节比较丰富的类型,是否有基于 AIGC 的生成方式而做的一些突破方向的尝试。我觉得,针对这个问题,我可以在对他的回复上,再做一期视频来谈一谈我的观点。

用于风格参考的马列维奇的画作
基于马列维奇而生成的《城堡下的人群》

但与此同时,我也想做一些「简练」或「抽象」的图来辅助说明我的看法。于是,今天在工作之余,用一些碎片时间,做了一些图出来。

对此,我尝试比较随意地做了一些「东西」。它们都没有什么明确的「表达」,仅仅只是我随手写的一些 prompt,或者就是在 Midjourney 的社区里复制修改的 prompt,最终出来的东西都是一眼看上去有一些「意境」或者没那么精致细节的但表现比较能唬住人的图像。

你会发现,在这些人类认为偏「抽象」的表达上,AI 反而是比较容易做「好」的。

但是,这种好不是真的好,只是这些风格上,并不需要对细节有很认真的考据,在表现层面上是非常容易「糊弄」的。

这也是现当代艺术作品常常被人诟病的原因之一,因为那些作品浓缩了大量的思考和抽象提炼,但表现形式上,其实并没有比传统艺术更复杂,或更需要技艺和体力上的付出。也就是说,作为当代艺术最核心的「观念」,在完全不需要理解的情况下,一个外行的人或者一个数据量管够的 AI 就可以模仿出「看上去像那么回事」的东西。这种模棱两可的状态,恰恰是江湖神棍和 AIGC 擅长处理的对象。

这里说的「糊弄」「神棍」并非贬义,而是借着世俗的话语体系来表达,这样的「生成作品」并不需要 AI 具备「意识」和「创意」也可以轻松地实现。

那么,什么东西是更难的呢?

细节,是令人信服的细节。

这些是我用 AI 生成的男士剃须刀的设计方案。

你会发现,这些方案咋一看是那么回事,但只要你多看两秒,立刻就会意识到它不对。它们的空间关系、形态的处理、物理交互的关系、电子器件的布局,通通都有很大的问题。这些就是不可信的细节。

因为 AI 实际上并不理解它学习的那些图像。

这些令人信服的关键点,是无法糊弄的。因为它们当中包含了大量精确的思考和训练,也包含了海量的脑力和体力劳动,如果一个「智能体」不理解一个图像背后的复杂逻辑,那么它就没有办法真正地创作出这个对象。它只能模仿,只要模仿得足够像,就可以唬住外行。但是对于以此为生的从业者,这样的智能工具,还不足以成为生产力。设计师可以用这样的工具拓展自己的思维,但这些过程并不能替代设计行为。

从创意到落地,中间还有漫长的路需要人类设计师去走完。

现阶段,更适合工业设计使用 AIGC 的方式是这样:

我的意思并不是让 AI 画手绘图,这仅仅是一种表现方式。但是,这是一种不需要追求精确的表达方式,很适合 AI 用「抽卡」的方式来快速堆想法。除了这种,当然也可以让它生成上面剃须刀那样的图,但同样的,目的不在于出方案,而是借助 AI 的海量数据库,快速地堆出一批发散性思维的「胡编乱造」的混杂图像来。

人类的视野有限,但 AI 看得一定比人类个体的平均值多。

工业设计不是天马行空地想象,它是一种「劳作」。

从初期的构思,从草图推延到模型和效果图,再从设计方案导入结构设计和工艺、制程,这意味着工业设计不是一项纯脑力劳动,不是一种只运行在计算机里的行为。它包含的体力劳作同样是设计的一部份,甚至可以说,是更关键的那部份。这种体力劳作,不仅仅是肌肉和工具的配合,更是人脑对环境、事件、社会群体、物质的反应和处理,设计师的动作意味着这个人对世界的认知。这种程度的认知,对于只运行在计算机内,仍然缺少复杂的传感器和理解过程的 AI 而言,暂时还是无法实现的。

我当然相信它未来会具备这样的能力,但是在目前的技术条件下,依然需要大量的人类来完成这些真正代表了「智能」的「体力劳作」。

欢迎加入我们的讨论:

https://aaany.app/aaa/ltwu3txza

想注册体验 AAAny 的话,请给我留言

我会给你留言的邮箱发送注册邀请码

經濟再差也不能公開談論

By: Steven
17 March 2024 at 18:02

經濟狀況究竟有多糟糕呢?從各大品牌在售後策略、降價思路和運營的混亂程度等方面的表現,均可窺見一斑。尤其是當你置身於自媒體、電商與品牌運營三者的交匯點上,這種巨大的荒謬性將更加明顯。

上週末出差重慶,兩周沒在家,難得一個週末,結果倆人坐下後就被各自工作群里的事情纏著,不是回消息就是打電話,咖啡都沒喝上一口。

在國內的社交媒體似乎不讓提「經濟不好」這樣的事,與之相關的話也會被限制,索性我就轉成日語來發了:

経済状況は本当にどれほど悪いのでしょうか?各大ブランドのアフターサービス戦略、値引きの考え方、そして運営の混乱度などから、その一端を窺い知ることができます。特に、個人のネットワークソーシャルメディア、ECサイト、およびブランド運営の交差点に立つと、この巨大な不条理さがさらに明白になります。

先週末、出張で重慶に行ってきました。二週間も家に帰っていなかったので、久しぶりの週末を楽しみにしていたのですが、結果として、座った途端、それぞれの仕事グループからの連絡が絶えず届き、メッセージを返したり、電話をしたりすることに追われてしまいました。コーヒーすら一口も飲めないままです。

為什麼是轉日文不是英語呢?因為即便是英語,在內地的網絡環境里也顯得有些直白了。日語反而更有「似乎知道在說什麼,但根本看不懂」的戲劇化的「陌生化」的效果。

好不容易,終於把翻了一年的《夜航西飛》讀完了。

這是我今年讀完的第三本書。

昨天去宜家看洗手檯和鏡櫃,直到在餐廳排隊前一秒,都沒想起宜家給我發的領生日蛋糕的短信。可就是那麼巧,下周生日,昨天正猶豫要不要去店裡看看,我就慫恿筱燁說想幹就幹,這一來才想起有一個蛋糕等著領。這就是天注定的意思。

苹果停车转 AI 将引发人才大震荡

By: Steven
28 February 2024 at 20:16

1、没有 AI 的汽车、手机、电脑、平板等,将是一堆废铁;

2、一家公司的核心战略不能同时放在两个大方向上。

综上,停下造车全攻 AI 是非常明智的。

连键盘侠都知道「不难」的造车,没造出来不是造不出来,是制定的目标太远太高。苹果之前想一步到位搞出 L4 的移动座舱,但现阶段的人类还没有办法,这太难了。在他们之前的设想中,自动驾驶的汽车和 Apple Vision Pro 是可以放在同一个场景里的。但很显然,这个步子太大了。用新势力们的方式当然可以,但那不是苹果想做的。

最关键的是,AI 的大爆发是此前大家都没料到的。没有这事儿,车还是一个重要的方向,但这一波爆发的 AI 不是资本热潮,而是实打实的浪潮了,此时不全力转向,是真的会死的。况且苹果并不是没有在 AI 上投入的,这些年一直都在积累,只是权重还没拉到那么高。现在切方向,即是大势所趋的必须,也是归拢资源的必要。

过去 Jony 可以对供应商说,这里有一桶取不完的钱,你能做到你就能拿走,以此把工业设计拉高到一个令人望尘莫及的程度;今天的苹果比二十年前拥有更多的现金,有自己的芯片和庞大的人才库,有海量的设备和训练数据,可以说:

比起造车,AI 才是更适合苹果干的事;

干好 AI 所需的人才、数据、算力,也是他们的优势。

以苹果的财力,下这样的决心,恐怕要出现一次人才流动的大震荡。

原文发布于知乎提问:

苹果取消探索十年之久的电动汽车项目,将团队转向生成式 AI,原因有哪些?会带来哪些影响?

表达的精度就是人类外延的尺度|Midjourney 
V6 Alpha 自然语言生图测试

By: Steven
26 December 2023 at 01:14

Midjourney V6 的质感和细节,真的是飞跃式的成长!

和今年三月相比,已经完全脱胎换骨了。对自然语言的理解和再表达,也已经在渐渐脱离「咒语」的局限,结合 ChatGPT 的语言转译,一个人能够用母语把尚不明确的观念表达清晰,愈发显得重要。

点击图片,可查看原始尺寸高清大图:

当 AI 越来越擅长理解人类的自然语言,我们就愈发迫切地要掌握「用语言表达思想」这件事情。

因为语言的精度和颗粒度,将会在人类与 AI 的相处、合作中,展现出人类智力的上限所在,以及外延的纵深能够得着多远。

Upscale from Variations
Upscale(Subtle)
Upscale from Variations
Upscale(Subtle)
Upscaled (Subtle)
Upscaled (Creative)
Upscaled (Subtle)
Upscaled (Creative)
–Style 50
–Style 100
–Style 250
–Style 750
–Style 1000

❌
❌