Reading view

There are new articles available, click to refresh the page.

你刷抖音小红书不会变笨,但你的 AI 会

好消息:AI 越来越好用了。

坏消息:越用它越笨。

无论是哪家 AI 厂商,现在都会在「长期记忆」「超长上下文储存」等方面下功夫,这样才能让用户用起来顺手、顺心。不过,最近一项研究发现,AI 未必就能越用越懂你、越用越聪明,还可能往反方向跑偏。

AI 也会认知退化?还不可逆?

研究者们用开源模型(如 LLaMA 等),做了一个小但精巧的实验。他们不是简单地在训练数据里混入一些错别字,而是想要模拟人类那种「无休止地刷着低质量、碎片化内容」的互联网生活,并用「持续预训练」(Continual Pre-training)的方式来模拟模型的长期暴露。

为了实现这个目标,他们从真实的社交媒体平台上筛选了两种「垃圾数据」,一种是「参与度驱动型垃圾」,也就是那些短平快、高人气、点赞和转发爆炸的帖子,类似于我们刷手机时那些只为博眼球的「流量密码」。

另一种是语义质量驱动型垃圾,那些充斥着「震惊」、「细思极恐」、「xxx 不存在了」这种夸张、耸动字眼的内容。他们将这些垃圾语料以不同的比例混合,持续喂食给模型,模拟剂量对「脑腐烂」的影响。

随后,他们让好几个大语言模型持续地、长时间地被投喂这些垃圾,作为训练语料。再用一系列基准测试来衡量 LLM 的「认知功能」,包括推理能力、长文本理解能力、安全性和道德判断,等等。

结果是:全面完蛋。模型的推理能力和长文本理解力出现了断崖式下跌,在处理复杂的逻辑推理任务和长篇幅内容时,表现出明显的退化。

当垃圾数据的比例从 0%提升到 100%时,模型的推理准确率急剧下降。这反映出模型越来越「懒得思考」,也越来越「记不住事」。

到底是什么原因呢?研究者深入分析后,发现了一个主要病灶:Thought-Skipping。

原本,一个优秀的 LLM 在解决复杂问题时,会生成一步步的中间推理过程;但在被「垃圾」腐蚀后,模型开始跳过这些中间步骤,直接给出一个粗糙的、可能是错误的答案。

就像一个原本逻辑缜密的律师,突然变得浮躁、敷衍,不再提供论证过程,而是随口丢出一个结论。

甚至,评估发现,模型在安全和伦理方面的表现也下降了,更容易屈服于负面 prompt,逐渐「黑化」。

这说明,当模型持续接触碎片化、煽动性的低质量文本时,它不仅能力下降,连「三观」也开始向互联网的平均值,甚至是「阴暗面」靠拢。

如果说这项研究里什么最让人倒吸凉气,恐怕就是整个过程的不可逆性。

研究员试图在中途进行补救,重新投喂了大量高品质的数据,还做了指令微调。但即便如此,模型的认知能力也无法完全恢复到最初的基线水平。

也就是说,垃圾数据已经从根本上改变了模型处理信息、构建知识的底层结构,这就像一块海绵被污水泡透了,即便再用清水清洗,也无法回到最初的纯净状态。

横扫「脑腐」,用好 AI

可是话说回来,这毕竟是实验,一个普通用户的「破坏力」应该不至于吧。

的确,没有人会故意给自己的 chatbot 喂垃圾数据,还如此大量高频。不过,这个实验的数据来源,正是社交媒体平台。

识别、抓取和总结社交媒体内容,是大模型产品的常见工作之一。有些人用它来帮忙,省下自己刷社交媒体的时间;有些则是为了更密切地发现信息,以免热点都凉了才看到。

这个实验恰恰反映了,模型在勤勤恳恳抓取内容的时候,自身暴露在了退化的风险当中。而这一切,用户都不会看到。

于是在不知不觉中,AI 被投喂了垃圾,生成了垃圾,你使用了垃圾,垃圾再进入互联网,用于下一轮训练,周而复始,陷入恶性循环。

这项研究最深刻的价值,在于它颠覆了我们对 AI 互动的传统认知:以前我们总觉得 AI 像一个等待填满的容器,输入什么都能消化。但现在看来,它更像一个敏感的孩子,对输入食物的质量非常挑剔。作为日常用户,我们与 AI 的每一次对话,都是在进行一次「微调」。

既然知道「思考跳过」是主要的病灶,那么我们日常使用 AI 时,就必须主动要求它进行「反向操作」。

首先要做的,就是警惕那些「完美的答案」。不管是要求 AI 总结一个长文章,或者写一份复杂的项目方案时,如果它只给出的结果,却没有显示任何逻辑依据和推理过程(尤其是在支持思维链的情况下),就要多留个心眼。

相比于让它反复调整结果,不如问一问它推理过程,「请列出你得出这个结论的全部步骤和分析依据」。强迫 AI 恢复推理链条,不仅能帮你验证结果的可靠性,也是在防止它在这次任务中养成「偷懒」的坏习惯。

另外,对于那些基于社交媒体的工作任务,要格外小心。基本上要把 AI 当个实习生,它能力或许很强,但是不够踏实靠谱,必须得有二次审核——实际上,我们的核查和纠正是极其宝贵的「高质量输入」。不管是指出「这里的数据来源是错的」,还是「你跳过了这个步骤」,都是在对模型进行一次有价值的微调,用高质量的反馈去抵抗互联网中的垃圾信息。

这项研究比较让人摸不着头脑的地方在于:难道要让 AI 少处理混乱的文件吗?这岂不是本末倒置?

确实,如果为了避免 AI 可能出现的脑腐症状,而只让它处理结构化程度更高的数据,那 AI 的价值就少了一半。我们使用 AI,恰恰在于处理那些混乱的、充满重复句和情绪化表达的非结构化数据。

不过还是可以平衡一下,继续让 AI 执行信息整理工作,只不过在 AI 面对低质量输入前,就给 AI 更清晰的指令。

比如,「总结这份聊天记录」,容易让 AI 闷头只出结构。而更细化的「将这份聊天记录进行分类处理,识别对话人物,去除口癖和连接词,再提炼出客观信息」,就在强行促使 AI 先思考一轮,整理出内部行动指南,再展开工作。

用户不是不能用 AI 处理垃圾数据,毕竟这是它最能发挥的地方。只不过,为了降低 AI「脑腐」的风险,要用结构化的指令和高质量的反馈,将 AI 变成一个高效的「垃圾处理和净化器」,而不是让它被垃圾信息同化。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


MacBook Pro M5 首发评测:苹果最接近「游戏本」的一次?

在过去的很长时间里,「用 Mac 打游戏」一直是网络上一个长久不衰的梗。

但是伴随着近几年苹果深耕 macOS 软件生态、开始主动加大和游戏厂商的合作力度之后,我们得以在 Mac 上见到越来越多经典 IP,「用 Mac 打游戏」听起来似乎不是那么离谱了。

而这背后的一切,除了苹果难得的主动合作态度之外,更要归功于 Apple Silicon 自身在性能和功耗方面的提升。

这不,苹果又在前两天发布了使用 M5 处理器的三款新品:iPad Pro、MacBook Pro 以及 Vision Pro。

爱范儿收到的这台 14 寸 MacBook Pro 是 10+10 核心的 M5 标准版,内存规格为 M5 所支持的最大容量 32GB,以及 1TB 的硬盘,和一块纳米纹理玻璃的抗眩光屏幕:

和今年有抗眩光涂层的 iPhone 17 Pro 相比,MacBook Pro 上纳米纹理玻璃 + 抗反射涂层的组合,无论是在泛光的室外还是充满点光源的室内,消除反光的效果都相当出色。

但 M5 MacBook Pro 的外围硬件和前代其实没有区别,真正让它脱颖而出的,还得是机身里的这块 M5 处理器。

今年的 M5,是继 M3 和 M4 以来,苹果连续第三年推出 3nm 处理器了。M5 的制造工艺换成了 A19 Pro 同款的第三代台积电 3 纳米工艺(N3P)。

换句话说,和 A19 Pro 师出同门的新架构,让 M5 的能效比得到了进一步提升,也让 MacBook 原本就很强的离电续航更上一层楼,哪怕是 14 寸机型也能做到「电脑续航比人长」。

更重要的是,今年 M5 处理器的升级大部分集中在 GPU 上。N3P 工艺优秀的能效比,让这一次 MacBook Pro 的性能释放更加大胆。

就拿 macOS 平台上最主流的 3A 大作《赛博朋克 2077》来说,M5 的 MacBook Pro 使用游戏默认的「for this mac」配置时,能够在大部分画质选项为中或高的前提下实现离电 30 帧的表现。

而打开 FSR 和帧生成后,2077 则可以以接近游戏默认的「中画质」配置里跑到稳定 50-60 帧左右,同时维持你在星巴克的座位不变,不用接电源。

类似的情况也出现在 App Store 上的《控制:终极合辑》,以及爱范儿编辑部最近都在玩的《逃离鸭科夫》中。只需要一点点画质微调,M5 MacBook Pro 都可以稳在 60 帧以上:

换个角度看,这个体验其实已经接近了当年 GTX 1660 的表现。App Store 和 Steam 上越来越丰富的游戏库,满足了 Mac 用户在出差高铁上也能玩玩搜打撤的愿望。

另一方面,M5 最大的升级点还在于它为每颗 GPU 核心都内置了「新一代神经网络加速器」,相当于让 M5 有了个 10 核的 NPU。

这样一来,M5 的 AI 性能——尤其是本地 AI 性能,就有了相当坚实的基础。

以苹果在官方视频中演示过的 Msty Studio 为例,作为一款功能类似 Ollama 但模型库更丰富的「开源模型本地化部署工具」,Msty Studio 最主要的功能,就是可以让你的 Mac 在断网情况下跑语言模型。

我们以最体现性能的「首词元响应速度」表现为标准可以看到,纯本地运行的 DeepSeek-R1:8b 在 10 核心 GPU 的 M5 上运行时,对于相同的一段生成指令,它的速度追平了 24 核 GPU 的 M1 Max

相当于 M5 用不到一半的核心数量,就可以获得与两三年前 Pro 甚至 Max 规格的 Apple Silicon 相当,同时发热量和功耗还控制在一个相当优秀的水平。

更重要的是,类似的表现也可以在其他本地化的 AI 场景中复现。

比如在纯本地运行的 AI 视频画质增强工具 VidHex 中,在进行视频细节增强时,10 核的 M5 同样出现了追平甚至反超 24 核 M1 Max 的现象。

但在测试过这么多本地 AI 工具之后,我们也不由得产生了一个疑惑:

开源的本地 AI 模型虽然免费,但部署起来比较麻烦,其中很多也没有非常直观的图形界面、必须在终端里面用 CLI(命令行界面)去微调——

而那些收费的本地 AI 工具,实际上就是在卖一个打包好的 GUI(图形界面)。现在云端模型不仅性能更强,价格也逐渐亲民,你觉得「本地化部署和运行 AI 模型」能够对你的电脑购买决策产生影响吗?

总之,对于 M5 的端侧 AI 性能,爱范儿认为:苹果官网上宣传的「相比 M1 有四到六倍的提升」是比较贴切的,不仅是可以稳定的「10 核打 24 核」,同时还有更优秀的发热和功耗控制。

M5 这样一来,就很难不让人期待明年 M5 Pro 和 M5 Max 的表现了,或许可以催生另一批多台 Mac Studio 组网做超算的潮流。

不过就在前两个月,M4 家族的 MacBook Pro 刚刚经历过一轮国补,新的 M5 基础款并不能和 M4 Pro/Max 形成替代关系。

因此今年值得升级 M5 基础版 MacBook Pro 的,更多还是那些仍在坚守 M1 或 M2 系列的老用户,就比如爱范儿编辑部那位还在用 M1 Max 的编辑。

至于爆料中那个模具更新、去除刘海的新 MacBook,则至少要到明年的 M6 机型才有希望了。如果你是 M4 家族的用户,那么小挤一管牙膏的 M5 并不是具有说服力的换机理由。

总之,爱范儿今年对于 M5 MacBook Pro 的结论,依然与前两代相同:

Mac 依然是一个「你必须非常明确自己的需求」才值得入手的优秀工具——如果你不确定自己需不需要一台 Mac,那么就是不需要

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌