Normal view

There are new articles available, click to refresh the page.
Yesterday — 9 December 2025Main stream

100 万亿 Token 揭秘全球用户怎么用 AI:一半算力用在「不可描述」的地方

By: 姚桐
9 December 2025 at 10:41

AI 领域迄今最大规模的用户行为实录,刚刚发布了。

这是全球模型聚合平台 OpenRouter 联合硅谷顶级风投 a16z 发布的一份报告,基于全球 100 万亿次真实 API 调用、覆盖 300+款 AI 模型、60+家供应商、超过 50% 非美国用户

我们能从里面看到人类真的在怎么用 AI,尤其是那些不会出现在官方案例、不会被写进白皮书的对话。

APPSO 从里面的发现了三个最反直觉的结论:

1. 人类最真实的刚需不是生产力,是「荷尔蒙」和「过家家」。超过50%的开源模型算力,被用来搞角色扮演、虚拟恋人和 NSFW 内容。写代码?那只是第二位。

2. 真正的高端用户根本不看价格标签,而便宜到几乎免费的模型,死得反而更快。早期抓住用户痛点的模型,会更容易锁住用户。

3. 中国模型只用一年就撕开了防线。 从 1.2% 到 30%,DeepSeek 和 Qwen 为代表的的国产模型一跃成为开源的王。

必须要注意的是:这份报告不可避免地带有「偏见」。

OpenRouter 的用户主要是个人开发者、中小企业、开源爱好者,而非 500 强企业。那些每月在 Azure、AWS 上烧掉数百万美元的大厂 AI 预算,并不在这份数据里。所以:

  • 中国模型的占比会被放大(中小开发者更愿意尝试开源和低价方案)
  • 开源模型的份额会被高(企业级用户更倾向闭源 API 的稳定性)
  • Roleplay 等「娱乐向」场景会显著偏高(大厂不会用公开 API 搞这些)
  • 企业级混合部署的真实用量看不到(那些都走私有化和 Azure OpenAI Service)

但回头想想,这恰恰是这份报告的价值所在。

当所有人在发布会上鼓吹 AI 如何改变生产力时,我们可以清楚看到:谁在裸泳,谁在通吃,谁在悄悄统治那些不可描述的领域

从 1% 到 30%,中国模型撕开 OpenAI 帝国的口子

如果把 AI 市场看作一张世界地图,2024 年之前,它是属于 OpenAI 和 Anthropic 的闭源帝国。他们筑起 API 的高墙,收着过路费,定义着规则。

但墙塌了。

看这张使用量分布图,开源模型(OSS)的 token 使用量已经飙升至总量的三分之一,而且这个数字还在以惊人的速度攀升。

2024 年夏天是一个分水岭时刻。

在此之前,市场是死水一潭。OpenAI 的 GPT 系列和 Anthropic 的 Claude 分食大部分蛋糕,开源模型只是点缀。

在此之后,随着 Llama 3.3 70B、DeepSeek V3、Qwen 3 Coder 的密集发布,格局瞬间攻守易形。那些曾经高高在上的 API 调用量,开始遭遇断崖式的分流。

这里必须专门谈谈中国模型的崛起,因为这是过去一年最具侵略性的叙事。

数据显示:

  • 2024 年初: 中国开源模型在全球使用量中的占比仅为 1.2%,几乎可以忽略不计
  • 2025 年末: 这个数字飙升至 30%,在某些周份甚至触及峰值

从 1.2% 到 30%,这是一场自下而上的包围战。

DeepSeek 以总计 14.37 万亿 token 的使用量稳居开源榜首,虽然其霸主地位正在被稀释,但体量依然惊人。Qwen 紧随其后,以 5.59 万亿 token 占据第二,而且在编程领域的表现极为凶猛,可以直接与 Claude 掰手腕。

更关键的是节奏。中国模型的发布周期极其密集。DeepSeek 几乎每个季度都有重大更新,Qwen 的迭代速度甚至更快。这种「高频打法」让硅谷的巨头们疲于应对:自己刚发布一个新模型,对手已经连发三个变种。

戳破 AI 泡沫,三个被忽略的真相

现在,让我们戳破那些想当然的泡沫,看看 AI 在真实世界里到底被用来干什么。

真相一:「小模型已死,中型崛起」

市场正在用脚投票,抛弃那些「又快又傻」的极小模型。

数据显示,参数量小于 15B 的模型份额正在暴跌。用户发现,速度再快也没用,如果 AI 傻得像个复读机,那还不如不用。

中型模型(15B-70B 参数)成为新宠。 这个市场甚至是被 Qwen2.5 Coder 32B 在 2024 年 11 月一手创造出来的。此前,这个参数区间几乎是空白;此后,Mistral Small 3、GPT-OSS 20B 等模型迅速跟进,形成了一个新的战场。

既不便宜又不够强的模型正在失去市场。你要么做到极致的强,要么做到极致的性价比。

真相二:不是 programming,更多是 playing

虽然我们在新闻里总看到 AI 如何提高生产力,但在开源模型的使用中,超过 50% 的流量流向了「角色扮演」(Roleplay)

更直白一点说:

超过一半的开源 AI 算力,被用来做这些事:

  • 虚拟恋人对话(「陪我聊天,记住我的喜好」)
  • 角色扮演游戏(「你现在是个精灵公主……」)
  • 互动小说生成(「继续这个故事,加入更多细节」)
  • 成人向内容创作(报告中标记为「Adult」类别,占比 15.4%)

这是基于 Google Cloud Natural Language 分类 API 对数亿条真实 prompt 的分析结果。当 AI 检测到一个请求属于 /Adult 或 /Arts & Entertainment/Roleplaying Games 时,这条请求就会被打上标签。

这意味着,对于海量 C 端用户而言,AI 首先是一个「情感投射对象」,其次才是一个工具

同时流媒体和硅谷巨头出于品牌形象(Brand Safety)考量,刻意回避甚至打压这一需求。但这恰恰造就了巨大的「供需真空」。用户对情感交互、沉浸式剧情、甚至 NSFW(少儿不宜上班别看)内容的渴求,被压抑在主流视线之外,最终在开源社区报复性爆发。

编程是第二大使用场景,占比 15-20%。 没错,写代码这件被媒体吹上天的事,在真实世界里只排第二。

所以真相是什么?

别装了。人类最真实的两大刚需,一个是荷尔蒙,一个是代码。 前者让人类感到陪伴和刺激,后者让人类赚到钱。其他那些「知识问答」「文档总结」「教育辅导」,加起来都不到这两者的零头。

这也解释了为什么开源模型能快速崛起,因为开源模型通常审查较少,允许用户更自由地定制性格和剧情,非常适合情感细腻的互动。

真相三:娱乐至死的 DeepSeek 用户

如果我们单独拉出 DeepSeek 的数据,会发现一个更极端的分布:

– Roleplay + Casual Chat(闲聊):约 67%
– Programming:仅占小部分

在这份报告里,DeepSeek 几乎是一个 C 端娱乐工具,而非生产力工具。它的用户不是在写代码,而是在和 AI「谈恋爱」。

这和 Claude 形成了鲜明对比。

机会只有一次,赢家通吃

为什么有的模型昙花一现,有的却像胶水一样粘住用户?

报告提出了一个概念:Cinderella 「Glass Slipper」Effect(灰姑娘的水晶鞋效应)

定义: 当一个新模型发布时,如果它恰好完美解决了用户长期未被满足的某个痛点(就像水晶鞋完美契合灰姑娘的脚),这批用户就会成为该模型的「死忠粉」(基础留存用户),无论后续有多少新模型发布,他们都很难迁移。

值得注意的是,机会只有一次。如果在发布初期(Frontier window)没能通过技术突破锁定这批核心用户,后续再怎么努力,留存率都会极低。

为什么?

因为用户已经围绕这个模型建立了整套工作流:

– 开发者把 Claude 集成进了 CI/CD 流程
– 内容创作者把 DeepSeek 的角色设定保存了几十个版本
– 切换成本不仅是技术上的,更是认知和习惯上的

赢家画像:DeepSeek 的「回旋镖效应」

DeepSeek 的留存曲线非常诡异:

用户试用 → 流失(去试别的模型)→ 过了一段时间骂骂咧咧地又回来了

这就是所谓的「回旋镖效应」(Boomerang Effect)。数据显示,DeepSeek R1 的 2025 年 4 月用户组,在第 3 个月出现了明显的留存率上升。

为什么他们回来了?

因为「真香」。在试遍了市面上所有模型后,发现还是 DeepSeek 性价比最高:

  • 免费或极低价
  • 角色扮演能力足够好
  • 没有恼人的内容审查

输家画像:Llama 4 Maverick 们的悲剧

相比之下,像 Llama 4 Maverick 和 Gemini 2.0 Flash 这样的模型,它们的留存曲线让人心疼:

从第一周开始就一路向下,永不回头。

为什么?因为它们来得太晚,也没啥绝活。当它们发布时,用户已经找到了自己的「水晶鞋」,新模型只能沦为「备胎」。

在 AI 模型市场,迟到的代价是永久性的边缘化。

各个 AI 的人设

在这场战争中,没有谁能通吃,大家都在自己的 BGM 里痛苦或狂欢。让我们给每个玩家贴上最准确的标签:

Claude (Anthropic):直男工程师的「神」

人设:偏科的理工男,只懂代码,不懂风情

数据不会撒谎,Claude 长期吃掉了 编程(Programming)领域 60% 以上 的份额。虽然最近略有下滑,但在写代码这件事上,它依然是那座不可逾越的高墙。

用户画像:
– 超过 80% 的 Claude 流量都跟技术和代码有关
– 几乎没人拿它来闲聊或角色扮演

Claude 就像那个班里的学霸——只有在考试时你才会找他,平时根本不会一起玩。

OpenAI:从「唯一的神」到「平庸的旧王」

人设:曾经的霸主,如今的工具箱

OpenAI 的份额变化极具戏剧性:
– 2024 年初: 科学类查询占比超过 50%
– 2025 年末: 科学类占比跌至不足 15%

它正在从「唯一的神」变成一个「什么都能干但什么都不精」的工具箱。虽然 GPT-4o Mini 的留存率依然能打,但在垂直领域,它已经不再是唯一的选择。

核心问题在于: 被自己的成功困住了。ChatGPT 让它成为大众品牌,但也让它失去了专业领域的锋芒。

Google (Gemini):通才的焦虑

人设:什么都想要,什么都不精

谷歌像个茫然的通才。法律、科学、翻译、通识问答都有它的身影,但:
– 在编程领域份额仅 15%
– 在角色扮演领域几乎不存在

但在一个越来越垂直化的市场里,通才意味着平庸。

DeepSeek:野蛮人的胜利

人设:不按常理出牌的颠覆者,C 端娱乐之王

DeepSeek 用极致的性价比撕开了口子,证明了即使不依靠最强的逻辑推理,靠「好玩」+「免费」也能打下江山。

核心数据:
– 总使用量 14.37 万亿 token(开源第一)
– 67% 的流量是娱乐和角色扮演
– 回旋镖效应明显,用户试完别的还是会回来

它的成功证明了一件事:在消费级市场,「足够好」+「足够便宜」+「没有限制」 就能通吃。

xAI (Grok):马斯克的「乱拳」打法

人设:半路杀出的程咬金,靠免费抢市场

Grok 的数据非常有趣:
– 早期 80% 都是程序员在用(Grok Code Fast 针对编程优化)
– 免费推广后,突然涌入大量普通用户,用户画像瞬间变杂

免费能拉来流量,但流量 ≠ 忠诚度。一旦收费,这批用户会立刻流失。

最后,让我们用一张图看懂这个江湖。

当前大模型市场已形成清晰的四大阵营格局:

首先是 「效率巨头」 阵营,以 DeepSeek、Gemini Flash 为代表,核心优势在于 「便宜大碗」 的高性价比,专为跑量场景设计,尤其适用于无需复杂逻辑推理的重复性 「脏活累活」,成为追求效率与成本平衡的首选。

其次是 「高端专家」 阵营,Claude 3.7 与 GPT-4 是该领域的标杆,尽管定价偏高,但凭借顶尖的准确率和复杂任务处理能力,赢得了企业用户的青睐。

与此同时,「长尾」 阵营的生存空间正持续收缩,数量众多的小模型因缺乏差异化优势和技术壁垒,正逐渐被市场淘汰。

此外,以中国模型为核心的 「颠覆者」 阵营正快速崛起,凭借高频迭代的技术更新、高性价比的定价策略以及深度本土化的适配能力,市场份额仍在持续扩张,成为搅动行业格局的关键力量。

藏在 100 万亿个 Token 背后的趋势

作为观察者,APPSO 从这份报告中观察到的一些趋势变化,或许将定义 AI 未来的竞争格局:

1. 多模型生态是常态,单模型崇拜是病态
开发者会像搭积木一样,用 Claude 写代码,用 DeepSeek 润色文档,用 Llama 做本地部署。忠诚度?不存在的。

2. Agent(智能体)已经吃掉了一半江山
推理模型(Reasoning Models)的份额已经超过 50%。我们不再只想要 AI 给个答案,我们想要 AI 给个「思考过程」。多步推理、工具调用、长上下文是新的战场。

3. 留存 > 增长
除了早期用户留存率,其他的增长数据都是虚荣指标。

4. 垂直领域的「偏科」比全能更有价值
Claude 靠编程通吃,DeepSeek 靠娱乐称王。想要什么都做的模型,最后什么都做不好。

5. 价格不是唯一变量,但「好用」是永远的硬通货
数据显示,价格和使用量之间相关性极弱。真正的高端用户对价格不敏感,而低端用户只认那几个「性价比神机」。夹在中间的平庸模型,死得最快。

6. 中国模型的进攻才刚刚开始
从 1.2% 到 30% 只用了一年。站稳脚跟后,下一步是什么?是定义规则,还是被规则驯化?这将是 2026 年最值得关注的故事。

AI 的世界不是由发布会上的愿景定义的,而是由用户每天真实发送的那万亿个 Token 定义的。

那些 Token 里,有人在写代码改变世界,也有人在和虚拟女友说晚安,理性的代码与感性的对话并行不悖。

或许不得不承认,AI的发展,也是人类欲望的延伸。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Before yesterdayMain stream

「欧洲版 DeepSeek」发布新模型,盯着中国 AI 打

By: 姚桐
4 December 2025 at 17:55

被称为「欧洲版 DeepSeek」的 Mistral AI 在被 OpenAI、Google 和中国开源模型 DeepSeek、Qwen 夹击大半年后,终于坐不住了,正式发布了新一代 Mistral 3 系列模型。

Mistral AI 是一家总部位于法国的大模型公司。据报道,今年 9 月,英伟达第三次出手投资这家初创企业。经此,Mistral 的估值达到约 135 亿美元,成为欧洲 AI 领域最受瞩目的独角兽之一。

这一次,Mistral 居然只盯着中国模型打

Mistral 3 这次带来了旗舰模型 Mistral Large 3,以及三款高性价比的小模型 Ministral (3B、8B、14B)。

其中 Mistral Large 3 是绝对的主角,总参数量为 675B,其中活跃参数为 41B,这是自 2023 年底至 2024 年初的 Mixtral 8x7B 和 8x22B 以来,Mistral 首个开放权重的混合专家模型。

但最让我感到「不对劲」的是官方的对比策略。

在官方的跑分图里,Mistral 竟然完全无视了 GPT-5.1 或 Gemini 3,而是直接把枪口对准了中国的 DeepSeek-V3.1 和 Kimi-K2。

Mistral 的逻辑很直接:我的参数量只有 Kimi 的一半左右,但我的性能跟你五五开,甚至更强。

官方晒出的成绩单如下:

  • 赢面: 在 MMMLU 和 AMC 上,Mistral Large 3 分别拿到了 85.5 和 52.0 的高分,略微领先 DeepSeek-V3.1。
  • 输面: 在程序员最关心的 LiveCodeBench 和 SimpleQA 上,Mistral Large 3 还是输给了 Kimi-K2。


比 DeepSeek 笨,还贵 3 倍?

虽然 Mistral 试图证明自己是「效率之王」,但在 X 上,科技博主直接泼了一盆冷水,甚至用了「Mistral 正在缓慢死亡 (slow death)」这样严重的词。

他的评价简单粗暴,列出了 Mistral 新模型的三大罪状:

1. 更笨: 脑子不如 DeepSeek 好使。
2. 更贵: 价格却是 DeepSeek 的 3 倍。
3. 更慢: 推理速度甚至比 GPT-5 还慢。

这确实戳到了痛点。在 Artificial Analysis 的最新综合 AI 指数榜单上,Mistral Large 3 的得分只有 38 分。

看看排在前面的是谁?Gemini 3 Pro(73分)、Claude Opus 4.5(70分)、GPT-5.1(70分)。Mistral 距离第一梯队的差距,已经不是「追赶」,而是断层了。

在 LMArena 排行榜中,它在开源非推理模型中排第二,总榜第六。成绩尚可,但绝对称不上「屠榜」。

有测试者发现 Mistral Large 3 各个方面都表现不佳:

  • 该模型难以正确执行工具调用,常会输出格式错误或无效的工具调用指令。
  • 在基于图像的基准测试中表现平平。

真正值得冲的,其实是小模型

Ministral 3 是所有开源模型中性价比最高的产品。每种参数规模均提供基础版、指令版和推理版,且均具备图像理解能力,全部基于 Apache 2.0 许可证开源。

这意味着什么?你可以免费商用,随便魔改。

  • 全能: 所有尺寸都支持图像理解,不再是「瞎子」 。
  • 能打: 14B 的推理版在 AIME’25 测试中准确率达到了 85%。

Mistral 3 确实进步了,就像网友说的那样:欧洲仍有一家前沿模型制造商能基本跟上中国开源模型的步伐,尽管 Mistral 尚未推出推理器,其实际性能仍落后于时代。

但在 DeepSeek 把大模型价格打下来的今天,仅仅做到「性能不错」已经不够了。用户要的是极致的聪明,或者极致的便宜。

目前的 Mistral ,似乎卡在了一个尴尬的中间位置。能不能成为「欧洲之光」,可能真得看后续的迭代了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


经视直播|多地学生称收到学校语音采集任务,有学校称与专业课成绩挂钩

30 November 2025 at 02:06

公众号:经视直播

img

11月25日,一名IP属地为湖北的网友在社交媒体上反映,其所在学校强制要求学生录制语音,供安徽某科技企业用于语音大模型产品训练,并将此任务与专业课成绩挂钩——未完成者将被要求重修。湖北炽升律师事务所吴兴剑律师对此指出,校方无权强制采集学生的生物特征信息,此举涉嫌侵犯个人隐私。

11月26日,经视直播记者联系到发帖者。发帖者拒绝透露学校名称,但出示了一份学校通知。通知中写明:“本次录音正常完成的同学,可获得以下课程平时分满分奖励,未完成同学,该门专业课平时成绩不合格,且此门专业课期末考试不能及格,必须重修。”

img

img

img

根据发帖者提供的信息,记者联系到涉事的安徽某科技企业。企业工作人员回应称,公司确实与部分学校存在付费语音采集合作,但强调数据采集严格遵循自愿原则。该工作人员还透露,公司在外省的语音采集业务大多由供应商负责,但对于供应商与学校之间的具体协商内容,以及校方是否向学生支付报酬,其表示并不清楚。

发帖者向记者表示,完成该任务仅能获得平时分奖励,并无金钱报酬。

img

记者在招聘平台上发现,类似的声音采集任务报酬约为每小时20至30元。另外,此类情况并非孤例。有网友反映,相关录音任务与学校日常教学内容无关,且对话题、时长及环境均有较高要求,非常麻烦。一名IP属地为吉林的网友称,自己甚至在发烧期间仍被辅导员要求与同学调换时间后录制。这名网友向记者透露,自己学校并未强制要求录音,自己没有参与录音,后续不了了之了。不过自始至终,学校未曾提及向参与学生支付报酬一事。

CDT 档案卡
标题:多地学生称收到学校语音采集任务,有学校称与专业课成绩挂钩
作者:经视直播
发表日期:2025.11.29
来源:微信公众号-经视直播
主题归类:人工智能
CDS收藏:公民馆
版权说明:该作品版权归原作者所有。中国数字时代仅对原作进行存档,以对抗中国的网络审查。详细版权说明

img

img

这些情况引发了公众对学校与相关AI企业、中间商之间是否存在利益关联、语音真实用途及数据安全性的质疑。有业内人士向经视直播记者表示,通过第三方采购用户语音已成为AI行业收集大模型训练样本的常见方式之一,但必须确保参与者知情并自愿,同时符合数据采集与使用的相关法规要求。

湖北炽升律师事务所吴兴剑律师进一步指出,声音属于公民生物特征信息,除国家法定部门外,任何组织或个人均无权强制采集。若学校利用学生生物特征信息谋取利益,不仅违背教育本质,更可能构成对个人隐私的侵犯。他提醒公众应重视对个人生物特征与隐私信息的保护,谨防信息泄露。

来源:经视直播

记者:承畴

编辑:谢斯

责编:王紫嫣、朱迪蓓、李家新

编审:田程

你刷抖音小红书不会变笨,但你的 AI 会

By: Selina
2 November 2025 at 18:23

好消息:AI 越来越好用了。

坏消息:越用它越笨。

无论是哪家 AI 厂商,现在都会在「长期记忆」「超长上下文储存」等方面下功夫,这样才能让用户用起来顺手、顺心。不过,最近一项研究发现,AI 未必就能越用越懂你、越用越聪明,还可能往反方向跑偏。

AI 也会认知退化?还不可逆?

研究者们用开源模型(如 LLaMA 等),做了一个小但精巧的实验。他们不是简单地在训练数据里混入一些错别字,而是想要模拟人类那种「无休止地刷着低质量、碎片化内容」的互联网生活,并用「持续预训练」(Continual Pre-training)的方式来模拟模型的长期暴露。

为了实现这个目标,他们从真实的社交媒体平台上筛选了两种「垃圾数据」,一种是「参与度驱动型垃圾」,也就是那些短平快、高人气、点赞和转发爆炸的帖子,类似于我们刷手机时那些只为博眼球的「流量密码」。

另一种是语义质量驱动型垃圾,那些充斥着「震惊」、「细思极恐」、「xxx 不存在了」这种夸张、耸动字眼的内容。他们将这些垃圾语料以不同的比例混合,持续喂食给模型,模拟剂量对「脑腐烂」的影响。

随后,他们让好几个大语言模型持续地、长时间地被投喂这些垃圾,作为训练语料。再用一系列基准测试来衡量 LLM 的「认知功能」,包括推理能力、长文本理解能力、安全性和道德判断,等等。

结果是:全面完蛋。模型的推理能力和长文本理解力出现了断崖式下跌,在处理复杂的逻辑推理任务和长篇幅内容时,表现出明显的退化。

当垃圾数据的比例从 0%提升到 100%时,模型的推理准确率急剧下降。这反映出模型越来越「懒得思考」,也越来越「记不住事」。

到底是什么原因呢?研究者深入分析后,发现了一个主要病灶:Thought-Skipping。

原本,一个优秀的 LLM 在解决复杂问题时,会生成一步步的中间推理过程;但在被「垃圾」腐蚀后,模型开始跳过这些中间步骤,直接给出一个粗糙的、可能是错误的答案。

就像一个原本逻辑缜密的律师,突然变得浮躁、敷衍,不再提供论证过程,而是随口丢出一个结论。

甚至,评估发现,模型在安全和伦理方面的表现也下降了,更容易屈服于负面 prompt,逐渐「黑化」。

这说明,当模型持续接触碎片化、煽动性的低质量文本时,它不仅能力下降,连「三观」也开始向互联网的平均值,甚至是「阴暗面」靠拢。

如果说这项研究里什么最让人倒吸凉气,恐怕就是整个过程的不可逆性。

研究员试图在中途进行补救,重新投喂了大量高品质的数据,还做了指令微调。但即便如此,模型的认知能力也无法完全恢复到最初的基线水平。

也就是说,垃圾数据已经从根本上改变了模型处理信息、构建知识的底层结构,这就像一块海绵被污水泡透了,即便再用清水清洗,也无法回到最初的纯净状态。

横扫「脑腐」,用好 AI

可是话说回来,这毕竟是实验,一个普通用户的「破坏力」应该不至于吧。

的确,没有人会故意给自己的 chatbot 喂垃圾数据,还如此大量高频。不过,这个实验的数据来源,正是社交媒体平台。

识别、抓取和总结社交媒体内容,是大模型产品的常见工作之一。有些人用它来帮忙,省下自己刷社交媒体的时间;有些则是为了更密切地发现信息,以免热点都凉了才看到。

这个实验恰恰反映了,模型在勤勤恳恳抓取内容的时候,自身暴露在了退化的风险当中。而这一切,用户都不会看到。

于是在不知不觉中,AI 被投喂了垃圾,生成了垃圾,你使用了垃圾,垃圾再进入互联网,用于下一轮训练,周而复始,陷入恶性循环。

这项研究最深刻的价值,在于它颠覆了我们对 AI 互动的传统认知:以前我们总觉得 AI 像一个等待填满的容器,输入什么都能消化。但现在看来,它更像一个敏感的孩子,对输入食物的质量非常挑剔。作为日常用户,我们与 AI 的每一次对话,都是在进行一次「微调」。

既然知道「思考跳过」是主要的病灶,那么我们日常使用 AI 时,就必须主动要求它进行「反向操作」。

首先要做的,就是警惕那些「完美的答案」。不管是要求 AI 总结一个长文章,或者写一份复杂的项目方案时,如果它只给出的结果,却没有显示任何逻辑依据和推理过程(尤其是在支持思维链的情况下),就要多留个心眼。

相比于让它反复调整结果,不如问一问它推理过程,「请列出你得出这个结论的全部步骤和分析依据」。强迫 AI 恢复推理链条,不仅能帮你验证结果的可靠性,也是在防止它在这次任务中养成「偷懒」的坏习惯。

另外,对于那些基于社交媒体的工作任务,要格外小心。基本上要把 AI 当个实习生,它能力或许很强,但是不够踏实靠谱,必须得有二次审核——实际上,我们的核查和纠正是极其宝贵的「高质量输入」。不管是指出「这里的数据来源是错的」,还是「你跳过了这个步骤」,都是在对模型进行一次有价值的微调,用高质量的反馈去抵抗互联网中的垃圾信息。

这项研究比较让人摸不着头脑的地方在于:难道要让 AI 少处理混乱的文件吗?这岂不是本末倒置?

确实,如果为了避免 AI 可能出现的脑腐症状,而只让它处理结构化程度更高的数据,那 AI 的价值就少了一半。我们使用 AI,恰恰在于处理那些混乱的、充满重复句和情绪化表达的非结构化数据。

不过还是可以平衡一下,继续让 AI 执行信息整理工作,只不过在 AI 面对低质量输入前,就给 AI 更清晰的指令。

比如,「总结这份聊天记录」,容易让 AI 闷头只出结构。而更细化的「将这份聊天记录进行分类处理,识别对话人物,去除口癖和连接词,再提炼出客观信息」,就在强行促使 AI 先思考一轮,整理出内部行动指南,再展开工作。

用户不是不能用 AI 处理垃圾数据,毕竟这是它最能发挥的地方。只不过,为了降低 AI「脑腐」的风险,要用结构化的指令和高质量的反馈,将 AI 变成一个高效的「垃圾处理和净化器」,而不是让它被垃圾信息同化。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌
❌