Normal view

There are new articles available, click to refresh the page.
Yesterday — 9 December 2025Main stream

Mamdani Confirms He Will Leave Queens One-Bedroom for Gracie Mansion

9 December 2025 at 01:22
Mayor-elect Zohran Mamdani and his wife, Rama Duwaji, will move into the official residence in Manhattan sometime after his inauguration.

© Vincent Alban/The New York Times

Most New York City mayors opt to live in Gracie Mansion, in Yorkville, on the Upper East Side, in part because of its security apparatus.
Before yesterdayMain stream

用 460 万美元追上 GPT-5?Kimi 团队首次回应一切,杨植麟也来了

By: 张子豪
11 November 2025 at 14:14

上周 Kimi K2 Thinking 发布,开源模型打败 OpenAI 和 Anthropic,让它社交媒体卷起不小的声浪,网友们都在说它厉害,我们也实测了一波,在智能体、代码和写作能力上确实进步明显。

刚刚 Kimi 团队,甚至创始人杨植麟也来了,他们在 Reddit 上举办了一场信息量爆炸的 AMA(有问必答)活动。

▲ Kimi 团队三位联创,杨植麟、周昕宇、吴育昕参与回答

面对社区的犀利提问,Kimi 不仅透露了下一代模型 K3 的线索、核心技术 KDA 的细节,还毫不避讳地谈论了 460 万的成本,以及与 OpenAI 在训练成本、产品哲学上的巨大差异。

  • 460 万美元这个数字不是官方的数字,具体的训练成本很难量化到多少钱
  • K3 什么时候来,是看奥特曼的万亿美元数据中心什么时候建成
  • K3 的技术将会继续沿用,当前效果显著的 KDA 注意力机制
  • 视觉模型还需要我们去采集更多的数据,但目前已经在做了……

我们为你整理了这场 AMA 中最值得关注的几个核心焦点,来看看这家现在算是国产开源老大的 AI 实验室,是如何看待他们的模型,和未来 AI 的发展。

叫板 OpenAI,「我们有自己的节奏」

在这场 AMA 中,火药味最足的部分,大概就是 Kimi 团队对 OpenAI 的隔空回应。

最大的噱头之一:K3 什么时候来?Kimi 团队的回答非常巧妙:「在奥特曼的万亿美元数据中心建成之前。

很明显这一方面是幽默,因为没有人知道 OpenAI 到底什么时候才能建成那个数据中心,另一方面似乎也在回应外界对于 Kimi 能用更少资源追赶 GPT-5 的赞叹。

当有网友贴脸开大,直接问 Kimi 怎么看 OpenAI 要花这么多钱在训练上时,Kimi 坦言:「我们也不知道,只有奥特曼自己才知道」,并强硬地补充道,「我们有自己的方式和节奏。

这种自己的节奏,首先体现在产品哲学上。当被问到是否会像 OpenAI 一样发布 AI 浏览器时,团队直言 No:

我们不需要创建另一个 chromium 包装器(浏览器套壳),来构建更好的模型。

他们强调,目前的工作还是专注于模型训练,能力的体现会通过大模型助手来完成。

在训练成本和硬件上,Kimi 也展现了精打细算的一面。社区好奇 K2 的训练成本是否真的是传闻中的 460 万美元,Kimi 澄清了这个数字并不正确,但表示大部分的钱都是花在研究和实验上,很难具体量化。

至于硬件,Kimi 承认他们使用的是 H800 GPU 和 Infiniband,虽然「不如美国的顶级 GPU 好,而且数量上也不占优势」,但他们充分利用了每一张卡。

模型的个性与 AI 的垃圾味

一个好的模型,不仅要有智商,还要有个性。

很多用户喜欢 Kimi K2 Instruct 的风格,认为它「比较少的谄媚,同时又像散文一样,有洞察力且独特」。

Kimi 解释说,这是「预训练(提供知识)+ 后训练(增添风味)」共同作用的结果。不同的强化学习配方(即奖励模型的不同选择)会得到不同的风格,而他们也会有意的把模型设计为更不谄媚

▲大语言模型情商评估排名,图片来源:https://eqbench.com/creative_writing.html

但与此同时,也有用户直言 Kimi K2 Thinking 的写作风格太「AI Slop 垃圾」,无论写什么话题,风格都太过于积极和正面,导致读起来 AI 味就是很重。他还举例子说,要 Kimi 写一些很暴力很对抗的内容,它还是把整体的风格往积极正面那边去靠近。

Kimi 团队的回答非常坦诚,他们承认这是大语言模型的常见问题,也提到现阶段的强化学习,就是会刻意地放大这种风格。

这种用户体感与测试数据的矛盾,也体现在对 Benchmark(跑分)的质疑上。有网友尖锐地提问,Kimi K2 Thinking 是不是专门针对 HLE 等跑分进行了训练,才会取得如此高分?毕竟这么高的分数,好像和他实际使用中的智能不太匹配。

对此,Kimi 团队解释说,他们在改进自主推理方面取得了一些微小的进展,这刚好让 K2 Thinking 在 HLE 上得分很高。但他们也坦诚了努力的方向,要进一步提升通用能力,以便在更多实际应用场景中和跑分一样聪明。

网友还说,你看马斯克的 Grok 因为做了很多 NSFW (非工作安全) 的工作,生成图片和视频;Kimi 完全可以利用自己的写作优势,让它完成一些 NSFW 的写作,一定能为 Kimi 带来很多用户的。

Kimi 只能笑而不语,说这是一个很好的建议。未来是否会支持 NSFW 内容,可能还需要找到一些年龄验证的方法,也需要进一步做好模型的对齐工作。

很明显,现阶段 Kimi 是不可能支持 NSFW。

核心技术揭秘:KDA、长推理与多模态

作为一家被称为「开源先锋实验室」的公司,而 Reddit 本身就是也是一个非常庞大和活跃的技术社区,Kimi 也在这次的 AMA 中,分享了大量的技术细节。

10 月底,Kimi 在《Kimi Linear: An Expressive, Efficient Attention Architecture》的论文,详细介绍了一种新型混合线性注意力架构 Kimi Linear,其核心正是 Kimi Delta Attention (KDA)。

▲KDA 算法实现,论文链接:https://arxiv.org/pdf/2510.26692

通俗来说,注意力(Attention)就是 AI 在思考时,决定应该重点关注上下文哪些词语的机制。和常见的完全注意力和线性注意力不同,KDA (Kimi Delta Attention),是一种更智能、更高效的注意力机制

在这次 AMA 活动中,Kimi 也多次提到,KDA 在长序列强化学习场景中展现了性能提升,并且 KDA 相关的想法很可能在 K3 中应用。

但 Kimi 也坦言,技术是有取舍的。目前混合注意力的主要目的是节省计算成本,并不是为了更好的推理,在长输入和长输出任务上,完全注意力的表现依然是更好的。

那么,Kimi K2 Thinking 是如何做到超长推理链的呢,最多 300 个工具的思考和调用,还有网友认为甚至比 GPT-5 Pro 还要好?

▲ Kimi Linear 模型结构

Kimi 认为这取决于训练方式,他们倾向于使用相对更多的思考 token 以获得最佳结果。此外,K2 Thinking 也原生支持 INT4,这也进一步加速了推理过程。

我们在之前的 Kimi K2 Thinking 文章中也分享了 INT4 的量化训练技术,这是一种高效的量化技术(INT4 QAT),Kimi 没有训练完再压缩,而是在训练过程中,就保持了低精度运算模型。

这能带来两个巨大的优势,一个是推理速度的提升,一个是长链条的推理,不会因为训练完再进行的压缩量化,而造成逻辑崩溃。

最后,关于外界期待的视觉语言能力,Kimi 明确表示:目前正在完成这项工作。

之所以先发布纯文本模型,是因为视觉语言模型的数据获取,还有训练,都需要非常多的时间,团队的资源有限,只能优先选择一个方向。

生态、成本与开放的未来

对于开发者和普通用户关心的问题,Kimi 团队也一一作答。

为什么之前能处理 1M 上下文的模型消失了?Kimi 的回答言简意赅:「成本太高了。」而对于 256K 上下文在处理大型代码库时依然不够用的问题,团队表示未来会计划增加上下文长度。

在 API 定价上,有开发者质疑为何按「调用次数」而非 token 收费。对使用 Claude Code 等其他智能体工具进行编程的用户来说,基于 API 请求次数的计费方式,是最不可控且最不透明的。

在发送提示之前,用户根本无法明确工具将发起多少次 API 调用,或者任务将持续多长时间。

▲Kimi 会员计划

Kimi 解释说,我们用 API 调用,是为了让用户更清楚的知道费用是怎么消耗的,同时符合他们团队的成本规划,但他们也松口表示会看看是否有更好的计算方法。

当有网友提到自己公司不允许使用其他聊天助手时,Kimi 借机表达了他们的核心理念:

我们拥抱开源,因为我们相信通用人工智能应该是一个带来团结而不是分裂的追求。

而对于那个终极问题——AGI 什么时候到来?Kimi 认为 AGI 很难定义,但人们已经开始感受到这种 AGI 的氛围,更强大的模型也即将到来。

和去年疯狂打广告营销的 Kimi 不同,在这场 AMA 力,杨植麟和团队成员的回答;确实能让人感受到在国产开源,逐渐占据全球大语言模型开源市场的背景下,Kimi 也更加有底气,更明确了自己的节奏。

而这个节奏很明显,就是在这场烧钱、甚至卷太空的 AI 竞赛中,继续走开源的路,才能推动技术往前走。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


你刷抖音小红书不会变笨,但你的 AI 会

By: Selina
2 November 2025 at 18:23

好消息:AI 越来越好用了。

坏消息:越用它越笨。

无论是哪家 AI 厂商,现在都会在「长期记忆」「超长上下文储存」等方面下功夫,这样才能让用户用起来顺手、顺心。不过,最近一项研究发现,AI 未必就能越用越懂你、越用越聪明,还可能往反方向跑偏。

AI 也会认知退化?还不可逆?

研究者们用开源模型(如 LLaMA 等),做了一个小但精巧的实验。他们不是简单地在训练数据里混入一些错别字,而是想要模拟人类那种「无休止地刷着低质量、碎片化内容」的互联网生活,并用「持续预训练」(Continual Pre-training)的方式来模拟模型的长期暴露。

为了实现这个目标,他们从真实的社交媒体平台上筛选了两种「垃圾数据」,一种是「参与度驱动型垃圾」,也就是那些短平快、高人气、点赞和转发爆炸的帖子,类似于我们刷手机时那些只为博眼球的「流量密码」。

另一种是语义质量驱动型垃圾,那些充斥着「震惊」、「细思极恐」、「xxx 不存在了」这种夸张、耸动字眼的内容。他们将这些垃圾语料以不同的比例混合,持续喂食给模型,模拟剂量对「脑腐烂」的影响。

随后,他们让好几个大语言模型持续地、长时间地被投喂这些垃圾,作为训练语料。再用一系列基准测试来衡量 LLM 的「认知功能」,包括推理能力、长文本理解能力、安全性和道德判断,等等。

结果是:全面完蛋。模型的推理能力和长文本理解力出现了断崖式下跌,在处理复杂的逻辑推理任务和长篇幅内容时,表现出明显的退化。

当垃圾数据的比例从 0%提升到 100%时,模型的推理准确率急剧下降。这反映出模型越来越「懒得思考」,也越来越「记不住事」。

到底是什么原因呢?研究者深入分析后,发现了一个主要病灶:Thought-Skipping。

原本,一个优秀的 LLM 在解决复杂问题时,会生成一步步的中间推理过程;但在被「垃圾」腐蚀后,模型开始跳过这些中间步骤,直接给出一个粗糙的、可能是错误的答案。

就像一个原本逻辑缜密的律师,突然变得浮躁、敷衍,不再提供论证过程,而是随口丢出一个结论。

甚至,评估发现,模型在安全和伦理方面的表现也下降了,更容易屈服于负面 prompt,逐渐「黑化」。

这说明,当模型持续接触碎片化、煽动性的低质量文本时,它不仅能力下降,连「三观」也开始向互联网的平均值,甚至是「阴暗面」靠拢。

如果说这项研究里什么最让人倒吸凉气,恐怕就是整个过程的不可逆性。

研究员试图在中途进行补救,重新投喂了大量高品质的数据,还做了指令微调。但即便如此,模型的认知能力也无法完全恢复到最初的基线水平。

也就是说,垃圾数据已经从根本上改变了模型处理信息、构建知识的底层结构,这就像一块海绵被污水泡透了,即便再用清水清洗,也无法回到最初的纯净状态。

横扫「脑腐」,用好 AI

可是话说回来,这毕竟是实验,一个普通用户的「破坏力」应该不至于吧。

的确,没有人会故意给自己的 chatbot 喂垃圾数据,还如此大量高频。不过,这个实验的数据来源,正是社交媒体平台。

识别、抓取和总结社交媒体内容,是大模型产品的常见工作之一。有些人用它来帮忙,省下自己刷社交媒体的时间;有些则是为了更密切地发现信息,以免热点都凉了才看到。

这个实验恰恰反映了,模型在勤勤恳恳抓取内容的时候,自身暴露在了退化的风险当中。而这一切,用户都不会看到。

于是在不知不觉中,AI 被投喂了垃圾,生成了垃圾,你使用了垃圾,垃圾再进入互联网,用于下一轮训练,周而复始,陷入恶性循环。

这项研究最深刻的价值,在于它颠覆了我们对 AI 互动的传统认知:以前我们总觉得 AI 像一个等待填满的容器,输入什么都能消化。但现在看来,它更像一个敏感的孩子,对输入食物的质量非常挑剔。作为日常用户,我们与 AI 的每一次对话,都是在进行一次「微调」。

既然知道「思考跳过」是主要的病灶,那么我们日常使用 AI 时,就必须主动要求它进行「反向操作」。

首先要做的,就是警惕那些「完美的答案」。不管是要求 AI 总结一个长文章,或者写一份复杂的项目方案时,如果它只给出的结果,却没有显示任何逻辑依据和推理过程(尤其是在支持思维链的情况下),就要多留个心眼。

相比于让它反复调整结果,不如问一问它推理过程,「请列出你得出这个结论的全部步骤和分析依据」。强迫 AI 恢复推理链条,不仅能帮你验证结果的可靠性,也是在防止它在这次任务中养成「偷懒」的坏习惯。

另外,对于那些基于社交媒体的工作任务,要格外小心。基本上要把 AI 当个实习生,它能力或许很强,但是不够踏实靠谱,必须得有二次审核——实际上,我们的核查和纠正是极其宝贵的「高质量输入」。不管是指出「这里的数据来源是错的」,还是「你跳过了这个步骤」,都是在对模型进行一次有价值的微调,用高质量的反馈去抵抗互联网中的垃圾信息。

这项研究比较让人摸不着头脑的地方在于:难道要让 AI 少处理混乱的文件吗?这岂不是本末倒置?

确实,如果为了避免 AI 可能出现的脑腐症状,而只让它处理结构化程度更高的数据,那 AI 的价值就少了一半。我们使用 AI,恰恰在于处理那些混乱的、充满重复句和情绪化表达的非结构化数据。

不过还是可以平衡一下,继续让 AI 执行信息整理工作,只不过在 AI 面对低质量输入前,就给 AI 更清晰的指令。

比如,「总结这份聊天记录」,容易让 AI 闷头只出结构。而更细化的「将这份聊天记录进行分类处理,识别对话人物,去除口癖和连接词,再提炼出客观信息」,就在强行促使 AI 先思考一轮,整理出内部行动指南,再展开工作。

用户不是不能用 AI 处理垃圾数据,毕竟这是它最能发挥的地方。只不过,为了降低 AI「脑腐」的风险,要用结构化的指令和高质量的反馈,将 AI 变成一个高效的「垃圾处理和净化器」,而不是让它被垃圾信息同化。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


播客的收听数据似乎很符合我的期待

By: Steven
7 June 2024 at 00:30

其实有点出乎我意料,除了 Apple Vision Pro 那期,最受欢迎的居然是聊《九龙城寨》和《暗恋桃花源》的这两期。而且,刚发的《谈判专家》这期的收听量也在稳定上涨。聊 AI 那期尽管内容很多,但收听量比这些都少得多。

从博客后台数据能看到,最近一周的主要收听量中,三分之二都来自这三期聊戏聊剧的节目。

我原本以为,收听我节目的主要人群,是过去在知乎和 B站看我讲设计的读者和观众。

这么看下来,我有一个猜测:收听我播客的人群当中,有很大一部分比例,可能是此前并不认识我的路人,他们对科技类话题的兴趣,没有对娱乐类型的话题高。

挺好的,这也挺符合我最初对播客的预期,这样我就可以不用老聊设计和产品了!

荒野楼阁 WildloG:https://suithink.me/zlink/podcast/

小宇宙: https://suithink.podcast.xyz

Spotify:荒野楼阁 WildloG

YouTube:荒野楼阁 WildloG

Apple Podcast 在中国大陆地区目前只支持通过 URL 订阅:

https://suithink.me/category/podcast/feed/

更好的问题,总是在交流之后才出现的

By: Steven
14 December 2023 at 11:40

前两天,我收到 AAAny 的 Wenbo 发来的邮件,问我是否有兴趣注册他们的 APP 体验。我一看就乐了,立马截图发给汉洋和轶轩,开玩笑地问道:「我是不是应该告诉他,我早就注册了?」

这个叫做 AAAny 的新问答社区是汉洋他们团队,从 redit 等社区平台的使用中,萌生的对于「Ask Anyone Anything」的重新思考,所做出的产品。我其实几个月前,就在一次和他俩吃饭之后就注册好了。但是一直因为忙,我担心不能及时回复别人的提问,就一直没好意思发起一场主题活动。中途有看到可达和 JT 发起的问答,很感兴趣,也想试试看,但也因为对时间的担心就止住了念头。正好借着这次 Wenbo 的邮件,跟汉洋他俩聊了一会儿后,我就趁着夜色正浓,冲动还在,就立马编辑了两段自我介绍,发起了分别以「工业设计师」和「设计类视频创作者」为主题的两场活动。

点击进入「工业设计师 SUiTHiNK AmA~

点击进入「设计类视频博主 苏志斌 AmA!

当天也是高效,一连开了三个会。中途用各种碎片时间,一一回答了 AAAny 上的提问。晚上赶回家陪筱烨过生日的路上,我一看已经回复过的内容,好家伙,累计的输出量都赶上我平时写两三篇文章了。

碎片化地高密度输出,也是可以产生一些好内容的。

在使用了一天后,当晚,我和汉洋、轶轩聊了聊感受。汉洋问我感觉 AAAny 和知乎之间有什么区别?我打了一个比方:

知乎的问答是一种广场上的广播。一个问题对应一个完整的回答,虽然我可以不断修改回答,但是你修改后的内容很难再被之前看过的人再次看到。评论区就是一些人在外围窃窃私语,它们和主回答之间很难形成交流互动。它是有层级的、单向的信息传播。

但是 AAAny 给我的感觉,是老城区的街头沙龙。任何对话都是水平方向的,没有任何层级关系,就和大家在街头聊天一样。你看到一个感兴趣的话题,就可以直接加入;别人对你们正在谈论的感兴趣,也可以随时参与进来。它不是广播的形式,是集会和交流的空间。

有意思的事情在于,我们往往需要遇到好问题,才能写出一个好的回答。

然而,好的问题通常并不是我们提出来的第一个问题。你会在持续的提问和持续的回复之间渐渐发现,那些更本质和更有趣的问题。这是知乎解决不了的。好的问题如果都由运营和编辑来提出,那么知乎的运营压力会爆炸;如果都由用户提出,那么一定伴随着海量毫无意义的垃圾问题,这对真正的好问题是一种掩盖。

因此,持续的对话和前后文关系的保留,就很重要。同时也得确保,来自对话后段出现的好问题/好回答,能够被之前关心这个话题的人看到,也能被后来的观众发现。

运营这样的社区,需要真正会采访的记者。

点击进入「工业设计师 SUiTHiNK AmA~

点击进入「设计类视频博主 苏志斌 AmA!

❌
❌