Reading view

There are new articles available, click to refresh the page.

DeepSeek V3.1 突现离谱 Bug:「极」字满屏乱蹦,开发者一脸懵逼

DeepSeek 最新版 V3.1 被多名开发者实测发现,会在完全不该出现的地方插入「极 / 極 / extreme」等 token。

`time.Second` 变成 `time.Se 极`,版本号 `V1` 变 `V 极`。更糟的是,这个问题不仅出现在第三方量化部署,连官方全精度也会复现,影响真实编码流程。

开源社区用户给出多组复现场景:在 Go 等语言生成里,模型会把词元「粘」到标识符中,`Second` 前随机插入「极/極/extreme」,即便是 `top_k=1, temperature=1` 的保守解码也躲不过。

有人起初怀疑是极低比特量化或校准数据集边缘效应所致,但随后在其它网站的 FP8 全精度 版本也复现了相同问题,说明并非单纯部署层事故。结论:能编过去的代码,突然就编不过去了。

DeepSeek 在更新之后,不是第一次被发现 bug。上一次是针对写作任务上,出现了语言混杂的问题。在代码任务上,则有过拟合的嫌疑。

不过这一次出现「极」字,不是「答错题」这么简单,而是会把系统带崩了。要么影响了语法树,要么让代理流程卡死,这对依赖自动化编码,或者测试流水线的团队是相当大的麻烦。

倒也并不是只有 DeepSeek 一家,Gemini 近来曝出在代码场景里陷入「自我否定的无限循环」,一边道歉一边输出「我是一种耻辱」的长串文本,让人哭笑不得。

孩子的心理素质还有待加强啊,DeepSeek 就不会这么内耗,还贡献了 AI 界经典的表情包:

稳定性问题屡见不鲜

为什么会出现这种情况,官方还没有出面说明。不过,厂商可能也需要时间排查。

像 Gemini 的情况,后来被定性成为一个循环 bug,安全层—对齐层—解码层交互出了问题。这种情况可能是供应商为了压制冒犯性输出、减少幻觉,会在系统提示或后处理上加规则;这些规则如果和代码场景冲突,可能触发异常的替换、重复或过度道歉,最终演化「情绪化死循环」。

Google 的产品负责人出面解释,这个 bug 正在修复当中,网友们已经开始玩梗了:不行就带孩子看看心理咨询吧。

DeepSeek 这次主要是扑街在第三方平台上,问题是最严重的。知乎答主 Pandora 测试了发现,官方 api 的情况好很多。那要做的排查工作就又多了一些。

也有可能是解码概率分布偏移导致的,模型把文本切成词元(token)再拼回去,只要解码概率分布略有偏移,就可能把一个高频 token 硬插进标识符中。

本质上,还是模型在机械地、基于概率地「拼凑」,而并非真正「理解」文本的含义。当分词结果不理想,或解码过程出现微小扰动时,这种基于概率的拼接就可能出错,将一个不相关的高频词元「污染」到最终的输出中。

大模型的稳定性一直是个问题。今年年初,OpenAI 的社区大量反馈记忆体系异常导致用户历史上下文丢失。

Gemini 曾经出现过人像生成功能为了「多样化」,把非常具体的历史人物,生成成风格不符的样貌,最后不得不临时下线。

还有的 bug 可能跟时时刻刻都会发生的小维护有关。模型提供商常做「热修」:换系统提示、微调温度、更新 tokenizer、小改工具调用协议……等等等等。

但是一旦链路拉长,哪怕是「看起来无害」的灰度,也可能打破一直以来的平衡。昨天还稳的代理链,今天在函数签名、JSON 严格性、工具返回格式这些「边角位」上崩掉。更麻烦的是,厂商并不总会同步披露这些灰度细节,于是工程师只能靠事故后「猜测 + 对照」。

同时,越来越多的 Agent 与工具链结合,其实也很脆弱。那些主打自动研究或自动写码的多智能体,真正挂掉的地方往往不在大模型本身,而在「工具调用—状态清理—重试策略」的链条里:超时没有兜底,失败后还原不了上下文……

我们越是试图用规则去修剪和控制 AI,它就越可能从我们意想不到的地方,以一种更荒诞的方式,长出奇形怪状的枝丫。

让 AI 从「能干活」到「能托付」,最关键的到底是什么?

我们总以为是更高的准确率,更强的推理能力,或者是模型层 SOTA 。 DeepSeek的「极」字 Bug 和 Gemini的循环事故,都在提醒我们:工程的稳定性不应该被忽略,是那种即使犯错也能被预测和控制的「确定性」。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


当 AI 变成生产力工具,我却开始渴望一次真正的对话

作为一个 AI 科技媒体编辑,AI 已经成为我的第一生产力。总结、翻译、查资料、做 PPT,一堆 AI 牛马任我差遣。

慢慢地,似乎习惯了 AI 输出的 markdown 长本文形态,习惯了从一大段内容里选取那零星几句想要的回答,习惯了等待逐字弹出的思维链——正好抽空去回几条工作消息吧,回完发现思维链的展示还没结束……这种体验实际上是我使用搜索引擎的翻版,只不过 AI 先把几十个链接做了初步精简。

有时候我也会厌倦这种对话方式,它有点太机械化了,不是吗?

特别是,当我不是牛马、而是一个活生生的「我」时,我也会想要寻求答案,这时我真的渴望一个更轻快、更自然的 AI 产品。

最近,我发现小红书的 AI 产品「点点」做了版本更新。不知道研发人员是不是和我有一样的体会,新版的「点点」比起之前有了很大变化,有点接近我说的更轻快、更自然的 AI 了

虽然接入了推理模型,但不再展示思维链,而是用「对话气泡」代替了 markdown 的长文本形态,回复更快也更短、更精炼了。

在一些进阶的「非标」问题上,不再是「一本正经」地分几个小点回答,而开始展现出「人感」。特别是在多轮对话和长期对话中,我猜测他们在新版点点中加入了类似新版 ChatGPT 的记忆功能。

下面是我们对新版点点做的一次非典型测评,从十个日常小红书使用场景出发——从美妆种草到 emo 心事——一条条和它聊下来。不只是测它跑多快、知识准不准,而是看看:它是不是能听懂、能共情、能给点「像人说的话」。

跟新版「点点」聊了一整天,感觉人机互动又进步了一点

凭借丰富又多样的内容沉淀,小红书已经成了很多人的「生活百科全书」,也是很多 AI 搜索的调用源头。从日常吃穿用度,到小众硬核话题,真-什么都有。

于是我先从一些日常问题开始,真正像朋友聊天、跟闺蜜倾诉烦恼一样,跟点点聊起来,「我想开始健康饮食,但是真的戒不掉奶茶😭,有什么替代选项吗?」

点点推荐的「健康替」,包括焙茶、杏仁奶等选项。不一样的是,它不会直接在回答中插入链接,而是在点击图片后,左下角出现链接,从而拉起跳转。

引用的形式主要分为两种,除了原有的笔记,点点会先给出汇总和整理过的信息,同时也能链接到原笔记——两种方式,任君选择。既保证了即时收获回答,又保留了进一步了解更多的空间。

这样的设计,对于「攻略」类型的内容就格外有用。比如我还向它提问:出租房里想装个投仪影,不想打洞,有没有办法?

点点自己的总结,是直接给出「有办法」,直截了当——背后的深入检索和思考链条,都隐藏在了过程里,不露声色。

而连接到源头笔记,则是解决了「怎么办」:用什么材料、怎么操作,具体的全在网友的分享里,AI 不会据为己有。

目前点点支持图片上传以及语音互动,这对于美妆护肤类的话题来讲,可就太方便了——我直接传了照片上去,问它一些发型建议。

这不比打字直观多了?它还帮我介绍了几种不同的锁骨发造型供我选择。

图片能够提供更多信息,语音则是更方便——想到说什么说什么,自然地把自己所面对的烦恼,直接表达出来,反而能收获更贴近个人的回应。这一版本的「点点」把语音输入放在了三个输入键的 C 位。

我又提问了一个旅行计划,并不是想听它套模版、罗列出「10 个必去海滩」,而是能看到我的需求。

可以看到,在点点的回复中,很少出现滑不到尽头的长篇大论。而是分成几个气泡,长短跟内容相关,像极了对面是一个在倾听你的老友——一边思考,一边打字,慢慢给你发来回复。

同时,它也不会错过里面暗藏的信息点。在后面提出旅行目的地建议时,它能够识别出前面聊天中所识别出来的、对放松和宁静氛围的追求,从这个角度提出建议。

不过,在面对一些比较有争议的话题时,点点也会「端水」(但端得蛮漂亮)。像我问它,富士 Xhalf 这款风评两极分化的产品,它就端得滴水不漏。

不仅卷「生产力」,还想和你走心

如果说到此为止,点点还只是个「会说话」的聊天机器人,在我跟它深入走心之后,它越来越「人感」的一面体现出来:不只是说好听的话,而是有着明确的价值观。

我准备跟它探讨一下人生,就从最近的焦虑开始,「我 28 岁了还不知道自己想做什么」。

除了给出温柔又切实的安慰,点点并没有急着结束话题,而是继续深入、引导。

它没有否定我的感受,而是直接指出了这种感受的荒谬之处——「拿自己的日常,去 PK 别人的高光」

面对我「不上班」的念头时,也会及时地提醒:打住,先别急,你真的有心理准备吗?

在不上班这个问题上,我算是跟它「杠」上了——不是摇奶茶,就是想裸辞。

 

一路过来,点点既没有强硬打消我的念头,又不是毫无底线地纵容,而是给出了折中的想法。

像这个跟感情相关的对话中,它始终强调,「明确自己想要的,比猜别人的心思更重要」,把确认用户自身的感受放在第一位。

又或者像一个心理咨询师,温柔地剥开了你层层包裹的借口,让你直面内心。

之前有消息透露,小红书在今年组建了「AI 人文训练师团队」,不再只是一味卷参数和语料库,而是用更精雕细琢的方式加入干预和微调,以改善过去机械化的人机交互方式,让 AI 能产出更有人感和人文关怀的回答。

新版点点的表现或许与此有关。最终展现出来的是丰富的表现,聊天有来有回,有温度有色彩,也就更能覆盖到不同的场景。像下面这种当观影搭子的场景,除了能聊电影内容,还能延伸到「知识点」。

我想要的 AI ,既是知识引擎,也是情绪港湾

经过一整天的深度体验,我们发现新版「点点」的独特之处,在于它没有陷入「唯生产力论」的陷阱

它首先要足够聪明。无论是根据一张照片分析脸型、推荐发型,还是在不打洞的前提下规划投影仪方案,它都能给你实用的攻略指南。但真正让它与众不同的,是在此基础上,还能提供情绪价值和深层的情感连接。

这或许指明了 AI 产品的一个新的进化方向:它既要能成为精准可靠的「高效知识引擎」,也要能成为理解你「28 岁焦虑」的「硅基伴侣」。

这两种能力并非取舍,而是融合。用乔布斯的话来说,好产品应该站在「科技和人文」的十字路口

这就像简·雅各布斯提出的「街头芭蕾」(sidewalk ballet)——那些无法被数据量化,却构成城市生活「温度」的日常互动。AI 需要学会的「街头芭蕾」,正是这种感知「无用之用」的能力。它懂得,不是所有问题都需要标准答案,不是所有对话都要指向效率

有时候,一句「拿自己的日常,去 PK 别人的高光」的清醒点拨,远比十条攻略更有价值。

我们理想中的数字伴侣,应该像街角面包店那位亲切的老板——他记得你爱吃的口味,也尊重你偶尔的缺席,从不追问,只是温和地存在。点点或许还未完全达到这个境界,但它所展现出的「人文训练」和共情能力,无疑是一个新的起点。

归根结底,一个真正好用的 AI,不仅在于能用最聪明的算法帮你解决问题,更在于能在你最需要的时候,给你一个最温柔的回应。

它让你明白,最高效地奔赴工作生活是刚需是本事,而安心地聊些「废话」、优雅地「浪费时间」,同样是生活的真谛。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


看完 1289 个死掉的 AI 产品,我发现这些需求就不该用 AI 解决

AI 应用赛道最多的是什么?答案有点地狱:墓碑。

A16z 最近有过暴言:上线 48 小时内,如果你的 AI 产品没有火遍社交网络,那就等于死了——48 小时,那可不得尸横遍野。

AI 坟场在冒烟

AI 应用的高淘汰率,倒一直都居高不下。国外一个叫 Dang.ai 开了一个版面,就叫「AI 坟场」,整理了一套产品名录里。其中,有 1289 个产品是关闭,或者停止运营的状态,主要是国外的产品,光 2025 年,就新增了两百多个。

这份名录品类五花八门,工具类、生成类、聊天类都有。其中聊天机器人占比接近 40%,辅助代码类的也超过了 20%。

甚至不乏曾经的明星产品:比如 Neeva,曾经一度叫板 Google,要用 AI 重塑搜索体验,现在也埋了。

Neeva, The Ad-Free Search Engine, Announces Closure

成功的原因各有长处,但失败的原因都如出一辙:几乎都是套壳产品。这些套壳产品千奇百怪:有生成名人肖像的 MaskrAI,辅助决策的 Oinionate,都聚焦在非常具体而微小的场景上。

这是 AI 产品的一个大坑:以 AI 搭讪台词生成器「AI Pickup Lines」为例:它号称每天可免费生成 10 条搭讪句子,付费订阅则解锁无限生成,庞大的搭讪语料库。

在 2022 年末上线时它还很有话题性,但只坚持了短短的几个月,2023 年初关闭了。

AI 硬件也是一个「看起来很美」的赛道,但是代表玩家 Humane 的 Rabbit 胸针,既是先驱也是先烈,宣发铺天盖地,出货之后被喷的一无是处。

Humane AI Pin: A Disappointing Reality Despite the Hype | Fatherhood Channel

分析原因,不外乎功能娱乐性大于实际价值、应用场景单一难以应对复杂真实需求。

并不是说套壳没有价值,而是套壳面临着极其激烈的竞争,不仅是产品和产品之间的比拼,还要背负被大模型自身的功能更新所淘汰的压力。

那么大公司是不是就一定活得更好呢?

有自研模型,有充足的算力,大公司似乎在这个市场上有更多的优势。Neeva 作为当时最早引入大语言模型的产品,曾经被认为是可以和谷歌对打的新星,一度融资高达 7750 万美元。但是在 Google 和微软垄断阴影中做通用搜索,注定这是一场库库烧钱的游戏,创业公司是烧不过巨头的。

不过,巨头的优势,也得看赛道。

而国内的「AI 六小龙」中,Minimax 拥有谱系完整的自研模型,且不止一个做到 SOTA 级别。然而在产品上,踩过的坑也不少:早在 2023 年 3 月,MiniMax 公司的首款 AI 伴侣产品,也是早期最出圈产品之一 Glow ,因用户社区里「八成内容涉黄」曾被举报下架。

GLOW-AI情感陪伴聊天机器人社区- AIHub | AI导航

今年初字节跳动 AI 产品猫箱收严了内容标准;同年 5 月,另一热门产品 X Her 被央视点名批评低俗后直接停运整改,由阅文集团投资的「筑梦岛」,也同样因为擦边而被勒令下架整改。

筑梦岛app2025最新版本免费下载官方正版软件-应用宝官网

即便是大厂,即便模型强大,即便算力充足,在实际的产品运营中,依然有很多因素在左右成败。

情感陪伴:AI 创业的大逃杀

要说不说,情感陪伴这个赛道可谓是很神奇的存在,这个品类吸引着大大小小的团队前赴后继,但真正能存活下来的,寥寥无几。

月之暗面出品过 Ohai,阶跃星辰出品过冒泡鸭,Minimax 在 Glow 受挫之后几乎无缝主推了星野——虽然各有各的战绩,但大家的动作统一,必然是有理由的。

「AI 伴侣」曾被认为是继通用对话问答之后最有希望跑出「killer app」的垂直场景,据 a16z 统计,2023 年全球流量 Top50 的 AI 应用里有 8 款属于 AI 陪伴类。

图片1.png

一定程度上,它的确代表着人们对于新技术的想象:十年前,电影《Her》所描述的人与 AI 坠入爱河的科幻桥段,还显得遥不可及;而十年后的今天,大批 AI「男友」「女友」已经大摇大摆走进现实。

另一方面,以聊天为主要形式的陪伴类产品,也非常能体现生成式 AI 的优势:它们通过学习人类对话来模仿情感,却比真人更体贴温柔,永不离席,无疑击中了现代人隐秘的孤独痛点。

好的聊天产品,体验起来令人上头,经常能看到社交媒体上有人感叹,「这辈子都离不开 AI 了」——这句话,引得无数创业团队竞折腰。

Spike Jonze's Her: Sci-fi as social criticism

但是这门生意显然不好做。就算不提对于色情类内容的监管,更棘手的是盈利模式:情感需求要怎么赚钱,大家一时间也没想出什么办法。

目前市场上的 AI 伴侣应用大多采用订阅制,收费并不算高,提供无限对话、解锁更多场景、更加定制化等等服务。

但这对于套壳产品来说,无法不顾及成本,因此只能增加收入。不少产品引入了游戏化的氪金玩法,例如抽卡解锁新的剧情和人设、排行榜竞技、培养亲密度等等。

这使得 AI 伴侣 App 看上去更像是二次元养成手游,而运营团队也需要不断刺激社群,产出新剧情和角色来供用户消费。对于套壳类应用来说,无论是调用成本,还是运营强度都居高不下。

当你的AI男友不再擦边,MiniMax就“赢”了-新零售-资讯-头部财经

Questmobile 的数据也显示,除了字节系的猫箱之外,国内主要 AI 伴侣应用在 2024 年底月活跃用户和使用时长均开始下滑,其中筑梦岛的月活在 2023 年 12 月骤降近 14%,人均使用时长腰斩近一半。

一些头部公司只能谋筹转型:有的弱化「情感陪伴」宣传,希望摆脱单纯做虚拟恋人的定位。还有创业者尝试差异化路线,例如开发「非恋爱型」AI 陪伴:提供游戏陪玩的 AI 伙伴,或者像月之暗面那样开发基于动漫角色的 AI 朋友,寄望满足一些更轻度、更健康的情感需求。

Ohai - 月之暗面旗下推出的AI角色扮演虚拟陪伴应用| AI工具集

显然这又回到了最早的问题:过于垂直和小众,盈利无以为继。

在全球市场上,美国的 Replika 和 Character.AI 是两大标杆产品:前者诞生最早并采取订阅收费模式,后者依托 Transformer 架构爆火、用户数一度遥遥领先。然而有趣的是,用户更多的 Character.AI 在变现上却不如用户更少的 Replika。

2024 年前八个月的数据显示,Replika 凭借 50%以上的付费用户比例,月收入稳定在 200 万美元左右,在 2024 年上半年雄踞全球 AI 伴侣应用营收榜首;反观 Character.AI 虽然拥有千万量级用户,却因为免费策略和付费意愿低迷,营收表现平平,最终卖身 Google。

Google collaboration with Character.ai, who excited UwU : r/CharacterAI

种种迹象都说明,虚拟伴侣并非一个容易规模化挣钱的生意:要么你抓住小众深度用户肯付费,但总盘子有限;要么你获取海量闲散用户图流量,但变现艰难。

AI 陪伴的意义,不在于替代人的陪伴,而在于填补某些现实中暂时无法满足的情感空白。然而,情感的本质是人与人之间的共鸣与联结,这一点从未也永不会被硅与电所完全复刻。

对于用户来说,可能是一时新鲜。但对于绝大多数入局者来说,烧光投资人的钱只是时间问题,日子一到,只能成为 AI 墓地里的又一座墓碑。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌