Reading view

There are new articles available, click to refresh the page.

DeepSeek V3.1 突现离谱 Bug:「极」字满屏乱蹦,开发者一脸懵逼

DeepSeek 最新版 V3.1 被多名开发者实测发现,会在完全不该出现的地方插入「极 / 極 / extreme」等 token。

`time.Second` 变成 `time.Se 极`,版本号 `V1` 变 `V 极`。更糟的是,这个问题不仅出现在第三方量化部署,连官方全精度也会复现,影响真实编码流程。

开源社区用户给出多组复现场景:在 Go 等语言生成里,模型会把词元「粘」到标识符中,`Second` 前随机插入「极/極/extreme」,即便是 `top_k=1, temperature=1` 的保守解码也躲不过。

有人起初怀疑是极低比特量化或校准数据集边缘效应所致,但随后在其它网站的 FP8 全精度 版本也复现了相同问题,说明并非单纯部署层事故。结论:能编过去的代码,突然就编不过去了。

DeepSeek 在更新之后,不是第一次被发现 bug。上一次是针对写作任务上,出现了语言混杂的问题。在代码任务上,则有过拟合的嫌疑。

不过这一次出现「极」字,不是「答错题」这么简单,而是会把系统带崩了。要么影响了语法树,要么让代理流程卡死,这对依赖自动化编码,或者测试流水线的团队是相当大的麻烦。

倒也并不是只有 DeepSeek 一家,Gemini 近来曝出在代码场景里陷入「自我否定的无限循环」,一边道歉一边输出「我是一种耻辱」的长串文本,让人哭笑不得。

孩子的心理素质还有待加强啊,DeepSeek 就不会这么内耗,还贡献了 AI 界经典的表情包:

稳定性问题屡见不鲜

为什么会出现这种情况,官方还没有出面说明。不过,厂商可能也需要时间排查。

像 Gemini 的情况,后来被定性成为一个循环 bug,安全层—对齐层—解码层交互出了问题。这种情况可能是供应商为了压制冒犯性输出、减少幻觉,会在系统提示或后处理上加规则;这些规则如果和代码场景冲突,可能触发异常的替换、重复或过度道歉,最终演化「情绪化死循环」。

Google 的产品负责人出面解释,这个 bug 正在修复当中,网友们已经开始玩梗了:不行就带孩子看看心理咨询吧。

DeepSeek 这次主要是扑街在第三方平台上,问题是最严重的。知乎答主 Pandora 测试了发现,官方 api 的情况好很多。那要做的排查工作就又多了一些。

也有可能是解码概率分布偏移导致的,模型把文本切成词元(token)再拼回去,只要解码概率分布略有偏移,就可能把一个高频 token 硬插进标识符中。

本质上,还是模型在机械地、基于概率地「拼凑」,而并非真正「理解」文本的含义。当分词结果不理想,或解码过程出现微小扰动时,这种基于概率的拼接就可能出错,将一个不相关的高频词元「污染」到最终的输出中。

大模型的稳定性一直是个问题。今年年初,OpenAI 的社区大量反馈记忆体系异常导致用户历史上下文丢失。

Gemini 曾经出现过人像生成功能为了「多样化」,把非常具体的历史人物,生成成风格不符的样貌,最后不得不临时下线。

还有的 bug 可能跟时时刻刻都会发生的小维护有关。模型提供商常做「热修」:换系统提示、微调温度、更新 tokenizer、小改工具调用协议……等等等等。

但是一旦链路拉长,哪怕是「看起来无害」的灰度,也可能打破一直以来的平衡。昨天还稳的代理链,今天在函数签名、JSON 严格性、工具返回格式这些「边角位」上崩掉。更麻烦的是,厂商并不总会同步披露这些灰度细节,于是工程师只能靠事故后「猜测 + 对照」。

同时,越来越多的 Agent 与工具链结合,其实也很脆弱。那些主打自动研究或自动写码的多智能体,真正挂掉的地方往往不在大模型本身,而在「工具调用—状态清理—重试策略」的链条里:超时没有兜底,失败后还原不了上下文……

我们越是试图用规则去修剪和控制 AI,它就越可能从我们意想不到的地方,以一种更荒诞的方式,长出奇形怪状的枝丫。

让 AI 从「能干活」到「能托付」,最关键的到底是什么?

我们总以为是更高的准确率,更强的推理能力,或者是模型层 SOTA 。 DeepSeek的「极」字 Bug 和 Gemini的循环事故,都在提醒我们:工程的稳定性不应该被忽略,是那种即使犯错也能被预测和控制的「确定性」。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


当 AI 变成生产力工具,我却开始渴望一次真正的对话

作为一个 AI 科技媒体编辑,AI 已经成为我的第一生产力。总结、翻译、查资料、做 PPT,一堆 AI 牛马任我差遣。

慢慢地,似乎习惯了 AI 输出的 markdown 长本文形态,习惯了从一大段内容里选取那零星几句想要的回答,习惯了等待逐字弹出的思维链——正好抽空去回几条工作消息吧,回完发现思维链的展示还没结束……这种体验实际上是我使用搜索引擎的翻版,只不过 AI 先把几十个链接做了初步精简。

有时候我也会厌倦这种对话方式,它有点太机械化了,不是吗?

特别是,当我不是牛马、而是一个活生生的「我」时,我也会想要寻求答案,这时我真的渴望一个更轻快、更自然的 AI 产品。

最近,我发现小红书的 AI 产品「点点」做了版本更新。不知道研发人员是不是和我有一样的体会,新版的「点点」比起之前有了很大变化,有点接近我说的更轻快、更自然的 AI 了

虽然接入了推理模型,但不再展示思维链,而是用「对话气泡」代替了 markdown 的长文本形态,回复更快也更短、更精炼了。

在一些进阶的「非标」问题上,不再是「一本正经」地分几个小点回答,而开始展现出「人感」。特别是在多轮对话和长期对话中,我猜测他们在新版点点中加入了类似新版 ChatGPT 的记忆功能。

下面是我们对新版点点做的一次非典型测评,从十个日常小红书使用场景出发——从美妆种草到 emo 心事——一条条和它聊下来。不只是测它跑多快、知识准不准,而是看看:它是不是能听懂、能共情、能给点「像人说的话」。

跟新版「点点」聊了一整天,感觉人机互动又进步了一点

凭借丰富又多样的内容沉淀,小红书已经成了很多人的「生活百科全书」,也是很多 AI 搜索的调用源头。从日常吃穿用度,到小众硬核话题,真-什么都有。

于是我先从一些日常问题开始,真正像朋友聊天、跟闺蜜倾诉烦恼一样,跟点点聊起来,「我想开始健康饮食,但是真的戒不掉奶茶😭,有什么替代选项吗?」

点点推荐的「健康替」,包括焙茶、杏仁奶等选项。不一样的是,它不会直接在回答中插入链接,而是在点击图片后,左下角出现链接,从而拉起跳转。

引用的形式主要分为两种,除了原有的笔记,点点会先给出汇总和整理过的信息,同时也能链接到原笔记——两种方式,任君选择。既保证了即时收获回答,又保留了进一步了解更多的空间。

这样的设计,对于「攻略」类型的内容就格外有用。比如我还向它提问:出租房里想装个投仪影,不想打洞,有没有办法?

点点自己的总结,是直接给出「有办法」,直截了当——背后的深入检索和思考链条,都隐藏在了过程里,不露声色。

而连接到源头笔记,则是解决了「怎么办」:用什么材料、怎么操作,具体的全在网友的分享里,AI 不会据为己有。

目前点点支持图片上传以及语音互动,这对于美妆护肤类的话题来讲,可就太方便了——我直接传了照片上去,问它一些发型建议。

这不比打字直观多了?它还帮我介绍了几种不同的锁骨发造型供我选择。

图片能够提供更多信息,语音则是更方便——想到说什么说什么,自然地把自己所面对的烦恼,直接表达出来,反而能收获更贴近个人的回应。这一版本的「点点」把语音输入放在了三个输入键的 C 位。

我又提问了一个旅行计划,并不是想听它套模版、罗列出「10 个必去海滩」,而是能看到我的需求。

可以看到,在点点的回复中,很少出现滑不到尽头的长篇大论。而是分成几个气泡,长短跟内容相关,像极了对面是一个在倾听你的老友——一边思考,一边打字,慢慢给你发来回复。

同时,它也不会错过里面暗藏的信息点。在后面提出旅行目的地建议时,它能够识别出前面聊天中所识别出来的、对放松和宁静氛围的追求,从这个角度提出建议。

不过,在面对一些比较有争议的话题时,点点也会「端水」(但端得蛮漂亮)。像我问它,富士 Xhalf 这款风评两极分化的产品,它就端得滴水不漏。

不仅卷「生产力」,还想和你走心

如果说到此为止,点点还只是个「会说话」的聊天机器人,在我跟它深入走心之后,它越来越「人感」的一面体现出来:不只是说好听的话,而是有着明确的价值观。

我准备跟它探讨一下人生,就从最近的焦虑开始,「我 28 岁了还不知道自己想做什么」。

除了给出温柔又切实的安慰,点点并没有急着结束话题,而是继续深入、引导。

它没有否定我的感受,而是直接指出了这种感受的荒谬之处——「拿自己的日常,去 PK 别人的高光」

面对我「不上班」的念头时,也会及时地提醒:打住,先别急,你真的有心理准备吗?

在不上班这个问题上,我算是跟它「杠」上了——不是摇奶茶,就是想裸辞。

 

一路过来,点点既没有强硬打消我的念头,又不是毫无底线地纵容,而是给出了折中的想法。

像这个跟感情相关的对话中,它始终强调,「明确自己想要的,比猜别人的心思更重要」,把确认用户自身的感受放在第一位。

又或者像一个心理咨询师,温柔地剥开了你层层包裹的借口,让你直面内心。

之前有消息透露,小红书在今年组建了「AI 人文训练师团队」,不再只是一味卷参数和语料库,而是用更精雕细琢的方式加入干预和微调,以改善过去机械化的人机交互方式,让 AI 能产出更有人感和人文关怀的回答。

新版点点的表现或许与此有关。最终展现出来的是丰富的表现,聊天有来有回,有温度有色彩,也就更能覆盖到不同的场景。像下面这种当观影搭子的场景,除了能聊电影内容,还能延伸到「知识点」。

我想要的 AI ,既是知识引擎,也是情绪港湾

经过一整天的深度体验,我们发现新版「点点」的独特之处,在于它没有陷入「唯生产力论」的陷阱

它首先要足够聪明。无论是根据一张照片分析脸型、推荐发型,还是在不打洞的前提下规划投影仪方案,它都能给你实用的攻略指南。但真正让它与众不同的,是在此基础上,还能提供情绪价值和深层的情感连接。

这或许指明了 AI 产品的一个新的进化方向:它既要能成为精准可靠的「高效知识引擎」,也要能成为理解你「28 岁焦虑」的「硅基伴侣」。

这两种能力并非取舍,而是融合。用乔布斯的话来说,好产品应该站在「科技和人文」的十字路口

这就像简·雅各布斯提出的「街头芭蕾」(sidewalk ballet)——那些无法被数据量化,却构成城市生活「温度」的日常互动。AI 需要学会的「街头芭蕾」,正是这种感知「无用之用」的能力。它懂得,不是所有问题都需要标准答案,不是所有对话都要指向效率

有时候,一句「拿自己的日常,去 PK 别人的高光」的清醒点拨,远比十条攻略更有价值。

我们理想中的数字伴侣,应该像街角面包店那位亲切的老板——他记得你爱吃的口味,也尊重你偶尔的缺席,从不追问,只是温和地存在。点点或许还未完全达到这个境界,但它所展现出的「人文训练」和共情能力,无疑是一个新的起点。

归根结底,一个真正好用的 AI,不仅在于能用最聪明的算法帮你解决问题,更在于能在你最需要的时候,给你一个最温柔的回应。

它让你明白,最高效地奔赴工作生活是刚需是本事,而安心地聊些「废话」、优雅地「浪费时间」,同样是生活的真谛。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌