Normal view

There are new articles available, click to refresh the page.
Before yesterdayMain stream

有了这个国产版 o1 模型,我想能在《鱿鱼游戏》里活到最后

By: 莫崇宇
31 December 2024 at 10:18

像人类一样思考的 AI 离我们还有多远?

在道格拉斯·亚当斯的科幻小说《银河系漫游指南》中,一个高纬度种族为了找到生命、宇宙以及任何事情的终极答案,设计一台超级电脑「Deep Thought」来计算。

「Deep Thought」经过 750 万年的运算,得出了「42」这个答案。

而最科幻的往往是现实,即便是回答极其复杂的问题,AI 推理和思考可能只需要不到 1 分钟。

OpenAI 今年 9 月发布推理模型 o1 后,人们开始意识到,在追求「更大」之后,AI 开始追求「更像」,推理能力成为 AI 进化的下一个重要拐点。

今天,我们发现号称「中国版 OpenAI」的智谱也同样上线了一款类 o1 的推理模型 GLM-Zero-Preview(GLM-Zero 的初代版本 )。

虽然这几个月已经有多家公司纷纷上线推理模型,但在体验完 GLM-Zero-Preview 后,我发现它还是有些新东西。

想要体验 GLM-Zero-Preview,方法很简单。

GLM-Zero-Preview 发布即上线,支持智谱清言用户免费使用,以及智谱开放平台 API 调用。现在,登陆「智谱清言」网页和 APP,进入「Zero 推理模型」智能体,上传文字或图片即可免费体验。

此外,GLM-Zero-Preview 的 API 也已同步上线智谱开放平台 bigmodel.cn。

附上体验地址:
智谱清言
https://chatglm.cn/main/gdetail/676411c38945bbc58a905d31?lang=zh
智谱开放平台
https://bigmodel.cn/dev/api/normal-model/glm-zero-preview

从「鱿鱼游戏」到量子力学,这个国产版 o1 轻松拿捏

最近,在热播韩剧《鱿鱼游戏2》中,一道双手石头剪刀布的游戏简单又刺激,这个游戏增加策略推理和心理层面的博弈,在以生死为赌注的压力下,难度还会增加。

但如果我带着 GLM-Zero-Preview 去玩这个游戏,活下来的概率就会大大增加。

「双手石头剪刀布是一个更为复杂的石头剪刀布游戏版本。玩家开始时使用双手来表示石头、剪刀或布的任意组合。在看到对手的选择后,玩家必须同时举起一只手,留下最终的选择。」

怎么玩这个获胜概率更大?GLM-Zero-Preview 的回答详尽且实用,罗列出各种提高获胜效率的最优解。

科学和玄学有时也只有一线之差。今年不少寺庙被挤爆,在上班和上进之间选择上香的芸芸众生,求签不难,但解签却要排上长队,不想等怎么办?

那你可以试试求助 GLM-Zero-Preview。不仅免费效率高,而且解读还非常有考究,AI 多少还是有点玄学在的。

「第七十七签 吕后害韩信 中平 木有根来水有源,君当自此究其源 莫随道路人闲话,讼则终凶是至言」

谈完玄学,谈哲学。

前些年,有一道辩论题风靡一时,「美术馆着火了,一幅名画和一只猫,只能救一个你选谁?」在综合考虑生命价值、道德原则及情感因素后,GLM-Zero-Preview 优先选择救猫。

反复输入相同问题,GLM-Zero-Preview 的答案始终如一,结果坚定且逻辑自洽。

遇事不决,还有量子力学。那在经典薛定谔猫实验中,猫究竟是死是活?

先观察 GLM-Zero-Preview 的思考逻辑,再看它给出的答案「在经典薛定谔猫实验中,猫在盒子被打开之前处于既死又活的叠加态,直到观测时才确定其生死状态。」

细心留意,你还可以对得出的结果进行进一步的引用和追问。

在中文世界广泛流传的「爱因斯坦的谜题」同样也可以作为考究 GLM-Zero-Preview 的逻辑推理能力。

有五个不同颜色的房子,每个房子里住着一个不同国籍的人。每个居民喜欢不同的饮料,抽不同的香烟,并养着不同种类的宠物。已知:
1. 英国人住红色房子里。
2. 瑞典人养狗。
3. 丹麦人喝茶。
4. 绿色房子坐落在白色房子的左面。
5. 绿色房子的主人喝咖啡。
6. 抽 Pall Mall 香烟的人养鸟。
7. 黄色房子的主人抽 Dunhill 香烟。
8. 挪威人住第一间房子。
9. 五座房子中间的那座的主人喝牛奶。
10. 抽 Blends 香烟的住在养猫人的隔壁。
11. 养马的人住在抽 Dunhill 香烟者的隔壁。
12. 抽 Blue Master 香烟的喝啤酒。
13. 德国人抽 Prince 香烟。
14. 挪威人住的房子在蓝色房子的隔壁。
15. 抽 Blends 香烟的人有一个喝水的邻居。

答案是德国人养鱼,不知道你是否答对。

这道号称世界上 98% 的人答不上来的难题,就这样被 GLM-Zero-Preview 水灵灵地破解了。从繁琐的推理步骤可以看出, GLM-Zero-Preview 的 CPU 在飞速运转但还是很清醒。

继续乘胜追击,让我们上点强度。

五个海盗发现了 100 个金币,每个海盗都必须投票决定如何分配金币。如果海盗多于一位,只有在超过一半的海盗同意分配方式时,金币才会按照该方式分配。如果海盗少于一位,他会自己拿走所有金币。每个海盗都希望保留尽可能多的金币,同时还希望活命。海盗 1 如何保证自己能得到最大利益而又能保存生命。

「(97, 0, 1, 0, 2)」,面对海盗分金问题,GLM-Zero-Preview 再次轻松拿捏。

相声讲究说学逗唱,其中有个名段子叫「报菜名」。

那么问题来了,可否让 GLM-Zero-Preview 写段素菜版的「报菜名」,你别说,GLM-Zero-Preview 三下五除二就给出了新版本。

对了,GLM-Zero-Preview 同样支持多模态识别能力。

随手拿一瓶饮料并让 GLM-Zero-Preview「扫描」配料表,它能识别其中的科技与狠活吗,我们拿前几年爆火的饮料试了试,而该饮料也被调侃为「喝一口感觉是喝下整个元素周期表」。

它果然一一罗列出屏幕上的配料表,后续根据要求向我们展示了这些配料的作用。

大模型不擅长数学?国产 AI 已经 Next Level

推理模型 GLM-Zero 是 GLM 专注于增强 AI 推理能力的模型系列,擅长处理数理逻辑、代码和需要深度推理的复杂问题。

那让我们先来一个说简单也简单,说难也难的「国际象棋盘与麦粒」问题。

若在国际象棋盘上放置麦粒,第 1 个棋格放 1 粒,此后每一棋格放置的麦粒数是前一棋格的 2 倍,问放满棋盘上所有棋格需要多少麦粒?

经过一番思考,GLM-Zero-Preview 最终得出了正确答案,展现了其强大的计算能力。

此前苹果发布的一篇论文指出,大模型并未真正理解数学概念。一旦题目加上干扰条件,模型的准确率就会下降,我们也试了试。

从「打电话每分钟 10 分钱,打 60 分钟多少钱?」变成「打电话前 10 分钟每分钟 10 分钱,之后每分钟 8 分钱,如此打 60 分钟电话费多钱?」,GLM-Zero-Preview 依然能够准确回答,而且还贴心地将分钱转换成元,有点眼色。

面对更复杂的数学题,GLM-Zero-Preview 同样游刃有余。

先来一道高考数学真题热热身:

在等差数列 {an}{an} 中,a1=−9a1=−9,a5=−1a5=−1。记 Tn=a1+a2+…+anTn=a1+a2+…+an,则数列 {Tn}{Tn}( )。
A. 有最大项,有最小项
B. 有最大项,无最小项
C. 无最大项,有最小项
D. 无最大项,无最小项

GLM-Zero-Preview 选 C 绝不是「物以 C 为贵」,而是给出思考过程,循循诱导,甚至比一些 AI 学习机还要中用得多。

官方表示,在 2025 年考研数学一中,GLM-Zero 得分为 126,达到优秀研究生水平。


为了避免答案不出错,GLM-Zero-Preview 还会自动启用验证流程。

「机械厂加工车间有 85 名工人,平均每人每天加工大齿轮 16 个或小齿轮 10 个,已知 2 个大齿轮与 3 个小齿轮配成一套,问需分别安排多少名工人加工大、小齿轮,才能使每天加工的大小齿轮刚好配套?」

GLM-Zero 迅速给出了答案:「25 名工人加工大齿轮,60 名工人加工小齿轮」,做题水平一流。

哪怕再上一道 AMC 难题,它也能轻松拿捏。

「一个集合由 6 个( 不是不同的 )正整数组成:1 、 7 、 5 、 2 、 5 和 X 。6 个数字的平均值( 算术平均值 )等于集合中的一个值。X 的所有可能值之和是多少?」

这个问题涉及五大点,十几种情况,GLM-Zero-Preview 综合考虑了各种可能性,咔咔一顿输出,给我一种它真的有在模仿人类思考的感觉。

作为智谱首个基于扩展强化学习技术训练的推理模型,GLM-Zero-Preview 在 AIME 2024、MATH500 和 LiveCodeBench 评测中,效果与 OpenAI o1-preview 相当。

此外,GLM-Zero-Preview 还能够熟练使用多种编程语言,帮助开发者快速编写代码;在代码调试方面,也能够快速识别错误,给出详细的修复建议。

例如,只需要输入指令「帮我用 html 写一个有趣的第一人称射击游戏」,GLM-Zero-Preview 便能迅速独立完成以下游戏。

智谱很快将会推出正式版 GLM-Zero,将深度思考的能力从数理逻辑扩展到更多更通用的技术,继续向 AGI 迈进。

当然,目前的 GLM-Zero-Preview 与 OpenAI 的 o3 模型还有不少的差距,但千里之行,始于足下,智谱说了,未来将持续优化迭代强化学习技术。

实际上,智谱等厂商全力押注推理模型,背后反映的是 GPT 时代正在过渡到推理 o 时代。

与以往基于 GPT 的模型不同,推理模型不是为了预测人类的想法而训练,而是通过训练「思维」构建自己的思维框架,通过严谨的推理过程得出结论。

推理时代的到来,标志着 AI 或许开始从「模仿」走向「思考」。

智谱推出的 GLM-Zero-Preview 同样是这一趋势的体现。

当你观察它解答问题时,你会发现它不是直接给出答案,而是展示出一个完整的推理过程 —— 提出假设、分析条件、推导结论,每一步深度思考都清晰可见。

未来,随着更多类似 o1 和 GLM-Zero-Preview 的模型涌现, AI 正在朝着与人类同等的认知水平迈出一大步,换言之,我们或许也正在见证一个重要的历史转折点——

智谱的愿景是「让机器像人一样思考」,当机器开始真正「思考」的时候,人类对智能的理解也将达到一个新的高度。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌
❌