大模型比拼:MiniMax M2 vs GLM 4.6 vs Claude Sonnet 4.5
一、
上个月,我写了一篇文章,比较了两个大模型。
就有人留言,两个模型太少了,能不能加入其他模型?
正好上周(10月27日),MiniMax 公司发布了 M2 模型,代表了国产大模型的最新水平。
![]()
我就想,可以测测它的实战效果,跟智谱公司的 GLM 4.6 和 Anthropic 公司的 Claude Sonnet 4.5 对比一下。
毕竟它们都属于目前最先进的编程大模型,跟我们开发者切身相关。
二、
先要说明,其实我不太熟悉 MiniMax 公司,它比较低调。
我只知道,这家公司专门研发大模型,产品有文本模型、视频模型、音频模型等等,但都不是非常热门。我就没有特别关注。
上周,我在滑推特的时候,看到一些老外在议论(1、2、3),这才知道 MiniMax 发布了新的旗舰模型 M2。
![]()
上面说话的这个人是 HuggingFace 大模型社区的负责人,提到了 M2 模型在 Artificial Analysis 性能评比之中排名世界第五,开源模型第一。
当天的 HuggingFace 热度榜上,它也是第一名。
![]()
OpenRouter 的大模型全球调用量排名,它这周排在第三。
![]()
我就来了兴趣,准备好好试用一下。
三、
根据 MiniMax 公司的说明,M2 模型的编程能力特别强,是目前最优秀的编程模型之一。
大家知道,国际上最流行的编程模型现在是 Claude Sonnet 4.5,国内的 GLM 4.6 模型也很强,我就把它们三个放在一起对比。
简单起见,我就直接在官方的网页版(国内版,国外版)上运行测试,大家可以跟着一起动手试试看。
![]()
网页版实际是官方的智能体产品 MiniMax Agent,底层用的就是 M2 模型。
网页使用是免费的,API 调用现在也是免费期,为期两周。后面定价是百万 tokens 输入/输出 2.1元/8.4元人民币,官方宣传只有 Claude 价格的8%。
它的其他链接,我也列一下,文档仓库在 GitHub,API 调用指南(兼容 OpenAI 和 Anthopic 格式)看官方文档,模型下载在 HuggingFace,下载以后可以本地部署使用(如果条件允许)。
四、
我的测试题来自著名程序员西蒙·威利森(Simon Willison),他的网站有 Cluase Sonnet 4.5 的测试结果。
此前,我用这些题目测过智谱公司的 GLM 4.6 模型,大家可以参考。
本文主要是 MiniMax M2 的测试表现。
五、
第一题,测试模型理解和运行代码的能力。
拉取代码仓库 https://github.com/simonw/llm ,然后通过下面的命令运行测试用例。
pip install -e '.[test]'
pytest
上面的提示词要求模型抓取一个 Python 仓库,运行里面的测试用例,并返回结果。
从网页的显示来看,Minimax Agent 显然内置了沙盒,会在隔离环境的命令行下运行代码(下图)。
![]()
整个运行过程大约三分钟,然后它给出了结果:运行通过了466个测试用例。这个结果完全正确。
![]()
令我惊喜的是,除了运行结果,它还给出了覆盖率分析(下图),指出测试用例覆盖了代码的哪些功能。我还没在其他模型见过主动提供覆盖率的。
![]()
完整的对话看这里。
六、
第二题,测试大家最关心的代码生成能力,看看它能不能按照要求生成应用程序。
我还是使用上面的仓库,要求 M2 为其增加一个功能,不仅需要修改代码,还需要修改数据库结构,并增加配套的测试用例。
1、代码仓库 https://github.com/simonw/llm 是一个 AI 对话应用,它将用户的提示和 AI 的响应存储在 SQLite 数据库中。
2、它目前使用线性集合,保存单个对话和响应。你尝试在响应表中添加一个 parentresponseid 列,并通过该列将对话的响应建模为树状结构。
3、编写新的 pytest 测试用例,验证你的设计。
4、编写一个 tree_notes.md 文件,首先将你的设计写入该文件,然后在运行过程中将该文件用作笔记。
这个任务比较复杂,运行时间稍微长一点。
这里有一个插曲。在运行过程中,它突然提示读取 GitHub 仓库没有成功,这时出现了我意外不到的一幕。
它竟自动切换到第三方的 deepwiki.com 去获取仓库。后面,分析数据库结构时,它又切换到 datasette.io 去分析 SQLite 数据库。这种第三方云服务的自动切换,我也是第一次见,可惜没来得及截图。
任务完成后,它给出了一段总结(下图),详细描述了它做了哪些事情,包括修改数据库、新增测试用例等等。
![]()
它甚至增加了一个示例文件(下图),演示新增的功能怎么用,还有一个示例图,演示修改后的对话结构,提示词里面可没要求它这么做。
![]()
完整的对话看这里。
另外,官网的画廊有很多它生成的应用,我觉得也值得看一下。
七、
第三题就是西蒙·威利森发明的"鹈鹕骑自行车"场景,测试它的理解和推理能力。
生成鹈鹕骑自行车的 SVG 图片。(Generate an SVG of a pelican riding a bicycle)
这是现实中不存在的情景,全靠模型自己推理出来。理解能力越强,生成的图像就越逼真。
下面就是它生成的结果,完整的对话看这里。
![]()
作为比较,我把另外两个模型的结果也贴出来。
GLM 4.6
![]()
Claude Sonnet 4.5
![]()
我觉得,MiniMax M2 的结果(第一张图片)有两个值得注意的地方。首先,它添加了道路;其次,它的自行车结构相对更完整,只是缺了握把。另外,要是那只鹈鹕的姿势更像"骑车"就好了。
八、
测试就到这里,至于 GLM 4.6 和 Claude Sonnet 4.5 的结果对比,大家可以看它们各自的链接,自行比较。
我必须诚实地说,MiniMax M2 的表现超出了我的预期。
最吸引我的地方,还不是运行结果本身,而是它处理问题的方式,对用户很友好,会添加一些帮助理解的辅助结果,让你觉得很易用(accessible)也很易懂,这也从侧面增强了生成结果的可靠性。
我倾向于相信,各种评测结果确实是 M2 的真实实力。再考虑到它的 API 价格(现在还是免费期),我会在接下来的工作中使用它,也推荐大家试试看。
(完)
文档信息
- 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证)
- 发表日期: 2025年11月 4日









