RL RanceLee的博客
← 返回主页
● AI

智谱ZCode免费薅每日500万Token!我顺手让GLM5.2对打Opus4.8和GPT5.5

最近智谱推出了GLM5.2模型,网上有些人说好有些人说不好,让我有点好奇。

问题是智谱家的算力一向很紧缺,我之前连续抢了几次都没抢到。而我抢到的朋友表示上个周日他用起来很卡,昨天下午更是卡到断连。完全打消了我去订阅的想法。

好在现在智谱推出了ZCode,可以免费体验。

ZCode

首先打开网址

https://zcode.z.ai/cn

安装完打开一下,我选择上面的那个全球登录,你们也可以选择下面的中国版,但是听说用全球的登录额度更耐用,不知道真假。

选择后会跳出网页,在新网页你可以注册,也可以和我一样用谷歌登录。

整个界面不说和Codex一模一样吧也只能说是孪生兄弟,如果你用过就很容易上手

对了,如果你进来是英文的,可以这样选择改成中文

打开模型设置,可以看到免费赠送了500万Token

测评过程

闲话不多说,我准备了一个任务让GLM5.2,GPT5.5和Opus4.8对比测试,使用的都是官方的工具,也就是ZCode、Codex和Claude Code,同时比较模型和官方工具的总能力。推理能力全部开到最高,使用同一套提示词做一个极简的软件授权码商店。

然后让我惊讶的事情来了,GLM5.2在思考2分多钟后提示我有变动,过去看一下居然是没返回任何东西,任务就终止了。

我第一反应是莫非额度用完了,过去一看一点都没减少啊

重新发一下任务,这次盯着他看,结果发现是在不停断连,几乎每一步都要断连然后重试。我算是理解我朋友说的断连到不能用的意思了。

GPT5.5是最先完成的,花了10分48秒。 Opus4.8用了21分8秒,是GPT5.5的两倍。 GLM5.2最慢,用了26分31秒,但是和Opus4.8差距不大。

先看看GPT5.5的成果,测试了一下功能什么的都没问题。

然后我们看看Opus4.8的结果,功能上没问题

最后看看GLM5.2的,用起来也没啥问题

评分

最后让他们互相打分,可惜GLM5.2之后多次失败不让我使用了,只能让Opus4.8和GPT5.5互相打分了。

Opus4.8的评分结果:

一、总排名

排名 模型 / 项目 总分 简短结论
1 GLM 5.2 93 / 100 工程组织最干净、最易跑(启动即自动建库播种)、文档最全;唯一短板是数据库约束偏弱。综合最适合继续维护。
2 GPT 5.5 91 / 100 后端最严谨(强制密钥、完整约束、UPDATE 守卫、鉴权二次校验),最适合做支付 / 授权这类后端;前端硬编码后端地址、单 …(原文截断)
3 Opus 4.8(我本人) 90 / 100 均衡型:约束完整、…但没有单项做到最强;JWT 密钥有不安全兜底,前端组件化弱于 GLM。

二、逐项评分表

模型 / 项目 可运行性 25 功能完整度 25 后端正确性与安全性 25 前端体验与工程组织 15 需求遵守度 10 总分 100
GLM 5.2 24 24 21 14 10 93
GPT 5.5 22 24 24 12 9 91
Opus 4.8 23 24 22 12 9 90

GPT5.5的评分结果

一、总排名

排名 模型 / 项目 总分 简短结论
1 GPT 5.5 97 / 100 整体最稳:安装、初始化、构建、前后端启动和主流程全部通过;事务、状态约束、JWT_SECRET、bcrypt、SQL 参数绑定等后端边界最完整。
2 Opus 4.8 92 / 100 功能完整、代码组织清楚,用户流和管理员流都跑通;主要短板是 JWT_SECRET 有不安全兜底、server build 只是 typecheck、导入重复行统计不准。
3 GLM 5.2 89 / 100 可运行性和页面功能都不错,文档也完整;但数据库状态约束和授权码唯一约束缺失,JWT_SECRET 有弱默认值,后端正确性扣分较多。

二、逐项评分表

模型 / 项目 可运行性 25 功能完整度 25 后端正确性与安全性 25 前端体验与工程组织 15 需求遵守度 10 总分 100
GPT 5.5 25 24 24 14 10 97
Opus 4.8 24 23 22 14 9 92
GLM 5.2 25 22 19 14 9 89

可以看到两者的排名差距很大,我问了问GPT5.5为什么,它的答复是:Opus 的评分更偏“工程组织/维护体验”,我的评分更偏“原始需求里的支付事务、数据库约束、JWT 安全和实际边界行为”。这两套结论不矛盾,是权重不同。

最后是GPT5.5对GLM的评价: 工程完成度很高,但后端数据完整性意识弱一档

如果只看“能不能跑、页面齐不齐、结构清不清楚”,GLM 5.2 和 Opus 4.8、GPT 5.5 的差距不大,甚至 GLM 的文档和拆分结构还不错。但如果看“授权码商店这种业务最怕什么”,差距就出来了:授权码唯一性、订单状态合法性、授权码状态合法性、JWT 密钥兜底,这些都是后端底线。

我会这样分层:

维度 GLM 5.2 Opus 4.8 GPT 5.5
能跑起来 很好 很好 很好
功能完整 基本完整 完整 最完整
前端组织 中上 中上
文档说明 很好 普通
后端事务
数据库约束 偏弱
JWT 密钥处理 偏弱 偏弱 最好
继续维护 可以 可以 最稳

差距大概是:

  • GLM 5.2 vs GPT 5.5:中等差距 不是“做不出来”的差距,而是“后端严谨性”的差距。GPT 5.5 更像知道哪些地方必须用数据库兜底,GLM 更像把业务逻辑写在应用层就结束了。授权码系统里,这会影响可靠性。
  • GLM 5.2 vs Opus 4.8:小到中等差距 Opus 的 schema 约束更完整,支付/订单返回结构也更统一;GLM 的工程组织、README、前端封装更强一点。两者不是碾压关系,我更偏向 Opus,是因为数据约束更接近生产习惯。
  • Opus 4.8 vs GPT 5.5:小差距 两者后端都比较完整。GPT 胜在 JWT_SECRET 强制读取、导入 skipped 更准、边界行为更贴需求;Opus 胜在结构更清楚一点。综合 GPT 稍强。

一句话结论:GLM 5.2 是一个很会把项目搭完整的模型,但在“后端必须靠数据库约束兜底”这件事上弱于 Opus 4.8 和 GPT 5.5;GPT 5.5 在这个任务里后端判断最成熟。

以上就是今天的分享。这次GLM的能力提升有点超乎我想想,和前沿模型的差距进一步缩小,可惜的是算力太不足让我不会自己付费使用。

现在微信全面限制广告,只能把赞赏重新开起来了TAT。