RL RanceLee的博客
← 返回主页
● 存档教程

GLM-5.2、DeepSeek-V4 没有视觉能力?自己写一个 MCP 就行了

前两天我做 Obsidian 插件不是说 GLM-5.2 没有视觉能力么?

今天就来说一下怎么解决这个问题,给它们开开眼。

其实你写一个 MCP 就可以了,我用的火山引擎 Coding Plan 里面有很多模型,可以让它们识别后再传给 GLM-5.2。反正在同一个套餐额度里面,不用白不用。

至于说为什么是 MCP 而不是 Skill?是因为 MCP 在识别图片时能够自动调用,而 Skill 在这种情况下需要你手动激活。

我这里使用的是 ZCode,你只要把自己的目标、URL 和 API 告诉给它就行了。图像识别模型是 doubao-seed-2.0-pro,毕竟图片识别的任务不会多,所以用贵一点的模型也可以。

提示词如下,你根据自己的情况改一下自己的 API、URL 即可:

我现在在用zcode接glm,但是glm5.2没有视觉能力,你能不能帮我写个mcp,然后图用别的模型识别?我的api是XXX,我的url是XXX。图片识别模型用doubao-seed-2.0-pro

安装完后测试一下,没问题,正确识别到了。

同样的,这个 MCP 也可以注册到你的 Claude Code 等工具,并不需要一个工具写一个,你只要把它的位置发给另外的工具,让它们自己配置即可。

需要提醒一下,不同的工具方式不同,可能会在你的文件夹里面留图片的副本,最好加上一个 24 小时自动清理的功能。

这几天我会把 GLM-5.2 作为主力模型来体验一下效果。看能不能彻底替代国外模型,或者是国外只买便宜的套餐。