GLM-5.2、DeepSeek-V4 没有视觉能力？自己写一个 MCP 就行了

前两天我做 Obsidian 插件不是说 GLM-5.2 没有视觉能力么？

今天就来说一下怎么解决这个问题，给它们开开眼。

其实你写一个 MCP 就可以了，我用的火山引擎 Coding Plan 里面有很多模型，可以让它们识别后再传给 GLM-5.2。反正在同一个套餐额度里面，不用白不用。

至于说为什么是 MCP 而不是 Skill？是因为 MCP 在识别图片时能够自动调用，而 Skill 在这种情况下需要你手动激活。

我这里使用的是 ZCode，你只要把自己的目标、URL 和 API 告诉给它就行了。图像识别模型是 doubao-seed-2.0-pro，毕竟图片识别的任务不会多，所以用贵一点的模型也可以。

提示词如下，你根据自己的情况改一下自己的 API、URL 即可：

我现在在用zcode接glm，但是glm5.2没有视觉能力，你能不能帮我写个mcp，然后图用别的模型识别？我的api是XXX，我的url是XXX。图片识别模型用doubao-seed-2.0-pro

安装完后测试一下，没问题，正确识别到了。

同样的，这个 MCP 也可以注册到你的 Claude Code 等工具，并不需要一个工具写一个，你只要把它的位置发给另外的工具，让它们自己配置即可。

需要提醒一下，不同的工具方式不同，可能会在你的文件夹里面留图片的副本，最好加上一个 24 小时自动清理的功能。

这几天我会把 GLM-5.2 作为主力模型来体验一下效果。看能不能彻底替代国外模型，或者是国外只买便宜的套餐。