上期我们介绍了好用的 Hermes，问题是好多朋友不习惯终端。

没事，我们可以选择 Web UI，图形化界面让你简单上手。

现在有很多 Hermes 的图形化界面项目，官方也在做。不过暂时我最推荐的还是 https://github.com/EKKOLearnAI/hermes-web-ui

安装和配置

安装方法很简单，只要终端的一行代码

npm install -g hermes-web-ui

然后用命令就可以启动

hermes-web-ui start

启动后就会自动帮你跳转浏览器，这就是我们的使用界面

界面的内容比较多，我们一个一个来说。

首先我们在这里聊天主要用的是“对话”标签，中间会显示历史对话，可以点击后继续之前的聊，也可以直接删除，和别的网页版 AI 逻辑类似。点击右上角的“新建对话”就可以新建。

而且这个界面很可爱，在思考的时候会有一个 Q 版 Hermes 动图，提示你它正在思考。

点击左侧的模型可以切换模型，请注意这里的模型切换是全局切换，切换后每次新建对话都是用你最后一次切换的模型，即使是在终端、微信等其他平台。

然后我们介绍一下“历史”标签，历史里面的是你在别的平台的对话，包括终端（CLI）、飞书、微信等。

这些历史聊天你可以看，但是不可以直接聊，需要点击右上角的复制按钮复制 ID 后回到原来的对话平台继续聊。

命令类似如下，后面是你的对话 ID，比如我的对话 ID 是“20260517_092750_3cc073”，那么命令就是

hermes -r 20260517_092750_3cc073

往下面拖动，我们能看见“记忆”标签，这里是 Hermes 对你的了解，你可以看看适不适合你，也可以自己手动修改。

第三个“灵魂”对应的是 Hermes 的 Soul 文件，类似于全局 Claude.md，这是对 AI 的总体约束，给你们写教程写到这里我才发现我自己居然是空的……

我们再看一下“模型”标签，你可以很直接在这里看到你已经配置的模型以及新增模型。

最后一个我感觉值得介绍的是“用量”，可以在这里直接看你的用量，往下拖还能看见命中率，不得不感叹一次，DS V4 的命中率真高！

这里的90.5%完全是被GPT5.5拉低了命中率。

更多的内容就推荐你们自己探索吧

如果你只是想用 Web UI，到这里其实就够了。下面是给想继续折腾模型配置的朋友看的补充。

其它查漏补缺

关于 Hermes，我还有两点要说明一下，主要是模型配置和图片识别。请注意，下面的内容很难，你让 AI 去看就可以，你自己可以直接滑滑滑滑过去。

Hermes 的核心配置文件一般在这里：

~/.hermes/config.yaml

如果你不确定自己的位置，可以直接在终端输入：

hermes config path

模型和降级模型怎么写

我自己的配置思路是：平时主模型用一个效果更强的模型，出问题、超时或者限额时，再降级到 DeepSeek。

在 config.yaml 里大概是这种结构：

model:
  provider: custom:crs
  default: gpt-5.5
  reasoning_effort: high

fallback_providers:
  - provider: opencode-go
    model: deepseek-v4-pro
    reasoning_effort: high

这段的意思是：默认走 custom:crs 这个 provider 里的 gpt-5.5；如果主模型不可用，就切到 opencode-go 里的 deepseek-v4-pro。

如果你是自己接 OpenRouter、第三方中转、公司内部网关，就要先在 custom_providers 里声明这个 provider。示例不要照抄 API Key，换成你自己的：

custom_providers:
  - name: CRS
    base_url: https://你的接口地址/openai/v1
    api_key: sk-xxx
    model: gpt-5.5
    api_mode: codex_responses

  - name: or-pro
    base_url: https://openrouter.ai/api/v1
    api_key: sk-or-xxx
    model: deepseek/deepseek-v4-pro

然后主模型就可以这样引用：

model:
  provider: custom:crs
  default: gpt-5.5

或者把 DeepSeek 放到降级链里：

fallback_providers:
  - provider: custom:or-pro
    model: deepseek/deepseek-v4-pro

这里还有一个小坑：Web UI 的模型列表主要会读 custom_providers，所以如果你希望它在图形界面里出现，最好把自定义 provider 也写进 custom_providers。改完模型、provider、降级链之后，建议重启一下：

hermes gateway restart
hermes-web-ui stop && hermes-web-ui start

只刷新浏览器页面不一定够，因为 Gateway 和 Web UI 都可能缓存了旧配置。

视觉模型和非视觉模型怎么用

Hermes 里图片识别不是简单一句“当前模型能不能看图”就完事了，它有两种路线：

主模型原生看图：如果你的主模型本身支持视觉，比如某些 GPT、Claude、Gemini 模型，Hermes 可以把图片直接交给主模型。
辅助视觉模型看图：如果主模型不支持视觉，Hermes 会先让一个视觉模型把图片读出来，再把文字描述交给主模型继续推理。

vision_analyze 工具的说明就是：如果当前模型有原生视觉能力，就把图片直接放进上下文；如果当前模型没有视觉能力，就降级走 auxiliary vision，也就是辅助视觉模型先读图。

它会让一个模型用文字描述一下看到了什么，然后把结果告诉你没有图片识别能力的模型。

配置上对应的是这两块：

agent:
  image_input_mode: auto

auxiliary:
  vision:
    provider: custom:CRS
    model: gpt-5.5
    timeout: 120
    download_timeout: 30
    base_url: ''
    api_key: ''
    extra_body: {}

但这里要说清楚一个细节：这套配置的重点是“兜底可用”，不是“所有模型都原生看图”。

如果你显式配置了 auxiliary.vision，Hermes 通常会把它理解成：你就是想用这个辅助视觉模型来读图。所以即使你的主模型是 gpt-5.5，图片也可能先走辅助视觉流程，变成文字描述后再交给主模型；这时 gpt-5.5 并不是原生看到图片，而是读到了图片描述。

所以它更准确的含义是：

主模型不稳定或不支持看图时 -> 用 auxiliary.vision 先把图片转成文字 -> 主模型继续处理

如果你的主模型本身就是视觉模型，而且你明确想让它直接看图片，可以改成：

agent:
  image_input_mode: native

native 的意思是尽量让主模型直接接收图片。但是注意，不是所有模型都能这么用。比如 DeepSeek 目前就不适合强行设成 native，因为它没有视觉输入能力。

理想状态当然是：gpt-5.5 这类视觉模型原生看图，DeepSeek 这类文本模型自动外接视觉模型。但在当前 Hermes 的逻辑里，这不一定能只靠上面这一段配置完全实现；尤其是自定义 provider，Hermes 未必知道它到底支不支持视觉。保守写法是先保证 DeepSeek 也能通过 auxiliary.vision 间接处理图片。

DeepSeek 现在还不能直接看图怎么办

这一点很重要：DeepSeek 现在还没有视觉能力，至少我们平时用的 DeepSeek V4 Flash、DeepSeek V4 Pro 这类模型，本质上还是文本模型。你把图片直接丢给它，它不是“看不清”，而是根本不支持这种图片输入格式。

所以如果你的主模型是 DeepSeek，推荐这样配：

model:
  provider: custom:or-pro
  default: deepseek/deepseek-v4-pro
  reasoning_effort: high

agent:
  image_input_mode: auto

auxiliary:
  vision:
    provider: custom:CRS
    model: gpt-5.5
    timeout: 120
    download_timeout: 30
    base_url: ''
    api_key: ''
    extra_body: {}

这样你聊天、写代码、推理主要用 DeepSeek；一旦你发图片，Hermes 会让 gpt-5.5 这种视觉模型先看图，把图片内容转成文字，再交给 DeepSeek 处理。

可以理解成：

你发图片 -> 视觉模型先读图 -> 生成文字描述 -> DeepSeek 根据文字继续回答

这套方案的好处是成本和速度都比较可控：日常大部分任务继续用 DeepSeek，只有真的需要看图时才调用视觉模型。

如果你发现发图时报错，尤其是类似 image_url、unknown variant、expected text 之类的错误，通常就是图片请求被送到了不支持视觉的模型。这个时候优先检查 auxiliary.vision.provider 和 auxiliary.vision.model 有没有配对，而不是怀疑图片本身坏了。

上面查漏补缺的这段内容朋友们我估计你们也看不懂，你们直接让 AI 来看我这篇即可。

尤其需要注意的是，我这里的 CRS 是我自己维护的 AI 调用平台，你们是用不了的，不要傻傻地学我填入 CRS。

另外再感叹一下，周末发的 Hermes 文章确实没啥阅读量，看来这种工具教程还是得周中发。

那么以上就是今天的分享，白了个白～

随手附个广告 📚

我有《Obsidian 实战手册》¥29.9 预设文件夹和插件的 OB 模板仓库 ¥49.9（PDF+仓库）以及《AI 实战手册》¥29.9 微信 en297171205