Hermes Agent | TokenMP

OpenAICLI / Agent~/.hermes/config.yaml（密钥也可放 ~/.hermes/.env）

只填这些

Base URL	https://api.tokenmp.cn/v1
API Key	sk-tmp-...
模型	glm-5.1 / mimo-v2.5-pro
协议	OpenAI
配置位置	~/.hermes/config.yaml（密钥也可放 ~/.hermes/.env）

直接复制配置

model:
  default: glm-5.1
  provider: custom
  base_url: https://api.tokenmp.cn/v1
  api_key: sk-xxx...
  # TOTAL context window: input + output. 如果 /v1/models 未暴露准确值再手动设置。
  context_length: 202752
  # OUTPUT cap: 建议先留空；需要强制限制输出时再打开。
  max_tokens: 131072

compression:
  enabled: true
  # Hermes 示例配置中 threshold 是比例；0.50 表示约 50% 上下文时开始压缩。
  threshold: 0.50
  summary_model: glm-5.1

fallback_providers:
  - provider: custom
    model: mimo-v2.5-pro
    base_url: https://api.tokenmp.cn/v1

# 如果主模型切换到 1M：
# model.default: mimo-v2.5-pro
# model.context_length: 1048576

hermes model
hermes config edit
hermes "你好，介绍一下 TokenMP"
hermes "读取 README.md，总结项目结构"

关键参数

Provider

model.provider = custom

Hermes 官方自定义端点使用 custom provider；Base URL 指向 TokenMP /v1，模型名使用 Panel 或 /v1/models 中的可用 ID。

上下文窗口

model.context_length

该值是输入 + 输出的总上下文窗口，也会影响 Hermes 历史压缩和请求校验；GLM-5.1 可填 202752，MiMo-V2.5-Pro 可填 1048576。

最大输出

model.max_tokens

该值只约束单次生成长度，不会扩大会话历史；Hermes 官方示例建议默认留空，只有要主动限制响应长度时再设置。

自动压缩

compression.enabled / threshold / summary_model

开启后 Hermes 会按阈值压缩历史；summary_model 可复用 glm-5.1，也可改成更便宜的模型来降低压缩成本。

失败回退

fallback_providers

长任务或主模型失败时可配置备用 provider/model；需要更大上下文时可把 mimo-v2.5-pro 作为 fallback。

排障入口

TokenMP Panel 请求日志

如果 Hermes 只显示泛化错误，先看 Trace ID、实际 path、上游 provider 错误和是否真的带上 max_tokens/context_length。

验证

命令行正常输出回复，且 TokenMP Panel 请求日志中出现对应模型、/v1/chat/completions 路径和 Trace ID，即配置成功。

常见坑

常见问题：如果请求返回 404，检查 base_url 是否只写到 /v1，模型 ID 是否来自 /v1/models。
如果长会话突然丢上下文，先确认 compression.enabled 是否开启，再降低 threshold 或手动总结当前任务状态。
不要把 sk-tmp Key 写进共享仓库；优先放本机 ~/.hermes/.env 或用户级 config。
如果 max_tokens 没有按预期生效，先升级 Hermes，再看 TokenMP 请求日志确认实际请求体是否包含该字段。
排障时先用 curl 调 /v1/models 验证 Key 与网关，再回到 Hermes 排查本地配置。

参考

Hermes 自定义 OpenAI 兼容端点 Hermes cli-config.yaml 示例 Hermes 配置选项参考

← OpenCode OpenClaw →

只填这些

直接复制配置

关键参数

推荐模型

验证

常见坑

参考