功能概览
Hermes Agent 包含一系列丰富的功能,远超基础聊天能力。从持久化记忆和文件感知上下文,到浏览器自动化和语音对话,这些功能协同工作,使 Hermes 成为一个强大的自主助手。
核心功能
- 工具与工具集 — 工具是扩展 Agent 能力的函数。它们被组织为逻辑工具集(Toolset),可按平台启用或禁用,涵盖网络搜索、终端执行、文件编辑、记忆、任务委派等功能。
- Skills 系统 — Agent 可以按需加载的知识文档。Skills 遵循渐进式披露(Progressive Disclosure)模式以最小化 Token 消耗,并兼容 agentskills.io 开放标准。
- 持久化记忆 — 跨会话持久保存的有界、精心管理的记忆。Hermes 会记住你的偏好、项目、环境以及通过
MEMORY.md和USER.md学到的知识。 - 上下文文件 — Hermes 会自动发现并加载项目上下文文件(
.hermes.md、AGENTS.md、CLAUDE.md、SOUL.md、.cursorrules),这些文件决定了 Agent 在你项目中的行为方式。 - 上下文引用 — 输入
@后跟引用标识,即可将文件、文件夹、git diff 和 URL 直接注入到消息中。Hermes 会在行内展开引用并自动附加内容。 - 检查点 — Hermes 在修改文件前会自动快照工作目录,为你提供安全网,出错时可通过
/rollback回滚。
自动化
- 定时任务 (Cron) — 使用自然语言或 Cron 表达式调度自动执行的任务。任务可以附加 Skills、将结果投递到任何平台,并支持暂停/恢复/编辑操作。
- 子 Agent 委派 —
delegate_task工具会生成具有隔离上下文、受限工具集和独立终端会话的子 Agent 实例。最多可同时运行 3 个子 Agent 进行并行工作流。 - 代码执行 —
execute_code工具让 Agent 编写能以编程方式调用 Hermes 工具的 Python 脚本,通过沙箱化 RPC(Remote Procedure Call,远程过程调用)执行将多步骤工作流压缩为单次 LLM 轮次。 - 事件钩子 (Hooks) — 在关键生命周期节点运行自定义代码。Gateway 钩子处理日志、告警和 Webhook;插件钩子处理工具拦截、指标和防护措施。
- 批处理 — 跨数百或数千个提示词并行运行 Hermes Agent,生成结构化的 ShareGPT 格式轨迹数据,用于训练数据生成或评估。
媒体与 Web
- 语音模式 — 在 CLI 和消息平台上实现完整的语音交互。使用麦克风与 Agent 对话,收听语音回复,并在 Discord 语音频道中进行实时语音对话。
- 浏览器自动化 — 支持多种后端的完整浏览器自动化:Browserbase 云端、Browser Use 云端、通过 CDP(Chrome DevTools Protocol)的本地 Chrome 或本地 Chromium。可以浏览网站、填写表单、提取信息。
- 视觉与图片粘贴 — 多模态视觉支持。从剪贴板粘贴图片到 CLI,让 Agent 使用任何支持视觉的模型进行分析、描述或处理。
- 图片生成 — 使用 FAL.ai 从文本提示词生成图片。支持八种模型(FLUX 2 Klein/Pro、GPT-Image 1.5、Nano Banana Pro、Ideogram V3、Recraft V4 Pro、Qwen、Z-Image Turbo);通过
hermes tools选择模型。 - 语音与 TTS — 在所有消息平台上实现文本转语音(TTS,Text-to-Speech)输出和语音消息转录,提供五种提供商选项:Edge TTS(免费)、ElevenLabs、OpenAI TTS、MiniMax 和 NeuTTS。
集成
- MCP 集成 — 通过 stdio 或 HTTP 传输连接到任何 MCP(Model Context Protocol,模型上下文协议)服务器。无需编写原生 Hermes 工具即可访问来自 GitHub、数据库、文件系统和内部 API 的外部工具。支持按服务器过滤工具和采样。
- 提供商路由 — 精细控制由哪些 AI 提供商处理你的请求。通过排序、白名单、黑名单和优先级排序来优化成本、速度或质量。
- 备用提供商 — 当主模型遇到错误时自动故障转移到备用 LLM 提供商,包括视觉和压缩等辅助任务的独立备用方案。
- 凭证池 — 将 API 调用分散到同一提供商的多个密钥上。在速率限制或故障时自动轮换。
- 记忆提供商 — 接入外部记忆后端(Honcho、OpenViking、Mem0、Hindsight、Holographic、RetainDB、ByteRover),实现跨会话的用户建模和个性化,超越内置记忆系统。
- API 服务器 — 将 Hermes 作为兼容 OpenAI 格式的 HTTP 端点暴露。连接任何使用 OpenAI 格式的前端 — Open WebUI、LobeChat、LibreChat 等。
- IDE 集成 (ACP) — 在兼容 ACP 的编辑器(如 VS Code、Zed 和 JetBrains)中使用 Hermes。聊天、工具活动、文件差异和终端命令在编辑器内渲染。
- RL 训练 — 从 Agent 会话生成轨迹数据,用于强化学习和模型微调。
自定义
- 个性与 SOUL.md — 完全可自定义的 Agent 个性。
SOUL.md是主要的身份文件 — 系统提示词中的第一项内容 — 你可以为每个会话切换内置或自定义/personality预设。 - 皮肤与主题 — 自定义 CLI 的视觉呈现:横幅颜色、加载动画的表情和动词、回复框标签、品牌文本以及工具活动前缀。
- 插件 — 无需修改核心代码即可添加自定义工具、钩子和集成。三种插件类型:通用插件(工具/钩子)、记忆提供商(跨会话知识)和上下文引擎(替代上下文管理)。通过统一的
hermes plugins交互式界面管理。
📝 本文由 AI 翻译,如有疑问请参考英文原版