端午假期试 Hermes，真正有用的是记住坑

试下来不是那种“忽然很聪明”的感觉。更准确一点，是它能把一堆定时任务、搜索通道和 LLM 流水线跑起来以后，开始暴露出一些真实的工程问题：什么地方会超时，什么地方会误判，什么输出会污染群消息，什么协作偏好下次要提前记住。

这类东西说有用，也不是立刻改变生活；说没用，又确实能省下一些反复敲打的成本。

它先变成一个会跑活的系统

这两天最明显的变化，是 Hermes 不再只是一个聊天窗口，而是被塞进了一套固定工作流里。

6 月 20 日早上，AI 早报 v3 开始跑，流程被拆成四段：先采集，再让 LLM 做摘要，然后跨源验证，最后拼成飞书卡片推送。到 6 月 21 日早上，8 点的 LLM 分析 cron 已经能正常触发，并把 JSON 交给后续验证脚本接力。

下午强制触发所有 cron 时，才发现它手里已经有 28 个定时任务，其中 4 个会真实推送飞书卡片，2 个处在 error 状态。再往后做架构评估，一个 301 条消息的长会话把金融早报架构重新盘了一遍，问题也不是抽象的“系统还要优化”，而是几件很具体的事：DuckDuckGo 单点搜索太脆，跨源验证函数有旧 bug，cron 排程有点密。

这些听起来都不像演示片里的进化，更像一个脚本堆真正开始跑以后，终于有了现场。

我比较在意的也是这点。很多 AI 工具在“给我写一段东西”时都能显得不错，但一旦进入定时任务、消息推送、失败重试、外部搜索、群里实际展示，就会从模型能力问题变成工程卫生问题。Hermes 这次给人的有效感，不在于它能把每句话写得多漂亮，而在于它能被迫面对这些脏活。

有些坑开始变成记忆

原始复盘里最有价值的不是功能清单，而是几个坑。

第一个是跨源验证。早报里本来希望两家以上独立来源验证同一条新闻，卡片上才点亮可信度标记。结果过去 badge 几乎不亮。后来查到根因：验证代码算的是 source，而采集回来的 source 很可能都叫 ddg_api。哪怕结果来自不同网站，集合里也只有一个来源。

修法很简单：不要只按采集接口算来源，改成按域名加搜索引擎算独立源。改完后，同一轮里终于识别出 9 条有 2 个以上独立来源的新闻。这个改动不大，但性质很关键：原来“跨源验证”只是一个看起来很合理的流程名，修完以后才开始真的提供可信度信号。

第二个是 SearXNG。把搜索从旧的 mx-finance-search 迁到 SearXNG 时，最麻烦的不是容器能不能起来，而是某些引擎返空却不报错。比如 Bing 通道查出来是 0 条，unresponsive_engines 里又没有它，因为返空不等于 timeout。最后只能承认这个通道在当前环境里不可靠，转到 sogou 和 360search 这类更稳定的组合。

这类坑如果只写在一次终端输出里，下次大概率还会再踩。它被写进 PITFALLS，价值才出来：下个会话看到“返空但不报错”，不用重新从网络、DNS、代理、容器日志一路猜起。

第三个坑更细碎，是 patch 工具的参数闭合。早期会把 </old_string> 这种标签误落进代码里，以为是模板语法，实际是参数没闭合。这个坑和业务无关，却很典型：一个 agent 要长时间做事，靠的不是一次性推理多强，而是能不能记住自己在哪些工具调用上容易犯错。

PITFALLS 从 18、41、57 一路涨到 74，看起来不太体面，但这反而是我更愿意相信的进化曲线。真正跑过系统的人都知道，功能数往上涨不稀奇，坑的编号往上涨才说明它在碰真实边界。

协作偏好也会被系统吸收

Hermes 自我复盘里还有一块很有意思：它不只记录技术坑，也记录我怎么和它协作。

比如我说“测试下”“执行下”，它现在应该理解成先跑端到端验证再提交，而不是只在终端里跑个局部脚本。比如我说“我要看效果”，它就不能只给我返回 code=0，而要把飞书群里真实卡片推出来。比如我问两个方案，它不要平铺四个选项，而是应该直接给推荐和理由。

这些偏好不算宏大的智能，但对长期使用很重要。工具如果每次都要重新解释“我这里说测试不是让你模拟一下”，成本会很高。反过来，它如果能把这种协作习惯记住，就算单次模型能力没有变化，体感也会稳定很多。

还有一条更像工作流设计原则：让 LLM 干真正的事。脚本能完成的格式化、拼数据、JSON 校验，就不要交给 LLM；LLM 只负责脚本做不到的跨信号关联、深度解读和投资研判。所以那套早报流水线才会被拆成“脚本采集 -> LLM 分析 -> 脚本验证 -> 脚本拼卡”。这比把所有事情都丢给模型更麻烦，但也更不容易把错误藏起来。

我对 Hermes 的判断也基本落在这里。它不是一个“开箱就替你想清楚”的东西，更像一个会在使用中沉淀约束的执行体。前提是你真的给它任务、真的让它推送、真的让它面对失败，而不是只让它写几段漂亮总结。

还不能急着说它稳定

这几天跑通的东西不少，但还没到可以夸稳定的程度。

多搜索通道现在能并发跑，可单个通道卡 30 秒仍然会拖慢整个 query，下一步需要 per-channel timeout。28 个 cron 也只是跑到第 4 天，还没经过 7x24 的验证。群里偶尔会残留 tool_call 噪声，说明自动 deliver 的边界还没收拾干净。PITFALLS 已经堆到 74 条，继续塞 memory 不是办法，后面要按主题归档。

还有一个协作层面的欠账：它现在大多是等我说“测试下”“执行下”才去跑完整验证。更理想的状态，是大改动后它主动问一句要不要跑一遍、发群里看效果。这个动作看起来很小，但对一个自动化系统来说，能不能主动把验证推到交付前面，差别很大。

所以这次端午试用以后，我不会说 Hermes 已经多聪明。更稳的说法是：它开始知道自己容易在哪里犯错，并且愿意把错误写成下次能用的约束。

这比“自我进化”四个字朴素很多，也更接近我愿意长期留下来的理由。

参考资料

本人端午假期 Hermes 部署和试用记录，2026-06-20 至 2026-06-21。
Hermes 自我复盘记录：《Hermes 这几天的复盘稿》，2026-06-21。

写作附记

原始提示词

$blog-writer 趁着端午假期，部署了 hermes，路途上，陆陆续续让它写了一些东西，之前龙虾很火的时候，我也没尝试，评估下来是没什么特别的用处，最近这波浪潮算是过去了，后出来的 hermes 凭借自我进化，自带众多 skill 出圈，空了，刚好试试。弄了挺多定时任务，说有用，也不是那么有用，说没用，倒是有些用。具体的任务这里就不说了，倒是有一份 hermes 自我进化的记录，你整理下这份记录，融入到博客里面，不要贴原文，太长了。

写作思路摘要

这篇保留了端午假期部署、路上试用、28 个 cron、搜索迁移、跨源验证 bug、PITFALLS 增长和协作偏好这些材料。压掉了完整时间线、所有原始复盘段落和具体任务细节，避免正文变成 Hermes 自述稿或流水账。