返回博客
观点2026-04-11

Skill、Harness、记忆、安全:60篇文章和20个项目之后,我们画出了AI Agent的完整拼图

#AI Agent#Skill系统#安全#开源

过去三个月我们写了将近 60 篇关于 AI Agent 的文章,覆盖了 Skill 系统、Harness 治理、记忆架构、安全防御四个方向。回头看,这四个方向其实在解同一个问题:怎么让 Agent 从"能用"变成"可靠"。这篇文章把四根柱子拉到一起,用 20+ 个开源项目和我们的实战经验,画一张完整的图


四根柱子,一个目标

AI Agent 和普通 LLM 调用的本质区别在于它有执行能力。能读写文件、能跑 Shell、能调 API、能上网。这意味着它能做的事情多了一个数量级,但同时出错的后果也严重了一个数量级

让 Agent 可靠地工作需要四根柱子同时撑住

Skill 系统解决"Agent 能做什么"。把领域知识、工作流、最佳实践打包成可复用的模块,让 Agent 从通才变专家。Anthropic 内部用了几百个 Skills,Uber 内部管理着 500+ 个

Harness 治理解决"Agent 怎么做"。定义 Agent 的工作流程、协作模式、质量门禁。从 Prompt Engineering 到 Context Engineering 到 Harness Engineering,工程师的角色从写代码变成了设计 Agent 的运行环境

记忆系统解决"Agent 记住什么"。跨 session 积累经验,避免重复犯错。从简单的 CLAUDE.md 文件到向量数据库到知识图谱,12+ 个开源项目在竞争最优方案

安全防御解决"Agent 不做什么"。MCP 生态 60 天爆出 30+ 个 CVE,OpenClaw 商店五分之一的包是恶意软件。执行权限带来攻击面,防御必须跟上

四根柱子


Skill 系统:从 Anthropic 内部实践到社区爆发

我们在第 13 到 25 篇文章里密集追踪了 Skill 生态的演进。Anthropic 官方出了 6 节课的教程,总结了 9 种最有效的 Skill 类型,核心理念是"别再造 Agent 了,造 Skills 就够了"

社区的响应非常快。目前影响力最大的几个 Skill 框架各有侧重

Addy Osmani 的 agent-skills(8.8K 星)走的是标准化路线。19 个核心 Skill 覆盖从 /spec 到 /ship 的完整开发生命周期,7 个斜杠命令,3 个专家 Agent 人设(代码审查员、测试工程师、安全审计师)。最有意思的设计是"反合理化表",列出了 Agent 常用来跳过关键步骤的借口和对应的反驳,防止 Agent 偷懒

obra 的 superpowers(14 万星)是目前 star 数最高的 Skill 框架。强制 TDD 红绿重构循环,子 Agent 驱动开发,每个任务派一个全新的 Agent 执行再做两轮代码审查。Git worktree 隔离保证并行开发不冲突。Skill 在这里的角色更像是强制执行的方法论,不是可选的建议

Garry Tan 的 gstack(6.7 万星)把 Claude Code 变成了一个 23 人的虚拟工程团队。CEO、设计师、工程师、QA 负责人、发布经理、首席安全官各司其职,Sprint 流水线从 Think 到 Ship 到 Reflect。/learn 命令管理跨 session 的模式积累,/cso 做 OWASP/STRIDE 安全审计

Every 的 compound-engineering(1.36 万星)强调复合效应:每次工程迭代都应该让下一次更容易。6 个 /ce: 命令,80% 规划和审查、20% 执行。最独特的是 /ce:compound 命令,在每个迭代结束时提取经验教训写入知识库,让未来的工作自动受益于过去的积累

这些框架的共同趋势是 Skill 的职责在扩大。最早的 Skill 只是一段提示词模板,现在的 Skill 同时承载了工作流定义(Harness 的职责)、经验积累(记忆的职责)、安全审计(防御的职责)。四根柱子在实践中正在融合

Skill生态


Harness 治理:从概念争议到六种架构模式

我们从第 34 篇开始追踪 Harness Engineering 这个概念。Anthropic 和 OpenAI 几乎同一周发了各自的实践文章,然后整个社区炸了

三次范式转移现在已经是共识。2023-2024 年的 Prompt Engineering 关注措辞和结构化。2025 年的 Context Engineering 关注信息编排,把整个上下文窗口当工程对象设计。2026 年的 Harness Engineering 关注 Agent 的运行环境设计,包括协作架构、评估闭环、记忆系统、治理机制

revfactory 的 Harness 插件(第 42 篇)把概念变成了工具,内置了六种 Agent 协作模式:Pipeline 流水线、Fan-out/Fan-in 扇出扇入、Expert Pool 专家池、Producer-Reviewer 生成评审、Supervisor 主管、Hierarchical Delegation 层级委派。A/B 测试数据显示平均质量提升 60%,任务越复杂提升越大

Dex Horthy 的 RPI 方法论(第 48 篇)提供了另一个视角。他的核心洞察是上下文窗口有一个"聪明区"和一个"笨蛋区",大约在 40% 使用率时质量开始下降。Research-Plan-Implement 三步法的本质就是持续压缩上下文,始终待在聪明区

Mitchell Hashimoto 的六阶段复盘(第 56 篇)则展示了一个工程师从怀疑到全面采纳的真实路径。他的第五阶段"Engineer the Harness"正好印证了整个社区的方向

Claude Code 的内部架构(190 星)展示了参考实现:50+ 命令、JSON Schema 验证的工具系统、完整的 MCP 协议实现、支持并行执行和上下文隔离的 Agent 系统。所有外部框架都构建在这个基座之上

Harness治理


记忆系统:12 个项目的四条技术路线

我们在第 58 篇做了完整的记忆系统竞品分析。核心问题很简单:LLM 是无状态的,关掉 session 就全忘了

四条技术路线各有取舍。纯文件存储(CLAUDE.md)零依赖但不支持语义搜索。向量数据库 + RAG 能处理规模但衡量的是"相似"而非"正确"。知识图谱精度最高但构建成本也最高。混合检索(BM25 + 向量 + 知识图谱)效果最好,学术研究显示精确率可达 92%

新加入的 mempalace(2.16 万星)是目前基准测试得分最高的方案,LongMemEval R@5 达到 96.6%。它的设计灵感来自古希腊的记忆宫殿术:Wings(翼)对应人或项目,Rooms(房间)对应话题,Halls(厅)对应记忆类型,Closets(衣橱)存放摘要,Drawers(抽屉)保留原始文件。最关键的设计决策是原文逐字存储,不做 LLM 摘要,用 ChromaDB 做向量搜索、SQLite 做知识图谱。19 个 MCP 工具接口让它可以接入任何兼容的 Agent

agentmemory(592 星)做了目前最完整的检索引擎,三路融合加矛盾检测加级联失效。claude-memory-compiler(251 星)走 Karpathy 的知识编译路线,把对话蒸馏成维基式知识文章。agent-memory(13 星)纯 bash + jq 实现的知识图谱,零依赖但有完整的矛盾检测

compound-engineering 的 /ce:compound 命令提供了一个有趣的视角:记忆不需要是一个独立的基础设施,它可以内嵌到工作流里。每次迭代结束时自动提取经验教训,下次迭代自动加载。gstack 的 /learn 命令做了类似的事,跨 session 积累模式

记忆系统


安全防御:从 30 个 CVE 到三层纵深

我们在第 59 篇深度调研了 Agent 安全领域。数据触目惊心:MCP 生态 60 天 30+ 个 CVE,43% 的 MCP 服务器有命令注入漏洞,OpenClaw 商店 1184 个恶意包,Claude Code 自身两个高危 CVE,87% 的 AI 生成 PR 引入安全漏洞

ClawKeeper(464 星)提出了三层防御纵深:Skill 层通过 Markdown 策略注入告诉 Agent "什么不该做",Plugin 层在运行时拦截危险操作(11 个核心模块覆盖 10 个威胁域),Watcher 层作为独立守护进程监控所有行为并可强制人工确认。论文在 140 个对抗测试实例上达到了最优防御性能

Invariant MCP-Scan(1100+ 星,已被 Snyk 收购)做静态扫描,检测工具描述中的 prompt 注入和 rug pull 攻击。AgentSeal 给 8000+ 个 MCP 服务器做了安全评分,发现 4513 个深度问题。Docker Sandboxes 用 MicroVM 在基础设施层面隔离 Agent。MCP Guardian 用 SHA-256 哈希做工具定义钉住,防止篡改

安全的挑战在于它和其他三根柱子存在张力。Skill 越多攻击面越大,记忆系统可能存储敏感信息,Harness 的工具调用权限本身就是安全风险。gstack 的做法值得参考:/guard 命令做安全护栏防止危险命令执行,/cso 命令做 OWASP/STRIDE 威胁建模,把安全内嵌到 Sprint 流水线里而非事后补救

安全防御


四虾阵实战:四根柱子怎么整合

理论框架再完美,落地才是真功夫。"四虾阵 Agent Ops"(第 37 篇)提供了一个把四根柱子整合到一起的运营范例

架构层:小龙虾协调者持有任务板 board.json 做路由和状态推进,码力/笔锋/谋士三个执行层 Agent 通过 SOUL.md 约束角色边界(这是 Skill + Harness 的融合)

记忆层:三级记忆塔。L0 OpenViking 自动召回处理当前会话和 Session 归档,L1 MemOS 处理日常轻量协作记忆,L2 MEMORY.md/Daily Notes 做冷启动兜底。重启不失忆

治理层:OpenHarness 实践。YAML Constitution 硬约束定义 deny_patterns,所有 exec 指令派发前必须经过 lobster_ops.py 验证,高风险操作强制触发 ask 等用户批准。任务流转以 board.json 为唯一真相源

安全层:运行时防御 Pre-exec Validation 加日志压缩 Microcompact。所有操作可审计,Token 损耗严控

这套体系的核心理念是放弃对 Agent 自觉性的幻想,通过显式治理机制实施控制。和 ClawKeeper 的三层纵深、gstack 的 Sprint 流水线、superpowers 的强制 TDD 本质上是同一个思路:Agent 的可靠性来自外部约束,不是内部自觉

四虾阵整合


融合趋势:四根柱子正在变成一根

回看这 20+ 个项目,一个明显的趋势是四根柱子的边界在模糊

superpowers 的 Skill 强制执行 TDD 方法论(Skill 承载了 Harness 的职责),自动保存设计文档和计划(Skill 承载了记忆的职责)。gstack 的 /cso 安全审计是一个 Skill,/guard 安全护栏是一个 Harness 机制,/learn 经验积累是一个记忆功能,三者无缝融合在同一个 Sprint 流水线里。compound-engineering 的 /ce:compound 既是记忆(提取经验)也是 Harness(强制回顾)也是 Skill(可复用模块)

这个融合方向对开发者的启示是:不需要分别搭建四套独立的系统。一个设计良好的 Skill 框架可以同时承载工作流约束、经验积累和安全检查。agent-skills 的验证门禁、superpowers 的强制流水线、gstack 的 Sprint 七步都是这个思路

未来的 Agent 工程工具大概率会收敛成一个统一的框架:用 Skill 定义能力边界,用 Harness 定义执行流程,用记忆积累领域经验,用安全机制兜底。四根柱子变成一根,就是 Agent 真正可靠的那一天

融合趋势

📬

订阅 Newsletter,免费获取完整手册

Subscribe即送《AIP出海自媒体实战手册》完整版,还有每周AI精选内容推送

我们尊重你的隐私,不会发送垃圾邮件。可随时退订。

Jason Zhu

前AI算法工程师 | AI博主

在 X 上关注我