Back to Blog
观点2026-04-11

Skill、Harness、记忆、安全:60篇文章和20个项目之后,我们画出了AI Agent的完整拼图

#AI Agent#Skill系统#安全#开源

过去三个月我们写了将近 60 篇关于 AI Agent 的文章,覆盖了 Skill 系统、Harness 治理、记忆架构、安全防御四个方向。回头看,这四个方向其实在解同一个问题:怎么让 Agent 从"能用"变成"可靠"。这篇文章把四根柱子拉到一起,用 20+ 个开源项目和我们的实战经验,画一张完整的图


四根柱子,一个目标

AI Agent 和普通 LLM 调用的本质区别在于它有执行能力。能读写文件、能跑 Shell、能调 API、能上网。这意味着它能做的事情多了一个数量级,但同时出错的后果也严重了一个数量级

让 Agent 可靠地工作需要四根柱子同时撑住

Skill 系统解决"Agent 能做什么"。把领域知识、工作流、最佳实践打包成可复用的模块,让 Agent 从通才变专家。Anthropic 内部用了几百个 Skills,Uber 内部管理着 500+ 个

Harness 治理解决"Agent 怎么做"。定义 Agent 的工作流程、协作模式、质量门禁。从 Prompt Engineering 到 Context Engineering 到 Harness Engineering,工程师的角色从写代码变成了设计 Agent 的运行环境

记忆系统解决"Agent 记住什么"。跨 session 积累经验,避免重复犯错。从简单的 CLAUDE.md 文件到向量数据库到知识图谱,12+ 个开源项目在竞争最优方案

安全防御解决"Agent 不做什么"。MCP 生态 60 天爆出 30+ 个 CVE,OpenClaw 商店五分之一的包是恶意软件。执行权限带来攻击面,防御必须跟上

四根柱子


Skill 系统:从 Anthropic 内部实践到社区爆发

我们在第 13 到 25 篇文章里密集追踪了 Skill 生态的演进。Anthropic 官方出了 6 节课的教程,总结了 9 种最有效的 Skill 类型,核心理念是"别再造 Agent 了,造 Skills 就够了"

社区的响应非常快。目前影响力最大的几个 Skill 框架各有侧重

Addy Osmani 的 agent-skills(8.8K 星)走的是标准化路线。19 个核心 Skill 覆盖从 /spec 到 /ship 的完整开发生命周期,7 个斜杠命令,3 个专家 Agent 人设(代码审查员、测试工程师、安全审计师)。最有意思的设计是"反合理化表",列出了 Agent 常用来跳过关键步骤的借口和对应的反驳,防止 Agent 偷懒

obra 的 superpowers(14 万星)是目前 star 数最高的 Skill 框架。强制 TDD 红绿重构循环,子 Agent 驱动开发,每个任务派一个全新的 Agent 执行再做两轮代码审查。Git worktree 隔离保证并行开发不冲突。Skill 在这里的角色更像是强制执行的方法论,不是可选的建议

Garry Tan 的 gstack(6.7 万星)把 Claude Code 变成了一个 23 人的虚拟工程团队。CEO、设计师、工程师、QA 负责人、发布经理、首席安全官各司其职,Sprint 流水线从 Think 到 Ship 到 Reflect。/learn 命令管理跨 session 的模式积累,/cso 做 OWASP/STRIDE 安全审计

Every 的 compound-engineering(1.36 万星)强调复合效应:每次工程迭代都应该让下一次更容易。6 个 /ce: 命令,80% 规划和审查、20% 执行。最独特的是 /ce:compound 命令,在每个迭代结束时提取经验教训写入知识库,让未来的工作自动受益于过去的积累

这些框架的共同趋势是 Skill 的职责在扩大。最早的 Skill 只是一段提示词模板,现在的 Skill 同时承载了工作流定义(Harness 的职责)、经验积累(记忆的职责)、安全审计(防御的职责)。四根柱子在实践中正在融合

Skill生态


Harness 治理:从概念争议到六种架构模式

我们从第 34 篇开始追踪 Harness Engineering 这个概念。Anthropic 和 OpenAI 几乎同一周发了各自的实践文章,然后整个社区炸了

三次范式转移现在已经是共识。2023-2024 年的 Prompt Engineering 关注措辞和结构化。2025 年的 Context Engineering 关注信息编排,把整个上下文窗口当工程对象设计。2026 年的 Harness Engineering 关注 Agent 的运行环境设计,包括协作架构、评估闭环、记忆系统、治理机制

revfactory 的 Harness 插件(第 42 篇)把概念变成了工具,内置了六种 Agent 协作模式:Pipeline 流水线、Fan-out/Fan-in 扇出扇入、Expert Pool 专家池、Producer-Reviewer 生成评审、Supervisor 主管、Hierarchical Delegation 层级委派。A/B 测试数据显示平均质量提升 60%,任务越复杂提升越大

Dex Horthy 的 RPI 方法论(第 48 篇)提供了另一个视角。他的核心洞察是上下文窗口有一个"聪明区"和一个"笨蛋区",大约在 40% 使用率时质量开始下降。Research-Plan-Implement 三步法的本质就是持续压缩上下文,始终待在聪明区

Mitchell Hashimoto 的六阶段复盘(第 56 篇)则展示了一个工程师从怀疑到全面采纳的真实路径。他的第五阶段"Engineer the Harness"正好印证了整个社区的方向

Claude Code 的内部架构(190 星)展示了参考实现:50+ 命令、JSON Schema 验证的工具系统、完整的 MCP 协议实现、支持并行执行和上下文隔离的 Agent 系统。所有外部框架都构建在这个基座之上

Harness治理


记忆系统:12 个项目的四条技术路线

我们在第 58 篇做了完整的记忆系统竞品分析。核心问题很简单:LLM 是无状态的,关掉 session 就全忘了

四条技术路线各有取舍。纯文件存储(CLAUDE.md)零依赖但不支持语义搜索。向量数据库 + RAG 能处理规模但衡量的是"相似"而非"正确"。知识图谱精度最高但构建成本也最高。混合检索(BM25 + 向量 + 知识图谱)效果最好,学术研究显示精确率可达 92%

新加入的 mempalace(2.16 万星)是目前基准测试得分最高的方案,LongMemEval R@5 达到 96.6%。它的设计灵感来自古希腊的记忆宫殿术:Wings(翼)对应人或项目,Rooms(房间)对应话题,Halls(厅)对应记忆类型,Closets(衣橱)存放摘要,Drawers(抽屉)保留原始文件。最关键的设计决策是原文逐字存储,不做 LLM 摘要,用 ChromaDB 做向量搜索、SQLite 做知识图谱。19 个 MCP 工具接口让它可以接入任何兼容的 Agent

agentmemory(592 星)做了目前最完整的检索引擎,三路融合加矛盾检测加级联失效。claude-memory-compiler(251 星)走 Karpathy 的知识编译路线,把对话蒸馏成维基式知识文章。agent-memory(13 星)纯 bash + jq 实现的知识图谱,零依赖但有完整的矛盾检测

compound-engineering 的 /ce:compound 命令提供了一个有趣的视角:记忆不需要是一个独立的基础设施,它可以内嵌到工作流里。每次迭代结束时自动提取经验教训,下次迭代自动加载。gstack 的 /learn 命令做了类似的事,跨 session 积累模式

记忆系统


安全防御:从 30 个 CVE 到三层纵深

我们在第 59 篇深度调研了 Agent 安全领域。数据触目惊心:MCP 生态 60 天 30+ 个 CVE,43% 的 MCP 服务器有命令注入漏洞,OpenClaw 商店 1184 个恶意包,Claude Code 自身两个高危 CVE,87% 的 AI 生成 PR 引入安全漏洞

ClawKeeper(464 星)提出了三层防御纵深:Skill 层通过 Markdown 策略注入告诉 Agent "什么不该做",Plugin 层在运行时拦截危险操作(11 个核心模块覆盖 10 个威胁域),Watcher 层作为独立守护进程监控所有行为并可强制人工确认。论文在 140 个对抗测试实例上达到了最优防御性能

Invariant MCP-Scan(1100+ 星,已被 Snyk 收购)做静态扫描,检测工具描述中的 prompt 注入和 rug pull 攻击。AgentSeal 给 8000+ 个 MCP 服务器做了安全评分,发现 4513 个深度问题。Docker Sandboxes 用 MicroVM 在基础设施层面隔离 Agent。MCP Guardian 用 SHA-256 哈希做工具定义钉住,防止篡改

安全的挑战在于它和其他三根柱子存在张力。Skill 越多攻击面越大,记忆系统可能存储敏感信息,Harness 的工具调用权限本身就是安全风险。gstack 的做法值得参考:/guard 命令做安全护栏防止危险命令执行,/cso 命令做 OWASP/STRIDE 威胁建模,把安全内嵌到 Sprint 流水线里而非事后补救

安全防御


四虾阵实战:四根柱子怎么整合

理论框架再完美,落地才是真功夫。"四虾阵 Agent Ops"(第 37 篇)提供了一个把四根柱子整合到一起的运营范例

架构层:小龙虾协调者持有任务板 board.json 做路由和状态推进,码力/笔锋/谋士三个执行层 Agent 通过 SOUL.md 约束角色边界(这是 Skill + Harness 的融合)

记忆层:三级记忆塔。L0 OpenViking 自动召回处理当前会话和 Session 归档,L1 MemOS 处理日常轻量协作记忆,L2 MEMORY.md/Daily Notes 做冷启动兜底。重启不失忆

治理层:OpenHarness 实践。YAML Constitution 硬约束定义 deny_patterns,所有 exec 指令派发前必须经过 lobster_ops.py 验证,高风险操作强制触发 ask 等用户批准。任务流转以 board.json 为唯一真相源

安全层:运行时防御 Pre-exec Validation 加日志压缩 Microcompact。所有操作可审计,Token 损耗严控

这套体系的核心理念是放弃对 Agent 自觉性的幻想,通过显式治理机制实施控制。和 ClawKeeper 的三层纵深、gstack 的 Sprint 流水线、superpowers 的强制 TDD 本质上是同一个思路:Agent 的可靠性来自外部约束,不是内部自觉

四虾阵整合


融合趋势:四根柱子正在变成一根

回看这 20+ 个项目,一个明显的趋势是四根柱子的边界在模糊

superpowers 的 Skill 强制执行 TDD 方法论(Skill 承载了 Harness 的职责),自动保存设计文档和计划(Skill 承载了记忆的职责)。gstack 的 /cso 安全审计是一个 Skill,/guard 安全护栏是一个 Harness 机制,/learn 经验积累是一个记忆功能,三者无缝融合在同一个 Sprint 流水线里。compound-engineering 的 /ce:compound 既是记忆(提取经验)也是 Harness(强制回顾)也是 Skill(可复用模块)

这个融合方向对开发者的启示是:不需要分别搭建四套独立的系统。一个设计良好的 Skill 框架可以同时承载工作流约束、经验积累和安全检查。agent-skills 的验证门禁、superpowers 的强制流水线、gstack 的 Sprint 七步都是这个思路

未来的 Agent 工程工具大概率会收敛成一个统一的框架:用 Skill 定义能力边界,用 Harness 定义执行流程,用记忆积累领域经验,用安全机制兜底。四根柱子变成一根,就是 Agent 真正可靠的那一天

融合趋势

📬

Subscribe to Newsletter, get the full playbook free

Subscribe to receive the complete "AIP Overseas Social Media Playbook" plus weekly AI curated content

We respect your privacy. No spam. Unsubscribe anytime.

Jason Zhu

Ex-AI Engineer | AI Blogger

Follow me on X