我翻了 200+ 个开源 AI Agent Skill：97.8% 从来没人做过安全审计

你的 AI agent 上周装了几个开源 skill。

谁审过它们？

我做了一件很多人没做的事：把开源 AI agent skill 当成供应链依赖来认真审。不是看 star、看 README 写得漂不漂亮，而是真的去查它要不要你的凭证、代码里有没有藏东西、维护者是谁、出了事能不能追溯。

翻了 200+ 个，深扫了其中一批。这篇说说我看到了什么——以及为什么我觉得这是 2026 年被严重低估的一个风险。

先说最反直觉的发现

我们的目录现在收录了 105,000+ 个开源 agent skill、MCP server、Codex skill。我去查了它们的安全评级分布，结果是这样的：

安全等级	占比
unknown（从没被审过）	97.8%
safe（评过、没问题）	2.1%
caution / unsafe / reject（有问题）	0.1%

看懂这张表了吗？

真正的风险不是"很多 skill 有毒"，而是"绝大多数 skill 是黑箱"。 十万个里，九万八千个从来没有任何人——包括它的使用者——做过一次安全检查。你装它、给它你的 API key、让它在你的环境里跑命令，全凭它 README 写得好不好看。

在我们真正评过级的 2,300 多个里，94% 是安全的，约 5.6% 触发了警告或拒绝。这个比例听起来不吓人——但请记住，这 2,300 只是冰山露出水面的尖。下面那 10 万个，没人知道里面有什么。

我用的 5 个维度

把一个 skill 当供应链依赖来审，我固定看 5 层：

代码层 — 有没有混淆代码、可疑网络请求、运行时下载并执行外部文件？
凭证处理 — 它要你的什么？key 存在哪？是本地，还是上传到某个远程服务器？
厂商可信度 — 维护者是谁？真名、组织、还是 0 follower 的匿名账号？有没有跑路风险？
供应链 — 依赖了什么？有没有同名仿冒（typosquat）、被删的上游、刷量的 star？
运营风险 — 服务方挂了 / 被黑 / 涨价，你的损失是什么？有没有审计日志能追溯？

这 5 层里，代码层最容易，运营层最致命。下面三个真实案例正好对应。

案例 A：看起来"完全正常"的，才最致命

我审过一个社媒调度类的开源 skill。它的卖相无可挑剔：

✓ 几千 star
✓ 完整文档
✓ 演示视频
✓ MIT 协议

代码本身也没有明显的恶意——零运行时依赖，干净。按"看 star、看文档"的标准，满分。

但我在凭证处理和运营风险两层停了下来：你用它连接的所有社媒账号，OAuth token 不是存在你本地，而是托管在维护者的远程服务器上。而这个维护者是个匿名账号，没有真名、没有公司主体、没有 DPA、没有任何合规承诺。

这意味着什么？那台服务器一旦被攻破，攻击者就握着你所有平台账号的发帖权限。 一个企业的品牌号，可能一夜之间变成币圈广告位。这不是危言耸听，是这种"凭证远程托管 + 匿名运营"组合的必然暴露面。

结论：能跑 ≠ 能上生产。 个人小号尝鲜可以，品牌号、商业号绝不该接。

案例 B：star 会骗人，审计不会

反过来也有惊喜。

我翻到一个 0 star 的 skill，差点直接跳过。打开它的 SKILL.md 才发现，里面是 8KB 的工程级方法论，把取舍优先级写死在最前面：

不幻觉 > 不误读原素材 > 机制清楚 > 文章可读 > 案例贴近 > 表达有传播力

这是真正做过、踩过坑的人才会写下来的规则。它的质量，比一堆 5 万星、靠 prompt 堆砌的"网红 skill"强。

它为什么 0 star？仓库名不友好、纯中文 README、作者 0 follower、没做任何推广。discovery 的失败，不是质量的失败。

这件事让我确信一件事：star 数是最不该用来判断 skill 好坏的指标。 它衡量的是营销，不是工程。

案例 C：企业级该有的样子

那"好"长什么样？我审过阿里云官方放出的一套 ECS 排障 skill，可以当标杆：

51 个安全分析器 + 10 个数据采集器
覆盖进程 / 网络 / 认证 / 持久化 / Rootkit / 恶意软件 / 内存取证 / 容器逃逸
映射 103+ 个 MITRE ATT&CK 技术
88 个内核 CVE 检测器，内置 CTF 框架自动验证漏洞可复现性

官方组织、Apache 2.0、活跃维护。这是有真实安全工程投入的东西——和"prompt 包装 + 调用 Nmap"的玩具，差了好几个量级。

同样叫"skill"，差距可以这么大。 而普通用户，根本没有工具去区分。

所以我在做什么

这正是我们做 Agent Skills Hub 的原因。

它不是"又一个开源目录"。目录解决"有哪些"，但没解决"哪个能信"。我们做的是 agent skill 的信任层：把每个 skill 按三个维度过一遍——

🟢 安全：静态扫描 + 凭证/供应链/运营风险评估
🟢 质量：6 维质量评分，不靠 star
🟢 维护活跃度：还在迭代，还是已弃坑

该标红的标红，该认证的认证。让那 97.8% 的黑箱，慢慢变成可查、可信、可上生产的东西。

三个邀请

1. 你装过哪个 agent skill 有疑虑？ 留言贴 GitHub 链接，我帮你按 5 个维度扫一遍。按热度排队，前 10 个免费。

2. 你是官方 skill 的维护者，想要 Verified 认证？ 我们正在做 Verified Creator / Verified Organization 计划——审计通过的官方 skill 会拿到 ✓ 标识和专属展示位。私信我聊。

3. 想自己查？ 直接上 agentskillshub.top，搜你在用的 skill，看它的评分和标记。

最后回到开头那个问题：你的 agent 上周装的那几个 skill，谁审过？

如果答案是"没人"——那你现在知道该去哪查了。