我翻了 200+ 个开源 AI Agent Skill:97.8% 从来没人做过安全审计

你的 AI agent 上周装了几个开源 skill。
谁审过它们?
我做了一件很多人没做的事:把开源 AI agent skill 当成供应链依赖来认真审。不是看 star、看 README 写得漂不漂亮,而是真的去查它要不要你的凭证、代码里有没有藏东西、维护者是谁、出了事能不能追溯。
翻了 200+ 个,深扫了其中一批。这篇说说我看到了什么——以及为什么我觉得这是 2026 年被严重低估的一个风险。
先说最反直觉的发现
我们的目录现在收录了 105,000+ 个开源 agent skill、MCP server、Codex skill。我去查了它们的安全评级分布,结果是这样的:
| 安全等级 | 占比 |
|---|---|
| unknown(从没被审过) | 97.8% |
| safe(评过、没问题) | 2.1% |
| caution / unsafe / reject(有问题) | 0.1% |
看懂这张表了吗?
真正的风险不是"很多 skill 有毒",而是"绝大多数 skill 是黑箱"。 十万个里,九万八千个从来没有任何人——包括它的使用者——做过一次安全检查。你装它、给它你的 API key、让它在你的环境里跑命令,全凭它 README 写得好不好看。
在我们真正评过级的 2,300 多个里,94% 是安全的,约 5.6% 触发了警告或拒绝。这个比例听起来不吓人——但请记住,这 2,300 只是冰山露出水面的尖。下面那 10 万个,没人知道里面有什么。
我用的 5 个维度
把一个 skill 当供应链依赖来审,我固定看 5 层:
- 代码层 — 有没有混淆代码、可疑网络请求、运行时下载并执行外部文件?
- 凭证处理 — 它要你的什么?key 存在哪?是本地,还是上传到某个远程服务器?
- 厂商可信度 — 维护者是谁?真名、组织、还是 0 follower 的匿名账号?有没有跑路风险?
- 供应链 — 依赖了什么?有没有同名仿冒(typosquat)、被删的上游、刷量的 star?
- 运营风险 — 服务方挂了 / 被黑 / 涨价,你的损失是什么?有没有审计日志能追溯?
这 5 层里,代码层最容易,运营层最致命。下面三个真实案例正好对应。
案例 A:看起来"完全正常"的,才最致命
我审过一个社媒调度类的开源 skill。它的卖相无可挑剔:
- ✓ 几千 star
- ✓ 完整文档
- ✓ 演示视频
- ✓ MIT 协议
代码本身也没有明显的恶意——零运行时依赖,干净。按"看 star、看文档"的标准,满分。
但我在凭证处理和运营风险两层停了下来:你用它连接的所有社媒账号,OAuth token 不是存在你本地,而是托管在维护者的远程服务器上。而这个维护者是个匿名账号,没有真名、没有公司主体、没有 DPA、没有任何合规承诺。
这意味着什么?那台服务器一旦被攻破,攻击者就握着你所有平台账号的发帖权限。 一个企业的品牌号,可能一夜之间变成币圈广告位。这不是危言耸听,是这种"凭证远程托管 + 匿名运营"组合的必然暴露面。
结论:能跑 ≠ 能上生产。 个人小号尝鲜可以,品牌号、商业号绝不该接。
案例 B:star 会骗人,审计不会
反过来也有惊喜。
我翻到一个 0 star 的 skill,差点直接跳过。打开它的 SKILL.md 才发现,里面是 8KB 的工程级方法论,把取舍优先级写死在最前面:
不幻觉 > 不误读原素材 > 机制清楚 > 文章可读 > 案例贴近 > 表达有传播力
这是真正做过、踩过坑的人才会写下来的规则。它的质量,比一堆 5 万星、靠 prompt 堆砌的"网红 skill"强。
它为什么 0 star?仓库名不友好、纯中文 README、作者 0 follower、没做任何推广。discovery 的失败,不是质量的失败。
这件事让我确信一件事:star 数是最不该用来判断 skill 好坏的指标。 它衡量的是营销,不是工程。
案例 C:企业级该有的样子
那"好"长什么样?我审过阿里云官方放出的一套 ECS 排障 skill,可以当标杆:
- 51 个安全分析器 + 10 个数据采集器
- 覆盖进程 / 网络 / 认证 / 持久化 / Rootkit / 恶意软件 / 内存取证 / 容器逃逸
- 映射 103+ 个 MITRE ATT&CK 技术
- 88 个内核 CVE 检测器,内置 CTF 框架自动验证漏洞可复现性
官方组织、Apache 2.0、活跃维护。这是有真实安全工程投入的东西——和"prompt 包装 + 调用 Nmap"的玩具,差了好几个量级。
同样叫"skill",差距可以这么大。 而普通用户,根本没有工具去区分。
所以我在做什么
这正是我们做 Agent Skills Hub 的原因。
它不是"又一个开源目录"。目录解决"有哪些",但没解决"哪个能信"。我们做的是 agent skill 的信任层:把每个 skill 按三个维度过一遍——
- 🟢 安全:静态扫描 + 凭证/供应链/运营风险评估
- 🟢 质量:6 维质量评分,不靠 star
- 🟢 维护活跃度:还在迭代,还是已弃坑
该标红的标红,该认证的认证。让那 97.8% 的黑箱,慢慢变成可查、可信、可上生产的东西。
三个邀请
1. 你装过哪个 agent skill 有疑虑? 留言贴 GitHub 链接,我帮你按 5 个维度扫一遍。按热度排队,前 10 个免费。
2. 你是官方 skill 的维护者,想要 Verified 认证? 我们正在做 Verified Creator / Verified Organization 计划——审计通过的官方 skill 会拿到 ✓ 标识和专属展示位。私信我聊。
3. 想自己查? 直接上 agentskillshub.top,搜你在用的 skill,看它的评分和标记。
最后回到开头那个问题:你的 agent 上周装的那几个 skill,谁审过?
如果答案是"没人"——那你现在知道该去哪查了。
Subscribe to Newsletter, get the full playbook free
Subscribe to receive the complete "AIP Overseas Social Media Playbook" plus weekly AI curated content
Related Posts
Jason Zhu
Ex-AI Engineer | AI Blogger