AI 快讯 · 5月27日

AI 快讯 · 5月27日
💡

Jason

今天两件事放一起看很有意思:OpenRouter 估值翻倍说明多模型调用已是基础设施级需求,同时数百万 Agent 面临安全漏洞——AI 基础设施在快速成熟,但安全欠账也在同步累积,这个剪刀差迟早要还。

🛠️
AI 工具动态Hacker News / Ars Technica

数百万 AI Agent 面临严重安全漏洞:开源依赖包曝高危风险

Ars Technica 报道,一个被广泛使用的开源包存在严重漏洞,可能危及数百万 AI Agent 的安全运行。随着 Agent 部署规模快速扩大,供应链安全正成为不可忽视的系统性风险,所有在生产环境跑 Agent 的开发者都应立即审查相关依赖项。

🔥
Skills 生态GitHub Trending

754 条网络安全技能库开源:AI Agent 的安全能力终于有了标准化框架

社区开源项目 Anthropic Cybersecurity Skills 收录 754 条生产级网络安全技能,覆盖 26 个安全领域,映射 MITRE ATT&CK、NIST CSF 2.0 等 5 大框架,兼容 Claude Code、GitHub Copilot、Cursor 等 20+ 平台。这是目前最系统化的 AI Agent 安全能力标准化尝试,安全方向的开发者可直接复用。

📚
AI 论文HuggingFace Papers

论文:奖励作弊的几何根源找到了,方向对齐让 RL 训练不再走捷径

论文通过分析 LLM 强化学习中参数更新的奇异方向,发现 Reward Hacking 本质是优化偏离了稳定的低维学习轨迹。提出「方向对齐」方法,在不改变训练目标的前提下约束更新方向,有效减少模型走捷径行为。对理解 RLHF 为何失效、以及如何修复,有直接的工程指导意义。

订阅获取每日 AI 快讯推送 + 免费出海手册

📘 免费订阅