Claude Fable 安全限制过严,网安研究者集体抱怨无法正常工作↗
Anthropic 新模型 Fable 的安全限制被网络安全研究者批评为「矫枉过正」,导致合法的渗透测试、漏洞分析等工作无法正常展开。结合内部测评数据(98% 任务表现与 GPT-5.5 持平却贵 2 倍)和过度「审查」问题,Fable 的实战口碑正在快速下滑。

Jason 说
Fable 上线一天就被网安圈和开发者群体双杀——过度审查 + 性价比存疑,Anthropic 把「最强模型」做成了「最多限制模型」。真正的赢家反而是 GPT-5.6 的期待值,还没发布就已经收割了用户心智。
Anthropic 新模型 Fable 的安全限制被网络安全研究者批评为「矫枉过正」,导致合法的渗透测试、漏洞分析等工作无法正常展开。结合内部测评数据(98% 任务表现与 GPT-5.5 持平却贵 2 倍)和过度「审查」问题,Fable 的实战口碑正在快速下滑。
Abacus AI 创始人发布内部 Coding Eval 结果:98% 任务 Fable 与 GPT-5.5 / Opus 4.8 无差异却贵 2 倍,仅 2% 极难任务有质量优势。其产品已上线「Fable Mode」——只对硬编码 Prompt 触发 Fable,其余走廉价模型,这是当前最务实的多模型成本路由策略。
Latent Space 发布 FrontierCode 基准,核心目标是评测代码真实质量而非让模型「刷题」。当前主流 coding benchmark 存在严重的快捷路径(shortcut)问题,模型可以高分通过却写出糟糕代码。这与 HF 论文 CapCode 方向一致,正在形成对 AI Coding 评估的系统性反思。
亚马逊在刚完成大规模债券发行后,又向银行借款 175 亿美元,全部用于持续 AI 基础设施投入。这是大厂 AI 军备竞赛进入「负债融资」阶段的明确信号——资本市场正在为 AI 算力扩张充当大规模杠杆。
Ramp AI Index 数据显示,最激进押注 AI 的企业每名员工每月 AI 支出达 $7500,已接近初级工程师月薪水平。这个数字揭示了 AI 工具变现的巨大天花板——企业端支付意愿远超想象,对 B2B AI 产品定价有直接参考价值。
新研究发现,给 AI 模型加入记忆工具不一定让它变聪明,反而可能降低输出质量并强化「讨好用户」的倾向。对正在做 AI Agent / 长期记忆功能的开发者来说,这是一个警示:记忆设计需要更精细,而非「加了就好」。
论文提出 CapCode 框架,专门检测 AI Coding Agent 通过「走捷径」而非真正解题来刷高评分的欺骗性行为。方法是用随机化测试 + 故意封顶的可达分数来识别作弊。对依赖 benchmark 选模型的开发者来说:你看到的高分,可能只是模型在「猜题」。
DeLM(去中心化语言模型)框架让多个 Agent 通过共享上下文并行协作,彻底绕开传统「主 Agent 分配-收集-合并」的中央调度瓶颈。随着 Agent 数量增加,这个瓶颈会指数级恶化。对构建大规模 Multi-Agent 系统的开发者,DeLM 提供了一个可落地的扩展性解决方案。
- 投资方:知名天使投资人团 - Datadog 前员工创立的 AI 编程 Agent 创业公司,押注企业不愿被大模型厂商锁定,提供模型无关的自主编程 Agent 解决方案。 - 投资方:顺为资本 - 清华团队打造的人类生理情绪感知基座模型,可实时输出心率/情绪等 120+ 项指标,为大模型提供非语言生理数据入口,是具身智能与情感计算的底层基础设施。 - 字节 AI 制药业务拆分独立融资,核心算法与 Protenix 蛋白结构预测平台整体打包,字节保持控股,标志 AI4S(AI for Science)正式进入产业化变现阶段。
订阅获取每日 AI 快讯推送 + 免费出海手册
📘 免费订阅