Anthropic的Fable翻车了：安全护栏太猛，安全研究员反而用不了

Anthropic这周发布了Fable——号称是Mythos的公开版、面向网络安全领域的AI模型。听起来很美好对吧？一个专门帮安全研究员找漏洞的AI助手。

但现实有点尴尬：安全研究员们发现，Fable的护栏严到连正常工作都做不了。

护栏到底有多离谱

IBM X-Force的安全研究员Valentina Palmiotti（圈内叫Chompie）直接开喷了：Fable会拒绝任何"可能跟网络沾边"的请求，哪怕是读一篇博客文章这种完全无害的操作。

触发护栏后，Fable会暂停对话，告诉你"安全措施已标记此消息涉及网络安全或生物学主题"，然后自动降级到Claude Opus 4.8——一个通用模型，网络安全能力远不如Fable本身。

安全圈的老兵Matt Suiche（现在在AI安全创业公司Tolmo）说得更具体：你让Fable写安全代码，它觉得这是网络安全工作而不是软件工程最佳实践，直接触发护栏。而且看起来是关键词匹配——只要提示词里出现"网络安全"相关词汇就触发。

另一位研究员在X上抱怨："连做代码审查都会触发护栏。"

也不能全怪Anthropic。Fable背后的Mythos是个能力极强的网络安全模型，4月份发布时就只开放给了少数机构，通过"Project Glasswing"项目部署给关键基础设施的安全团队。上周刚扩展到15个国家的数百家组织。

限制是有原因的——这种模型如果落入恶意使用者手中，可以用来开发恶意软件、攻击软件系统。生物学相关的限制则是为了防止被用来制造生物武器。

Anthropic还搞了个"网络验证计划"（Cyber Verification Program），通过审核的安全专业人员可以获得更少限制的使用权限。OpenAI也有类似的项目叫Trusted Access for Cyber。

核心矛盾很清楚：Anthropic想保护世界，但保护的方式让真正保护世界的人没法干活。

安全研究员的工作就是找漏洞、做渗透测试、写安全代码。这些事情跟恶意使用的技术手段高度重叠，用关键词过滤根本分不清谁是好人谁是坏人。

Suiche倒是给了个相对温和的看法："这还是早期阶段，护栏会随时间演化。做这种发布的时候，宁可多拦一些人，也不要漏掉，然后再慢慢放松。Anthropic和其他前沿模型公司会跟新一代网络安全公司更多合作。"

这话说得有道理，但安全研究员等不了。他们现在就需要好用的工具，而Fable的体验让他们觉得Anthropic根本不了解安全社区的工作方式。

这是AI安全领域一个经典的困境：安全措施太松，模型可能被滥用；太紧，合法用户直接弃用。

Anthropic的出发点没问题，但执行上确实粗糙了。关键词匹配是最偷懒的护栏方式，误伤率极高。安全研究员需要的是更精细的上下文理解——同样是分析一段代码，渗透测试和恶意开发在意图上有本质区别，但Fable目前的护栏根本区分不了。

好消息是Anthropic在迭代。坏消息是，第一印象很重要。如果安全社区对Fable的印象停留在"啥都不让干"，等Anthropic调整好护栏的时候，用户可能已经转向别家了。

来源： TechCrunch | 作者： Lorenzo Franceschi-Bicchierai | 日期： 2026年6月10日