来源: Anthropic的Fable翻车了:安全护栏太猛,安全研究员反而用不了
作者: Lorenzo Franceschi-Bicchierai/TechCrunch | 时间: 2026-06-10
由西瓜码农博客自动抓取发布
Anthropic的Fable翻车了:安全护栏太猛,安全研究员反而用不了
Anthropic这周发布了Fable——号称是Mythos的公开版、面向网络安全领域的AI模型。听起来很美好对吧?一个专门帮安全研究员找漏洞的AI助手。
但现实有点尴尬:安全研究员们发现,Fable的护栏严到连正常工作都做不了。
护栏到底有多离谱
IBM X-Force的安全研究员Valentina Palmiotti(圈内叫Chompie)直接开喷了:Fable会拒绝任何"可能跟网络沾边"的请求,哪怕是读一篇博客文章这种完全无害的操作。
触发护栏后,Fable会暂停对话,告诉你"安全措施已标记此消息涉及网络安全或生物学主题",然后自动降级到Claude Opus 4.8——一个通用模型,网络安全能力远不如Fable本身。
安全圈的老兵Matt Suiche(现在在AI安全创业公司Tolmo)说得更具体:你让Fable写安全代码,它觉得这是网络安全工作而不是软件工程最佳实践,直接触发护栏。而且看起来是关键词匹配——只要提示词里出现"网络安全"相关词汇就触发。
另一位研究员在X上抱怨:"连做代码审查都会触发护栏。"
Anthropic的苦衷
也不能全怪Anthropic。Fable背后的Mythos是个能力极强的网络安全模型,4月份发布时就只开放给了少数机构,通过"Project Glasswing"项目部署给关键基础设施的安全团队。上周刚扩展到15个国家的数百家组织。
限制是有原因的——这种模型如果落入恶意使用者手中,可以用来开发恶意软件、攻击软件系统。生物学相关的限制则是为了防止被用来制造生物武器。
Anthropic还搞了个"网络验证计划"(Cyber Verification Program),通过审核的安全专业人员可以获得更少限制的使用权限。OpenAI也有类似的项目叫Trusted Access for Cyber。
问题出在哪
核心矛盾很清楚:Anthropic想保护世界,但保护的方式让真正保护世界的人没法干活。
安全研究员的工作就是找漏洞、做渗透测试、写安全代码。这些事情跟恶意使用的技术手段高度重叠,用关键词过滤根本分不清谁是好人谁是坏人。
Suiche倒是给了个相对温和的看法:"这还是早期阶段,护栏会随时间演化。做这种发布的时候,宁可多拦一些人,也不要漏掉,然后再慢慢放松。Anthropic和其他前沿模型公司会跟新一代网络安全公司更多合作。"
这话说得有道理,但安全研究员等不了。他们现在就需要好用的工具,而Fable的体验让他们觉得Anthropic根本不了解安全社区的工作方式。
我的看法
这是AI安全领域一个经典的困境:安全措施太松,模型可能被滥用;太紧,合法用户直接弃用。
Anthropic的出发点没问题,但执行上确实粗糙了。关键词匹配是最偷懒的护栏方式,误伤率极高。安全研究员需要的是更精细的上下文理解——同样是分析一段代码,渗透测试和恶意开发在意图上有本质区别,但Fable目前的护栏根本区分不了。
好消息是Anthropic在迭代。坏消息是,第一印象很重要。如果安全社区对Fable的印象停留在"啥都不让干",等Anthropic调整好护栏的时候,用户可能已经转向别家了。
来源: TechCrunch | 作者: Lorenzo Franceschi-Bicchierai | 日期: 2026年6月10日
评论区