侧边栏壁纸
博主头像
西瓜码农

成功需要脚踏实地,一步一个脚印

  • 累计撰写 130 篇文章
  • 累计创建 1 个标签
  • 累计收到 0 条评论

目 录CONTENT

文章目录

Anthropic的Fable翻车了:安全护栏太猛,安全研究员反而用不了

来源: Anthropic的Fable翻车了:安全护栏太猛,安全研究员反而用不了

作者: Lorenzo Franceschi-Bicchierai/TechCrunch | 时间: 2026-06-10

由西瓜码农博客自动抓取发布

Anthropic的Fable翻车了:安全护栏太猛,安全研究员反而用不了

Anthropic这周发布了Fable——号称是Mythos的公开版、面向网络安全领域的AI模型。听起来很美好对吧?一个专门帮安全研究员找漏洞的AI助手。

但现实有点尴尬:安全研究员们发现,Fable的护栏严到连正常工作都做不了。

护栏到底有多离谱

IBM X-Force的安全研究员Valentina Palmiotti(圈内叫Chompie)直接开喷了:Fable会拒绝任何"可能跟网络沾边"的请求,哪怕是读一篇博客文章这种完全无害的操作。

触发护栏后,Fable会暂停对话,告诉你"安全措施已标记此消息涉及网络安全或生物学主题",然后自动降级到Claude Opus 4.8——一个通用模型,网络安全能力远不如Fable本身。

安全圈的老兵Matt Suiche(现在在AI安全创业公司Tolmo)说得更具体:你让Fable写安全代码,它觉得这是网络安全工作而不是软件工程最佳实践,直接触发护栏。而且看起来是关键词匹配——只要提示词里出现"网络安全"相关词汇就触发。

另一位研究员在X上抱怨:"连做代码审查都会触发护栏。"

Anthropic的苦衷

也不能全怪Anthropic。Fable背后的Mythos是个能力极强的网络安全模型,4月份发布时就只开放给了少数机构,通过"Project Glasswing"项目部署给关键基础设施的安全团队。上周刚扩展到15个国家的数百家组织。

限制是有原因的——这种模型如果落入恶意使用者手中,可以用来开发恶意软件、攻击软件系统。生物学相关的限制则是为了防止被用来制造生物武器。

Anthropic还搞了个"网络验证计划"(Cyber Verification Program),通过审核的安全专业人员可以获得更少限制的使用权限。OpenAI也有类似的项目叫Trusted Access for Cyber。

问题出在哪

核心矛盾很清楚:Anthropic想保护世界,但保护的方式让真正保护世界的人没法干活。

安全研究员的工作就是找漏洞、做渗透测试、写安全代码。这些事情跟恶意使用的技术手段高度重叠,用关键词过滤根本分不清谁是好人谁是坏人。

Suiche倒是给了个相对温和的看法:"这还是早期阶段,护栏会随时间演化。做这种发布的时候,宁可多拦一些人,也不要漏掉,然后再慢慢放松。Anthropic和其他前沿模型公司会跟新一代网络安全公司更多合作。"

这话说得有道理,但安全研究员等不了。他们现在就需要好用的工具,而Fable的体验让他们觉得Anthropic根本不了解安全社区的工作方式。

我的看法

这是AI安全领域一个经典的困境:安全措施太松,模型可能被滥用;太紧,合法用户直接弃用。

Anthropic的出发点没问题,但执行上确实粗糙了。关键词匹配是最偷懒的护栏方式,误伤率极高。安全研究员需要的是更精细的上下文理解——同样是分析一段代码,渗透测试和恶意开发在意图上有本质区别,但Fable目前的护栏根本区分不了。

好消息是Anthropic在迭代。坏消息是,第一印象很重要。如果安全社区对Fable的印象停留在"啥都不让干",等Anthropic调整好护栏的时候,用户可能已经转向别家了。


来源: TechCrunch | 作者: Lorenzo Franceschi-Bicchierai | 日期: 2026年6月10日
0
  1. 支付宝打赏

    qrcode alipay
  2. 微信打赏

    qrcode weixin

评论区