稀疏注意力突围:一家创业公司声称突破了LLM十年的数学瓶颈
上个月,迈阿密一家叫Subquadratic的AI创业公司从隐身状态冒出来,放了个大招:他们说自己解决了困扰大语言模型近十年的数学瓶颈。
这话听着像吹牛。毕竟过去几年,类似的大话听太多了。但这次有点不一样——他们找了第三方机构Appen做独立测试,结果还真有点东西。
问题在哪:为什么LLM这么吃算力
先说清楚这个"瓶颈"是什么。
现在的大模型都用Transformer架构,核心机制叫"密集注意力"(dense attention)。原理是这样的:模型处理一段文本时,要把每个词跟其他所有词都算一遍关系。
比如你要让模型总结《了不起的盖茨比》,它得把第一个词和最后一个词配对,然后跟其他所有组合都配一遍。一篇1万字的文本,差不多要算5000万次乘法。
这叫二次方增长。词数翻倍,计算量翻四倍。这就是为什么大模型这么吃显卡、这么费电。
Subquadratic的解法:稀疏注意力
他们的思路很简单:不是所有词之间的关系都重要。
你在读书的时候,不会把每个词都跟其他词联系起来想。第一段和最后一段可能有关系,但第一个字和第三个字之间大概率没什么联系。
这叫"稀疏注意力"——只算那些真正重要的词对。
这想法不新鲜,之前很多人试过。问题是:你怎么知道哪些词对重要?以前的做法是用固定模式,比如"总是比较第1个词和第5个词"。但语言太复杂了,这种死板规则效果不好。
Subquadratic说自己解决了这个问题:他们用动态选择,根据具体文本实时决定哪些词对重要。具体怎么选的?那是商业机密,他们没说。
测试结果:确实快,但不是万能
Appen的测试报告显示:
- 速度:比用FlashAttention的模型快56倍
- 编程能力:LiveCodeBench得分89.7%,跟顶级编程模型差不多
- 长文本:上下文窗口做到1200万token,大多数模型只有100万
- 成本:他们说跑某个测试,用Anthropic的Opus要2600美元,用SubQ只要8美元
但有几个问题需要注意:
- 他们用了Qwen的开源权重来初始化,不是从零训练。这跟"彻底重新发明LLM"的说法有点矛盾
- 模型还没公开,只有少数人用过
- 测试是在特定条件下跑的,真实场景表现如何还不好说
独立研究员Will Depue的评价比较中肯:"他们可能确实做出了有用的东西,但现有证据还不足以支撑'解决了二次方注意力瓶颈'这个更强的声明。"
这事意味着什么
如果Subquadratic的方案真的能规模化,影响会很大:
- 长文本处理成本可能大幅下降
- 在本地设备上跑大模型变得更现实
- 那些靠卖算力赚钱的公司可能要重新算账
但现在下结论还太早。等更多人拿到模型、在更多场景测试过,才能知道这是"自Transformer以来最大突破"还是另一个AI Theranos。
来源:MIT Technology Review
链接:https://www.technologyreview.com/2026/06/19/1139313/a-startup-claims-it-broke-through-a-bottleneck-thats-holding-back-llms/
评论区