侧边栏壁纸
博主头像
西瓜码农

成功需要脚踏实地,一步一个脚印

  • 累计撰写 130 篇文章
  • 累计创建 1 个标签
  • 累计收到 0 条评论

目 录CONTENT

文章目录

DeepSeek V4来了:1.6万亿参数开源,百万上下文成标配,下半年适配华为芯片

来源: DeepSeek V4来了:1.6万亿参数开源,百万上下文成标配,下半年适配华为芯片

作者: 量子位 | 时间: 2026-04

由西瓜码农博客自动抓取发布

DeepSeek V4来了:1.6万亿参数开源,百万上下文成标配,下半年适配华为芯片

等了半年,DeepSeek V4终于来了。

4月底一个平平无奇的周五下午,DeepSeek把V4放了出来——没有发布会,没有直播,没有路线图。同步开源,同步上线官网和App,同步更新API。就这么悄无声息地扔了个重磅炸弹。

两个版本,顶配和性价比之选

这次V4一口气发了两个版本:

DeepSeek-V4-Pro:对标顶级闭源模型,1.6T参数,49B激活,上下文长度1M。官方说法是"在Agent能力、世界知识和推理性能上均实现国内与开源领域的领先"。 DeepSeek-V4-Flash:更小更快的经济版,284B参数,13B激活,上下文同样1M。推理能力接近Pro,世界知识储备稍逊,但API更便宜。

有意思的是,DeepSeek自己说了——目前V4已经成为公司内部员工使用的Agentic Coding模型,使用体验优于Sonnet 4.5,交付质量接近Opus 4.6非思考模式。这话从一个中国AI公司嘴里说出来,分量不轻。

百万上下文:从高端功能变成水电煤

这个变化我觉得值得单独拿出来说。

一年前,1M上下文还是Gemini独家的王牌,其他闭源模型要么128K要么200K,开源这边几乎没人玩得起这个量级。DeepSeek直接把百万上下文从一个"高端功能"挪成了所有官方服务的标配,而且开源。

怎么做到的?V4开创了一种全新的注意力机制——在token维度进行压缩,结合DSA稀疏注意力一起用,对计算和显存的需求大幅降低。

DSA其实不是新东西。半年前V3.2-Exp那次更新首次引入,当时外界关注度不高,因为跑分和V3.1-Terminus几乎一样,看起来像一次没什么料的中间版本。现在回头看,那是V4的地基。这种"悄悄铺路"的打法,很DeepSeek。

Agent能力专项优化

V4针对Claude Code、OpenClaw、OpenCode、CodeBuddy等主流Agent产品做了适配和优化,代码任务、文档生成任务都有提升。复杂Agent场景官方建议直接上思考模式的max档。

API价格方面,两个版本最大上下文都是1M,都同时支持非思考模式和思考模式。思考模式下可以通过reasoning_effort参数调强度,两档high和max。base_url不变,model参数改成deepseek-v4-pro或deepseek-v4-flash即可调用。

下半年支持华为算力

划重点:下半年支持华为算力。

另外,旧模型名要下架了。deepseek-chat和deepseek-reasoner将在三个月后(2026年7月24日)停用,当前阶段这两个名字分别指向V4-Flash的非思考和思考模式。对个人开发者影响不大,改个model参数就行;对接了生产环境的公司,这三个月得赶紧做迁移。

不诱于誉,不恐于诽

发布稿的结尾,DeepSeek自己引了荀子《非十二子》里的一句话:

> 不诱于誉,不恐于诽,率道而行,端然正己。

过去半年,关于V4什么时候发、是不是跳票、是不是已经被别家超越之类的传言在中文和英文AI圈来回跑了好几轮。年初甚至有人信誓旦旦说V4会在春节前发,结果等到了四月底。

他们没回应过一次。然后在某个周五的下午,把V4放出来,同步开源,同步上线,顺便把内部员工已经弃用Claude的事实写进发布稿。

率道而行这四个字,听着像口号。但如果你把V3.2那次"没什么亮点"的Exp版本、DSA那套为V4铺了半年的稀疏注意力、1M上下文从王牌变成标配的这条路径放在一起看——DeepSeek确实做到了。


来源: 36氪 / 量子位 原文链接: https://www.36kr.com/p/3780290045121801 发布时间: 2026年4月
0
  1. 支付宝打赏

    qrcode alipay
  2. 微信打赏

    qrcode weixin

评论区