跳票半年、连崩 3 天、核心离职、抛弃英伟达:DeepSeek V4 定档 4 月下旬,要以 Apache 2.0 开源

在 AI 圈被调侃 “永远在路上” 的DeepSeek V4,终于迎来官方定档。

DeepSeek 创始人梁文锋在内部沟通中明确:新一代旗舰大模型 DeepSeek V4,将于 2026 年 4 月下旬正式发布,并以 Apache 2.0 协议开源。消息已被多位知情人士确认,成为近一个多月来,来自 DeepSeek 内部最确定的一次发布信号。

从年初传闻不断、多次延期,到 3 月全线宕机、团队人事震荡,再到如今官宣档期、全面切换国产算力,DeepSeek 这半年堪称 “极限渡劫”。而 V4 的到来,不仅是一次版本迭代,更是一次架构换血、算力换道、团队重构后的全面复出。


一、跳票三次:从春节等到清明,V4 到底在憋什么?

DeepSeek V4 的爆料从今年 1 月就没停过:

  • 1 月 9 日,The Information 爆料:V4 春节前后发布,主打编程能力;

  • 2 月 25 日,路透社跟进:V4 已向华为开放适配,英伟达被排除在外

  • 但春节、清明接连过去,模型始终未露面。

“永远在上线的 DeepSeek” 一度成为圈内名梗。

而真实原因并非 “跳票”,而是底层算力在彻底大换血

过去几个月,DeepSeek 与华为、寒武纪深度合作,把整套依赖英伟达 CUDA 的底层代码,全部重写到华为 CANN 框架上

更关键的是:

DeepSeek主动拒绝了英伟达、AMD 的 V4 早期适配权限,只把窗口期留给国产芯片

业内普遍判断:模型其实早已训练完成,但全栈国产化适配,拖慢了发布节奏


二、连崩三天的 “故障”:实为 V4 灰度上线

3 月 29 日 —31 日,DeepSeek 出现史诗级波动:

  • 服务连续三天宕机,最长一次中断超过13 小时

  • 恢复后,大量开发者反馈:模型明显 “变了”

    • 代码结构更清晰

    • SVG 生成能力明显增强

    • 思维链不再冗长废话

    • 逻辑严谨度显著提升

官方当时只轻描淡写 “服务器故障”,但行业几乎一致认定:

这是 V4 在灰度上线、全量压测

紧接着,4 月 8 日,DeepSeek 在网页端悄悄上线:

  • 快速模式:日常对话、即时响应

  • 专家模式:复杂推理、已支持文件上传与多模态

这是 DeepSeek 走红以来,第一次在产品端做模式分层,也被视作 V4 的 “前菜”。

但目前能摸到的版本,128K 就触达 Token 上限,和传闻中百万上下文相去甚远,更像是 V4 Lite 的预热版本。


三、团队震荡:半年 4 位核心出走,V4 关键人物离职

过去半年,DeepSeek 团队经历明显动荡,已有 4 名核心成员离开

  1. 王炳宣:V1 时代 LLM 核心作者,被腾讯挖走;

  2. 魏浩然:OCR 系列核心开发者;

  3. 阮翀:多模态关键贡献者,今年 1 月加入自动驾驶公司元戎启行;

  4. 郭达雅R1 核心作者、GRPO 方法关键发明人,近期正式离职,去向未公布。

其中郭达雅最受关注:

  • 95 后,中山大学博士;

  • 2023 年加入 DeepSeek,几乎参与所有关键模型:Coder、Math、V2、V3、R1;

  • 业界广泛使用的GRPO 强化学习方法,就出自他参与的 DeepSeekMath 论文。

有业内爆料称:

“外面开出的总包翻 2-3 倍,有公司直接开出八位数。”

但即便人员波动,DeepSeek 整体依然稳定运转。

原因在于梁文锋的管理风格:

  • 研究团队只有两层:梁文锋 + 研究员,极度扁平;

  • 不打卡、无强 KPI,多数人晚上六七点就下班;

  • 理念:人每天高效输出只有6-8 小时,加班只会带来昏庸决策、浪费算力。

    这种 “不卷” 文化,让团队扛住了核心流失的冲击。


四、DeepSeek V4 全貌曝光:万亿 MoE、百万上下文、双技术黑科技

尽管官方未放详细参数,但 V4 的轮廓已经非常清晰:

1)模型与版本

  • 架构:万亿参数 MoE 混合专家

  • 推理激活:约370 亿参数(和 V3 量级相当,成本可控)

  • 三版本路线:

    • V4 Lite:对应快速模式

    • V4:旗舰版,对应专家模式

    • V4 Vision原生多模态(前端代码已预留入口)

2)上下文与记忆

  • 上下文窗口:100 万 tokens

  • 两大杀手锏技术来自年初两篇论文:

    1. mHC(流形约束超连接):梁文锋亲自署名,解决万亿模型训练崩溃问题;

    2. Engram(条件记忆):与北大合作,把模型 “字典” 从昂贵 HBM 显存,搬到廉价 CPU 内存,用时查表。

效果极其夸张:

  • Engram-27B 大海捞针准确率从84.2% → 97%

  • 千亿参数嵌入表放到 DRAM,吞吐量只跌不到 3%

    意味着:V4 不仅不吃更多显存,还能用便宜几倍的内存顶上去

3)性能与成本

  • 推理速度对比 V3 提升35 倍

  • 能耗降低40%

  • 推理成本约为 GPT-4 的1/70

  • 可在消费级显卡上实现万亿模型本地部署

4)开源协议

  • 采用Apache 2.0开源,企业可放心商用、二次发布、闭源修改,自由度极高

五、彻底抛弃英伟达:全球首个万亿模型全栈国产化

V4 最震撼的行业意义,是算力独立

  • 训练 + 推理100% 跑在华为昇腾 950PR

  • 底层框架从CUDA → 华为 CANN

  • 算子重写、调度重构、内存模型完全适配国产芯片;

  • 拒绝英伟达、AMD 早期适配,只对国内芯片开放。

这是全球首个

  • 万亿参数级别

  • 全链路脱离英伟达

  • 完全基于国产芯片 + 国产框架

    的顶级大模型。

意义早已超出一家公司、一个版本:

中国 AI 正式打破高端算力封锁,实现 “模型 + 芯片 + 框架” 全栈自主


六、深求社区观点:V4 是 “国产模型成人礼”

从 R1 发布至今,DeepSeek 已经近 15 个月没有大版本更新。

这 15 个月里:

  • 跳票 3 次

  • 换了整套算力底座

  • 走了 4 位核心

  • 崩过一次全站服务

  • 重构了一遍底层代码

但全世界都还在等。

因为 DeepSeek V4 不只是一款模型:

  • 它是开源社区的期待:Apache 2.0 万亿模型,会彻底重构生态;

  • 它是算力自主的标杆:证明中国可以不靠 NV,做出世界顶阶大模型;

  • 它是产品路线的拐点:从 “比参数” 进入 “比体系、比成本、比落地”。

4 月下旬,不止是一次发布,

更像一场迟到半年的国产 AI 成人礼

这次可别再放鸽子了

这波渡劫真不容易啊。全栈国产化比想象中慢,但等得值。V4要是真能跑在消费级显卡上,那可就热闹了。