2026 年 1 月 12 日,DeepSeek 团队发布了 Engram 模型 —— 这一与 MoE 架构高度互补的条件记忆模块,距其首次推出 DeepSeekMoE 系列恰好两年。作为 DeepSeek V4/R2 发布前的关键技术铺垫,Engram 以 “条件记忆” 为核心,通过挂载静态记忆表的创新设计,在不增加计算开销的前提下,大幅提升了大模型的长上下文处理能力与综合推理性能,为国产大模型的技术迭代提供了全新思路。
一、技术铺垫:DeepSeekMoE 的条件计算根基
在解读 Engram 之前,需先明确其依托的 DeepSeekMoE 架构核心优势。混合专家(MoE)架构的核心是 “条件计算”—— 通过路由网络选择性激活 Top-K 个专家模块,用稀疏激活实现 “大参数量存储 + 小参数量计算” 的平衡,而 DeepSeekMoE 在此基础上做了三大创新:
-
细粒度专家分割:将单个 FFN 专家拆分为 m 个更小专家,隐藏层维度同步降低至 1/m,激活专家数量同步增加 m 倍,专家组合方式从 120 种激增至 40 亿 + 种,大幅提升专业化程度;
-
共享专家隔离:额外设置全局共享专家,每次推理均被激活,专门捕获跨上下文通用知识,避免专家参数冗余;
-
专家负载均衡:通过动态调控专家激活概率,解决训练中 “少数专家过载、多数专家闲置” 的资源浪费问题。
正是这种成熟的条件计算框架,为后续 Engram 条件记忆模块的融入奠定了基础 —— 两者分别从 “动态计算” 和 “静态记忆” 两个维度优化稀疏性,形成互补效应。
二、核心创新:Engram 条件记忆模块的工作原理
Engram 的核心动机,是解耦语言建模中的 “组合推理” 与 “边缘检索” 两大任务:组合推理需要深度动态计算,而边缘检索(如命名实体识别)本质是低计算量的查表行为,传统 LLM 却用大量深度计算模拟查表,浪费算力。为此,Engram 设计了 “静态记忆表 + 智能检索机制”,让模型直接调取静态知识,释放推理算力。
1. 两大核心技术:检索与融合
(1)基于 N-gram 的稀疏哈希检索
-
词汇投影优化:将语义相同但形式不同的词汇映射为同一 ID,减少 23% 词表存储,保留核心语义;
-
多头哈希解决冲突:N-gram 组合数量庞大(3-gram 达 2×10¹⁵种),单哈希易冲突,通过 K 个独立哈希头分别投影,拼接检索结果,大幅降低冲突概率;
-
记忆表存储:不存储 next token 概率,而是存储 N-gram 嵌入向量,直接提供实体特征信息。
(2)上下文感知的门控机制
检索到的 N-gram 嵌入是上下文无关的先验知识,需通过门控机制与当前语境融合:
-
以当前层隐藏状态 ht 为查询 Q,N-gram 嵌入 et 为键 K 和值 V,通过矩阵乘法融合上下文信息;
-
门控因子 αt 动态调节融合权重:嵌入与隐藏状态差异越大,αt 越小,抑制语义噪声;
-
一维卷积增强:提升模型感受野与非线性表达能力,最终通过残差连接接入 MoE 主干网络。
2. 工程优化:高效部署的关键技巧
-
多分支架构集成:采用 DeepSeek 自研 mHC 架构,各分支共享记忆表与 Value 投影矩阵,独立拥有 Key 投影矩阵,可根据自身隐藏状态自主调节记忆融合比例;
-
计算与记忆解耦:利用检索依赖静态输入序列的特性,GPU 计算前几层时,CPU 提前抓取记忆向量,实现计算与通信时间重叠;
-
分层存储策略:遵循齐普夫定律,高频 N-gram 嵌入存于 GPU/CPU DRAM,低频嵌入存于固态硬盘,平衡速度与容量;
-
分布式训练:记忆表切分存储于多 GPU,通过 All-to-All 通信检索更新,内存容量随 GPU 数量线性扩展。
三、实验验证:性能与效率的双重突破
1. 最佳参数分配:Engram 占比 20%-25% 最优
当总参数量(Ptot)和激活参数量(Pact)固定时,Engram 与 MoE 的参数分配比例(ρ)直接影响性能:
-
纯 MoE 或纯 Engram 均非最优;
-
当 Engram 占用 20%-25% 空闲参数(Psparse=Ptot-Pact)时,模型损失最低;
-
静态记忆表规模越大,性能持续提升,验证了记忆表的价值。
2. 大规模预训练:全面超越同参数模型
在 262B tokens 训练数据下,Engram-27B(5.7B 记忆参数)与 MoE-27B、Dense-4B 的对比中,前者在全场景任务中表现最优:
-
语言建模:Pile 数据集 loss 低至 1.950,优于 MoE-27B 的 1.960;
-
知识推理:MMLU 准确率 60.4%,较 MoE-27B 提升 3 个百分点;
-
阅读理解:DROP F1 值 59.0%,超越 MoE-27B 的 55.7%;
-
代码与数学:HumanEval Pass@1 达 40.8%,GSM8K 准确率 60.6%,均领先同参数模型。
3. 长上下文处理:32k 序列性能碾压
通过 YaRN 算法扩展上下文窗口至 32k tokens 后:
-
LongPPL(困惑度):Engram-27B(50k 步训练)在书籍、论文、代码场景分别达 4.14、2.82、2.44,均低于 MoE-27B 的 4.38、2.91、2.49;
-
RULER 检索准确率:MQ 任务达 97.0%,FWE 任务 99.3%,远超 MoE-27B 的 84.2% 和 73.0%。
4. 系统效率:低开销高吞吐量
在 NVIDIA H800 硬件上,4B-Dense+100B Engram(CPU 卸载)的吞吐量达 8858.28 tok/s,仅比基线下降 173 tok/s,几乎可忽略;8B-Dense+100B Engram 吞吐量达 6140.02 tok/s,验证了 Engram 的高效部署能力。
四、关键发现:模块配置的最优实践
-
插入层位:第 2 层插入效果最佳,仅需一次注意力计算即可提供足够上下文信息;
-
消融实验:单分支门控机制会导致性能大幅下降,多分支架构与门控机制不可或缺;
-
必要性验证:删除 Engram 后,所有任务性能均下滑,其中 RACE-Middle 准确率保留 93%,MATH 任务仅保留 29%,说明其对知识密集型任务至关重要。
五、未来展望:DeepSeek V4/R2 的能力预判
Engram 作为 V4/R2 的核心前置技术,大概率将与 DSA(稀疏注意力)、MoE 组成 “稀疏三巨头”,推动模型实现三大突破:
-
长上下文处理:有望支持百万级甚至千万级 tokens 输入,处理《三体》三部曲体量文本时保持高事实准确率;
-
推理与代码能力:Engram 为多步推理提供稳固基础知识,R2 的思维链长度与精度将显著提升,代码生成与数学计算性能持续优化;
-
强化学习效率:可针对性对逻辑错误建模奖励,减少无效计算,提升 RLHF 训练效果。
从 MoE 的条件计算到 Engram 的条件记忆,DeepSeek 的技术路线清晰展现了 “稀疏化” 的核心价值 —— 在控制计算成本的前提下,通过参数量扩展提升模型能力。尽管 V4/R2 的发布可能不会引发轰动,但这种 “算法创新 + 工程优化” 的扎实推进,正是国产大模型突破技术壁垒的关键所在。
