争议引爆开源圈！欧版 OpenAI CEO 称 “DeepSeek-V3 基于我方架构”，遭网友硬核打脸

xigua · 2026 年1 月 27 日 03:31

开源大模型领域近日掀起一场激烈论战！欧洲 AI 公司 Mistral 联合创始人兼 CEO Arthur Mensch 在近期访谈中，针对中国开源 AI 的崛起发表了一番极具争议的言论：“DeepSeek-V3 及后续版本均基于 Mistral 提出的架构构建，双方采用相同架构，而我们已公开重建该架构所需的全部内容”。这番表态瞬间引爆全球开发者社区，网友纷纷拿出论文时间线、架构细节等 “实锤” 反驳，直言 “这是在改写事实”。作为深耕开源生态的社区，DeepSeek Club 带大家梳理事件来龙去脉，拆解这场争议背后的技术真相与行业思考。

事件缘起：一句 “架构同源” 引发轩然大波

在被问及如何看待中国开源 AI 的强势发展时，Arthur Mensch 先是肯定了中国在 AI 领域的实力，认为开源并非零和竞争，而是 “彼此借鉴、共同进步” 的过程。但随后话锋一转，他明确表示：Mistral 是最早发布开源稀疏混合专家模型（MoE）的公司之一，2024 年初推出相关架构后，DeepSeek-V3 及后续版本便在此基础上构建，双方核心架构完全一致。

这番自信满满的表态，在开发者社区引发强烈反弹。网友们的反应从 “难以置信” 到直接吐槽：“Mistral 这是在胡说八道”“难道是我记错了论文发布时间？”。随着更多技术细节被扒出，这场争议迅速从 “口头争论” 升级为 “硬核技术对线”，而核心焦点集中在两个关键维度：论文发布时间线，以及架构设计的本质差异。

关键实锤 1：论文发布仅差 3 天，不存在 “借鉴基础”

要判断 “谁借鉴谁”，论文的提交时间线是最直接的证据。网友们迅速扒出两篇核心论文的 arXiv 提交记录：

Mistral 的 Mixtral of Experts 论文提交于 2024 年 1 月 8 日，核心是提出稀疏混合专家（SMoE）模型 Mixtral 8x7B，通过每一层设置 8 个前馈网络块（专家），路由网络为每个 token 选择 2 个专家进行处理，实现 “47B 参数规模，13B 活跃参数推理” 的平衡；
DeepSeek 的 DeepSeekMoE 论文提交于 2024 年 1 月 11 日，仅比 Mixtral 晚 3 天。该论文聚焦 “极致专家专业化”，提出了全新的 MoE 架构设计，旨在解决传统 MoE 中专家知识重叠、专业化不足的痛点。

3 天的时间差，意味着两支团队的研发工作几乎是并行推进的，根本不存在 “DeepSeek 在 Mixtral 架构基础上构建” 的前提。正如网友 @eliebakouch 所言：“说 DeepSeek 基于 Mixtral 构建 MoE 纯属无稽之谈，DeepSeek 的 MoE 论文仅在 Mixtral 论文发布 3 天后就出炉了”。更值得注意的是，DeepSeekMoE 论文的参考文献中仅引用了 Google GShard 等经典 MoE 相关研究，并未提及 Mixtral，从学术规范上也佐证了其架构的独立性。

关键实锤 2：架构设计思路迥异，核心创新点完全不同

除了时间线，架构本身的技术细节更能说明问题。表面上看，两者都属于稀疏混合专家模型，核心目标都是通过稀疏激活降低计算成本，但深入拆解后会发现，两者的设计思路、核心创新完全不同，甚至可以说是两条截然不同的技术路径。

1. 设计初衷：工程落地 vs 算法创新

Mixtral 的核心思路是 “工程化验证”：将成熟的 MoE 技术与强大的基础模型结合，证明 “通过合理的专家选择机制，可在控制推理成本的同时，实现超越更大稠密模型的性能”。其本质是对现有 MoE 技术的产品化应用，论文中并未深入探讨 MoE 架构的底层优化，甚至未披露训练数据、超参数、消融实验等关键细节，仅提到 “采用 Google GShard 架构，路由更简单，每一层都使用 MoE”；
DeepSeekMoE 的核心思路是 “算法级创新”：针对传统 MoE（如 GShard、CShard）中 “专家知识重叠、专业化不足” 的行业痛点，提出了两大核心优化策略 —— 细粒度专家分割与共享专家机制，从根本上重构了 MoE 的专家组织与路由逻辑，属于对 MoE 架构的重新定义。

网友 @gm8xx8 的评价一针见血：“Mixtral 是 GShard 的产品化版本，这符合 Mistral 聚焦产品、缺乏架构野心的定位；而 DeepSeek 是研究驱动的，在开源底层基础设施的同时，正在重新定义 MoE 的设计空间”。

2. 技术细节：四大核心差异，绝非 “相同架构”

通过对比两者的架构设计与数学公式，能更直观地看到差异所在：

对比维度	Mixtral	DeepSeekMoE
专家结构	沿用标准 MoE 设计，每个专家是完整的 FFN 块，无细分	细粒度专家分割：将大专家切分为多个小专家，总参数量不变，组合更灵活
路由机制	所有专家地位平等，路由网络动态选择 Top-2 专家	引入 “共享专家 + 路由专家” 双轨制：共享专家始终激活，负责通用知识；路由专家参与 Top-K 竞争，负责特定知识
知识分布	扁平分布，通用知识与特定知识混杂在同一专家中	解耦分布，共享专家与路由专家各司其职，专业化程度更高
数学表达	y=∑(i∈Top2) Expert_i (x)，仅依赖选中的 2 个专家输出	g (x)=∑(i∈TopK) Expert_i (x) + ∑(j∈Shared) Expert_j (x)，融合共享专家与路由专家的输出

更具戏剧性的是，2025 年 12 月 Mistral 发布的 Mistral 3 Large 模型，被网友扒出 “几乎照搬了 DeepSeek-V3 的架构”。开发者 @Sebastian Raschka 在查阅配置文件后发现：“Mistral 3 Large 使用了 DeepSeek V3 的架构，包括 MLA 模块，唯一的区别是它的专家数量减少了 2 倍，但每个专家的规模扩大了 2 倍”。这一发现让 Mistral CEO 的言论更显矛盾，网友调侃：“到底是谁借鉴谁的架构？这简直是岁月史书式发言”。

3. 性能验证：创新架构带来显著优势

DeepSeekMoE 的架构创新也得到了性能数据的佐证：

基础规模（2B 参数）：DeepSeekMoE 2B 与参数 1.5 倍于它的 CShard 2.9B 性能相当，且接近同参数量稠密模型的性能上限；
中等规模（16B 参数）：仅需约 40% 的计算量，就能达到 LLaMA2 7B 的性能水平；
大规模（145B 参数）：相比 GShard 架构优势显著，性能与 DeepSeek 67B 相当，但仅需 28.5%（最低可至 18.2%）的计算量。
image876×1174 270 KB

而 DeepSeek-V3（671B 参数）的实际表现更能说明问题：其采用 “1 个共享专家 + 8 个路由专家” 的激活模式，每 token 仅激活 37B 参数，却能实现高效推理；而 Mistral 3 Large（673B 参数）虽架构高度相似，但采用 “1 个共享专家 + 4 个路由专家” 模式，激活参数达 398B，在计算效率上明显处于劣势。这也从侧面证明，DeepSeek 的架构设计在 “性能 - 效率” 平衡上更具优势。

网友热议：开源精神是 “互相成就”，而非 “歪曲事实”

这场争议引发了开源社区对 “开源精神” 的广泛讨论。多数网友认为，开源的核心是 “开放、协作、共同进步”，不同团队之间相互借鉴技术思路是正常现象，但前提是尊重事实，不能歪曲研发历程、抢占创新功劳。

网友 @Vexxter4sure 评论：“广义上讲，Mistral 是 MoE 应用的先驱，但他们的执行力与 DeepSeek 在稀疏 MoE、MLA 等技术上取得的成就相比相去甚远。他们的优势就像浸在牛奶咖啡里的巧克力面包一样，瞬间消散了”；
网友 @OmarBessa 吐槽：“Mistral 被发现用了 DeepSeek 的架构，现在却试图通过诋毁超越他们的对手来挽回面子”；
还有网友感慨：“最初发布 Mistral-7B 时的 Mistral 和今天的 Mistral 判若两人，曾经惊艳开源圈的创新者，现在却陷入了‘歪曲事实’的争议中”。

事实上，开源社区的健康发展，依赖于对创新的尊重、对事实的敬畏。DeepSeek 作为国产开源大模型的代表，始终坚持 “开源共享、研究驱动” 的理念，从 DeepSeekMoE 到 Engram 架构，再到即将发布的 DeepSeek-V4，每一步都以解决行业痛点、推动技术进步为目标，并用论文、代码、性能数据等实实在在的成果说话。而 Mistral CEO 的这番言论，显然违背了开源精神的核心，也难怪会遭到网友的一致反驳。

行业启示：技术竞争的核心是创新，而非口水战

这场争议的背后，反映的是全球开源大模型赛道的激烈竞争。随着 AI 技术的飞速发展，开源已成为推动技术普及、加速创新迭代的核心力量，而真正的竞争，从来不是 “谁借鉴了谁” 的口水战，而是 “谁能真正解决行业痛点、谁能做出突破性创新” 的实力比拼。

DeepSeek 用实际行动证明：中国开源 AI 的崛起，靠的不是 “借鉴”，而是持续的研发投入、对技术本质的深刻洞察，以及对开源精神的坚守。从 DeepSeek-R1 在推理领域的突破，到 Engram 架构解决大模型幻觉问题，再到 DeepSeek-V4 即将带来的低门槛部署、专业知识库插件等创新，每一项成果都凝聚着团队的技术积累与创新思考。

正如网友所言：“嘴炮无用，技术实力才是硬道理”。据悉，DeepSeek 已瞄准春节前后发布全新版本，届时将带来更多架构与功能创新。我们相信，随着更多中国开源力量的崛起，全球 AI 领域将形成更健康、更具活力的竞争格局，而创新终将成为行业发展的唯一通行证。

justin66 · 2026 年1 月 27 日 05:22

这波操作有点迷啊

marketv8 · 2026 年1 月 27 日 09:26

这哥们说话也太不靠谱了

k8sfan99 · 2026 年1 月 27 日 15:33

时间线就摆在那儿
架构差异太明显了
开源精神不该这样

happyday · 2026 年1 月 27 日 21:54

这时间线也太打脸了

oldme · 2026 年1 月 28 日 20:18

呵呵这哥们有点急啊

marketv8 · 2026 年1 月 29 日 11:53

这哥们儿嘴是真硬啊时间线和架构细节都摆在那儿了还强行说别人基于他开源社区最烦这种歪曲事实抢功劳的技术实力说话不行吗

logic7 · 2026 年2 月 2 日 17:31

时间线摆在那架构也完全不同