2026 年的 AI 圈,大模型参数量竞赛愈演愈烈,万亿级参数模型屡见不鲜。但 BOSS 直聘南北阁实验室推出的Nanbeige4.1-3B,却以 3B(30 亿)参数的 “娇小身材”,上演了一场 “以小博大” 的逆袭 —— 不仅在 AIME 2026 等权威评测中击败参数量大 10 倍的模型,更在 “50 米洗车” 等真实场景推理中完胜 GPT-5.3 Thinking 等超大模型,凭借通用问答、复杂推理、代码编写、深度搜索四大核心能力,在海外社交平台病毒式传播,成为小模型赛道的现象级产品。
这款模型发布后迅速登顶 HuggingFace 文本模型趋势榜,冲进全球模型总榜前三,开源后收获 1.2k+ GitHub Star,用实力打破 “参数越大能力越强” 的固有认知,为小模型的产业化应用打开了全新想象空间。
颠覆性表现:3B 参数实现 “越级反杀”
Nanbeige4.1-3B 的核心亮点,在于以极小参数量实现了 “小而全” 的通用能力,不仅碾压同规模模型,更在多项核心指标上超越参数量大 10 倍的 Qwen3-32B、Qwen3-30B-A3B 等模型,甚至能与 80B 大模型同台竞技。
真实场景推理:精准拿捏核心需求
在全网热议的 “洗车选址” 推理题中,万亿参数的大模型纷纷给出 “步行” 的错误答案,而 Nanbeige4.1-3B 精准拆解用户需求,给出逻辑严密的回复:“若需洗车则开车,100 米距离驾车毫无压力,步行无法解决车辆运输问题;若仅前往该地点则步行,高效且环保”,完美击中 “洗车必须开车” 的核心痛点,展现出超越规模的场景理解能力。
权威评测:多项指标登顶 SOTA
在综合能力评测中,Nanbeige4.1-3B 的表现堪称惊艳:
-
代码领域:Live-Code-Bench-V6 评测得 76.9 分,远超 Qwen3-32B 的 55.7 分,甚至超过 Qwen3-Next-80B-A3B 的 68.7 分;
-
数学领域:AIME 2026 得分 87.4%,HMMT Nov 评测 77.92 分,显著领先同规模模型;
-
深度搜索:GAIA(文本版)得 69.9 分,xBench-DeepSearch-2505 得 75 分,接近专为搜索设计的 AgentCPM-Explore-4B;
-
综合对齐:Arena-Hard-V2 得 73.2 分,超越 Qwen3-32B 的 56.0 分和 Qwen3-30B-A3B 的 60.2 分。
即便与发布时间更晚、口碑极佳的 Qwen3.5-4B(4B 参数)相比,Nanbeige4.1-3B 在 HMMT Nov、LiveCodeBench-V6、GPQA 等 6 大核心指标中仍整体领先,展现出扎实的技术领先性。
实战竞赛:力压更大参数量模型
在模型发布后的真实竞赛中,Nanbeige4.1-3B 的泛化能力得到充分验证:
-
LeetCode 每周竞赛(489-491 期):得分 83.3 分,远超 Qwen3.5-4B 的 41.7 分和 Qwen3.5-9B 的 58.3 分;
-
HMMT 2026 年 2 月(哈佛 - 麻省理工数学竞赛):得分 76.8 分,显著优于 Qwen3.5-4B 的 60.6 分和 Qwen3.5-9B 的 63.3 分。
这些竞赛完全排除数据记忆干扰,有力证明了其深度逻辑推理与实战应用能力。
技术解密:如何让 3B 模型实现 “全能”?
Nanbeige4.1-3B 的成功,核心在于 BOSS 直聘南北阁实验室创新的训练范式 —— 通过分阶段、分领域的精细化优化,在有限参数空间内实现了通用能力、编码能力、深度搜索能力的系统性整合,打破了小模型 “偏科” 的行业痛点。
通用能力:SFT + 双阶段 RL,筑牢能力天花板
对于小模型而言,SFT(有监督微调)阶段直接决定能力上限。Nanbeige4.1-3B 在该阶段进行了三大关键优化:
-
数据结构优化:提高代码类样本占比,增加数学难题与跨领域综合问题,强化模型对复杂逻辑的建模能力;
-
上下文长度扩展:采用 32K→64K→256K 的三阶段课程学习,让模型逐步适应长距离依赖关系,稳定学习长程注意力结构;
-
回复质量提升:升级 Solution Refinement(多轮迭代修正)与 CoT Reconstruction(思维链重构)框架,减少逻辑跳步与不连贯问题,让推理路径更完整、更忠实。
在 RL(强化学习)阶段,团队创新性地采用双阶段策略:
-
Point-wise RL:引入通用奖励模型,对单条回答的质量评分,显著降低冗长、重复与格式错误,提升 “智能的整洁度”;
-
Pair-wise RL:让模型与其他对手模型 PK,通过比较回答优劣获得奖励,提升 “智能的锋利度”。
实验显示,经过双阶段 RL 训练后,模型 Arena-Hard-V2 指标从 60.2 提升至 73.2,LiveCodeBench-v6 格式错误率从 5.27% 降至 0.38%。
编码能力:先做对,再做快的两阶段优化
为在通用小模型中实现强悍的编码能力,团队设计了 “门控式” 两阶段 RL 策略:
-
第一阶段:以测试用例通过率(pass-rate reward)为核心,确保模型能可靠解决代码问题,优先保证正确性;
-
第二阶段:仅在代码通过所有测试用例后,引入时间复杂度奖励,通过在线对比模型输出与最优解法的效率差异提供反馈,避免模型盲目追求速度而忽视正确性。
这种设计让模型在 Live-Code-Bench-Pro-Medium 评测中从 1.8 分飙升至 22.8 分,实现了正确性与效率的双重提升。
深度搜索:把智能体能力压进小模型
深度搜索是长上下文、多跳推理与工具调用的复合场景,向来是小模型的短板。Nanbeige4.1-3B 通过两大创新突破这一局限:
-
结构化数据集构建:基于 Wikipedia 实体关系图生成多跳问答对,筛选高质量长程搜索轨迹,确保训练数据的复杂性与可验证性;
-
轮次级质量控制:引入 critic 模型,从推理逻辑自洽性、工具调用准确性、信息增益有效性三个维度,对每一轮搜索交互独立评估,未达标的轮次在 SFT 阶段不参与损失计算,在 RL 阶段触发负向奖励。
这套机制让模型形成 “检索 — 判断 — 再检索” 的稳定循环,在深度搜索基准上达到专业搜索 Agent 水平。
行业意义:小模型时代加速到来
Nanbeige4.1-3B 的爆火,不仅是一次技术突破,更标志着 AI 行业从 “参数竞赛” 向 “效率革命” 的转变,其带来的影响深远且具体:
打破认知误区:小模型也能成 “全能选手”
此前小模型多被视为大模型的 “轻量替代品”,往往存在 “偏科” 问题 —— 解题强则搜索弱,编码优则推理差。而 Nanbeige4.1-3B 将通用问答、复杂推理、代码编写、深度搜索四大核心能力整合进 3B 参数,证明通过精细化训练范式,小模型完全可以形成独立的通用能力体系,参数规模的差距可被训练创新逐步弥补。
降低部署门槛:开启移动端与私有化新时代
3B 参数的轻量化特性,让 Nanbeige4.1-3B 可直接在手机端运行,推理速度快、部署成本低,彻底打破了大模型对高算力的依赖。这意味着企业无需投入巨额算力成本,即可实现本地化、私有化部署,在保护数据安全的同时,让 AI 能力渗透到更多场景 —— 从移动端智能助手到工业场景实时推理,小模型的部署范式正在重写行业规则。
重塑竞争格局:智能密度决定应用广度
随着大模型边界持续扩张,小模型的效率革命也在同步发生。Nanbeige4.1-3B 的案例证明,未来 AI 的竞争核心可能不再是参数量大小,而是 “智能密度”—— 即单位参数能释放的智能水平。当 3B 模型就能稳定处理复杂任务,AI 的应用广度将被彻底打开,更多中小企业与个人开发者将能参与到 AI 创新中,推动行业进入 “全民 AI” 的新阶段。
结语:小模型的大未来
BOSS 直聘南北阁实验室打造的 Nanbeige4.1-3B,用 3B 参数的 “小身材” 爆发出 “大能量”,不仅在技术上证明了小模型的通用能力潜力,更在产业层面为 AI 的规模化应用提供了全新路径。其开源的代码、模型权重与技术报告,也为行业提供了可复用的训练范式与实践参考。
目前,团队仍在持续探索小模型在复杂代码生成、科研辅助、工业场景中的能力边界,而架构层面的进一步创新,将让小模型的上限持续提升。大模型与小模型并非对立关系,而是互补共生 —— 大模型负责前沿探索与能力突破,小模型负责落地渗透与效率优化。
随着训练机制与结构设计的不断革新,小模型的时代才刚刚启幕,未来必将有更多 “以小博大” 的创新案例出现,推动 AI 技术真正走进千家万户、赋能千行百业。


