2025 年 9 月 29 日,北京—— 国产 AI 领军企业 DeepSeek 今日宣布推出实验性大模型 DeepSeek-V3.2-Exp,并同步开源核心代码与算子实现。作为 V3.1-Terminus 的迭代版本,V3.2-Exp 首次引入自主研发的细粒度稀疏注意力机制(DSA),在保持模型性能基本持平的前提下,实现了长文本处理效率的跨越式提升,同时将 API 调用成本降低超 50%。这一突破标志着国产大模型在架构创新与商业化应用领域迈出关键一步。
一、核心技术突破:稀疏注意力重构 Transformer 架构
传统 Transformer 模型的全量注意力机制存在计算复杂度高(O (n²))、内存占用大等痛点,尤其在处理长文本时效率瓶颈显著。DeepSeek-V3.2-Exp 通过DeepSeek Sparse Attention(DSA) 技术,首次实现了细粒度注意力稀疏化:
- 动态模式识别:根据输入内容智能识别关键 token,选择性计算注意力权重;
- 效率提升:长文本推理速度提升 2-3 倍,内存使用量降低 30%-40%,训练效率提高 50%;
- 性能保持:在 MMLU-Pro、GPQA-Diamond 等权威基准测试中,V3.2-Exp 与 V3.1-Terminus 表现持平,部分场景如数学推理(AIME 2025 得分 + 0.9)、编程竞赛(Codeforces 得分 + 75)甚至实现小幅超越。
二、开源生态与开发者支持
DeepSeek 此次同步开源了 V3.2-Exp 的完整推理代码、CUDA 内核及多平台部署方案,并提供 TileLang 与 CUDA 两种算子版本:
- TileLang 版本:便于研究性实验与快速迭代;
- CUDA 版本:针对生产环境优化,提升运行效率。
此外,DeepSeek 与华为昇腾达成深度合作,昇腾已基于 vLLM/SGLang 框架完成适配部署,实现模型 0day 支持,进一步推动国产算力生态协同发展。
三、API 成本腰斩:开发者迎来普惠 AI 时代
基于新架构的高效计算能力,DeepSeek 宣布大幅下调 API 定价:
- 输入成本:缓存命中场景低至 **$0.07/百万token**(原$0.14),缓存未命中为 $0.56;
- 输出成本:缓存命中$0.16/百万token,未命中$0.42;
- 综合降幅:高缓存场景下,开发者调用成本可降低 70%-80%。
此举被行业视为 “AI 工业化拐点”,有望加速智能客服、内容生成、垂直领域 Agent 等场景的商业化落地。
四、版本迭代回顾:从 V3.1 到 V3.2-Exp 的进化路径
-
V3.1-Terminus(9 月 22 日发布)
- 修复中英文混杂、异常字符等问题;
- 强化 Code Agent 与 Search Agent 能力,在 SWE-bench 等复杂任务中表现提升;
- 输出稳定性显著优化,评测得分超越 Gemini 2.5 Pro。
-
V3.2-Exp(9 月 29 日发布)
- 实验性引入稀疏注意力架构,为下一代 V4 模型奠定技术基础;
- 实现效率与成本的双重突破,同时保持推理质量;
- 开源代码与算子,推动社区协同创新。
五、行业影响与未来展望
DeepSeek-V3.2-Exp 的发布引发多方关注:
- 国产算力产业链:华安证券研报指出,模型迭代将加速国产 AI 芯片(如支持 FP8 精度的下一代芯片)的应用渗透;
- AI Agent 商业化:模型在 BrowseComp、Terminal-bench 等多轮对话任务中的提升,为智能体在客服、教育等领域的落地提供支撑;
- 开源生态:通过技术共享,DeepSeek 正构建以国产大模型为核心的开发者社区,推动行业整体进步。
下一步,DeepSeek 计划于年底推出 V4 版本,或将采用全新架构。 随着稀疏注意力技术的成熟与国产算力生态的完善,AI 模型的性能与成本将进一步优化,为千行百业的智能化转型注入新动能。