混合推理架构、128K上下文窗口、大幅提升的Agent能力,DeepSeek-V3.1以技术突破推动智能体时代加速到来。
日前,国内人工智能企业深度求索(DeepSeek)正式推出了DeepSeek-V3.1大模型,这一版本被官方称为“迈向智能体时代的第一步”。此次发布不仅是DeepSeek模型系列的重大升级,更标志着国产大模型在推理效率、长文本处理和应用场景拓展方面取得了突破性进展。
一、混合推理架构,思考模式自由切换
DeepSeek-V3.1最大的创新在于采用了混合推理架构,同一个模型同时支持思考模式(Think Mode)与非思考模式(Non-Think Mode)。
用户可以通过官方App或网页端的“深度思考”按钮自由切换这两种模式。这种设计让用户能够根据任务复杂度,自主选择模型的响应机制——是否需要更长时间的“思考”来进行深度推理。
在思考模式下,模型会进行更为深入的推理分析,适用于解决复杂数学问题、编程任务或多步逻辑推理;而非思考模式则提供更快速的响应,适合日常对话和简单查询。
二、技术架构升级,性能大幅提升
DeepSeek-V3.1采用了稀疏混合专家架构(MoE)与多头潜在注意力机制(MLA),总参数量达到671B,每个token激活37B参数。
这一设计使得模型在保持高性能的同时,有效控制了计算成本。相比前代模型,V3.1在多项基准测试中表现出色,特别是在编程和复杂推理任务上有了显著提升。
新模型将上下文窗口从64K扩展至128K,相当于可处理10万至13万汉字的内容。这一扩展使得模型能够处理更长篇的文档、学术论文甚至整本书籍,为长文档分析提供了强大支持。
三、 思考效率提升,输出更精简
DeepSeek-V3.1在思考效率方面取得了显著进展。经过思维链压缩训练后,V3.1-Think在输出token数减少20%-50%的情况下,各项任务的平均表现与R1-0528持平。
这意味着模型能够以更精简的输出表达更精准的内容,既提高了响应速度,又降低了计算开销。在非思考模式下,模型同样实现了输出长度的优化,能够在输出长度明显减少的情况下保持相同的模型性能。
四、Agent能力增强,工具使用更灵活
DeepSeek-V3.1通过Post-Training优化,在工具使用和智能体任务中的表现有了较大提升。
新模型在代码修复测评(SWE)与命令行终端环境下的复杂任务(Terminal-Bench)测试中,相比之前的DeepSeek系列模型有明显提高。
在搜索能力方面,V3.1在需要多步推理的复杂搜索测试(browsecomp)与多学科专家级难题测试(HLE)上,性能已大幅领先R1-0528。
这些改进使得DeepSeek-V3.1能够更好地支持多种Code Agent框架,开发者能够自己搭建智能体。
五、API升级与价格调整
随着DeepSeek-V3.1的发布,其API接口也同步升级。deepseek-chat对应非思考模式,deepseek-reasoner对应思考模式,上下文均扩展为128K。
API Beta接口支持strict模式的Function Calling,确保输出的Function满足schema定义,并增加了对Anthropic API格式的支持,让开发者可以轻松将DeepSeek-V3.1的能力接入Claude Code框架。
DeepSeek同时宣布,将从北京时间2025年9月6日凌晨起,调整DeepSeek开放平台API接口调用价格,并取消夜间时段优惠。在9月6日前,所有API服务仍按原价格政策计费。
六、开源生态与国产算力适配
DeepSeek一直坚持开源策略,V3.1的Base模型与后训练模型均已在Huggingface与魔搭平台开源。这种开源策略降低了AI技术的使用门槛,促进了开发者社区的创新活力。
值得注意的是,DeepSeek-V3.1使用了UE8M0 FP8 Scale的参数精度,这是为“即将发布的下一代国产芯片”量身定制的。
这一优化显著提升了模型在国产芯片上的性能表现。有分析显示,DeepSeek R2使用华为昇腾910B芯片替代NVIDIA H100 GPU后,输出成本从每百万token 2.19美元大幅降低到0.27美元,降幅接近90%。
七、应用场景拓展,未来前景可期
DeepSeek-V3.1的发布为多种应用场景提供了更强有力的技术支持。
长文档处理场景中,128K的上下文窗口使模型能够处理学术论文、法律合同、技术手册等长文档5;编程开发领域,模型在代码生成和修复方面表现优异,甚至超过了Anthropic的Claude 4 Opus;
教育辅导方面,模型在STEM领域的个性化教学中有巨大潜力5;商业智能场景下,模型能够进行复杂数据分析与报告生成。
结语
DeepSeek-V3.1现已冲上Hugging Face热门模型榜第2位。其Base模型已在Hugging Face和魔搭平台开源,后训练模型也已同步发布。从混合推理架构到国产芯片优化,从128K长上下文到大幅提升的Agent能力,DeepSeek-V3.1的发布标志着国产大模型正在迈向一个全新的发展阶段。
随着智能体时代的到来,DeepSeek-V3.1有望成为开发者构建智能应用的首选基础模型,推动人工智能技术在更多领域实现落地应用。