DeepSeek-V3.2-Exp模型正式发布稀疏注意力能否改写行业规则

中国商界杂志社 • 2025年9月29日下午6:36 • 科技 • 阅读 191

9月29日，深度求索（DeepSeek）正式推出实验性版本DeepSeek-V3.2-Exp。这款被业内视为“新一代架构过渡之作”的模型，不仅引入了全新的稀疏注意力机制，更将API调用成本直接砍半——这是要彻底打破大模型“算力军备竞赛”的魔咒吗？

稀疏注意力首秀长文本处理效率跃升

作为V3.1-Terminus的迭代版本，V3.2-Exp最核心的突破在于引入DeepSeek Sparse Attention（DSA）稀疏注意力机制。不同于传统Transformer架构中“全量计算”的模式，DSA通过细粒度稀疏化注意力矩阵，在处理长文本时将计算量从“平方级增长”压缩至“线性可控”。官方测试显示，在保持与V3.1-Terminus性能基本持平的前提下，模型训练和推理效率实现显著提升。

具体来看，在数学推理领域，AIME2025评测分数从88.4提升至89.3；编程能力方面，Codeforces竞赛评级从2046分跃升至2121分，相当于从“专业级”向“专家级”迈进。更关键的是，这种提升并非依赖参数规模扩张——该模型总参数量仍为671B，激活参数37B，却实现了160K长序列上下文的高效处理，这意味着能一次性“消化”30万字文档或超长篇代码库。

“传统注意力机制处理10万字文本时，计算量会飙升至1万亿次，而DSA能将其控制在2000亿次以内。”DeepSeek技术团队在论文中解释，这种优化源于对注意力矩阵的“动态剪枝”，仅保留关键关联权重，从而在精度损失小于1%的情况下，将硬件资源占用降低40%。

API成本腰斩华为云适配加速商业化落地

伴随技术突破的，是极具冲击力的商业举措。DeepSeek宣布，V3.2-Exp API调用成本降低50%以上，新价格即刻生效。以“未命中缓存输入”为例，原单价从2元/百万tokens降至1元，输出价格从8元/百万tokens降至4元，直接对标行业最低水平。

更值得关注的是生态进展。华为云已完成对该模型的全面适配，采用大EP并行方案支持160K长序列处理。“这相当于让模型‘一口气读完《战争与和平》并精准回答细节问题’。”华为云AI负责人在接受采访时表示，双方联合优化的推理引擎，可将长文本处理延迟控制在500ms以内，满足企业级实时交互需求。

开发者社区反应热烈。某电商技术负责人透露：“之前用同类模型处理用户行为日志，单次调用成本约12元，现在用V3.2-Exp能压缩到5元以内，年节省近百万。”官方同步提供V3.1-Terminus接口供对比测试，截至发稿，Hugging Face开源页面星标数已突破1.2万，GitHub代码库fork量超3000次。