DeepSeek 再放降本大招：NSA 官宣发布，加速推理降低成本，并且不牺牲性能

资讯
1 个月前

2 月 18 日消息，DeepSeek 今日官宣推出 NSA（Native Sparse Attention），这是一种硬件对齐且原生可训练的稀疏注意力机制，用于超快速长上下文训练与推理。

DeepSeek 再放降本大招：NSA 官宣发布，加速推理降低成本，并且不牺牲性能

NSA 的核心组件包括：

动态分层稀疏策略
粗粒度 token 压缩
细粒度 token 选择

DeepSeek 官方表示，该机制可优化现代硬件设计，加速推理同时降低预训练成本，并且不牺牲性能。在通用基准、长上下文任务和基于指令的推理上，其表现与全注意力模型相当或更加优秀。

附论文链接：

https://arxiv.org/abs/2502.11089

声明：内容来源公开的各类媒体平台，若收录的内容侵犯了您的权益，请联系邮箱，本站将第一时间处理。

消息称 Kimi 大砍投放预算，DeepSeek 冲击之下月之暗面暂缓“烧钱”投广告

2025-2-18 19:55:59

深圳回应 AI 公务员上岗：仅辅助政务，不能单独决策

2025-2-19 11:13:30

搜索