单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里

微软团队在A100上通过使用FP6精度实现了技术创新,其性能甚至超过了使用INT4的传统方法,同时提供了更高的精度;该技术已经成功集成到DeepSpeed等深度学习框架中,支持大型模型的端到端运行,单卡吞吐量显著高于双卡;TC-FPx团队重新设计内核,减少内存访问,优化了DRAM和Tensor Cores利用率,采用位级预打包和并行权重拼接技术提高执行效率。

搜索