微软提出1-bit大语言模型变体

微软提出一种1-bit大语言模型,他们介绍了一个名为BitNet b1.58的1-bit大语言模型变体。该模型在困惑度和最终任务性能方面与具有相同模型大小和训练tokens的模型相当,同时在延迟、内存、吞吐量、能耗等方面表现更具成本效益。这一1.58-bit大语言模型定义了一个新的扩展定律,并提供了一种训练新一代高性能且成本效益的大模型的方式。此外,它还引入了一个新的计算范式,并为设计针对1-bit大语言模型的特定硬件提供了新的思路。

论文地址:
https://arxiv.org/abs/2402.17764

搜索