谷歌的研究人员提出了一种名为RG-LRU层的新型门控线性循环层,并围绕该层设计了一个新的循环块,用以替代多查询注意力(MQA)。他们利用这一循环块构建了两个新模型:一个是结合了MLP和循环块的模型Hawk,另一个是结合了MLP、循环块和局部注意力的模型Griffin。通过在300B tokens上对Hawk和Griffin进行过度训练,并针对一系列不同模型规模,研究发现Hawk-3B在下游任务的性能超越了Mamba-3B,但训练的tokens数量仅为后者的一半。另外,Griffin-7B和Griffin-14B的性能与Llama-2相当,但训练的tokens数量分别为后者的1/7。
论文链接:
https://arxiv.org/pdf/2402.19427.pdf