谷歌新架构两连发:同等规模强于Mamba

谷歌DeepMind推出新架构Hawk和Griffin,挑战传统Transformer模型,展示RNN在AI领域的新潜力。Hawk和Griffin模型在同等规模下展现出优于Mamba的性能,证明了它们在处理效率和下游任务性能上的竞争力。这两个模型实现了与Transformer相当的训练效率,并在推理过程中提供更高的吞吐量和更低的延迟,尤其在处理长序列数据时性能更佳。
搜索