-
月之暗面 Kimi 开源 Moonlight:30 亿 / 160 亿参数混合专家模型
2 月 24 日消息,月之暗面 Kimi 昨日发布了“Muon 可扩展用于 LLM 训练”的新技术报告,并宣布推出“Moonlight”:一个在 Muon 上训练的 30 亿 / 160 亿参数混合专家模型(MoE)。使用了 5.7 万亿个 token,在更低的浮点运算次数(FLOPs)下实现了更好的性能,从而提升了帕累托效率边界。 月之暗面称,团队发现 Muon 优化器可通过添加权重衰减、仔细调…- 3.3k