智源研究院近日发布了11月份FlagEval大语言模型评测榜单,此次更新增进了 ChatGLM3-6B、ChatGLM2-12B(闭源)、Yi-34B 和 Skywork-13B 等模型评测,并首次公布闭源模型评测结果。
在 Base 模型排行榜上,Yi-34B-Base 和 Yi-34-Base-200K 出色地超过了 Aquila2-34B 模型并位居榜首位置,尤其在英文领域更胜一筹;ChatGLM3-6B-Base 和 ChatGLM2-12B-Base 在参数量相同的情况下表现卓越;此外 Skywork-13B-Base 和 LingoWhale-8B 同样有着不俗的表现。针对 SFT(有监督微调)模型排名中,ChatGLM2-12B-sft 和 ChatGLM3-6B-sft 能力更强。另外值得一提的是,此次智源研究院还将发布有关大语言模型鲁棒性的评测结果。敬请期待 December 发布。