智源FlagEval大模型评测榜单发布

11月20日

智源研究院近日发布了11月份FlagEval大语言模型评测榜单，此次更新增进了 ChatGLM3-6B、ChatGLM2-12B（闭源）、Yi-34B 和 Skywork-13B 等模型评测，并首次公布闭源模型评测结果。

在 Base 模型排行榜上，Yi-34B-Base 和 Yi-34-Base-200K 出色地超过了 Aquila2-34B 模型并位居榜首位置，尤其在英文领域更胜一筹；ChatGLM3-6B-Base 和 ChatGLM2-12B-Base 在参数量相同的情况下表现卓越；此外 Skywork-13B-Base 和 LingoWhale-8B 同样有着不俗的表现。针对 SFT（有监督微调）模型排名中，ChatGLM2-12B-sft 和 ChatGLM3-6B-sft 能力更强。另外值得一提的是，此次智源研究院还将发布有关大语言模型鲁棒性的评测结果。敬请期待 December 发布。

TOP1

如何用AI制作祝福视频？三分钟教你学会用AI制作爆款祝语祝福视频
8小时前
TOP2

讯飞星火深度推理模型 X1 发布：唯一全国产算力训练，多项指标国内第一
9小时前
TOP3

多模态 AI 助力癌症治疗，更准确预测癌症复发概率，生存率等
9小时前
全球首个人形机器人马拉松比赛拟于今年 4 月在北京亦庄举办
9小时前
ChatGPT 变身 AI私人助理：新 Tasks 定时播报全网热点、设置每日学习 / 健身计划
9小时前
CodeFuse：AI智能研发助手，开源大模型助力开发者提高编程效率
10小时前
Tavus：AI视频生成平台，适合企业使用的数字人实时对话工具
10小时前
研究：训练数据含 0.001% 的错误信息足以“毒害”医学 AI模型
1月14日

❯

搜索

幸运之星即将降临……

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠

_￥_優惠

使用時效：无法使用

使用時效：
之前

使用時效：预期有效

优惠编号：
×

限制以下商品使用：限制以下商品分类用途：不限制使用：

[{{ct.name}}]

所有商品及商品类型需求使用

没有优惠可用！

购物车

×

德

空空如也！

清空貨櫃前往

您的有新私信

没有新私信

写新私信查看全部

{{userData.name}}已认证

智源FlagEval大模型评测榜单发布

如何用AI制作祝福视频？三分钟教你学会用AI制作爆款祝语祝福视频

讯飞星火深度推理模型 X1 发布：唯一全国产算力训练，多项指标国内第一

多模态 AI 助力癌症治疗，更准确预测癌症复发概率，生存率等

全球首个人形机器人马拉松比赛拟于今年 4 月在北京亦庄举办

ChatGPT 变身 AI私人助理：新 Tasks 定时播报全网热点、设置每日学习 / 健身计划

CodeFuse：AI智能研发助手，开源大模型助力开发者提高编程效率

Tavus：AI视频生成平台，适合企业使用的数字人实时对话工具

研究：训练数据含 0.001% 的错误信息足以“毒害”医学 AI模型

AI微博

AI应用

5000+AI应用！每日更新

AIAICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai抖音

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

1ai微信

每天五分钟

一年变大神

扫码关注