初创公司 Databricks 近日发布公告,推出了开源 AI模型 DBRX,声称是迄今为止全球最强大的开源大型语言模型,比 Meta 的 Llama 2 更为强大。
DBRX 采用 transformer 架构,包含 1320 亿参数,共 16 个专家网络组成,每次推理使用其中的 4 个专家网络,激活 360 亿参数。
Databricks 在公司博客文章中介绍,在语言理解、编程、数学和逻辑方面,对比 Meta 公司的 Llama 2-70B、法国 MixtralAI 公司的 Mixtral 以及马斯克旗下 xAI 开发的 Grok-1 等主流开源模型,DBRX 均优势胜出。
图 1:DBRX 在语言理解 (MMLU)、编程 (HumanEval) 和数学 (GSM8K) 方面的表现优于已有的开源模型。
在语言理解方面,DBRX 的分值为 73.7%,高于 GPT-3.5 的 70.0%、高于 Llama 2-70B 的 69.8%、Mixtral 的 71.4% 以及 Grok-1 的 73.0%。
模型 |
DBRX Instruct |
Mixtral Instruct |
Mixtral Base |
LLaMA2-70B Chat |
LLaMA2-70B Base |
Grok-11 |
Open LLM Leaderboard2 (Avg of next 6 rows) |
74.5% |
72.7% |
68.4% |
62.4% |
67.9% |
— |
ARC-challenge 25-shot |
68.9% |
70.1% |
66.4% |
64.6% |
67.3% |
— |
HellaSwag 10-shot |
89.0% |
87.6% |
86.5% |
85.9% |
87.3% |
— |
MMLU 5-shot |
73.7% |
71.4% |
71.9% |
63.9% |
69.8% |
73.0% |
Truthful QA 0-shot |
66.9% |
65.0% |
46.8% |
52.8% |
44.9% |
— |
WinoGrande 5-shot |
81.8% |
81.1% |
81.7% |
80.5% |
83.7% |
— |
GSM8k CoT 5-shot maj@13 |
66.9% |
61.1% |
57.6% |
26.7% |
54.1% |
62.9% (8-shot) |
Gauntlet v0.34 (Avg of 30+ diverse tasks) |
66.8% |
60.7% |
56.8% |
52.8% |
56.4% |
— |
HumanEval5 0-Shot, pass@1 (Programming) |
70.1% |
54.8% |
40.2% |
32.2% |
31.0% |
63.2% |
在编程能力方面,DBRX 的得分为 70.1%,远超 GPT-3.5 的 48.1%,高于 Llama 2-70B 的 32.3%、Mixtral 的 54.8% 以及 Grok-1 的 63.2%。
Model |
DBRX |
GPT-3.57 |
GPT-48 |
Claude 3 Haiku |
Claude 3 Sonnet |
Claude 3 Opus |
Gemini 1.0 Pro |
Gemini 1.5 Pro |
Mistral Medium |
Mistral Large |
MT Bench (Inflection corrected, n=5) |
8.39 ± 0.08 |
— |
— |
8.41 ± 0.04 |
8.54 ± 0.09 |
9.03 ± 0.06 |
8.23 ± 0.08 |
— |
8.05 ± 0.12 |
8.90 ± 0.06 |
MMLU 5-shot |
73.7% |
70.0% |
86.4% |
75.2% |
79.0% |
86.8% |
71.8% |
81.9% |
75.3% |
81.2% |
HellaSwag 10-shot |
89.0% |
85.5% |
95.3% |
85.9% |
89.0% |
95.4% |
84.7% |
92.5% |
88.0% |
89.2% |
HumanEval 0-Shot |
70.1% temp=0, N=1 |
48.1% |
67.0% |
75.9% |
73.0% |
84.9% |
67.7% |
71.9% |
38.4% |
45.1% |
GSM8k CoT maj@1 |
72.8% (5-shot) |
57.1% (5-shot) |
92.0% (5-shot) |
88.9% |
92.3% |
95.0% |
86.5% (maj1@32) |
91.7% (11-shot) |
66.7% (5-shot) |
81.0% (5-shot) |
WinoGrande 5-shot |
81.8% |
81.6% |
87.5% |
— |
— |
— |
— |
— |
88.0% |
86.7% |
在数学方面,DBRX 的得分为 66.9%,高于 GPT-3.5 的 57.1%,也高于 Llama 2-70B 的 54.1%、Mixtral 的 61.1% 和 Grok-1 的 62.9%。
Databricks 介绍,DBRX 是一个基于 MegaBlocks 研究和开源项目构建的混合专家模型 (MoE),因此每秒输出 token 的速度极快。Databricks 相信,这将为 MoE 未来最先进的开源模型铺平道路。