-
Meta 开源大模型 Llama-4-Maverick 基准测试排名暴跌,此前被质疑刷榜作弊
4 月 14 日消息,LMArena 更新了 Meta 最新发布的开源大模型 Llama-4-Maverick 的排名,其从此前的第 2 名直线下降至第 32 名。这证实了此前开发者对 Meta 为刷榜向 LMArena 提供“特供版”Llama 4 大模型的质疑。 4 月 6 日,Meta 发布了最新的大模型 Llama 4,包含 Scout、Maverick 和 Behemoth 三个版本。其…- 820
-
AI“推理”模型兴起,基准测试成本飙升
随着人工智能(AI)技术的不断发展,所谓的“推理”AI模型成为了研究热点。这些模型能够像人类一样逐步思考问题,在特定领域,如物理学中,被认为比非推理模型能力更强。然而,这种优势却伴随着高昂的测试成本,使得独立验证这些模型的能力变得困难重重。 据第三方 AI 测试机构“人工智能分析”(Artificial Analysis)提供的数据显示,评估 OpenAI 的 o1 推理模型在七个流行的 AI 基…- 530
-
MLCommons 发布 PC AI 基准测试 MLPerf Client 首个公开版本 0.5
开放式机器学习工程联盟 MLCommons 美国加州当地时间昨日宣布推出适用于衡量消费类 PC 的 AI 性能的 MLPerf Client 基准测试的 0.5 版本,这也是该测试的首个公开版本。 MLCommons 表示 MLPerf Client 基准测试的诞生是 AMD、英特尔、微软、英伟达、高通和顶级 PC OEM 等利益相关方的合作成果,各方为该测试贡献了丰富的专业知识和资源。 MLPe…- 3.2k
-
UL Solutions 推出 AI 文本生成基准测试,支持英伟达、AMD、英特尔三家显卡
3DMark 开发方 UL Solution 当地时间 9 日宣布推出 Procyon AI 文本生成基准测试,通过使用多种不同参数规模的大语言 AI 模型综合判断 AI 加速器硬件的文本生成能力。 Procyon AI 文本生成基准测试目前支持通过 DirectML 通用 API 调用本地的英伟达、AMD、英特尔 GPU,也可通过英特尔的 OpenVINO 调用其自家 GPU(注:独立和集成显卡…- 2.1k