基准测试

Meta 开源大模型 Llama-4-Maverick 基准测试排名暴跌，此前被质疑刷榜作弊

4 月 14 日消息，LMArena 更新了 Meta 最新发布的开源大模型 Llama-4-Maverick 的排名，其从此前的第 2 名直线下降至第 32 名。这证实了此前开发者对 Meta 为刷榜向 LMArena 提供“特供版”Llama 4 大模型的质疑。 4 月 6 日，Meta 发布了最新的大模型 Llama 4，包含 Scout、Maverick 和 Behemoth 三个版本。其…
资讯
- 820
2 周前
AI“推理”模型兴起，基准测试成本飙升

随着人工智能（AI）技术的不断发展，所谓的“推理”AI模型成为了研究热点。这些模型能够像人类一样逐步思考问题，在特定领域，如物理学中，被认为比非推理模型能力更强。然而，这种优势却伴随着高昂的测试成本，使得独立验证这些模型的能力变得困难重重。据第三方 AI 测试机构“人工智能分析”（Artificial Analysis）提供的数据显示，评估 OpenAI 的 o1 推理模型在七个流行的 AI 基…
资讯
- 530
2 周前
MLCommons 发布 PC AI 基准测试 MLPerf Client 首个公开版本 0.5

开放式机器学习工程联盟 MLCommons 美国加州当地时间昨日宣布推出适用于衡量消费类 PC 的 AI 性能的 MLPerf Client 基准测试的 0.5 版本，这也是该测试的首个公开版本。 MLCommons 表示 MLPerf Client 基准测试的诞生是 AMD、英特尔、微软、英伟达、高通和顶级 PC OEM 等利益相关方的合作成果，各方为该测试贡献了丰富的专业知识和资源。 MLPe…
资讯
- 3.2k
4 个月前
UL Solutions 推出 AI 文本生成基准测试，支持英伟达、AMD、英特尔三家显卡

3DMark 开发方 UL Solution 当地时间 9 日宣布推出 Procyon AI 文本生成基准测试，通过使用多种不同参数规模的大语言 AI 模型综合判断 AI 加速器硬件的文本生成能力。 Procyon AI 文本生成基准测试目前支持通过 DirectML 通用 API 调用本地的英伟达、AMD、英特尔 GPU，也可通过英特尔的 OpenVINO 调用其自家 GPU（注：独立和集成显卡…
资讯
- 2.1k
4 个月前

搜索