数据显示,xAI 团队的Grok-2和 Grok-Mini 这两款模型正式跻身 LMSys 聊天机器人Arena排行榜,其中Grok-2以第二名的佳绩脱颖而出,这一表现超过了 OpenAI 的 GPT-4o(5月份),与最新的 Gemini 模型并列,由超过6000名社区用户的积极投票支持。
Grok-2在数学任务方面表现尤其出色,荣获该类别的第一名,同时在多个其他任务中也取得了第二名的优异成绩,包括复杂提示、编程和遵循指令等。相较之下,Grok-2-Mini 则以第五名的成绩进入排行榜,展现了其不俗的实力。
Grok-2-Mini 也经历了显著的速度提升,现如今的运行速度是之前的两倍。这一飞跃的改进源自于 xAI 的推理团队,他们彻底重写了推理堆栈,利用 SGLang 实现了更高效的多主机推理和精确度的提升。同时,团队还引入了新的计算和通信内核算法,以及更优的批处理调度和量化技术,进一步提升了模型的整体性能。
尽管有些人对 Grok-2的表现持怀疑态度,认为 OpenAI 的 GPT-4o 更为出色,但在实际使用中,许多用户纷纷表示 Grok-2在编程和数学任务上确实表现得相当出色。Grok-2系列模型本月以测试版发布,用户还可以通过 X 平台进行体验,此外,该模型还支持使用 FLUX.1图像生成模型进行图像创作。