2024年7月18日,OpenAI推出其最具成本效益的模型GPT-4o mini,它有什么用?与GPT4-o比有啥不同呢?
总结下来主要有以下3点重要内容:
- 价格更低;
- 速度更快;
- 效果优秀;(比GPT-4o仅差一点,与其他大部分主流模型比依然优秀)
价格更低
从模型的输入输出token官方报价看,GPT-4o的百万输入tokens为US$5.00,而GPT-4o mini为US$0.15,仅为GPT-4o费用的3%。GPT-4o的百万输出tokens为US$15.00,而GPT-4o mini为US$0.60,仅为GPT-4o费用的4%。
这个降价力度是真的够,跟前阵子国内大模型厂家百万tokens纷纷降价至1至10元不等的主流模型相比,依旧拥有很强的竞争力。详见文章【AI动态】一张图看懂AI厂家大模型API大降价时间线,百万tokens“卷”出白菜价!
下面两张图分别是OpenAI官方发布的GPT-4o和GPT-4o mini的报价。
下面这张截图是OpenAI开发者X平台账号发出GPT-4o mini和GPT-3.5 Turbo的价格随时间更新情况。
速度更快
GPT-4o mini 以其低成本和低延迟支持广泛的任务,例如链接或并行化多个模型调用(例如,调用多个 API)、将大量上下文传递给模型(例如,完整的代码库或对话历史记录)或通过快速、实时的文本响应(例如,客户支持聊天机器人)与客户交互。
不过在速度这块锅头暂时没能亲自对比测试,之前对比GPT-4o与GPT-4直观感受响应速度确实快很多。
效果优秀
GPT-4o mini 在文本智能和多模态推理的学术基准上都超过了 GPT-3.5 Turbo 和其他小型模型,并支持与 GPT-4o 相同的语言范围。
GPT-4o mini 已通过多个关键基准测试进行评估,OpenAI官方对此描述如下:
推理任务:GPT-4o mini 在涉及文本和视觉的推理任务方面优于其他小型模型,在文本智能和推理基准 MMLU 上得分为 82.0%,而 Gemini Flash 为 77.9%,Claude Haiku 为 73.8%。
数学和编码能力:GPT-4o mini 在数学推理和编码任务方面表现出色,优于市场上以前的小型模型。在衡量数学推理的 MGSM 上,GPT-4o mini 得分为 87.0%,而 Gemini Flash 为 75.5%,Claude Haiku 为 71.7%。GPT-4o mini 在衡量编码性能的 HumanEval 上得分为 87.2%,而 Gemini Flash 为 71.5%,Claude Haiku 为 75.9%。
多模态推理:GPT-4o mini 在多模态推理评估 MMMU 上也表现出强劲的表现,得分为 59.4%,而 Gemini Flash 为 56.1%,Claude Haiku 为 50.2%。
下面是基准评估结果截图。