OpenAI 开战小模型，发布 GPT-4o mini

chatGpt在线2024-07-20 15:41:57312

先做个广告：如需代注册ChatGPT或充值 GPT4.0会员（plus），请添加站长微信：gptchongzhi

美国时间 7 月18 日，OpenAI 正式发布了多模态小模型 GPT-4o mini，声称要全面取代 GPT-3.5 Turbo。

推荐使用GPT中文版,国内可直接访问：https://ai.gpt86.top

OpenAI 似乎走向了原有优势的反方向，开始卷“小模型”，而值得注意的是：“小模型” 这个赛道，欧洲与中国的大模型团队已经率先研究了大半年。

2023 年上半年，智谱 AI 发布对话小模型 ChatGLM-6B；
2023 年 10 月 Mistral 发布 7B 模型；
2024 年 2 月，面壁智能团队发布 2.4B 的 MiniCPM，紧接着是多模态小模型 8B MiniCPM-Llama3-V 2.5；
2024 年 4 月，商汤推出 1.8B SenseChat Lite；
2024 年 4 月，上海人工智能实验室 OpenGV Lab 团队的 Intern-VL 系列；
...

但也有国产大模型团队指出，GPT-4o mini 是相对 GPT-4o 的“Mini”版本，具体参数量不详，因此如商汤、面壁智能、上海人工智能实验室等团队难以与其比较。

GPT-4o mini 很能打

文本、数学、编码、多模态，效果拔群

目前，在API层面，GPT-4o mini 支持128k、16k输入tokens（图像和文本），未来还将支持视频和音频的输入和输出。

在性能方面，GPT-4o mini 在 MMLU 上的得分为 82%，在 LMSYS 排行榜的聊天方面分数优于 GPT-4。

目前，GPT-4o mini 在 WildBench 测试上排名第九，优于谷歌的 Gemini-flash 以及 Anthropic 的 Claude 3 Haiku。

OpenAI 也公布 GPT-4o mini 在不同基准下的「跑分成绩」，以供参考：

推理任务：文本和视觉推理任务上，GPT-4o mini 优于其他小型模型，在 MMLU 上得分为 82.0%，而 Gemini Flash 为 77.9%，Claude Haiku 为 73.8%。
数学和编码能力：在数学推理和编码任务中，GPT-4o mini 同样表现出色，优于市场上的小模型。在 MGSM 上，对于数学推理任务，GPT-4o mini 得分为 87.0%，而 Gemini Flash 为 75.5%，Claude Haiku 为 71.7%。编码性能方面，GPT-4o mini 在 HumanEval 上得分为 87.2%，而 Gemini Flash 的得分为 71.5%，Claude Haiku 的得分为 75.9%。
多模态推理：GPT-4o mini 在多模态推理评估基准 MMMU 上表现出强劲的性能，得分为 59.4%，而 Gemini Flash 为 56.1%，Claude Haiku 为 50.2%。

性价比极高

在实现性能优化的同时，价格也更便宜。

GPT-4o mini 的核心，还是提供更好的成本效益。

在价格方面，GPT-4o mini 比之前的 SOTA 模型便宜一个数量级，商用价格是每百万输入 token 15 美分，每百万输出 token （大约相当于一本标准书的 2500 页）价格为 60 美分，比 GPT-3.5 Turbo 便宜 60% 以上。即日起正式向免费版、Plus 版和团队版的 ChatGPT 用户开放，企业用户则从下周开始可使用。

在性价比方面，Artificial Analysis 为我们整理出了详细的分析。

GPT-4o mini 这个价格已经卷到了头部模型的最低档，仅次于Llama 3 8B。

OpenAI 也计划在未来几天推出 GPT-4o mini 微调版本。

OpenAI 发布 GPT-4o mini 之后，很多人最先关心的一个问题可能是：GPT-4o mini，相比 GPT-4 和 GPT-4o 用起来的表现如何？

参考：
https://artificialanalysis.ai/models/gpt-4o-mini
https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/
https://www.theverge.com/2024/7/18/24200714/openai-new-cheaper-smarter-model-gpt-4o-mini