美国时间 7 月18 日,OpenAI 正式发布了多模态小模型 GPT-4o mini,声称要全面取代 GPT-3.5 Turbo。
OpenAI 似乎走向了原有优势的反方向,开始卷“小模型”,而值得注意的是:“小模型” 这个赛道,欧洲与中国的大模型团队已经率先研究了大半年。
2023 年上半年,智谱 AI 发布对话小模型 ChatGLM-6B;
2023 年 10 月 Mistral 发布 7B 模型;
2024 年 2 月,面壁智能团队发布 2.4B 的 MiniCPM,紧接着是多模态小模型 8B MiniCPM-Llama3-V 2.5;
2024 年 4 月,商汤推出 1.8B SenseChat Lite;
2024 年 4 月,上海人工智能实验室 OpenGV Lab 团队的 Intern-VL 系列;
...
目前,在API层面,GPT-4o mini 支持128k、16k输入tokens(图像和文本),未来还将支持视频和音频的输入和输出。
在性能方面,GPT-4o mini 在 MMLU 上的得分为 82%,在 LMSYS 排行榜的聊天方面分数优于 GPT-4。
目前,GPT-4o mini 在 WildBench 测试上排名第九,优于谷歌的 Gemini-flash 以及 Anthropic 的 Claude 3 Haiku。
OpenAI 也公布 GPT-4o mini 在不同基准下的「跑分成绩」,以供参考:
推理任务:文本和视觉推理任务上,GPT-4o mini 优于其他小型模型,在 MMLU 上得分为 82.0%,而 Gemini Flash 为 77.9%,Claude Haiku 为 73.8%。
数学和编码能力:在数学推理和编码任务中,GPT-4o mini 同样表现出色,优于市场上的小模型。在 MGSM 上,对于数学推理任务,GPT-4o mini 得分为 87.0%,而 Gemini Flash 为 75.5%,Claude Haiku 为 71.7%。编码性能方面,GPT-4o mini 在 HumanEval 上得分为 87.2%,而 Gemini Flash 的得分为 71.5%,Claude Haiku 的得分为 75.9%。
多模态推理:GPT-4o mini 在多模态推理评估基准 MMMU 上表现出强劲的性能,得分为 59.4%,而 Gemini Flash 为 56.1%,Claude Haiku 为 50.2%。
在实现性能优化的同时,价格也更便宜。
GPT-4o mini 的核心,还是提供更好的成本效益。
在价格方面,GPT-4o mini 比之前的 SOTA 模型便宜一个数量级,商用价格是每百万输入 token 15 美分,每百万输出 token (大约相当于一本标准书的 2500 页)价格为 60 美分,比 GPT-3.5 Turbo 便宜 60% 以上。即日起正式向免费版、Plus 版和团队版的 ChatGPT 用户开放,企业用户则从下周开始可使用。
在性价比方面,Artificial Analysis 为我们整理出了详细的分析。
GPT-4o mini 这个价格已经卷到了头部模型的最低档,仅次于Llama 3 8B。
OpenAI 也计划在未来几天推出 GPT-4o mini 微调版本。
OpenAI 发布 GPT-4o mini 之后,很多人最先关心的一个问题可能是:GPT-4o mini,相比 GPT-4 和 GPT-4o 用起来的表现如何?
参考:
https://artificialanalysis.ai/models/gpt-4o-mini
https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/
https://www.theverge.com/2024/7/18/24200714/openai-new-cheaper-smarter-model-gpt-4o-mini
本文链接:https://joeyce.com/chatgpt/268.html
chatgpt4.0实操chatgpt4.0 付费chatgpt4.0发布会现场优秀chatgpt4.0提问案例chatgpt4.0有多强chatgpt4.0付费版如何访问chatgpt4必应chatgpt4.0使用技巧