OpenAI 重磅推出 GPT-4o mini 模型:创新引领,低价高效

chatGpt在线2024-07-19 11:22:4351

就在刚刚,OpenAI 毫无预兆地宣布了一款全新的“Mini”版本——GPT-4o 模型。此消息犹如一颗重磅炸弹,在科技领域掀起了轩然大波。OpenAI 明确表示,推出这一新的轻量级版本,其核心目标在于让更多的公司和项目能够触及并运用最前沿的技术,从而推动行业的整体进步与发展。

这款被命名为 GPT-4o mini 的崭新模型,一经推出便迅速上线,其在 MMLU 上的得分高达 82%,在 LMSYS 排行榜的聊天领域,更是以显著优势超越了 GPT-4。这一成绩,无疑让 GPT-4o mini 成为了当下瞩目的焦点。

不仅在 ChatGPT 的免费版和付费版中可以立即使用,GPT-4o mini 的商用价格也极具吸引力。每百万输入 token 仅需 15 美分,每百万输出 token 为 60 美分。与之前的 SOTA 模型相比,价格便宜了一个数量级;即便是与 OpenAI 此前最便宜的 GPT-3.5 Turbo 相较,也要便宜 60%以上。OpenAI 的 CEO 山姆・奥特曼对此给出了一个生动的形容:通往智能的成本已经“too cheap to meter”。

GPT-4o mini 凭借其卓越的低成本和低延迟性能,能够出色地完成多种多样的任务。例如,在链接或并行化多个模型调用(比如调用多个 API)的应用程序方面,表现出色;在将大量上下文传递给模型(像完整的代码库或对话历史记录)的操作中,游刃有余;又或者在通过快速、实时的文本响应与人互动(诸如客户支持聊天机器人)的场景里,发挥出色。

OpenAI 宣称,目前 GPT-4o mini 在 API 中已支持文本和视觉,并且很快还将支持文本、图像、视频和音频的输入和输出。该模型具备 128K token 的上下文窗口,其知识截止到 2023 年 10 月。得益于与 GPT-4o 共享的改进版 tokenizer,在处理非英语文本时,不仅效率更高,而且成本也更为经济。

OpenAI 将新模型的问世,视为其努力让 AI“尽可能广泛普及”计划的关键一步。然而,这一举措不仅反映了 OpenAI 自身的战略布局,同时也折射出 AI 技术供应商之间日益白热化的竞争态势,以及人们对于小型和免费开源大模型不断增长的兴趣。另有可靠消息透露,Meta 预计将于下周推出 Llama 3 的最大体量版本,这无疑进一步加剧了市场的竞争氛围。

在众多业内人士看来,GPT-4o mini 完全有能力替代 GPT-3.5 Turbo,并且与 Claude 3 Haiku 和 Gemini 1.5 Flash 对标。作为后来者,GPT-4o mini 毋庸置疑地展现出了更为显著的优势,不仅价格更为低廉,性能也更为卓越。

“OpenAI 的全部意义在于安全地构建和分发 AI,并使其广泛普及,”OpenAI 负责新模型的产品经理 Olivier Godement 强调。“以更低的成本提供智能服务,是我们达成目标的有效途径之一。”

Godement 进一步指出,该公司通过对模型架构的创新改进、对训练数据的精心优化以及训练方案的不断完善,成功开发出了 GPT-4o 的这一最新版本。在多个常见的基准测试中,它都以出色的表现超越了市场上其他的“小体量”模型。

在小型模型领域,GPT-4o mini 堪称佼佼者。在文本智能和多模态推理方面,它在学术基准上一骑绝尘,超越了 GPT-3.5 Turbo 和其他小型模型,并且支持与 GPT-4o 相同范围的语言。此外,GPT-4o mini 在函数调用方面也展现出了强大的性能,这使得开发人员能够轻松构建应用程序,从而实现获取数据或执行操作的功能。

尤其值得关注的是,与 GPT-3.5 Turbo 相比,GPT-4o mini 在长上下文性能方面有了显著的提升。

为了全面评估 GPT-4o mini 的性能,它已经在多个关键基准测试中接受了严格的检验。

在推理任务方面:GPT-4o mini 在涉及文本和视觉的推理任务中展现出了卓越的能力,明显优于其他小型模型。在文本智能和推理基准 MMLU 上,其得分达到了 82.0%,而 Gemini Flash 为 77.9%,Claude Haiku 仅为 73.8%。

在数学和编码能力方面:GPT-4o mini 同样表现出色。在数学推理方面,在 MGSM 上,GPT-4o mini 得分高达 87.0%,而 Gemini Flash 为 75.5%,Claude Haiku 为 71.7%。在编码性能方面,GPT-4o mini 在 HumanEval 标准上的得分达到 87.2%,Gemini Flash 为 71.5%,Claude Haiku 为 75.9%。

在多模态推理方面:GPT-4o mini 在多模态推理评估基准 MMMU 上也表现出了强劲的性能,得分高达 59.4%,而 Gemini Flash 为 56.1%,Claude Haiku 为 50.2%。

作为模型开发过程的重要环节,OpenAI 还与一些合作伙伴携手合作,对 GPT-4o mini 进行了测试。测试结果表明,在一些特定任务上,如从收据文件中提取结构化数据,或者生成高质量的电子邮件回复,GPT-4o mini 明显优于 GPT-3.5 Turbo。

在安全对齐方面,OpenAI 从一开始就高度重视,并在模型中内置了一系列严密的安全措施,而且在开发过程的每一个环节都不断加以强化。

在前期训练阶段,OpenAI 的团队会严格过滤掉那些他们不希望模型学习或输出的信息,例如仇恨言论、成人内容、主要汇集个人信息的网站以及垃圾邮件等。在后期训练中,则会运用诸如 RLHF 等先进技术,确保模型的行为与自身的策略保持高度一致,从而显著提高模型响应的准确性和可靠性。

GPT-4o mini 内置了与 GPT-4o 相同的安全缓解措施,OpenAI 依据 Preparedness Framework 和自愿承诺,通过自动和人工评估对其进行了细致入微的审查。多达 70 余名社会心理学和错误信息等领域的外部专家对 GPT-4o 进行了深入测试,旨在精准确定潜在的风险。而针对这些问题的解决方法,将会在即将发布的 GPT-4o system card 和 Preparedness 记分卡中与公众分享。这些专家评估得出的宝贵见解,无疑为提高 GPT-4o 和 GPT-4o mini 的安全性发挥了重要作用。

在此基础上,OpenAI 的团队还充分利用研究中获取的新技术,全力以赴地提高 GPT-4o mini 的安全性。

在 API 中,GPT-4o mini 是首个应用指令分层 (instruction hierarchy) 方法的模型,这一创新举措有助于增强模型抵御越狱、提示注入和系统提示提取的能力。从而使得模型的响应更加稳定可靠,为在大规模应用中更安全地使用奠定了坚实基础。

在价格降低方面,OpenAI 明确表示,GPT-4o mini 当下已能够在 Assistant API、Chat Completions API 和 Batch API 中作为文本和视觉模型投入使用。其价格极为亲民,每 100 万输入 token 仅为 15 美分,每 100 万输出 token(大约相当于一本标准书的 2500 页)仅需 60 美分。

OpenAI 还计划在未来的几天内推出 GPT-4o mini 的微调版本。

在 ChatGPT 中,Free、Plus 和 Team 用户从今天起就能够取代 GPT-3.5 Turbo 访问 GPT-4o mini。而从下周开始,企业用户也将能够顺利访问。

OpenAI 指出,在过去的几年时间里,人工智能领域取得了令人瞩目的进步,成本也大幅降低。例如,自 2022 年 OpenAI 推出功能相对较弱的模型 text-davinci-003 以来,直至如今的 GPT-4o mini ,每个 token 的成本已经下降了 99%。OpenAI 始终致力于在降低成本的同时,不断增强模型的能力。

OpenAI 畅想未来,期望模型能够无缝融入每一个应用程序、每一个网站之中。而 GPT-4o mini 的推出,无疑为开发人员更高效、更经济地构建和扩展强大的 AI 应用程序铺平了道路。 

本文链接:https://joeyce.com/chatgpt/266.html

gpt-4o mini模型gpt-4o minigpt4omini

相关文章