OpenAI 内部的新模型代号为 Strawberry,该公司表示,它并不是 GPT-4o 的后继者,而是对它的补充。
从公开的paper和发言看,O1各项指标都是在和gpt -4O做比较。不知道是不是大家心中所想一样。
价格上看,和gpt-4o 一个价位目录,一个月20美金,但目前已经点击不进了,尝试人太多。
目前出来的是O1 预览!
先总结几条:
1)这个时间推出O1 和融资有关。
2)这代新模型是gpt-4O的延续,各项指标和4O比较,参数应该不大。这个新模型应该没暴力scaling(新范式)。
3)一个突出的不同,这款模型 突出自己的思维链,像人一样,step by step ,而不是一下给出答案。
4)由于3的原因,它进行了思维链,回答一个问题中间进行了很多次推理思考,虽然不展示过程,但成本高了十倍以上。
5)OpenAI 的 ChatGPT 拥有超过 1000 万付费用户,另外还有 100 万用户属于针对商业团队的更高价位计划。chatgpt 目前3亿月活。
6)价格-plus(一个月20美金)用户可以体验,但限流,一个星期30个对话。
Murati 表示,OpenAI 目前正在构建其下一个主模型 GPT-5,该模型将比其前身大得多。尽管该公司仍然相信规模将有助于从人工智能中挖掘出新的能力,但 GPT-5 很可能还会包括今天推出的推理技术。“有两种范式,”Murati 说。“扩展范式和这种新范式。我们希望将它们结合在一起。”
今天宣布了一项新进展,标志着方法的转变——一种能够通过逻辑“推理”许多难题的模型,并且比现有的人工智能聪明得多,而无需进行大规模扩展。
这个被称为 OpenAI o1 的新模型可以解决现有 AI 模型无法解决的问题,包括 OpenAI 现有最强大的模型GPT-4o。它不是像大型语言模型通常那样一步到位地得出答案,而是通过推理解决问题,像人一样有效地大声思考,然后得出正确的结果。
OpenAI 首席技术官Mira Murati向 WIRED 表示: “我们认为这就是这些模型中的新范式。它在处理非常复杂的推理任务方面表现得更好。”
在数学 物理测试中更聪明,更稳定是必然。
虽然使这个新模型像当前模型一样易于使用所需的工作仍在进行中,但我们正在发布该模型的早期版本 OpenAI o1-preview,供 ChatGPT 和受信任的 API 用户立即使用(在新窗口中打开)。
发言人称:我们的大规模强化学习算法教会模型如何在高度数据高效的训练过程中利用其思路进行有效思考。我们发现,随着强化学习的增加(训练时间计算)和思考时间的增加(测试时间计算),o1 的性能会持续提高。扩展此方法的限制与 LLM 预训练的限制大不相同,我们将继续研究这些限制。
论文细节:
为了突出推理能力相对于 GPT-4o 的提升,我们在一系列不同的人工考试和 ML 基准上测试了我们的模型。我们表明,在绝大多数推理能力较强的任务中,o1 的表现明显优于 GPT-4o。除非另有说明,否则我们在最大测试时间计算设置上对 o1 进行了评估。
o1 在具有挑战性的推理基准上大大优于 GPT-4o。实线表示 pass@1 准确率,阴影区域表示 64 个样本的多数投票(共识)表现。
在许多推理能力较强的基准测试中,o1 可与人类专家的表现相媲美。最近的前沿模型1在 MATH 2和 GSM8K上表现出色,以至于这些基准测试不再能够有效区分模型。我们评估了 AIME 的数学表现,AIME 是一项旨在挑战美国最聪明的高中数学学生的考试。在 2024 年的 AIME 考试中,GPT-4o 平均仅解决了 12% (1.8/15) 的问题。o1 在每个问题单个样本中平均为 74% (11.1/15),在 64 个样本中达成共识为 83% (12.5/15),在使用学习到的评分函数对 1000 个样本重新排名时为 93% (13.9/15)。13.9 的分数使其跻身全国前 500 名学生之列,并超过了美国数学奥林匹克的分数线。
我们还在 GPQA 钻石上对 o1 进行了评估,这是一个很难的智能基准,测试化学、物理和生物学方面的专业知识。为了将模型与人类进行比较,我们招募了具有博士学位的专家来回答 GPQA 钻石问题。我们发现 o1 的表现超过了那些人类专家,成为第一个在这个基准上做到这一点的模型。这些结果并不意味着 o1 在各方面都比博士更有能力——只是意味着该模型在解决一些博士需要解决的问题方面更熟练。在其他几个 ML 基准测试中,o1 的表现都超过了最先进的水平。在启用视觉感知功能后,o1 在 MMMU 上的得分为 78.2%,成为第一个与人类专家相媲美的模型。它还在 57 个 MMLU 子类别中的 54 个子类别中胜过 GPT-4o。
思绪之链
与人类在回答难题之前会长时间思考的方式类似,o1 在尝试解决问题时会使用思路链。通过强化学习,o1 学会磨练其思路链并改进其使用的策略。它学会识别和纠正错误。它学会将棘手的步骤分解为更简单的步骤。它学会在当前方法不起作用时尝试不同的方法。这个过程极大地提高了模型的推理能力。为了说明这一飞跃,我们在下面展示了 o1-preview 中几个难题的思路链。
隐藏思想的锁链
我们认为隐藏的思路链为监控模型提供了独特的机会。假设它是忠实且清晰的,隐藏的思路链使我们能够“读懂”模型的思想并了解其思维过程。例如,将来我们可能希望监控思路链以寻找操纵用户的迹象。但是,要做到这一点,模型必须能够自由地以未改变的形式表达其思想,因此我们无法将任何政策合规性或用户偏好训练到思路链上。我们也不想让用户直接看到不一致的思路链。
因此,在权衡了用户体验、竞争优势以及是否要继续进行思路链监控等多种因素后,我们决定不向用户展示原始思路链。我们承认这一决定有弊端。我们努力通过教导模型在答案中重现思路链中的任何有用想法来部分弥补这一缺点。对于 o1 模型系列,我们展示了模型生成的思路链摘要。
此外还推出了O1-mini
OpenAI o1-mini
o1 系列擅长准确生成和调试复杂代码。为了给开发人员提供更高效的解决方案,我们还发布了OpenAI o1-mini,这是一种速度更快、成本更低的推理模型,在编码方面尤其有效。作为一款较小的模型,o1-mini 比 o1-preview 便宜 80%,使其成为一款功能强大、经济高效的模型,适用于需要推理但不需要广泛世界知识的应用程序。
本文链接:https://joeyce.com/chatgpt/273.html
OpenAI-o1ChatGPTPlusOpenAI o1chatgpt 中文OpenAIo1OpenAI01chatgpt o1o1-minio1-previewOpenAI o1-miniOpenAI o1-preview