OpenAI新发布的GPT4o,技术解析来了!之前神秘的gpt2解密了

chatGpt在线2024-07-10 20:45:06200

OpenAI在Sora发布之后,一直备受期待的GPT5没有到来,但这次带来了全新的GPT4o,一个全新的多模态模型。从官方放出的效果来看,不可谓不炸裂,可以说是完完全全的颠覆。颠覆了多模态对齐的认知,尤其是实时的视频理解部分。

让我们先来看看GPT4o所能实现的能力,然后从技术的角度分析一下,他可能是怎么做到的。

多模态完全统一的GPT4o

能力一:

图片生成、图片改写、文本图片作为Prompt指导生成。

不仅生成图片,而且具有时序的连贯性。从这个角度来看,这已经不仅仅是生成图片带文字那么容易,你看看他带了多少文字,一整封信啊。这SD3做得到吗?我看未必。

由此我们可以得出一个论断,GPT4o在训练过程中花了相当大的力气不仅仅对齐文本图像的模态,在时域上也花了很大的功能

以至于我甚至在想,这是否是多模态统一之后表现出的涌现能力?(主要是视频)

如果你只是认为GPT4o只是将文字给你展示,那就不太对,他不仅仅能将文字写对,这次的版本再次体现了OpenAI强大的指令对齐能力。

GPT4o,还可以根据你指定的字体,产生同一个风格的其他字母的图片。

根据字体风格提示,创作出了OpenAI字体。这不是字体设计历史上的颠覆?字体设计师要失业了。。

OpenAI这次发布的blog来看,还有很多精准通过文字生成的案例,这里就不赘述了。总之一句话:吊打SD3。

在这次的发布中,有一个值得注意的点,就是所有语言的tokens都减少了,我认为这一来是提速,二来,可能是给其他模态挪出更多的context空间。 对文本token进行更进一步压缩,似乎是当前真正融合多模态的一步必要的步骤。

核心takeways

主要的内容包括:

1️⃣ 根据所见示例: 可能的输入包括文本✏️、文本+图像📝🖼️、文本+音频📝🎧、文本+视频📝🎥、音频🎧 可能的输出包括图像🖼️、图像+文本🖼️📝、文本📝、音频🎧

2️⃣ 在MMLU上达到88.7% 🏆;在HumanEval上达到90.2%(同类最佳)🥇

3️⃣ 最高可便宜50% 💸,速度比GPT-4 Turbo快2倍 ⚡

4️⃣ GPT-4o将在ChatGPT的免费层级中提供 🎉

5️⃣ 接近实时的音频,平均延迟320毫秒,与人类对话相似 🗣️**

6️⃣ 新的分词器拥有200k词汇量 📚(之前是100k词汇量),导致在20种语言中需要1.1x - 4.4x更少的令牌 🌍

7️⃣ 分词器压缩和在非英语语言中更高效(对于主要印度语言🇮🇳,令牌数量减少3-5倍)

模型结构猜测

顺便提一下,之前arena上神秘的gpt2,实际上就是GPT-4o。好家伙,整这一出。

最后猜测一下GPT4o的模型结构,说错了不负责,纯属瞎猜。

视觉编码器: gpt4o中可能已经没有视觉编码器的概念,所有的视觉token都通过一个VideoTokenizer进行统一编码,如果是图像输入则视为单帧。考虑到Sora的牛逼,这个组建在OpenAI内部应该已经非常成熟,不仅仅是能work,而且能做到压缩到一个非常不错的Dimension,在效率和效果上达到一个全局最优。 输入给语言模型的应该也不是传统多模态的特征,而是和文本一视同仁的token,是的,没错,可能就是index。 我认为这是一个大势所趋,在可以预见的未来,这条路也会被学术界更上。

视觉生成: 对于视觉生成部分,我保守认为可能是基于Diffusion的方式。理由是他的效果足够好,其他方案是很难做到的。由于我们没有办法看到生成这一部分也能做到实时,尤其是Sora本身的耗时也很大,有理由推测生成部分应该也是一个十分耗时的组件。 当然也可能是一些更先进的方法,例如最近学术界提出的VAR等方式。

声音编码与解码:

我认为OpenAI这个工作最牛逼的地方就在于此,他不仅仅让视觉通过token的方式和文本统一,在声音大概率也是如此。这就是为什么 gpt4o可以做到234ms的延迟。234ms从理解到文本,目前最快的文本都不可能做到。何况这可是gpt4级别的高智能模型。

方向推测

gpt4o已经把多模态推向了一个新的高潮,这是一个将多个模态进行强融合,并在多模态之间进行交叉涌现的时代,传统的大模型训练方式已经无法满足我们的需求。未来属于AGI!

本文链接:https://joeyce.com/chatgpt/259.html

GPT-4oGPT4ogpt-4o检测人的情绪gpt-4o多模态大模型发布GPT-4o免费GPT-4o官网GPT4o官网

相关文章

  • chatgpt对话如何预设答案

    chatgpt对话如何预设答案

    如何在使用ChatGPT对话时预设答案?开篇提问:你是否曾经在使用ChatGPT时遇到需要反复回答相同问题的情况?或者你是否想要为你的聊天机器人预设一些标准答案,以提高效率和一致性?如果你对如何在Ch...

  • 如何使用ChatGPT获取临时号码?

    如何使用ChatGPT获取临时号码?

    大家好,今天我们来聊聊一个非常实用的话题——如何在ChatGPT中获取临时号码,在日常生活中,我们经常会遇到需要临时号码的场景,比如注册账号、接收验证码等,我们又不想用自己的真实电话号码,这时候临时号...

  • ChatGPT在哪里找?一篇小白也能看懂的教程

    ChatGPT在哪里找?一篇小白也能看懂的教程

    亲爱的读者们,你是否曾经在互联网的海洋中迷失,寻找那个能与你智能对话的AI助手——ChatGPT?如果你正面临这样的困惑,那么这篇文章正是为你准备的,让我们一起探索如何找到ChatGPT,并了解它的强...

  • chatgpt扫码关注

    chatgpt扫码关注

    什么是ChatGPT扫码关注?如何使用它?亲爱的用户们,你们是否曾经听说过ChatGPT扫码关注?如果你对这个概念感到陌生,那么这篇文章就是为你准备的,在这篇文章中,我们将带你了解什么是ChatGPT...

  • 如何利用ChatGPT进行智能学习?

    如何利用ChatGPT进行智能学习?

    你是否有想过,人工智能如何能够成为你学习过程中的得力助手?ChatGPT,这个由人工智能技术驱动的聊天机器人,不仅能够进行日常对话,还能在学习和研究中为你提供宝贵的帮助,ChatGPT是如何进行智能学...