OpenAI新发布的GPT4o，技术解析来了！之前神秘的gpt2解密了

chatGpt在线2024-07-10 20:45:06568

先做个广告：如需代注册ChatGPT或充值 GPT4.0会员（plus），请添加站长微信：gptchongzhi

OpenAI在Sora发布之后，一直备受期待的GPT5没有到来，但这次带来了全新的GPT4o，一个全新的多模态模型。从官方放出的效果来看，不可谓不炸裂，可以说是完完全全的颠覆。颠覆了多模态对齐的认知，尤其是实时的视频理解部分。

推荐使用GPT中文版,国内可直接访问：https://ai.gpt86.top

让我们先来看看GPT4o所能实现的能力，然后从技术的角度分析一下，他可能是怎么做到的。

多模态完全统一的GPT4o

能力一:

图片生成、图片改写、文本图片作为Prompt指导生成。

不仅生成图片，而且具有时序的连贯性。从这个角度来看，这已经不仅仅是生成图片带文字那么容易，你看看他带了多少文字，一整封信啊。这SD3做得到吗？我看未必。

由此我们可以得出一个论断，GPT4o在训练过程中花了相当大的力气不仅仅对齐文本图像的模态，在时域上也花了很大的功能

以至于我甚至在想，这是否是多模态统一之后表现出的涌现能力？（主要是视频）

如果你只是认为GPT4o只是将文字给你展示，那就不太对，他不仅仅能将文字写对，这次的版本再次体现了OpenAI强大的指令对齐能力。

GPT4o，还可以根据你指定的字体，产生同一个风格的其他字母的图片。

根据字体风格提示，创作出了OpenAI字体。这不是字体设计历史上的颠覆？字体设计师要失业了。。

OpenAI这次发布的blog来看，还有很多精准通过文字生成的案例，这里就不赘述了。总之一句话：吊打SD3。

在这次的发布中，有一个值得注意的点，就是所有语言的tokens都减少了，我认为这一来是提速，二来，可能是给其他模态挪出更多的context空间。对文本token进行更进一步压缩，似乎是当前真正融合多模态的一步必要的步骤。

核心takeways

主要的内容包括：

1️⃣ 根据所见示例：可能的输入包括文本✏️、文本+图像📝🖼️、文本+音频📝🎧、文本+视频📝🎥、音频🎧 可能的输出包括图像🖼️、图像+文本🖼️📝、文本📝、音频🎧

2️⃣ 在MMLU上达到88.7% 🏆；在HumanEval上达到90.2%（同类最佳）🥇

3️⃣ 最高可便宜50% 💸，速度比GPT-4 Turbo快2倍 ⚡

4️⃣ GPT-4o将在ChatGPT的免费层级中提供 🎉

5️⃣ 接近实时的音频，平均延迟320毫秒，与人类对话相似 🗣️**

6️⃣ 新的分词器拥有200k词汇量 📚（之前是100k词汇量），导致在20种语言中需要1.1x - 4.4x更少的令牌 🌍

7️⃣ 分词器压缩和在非英语语言中更高效（对于主要印度语言🇮🇳，令牌数量减少3-5倍）

模型结构猜测

顺便提一下，之前arena上神秘的gpt2，实际上就是GPT-4o。好家伙，整这一出。

最后猜测一下GPT4o的模型结构，说错了不负责，纯属瞎猜。

视觉编码器： gpt4o中可能已经没有视觉编码器的概念，所有的视觉token都通过一个VideoTokenizer进行统一编码，如果是图像输入则视为单帧。考虑到Sora的牛逼，这个组建在OpenAI内部应该已经非常成熟，不仅仅是能work，而且能做到压缩到一个非常不错的Dimension，在效率和效果上达到一个全局最优。输入给语言模型的应该也不是传统多模态的特征，而是和文本一视同仁的token，是的，没错，可能就是index。我认为这是一个大势所趋，在可以预见的未来，这条路也会被学术界更上。

视觉生成：对于视觉生成部分，我保守认为可能是基于Diffusion的方式。理由是他的效果足够好，其他方案是很难做到的。由于我们没有办法看到生成这一部分也能做到实时，尤其是Sora本身的耗时也很大，有理由推测生成部分应该也是一个十分耗时的组件。当然也可能是一些更先进的方法，例如最近学术界提出的VAR等方式。

声音编码与解码：

我认为OpenAI这个工作最牛逼的地方就在于此，他不仅仅让视觉通过token的方式和文本统一，在声音大概率也是如此。这就是为什么 gpt4o可以做到234ms的延迟。234ms从理解到文本，目前最快的文本都不可能做到。何况这可是gpt4级别的高智能模型。