OpenAI在Sora发布之后,一直备受期待的GPT5没有到来,但这次带来了全新的GPT4o,一个全新的多模态模型。从官方放出的效果来看,不可谓不炸裂,可以说是完完全全的颠覆。颠覆了多模态对齐的认知,尤其是实时的视频理解部分。
让我们先来看看GPT4o所能实现的能力,然后从技术的角度分析一下,他可能是怎么做到的。
多模态完全统一的GPT4o
能力一:
图片生成、图片改写、文本图片作为Prompt指导生成。
不仅生成图片,而且具有时序的连贯性。从这个角度来看,这已经不仅仅是生成图片带文字那么容易,你看看他带了多少文字,一整封信啊。这SD3做得到吗?我看未必。
由此我们可以得出一个论断,GPT4o在训练过程中花了相当大的力气不仅仅对齐文本图像的模态,在时域上也花了很大的功能
以至于我甚至在想,这是否是多模态统一之后表现出的涌现能力?(主要是视频)
如果你只是认为GPT4o只是将文字给你展示,那就不太对,他不仅仅能将文字写对,这次的版本再次体现了OpenAI强大的指令对齐能力。
GPT4o,还可以根据你指定的字体,产生同一个风格的其他字母的图片。
根据字体风格提示,创作出了OpenAI字体。这不是字体设计历史上的颠覆?字体设计师要失业了。。
OpenAI这次发布的blog来看,还有很多精准通过文字生成的案例,这里就不赘述了。总之一句话:吊打SD3。
在这次的发布中,有一个值得注意的点,就是所有语言的tokens都减少了,我认为这一来是提速,二来,可能是给其他模态挪出更多的context空间。 对文本token进行更进一步压缩,似乎是当前真正融合多模态的一步必要的步骤。
核心takeways
主要的内容包括:
1️⃣ 根据所见示例: 可能的输入包括文本✏️、文本+图像📝🖼️、文本+音频📝🎧、文本+视频📝🎥、音频🎧 可能的输出包括图像🖼️、图像+文本🖼️📝、文本📝、音频🎧
2️⃣ 在MMLU上达到88.7% 🏆;在HumanEval上达到90.2%(同类最佳)🥇
3️⃣ 最高可便宜50% 💸,速度比GPT-4 Turbo快2倍 ⚡
4️⃣ GPT-4o将在ChatGPT的免费层级中提供 🎉
5️⃣ 接近实时的音频,平均延迟320毫秒,与人类对话相似 🗣️**
6️⃣ 新的分词器拥有200k词汇量 📚(之前是100k词汇量),导致在20种语言中需要1.1x - 4.4x更少的令牌 🌍
7️⃣ 分词器压缩和在非英语语言中更高效(对于主要印度语言🇮🇳,令牌数量减少3-5倍)
模型结构猜测
顺便提一下,之前arena上神秘的gpt2,实际上就是GPT-4o。好家伙,整这一出。
最后猜测一下GPT4o的模型结构,说错了不负责,纯属瞎猜。
视觉编码器: gpt4o中可能已经没有视觉编码器的概念,所有的视觉token都通过一个VideoTokenizer进行统一编码,如果是图像输入则视为单帧。考虑到Sora的牛逼,这个组建在OpenAI内部应该已经非常成熟,不仅仅是能work,而且能做到压缩到一个非常不错的Dimension,在效率和效果上达到一个全局最优。 输入给语言模型的应该也不是传统多模态的特征,而是和文本一视同仁的token,是的,没错,可能就是index。 我认为这是一个大势所趋,在可以预见的未来,这条路也会被学术界更上。
视觉生成: 对于视觉生成部分,我保守认为可能是基于Diffusion的方式。理由是他的效果足够好,其他方案是很难做到的。由于我们没有办法看到生成这一部分也能做到实时,尤其是Sora本身的耗时也很大,有理由推测生成部分应该也是一个十分耗时的组件。 当然也可能是一些更先进的方法,例如最近学术界提出的VAR等方式。
声音编码与解码:
我认为OpenAI这个工作最牛逼的地方就在于此,他不仅仅让视觉通过token的方式和文本统一,在声音大概率也是如此。这就是为什么 gpt4o可以做到234ms的延迟。234ms从理解到文本,目前最快的文本都不可能做到。何况这可是gpt4级别的高智能模型。
方向推测
gpt4o已经把多模态推向了一个新的高潮,这是一个将多个模态进行强融合,并在多模态之间进行交叉涌现的时代,传统的大模型训练方式已经无法满足我们的需求。未来属于AGI!
本文链接:https://joeyce.com/chatgpt/259.html
GPT-4oGPT4ogpt-4o检测人的情绪gpt-4o多模态大模型发布GPT-4o免费GPT-4o官网GPT4o官网