今日份知识你摄入了么?
GPT-4是历史上最受期待的AI模型。
然而,当OpenAI三月份发布它时,他们没有告诉我们任何有关其大小、数据、内部结构或他们如何训练和构建它的信息。一个真正的黑匣子。
事实证明,他们并没有隐藏这些关键细节,因为模型太创新,或者架构太复杂而无法共享。如果我们相信最新的谣言,事实似乎恰恰相反:
从技术和科学的角度来说,GPT-4算不上什么突破。
这并不一定是坏事——毕竟,GPT-4是现有最好的语言模型——只是……有点平庸。这并不是人们在等待了三年之后所期待的。
这一消息尚未得到官方证实,它揭示了有关GPT-4和OpenAI的重要见解,并提出了有关AI真正的先进技术及其未来的问题。
GPT-4:小型模型的混合
6月20日,自动驾驶初创公司Comma.ai创始人George Hotz透露,GPT-4并不是单一的整体密集模型(如GPT-3和GPT-3.5),而是8x2200亿个参数模型的混合物。当天晚些时候,Meta的PyTorch联合创始人Soumith Chintala再次确认了泄露事件。就在前一天,微软BingAI负责人Mikhail Parakhin也暗示了这一点。
GPT-4不是一个>1T的大模型,而是八个较小的模型巧妙地组合在一起。OpenAI据称用于这种“Hydra”模型的专家混合模式既不是新事物,也不是他们发明的。在本文中,我将解释为什么这与该领域非常相关,以及OpenAI如何巧妙地执行其计划以实现三个关键目标。
两个问题。
首先,这是一个谣言。明确的来源(Hotz和Chintala)很可靠,但不是OpenAI的工作人员。Parakhin在微软担任高管职位,但他从未明确证实这一点。出于这些原因,值得对此持保留态度。尽管如此,这个故事还是非常可信的。
其次,我们要在该赞扬的地方给予赞扬。GPT-4确实如用户所说的那样令人印象深刻。内部架构的细节无法改变这一点。如果有效,那就有效。无论是一个模型还是八个捆绑在一起的模型都没有关系。它在写作和编码任务上的表现和能力是合法的。本文并不是对GPT-4的抨击——只是警告我们可能需要更新我们的先验知识。
GPT-4的秘密
我必须赞扬OpenAI在处理围绕GPT-4的不合理的高期望方面的出色表现,它掩盖了模型中更令人不满意的方面,同时保持了对话的主导地位。
今年一月份,当StrictlyVC的Connie Loizos提到Twitter上流传的可笑的100万亿GPT-4图表时,Altman告诉她,“人们都在祈求失望,他们一定会失望的。”他知道2022年夏天完成训练的GPT-4不会达到人们的期望。
但他不想毁掉OpenAI近乎神秘的声誉。因此,他们将GPT-4隐藏起来,避开公众的监督,进一步加剧了它的神秘光环。
那时OpenAI已经在ChatGPT中确立了自己的地位。在大多数人眼中,他们是该领域的领导者(尽管谷歌的人工智能研发历史更长、更丰富)。因此,他们无法明确承认GPT-4不是人们想要的预期突破也不是GPT-3的巨大飞跃。
因此,他们专注于暗示和暗示它确实非常强大(例如,AGI的火花、超级智能即将到来,等等),并通过暗示竞争压力的增加来捍卫自己不披露GPT-4规格的决定,正如Ilya Sutskever告诉The Verge的那样。
有了这一点,对OpenAI保密性的主流解读是这样的:“他们不会披露这些规范,因为出于商业生存和安全原因,他们无力承担谷歌或开源项目复制这些规范的费用。此外,GPT-4的SOTA性能意味着该架构必须是一项科学壮举。”
OpenAI得到了它想要的。Altman很诚实——GPT-4会令人失望——但与此同时,潜意识信号暗示了一些其他的东西:GPT-4是神奇的。人们相信了这一点。
不过,从某种程度上来说,它很神奇。我们都已经看到了它的实际应用。这并不是大多数人所认为的革命性成就。这似乎只是一个重新构思的老把戏。这项技术于2021年首次成功实施,将多个专家模型组合成一个模型,每位专家都接受过专门研究不同领域、任务或数据的培训。两年前,谁做到了?你猜对了,谷歌工程师(其中一些人,比如William Fedus和Trevor Cai,后来被OpenAI雇佣)。
OpenAI无疑在上面添加了工程独创性(否则谷歌将拥有自己的GPT-4或更好的),但该模型在基准测试中占据绝对主导地位的关键在于它不是一个模型,而是八个模型。
所以,是的,GPT-4很神奇,但OpenAI将其变成了我们所看到的那种。巧妙的误导和巧妙的手法的巧妙结合。而诀窍仅仅是改编。
OpenAI通过隐藏GPT-4实现的3个目标
首先,它们解放了人们的想象力。尽管怀疑论者认为这是一种不科学的做法,但它引发了对该模型威力的猜测。这反过来又让他们能够建立自己喜欢的叙述——AGI和为AGI制定计划的必要性——让政府相信安全要求(特别是对其他人而言)和监管(符合他们目标的要求)至关重要。错觉已经完成:GPT-4具有闪亮的外观,因此它的内部也必须同样闪亮——而闪亮可能是危险的。
事实上,如果我们用刻薄的比喻的话,GPT-4更适合被描述为“穿着风衣的浣熊”的凝视。
其次,他们有效地阻止了开源项目以及谷歌或Anthropic等竞争对手复制他们据称发明或发现的技术。但OpenAI在GPT-4中没有护城河。LLaMA无法与GPT-4竞争,但也许8个LLaMA捆绑在一起可以——人们正在将苹果与橙子进行比较,但他们不知道。所以也许我错了,开源毕竟并没有落后太多。
护城河让GPT-4看起来比实际更令人印象深刻。
最后,他们掩盖了GPT-4实际上并不是人工智能突破的事实,有效地防止了目击者、局外人和用户对该领域明显的惊人进展速度失去信心。如果我们挑剔的话,GPT-4一方面是拥有足够的资金和GPU来训练和运行八个堆叠在一起的~GPT-3.5模型的结果,另一方面是在不告诉任何人的情况下抛弃了另一家公司发明的老技术。
最后的想法
正如Hotz所说,也许OpenAI以及整个行业都缺乏创意。也许人工智能并没有像公司、媒体、营销人员和arXiv所说的那样,真正实现一个又一个里程碑的快速发展。也许GPT-4与GPT-3相比并没有应有的巨大飞跃。
在我们获得正式版本之前,谣言仍然是谣言(我联系了OpenAI,但尚未收到回复)。不过,很难否认这个故事的合理性。除了来源的价值之外,还有整体的一致性。这就是为什么我给予这个消息很高的可信度。
引用Hotz的结论:“一家公司之所以保密,是因为他们隐藏了一些不那么酷的东西。”也许GPT-4并没有那么酷。
原文作者:Alberto Romero
翻译作者:黄豆
美工编辑:过儿
校对审稿:Chuang
原文链接:https://albertoromgar.medium.com/gpt-4s-secret-has-been-revealed-439db1568180
本周公开课预告
往期精彩回顾
生成式人工智能的真正赢家!
我在网上发现的最有趣的AI应用
如何零经验找到一份数据科学工作?
如何用ChatGPT和Tableau将数据转化为可视化图表?
点击“阅读原文”查看数据应用学院核心课程