作者 | 天行君
千呼万唤始出来,ChatGPT王炸升级!能看、能听、能说,正式支持多模态!
人类奇点时刻真的就要来了么?
北京时间9月25日,OpenAI正式官宣ChatGPT升级多模态。
更新一、图像理解能力
升级多模态的GPT3.5与GPT4可以分析理解图片中的信息,基于图片内容进行回答。
更新二、听说能力
语音识别用的是OpenAI的Whisper模型,语音合成使用全新的AI模型,只需要几秒钟的样本音频与文本,就能合成相差无几的音频。
按照计划,OpenAI将在未来两周时间里向付费用户推送这项功能。
还记得吗?在今年3月GPT-4的发布会上,最令人感到震惊的一幕。
OpenAI总裁Greg Brockman拿着一张草稿纸画了个草图,随手拍了张照就让GPT-4在10秒钟时间里生成了这个网站的代码。
文本、图像、语音实时交互,AI理解语音和图像,所见即所得,现在真的可以梦想成真了!
语音还好说,因为本质上还是TTS的技术,让文本和语音之间互相转化。
照官方意思,以后你和老婆吵架再吵不赢的话,可以直接把ChatGPT拍到桌子上,让它代替你来吵架~
用来给小孩讲睡前故事那更不在话下。
但读取图像这个能力就有点逆天了,它不是那种以图搜图的传统模式,而是用OCR技术去真的识别用户发出来的图片,哪怕这个图片是用户现拍的、没有在网上出现过,ChatGPT也能做出理解并调用大模型进行回应。
这个视频是一个实录,拍了自行车的照片问ChatGPT怎么调整自行车座椅高度,你们可以感受一下什么叫恐怖如斯。
我在自己的ChatGPT上测试,真的是被这个逆天能力惊吓到了,我感觉是在和一个真人聊天,而不是机器。
先丢了张自行车的图片给它,问如何把座椅调低。
可以看到ChatGPT通过python调用图像读取能力解析并回复。
然后提供了通用的调整方法,并让我给出细节图片提供具体建议。
然后根据我上传的细节图片解析并提供了更具体明确的操作方案。
按这个样子,那我们以后可以拍一张冰箱的照片,然后让ChatGPT来推荐菜谱;在旅行时拍摄一张地标的照片,让ChatGPT来做导游讲述这处景点;也能拍一张数学题的照片,让ChatGPT来解答。
患有乐高玩具密集恐惧症的爸妈也终于可以解放了,拍个照片丢给GPT去教孩子拼装就好了。
对了,根据OpenAI的说法,这个多模态版本在10个月前就训练好了,之前一直藏着,即便如此,现在出牌依然是几个代差的领先地位。
照这样的发展速度,以后还有什么ChatGPT做不到的吗?AI的边界在哪里?人类的未来在哪里?
要不人类进程按个快进键直接跳到硅基时代吧,我等不及了!
-END-
↓往期精彩文章,点击阅读↓
“刘德华为在,不怕没柴烧”,让刘德华去华为发布会,这是哪个天才脑瓜想的主意?!
说好的华为Mate60呢?为什么还是苹果iPhone15?越骂越贵,越骂越抢?
一 叶 知 秋 一 隅 观 局
/ 点击👆千千微语👇关注我,加★星标★ /