前言
❝9 月 25 日,ChatGPT 多模态增加了新的「语音功能」和「图像功能」。这些功能提供了一种新的、更直观的界面,允许我们与 ChatGPT 进行语音对话或展示我们正在谈论的内容。
❞
ChatGPT 现在可以看、听、和说话了,而不单单是一个文本驱动的工具了。
正值十一国庆小长假,很多人选择出去旅行。ChatGPT 新推出的这项功能,能否用在旅行中呢?一起来看看。
图像交互功能
ChatGPT 在 9 月 25 日新推出的这个版本中,添加了图片交互能力。
图像理解由多模态 GPT-3.5 和 GPT-4 提供支持。这些模型将其语言推理技能应用于各种图像,例如照片、屏幕截图以及包含文本和图像的文档。
如何使用呢?
以网页版的 ChatGPT 为例。
点输入框左侧的「图片」按钮,就可以上传图片。可以上传一张或多张图片。
上传后,针对图片中的内容,输入我们想问的问题即可。例如就像下面这样。
看看 ChatGPT 的回答。回答得还不错,看来 ChatGPT 对图像内容的理解还是可以的。
在生活中有哪些应用呢?
比如刚刚上面举的这个例子:景点识别。
现在正值十一小长假,很多人外出旅行。
当我们看到一个不知名但很有趣的景点或地标时,可以拍摄照片并展示给 ChatGPT,它可以帮助我们识别并提供相关信息。
如果我们在旅行中遇到技术问题,如相机设置等,也可以向 ChatGPT 展示问题所在,获取技术支持和建议。
再来看几个官方的示例。
这个例子中上传了两张图,一张是使用说明,另一个是工具箱。然后向 ChatGPT 提问「工具箱中是否有正确的工具」。
另外,如果要聚焦图像的特定部分,还可以使用手机版 ChatGPT 中的绘图工具,圈出某个位置。
这个例子是询问「如何降低自行车座」。同时使用了 ChatGPT 中的绘图工具,圈出某个位置,然后再进行提问。
再比如,在家中拍摄冰箱和食品储藏室的照片,来确定晚餐菜单,并询问详细的食谱。
也可以拍摄数学问题的照片、或者工作中数据的复杂图表,圈出问题,并与 ChatGPT 共同探讨解决方法。
此时脑海中飘过电视上之前经常播的一个广告:哪里不会点哪里~
语音交互功能
ChatGPT 的多模态,除了新增了「图像交互功能」外,还增加了「语音交互功能」。
用户可以使用语音与 ChatGPT 进行双向对话。其实以前也是支持语音的,只不过是仅限于「听」,而不会「说」。
新的语音功能由新的「text-to-speech」模型驱动,能够从简短的样本语音中生成类似人类的音频。
但语音交互功能目前只在手机端可以使用。
如何使用呢?
在手机端应用中点「设置」→「新功能」,选择加入语音对话。
点击位于主屏幕右上角的耳机按钮,然后从 5 种不同的声音中选择喜欢的声音,就可以开始进行对话了。
语音功能可以用来做什么呢?
比如练习外语口语,让它充当你的外教老师。
再比旅途中与它交谈,让它充当我们的随身导游。
或者也可以用它来为家里小孩讲睡前故事,等等。
模型的局限性和风险
用户可能依赖 ChatGPT 处理专业话题,例如研究领域。不鼓励在没有适当验证的情况下使用高风险用例。 模型擅长转录英文文本,但在处理某些其他语言时表现不佳。
目前可用范围
目前 ChatGPT 多模态新增的图像和语音功能,只在 「Plus 用户」和「企业用户」下可以使用。开发者和其他用户群体将在此后不久获得这些功能。 另外,语音功能只在 iOS 和 Android 上可以使用,而图像功能在网页和手机上均可使用。
结束语
随着技术的不断进步,我们正见证着人工智能领域的一次次重大突破。ChatGPT 的多模态功能,不仅为我们提供了与机器交流的新方式,还为我们打开了无尽的可能性。
通过语音、图像和文字的结合,我们可以更加直观、高效地与 AI 助手互动,从而更好地满足我们的日常需求。
正如 OpenAI 所展示的,未来的 AI 将不仅仅是文字和代码,而是一个能「看见」、「听到」并「说话」的实体。
关于 ChatGPT 多模态的图片功能和语音功能,感兴趣的可以移步官方进一步了解:
https://openai.com/blog/chatgpt-can-now-see-hear-and-speak
最近一些小伙伴私信我询问 AI 相关的问题,发现很多小伙伴不管是对 AI 技术还是对 AI 副业变现,都还很感兴趣的。
如果你也对 AI 感兴趣,想通过 AI 做副业增加一些收入,或者在工作中提高效率,欢迎大家进来一起学习和探索。
不感兴趣也没关系,我不会给大家强推,也会持续在这里分享我在 AI 方面的探索和尝试。
AI 在未来不是可选性,而是每一个人都应该掌握的技能。哪怕你不进星球,也要积极地学习探索起来呀!
另外,通过我的优惠券加入星球的伙伴,还可以私信我,领取这份整理好的 AIGC 相关资料包:想赚点小钱,这份资料绝对有用!
如果优惠券失效,请扫码私信小鹿,备注说明来意。
作者介绍
小鹿,程序员,互联网大厂裸辞,居家办公两年,只工作,不上班。
非常喜欢各种 AI 技术,会在这里分享超实用的「AI 干货」,手把手教你玩转各种「AI 工具」,也会分享各种用「AI 做副业」的新玩法。
往期文章
用 AI 搞副业,第二次开启自媒体之路,我貌似开窍了...
还没开始玩微信问一问?「捡流量 + 涨粉」利器!别再错过了!
GPT 总被封?可以转战到 Claude 2 了!完全免费!
整理了全网最火爆的 AI 工具,工作效率至少提高 10 倍!总有一款适合你!
字节裸辞,居家两年。含泪整理 20 个国内远程工作平台。超全,这一篇就够了!(建议收藏)