前言
GPT-4的识图能力有点惊喜,准确度比SD的反推模型好多了哈哈,语义理解能力很强,以后打标工作可以交给GPT了,自己只需要最后微调一遍就行了,接下来请看各种测试案例截图
经典小女孩和摊贩街景
先放官方描述和案例图,然后再放GPT识别结果对比,下方案例也是相同节奏~
官方描述:一条繁忙的城市街道,在满月的照耀下闪闪发光。人行道上熙熙攘攘的行人在享受夜生活,在街角的小摊上,一个留着火红头发的年轻女子,身穿标志性的天鹅绒斗篷,正在与脾气坏坏的老摊贩讨价还价。那个脾气坏坏的摊贩是一位高大、精致的男士,穿着一套利落的西装,留着一抹引人注目的胡子,他正在兴致勃勃地使用着他的蒸汽朋克电话进行交谈。
鳄梨心理咨询
一幅插图,一个鳄梨坐在心理医生的椅子上,说着'我只是觉得内心空虚',中间有一个果核大小的洞。而治疗师,一把匙,正在匆匆记录着笔记。
科幻心脏
一幅插图,是一个由半透明玻璃制成的人类心脏,矗立在汹涌的海洋中的基座上。阳光穿透云层照亮了心脏,揭示出其中微小的宇宙。地平线上以粗体字刻着引言:“在你内心找到宇宙。”
秋叶乐队
一部二维动画,展现了一个由拟人化的秋叶组成的民谣乐队,每个叶子都演奏着传统的蓝草乐器,在一个充满乡村氛围的森林背景中,柔和的收获月光洒在其中。
肉山风景画
一幅广袤的风景画,完全由各种肉类构成,展现在观众面前。嫩滑多汁的烤牛肉山丘、鸡腿树、培根河流和火腿巨石创造出一个超现实但令人垂涎的场景。天空装点着辣香肠太阳和萨拉米云朵。
咖啡中的惊涛骇浪
暴风雨天气下放在窗台上的咖啡杯的3D渲染图。窗外的风暴在咖啡中反射,杯子里可以看到微型闪电和湍流。房间灯光昏暗,增添了戏剧性的气氛
土豆国王
小小的马铃薯国王戴着雄伟的王冠,坐在宝座上,监督着他们庞大的马铃薯王国,里面充满了马铃薯臣民和马铃薯城堡
香蕉沙发
一张充满活力的黄色香蕉形状的沙发坐在一个舒适的客厅中,它的曲线托起一堆五颜六色的靠垫。在木地板上,一块有图案的地毯增添了些许怪异的魅力,而一个盆栽植物坐落在角落里,朝向透过窗户射进来的阳光伸展。
多图一起识别
多图一起识别会相对简化描述,还是单独识别的效果最好感觉。
拓展案例识图分析
设计类图片识图分析
总结
【AIGC】超完整的Stable Diffusion 学习应用指南(8月最新版)