ImageNet零样本准确率首次超过80%,地表最强开源CLIP模型更新
模型地址:https://huggingface.co/laion/CLIP-ViT-bigG-14-laion2B-39B-b160k
OpenCLIP模型在各个数据集上具体的性能如下表所示。Zero-shot能力
(资料图片)
CLIP为何能Zero-Shot
对比语言-图像预训练(CLIP, Contrastive Language-Image Pretraining)是 OpenAI 于2021年发布的一个主要基于Transformer的模型。
CLIP 由两个模型组成,一个Transformer编码器用于将文本转换为embedding,以及一个视觉Transformer(ViT)用于对图像进行编码。
CLIP内的文本和图像模型在预训练期间都进行了优化,以在向量空间中对齐相似的文本和图像。在训练过程中,将数据中的图像-文本对在向量空间中将输出向量推得更近,同时分离不属于一对的图像、文本向量。
CLIP与一般的分类模型之间有几个区别:
首先,OpenAI 使用从互联网上爬取下来的包含4亿文本-图像对的超大规模数据集进行训练,其好处在于:
1. CLIP的训练只需要「图像-文本对」而不需要特定的类标签,而这种类型的数据在当今以社交媒体为中心的网络世界中非常丰富。
2. 大型数据集意味着 CLIP 可以对图像中的通用文本概念进行理解的能力。
3. 文本描述(text descriptor)中往往包含图像中的各种特征,而不只是一个类别特征,也就是说可以建立一个更全面的图像和文本表征。
上述优势也是CLIP其建立Zero-shot能力的关键因素,论文的作者还对比了在ImageNet上专门训练的 ResNet-101模型和 CLIP模型,将其应用于从ImageNet 派生的其他数据集,下图为性能对比。
可以看到,尽管 ResNet-101是在ImageNet上进行训练的,但它在相似数据集上的性能要比 CLIP 在相同任务上的性能差得多。
在将 ResNet 模型应用于其他领域时,一个常用的方法是「linear probe」(线性探测),即将ResNet模型最后几层所学到的特性输入到一个线性分类器中,然后针对特定的数据集进行微调。
在CLIP论文中,线性探测ResNet-50与zero-shot的CLIP 进行了对比,结论是在相同的场景中,zero-shot CLIP 在多个任务中的性能都优于在ResNet-50中的线性探测。
不过值得注意的是,当给定更多的训练样本时,Zero-shot并没有优于线性探测。
用CLIP做Zero-shot分类
从上面的描述中可以知道,图像和文本编码器可以创建一个512维的向量,将输入的图像和文本输入映射到相同的向量空间。
用CLIP做Zero-shot分类也就是把类别信息放入到文本句子中。
举个例子,输入一张图像,想要判断其类别为汽车、鸟还是猫,就可以创建三个文本串来表示类别:
T1代表车:a photo of a car
T2代表鸟:a photo of a bird
T3代表猫:a photo of a cat
将类别描述输入到文本编码器中,就可以得到可以代表类别的向量。
假设输入的是一张猫的照片,用 ViT 模型对其进行编码获取图像向量后,将其与类别向量计算余弦距离作为相似度,如果与T3的相似度最高,就代表图像的类别属于猫。
可以看到,类别标签并不是一个简单的词,而是基于模板「a photo of a {label}」的格式重新改写为一个句子,从而可以扩展到不受训练限制的类别预测。
实验中,使用该prompt模板在ImageNet的分类准确性上提高了1.3个百分点,但prompt模板并不总是能提高性能,在实际使用中需要根据不同的数据集进行测试。
Python实现
想要快速使用CLIP做zero-shot分类也十分容易,作者选取了Hugging Face中的frgfm/imagenette数据集作为演示,该数据集包含10个标签,且全部保存为整数值。
使用 CLIP进行分类,需要将整数值标签转换为对应的文本内容。
在直接将标签和照片进行相似度计算前,需要初始化 CLIP模型,可以使用通过 Hugging Face transformers找到的 CLIP 实现。
文本transformer无法直接读取文本,而是需要一组称为token ID(或input _ IDs)的整数值,其中每个唯一的整数表示一个word或sub-word(即token)。
将转换后的tensor输入到文本transformer中可以获取标签的文本embedding
注意,目前CLIP输出的向量还没有经过归一化(normalize),点乘后获取的相似性结果是不准确的。
下面就可以选择一个数据集中的图像作测试,经过相同的处理过程后获取到图像向量。
将图像转换为尺寸为(1, 3, 224, 224)向量后,输入到模型中即可获得embedding
下一步就是计算图像embedding和数据集中的十个标签文本embedding之间的点积相似度,得分最高的即是预测的类别。
模型给出的结果为cassette player(盒式磁带播放器),在整个数据集再重复运行一遍后,可以得到准确率为98.7%
除了Zero-shot分类,多模态搜索、目标检测、 生成式模型如OpenAI 的 Dall-E 和 Stable disusion,CLIP打开了计算机视觉的新大门。
参考资料: https://twitter.com/hardmaru/status/1619270829828874240 https://laion.ai/blog/giant-openclip/ https://www.pinecone.io/learn/zero-shot-image-classification-clip/【END】
免责申明:本站所有内容均来自网络,我们对文中观点保持中立,对所包含内容的准确性,可靠性或者完整性不提供任何明示或暗示的保证,请仅作参考。若有侵权,请联系删除。
文章来源:新智元
-
2023-01-22 13:53:54
知识大全 2020年小年是什么时候<
2020年小年是2020年1月17日,农历腊月廿三,星期五。小年并非专指一个节日,由于各地风俗,被称为小年的节日也不尽相同。小年期间主要的民
-
2022-11-25 09:22:59
百科 宇智波镜和止水的关系<
宇智波镜和宇智波止水是亲属关系,宇智波镜木叶隐村宇智波一族的上忍,第二代火影精锐护卫部队中的成员。他是少数不受狭隘的本族主义所束缚
-
2022-02-07 14:57:45
奇迹!绝杀!女足亚洲杯逆转夺冠!<
刚刚,中国女足上演逆转绝杀奇迹!她们在亚洲杯决赛中3:2力克韩国队,时隔16年再夺亚洲杯冠军!
-
2022-02-07 14:57:45
中国政府与阿根廷共和国政府签署共建“一带一路”谅解备忘录<
新华社北京2月6日电(记者安蓓)国家发展改革委6日称,国家发展改革委主任何立峰与阿根廷外交、国际贸易和宗教事
-
2022-02-07 14:57:43
中华人民共和国和阿根廷共和国关于深化中阿全面战略伙伴关系的联合声明(全文)<
新华社北京2月6日电中华人民共和国和阿根廷共和国关于深化中阿全面战略伙伴关系的联合声明一、应中方邀请,阿根廷
-
2023-02-05 21:13:43
ImageNet零样本准确率首次超过80%,地表最强开源CLIP模型更新
虽然ImageNet早已完成历史使命,但其在计算机视觉领域仍然是一个关键的数据集。2016年,在ImageNet上训练后的分类模型,sota准确率仍然还不到8
-
2023-02-05 19:05:09
世界速读:伊藤步
1、伊藤步(AyumiIto),1980年04月14日出生于东京,日本影视演员,隶属于Seventhavenue事务
-
2023-02-05 16:03:56
稳了!郭帆确认《流浪地球3》已有框架_全球视点
2月1日晚8时许,科幻电影《流浪地球2》的票房突破29亿,这也意味着,郭帆即将成为中国首位独立执导2部“票房30亿+”电影的“80后”导演,同...
-
2023-02-05 14:16:14
网红“我是狗头萝莉”疑轻生 警方:在废墟中找到,现在很安全_今日播报
网红“我是狗头萝莉”疑轻生警方:在废墟中找到,现在很安全
-
2023-02-05 12:04:03
当前视点!想念最熟悉的“米道”?这个社区老年食堂恢复堂食啦!
阿姨爷叔新年好!2月3日起,阿拉社区老年食堂恢复堂食啦!太好了,终于等到了这一天,阿拉最熟悉的“米道”,最熟悉的环境都回来了。近日,...
-
2023-02-05 10:49:10
热血新纪录
1、知名热血系列作品之一,人气很高。2、在热血大运动会中,国夫及热血高校的运动员们发挥的十分出色,使得冷峰学园的学生会长
-
2023-02-05 06:58:26
阴阳师百闻牌念袭卡牌有哪些技能
净玻璃属性列表:卡片名称:网玻璃卡片等级:三级(战斗卡片)卡片效果:让你所有的苍叶神在本回合获得免疫战斗伤害,然后按照随
-
2023-02-05 03:54:00
段正兴南海_段正兴
1、段正兴由于得到相国高量成的支持,在皇位之争中最终胜出。2、段正兴在位24年,禅位为僧,其子段智兴嗣位。3、他用过5个
-
2023-02-05 01:53:09
环球观焦点:清洁厨房以避免暴饮暴食:杂乱的厨房会让你想吃零食
康奈尔大学研究人员进行的一项研究表明,在杂乱的厨房中感觉失控可能对体重有害。据专家介绍,处于混乱和混乱环境中的人往往会
-
2023-02-04 23:26:17
微视频|冰雪之光
冬奥梦圆,燃情冰雪。2023年2月4日,是北京冬奥会开幕一周年的日子。北京冬奥会、冬残奥会的筹办举办推动了我国冰雪运动跨越式发展。冰雪如何
-
2023-02-04 21:51:31
已有他行信用卡能申办花旗银行信用卡吗
小编咨询了业内人士,得出的结论如下:花旗银行推出的信用卡额度很高,通过门槛也比较高,申请的条件一般比较严格,对客户的资质
-
2023-02-04 19:35:27
中国电建集团北京勘测设计研究院有限公司河南分公司|每日消息
1、中国电建集团北京勘测设计研究院有限公司河南分公司于2018年08月10日成立。2、法定代表人赵贺来,公司经营范围
-
2023-02-04 15:59:39
javlibrary的最新地址
1、回答百度搜索javlibrary第一条词条由于这边规定不允许发送链接,希望您谅解。2、
-
2023-02-04 14:38:18
焦点报道:10时42分,正式迎来!
10时42分,正式迎来!---唐朝人“立春日食萝菔、春饼、生菜,号春盘”
-
2023-02-04 12:58:46
801洞_当前快看
1、兰州公交801路(低速801路)是一条由兰州交发建集团红古分公司运营的公交线路,由小西湖车站往返北环路公交枢纽站。2
-
2023-02-04 09:47:54
世界报道:本田的情怀真的能赚钱,“烂仔”也要开始变有钱!
12月20日,东风本田第十一代思域HATCHBACK版正式上市,售价14 59万-17 99万元。当然这场发布会大家都把焦点放在第十一代思域TYPER,这台信
-
2023-02-04 08:25:48
它不只是奥迪最大SUV,还是奥迪在中大型SUV上的绝地反击:天天新视野
一出机场,就看到接机的上汽奥迪Q6,不过只能坐,不能开——还没签试驾协议呢。从机场到酒店,一路上印象最深刻的就是Q6的乘坐舒适度。有部...
-
2023-02-04 06:49:24
理念论是什么意思_什么是理念论
1、柏拉图哲学的核心概念是“理念”,他的哲学亦因此而被称为“理念论”。2、柏拉图把理智的对象称作理念。3、“理念”(ei
-
2023-02-04 03:59:02
【全球新视野】中铁·世纪中心
1、中铁·世纪中心项目位于天府逸城生态商务区核心,即郫县传统商圈--北大街北延线上;西临已建成并营业的集中商业--西
-
2023-02-04 01:20:36
当前热议!死鱼眼
1、死鱼眼是是ACGN次文化中的萌属性之一。2、本义是指死鱼的眼睛。3、指人的双目无神或者突出,且带有贬义的意思,有人会
-
2023-02-03 23:56:58
重点聚焦!乌萨科斯
1、乌萨科斯。2、非洲的一个城市。文章到此就分享结束,希望对大家有所帮助。
-
2023-02-03 20:41:37
报道:不负韶华的唯美句子图_不负韶华的唯美句子
1、答:不负春光不负韶华的唯美句子一人食不负时光不负己,其实吃的是一种态度,一种自由自在、安静享受自我、不负时光不负美
-
2023-02-03 19:31:25
网络运营托管
1、由专业网络公司提供的,实现网站推广营销,网站升级、信息更新、功能拓展。2、以及整体效果设计的网站“全方位托管”解决方
-
2023-02-03 17:21:01
全国首例非法投放外来物种民事公益诉讼案宣判 被告湖中放生2.5万斤鲇鱼 检方:系偏肉食外来物种:环球新资讯
全国首例非法投放外来物种民事公益诉讼案宣判被告湖中放生2 5万斤鲇鱼 检方:系偏肉食外来物种
-
2023-02-03 15:18:26
合富中国(603122)2月3日主力资金净卖出590.69万元
截至2023年2月3日收盘,合富中国(603122)报收于11 83元,下跌1 58%,换手率4 56%,成交量4 54万手,成交额5363 52万元。
-
2023-02-03 14:37:21
22城取消集中供地?自然资源部回应具体详细内容是什么 天天视点
22城取消集中供地?自然资源部回应今天的热度非常高,现在也是在热搜榜上了,那么具体的22城取消集中供地?自然资源部回应是
-
2023-02-03 12:27:40
兰德尔谈成全明星:这是属于团队的荣誉 糟糕的是布伦森没入选-视点
兰德尔谈成全明星:这是属于团队的荣誉糟糕的是布伦森没入选,全明星,热火队,美国篮球,纽约尼克斯队,杰伦·布伦森,兰德尔(印地安纳州)
-
2023-02-03 10:37:20
年味浓,人气旺!铜仁旅游“嗨起来”
“这个春节最开心的事就是与家人一同出去游玩!”春节假期,在铜仁市梵净山脚下,上山观赏雪景的陈女士兴奋地告诉记者,她回到家
-
2023-02-03 08:52:27
公积金可以还房贷吗如何用住房公积金还房贷
对于房产方面的知识很多小伙伴现在其实都不是很清楚,会产生各种各样的问题,包括我们在装修,买房,卖房,等等方面都会遇到很多
-
2023-02-03 06:52:47
环球精选!意杯-布雷默破门科斯蒂奇献助攻 尤文1-0拉齐奥半决赛将战国米
上半场,科斯蒂奇助攻布雷默破门为尤文取得领先;下半场,双方都未能把握住进球机会。全场比赛结束,尤文图斯1-0拉齐奥晋级四强,半决赛对阵国