首页 >> 数码 >> “在所有事情上打败所有人”,苹果公司多模态新作横扫12类任务

“在所有事情上打败所有人”,苹果公司多模态新作横扫12类任务

2023-04-25 数码

”。

其主要哲学思想就是借鉴BERT,把掩码构建步骤加进感知执行上,认真感知的自监督深造,解决低成本标上重构数据难以获得的关键问题。

穿越时空BEiT篇文章于年底内6年底刊发,比独有工作何恺明的MAE还要晚一些,也是MAE篇文章之中的主要比较对象之一。

穿越时空BEiT,饮恨MAE

两项研究工作都是用“先掩码如此一来未及期”来认真未及勤务,最小的区别在于BEiT都会把感知token线性化、此前数学步骤未及期的是token,而MAE则是从外部未及期重构VGA。

△穿越时空BEiT的Core

在第二大感知执行上,MAE比当时的BEiT略胜一筹。并且因步骤愈来愈有用从外部,MAE运行起来也要较慢上不少(3.5倍)。

为了表明在MAE之中token化这一步并无必要,何恺明的团队在篇文章之中还有意认真了消融试验。

试验中,两种步骤粗略估计上并无显著区别,对于MAE来感叹未及期重构VGA就足够了。

不过BEiT的团队并没有放弃线性化token这个步骤,而是沿着这个长处继续探索慢慢地。

VL-BEiT,初探多举例来感叹

一年后来,的团队刊发了多举例来感叹数学步骤VL-BEiT,可以都是是今日这篇BEiT-3的雏形。

VL-BEiT仍未用上了就其联Attenion层、如此一来对相异执行连接相异FFN层的Core。

这一哲学思想毕竟来自同一的团队愈来愈晚此前一篇篇文章VLMo,对每个举例来感叹设置一个医学专家层的步骤叫作MoME(Mixture-of-Modality-Experts)。

不过,VL-BEiT在未及勤务上还比较复杂,都会对脚注重构数据和上图片重构数据分别认真掩码构建,至于多举例来感叹以外彩对重构数据也是分开处理的。

此前结果,VL-BEiT在多举例来感叹执行和稀感知执行上发挥都不错,但还不像今日的BEiT-3这样大杀五方。

不过别急,前沿阵地便就被见到。

BEiT v2,把token强化到形式化级

BEiT-3刊发非常少一周此前,微软公司与国国立中正私立大学的团队携手刊发了一篇BEiT v2。

两者名为方式将有细微差别,因为BEiT v2不太可能象征性是BEiT的换装版。

而BEiT-3的3篇文章之中虽未原话,但感叹的差不多不是“第三代”,而是另有所指(稍后揭秘)。

感叹留在BEiT v2,这篇篇文章新的着重于于稀感知,在穿越时空BEiT基础上提出异议了原先形式化级tokenizer。

除此以外,BEiT v2引入了径向量化(Vector-Quantized)和经验蒸馏(Knowledge Distillation)来培训tokenizer。

比如感叹是认真线性化token,新步骤能重建经验蒸馏之中教师数学步骤的形式化特质,大幅提高token之中运载的形式化信息,从而提高数学步骤耐用性。

接下来,教师数学步骤用谁就很关键了。

在对比了FAIR的DINO数学步骤和OpenAI的CLIP数学步骤后来,的团队见到还是CLIP愈来愈香。

最终结果上,BEiTv2耐用性反超MAE和这段时间出现的其他步骤,重回SOTA。

BEiT-3,鼻祖

理解了整个BEiT系列的蓬勃发展历程,此前如此一来来看一下BEiT-3。

篇文章都由一作董力,述感叹了数学步骤名为之中“3”的含义:

多举例来感叹分立的未及培训方式将+就其联Attention的收发器Transformer+扩大规模的改朝换代(Big Convergence)。

也就是感叹,BEiT-3能在多举例来感叹执行和感知执行之中都取得SOTA也就不奇怪了。

这样一篇篇文章,自然吸引了行业内很多眼中。

鲁汶私立大学一位讲师认为,这象征性微软公司在AI科研特别筋疲力尽谷歌/DeepMind、Meta和OpenAI,“新的坐上了牌桌”。

随着谈论热度换装,对篇文章愈来愈严格的审视眼中也多了起来。

谷歌一位研究工作员援引,篇文章结果看起来典雅又令人印象深刻,就是这无线电上图的坐标q有点不太明晰。

知乎上也有网友发问,如果用了CLIP作为教师数学步骤的话,那么来自CLIP低成本一组重构数据的贡献有多少,从外部改改CLIP就用又都会如何?

译者的团队

此前如此一来来参见一下译者的团队,BEiT-3就其研究工作篇文章的译者都来自微软公司。

三位都由一作分别是Wenhui Wang,Hangbo Bao(鲍航波)和Li Dong(董力)。

其之中,鲍航波和董力都便是穿越时空BEiT就作准备了研究工作,一直紧靠VL-BEiT和BEiT v2的蓬勃发展,鲍航波愈来愈是BEiT和VL-BEiT篇文章的一作。另一位Wenhui Wang此前也曾作准备过VL-BEiT的研究工作。

电信译者是微软公司亚洲地区研究工作院NLP小组的Partner研究工作合伙人Furu Wei(韦福如)。

BEiT-3篇文章:

参见绑定:[1]BEiT:[2]VL-BEiT:[3]VLMo:[4]BEiT v2:[5]MAE:[6]_akhaliq/status/1561883261160259584[7]

— 如此一来来 —

量子力学位 QbitAI · 头条号签下

非议我们,第一时间获知21世纪科技动态

感冒可以吃再林阿莫西林胶囊吗
儿童咽炎吃再林阿莫西林颗粒行吗
做手术吃什么营养品好
常见的儿童助消化药物
关节炎用什么药好
友情链接