首页 科技 正文

华为和北大联合建造的变压器在CV领域已经超越CNN。

杨净 只想说 凹非寺量子位 报导 | 微信公众号 QbitAI

提到Transformer,便会想起BERT、GPT-3。

但实际上,这一在各种各样自然语言理解解决每日任务中「混在」,强劲的无监管预训练模型,如今早已在「电子计算机视觉」的路面上越来越远了。

我觉得近期,北大,协同华为公司伊甸园试验室、悉尼大学、鹏城实验室明确提出了一个图象处理Transformer(IPT)。

它是一种解决最底层视觉每日任务(如降噪、超分、去雨)的全新升级预训练模型。

为了更好地利润最大化发掘实体模型的工作能力,科学研究工作人员应用 ImageNet 数据集模型拟合开展预训炼,結果历经预训炼的实体模型只必须做一些简易调整就可以适用多种多样中下游每日任务。

最后,IPT实体模型在好几个最底层视觉每日任务中的主要表现都做到了SOTA的水平。

图象处理Transformer

从IPT的构造上看,它具有「双头多尾」构造,针对不一样的视觉每日任务,只必须更改头和尾端的构造就可以,多种多样每日任务共享资源同一个Transformer 控制模块。

我们知道Transformer在自然语言理解解决每日任务中,键入是英语单词编码序列。那麼在图象处理每日任务中,I/O的全是图象。

除开解决超分辨率每日任务以外,别的视觉任务图片I/O的层面同样。Transformer控制模块在这里之中承担特征图解决的每日任务,头顶部和尾端的构造则承担图象层面搭配。

从总体上,IPT总体构架由四个一部分构成:

头顶部,选用双头构架,每一个头由三个卷积层构成来各自解决每一个每日任务。

这些关键承担从键入的毁坏图象中获取特征,例如2k分辨率、需降噪的图象。

Transformer 伺服电机,在特征键入Transformer控制模块前,将给出的特征切分成特征块,每一个特征块被看作一个「word」。

Transformer 视频解码器,与伺服电机选用了一样的构架。将视频解码器的輸出做为Transformer的键入。

为了更好地融入多个任务,科学研究工作人员还添加了一个可学习培训的每日任务编号。

总体来说,这两一部分用以修复键入数据信息中的缺少信息内容。

△去雨每日任务上的视觉实际效果

尾端,与头部结构同样,用以将特征投射到复建图象中。

接着,科学研究工作人员应用ImageNet 数据集模型拟合开展预训炼。最后,该实体模型只必须在特殊每日任务的数据集上开展「调整」,就可以在这里每日任务上做到非常好的实际效果。

在调整环节,仅有特殊每日任务所相匹配的首尾构造及其 Transformer 控制模块被激话训炼,与此每日任务不相干的首尾控制模块会被临时锁定。

在好几个最底层视觉每日任务中做到SOTA

IPT与HAN、RDN、RCDNet在超分辨率、降噪、去雨每日任务上的性能比照中,均获得了0.4到2.1dB不一的性能提高。

实际到超分每日任务上,在 Set5、Set14、B100 及其 Urban100 四个数据集上的結果,IPT 实体模型在全部设置下均获得了最好是的結果。

尤其是在 Urban100 数据集上,和当今最好是的超分辨率优化算法对比,IPT 实体模型展示出了大幅的优点。

而在降噪每日任务上,IPT也都主要表现出了相近的性能。

△降噪每日任务上的性能比照

从试验結果见到,Transformer在最底层视觉每日任务上的主要表现好像还不错,乃至超出了CNN的整体实力。

要想掌握大量毕业论文关键点的旁友,点一下正下方连接就可以细读。热烈欢迎与大家共享你的「阅读感想」哦~

非特殊说明,本文由原创资讯网原创或收集发布。

转载请注明本文地址:http://www.ycadmc.com/kj/1885.html