本篇文章3141字,读完约8分钟
机器的心
机心报道
机器的中心部
性能显着提高,但参数量没有显着增加。 最新的剥离身份网络继承了resnet简洁而共同的特征。
年,resnet出人头地,一举获得cvpr最佳论文奖,在imagenet比赛的三项任务和coco比赛的检测和分割任务中获得第一名。 四年过去了,这篇论文的引用量超过40000次,出现了很多变体。 最近,来自亚马逊、加利福尼亚大学戴维斯分校的张航、李沐、alexander smola等研究者进一步改善了resnet,性能提高了,但参数量没有明显增加,超过了以往的resnet、senet等模型,
在该研究的一部作品中,亚马逊应用科学家张航表示:“分类互联网一般是下游应用的核心,但最近很多分类问题的事业没有维持以往的resnet那样的模块化设计,目标检测等主流应用的 因此我们设计了新的resnet变体resnest,可以直接应用于现有的主流模型,显着提高了mask r-cnn、cascade r-cnn等模型的结果(~3% )。 "。
论文地址: hangzhang/files/resnest.pdf
项目地址: github /张亨1989/RES nest
虽然图像分类模型正在进化,但目标检测、语义分割等许多下游任务由于具有简单模块化的结构,因此作为骨干网络采用了resnet变体。
在这篇论文中,提出了将观察力分散在几个特征图群中的模块化split-attention模块。 当以resnet的样式堆叠这些剥离验证块时,研究者得到了一个新的resnet变体。 保存了整体的resnet结构,可以直接用于下游任务,但不会增加额外的计算量。
研究者致力于改变resnet的简单架构。 具体地说,每个块将特征图分为几组(基于信道维数)和更精细粒度的子组或splits。 每个组的特征都由splits表示的加权组合明确地表示(根据全球上下文新闻选择权重)。 研究者把得到的结果单元称为分离块,简单且模块化。
实验表明,resnest具有很多其他类似模型,优于噪声多的互联网。 resnest-50在imagenet中top 1的精度为81.13%,比迄今为止最高的resnet变体高1%以上。 这种提高对目标检测、实例分割、语义分割等下游任务来说有意义。 此外,将resnet-50主干网替换为resnest-50,ms-coco上fasterrcnn的map从39.25%到42.33%,ade20k上deeplabv3的miou从42.1%到45.1%
表1 :如左图所示,在速度和准确率的平衡上,resnest达到了sota水平。 右上图是resnest在imagenet上的top-1准确率,右下图是迁移学习结果: ms-coco上的目标检测map及ade20k上的语义分割miou。
分裂身份验证互联网。split-attention
分割保护块。split-attention
分割张力块是由特征组和分割张力运算组成的计算单元,下图显示了整个分割张力块的想法。如下图所示。
特征图组( feature-map group )
与resnext块相同,输入的特征图根据信道维数分为几组,特征图组的数量由基数超参数k给出,得到的特征图组称为基数组( cardinal group ) 研究者引入了规定基数组的split数的新的基数超参数r。
然后根据通道维数x = {x1,x2,... xg}将块输入x分为g = kr个组。 如果对各组应用不同的变换{f_1,f_2,... f_g},各组的中间表现为ui = fi(xi ),I∈{ 1,2,... g}。
基数组中的分裂身份。
根据[ 30,38 ],各基数组的组合表现是通过合计跨越多个split的要素而得到的。 第k个基数组的特征如下。
k∈1,2,... k。 嵌入了channel-wise统计信息的全球上下文消息可通过全局池化获得。 第c个成分的计算公式如下。
基数组表示v^k ∈ r^{h×w×c/k}的加权融合通过使用channel-wise软件观察力进行聚合。 这里,各特征图的信息是在几个split中采用加权的组合而得到的。 第c频道的计算公式如下。
resnest块
然后根据信道维数级联基数组的表示: v = concat{v^1,v^2,... v^k}。 与标准残差块一样,如果输入/输出特性图共享相同的形状,请使用快捷链接生成分割身份块的最终输出y,y = v +x。 对于大幻灯片块,将适当的转换t应用于快捷连接以对齐输出形状: y = v + t(x )。 t可以是阶梯卷积或带池塘化的组合卷积。
图1的右边是剥离单元块的示例,其中组变换f_i是1×1卷积,然后是3×3卷积,并且使用具有两个relu激活函数的所有连接层对观察力加权函数g进行参数化。
与现有观察力做法的关系
squeeze-and-attention (原论文称为excitation )最初是在se-net论文中引入的,中心思想是使用全球上下文预测channel-wise的观察力因素。 如果radix=1,split-attention块可以对每个基数组应用squeeze-and-attention操作,而与多个组无关。 se-net在块的顶部执行。 迄今为止,sk-net等模型引入了两个互联网分支之间的特征观察力,但这些操作没有扩展到训练效率和大规模神经网络进行优化。 新方法扩展了迄今为止的特征图观察力相关研究,但实际上在计算上还是很有效率的。
图1显示了resnest块与se-net和sk-net块的整体对应。
有关剥离增强的详细信息,请参见图2。
实验
最初的实验研究了resnest在imagenet数据集上的图像分类性能,结果如表3所示。 resnest50的top-1精度达到了81.13%。
表3:imagenet中的图像分类结果
表5和表6显示了目标检测和实例分割任务中resnest的表现。
表ms-coco验证集中的目标检测性能结果。
在目标检测任务中,resnest主干网与采用标准resnet的基线相比,faster-rcnn和cascadercnn下的模型map (平均精度平均)可以提高约3%。
表ms-coco验证集中的实例分割结果。
如表6所示,resnest骨干网络具有更好的性能,mask-rcnn中resnest50的性能优于基线,box/mask任务中的性能分别提高了2.85%/2.09%。 resnest101的提高为4.03%/3.14%,越来越多。 在cascade-mask-rcnn中,切换到resnest50或resnest101所带来的性能提高分别为3.13%/2.36%或3.51%/3.04%。
下表7显示了resnest在ade20k、citscapes语义分割任务中的表现。
表ade20k (左)、citscapes (右)语义分割任务中的性能。
与以前的结果一样,使用resnest-50主干网的deeplabv3模型比使用更深的resnet-101主干网的deeplabv3模型更好。 研究表明,具有resnest-101主干网络的deeplabv3型号达到了82.07%的pixacc和46.91%的miou,是ade20k提出的最好的单一型号。
机器心cvpr在线共享的第一期,我们邀请北京大学智能科学系陈汉亭(论文一作)做主题“加法神经网络:深度学习真的有必要乘法吗? 》,欢迎网友申请学习。
原标题:“张航、李沐等人提出了resnet最强的改良版:性能提高3%,参数不增加。”
阅读原文。
标题:要闻:张航、李沐等人提出ResNet最强改进版:性能提高3%,参数不增
地址:http://www.iiu7.com/wxxw/19229.html