动态滤波器卷积|DynamicConv

paper:https://arxiv.org/abs/1912.03458

该文是MSRA的研究员提出的一种动态卷积。它是在卷积的基础上进行了魔改,不同于传统卷积采用单一卷积核方式,作者提出了一种动态卷积机制,它有助于提升模型的特征表达能力。

Abstract

​ 相比高性能深度网络,轻量型网络因其低计算负载约束(深度与通道方面的约束)导致其存在性能降低,即比较有效的特征表达能力。为解决该问题,作者提出动态卷积:它可以提升模型表达能力而无需提升网络深度与宽度。

​ 不同于常规卷积中的单一核,动态卷积根据输入动态的集成多个并行的卷积核为一个动态核,该动态核具有数据依赖性。多核集成不仅计算高效,而且具有更强的特征表达能力(因为这些核通过注意力机制以非线性形式进行融合)。

​ 通过简单地额替换动态卷积,MobileNetV3-small取得了2.3%的性能提升且仅增加了4%的FLOPS,在COCO关键点检测任务中取得了2.9MAP性能提升。

Method

​ 动态卷积的目标在于:在网络性能与计算负载中寻求均衡。常规提升网络性能的方法(更宽、更深)往往会导致更高的计算消耗,因此对于高效网络并不友好。

​ 作者提出的动态卷积不会提升网络深度与宽度,相反通过多卷积核融合提升模型表达能力。需要注意的是:所得卷积核与输入相关,即不同数据具有不同的卷积,这也就是动态卷积的由来。

Dynamic Perceptron

​ 首先,作者定义传统的感知器为动态滤波器卷积|DynamicConv,其中动态滤波器卷积|DynamicConv分别表示权值、偏置以及激活函数;然后,作者定义动态感知器如下:

动态滤波器卷积|DynamicConv

其中动态滤波器卷积|DynamicConv表示注意力权值。注意力权值并非固定的,而是随输入变化而变化。因而,相比静态卷积,动态卷积具有更强的特征表达能力

动态滤波器卷积|DynamicConv

相比静态感知器,动态感知器具有更大的模型。它包含两个额外的计算:(a)注意力权值计算;(2)动态权值融合。尽管如此,这两点额外计算相比感知器的计算量可以忽略:

动态滤波器卷积|DynamicConv> O(sum pi_k tilde{W}_k) + O(sum pi_k tilde{b}_k) + O(pi(x)) \”>

Dynamic Convolution

​ 类似于动态感知器,动态卷积同样具有K个核。按照CNN中的经典设计,作者在动态卷积后接BatchNorm与ReLU。

动态滤波器卷积|DynamicConv注意力:作者采用轻量型的squeeze and excitation提取注意力权值动态滤波器卷积|DynamicConv,见上图。与SENet的不同之处在于:SENet为通道赋予注意力机制,而动态卷积为卷积核赋予注意力机制。核集成:由于核比较小,故而核集成过程是计算高效的。下表给出了动态卷积与静态卷积的计算量对比。从中可以看到:计算量提升非常有限。动态滤波器卷积|DynamicConv动态CNN:动态卷积可以轻易的嵌入替换现有网络架构的卷积,比如1×1卷积, 3×3卷积,组卷积以及深度卷积。与此同时,它与其他技术(如SE、ReLU6、Mish等)存在互补关系。

Training Strategy

​ 训练深层动态卷积神经网络极具挑战,因其需要同时优化卷积核与注意力部分。下右图蓝线给出了DY-MobileNetV2的训练与验证误差,可以看到收敛较慢且性能仅为64.8%还不如其静态卷积版本的65.4%。

动态滤波器卷积|DynamicConv

​ 作者认为注意力的稀疏使得仅有部分核得到训练,这使得训练低效。这种低效会随着网络的加深而变得更为严重。为验证该问题,作者在DY-MobileNetV2变种模型(它仅在每个模块的最后1×1卷积替换为动态卷积)上进行了验证,见上左图。可以看到训练收敛更快,精度更高(65.9%)。

​ 为解决上述问题,作者提出采用平滑注意力方式促使更多卷积核同时优化。该平滑过程描述如下:

动态滤波器卷积|DynamicConv

从上图可以看到,改进的训练机制可以收敛更快,精度更高。

Experiments

​ 作者在ImageNet数据集上对所提方法的有效性进行了验证。对标模型包含MobileNetV2/V3,ResNet等。动态卷积中的核数目K设置为4,注意力权值归一化因子动态滤波器卷积|DynamicConv。整体实验对比结果如下所示,可以看到:动态卷积可以一致性得到性能提升,而计算量增加仅为4%。DY-ResNet可以得到2.3%的性能提升,DY-MobileNetV2可以得到2.4%的性能提升,DY-MobileNetV3-small可以得到2.3%的性能提升。

动态滤波器卷积|DynamicConv

作者对动态卷积的期望属性为:(1)每层的动态卷积具有灵活性;(2)注意力机制 与输入 有关。对于第一个属性(如果不具有灵活性,那么不同的注意力会导致相似的性能,而实际上差异非常大),作者采用了不同的注意力进行验证,性能对比见下表。

动态滤波器卷积|DynamicConv

下表给出了注意力是如何跨层影响模型性能的,注:个人感觉这个表不具有说服力,baseline的准确率只有36%,这个是不可能的嘛。

动态滤波器卷积|DynamicConv

更多的实验结果与数据分析建议查看原文,这里不再进行翻译赘述。

Conclusion

作者引入一种动态卷积,它可以自适应根据输入融合多个卷积核。相比于静态卷积,动态卷积可以明显的提升模型表达能力与性能,这有助于高效CNN架构设计。该动态卷积具有即插即用特性,可以轻易嵌入到现有网络架构中。

欢迎关注AIWalker公众号,在这里您将得到独家深度学习经验分享与个人思考。想支持Happy继续写下去就点个赞关注一下吧!

动态滤波器卷积|DynamicConv

本文由 哥弟网 原创,转载请注明出处:http://www.gdnhd.com/10173.html

(0)
上一篇 2022年7月21日 上午5:13
下一篇 2022年7月21日 上午5:14

相关推荐

  • 「疫情防控·动态」兰州市边筛查边管控确保防控措施落实到“最后一公里”

    来源:【新甘肃】 新甘肃客户端7月15日讯(新甘肃·每日甘肃网记者 王梓懿 王宇晨)本轮疫情发生后,兰州市坚持边筛查边管控,进一步提高应急处置质效,确保科学精准高效的防控措施落实到最后一公里。 7月15日上午,兰州市召开的新冠肺炎疫情防控工作新闻发布会(第八场)上传来消息,7月14日7时开始的第五轮主城区和重点县域大规模核酸检测,共采样237.90万人次,初…

    2022年7月22日
    1200
  • vivo造车,商标自动驾驶都齐了?

    vivo也要下场造车了? 日前,vivo公布了一项自动驾驶专利,名为“自动驾驶方法、车载装置、移动装置和车载电子设备”。 消息一出,“vivo造车”的传闻甚嚣尘上。 这次vivo的新专利,属于通信技术领域。 专利摘要显示:在车载电子设备和移动终端之间处于连接状态的情况下,接收移动终端发送的第一信息,控制车载电子设备进行自动驾驶。 简单点说,通过它,你可以用手…

    2022年4月26日
    19700
  • 行业数据6月销售环比增66%,新开工等投资端继续疲弱

    考虑到2021年下半年前值较低,预计后续商品房销售规模同比降幅降持续收窄。 7月15日上午,国家统计局公布了2022年1-6月宏观经济和房地产行业数据。上半年GDP同比增长2.5%、CPI同比上涨1.7%。房地产业销售和投资环比大幅增长,6月商品房销售面积和开发投资额分别环比上涨66%和25%。但由于当前行业投资仍乏力,6月房屋新开工面积、土地购置面积等指标…

    2022年7月18日
    1900
  • 培育钻石再迎新股!惠丰钻石即将登陆北交所,行业增长红利持续,多家龙头中报业绩已翻倍

    财联社(上海,编辑 梓隆)讯,7月18日(下周一),惠丰钻石将登陆北交所上市,钻石概念股即将再度扩容。据悉,惠丰钻石此次发行价28.18元/股,共募集资金3.09亿元,发行市盈率26.01倍,高于行业市盈率14.56倍。河南润柘投资集团有限公司、河南高科技创业投资股份有限公司、开源证券等10家战略投资者参与战略配售。 钻石概念再迎新股,中报业绩成为亮点 惠丰…

    2022年7月18日
    2200
  • 这次不吵了,我们和国内头部飞盘厂商深聊行业门道|鹰眼时间

    一个低矮楼房组成的村庄里,突然出现一座大厦,人们会被吸引、会评论赞叹,但也必然有人会批评说,这座大楼不该出现在这里,即使这座大楼本身就是由这里原来的小房屋加盖而成。 飞盘就是以这样的姿态,出现在中国体育这个村庄里的,它早已存在,但最近才被推上风口浪尖。关于飞盘的争议,大家已经从潮流、社交、场地、性别等很多方式解读过,懒熊体育也已经做过不少关于飞盘的内容。 但…

    2022年7月18日
    1600

发表评论

您的电子邮箱地址不会被公开。

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信