论文题目:curriculum temperature for knowledge distillation
论文(aaai 2023):https://arxiv.org/abs/2211.16231
开源代码(欢迎star):
https://github.com/zhengli97/ctkd
一句话概括:
相对于静态温度超参蒸馏,本文提出了简单且高效的动态温度超参蒸馏新方法。
背景问题:
目前已有的蒸馏方法中,都会采用带有温度超参的kl divergence loss进行计算,从而在教师模型和学生模型之间进行蒸馏,公式如下:
而现有工作普遍的方式都是采用固定的温度超参,一般会设定成4。
方法 fitnet
(iclr 15') at
(iclr 17') sp
(iccv 19') snapshot
(cvpr 19') sskd
(eccv 20') frskd
(cvpr 21')
τ的设定 3 4 4 2 or 3 4 4
那么这就带来了两个问题:
1. 不同的教师学生模型在kd过程中最优超参不一定是4。如果要找到这个最佳超参,需要进行暴力搜索,会带来大量的计算,整个过程非常低效。
2. 一直保持静态固定的温度超参对学生模型来说不是最优的。基于课程学习的思想,人类在学习过程中都是由简单到困难的学习知识。那么在蒸馏的过程中,我们也会希望模型一开始蒸馏是让学生容易学习的,然后难度再增加。难度是一直动态变化的。
于是一个自然而然的想法就冒了出来:
在蒸馏任务里,能不能让网络自己学习一个适合的动态温度超参进行蒸馏,并且参考课程学习,形成一个蒸馏难度由易到难的情况?
于是我们就提出了ctkd来实现这个想法。
方法:
既然温度超参τ可以在蒸馏里决定两个分布之间的kl divergence,进而影响模型的学习,那我们就可以通过让网络自动学习一个合适的τ来达到以上的目的。
于是以上具体问题就直接可以转化成以下的核心思想:
在蒸馏过程里,学生网络被训练去最小化kl loss的情况下,τ作为一个可学习的参数,要被训练去最大化kl loss,从而发挥对抗(adversarial)的作用,增加训练的难度。随着训练的进行,对抗的作用要不断增加,达到课程学习的效果。
以上的实现可以直接利用一个非常简单的操作:利用梯度反向层grl (gradient reversal layer )来去反向可学习超参τ的梯度,就可以非常直接达到对抗的效果,同时随着训练的进行,不断增加反向梯度的权重λ,进而增加学习的难度。
ctkd的论文的结构图如下:
fig.1 ctkd网络结构图
ctkd方法可以简单分为左右两个部分:
对抗温度超参τ的学习部分。
这里只包含两个小模块,一个是梯度反向层grl,用于反向经过温度超参τ的梯度,另一个是可学习超参温度τ。
其中对于温度超参τ,有两种实现方式,第一种是全局方案 (global temperature),只会产生一个τ,代码实现非常简单,就一句话:
self.global_t = nn.parameter(torch.ones(1), requires_grad=true)
第二种是实例级别方案(instance-wise temperature),即对每个单独的样本都产生一个τ。代码实现也很简单,就是两层conv组成的mlp。
fig.2 两种不同的可学习温度超参实现。
2. 难度逐渐增加的课程学习部分。
随着训练的进行,不断增加grl的权重λ,达到增加学习难度的效果。
在论文的实现里,我们直接采用cos的方式,让反向权重λ从0增加到1。
以上就是ctkd的全部实现,非常的简单有效。
ctkd总共包含两个模块,grl和温度生成模块,都非常的轻量化,
ctkd方法可以作为即插即用的插件应用在现有的sota的蒸馏方法中,取得广泛的提升。
实验结果
三个数据集:cifar-100,imagenet和ms-coco。
cifar-100上,ctkd的实验结果:
作为一个即插即用的插件,应用在已有的sota方法上:
在imagenet上的实验:
在ms-coco的detection实验上:
温度超参的整体学习过程可视化:
由以上图可以看到,ctkd整体的动态学习τ的过程。
将ctkd应用在多种现有的蒸馏方案上,可以取得广泛的提升效果。
Rantizo研发出用于精准农业的无人机自主喷雾系统
边缘技术在创建工业4.0解决方案中的重要性
什么是汽车加速时间/最高车速
【新专利介绍】大口径表阀一体式水表
4月即将发布的手机:小米6、魅族Pro7、锤子T3,4月是你所想所要吗?
南开/南理工/旷视提出CTKD:动态温度超参蒸馏新方法
新型的智慧印章将为我们提供全新的解决方案
华为、小米笔记本电脑并不好卖:销量不及目标二分之一
无纺布表面缺陷在线检测设备的原理及技术参数
光接入网迎来新一轮演进,实现下一代光接入网构想
3D架构相对于等效2D实现的性能增益
3D传感GTOF系列首款产品GTOF0503正式发布
小米6什么时候上市?小米6最新消息:小米6确认19号发布,前面板曝光,表示会有这项黑科技
eSATA接口的发展及未来
如何分析大数据
校园水电管理中可以运用的电力系统
AI在工业互联网平台中的应用和建议有哪些
Qualcomm宣布首款5G调制解调器解决方案,助OEM针对早期5G网络开发终端
使用IC555的频移键控FSK调制器
汽车整车制造行业对工业机器人需求以及应用比例的分析