解读者:Liyang
论文标题:Positive-Unlabeled Compression on the Cloud
论文作者:Yixing Xu, Yunhe Wang, Hanting Chen, Kai Han,Chunjing Xu, Dacheng Tao, Chang Xu(华为诺亚方舟实验室,北京大学,悉尼大学)
点击“论文地址”即可下载
一、前言
本文将对NeurIPS 2019会议论文《Positive-Unlabeled Compression on the Cloud》进行解读,这篇论文在神经网络压缩(network compression)方面有所创新。现有的网络压缩和加速方法通常需要完整的原始训练集(例如ImageNet)来对模型微调,但上传这些数据到云端往往是非常耗时的。为此,作者提出了一种基于正类与未标记样本(PU)的云端网络压缩方法。只需要原始训练集的一小部分作为正类(positive)样本,通过带有基于attention的多尺度特征提取器的PU分类器,就可从云端大量未标记(unlabeled)的数据中获得更有用的训练样本。再进一步使用改进的鲁棒知识蒸馏(Robust Knowledge Distillation)方法解决新增训练集中的类别不平衡问题。实验表明,可以使用ImageNet中8%的数据来获得性能与基准ResNet-34相当的高效模型。
二、研究现状
为了与现实应用中的各种运行环境(如手机和自动驾驶)兼容,需要对受过训练的神经网络进行相应的压缩和加速。考虑到云提供的可伸缩计算资源(例如GPU和RAM),因此有望为最终用户提供网络压缩服务。
现有的方法,例如量化方法【1】,修剪方法【2】和知识蒸馏方法【3】,并不能轻易部署到云端以压缩客户提交的复杂网络。主要原因是:为了避免精度损失,大多数方法都要求用户提供原始训练数据,再对压缩网络进行微调。但是,与CNN模型规模相比,整个训练集将大得多。例如,RsiesNet-50 [8]参数的存储空间约为95MB,而其训练数据集(即ImageNet [14])包含超过一百万张图片且文件大小超过120GB。因此,由于传输速度的限制(例如10MB/s),会降低用户体验。
三、使用PU分类器挑选数据
四、实验
• CIFAR-10
teacher网络是基于attention多尺度特征提取器的ResNet-34网络,并使用SGD对网络进行了200个epochs的预训练。student网络是ResNet-18。如下表所示为实验结果,是从CIFAR-10中每个类中选择的样本数,是用于训练student网络的样本数。Baseline-1方法是手动选择正类数据,Baseline-2方法是随机选择50000个数据(不可避免地包含许多负类数据),PU-s1是选择通过PU方法产生的所有正类数据, PU-s2是随机选择50000个正类数据。实验结果表明,有CIFAR-10中1000个样本,并从ImageNet中选择约110k训练样本,与Baseline-1方法相比,精度会更高。
如下图1所示,在ResNet-34、基于attention的多尺度特征提取器的传统KD和RKD方法进行对比,结果表明, RKD方法的性能最佳,对真实类先验估计更加鲁棒。
图1:具有不同的CIFAR-10数据集的分类精度
图2:从ImageNet的每个类别中选择的样本数量与结果精度之间的关系
• ImageNet
ImageNet 作为原始数据集,Flicker1M数据集用作未标记的数据集,KD-500k作为基线。从ImageNet的每个类别中随机选择已有标记的100个样本,再使用PU方法从Flicker1M数据集中选择正类数据。如下表所示, PU-s1方法的top-5精度甚至比基线更好。而当使用相同训练样本数时,与基线相比,在仅使用了8%的原始数据集数据情况下,top-5精度下降仅为0.5%。如上图2所示,从ImageNet中每个类中选择的样本数与所提出方法的精度之间的关系。
• MNIST
使用标准的LeNet-5作为teacher网络,而student网络则是前者的“half-size”。与包括FitNet【8】,FSKD【9】和data-free KD 【10】等方法进行比较。如下表所示,显然,当每个类中标记的样本数量极少(<5)时,所提方法的性能明显超过FitNet和FSKD。
五、总结
现有的大多数网络压缩方法通常需要原始训练集,但上传这些数据到云端成本过高。因此,作者提出了一个two-step框架的神经网络压缩方法。首先,使用基于云端给定的标记数据和大量未标记数据训练具有基于attention的多尺度特征提取器的PU分类器。再通过组合给定数据和PU分类器选择的正类数据来生成新的数据集。其次,提出了鲁棒知识蒸馏(RKD)方法来解决扩展数据集中带有噪声的类别不平衡问题。在MNIST、CIFAR-10和ImageNet数据集上的实验表明,该方法效果较好。
参考文献:
【1】Y. Gong, L. Liu, M. Yang, and L. Bourdev. Compressing deep convolutional networks using vector quantization. arXiv preprint arXiv:1412.6115, 2014
【2】E. L. Denton,W. Zaremba, J. Bruna, Y. LeCun, and R. Fergus. Exploiting linear structure within convolutional networks for efficient evaluation. In Advances in neural information processing systems, pages 1269–1277, 2014
【3】G. Hinton, O. Vinyals, and J. Dean. Distilling the knowledge in a neural network. arXiv preprint arXiv: 1503. 02531, 2015
【4】G. Hinton, O. Vinyals, and J. Dean. Distilling the knowledge in a neural network. arXiv preprint arXiv: 1503. 02531, 2015
【5】R. Kiryo, G. Niu, M. C. du Plessis, and M. Sugiyama. Positive-unlabeled learning with nonnegative risk estimator. In Advances in neural information processing systems, pages 1675–1685, 2017
【6】Y. Xu, C. Xu, C. Xu, and D. Tao. Multi-positive and unlabeled learning. In IJCAI, pages 3182–3188, 2017
【7】J. Hu, L. Shen, and G. Sun. Squeeze-and-excitation networks. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 7132–7141, 2018
【8】A. Romero, N. Ballas, S. E. Kahou, A. Chassang, C. Gatta, and Y. Bengio. Fitnets: Hints for thin deep nets. arXiv preprint arXiv:1412.6550, 2014
【9】T. Li, J. Li, Z. Liu, and C. Zhang. Knowledge distillation from few samples. arXiv preprint arXiv:1812.01839, 2018
【10】R. G. Lopes, S. Fenu, and T. Starner. Data-free knowledge distillation for deep neural networks. arXiv preprint arXiv:1710.07535, 2017
往期回顾:
解读!北邮、西电、DeepMind等8篇NeurIPS 2019论文合集
NeurIPS 2019 | 中科院、旷视提出DetNAS框架:一种可用于目标检测的Backbone搜索
转载:https://blog.csdn.net/AMiner2006/article/details/103401377