leyu乐鱼体育-官网入口 在线留言 联系我们
全国服务热线:

12548546144

您的位置:主页 > 新闻资讯 > 公司动态 >

公司动态

leyu乐鱼体育-官网入口—深度压缩之蒸馏模型_leyu乐鱼体育官网入口

来源:leyu乐鱼体育官网入口点击: 发布时间:2022-05-01 08:44
本文摘要:近年在盘算机视觉、语音识别等诸多领域,深度神经网络(DNN, Deep Neural Network)被证明是一种极具成效的问题解决方式。如卷积神经网络CNN(Convolutional neural network)在盘算机视觉诸多传统问题(分类、检测、支解)都逾越了传统方法。 在使用深度网络解决问题的时候人们经常倾向于设计更为庞大的网络收集更多的数据以期获得更好的performance。

leyu乐鱼体育官网入口

近年在盘算机视觉、语音识别等诸多领域,深度神经网络(DNN, Deep Neural Network)被证明是一种极具成效的问题解决方式。如卷积神经网络CNN(Convolutional neural network)在盘算机视觉诸多传统问题(分类、检测、支解)都逾越了传统方法。

在使用深度网络解决问题的时候人们经常倾向于设计更为庞大的网络收集更多的数据以期获得更好的performance。可是,随之而来的是模型的庞大度急剧提升,直观的体现是模参数越来越多size越来越大,需要的硬件资源(内存、GPU)越来越高。

倒霉于模型的部署和应用向移动端的推广。有研究讲明深度模型具有较大的信息参数冗余。因此我们可以通过一定的技术方法对庞大的模型举行去冗余压缩。

现有的压缩方法主要可以下四类:浅层网络:通过设计一个更浅(层数较少)结构更紧凑的网络来实现对庞大模型效果的迫近。可是浅层网络的表达能力很难与深层网络相匹敌【1】。因此,这种设计方法的局限性在于只能应用解决在较为简朴问题上。

如分类问题中种别数较少的task。直接压缩训练好的庞大模型:直接对训练获得的庞大模型接纳矩阵量化【2】、Kronecker内积、霍夫曼编码、模型剪枝【3】等优化方式,对模型中的参数举行量化。

以实现对模型的压缩,部署阶段接纳量化事后的模型可以同时到达参数压缩和提速的效果。多值网络:最为典型就是二值网络【4】、XNOR【5】网络等。

其主要原理就是接纳1bit对网络的输入、权重、响应举行编码。淘汰模型巨细的同时,原始网络的卷积操作可以被bit-wise运算取代,极大提升了模型的速度。可是,如果原始网络效果不够庞大(模型形貌能力),由于二值网络会较大水平降低模型的表达能力。因此现阶段有相关的论文开始研究n-bit编码【6】方式成为n值网络或者多值网络来克服二值网络表达能力不足的缺点。

蒸馏模型:蒸馏模型接纳的是迁移学习,通过接纳预先训练好的庞大模型(Teacher model)的输出作为监视信号去训练另外一个简朴的网络。这个简朴的网络称之为student model。下面我们将着重先容蒸馏模型压缩方法,文章来自Geoffrey Hinton《Distilling the Knowledge in a Neural Network》【7】摘要在ML领域中有一种最为简朴的提升模型效果的方式,在同一训练集上训练多个差别的模型,在预测阶段接纳综合均值作为预测值。

可是,运用这样的组合模型需要太多的盘算资源,特别是当单个模型都很是浮渣的时候。已经有相关的研究讲明,庞大模型或者组合模型的中“知识”通过合适的方式是可以迁移到一个相对简朴模型之中,进而利便模型推广部署。简介在大规模的机械学习领域,如物体检测、语音识别等为了获得较好的performance经常会训练很庞大的模型,因为不需要思量实时性、盘算量等因素。

可是,在部署阶段就需要思量模型的巨细、盘算庞大度、速度等诸多因素,因此我们需要更小更精炼的模型用于部署。这种训练和部署阶段差别的模型形态,可以类比于自然界中许多昆虫有多种形态以适应差别阶段的需求。

详细地,如蝴蝶在幼虫以蛹的形式存储能量和营养来更好的发育,可是到了后期就为了更好的繁殖和移动它就出现了另外一种完全纷歧样的形态。有一种直观的观点就是,越是庞大的网络具有越好的形貌能力,可以用来解决更为庞大的问题。

我们所说的模型学习获得“知识”就是模型参数,说到底我们想要学习的是一个输入向量到输出向量的映射,而不必太过于去体贴中间映射历程。模型蒸馏所谓模型蒸馏就是将训练好的庞大模型推广能力“知识”迁移到一个结构更为简朴的网络中。或者通过简朴的网络去学习庞大模型中“知识”。其基本流程如下图:基本可以分为两个阶段:原始模型训练:1. 凭据提出的目的问题,设计一个或多个庞大网络(N1,N2,…,Nt)。

2. 收集足够的训练数据,根据通例CNN模型训练流程,并行的训练1中的多个网络获得。获得(M1,M2,…,Mt)精简模型训练:1. 凭据(N1,N2,…,Nt)设计一个简朴网络N0。2. 收集简朴模型训练数据,此处的训练数据可以是训练原始网络的有标签数据,也可以是分外的无标签数据。3. 将2中收集到的样本输入原始模型(M1,M2,…,Mt),修改原始模型softmax层中温度参数T为一个较大值如T=20。

每一个样本在每个原始模型可以获得其最终的分类概率向量,选取其中概率至最大即为该模型对于当前样本的判断效果。对于t个原始模型就可以t概率向量。

然后对t概率向量求取均值作为当前样本最后的概率输出向量,记为soft_target,生存。4. 标签融合2中收集到的数据界说为hard_target,有标签数据的hard_target取值为其标签值1,无标签数据hard_taret取值为0。Target = a*hard_target + b*soft_target(a+b=1)。

Target最终作为训练数据的标签去训练精简模型。参数a,b是用于控制标签融合权重的,推荐履历值为(a=0.1 b=0.9)5. 设置精简模型softmax层温度参数与原始庞大模型发生Soft-target时所接纳的温度,根据通例模型训练精简网络模型。6. 部署时将精简模型中的softmax温度参数重置为1,即接纳最原始的softmax效果On MnistON speech Recognition结论On MNIST效果很是更好。

对于迁移训练集数据中包罗无标签数据或者某些种别数据缺失,依然能够有很好的体现。说明该模型具有很是的推广能力。文章转自:https://zhuanlan.zhihu.com/p/24337627。


本文关键词:深度,压缩,之,蒸馏,模型,leyu,乐鱼,体育,官网,leyu乐鱼体育官网入口

本文来源:leyu乐鱼体育官网入口-www.bjjj120.com