认识深度学习中的知识蒸馏

资源ID：266122923 资源大小：2.86MB 全文页数：11页
资源格式： DOCX 下载积分：15金贝

快捷下载

账号登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要15金贝

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

1、金锄头文库是“C2C”交易模式，即卖家上传的文档直接由买家下载，本站只是中间服务平台，本站所有文档下载所得的收益全部归上传人（卖家）所有，作为网络服务商，若您的权利被侵害请及时联系右侧客服；
2、如你看到网页展示的文档有jinchutou.com水印，是因预览和防盗链等技术需要对部份页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有jinchutou.com水印标识，下载后原文更清晰；
3、所有的PPT和DOC文档都被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；下载前须认真查看，确认无误后再购买；
4、文档大部份都是可以预览的，金锄头文库作为内容存储提供商，无法对各卖家所售文档的真实性、完整性、准确性以及专业性等问题提供审核和保证，请慎重购买；
5、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据；
6、如果您还有什么不清楚的或需要我们协助，可以点击右侧栏的客服。

下载须知 | 常见问题汇总

1、会员注册 2、如何支付与充值 3、个人资料信息修改 4、我的收藏和“收藏文件夹” 5、我的读者群和加入读者群 6、我的书签 7、金锄头文库批量上传工具（绿色版）V1.0 8、下载文档（资源）相关问题整理 9、解决下载文档时，自动弹出迅雷的问题 10、下载时为什么支付不成功？

认识深度学习中的知识蒸馏

一分钟带你认识深度学习中的知识蒸馏【摘要】知识蒸馏（knowledge distillation）是模型压缩的一种常用的方法，不同于模型压缩中的剪枝和量化，知识蒸馏是通过构建一个轻量化的小模型，利用性能更好的大模型的监督信息，来训练这个小模型，以期达到更好的性能和精度。本文将深入浅出的介绍知识蒸馏的概念和原理，最后通过一个实际的上手案例，来指导用户使用知识蒸馏。一、知识蒸馏入门1.1 概念介绍知识蒸馏（knowledge distillation）是模型压缩的一种常用的方法，不同于模型压缩中的剪枝和量化，知识蒸馏是通过构建一个轻量化的小模型，利用性能更好的大模型的监督信息，来训练这个小模型，以期达到更好的性能和精度。最早是由Hinton在2015年首次提出并应用在分类任务上面，这个大模型我们称之为teacher（教师模型），小模型我们称之为Student（学生模型）。来自Teacher模型输出的监督信息称之为knowledge(知识)，而student学习迁移来自teacher的监督信息的过程称之为Distillation(蒸馏)。1.2 知识蒸馏的种类图1 知识蒸馏的种类1、离线蒸馏离线蒸馏方式即为传统的知识蒸馏，如上图（a）。用户需要在已知数据集上面提前训练好一个teacher模型，然后在对student模型进行训练的时候，利用所获取的teacher模型进行监督训练来达到蒸馏的目的，而且这个teacher的训练精度要比student模型精度要高，差值越大，蒸馏效果也就越明显。一般来讲，teacher的模型参数在蒸馏训练的过程中保持不变，达到训练student模型的目的。蒸馏的损失函数distillation loss计算teacher和student之前输出预测值的差别，和student的loss加在一起作为整个训练loss，来进行梯度更新，最终得到一个更高性能和精度的student模型。2、半监督蒸馏半监督方式的蒸馏利用了teacher模型的预测信息作为标签，来对student网络进行监督学习，如上图（b）。那么不同于传统离线蒸馏的方式，在对student模型训练之前，先输入部分的未标记的数据，利用teacher网络输出标签作为监督信息再输入到student网络中，来完成蒸馏过程，这样就可以使用更少标注量的数据集，达到提升模型精度的目的。3、自监督蒸馏自监督蒸馏相比于传统的离线蒸馏的方式是不需要提前训练一个teacher网络模型，而是student网络本身的训练完成一个蒸馏过程，如上图（c）。具体实现方式有多种，例如先开始训练student模型，在整个训练过程的最后几个epoch的时候，利用前面训练的student作为监督模型，在剩下的epoch中，对模型进行蒸馏。这样做的好处是不需要提前训练好teacher模型，就可以变训练边蒸馏，节省整个蒸馏过程的训练时间。1.3 知识蒸馏的功能1、提升模型精度用户如果对目前的网络模型A的精度不是很满意，那么可以先训练一个更高精度的teacher模型B（通常参数量更多，时延更大），然后用这个训练好的teacher模型B对student模型A进行知识蒸馏，得到一个更高精度的模型。2、降低模型时延，压缩网络参数用户如果对目前的网络模型A的时延不满意，可以先找到一个时延更低，参数量更小的模型B，通常来讲，这种模型精度也会比较低，然后通过训练一个更高精度的teacher模型C来对这个参数量小的模型B进行知识蒸馏，使得该模型B的精度接近最原始的模型A，从而达到降低时延的目的。3、图片标签之间的域迁移用户使用狗和猫的数据集训练了一个teacher模型A，使用香蕉和苹果训练了一个teacher模型B，那么就可以用这两个模型同时蒸馏出一个可以识别狗，猫，香蕉以及苹果的模型，将两个不同与的数据集进行集成和迁移。图2 图像域迁移训练4、降低标注量该功能可以通过半监督的蒸馏方式来实现，用户利用训练好的teacher网络模型来对未标注的数据集进行蒸馏，达到降低标注量的目的。1.4 知识蒸馏的原理图3 知识蒸馏原理介绍一般使用蒸馏的时候，往往会找一个参数量更小的student网络，那么相比于teacher来说，这个轻量级的网络不能很好的学习到数据集之前隐藏的潜在关系，如上图所示，相比于one hot的输出，teacher网络是将输出的logits进行了softmax，更加平滑的处理了标签，即将数字1输出成了0.6（对1的预测）和0.4（对0的预测）然后输入到student网络中，相比于1来说，这种softmax含有更多的信息。好模型的目标不是拟合训练数据，而是学习如何泛化到新的数据。所以蒸馏的目标是让student学习到teacher的泛化能力，理论上得到的结果会比单纯拟合训练数据的student要好。另外，对于分类任务，如果soft targets的熵比hard targets高，那显然student会学习到更多的信息。最终student模型学习的是teacher模型的泛化能力，而不是“过拟合训练数据”二、动手实践知识蒸馏ModelArts模型市场中的efficientDet目标检测算法目前已经支持知识蒸馏，用户可以通过下面的一个案例，来入门和熟悉知识蒸馏在检测网络中的使用流程。2.1 准备数据集数据集使用kaggle公开的Images of Canine Coccidiosis Parasite的识别任务，下载地址：2.2 订阅市场算法efficientDet 进到模型市场算法界面，找到efficientDet算法，点击“订阅”按钮图4 市场订阅efficientDet算法然后到算法管理界面，找到已经订阅的efficientDet，点击同步，就可以进行算法训练图5 算法管理同步订阅算法2.3 训练student网络模型起一个efficientDet的训练作业，model_name=efficientdet-d0，数据集选用2.1发布的已经切分好的数据集，选择好输出路径，点击创建，具体创建参数如下：图6 创建student网络的训练作业得到训练的模型精度信息在评估结果界面，如下：图7 student模型训练结果可以看到student的模型精度在0.8473。2.4 训练teacher网络模型下一步就是训练一个teacher模型，按照efficientDet文档的描述，这里选择efficientdet-d3，同时需要添加一个参数，表明该训练作业生成的模型是用来作为知识蒸馏的teacher模型，新起一个训练作业，具体参数如下：图8 teacher模型训练作业参数得到的模型精度在评估结果一栏，具体如下：图9 teacher模型训练结果可以看到teacher的模型精度在0.875。2.5 使用知识蒸馏提升student模型精度有了teacher网络，下一步就是进行知识蒸馏了，按照官方文档，需要填写teacher model url，具体填写的内容就是2.4训练输出路径下面的model目录，注意需要选到model目录的那一层级，同时需要添加参数use_offline_kd=True，具体模型参数如下所示：图10 采用知识蒸馏的student模型训练作业参数得到模型精度在评估结果一栏，具体如下：图11 使用知识蒸馏之后的student模型训练结果可以看到经过知识蒸馏之后的student的模型精度提升到了0.863，精度相比于之前的student网络提升了1.6%百分点。2.6 在线推理部署训练之后的模型就可以进行模型部署了，具体点击“创建模型”图12 创建模型界面会自动读取模型训练的保存路径，点击创建：图13 导入模型模型部署成功之后，点击创建在线服务：图14 部署在线服务部署成功就可以进行在线预测了：图15 模型推理结果展示三、知识蒸馏目前的应用领域目前知识蒸馏的算法已经广泛应用到图像语义识别，目标检测等场景中，并且针对不同的研究场景，蒸馏方法都做了部分的定制化修改，同时，在行人检测，人脸识别，姿态检测，图像域迁移，视频检测等方面，知识蒸馏也是作为一种提升模型性能和精度的重要方法，随着深度学习的发展，这种技术也会更加的成熟和稳定。参考文献：1Data Distillation: Towards Omni-Supervised Learning2On the Efficacy of Knowledge Distillation3Knowledge Distillation and Student-Teacher Learning for Visual Intelligence: A Review and New Outlooks4Towards Understanding Knowledge Distillation5Model Compression via Distillation and Quantization -全文完-

注意事项

本文（认识深度学习中的知识蒸馏）为本站会员（Baige****0346）主动上传，金锄头文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即阅读金锄头文库的“版权提示”【网址:https://www.jinchutou.com/h-59.html】，按提示上传提交保证函及证明材料，经审查核实后我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。