
Knowledge Distillation 类别论文阅读
文章平均质量分 66
暖仔会飞
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
KD论文阅读之:Combining Weight Pruning and Knowledge Distillation For CNN Compression
方法提出了只在个别的网络层上采用权重剪枝 (weight pruning)的方法;避免了因为 全局剪枝而导致的 ResNet 不可训练的问题选择在 “除了维度变化的层” 之外的层进行权重剪枝(下图中黄色的层是剪枝的,红色的不剪枝)在没有使用权重剪枝的层中间,我们采用知识蒸馏的方法来进行模型压缩保证了在显著减少网络模型参数的情况下保证了精确度几乎没有损失优势Teacher 本身存在冗余,student 的结构又是随便选的,因此不能保证 student 压缩完之后不存在冗余由于 teache原创 2021-09-11 03:10:05 · 413 阅读 · 0 评论 -
KD论文阅读:A Gift from Knowledge Distillation: Fast Optimization, Network Minimization and Transfer
主要思想网络中的不同层之间存在 flow,这种流可以被定义为两个层特征向量之间的 innner product之前 Gramian 的研究主要是将这个内积应用在一个层之内,这篇文章应用在不同的层之间这篇文章主要将第一层和最后一层作为主要的研究对象,两个特征层的内积得到的矩阵定义为 FSP 矩阵优势fast optimization: 两个阶段训练,第一个阶段获得的 weights 可以用于第二阶段的初始化improve the performance of a small work: 提升原创 2021-09-09 12:42:56 · 1876 阅读 · 0 评论 -
knowledge distillation 论文阅读之:Triplet Loss for Knowledge Distillation
文章目录AbstractIntroductionRelated worksMetric learningknowledge distillationProposed methodAbstract本文提出了 metric learning 结合 KD 的方法,使用成对的或者三个一组的训练样本使得 student 模型可以更加接近 teacher 模型的表现。metric learning 的目标是减小相似样本之间的距离而增大不相似样本之间的距离;这个思路应用到 KD 中,可以减小 teacher 网络原创 2020-11-08 16:54:14 · 868 阅读 · 0 评论 -
knowledge distillation论文阅读之:Teacher-Class Network: A Neural Network Compression Mechanism
文章目录AbstractMethodologyExtracting dense representation from the teacherLearning dense representation using n studentsCombining learned chunks of knowledgeAbstract本文提出了一种 teacher-class 网络结构,由一个 teacher 网络和多个 student 网络构成本文的核心思路是将 teacher 网络的密集的特征表示分成多个部原创 2020-11-08 11:32:42 · 402 阅读 · 0 评论 -
机器学习之:LLE (locally linear embedding) 局部线性嵌入降维算法
文章目录LLE1. LLE 是什么2. LLE 的主要思想3. LLE 算法推导过程3.1 如何找到 k 个近邻3.2 找 xix_ixi 与这 k 个近邻的线性关系3.3 xix_ixi 与 k 个近邻点的线性关系求解过程3.3.1 奇异值分解3.3.1.1 特征值分解 (EVD)3.3.1.2 奇异值分解(SVD)LLE1. LLE 是什么Locally linear embedding(LLE)[1] 是一种非线性降维算法,它能够使降维后的数据较好地保持原有 流形结构 。LLE可以说是流形学原创 2020-11-07 18:08:59 · 17646 阅读 · 9 评论 -
knowledge distillation论文阅读之:Learning Student Networks via Feature Embedding
文章目录ABSTRACTINTRODUCTIONRELATED WORKNetwork TrimmingLayer DecompositionKnowledge DistillationSTUDENT NETWORK EMBEDDINGTeacher-student InteractionsABSTRACT知识蒸馏的本质是将 knowledge 从 teacher 网络 迁移到 student 网络,在经典的 KD 中,通常使用的方法是首先训练 teacher 网络,然后使用它的 logits 层输出原创 2020-11-05 11:17:13 · 1453 阅读 · 0 评论 -
Knowledge Distillation论文阅读之:综述文章:Knowledge Distillation: A Survey(未完待续····)
只挑重点的说,不是翻译论文文章目录Abstract1. Introduction2. Background3. Knowledge3.1 Response-base Knowledge3.2 Feature-Based Knowledge3.3 Relation-Based KnowledgeAbstract本问提供了 KD 的复杂研究包括了下述方面:KD 的种类训练方案teacher-student 结构蒸馏算法表现对比和实际应用在此基础上,简要回顾了知识蒸馏面临的挑战,并对未来的研原创 2020-11-04 18:33:17 · 5241 阅读 · 8 评论 -
knowledge distillation 论文阅读之:ResKD: Residual-Guided Knowledge Distillation
文章目录ABSTRACTINTRODUCTIONABSTRACT知识蒸馏是把知识从复杂的 teacher network 迁移到轻量级的 student network 的有效方法,旨在压缩神经网络。然而由于 teacher 和 student 之间参数量的巨大差异,他们的表现也有非常大的差别本文将通过一个新的视角来审视知识蒸馏,利用 teacher 和 student 之间的知识差距(knowledge gap 或者称作 residual:残差)作为引导,来训练一个更加轻量级的 student原创 2020-11-02 20:36:22 · 1139 阅读 · 0 评论 -
knowledge distillation论文阅读之:Learning from a Lightweight Teacher for Efficient Knowledge Distillation
文章目录论文核心思路:1. 经典的 KD2. Teacher-free distillation(TF-KD)3. Lightweight knowledge distillation(LW-KD)3.1 生成 synthetic MNIST 合成数据集3.2 生成 soft target 软标签3.3 改进 KD loss function:enhanced LKDL_{KD}LKD + LGANL_{GAN}LGAN3.3.1 enhanced LKDL_{KD}LKD3.3.2 LGAN→LAD原创 2020-11-01 17:14:38 · 879 阅读 · 0 评论 -
Knowledge Distillation论文阅读(2):Learning Efficient Object Detection Models with Knowledge Distillation
文章目录AbstractMethod3.1 Overall Structure3.2 Knowledge Distillation for Classification with Imbalanced Classes3.3 Knowledge Distillation for Regression with Teacher Bounds3.4 Hint Learning with Feature Adaption由于论文中有很多冗余的话,在这篇文章的阅读中,我只总结比较重要的部分,而不再对论文进行逐字逐原创 2020-09-24 21:02:04 · 1565 阅读 · 1 评论 -
Knowledge Distillation论文阅读之(1):Structured Knowledge Distillation for Semantic Segmentation
文章目录abstractIntroductionRelated Worksemantic segmentation(语义分割方面)Knowledge distillation(知识蒸馏方面)Adversarial learning(对抗学习方面)Approach3.1 Structured Knowledge Distillation(结构化的知识蒸馏)3.2 Optimization(优化)abstract这篇文章了使用 “知识蒸馏(KD)” 的方法利用大规模的语义分割网络来实现小规模的语义分割网络原创 2020-09-24 12:16:27 · 1718 阅读 · 2 评论