干货!仅需少量数据的高效彩票假说

点击蓝字

28defd23e6aa9c96b6a73434b80e6dc2.png

关注我们

AI TIME欢迎每一位AI爱好者的加入!

摘要

彩票假说揭示了密集网络存在中奖彩票(稀疏但关键的子网络),可以脱离随机初始化进行训练,以匹配后者的精度。然而,寻找中奖票需要在训练—剪枝—再训练的过程中进行繁重的计算,特别是在大规模数据集(如ImageNet)上,以至于限制了其实际效益。本研究探讨了一种更有效地寻找彩票的新视角,即只用一个特别选择的数据子集,称为Pruning Aware Critical set(PrAC set),而不是使用完整的训练集。PrAC set的概念是受最近的文献调研启发的,即深度网络的样本要么在训练中难以记忆,要么在剪枝时容易遗忘。因此,一个PrAC set被假设为捕捉那些对密集模型来说最具挑战性和信息量的例子。我们观察到,通过在非常紧凑的PrAC set上训练和修剪密集网络,也可以找到高质量的中奖票,这大大节省了找票过程中的训练迭代。最后通过实验验证了我们在不同数据集和网络结构上的提议。具体来说,在CIFAR-10、CIFAR-100和Tiny ImageNet上,我们将有效的PrAC set定位在其训练集大小的35.32%∼78.19%。在此基础上,可以确定的是相应的密集网络获得同样有竞争力的胜券,但分别节省了82.85%∼92.77%,63.54%∼74.92%,以及76.14%∼86.56%的训练迭代。最重要的是,我们所提出的PrAC set可以在不同的网络结构中重复使用,这可以分担寻找PrAC set的额外成本,产生一个有效寻找彩票的实用机制。

本期AI TIME PhD直播间,我们有幸邀请到了本文的作者陈天龙博士为大家分享这项研究工作!

bdef7fa45d6a9b7415e71e9fa5ec23ac.png

陈天龙

德州大学奥斯汀分校,四年级博士生。主要研究方向是自动化,高效,稳健可靠的机器学习算法。

01

背景

彩票假说:一个被随机初始化的大模型,它至少包含一个子网络,该子网络被重新初始化,并单独训练,跟大模型的表现相匹配,最多不会超过大模型training的training iteration。

《The Lottery Ticket Hypothesis》这篇文章表达了这样一个观点:只要对sparse network的initialization给一个condition,跟dense model training的initialization一样,那么它依旧能够trans from scratch,并且能够使sparse network和dense model的性能表现一致。

接下来具体来看看该方法满足的性质。

ad9e4990f7c99eac274e920abcda6061.png

从original dense network出发,training to converge, 然后perform pruning这个操作,得到sparse mask,如果mask满足以下四个性质,则称它为winning tickets,换句话说,这是一个好的sparse network。

  • 跟dense model相比有更好的(至少是相同的)性能表现;

  • 将它训练到收敛所需要的时间,要小于training dense model;

  • 它非常稀疏;

  • 它具有不被损坏的trainability;

通常为了找到好的结果会经历多轮的training-pruning-retraining,消耗非常多的资源,需要多轮pruning的过程,才能找到质量好的winging tickets,那么如何建立一种更加高效的方法找到好的winning tickets(sparse network)是本研究的重点?我们的工作将从data的方面来解决这个问题。

02

研究动机和具体方法

模型稀疏性和数据稀疏性如何相互作用?它们是否有可能被共同利用,将训练的效率推到一个新的水平?在寻求好的model sparse的过程中,什么样的数据是重要的,什么样的样本是核心样本,从这两个问题出发,我们引入了Pruning-Aware Critical set (PrAC set)的概念。它是对pruned model的操作自适应的关键的训练数据子集。主要分为如下两个部分:

❖ Hard to memorize:在训练过程中会存在这样一些样本,它会经常被忘记,这样的样本是非常重要的。

➢ Certain samples are repeatedly forgotten during training.

❖ Easy to forget:当我们的模型pruning之后,我的sparse model可能会忘记某一些样本的知识,所以这一类非常容易在剪枝之后非常容易被遗忘。

➢ Pruning disproportionately impacts the model performance on a narrow subset of the dataset.

我们的工作内容是,找到这两类样本,同时发现这两类样本占整个数据集的比例较少,所以我们可以用这一部分样本,找tickets获得一定的training efficiency和找tickets过程中的efficiency。算法的实现过程如下图所示,其中,ɛF记录了每张图片在training过程中被遗忘了多少次,随着算法不停的执行data slimming,training dataset是越来越小的,当我们使用小的training data(P)去找ticket的时候,我们需要控制training iteration的数量和data的数量成正比;其次也会考虑early stopping,这样可以在寻找tickets的过程中节省training iteration,获得较高的training efficiency。

49ce8454782667f5d00b972693ce591c.png

03

实验结果

Q1:我们的数据和模型稀疏度共同设计框架是否有效?

7b17b82d20dd715609d950f167363eb9.png

A1:从图中可以看出,PrAC Lottery Tickets和Lottery Tickets的结果非常接近,有的case得到的结果甚至更好,这说明,PrAC Lottery Tickets确实抽取出了整个trainingsets中对找Lottery Tickets这一task中最重要的那一部分的subsets,从而在找到Lottery Tickets效率的同时保证了其良好的性能表现。

从第二行的图片中,蓝色和绿色的region是找到最sparse的winning tickets所需要的training iteration。从图中可以看出,蓝色的所代表的PrAC Lottery Tickets所需要的training iteration是远远小于普通Lottery Tickets找到最sparse network的iteration。在控制它们性能表现的情况下,往往原本的Lottery Tickets所需要的training iteration,是PrAC Lottery Tickets的7-8倍。

Q2:PrAC集可以在不同的架构之间转移吗?

1c5f08093362ed35492645215e4b60a5.png

A2:从图中可以看出,PrAC Lottery Tickets和Transfer PrAC Lottery Tickets的性能表现是类似的,他们的error bar重合,所以它可以在不同的网络结构之间有很强的泛化能力,如果我们比较蓝线、红线和橘黄色线之间的区别,我们发现PrAC Lottery Tickets和Transfer PrAC Lottery Tickets都比Random network更好。

Q3: PrAC集是否比随机抽样更好?

40f03c104c826cd13ad58f6d5ad078d1.png

A3: PrAC Lottery Tickets比random sample更好,这也说明PrAC set通过去寻找容易被忘记的或不容易被记住的样本,确实对找Lottery Tickets,找关键的sparse network有更好的作用。

Q4: 我们的方法是否比其他高效的网络修剪方法更好?

2a218d333d7845018fd0c79226047cf5.png

A4: 从两图可以明显看出,PrAC Lottery Tickets的效果更好。进一步论证了通过PrAC找到的Lottery Tickets所取得的性能表现是更好的。

04

结论

PrAC之外的图片往往呈现出比较简单的趋势,比如,橘子,钟表,蝴蝶等,处于图片的中心,而PrAC之内的图片往往会比较复杂,每个图片中会有非常丰富的元素,我们的研究认为,这种丰富且复杂的图片容易被network遗忘,这也是寻找高质量的吸收子模型更需要的图片,我们使用PrAC set几乎能找到与使用full datasets同样质量的winning tickets,并且PrAC所需要的图片较少,大大缩减了找Lottery Tickets所需要的训练时间和训练轮数。

83f8ad50c13266e6aada5431792442ac.png

今日视频推荐

整理:张丽

审核:陈天龙

AI TIME欢迎AI领域学者投稿,期待大家剖析学科历史发展和前沿技术。针对热门话题,我们将邀请专家一起论道。同时,我们也长期招募优质的撰稿人,顶级的平台需要顶级的你!

请将简历等信息发至yun.he@aminer.cn!

微信联系:AITIME_HY

AI TIME是清华大学计算机系一群关注人工智能发展,并有思想情怀的青年学者们创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索,加强思想碰撞,打造一个知识分享的聚集地。

b0026cef68e6db01d5d1b19de0a81407.png

更多资讯请扫码关注

0c7e6355f3e693d17b8bd766936aff96.png

点击 阅读原文 查看更多!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值