This document summarizes a research paper on scaling laws for neural language models. Some key findings of the paper include:
- Language model performance depends strongly on model scale and weakly on model shape. With enough compute and data, performance scales as a power law of parameters, compute, and data.
- Overfitting is universal, with penalties depending on the ratio of parameters to data.
- Large models have higher sample efficiency and can reach the same performance levels with less optimization steps and data points.
- The paper motivated subsequent work by OpenAI on applying scaling laws to other domains like computer vision and developing increasingly large language models like GPT-3.
Several recent papers have explored self-supervised learning methods for vision transformers (ViT). Key approaches include:
1. Masked prediction tasks that predict masked patches of the input image.
2. Contrastive learning using techniques like MoCo to learn representations by contrasting augmented views of the same image.
3. Self-distillation methods like DINO that distill a teacher ViT into a student ViT using different views of the same image.
4. Hybrid approaches that combine masked prediction with self-distillation, such as iBOT.
This document summarizes recent research on applying self-attention mechanisms from Transformers to domains other than language, such as computer vision. It discusses models that use self-attention for images, including ViT, DeiT, and T2T, which apply Transformers to divided image patches. It also covers more general attention modules like the Perceiver that aims to be domain-agnostic. Finally, it discusses work on transferring pretrained language Transformers to other modalities through frozen weights, showing they can function as universal computation engines.
7月29日開催 July Tech Festa 2018基調講演スライドです。
大村伸吾「Preferred Networksの機械学習クラスタを支える技術」
https://2018.techfesta.jp/
Slides of Keynote in July Tech Festa 2018.
This document summarizes recent research on applying self-attention mechanisms from Transformers to domains other than language, such as computer vision. It discusses models that use self-attention for images, including ViT, DeiT, and T2T, which apply Transformers to divided image patches. It also covers more general attention modules like the Perceiver that aims to be domain-agnostic. Finally, it discusses work on transferring pretrained language Transformers to other modalities through frozen weights, showing they can function as universal computation engines.
7月29日開催 July Tech Festa 2018基調講演スライドです。
大村伸吾「Preferred Networksの機械学習クラスタを支える技術」
https://2018.techfesta.jp/
Slides of Keynote in July Tech Festa 2018.
21. Gpipe: Easy scaling with micro-batch pipeline parallelism
21
会議 : arxiv2018
著者 : Yanping Huang, Youlong Cheng, Ankur Bapna, Orhan Firat, Mia Xu Chen, Dehao Chen, HyoukJoong Lee, Jiquan Ngiam, Quoc V. Le, Yonghui Wu,
Zhifeng Chen
● 従来のネットワークの学習をさらに細かい単位に区切って行うことにより,
さまざまなハードウェアにお
いて汎用的かつ効率的な学習を可能にするフレームワーク
を提案
● 従来はモデルの順伝播・逆伝播をシーケンシャルに行っていたのに対し,それぞれのレイヤにおける
計算をも分割して行うことにより時間効率とスケーラビリティを向上した
● 画像認識と自然言語処理の両タスクで
従来のフレームワークを上回る性能を達成
22. Deep Compression : compressing deep neural networks with pruning, trained
quantization and huffman coding
22
会議 : ICLR2016
著者 : Song Han, Huizi Mao, William J. Dally
● 深層学習モデルをプルーニング(重要なパラメタの剪定)
・パラメータの量子化・ハフマン符号化の三段
階の処理を行うことによりモデルサイズを
50分の1程にまで圧縮した
● プルーニングによりパラメータ数は10分の1に,量子化により情報量は3分の1にできる
● プルーニング及び量子化の際には精度が下がらないように処理後に追加での学習を行なっている
● モデルのパラメータの出現頻度の分布に応じたハフマン符号化によりモデルの重さを20~30%削減でき
る
23. AMC : AutoML for model compression and acceleration acceleration on mobile
devices
23
会議 : ECCV2018
著者 : Yihui He • Ji Lin • Zhijian Liu • Hanrui Wang • Li-Jia Li • Song Han
● 深層学習モデルの圧縮のために強化学習を使用
● モデルのうち削減するべき層を選択するというタスクを強化学習により実行
● 報酬として精度だけでなく計算時間や圧縮率,特徴表現の質などを用いることによって,さまざまな要
素に関しての最適化を行うことができる
● それまで行われてきた人の手による圧縮
に比べて効率を大幅に改善した
24. Learning to prune deep neural networks via reinforcement learning
24
会議 : ICML workshop
著者 : Yihui He • Ji Lin • Zhijian Liu • Hanrui Wang • Li-Jia Li • Song Han
● AMCを改善し,パラメータ選定(プルーニング)を行うごとに報酬関数を計算するようにした
● 従来手法ではネットワーク全体のプルーニングを行なったのちにエージェントに報酬を与えていたが,
本手法ではネットワーク内の一つの層に対してプルーニングを行うごとに報酬を与えた
● これによりプルーニングを85%効率化することに成功
25. LCNN : Lookup-based convolutional neural network
25
会議 : ECCV2018
著者 : Yihui He • Ji Lin • Zhijian Liu • Hanrui Wang • Li-Jia Li • Song Han
● ネットワークの重みをそれぞれ別個に学習するのではなく,ネットワークの重みを辞書ベクトルの線型
結合で表現する
● パラメータを辞書ベクトルの組み合わせで表現
することによりモデルの重さを抑えた
● パラメータ数が減ったことにより,
few-shot learningやfew-iterationの性能
も向上した
26. XNOR-Net: ImageNet classification using binary convolutional neural networks
26
会議 : ECCV2016
著者 : Mohammad Rastegari, Vicente Ordonez, Joseph Redmon, Ali Farhadi
● 深層学習モデルの重みと入出力を全て二値化して扱うことにより軽量化
● 先行研究のBinaryweightでは重みだけを二値化するが本手法ではレイヤの入出力も二値化
● scale parameterαを使用して以下のように畳み込みを近似
● これによりXNOR演算とビットカウントによってのみ畳み込みを表現することができる