Quantization

Quantization is a method to reduce memory size by compressing 32-bit floats to 8-bit floats, enhancing efficiency but risking accuracy in large language models (LLMs) with billions of parameters. Two quantization approaches, ZeroQuant and LLM.int8(), have their own challenges, particularly with larger models. SmoothQuant introduces a unique scaling factor for each channel and has been tested on various large models, offering different levels of quantization settings.

Uploaded by

areej

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

2 views

Quantization

Uploaded by

areej

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 2

 Quantization:

It is the process of compressing memory size. If we use 32-bit floats, the size would be
compressed to 8-bit floats, thus improving efficiency by reducing time.
LLMs have billions of parameters and these parameters grow in activations. If quantized their
information would be lost and accuracy would be compromised. LLM parameters with large
magnitude may affect the results more thus causing more error.
Two approaches can be applied for quantization. But, both have some problems associated
with them.

ZeroQuant Approach LLM.int8() Solution

It works for adjusting parameters for It keeps the extreme values in a higher
activations. Applies dynamic per-token precision format (FP16) while using a smaller
activation quantization and group-wise format (INT8) for the rest of the activations.
weight quantization
Works well for smaller models like GPT-3- This mixed approach is difficult to implement
350M and GPT-J-6B. efficiently on current hardware.
Struggles for larger models OPT, which has
175 billion parameters.

 SmoothQuant:
Already available models use a similar scaling factor (∆) across all the channels. However,
SmoothQuant uses a different scaling factor across each channel, depending on the weights or
activation characteristics.
SmoothQuant has been tested on several large language models, including:
 OPT-175B (Zhang et al., 2022)
 BLOOM-176B (Scao et al., 2022)
 GLM-130B (Zeng et al., 2022)
 MT-NLG 530B (Smith et al., 2022)
We implement three efficiency levels of quantization settings for SmoothQuant.

X= maximum value for channel i

The entire tensor (matrix) is quantized using a single scale based on the maximum value of the whole
tensor.
 Per-Token Quantization:
In per-token quantization, each token (which could be a word, sub-word, or character in a sequence) is
assigned its quantization scale.

 Per-Tensor Quantization:
During model training in deep learning, tensors can represent input data (like images and text), labels,
model parameters, intermediate activations, and gradients.

Per-tensor quantization does not mean quantizing each input separately based on its dimensions.
Instead, it means applying one set of quantization parameters to the entire tensor, regardless of its
structure.

Digital Modulations using Matlab
From Everand
Digital Modulations using Matlab
Mathuranathan Viswanathan
4/5 (6)
SmoothQuant- Accurate and Efficient Post-Training Quantization for Large Language Models
No ratings yet
SmoothQuant- Accurate and Efficient Post-Training Quantization for Large Language Models
13 pages
Smoothquant: Accurate and Efficient Post-Training Quantization For Large Language Models
No ratings yet
Smoothquant: Accurate and Efficient Post-Training Quantization For Large Language Models
12 pages
Smooth Quant
No ratings yet
Smooth Quant
21 pages
Jungwok Choi - tinyML Asia 2023
No ratings yet
Jungwok Choi - tinyML Asia 2023
17 pages
ABQ-LLM: Arbitrary-Bit Quantized Inference Acceleration For Large Language Models
No ratings yet
ABQ-LLM: Arbitrary-Bit Quantized Inference Acceleration For Large Language Models
19 pages
final year sample report.docx
No ratings yet
final year sample report.docx
49 pages
2503.04704v1
No ratings yet
2503.04704v1
29 pages
2407.11722v1
No ratings yet
2407.11722v1
14 pages
LLM Quantization
No ratings yet
LLM Quantization
9 pages
Llm-Qbench: A Benchmark Towards The Best Practice For Post-Training Quantization of Large Language Models
No ratings yet
Llm-Qbench: A Benchmark Towards The Best Practice For Post-Training Quantization of Large Language Models
30 pages
2501.12956v1
No ratings yet
2501.12956v1
12 pages
OPTIMIZING LLAMA 3.2 1B USING QUANTIZATION TECHNIQUES USINGBITSANDBYTES FOR EFFICIENT AI DEPLOYMENT
No ratings yet
OPTIMIZING LLAMA 3.2 1B USING QUANTIZATION TECHNIQUES USINGBITSANDBYTES FOR EFFICIENT AI DEPLOYMENT
11 pages
Bitnet: Scaling 1-Bit Transformers For Large Language Models
No ratings yet
Bitnet: Scaling 1-Bit Transformers For Large Language Models
14 pages
LLM Challenges
No ratings yet
LLM Challenges
1 page
Scaling Laws for Precision
No ratings yet
Scaling Laws for Precision
33 pages
lec13
No ratings yet
lec13
79 pages
FPTQ: F - P - T Q - L L M: INE Grained OST Raining Uantiza Tion For Arge Anguage Odels
No ratings yet
FPTQ: F - P - T Q - L L M: INE Grained OST Raining Uantiza Tion For Arge Anguage Odels
17 pages
Which Quantization Method Is Right For You - (GPTQ vs. GGUF vs. AWQ) - by Maarten Grootendorst - Nov, 2023 - Towards Data Science
No ratings yet
Which Quantization Method Is Right For You - (GPTQ vs. GGUF vs. AWQ) - by Maarten Grootendorst - Nov, 2023 - Towards Data Science
25 pages
Integer Quantization For Deep Learning Inference
No ratings yet
Integer Quantization For Deep Learning Inference
20 pages
Model Quantization
No ratings yet
Model Quantization
48 pages
2306.07629
No ratings yet
2306.07629
21 pages
Optimizing Large Language Model Training Using FP4 Quantization
No ratings yet
Optimizing Large Language Model Training Using FP4 Quantization
17 pages
Quantization in Deep Learning
No ratings yet
Quantization in Deep Learning
2 pages
Zeroquant Efficient and Affordable Post Training Quantization for Large Scale Transformers Paper Conference
No ratings yet
Zeroquant Efficient and Affordable Post Training Quantization for Large Scale Transformers Paper Conference
16 pages
Zero Quant
No ratings yet
Zero Quant
24 pages
GWQ: Gradient-Aware Weight Quantization For Large Language Models
No ratings yet
GWQ: Gradient-Aware Weight Quantization For Large Language Models
11 pages
2502.05003v1
No ratings yet
2502.05003v1
16 pages
A Visual Guide to Quantization - By Maarten Grootendorst
No ratings yet
A Visual Guide to Quantization - By Maarten Grootendorst
31 pages
zeroquant-v2
No ratings yet
zeroquant-v2
24 pages
2022 Acl-Long 331
No ratings yet
2022 Acl-Long 331
16 pages
GPTQ
No ratings yet
GPTQ
16 pages
LLM Quantization Aware Training
No ratings yet
LLM Quantization Aware Training
15 pages
AQLM
No ratings yet
AQLM
18 pages
Computer Vision Graph Cuts: Exploring Graph Cuts in Computer Vision
From Everand
Computer Vision Graph Cuts: Exploring Graph Cuts in Computer Vision
Fouad Sabry
No ratings yet
OWQ
No ratings yet
OWQ
13 pages
8-Bit Optimizers Via Block-Wise Quantization
No ratings yet
8-Bit Optimizers Via Block-Wise Quantization
20 pages
04 AIS421 Finetuning Part 2
No ratings yet
04 AIS421 Finetuning Part 2
50 pages
NNQuant3
No ratings yet
NNQuant3
28 pages
2310.08659v4
No ratings yet
2310.08659v4
23 pages
Low Bit Post Training
No ratings yet
Low Bit Post Training
16 pages
L S S Q: Earned TEP IZE Uantization
No ratings yet
L S S Q: Earned TEP IZE Uantization
12 pages
1909.02384v2
No ratings yet
1909.02384v2
14 pages
ai-04-00047
No ratings yet
ai-04-00047
23 pages
9442 Towards Efficient Post Trainin
No ratings yet
9442 Towards Efficient Post Trainin
14 pages
Honey, I shrunk the LLM! A beginner's guide to quantization • The Register
No ratings yet
Honey, I shrunk the LLM! A beginner's guide to quantization • The Register
11 pages
Preliminary Specifications: Programmed Data Processor Model Three (PDP-3) October, 1960
From Everand
Preliminary Specifications: Programmed Data Processor Model Three (PDP-3) October, 1960
Digital Equipment Corporation
No ratings yet
LAYER-WISE QUANTIZATION
No ratings yet
LAYER-WISE QUANTIZATION
17 pages
Backpropagation: Fundamentals and Applications for Preparing Data for Training in Deep Learning
From Everand
Backpropagation: Fundamentals and Applications for Preparing Data for Training in Deep Learning
Fouad Sabry
No ratings yet
Context Injection Attacks On Large Language Models
No ratings yet
Context Injection Attacks On Large Language Models
11 pages
8 Bit Matrix Multiplication For Transformers
No ratings yet
8 Bit Matrix Multiplication For Transformers
20 pages
LLM - Int8 - 8-Bit Matrix Multiplication For Transformer at Scale - Removed
No ratings yet
LLM - Int8 - 8-Bit Matrix Multiplication For Transformer at Scale - Removed
11 pages
2401.14895v2
No ratings yet
2401.14895v2
11 pages
report
No ratings yet
report
21 pages
UDL2021 Paper 039
No ratings yet
UDL2021 Paper 039
8 pages
Course4 Efficiency
No ratings yet
Course4 Efficiency
41 pages
Introduction to Weight Quantization.pdf (1)
No ratings yet
Introduction to Weight Quantization.pdf (1)
9 pages
LLM Paper
No ratings yet
LLM Paper
26 pages
LLM - Int8 : 8-Bit Matrix Multiplication For Transformers at Scale
No ratings yet
LLM - Int8 : 8-Bit Matrix Multiplication For Transformers at Scale
20 pages
Kim_Improving_Accuracy_of_Binary_Neural_Networks_Using_Unbalanced_Activation_Distribution_CVPR_2021_paper
No ratings yet
Kim_Improving_Accuracy_of_Binary_Neural_Networks_Using_Unbalanced_Activation_Distribution_CVPR_2021_paper
10 pages

Quantization

Uploaded by

Quantization

Uploaded by

 Quantization:

ZeroQuant Approach LLM.int8() Solution

X= maximum value for channel i

You might also like