0% found this document useful (0 votes)

4 views

Model Training

The document outlines the process of training a machine learning model, emphasizing the high costs associated with pretraining and providing resources for cost estimation. It details the steps for loading a pretrained model, configuring training arguments, and setting up a custom dataset for training. Additionally, it includes code snippets for logging training loss and generating text from an intermediate model checkpoint.

Uploaded by

md.nayim howlader

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

4 views

Model Training

Uploaded by

md.nayim howlader

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 8

keyboard_arrow_down Lesson 5.

Model training
Pretraining is very expensive! Please check costs carefully before starting a pretraining project.

You can get a rough estimate your training job cost using this calculator from Hugging Face. For
training on other infrastructure, e.g. AWS or Google Cloud, please consult those providers for up to
date cost estimates.

from google.colab import drive

drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.moun

import warnings
warnings.filterwarnings('ignore')
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
device = "cuda"

keyboard_arrow_down 1. Load the model to be trained

Load the upscaled model from the previous lesson:

import torch
from transformers import AutoModelForCausalLM

pretrained_model = AutoModelForCausalLM.from_pretrained(
"./drive/MyDrive/TinySolar-308m-4k-init",
device_map="auto",
torch_dtype=torch.bfloat16,
use_cache=False,

# Ready for pretraining!

print(pretrained_model)

LlamaForCausalLM(
(model): LlamaModel(
(embed_tokens): Embedding(32000, 1024)
(layers): ModuleList(
(0-15): 16 x LlamaDecoderLayer(
(self_attn): LlamaAttention(
(q_proj): Linear(in_features=1024, out_features=1024, bias=False)
(k_proj): Linear(in_features=1024, out_features=256, bias=False)
(v_proj): Linear(in_features=1024, out_features=256, bias=False)
(o_proj): Linear(in_features=1024, out_features=1024, bias=False)
)
(mlp): LlamaMLP(
(gate_proj): Linear(in_features=1024, out_features=4096, bias=False)
(up_proj): Linear(in_features=1024, out_features=4096, bias=False)
(down_proj): Linear(in_features=4096, out_features=1024, bias=False)
(act_fn): SiLU()
)
(input_layernorm): LlamaRMSNorm((1024,), eps=1e-06)
(post_attention_layernorm): LlamaRMSNorm((1024,), eps=1e-06)
)
)
(norm): LlamaRMSNorm((1024,), eps=1e-06)
(rotary_emb): LlamaRotaryEmbedding()
)
(lm_head): Linear(in_features=1024, out_features=32000, bias=False)
)

keyboard_arrow_down 2. Load dataset

Here you'll update two methods on the Dataset object to allow it to interface with the trainer.
These will be applied when you specify the dataset you created in Lesson 3 as the training data in
the next section.

Note that the code has additional comment strings that don't appear in the video. These are to help
you understand what each part of the code is doing.

!pip install datasets==2.16.1

Requirement already satisfied: datasets==2.16.1 in /usr/local/lib/python3.11/dist-packag

Requirement already satisfied: filelock in /usr/local/lib/python3.11/dist-packages (from
Requirement already satisfied: numpy>=1.17 in /usr/local/lib/python3.11/dist-packages (f
Requirement already satisfied: pyarrow>=8.0.0 in /usr/local/lib/python3.11/dist-packages
Requirement already satisfied: pyarrow-hotfix in /usr/local/lib/python3.11/dist-packages
Requirement already satisfied: dill<0.3.8,>=0.3.0 in /usr/local/lib/python3.11/dist-pack
Requirement already satisfied: pandas in /usr/local/lib/python3.11/dist-packages (from d
Requirement already satisfied: requests>=2.19.0 in /usr/local/lib/python3.11/dist-packag
Requirement already satisfied: tqdm>=4.62.1 in /usr/local/lib/python3.11/dist-packages (
Requirement already satisfied: xxhash in /usr/local/lib/python3.11/dist-packages (from d
Requirement already satisfied: multiprocess in /usr/local/lib/python3.11/dist-packages (
Requirement already satisfied: fsspec<=2023.10.0,>=2023.1.0 in /usr/local/lib/python3.11
Requirement already satisfied: aiohttp in /usr/local/lib/python3.11/dist-packages (from
Requirement already satisfied: huggingface-hub>=0.19.4 in /usr/local/lib/python3.11/dist
Requirement already satisfied: packaging in /usr/local/lib/python3.11/dist-packages (fro
Requirement already satisfied: pyyaml>=5.1 in /usr/local/lib/python3.11/dist-packages (f
Requirement already satisfied: aiohappyeyeballs>=2.3.0 in /usr/local/lib/python3.11/dist
Requirement already satisfied: aiosignal>=1.1.2 in /usr/local/lib/python3.11/dist-packag
Requirement already satisfied: attrs>=17.3.0 in /usr/local/lib/python3.11/dist-packages
Requirement already satisfied: frozenlist>=1.1.1 in /usr/local/lib/python3.11/dist-packa
Requirement already satisfied: multidict<7.0,>=4.5 in /usr/local/lib/python3.11/dist-pac
Requirement already satisfied: propcache>=0.2.0 in /usr/local/lib/python3.11/dist-packag
Requirement already satisfied: yarl<2.0,>=1.17.0 in /usr/local/lib/python3.11/dist-packa
Requirement already satisfied: typing-extensions>=3.7.4.3 in /usr/local/lib/python3.11/d
Requirement already satisfied: charset-normalizer<4,>=2 in /usr/local/lib/python3.11/dis
Requirement already satisfied: idna<4,>=2.5 in /usr/local/lib/python3.11/dist-packages (
Requirement already satisfied: urllib3<3,>=1.21.1 in /usr/local/lib/python3.11/dist-pack
Requirement already satisfied: certifi>=2017.4.17 in /usr/local/lib/python3.11/dist-pack
Requirement already satisfied: python-dateutil>=2.8.2 in /usr/local/lib/python3.11/dist-
Requirement already satisfied: pytz>=2020.1 in /usr/local/lib/python3.11/dist-packages (
Requirement already satisfied: tzdata>=2022.7 in /usr/local/lib/python3.11/dist-packages
Requirement already satisfied: six>=1.5 in /usr/local/lib/python3.11/dist-packages (from

import datasets
from torch.utils.data import Dataset
import torch

class CustomDataset(Dataset):
def __init__(self, args, split="train"):
self.args = args
self.dataset = datasets.load_dataset(
"parquet",
data_files=args.dataset_name,
split=split
)
def __len__(self):
return len(self.dataset)

def getitem(self, index):

# Convert the lists to a LongTensor for Pytorch
input_ids = torch.LongTensor(self.dataset[index]["input_ids"])
labels = torch.LongTensor(self.dataset[index]["input_ids"])
# NOTE: we are putting labels = input_ids are because
# we wanna perform next token prediction

# Return the sample as a dictionary

return {"input_ids": input_ids, "labels": labels}

keyboard_arrow_down 3. Configure Training Arguments

Here you set up the training run. The training dataset you created in Lesson 3 is specified in the
Dataset configuration section.
Note: there are comment strings in the cell below that don't appear in the video. These have been
included to help you understand what each parameter does.

from dataclasses import dataclass, field

import transformers

@dataclass
class CustomArguments(transformers.TrainingArguments):
# Dataset configuration
dataset_name: str = field(
default="packaged_pretrain_dataset.parquet"
)
num_proc: int = field(default=8)
max_seq_length: int = field(default=32)

# Core training configuration

optim: str = field(default="adamw_torch")
max_steps: int = field(default=30)
per_device_train_batch_size: int = field(default=2)

# Other training configurations

seed: int = field(default=0)
learning_rate: float = field(default=5e-5)
weight_decay: float = field(default=0)
warmup_steps: int = field(default=10)
lr_scheduler_type: str = field(default="linear")
gradient_checkpointing: bool = field(default=True)

bf16: bool = field(default=True)

gradient_accumulation_steps: int = field(default=1)
dataloader_num_workers: int = field(default=0)

# Logging configurationn
logging_steps: int = field(default=3)
report_to: str = field(default="none")

# Saving configurations
# save_strategy: str = field(default="steps")
# save_steps: int = field(default=3)
# save_total_limit: int = field(default=2)

from dataclasses import dataclass, field

import transformers

@dataclass
class CustomArguments(transformers.TrainingArguments):
dataset_name: str = field( # Dataset configuration
default="packaged_pretrain_dataset.parquet")
num_proc: int = field(default=1) # Number of subprocesses for data p
max_seq_length: int = field(default=32) # Maximum sequence length
# Core training configurations
seed: int = field(default=0) # Random seed for initialization, e
optim: str = field(default="adamw_torch") # Optimizer, here it's AdamW implem
max_steps: int = field(default=30) # Number of maximum training steps
per_device_train_batch_size: int = field(default=2) # Batch size per device during trai

# Other training configurations

learning_rate: float = field(default=5e-5) # Initial learning rate for the opt
weight_decay: float = field(default=0) # Weight decay
warmup_steps: int = field(default=10) # Number of steps for the learning
lr_scheduler_type: str = field(default="linear") # Type of learning rate scheduler
gradient_checkpointing: bool = field(default=True) # Enable gradient checkpointing to
dataloader_num_workers: int = field(default=0) # Number of subprocesses for data l
bf16: bool = field(default=True) # Use bfloat16 precision for traini
gradient_accumulation_steps: int = field(default=1) # Number of steps to accumulate gra

# Logging configuration
logging_steps: int = field(default=3) # Frequency of logging training inf
report_to: str = field(default="none") # Destination for logging (e.g., Wa

# Saving configuration
save_strategy: str = field(default="steps") # Can be replaced with "epoch"
save_steps: int = field(default=3) # Frequency of saving training chec
save_total_limit: int = field(default=2) # The total number of checkpoints t

Parse the custom arguments and set the output directory where the model will be saved:

parser = transformers.HfArgumentParser(CustomArguments)
args, = parser.parse_args_into_dataclasses(
args=["--output_dir","output"]
)

Setup the training dataset:

train_dataset = CustomDataset(args=args)

Check the shape of the dataset:

print("Input shape: ", train_dataset[0]['input_ids'].shape)

Input shape: torch.Size([32])

keyboard_arrow_down 4. Run the trainer and monitor the loss

First, set up a callback to log the loss values during training (note this cell is not shown in the
video):

from transformers import Trainer, TrainingArguments, TrainerCallback

# Define a custom callback to log the loss values

class LossLoggingCallback(TrainerCallback):
def on_log(self, args, state, control, log=None, **kwargs):
if log is not None:
self.logs.append(log)
def __init__(self):
self.logs = []

# Initialize the callback

loss_logging_callback = LossLoggingCallback()

Then, create an instance of the Hugging Face Trainer object from the transformers library. Call
the train() method of the trainder to initialize the training run:

trainer = Trainer(
model=pretrained_model,
args=args,
train_dataset=train_dataset,
eval_dataset=None,
callbacks=[loss_logging_callback],

trainer.train()
[30/30 02:54, Epoch 0/1]
Step Training Loss

3 4.519700

6 4.468100

9 4.413700

12 4.804900

15 4.517900

18 4.849500

21 3.763700

24 4.778400

27 4.008900

30 4.191900

TrainOutput(global_step=30, training_loss=4.431664880116781, metrics={'train_runtime':

174.5637, 'train_samples_per_second': 0.344, 'train_steps_per_second': 0.172,
'total flos': 3180342804480 0 'train loss': 4 431664880116781 'epoch':

You can use the code below to save intermediate model checkpoints in your own training run:

# Saving configuration
# save_strategy: str = field(default="steps") # Can be replaced with "epoch"
# save_steps: int = field(default=3) # Frequency of saving training ch
# save_total_limit: int = field(default=2) # The total number of checkpoints

keyboard_arrow_down Checking the performance of an intermediate checkpoint

Below, you can try generating text using an intermediate checkpoint of the model. This checkpoint
was saved after 10,000 training steps. As you did in previous lessons, you'll use the Solar tokenizer
and then set up a TextStreater object to display the text as it is generated:

from transformers import AutoTokenizer, TextStreamer

model_name_or_path = "./drive/MyDrive/TinySolar-308m-4k-init"
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)

from transformers import AutoTokenizer, TextStreamer, AutoModelForCausalLM

import torch

model_name_or_path = "./output/checkpoint-30"
model2 = AutoModelForCausalLM.from_pretrained(
model_name_or_path,
device_map="auto",
torch_dtype=torch.bfloat16,
)

prompt = "I am an engineer. I love"

inputs = tokenizer(prompt, return_tensors="pt").to(model2.device)

streamer = TextStreamer(
tokenizer,
skip_prompt=True,
skip_special_tokens=True
)

outputs = model2.generate(
**inputs,
streamer=streamer,
use_cache=True,
max_new_tokens=64,
do_sample=True,
temperature=1.0,
)

Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.

the people who go there, so it is because for me, my passion to become the next leader o

Start coding or generate with AI.

Some Tutorials in Computer Networking Hacking
From Everand
Some Tutorials in Computer Networking Hacking
Dr. Hidaia Mahmood Alassouli
No ratings yet
Cv prince
No ratings yet
Cv prince
120 pages
Roop Unleashed 02.ipynb
No ratings yet
Roop Unleashed 02.ipynb
15 pages
Hand on Day 2 Salinan_dari_2_Using_transformers
No ratings yet
Hand on Day 2 Salinan_dari_2_Using_transformers
10 pages
Natural Language Processing With Pytorch Readthedocs Io en Latest PDF
No ratings yet
Natural Language Processing With Pytorch Readthedocs Io en Latest PDF
35 pages
Exp 11 NLI USING BERT
No ratings yet
Exp 11 NLI USING BERT
4 pages
Building AutoGPT With Llama 3.1
No ratings yet
Building AutoGPT With Llama 3.1
293 pages
Reactor Comfyui - Ipynb
No ratings yet
Reactor Comfyui - Ipynb
24 pages
DL Practical 9
No ratings yet
DL Practical 9
2 pages
Two Tower LLM Recommendation
No ratings yet
Two Tower LLM Recommendation
18 pages
Comfyui-Upscaling Kaggle - Ipynb
No ratings yet
Comfyui-Upscaling Kaggle - Ipynb
10 pages
Deep Learning Record
No ratings yet
Deep Learning Record
70 pages
Requirements Dev
No ratings yet
Requirements Dev
7 pages
DL LAB Manual(uma)
No ratings yet
DL LAB Manual(uma)
20 pages
Apply SVM To Amazon Reviews Data Set Avg W2vec (M)
No ratings yet
Apply SVM To Amazon Reviews Data Set Avg W2vec (M)
8 pages
10_Fine-Tuning_Pretrained_Models_for_Computer Vision.ipynb - Colab
No ratings yet
10_Fine-Tuning_Pretrained_Models_for_Computer Vision.ipynb - Colab
28 pages
Retorno 1
No ratings yet
Retorno 1
29 pages
Deep Neural Network Application
No ratings yet
Deep Neural Network Application
17 pages
Oracle Certified Professional Java Programmer OCPJP 1Z0 809
From Everand
Oracle Certified Professional Java Programmer OCPJP 1Z0 809
Manish Soni
No ratings yet
Venkat Projects Requirements
No ratings yet
Venkat Projects Requirements
2 pages
Roop-Unleashed Ipynb
No ratings yet
Roop-Unleashed Ipynb
9 pages
LPIC-1 Primer
From Everand
LPIC-1 Primer
John Greene
4.5/5 (3)
CVD Lab Manual
No ratings yet
CVD Lab Manual
33 pages
Best Python Libraries For Machine Learning - GeeksforGeeks
No ratings yet
Best Python Libraries For Machine Learning - GeeksforGeeks
18 pages
Library Installation
No ratings yet
Library Installation
3 pages
f22-yolov5s
No ratings yet
f22-yolov5s
5 pages
LP4 Lab Manual
No ratings yet
LP4 Lab Manual
21 pages
R Deep Neural Network Step by Step
No ratings yet
R Deep Neural Network Step by Step
27 pages
Requirements
No ratings yet
Requirements
3 pages
RLDL File
No ratings yet
RLDL File
31 pages
Alpaca + Llama-3 8b Full Example - Ipynb - Colab
No ratings yet
Alpaca + Llama-3 8b Full Example - Ipynb - Colab
10 pages
Llama2 With Llamaindex
No ratings yet
Llama2 With Llamaindex
40 pages
AI Assingment.ipynb - Colab
No ratings yet
AI Assingment.ipynb - Colab
5 pages
Task VIII Quantum Vision Transformer
No ratings yet
Task VIII Quantum Vision Transformer
1 page
Assignment3
No ratings yet
Assignment3
6 pages
ID6001_Homework_2b57bb1d39ec7c53700fa31dc04520dc
No ratings yet
ID6001_Homework_2b57bb1d39ec7c53700fa31dc04520dc
2 pages
Keras Cheat Sheet Python
No ratings yet
Keras Cheat Sheet Python
1 page
Cse519 hw3
No ratings yet
Cse519 hw3
50 pages
Deep Learning
No ratings yet
Deep Learning
46 pages
Sentiment Analysis On Tweets
No ratings yet
Sentiment Analysis On Tweets
2 pages
DL Student Lab Manual
No ratings yet
DL Student Lab Manual
81 pages
Project Documentation
No ratings yet
Project Documentation
24 pages
A3_44_DL_TA
No ratings yet
A3_44_DL_TA
10 pages
hw1 2487155975100812
No ratings yet
hw1 2487155975100812
6 pages
Deep Learning With Keras and Tensorflow
No ratings yet
Deep Learning With Keras and Tensorflow
557 pages
Computer Engineering Laboratory Solution Primer
From Everand
Computer Engineering Laboratory Solution Primer
Karan Bhandari
No ratings yet
CS335 Lab6
No ratings yet
CS335 Lab6
7 pages
7.Copy of Text to Image Generation With LLM With Hugging Face.ipynb
No ratings yet
7.Copy of Text to Image Generation With LLM With Hugging Face.ipynb
1,156 pages
Lab 5
No ratings yet
Lab 5
27 pages
RLDL128
No ratings yet
RLDL128
73 pages
command_classifier
No ratings yet
command_classifier
4 pages
CCS355 –Neural Network CSE
No ratings yet
CCS355 –Neural Network CSE
38 pages
Mai Exercise 1 v 1-0
No ratings yet
Mai Exercise 1 v 1-0
4 pages
python_numpy_pandas_git
No ratings yet
python_numpy_pandas_git
5 pages
caso2lau
No ratings yet
caso2lau
27 pages
Homework_6
No ratings yet
Homework_6
7 pages
Llama-3.2 1B+3B Conversational + 2x Faster Finetuning.ipynb
No ratings yet
Llama-3.2 1B+3B Conversational + 2x Faster Finetuning.ipynb
19 pages
ML Lab 11 Manual - Neural Networks (Ver4)
No ratings yet
ML Lab 11 Manual - Neural Networks (Ver4)
8 pages
Python-Deprecated Library v1.1 Documentation
From Everand
Python-Deprecated Library v1.1 Documentation
Laurent LAPORTE
No ratings yet
UNIX Shell Programming Interview Questions You'll Most Likely Be Asked
From Everand
UNIX Shell Programming Interview Questions You'll Most Likely Be Asked
Vibrant Publishers
No ratings yet
PowerBIDevIAD Lab05A
No ratings yet
PowerBIDevIAD Lab05A
11 pages
Connor Jensen Resume MARCH 2023
No ratings yet
Connor Jensen Resume MARCH 2023
2 pages
Wired Equivalent Privacy (WEP) Is A
No ratings yet
Wired Equivalent Privacy (WEP) Is A
6 pages
PSpice Schematics
No ratings yet
PSpice Schematics
38 pages
Kertas Penerangan
100% (2)
Kertas Penerangan
12 pages
Chapter - I Introduction and Design of The Study
No ratings yet
Chapter - I Introduction and Design of The Study
19 pages
Bfs V Cfs - Groves Knockel Schulte
No ratings yet
Bfs V Cfs - Groves Knockel Schulte
12 pages
WHLP Quarter 4 - Hele 4
No ratings yet
WHLP Quarter 4 - Hele 4
9 pages
2008 PSL Polymer Datasheet 08-1
No ratings yet
2008 PSL Polymer Datasheet 08-1
4 pages
Copy of Playground Bookkeeping
No ratings yet
Copy of Playground Bookkeeping
6 pages
Ece Vi Operating Systems (10ec65) Question Paper
No ratings yet
Ece Vi Operating Systems (10ec65) Question Paper
4 pages
DataStorage Lab2
No ratings yet
DataStorage Lab2
2 pages
Java String Class
No ratings yet
Java String Class
32 pages
Sony Ericsson Aspen M1i PDF
No ratings yet
Sony Ericsson Aspen M1i PDF
4 pages
How To Write Pure Data Externals
67% (3)
How To Write Pure Data Externals
39 pages
Huawei SD-WAN Solution Datasheet
No ratings yet
Huawei SD-WAN Solution Datasheet
9 pages
Pills Express Pharmacy Warehouse Inventory System
No ratings yet
Pills Express Pharmacy Warehouse Inventory System
37 pages
Sg248216 - BPMv85 Perf Tuning Best Practice
No ratings yet
Sg248216 - BPMv85 Perf Tuning Best Practice
212 pages
Brei 2020
No ratings yet
Brei 2020
67 pages
Ahsan Jaffery Resume
No ratings yet
Ahsan Jaffery Resume
6 pages
PMP copy
No ratings yet
PMP copy
1 page
Mysql Document
No ratings yet
Mysql Document
60 pages
Software Requirements Specification
No ratings yet
Software Requirements Specification
7 pages
DL & CD
No ratings yet
DL & CD
4 pages
Redistribution and Filtering
No ratings yet
Redistribution and Filtering
4 pages
Unit 2
No ratings yet
Unit 2
9 pages
Ajay Shetty: Mobile Anti Theft System (MATS)
No ratings yet
Ajay Shetty: Mobile Anti Theft System (MATS)
51 pages
Aula Pulp
No ratings yet
Aula Pulp
64 pages
Cambridge International AS & A Level: Computer Science 9618/42
No ratings yet
Cambridge International AS & A Level: Computer Science 9618/42
16 pages
Matrice - Patratica-Transpusa
No ratings yet
Matrice - Patratica-Transpusa
1 page

Model Training

Uploaded by

Model Training

Uploaded by

keyboard_arrow_down Lesson 5.

from google.colab import drive

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.moun

keyboard_arrow_down 1. Load the model to be trained

# Ready for pretraining!

keyboard_arrow_down 2. Load dataset

!pip install datasets==2.16.1

Requirement already satisfied: datasets==2.16.1 in /usr/local/lib/python3.11/dist-packag

def __getitem__(self, index):

# Return the sample as a dictionary

keyboard_arrow_down 3. Configure Training Arguments

from dataclasses import dataclass, field

# Core training configuration

# Other training configurations

bf16: bool = field(default=True)

from dataclasses import dataclass, field

# Other training configurations

Setup the training dataset:

Check the shape of the dataset:

print("Input shape: ", train_dataset[0]['input_ids'].shape)

Input shape: torch.Size([32])

keyboard_arrow_down 4. Run the trainer and monitor the loss

from transformers import Trainer, TrainingArguments, TrainerCallback

# Define a custom callback to log the loss values

# Initialize the callback

TrainOutput(global_step=30, training_loss=4.431664880116781, metrics={'train_runtime':

keyboard_arrow_down Checking the performance of an intermediate checkpoint

from transformers import AutoTokenizer, TextStreamer

from transformers import AutoTokenizer, TextStreamer, AutoModelForCausalLM

prompt = "I am an engineer. I love"

inputs = tokenizer(prompt, return_tensors="pt").to(model2.device)

Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.

Start coding or generate with AI.

You might also like

def getitem(self, index):