How to Build LLMs From Scratch

The document outlines the process of building Large Language Models (LLMs) from data collection to evaluation. It includes steps such as data scraping, preprocessing, model architecture selection, post-training alignment, deployment optimization, and performance benchmarking. Each phase emphasizes the importance of data quality, model training, and continuous improvement.

Uploaded by

Abdul Samad Nasir

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

16 views

How to Build LLMs From Scratch

Uploaded by

Abdul Samad Nasir

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 7

How to

Build LLMs from Data to Evaluation

Data Collection (Web : Preprocessing and Pretraining incl. Model Architecture

1 Web Scraping & Data 2 Tokenization : Dataset 3
Selection: Defining the Architecture +
GatheringScraping & Structuring + Metadata Compute & Infrastructure Setup +
Pre-Training

Curation) + Data Filtering & Generation + Data Formatting Pretraining the Model + Training
Cleaning + for Training Optimizations

Model Alignment (Post- Model Deployment & Evaluation & Benchmarking:

4 Training & RLHF):
5 Optimization: 6 Benchmarking Performance +
Supervised Fine-Tuning Quantization & Red-Teaming & Adversarial
Post-Training

(SFT) + Reinforcement Compression + Serving & Testing

Learning from Human API Deployment +
Feedback (RLHF) + Continuous Monitoring &
Constitutional AI & Safety Improvement
Fine-Tuning
How to
Build LLMs
from Data to Evaluation
© Crafted & illustrated by: Dr. Maryam Miradi

Data Collection (Web :

1 Web Scraping & Data
GatheringScraping &
Curation) + Data Filtering &
Cleaning +

Pre-Training
How to
Build LLMs
from Data to Evaluation
© Crafted & illustrated by: Dr. Maryam Miradi

Preprocessing and
2 Tokenization : Dataset
Structuring + Metadata
Generation + Data Formatting
for Training

3 Pretraining incl. Model Architecture

Selection: Defining the Architecture +
Compute & Infrastructure Setup +
Pretraining the Model + Training
Optimizations

Model Alignment (Post-Training &

4 RLHF): Supervised Fine-Tuning (SFT)
+ Reinforcement Learning from
Human Feedback (RLHF) +
Constitutional AI & Safety Fine-
Tuning

Model Deployment &

5 Optimization:
Quantization &
Compression + Serving &
API Deployment +
Continuous Monitoring &
Improvement

Evaluation & Benchmarking:

6 Benchmarking Performance +
Red-Teaming & Adversarial
Testing

Post-Training

Current Best Practices For Training LLMs From Scratch - Final
No ratings yet
Current Best Practices For Training LLMs From Scratch - Final
23 pages
LLMs in Production-MLC - GRC
No ratings yet
LLMs in Production-MLC - GRC
39 pages
Designing Machine Learning Systems by Chip Huygen by Rick
No ratings yet
Designing Machine Learning Systems by Chip Huygen by Rick
15 pages
ML A Deep Dive in The World of AI and LLM Tun'Up Munich - 241021 - 130023
No ratings yet
ML A Deep Dive in The World of AI and LLM Tun'Up Munich - 241021 - 130023
34 pages
LLM Mastery Pathways
No ratings yet
LLM Mastery Pathways
8 pages
Lecture 1
No ratings yet
Lecture 1
100 pages
sodapdf-converted (5)
No ratings yet
sodapdf-converted (5)
2 pages
PPT (1)
No ratings yet
PPT (1)
18 pages
When we deal with LLMs
No ratings yet
When we deal with LLMs
4 pages
unit-1
No ratings yet
unit-1
21 pages
How LLM's Work, How GPT Was Trained, and How GPT Generates Outputs
No ratings yet
How LLM's Work, How GPT Was Trained, and How GPT Generates Outputs
12 pages
Toc 9780138199302
No ratings yet
Toc 9780138199302
8 pages
MSFT LLMOps ArunansuPattanayak Feb14
No ratings yet
MSFT LLMOps ArunansuPattanayak Feb14
19 pages
Data Seminar
No ratings yet
Data Seminar
10 pages
Running and Fine-tuning Open Source LLMs
No ratings yet
Running and Fine-tuning Open Source LLMs
16 pages
TMLS 2022 Agenda As of Nov 4th
No ratings yet
TMLS 2022 Agenda As of Nov 4th
32 pages
1. Application Of Large Language
No ratings yet
1. Application Of Large Language
75 pages
Presentation On Ai
No ratings yet
Presentation On Ai
10 pages
ML (AutoRecovered)
No ratings yet
ML (AutoRecovered)
5 pages
Jade Abbott - Mls Hidden Tasks
No ratings yet
Jade Abbott - Mls Hidden Tasks
78 pages
AI ML Session Slides
No ratings yet
AI ML Session Slides
34 pages
Little Guide To Building Large Language Models in 2024
No ratings yet
Little Guide To Building Large Language Models in 2024
65 pages
UNIT-2
No ratings yet
UNIT-2
12 pages
AI Engineer Roadmap
No ratings yet
AI Engineer Roadmap
22 pages
cs329s 2022 02 Slides MLSD
No ratings yet
cs329s 2022 02 Slides MLSD
99 pages
PPT
No ratings yet
PPT
10 pages
Little Guide To Building Large Language Models in 2024
100% (1)
Little Guide To Building Large Language Models in 2024
65 pages
15 Ways to Lower LLM Costs
No ratings yet
15 Ways to Lower LLM Costs
17 pages
Frenos_CheckList_AI Vendor Claims
No ratings yet
Frenos_CheckList_AI Vendor Claims
4 pages
Getting Started With MLOPs 21 Page Tutorial
No ratings yet
Getting Started With MLOPs 21 Page Tutorial
21 pages
Genai
No ratings yet
Genai
26 pages
Small Language Models (SLMS)
No ratings yet
Small Language Models (SLMS)
23 pages
Stas Bekman - Machine Learning Engineering
No ratings yet
Stas Bekman - Machine Learning Engineering
217 pages
A Visual Guide to Reasoning LLMs - By Maarten Grootendorst
No ratings yet
A Visual Guide to Reasoning LLMs - By Maarten Grootendorst
45 pages
21. Deep learning for industries
No ratings yet
21. Deep learning for industries
45 pages
Lecture 3_1-ML and Data Systems Fundamentals
No ratings yet
Lecture 3_1-ML and Data Systems Fundamentals
48 pages
An Overview of Large Language Models for Statisticians
No ratings yet
An Overview of Large Language Models for Statisticians
67 pages
MLOPS Unit 1.Docx
No ratings yet
MLOPS Unit 1.Docx
10 pages
LLMOps Toolkit - Prashant Sahu
No ratings yet
LLMOps Toolkit - Prashant Sahu
12 pages
? 6-Month AIML Mastery Roadmap
No ratings yet
? 6-Month AIML Mastery Roadmap
3 pages
Large Language Models Johns Hopkins University
No ratings yet
Large Language Models Johns Hopkins University
54 pages
2023 LLMBC Whats Next
No ratings yet
2023 LLMBC Whats Next
95 pages
2023 LLMBC LLM Foundations
No ratings yet
2023 LLMBC LLM Foundations
92 pages
01 - Democratization
No ratings yet
01 - Democratization
46 pages
How To Use LLMs in Synthesizing Training Data?
100% (1)
How To Use LLMs in Synthesizing Training Data?
29 pages
LLM Fine-tuning_presentation
No ratings yet
LLM Fine-tuning_presentation
7 pages
Self-Improving LLM Architectures With Open Source
No ratings yet
Self-Improving LLM Architectures With Open Source
14 pages
KnowThyFrenemy
No ratings yet
KnowThyFrenemy
40 pages
Lecture 2 - What Is ML
No ratings yet
Lecture 2 - What Is ML
17 pages
Master Catalog for GenAI Programs for LNW-19Jul2024
No ratings yet
Master Catalog for GenAI Programs for LNW-19Jul2024
9 pages
Webinar Slides Mlops
100% (1)
Webinar Slides Mlops
35 pages
Artificial Intelligence
No ratings yet
Artificial Intelligence
21 pages
LLM Evaluation SF Big Analytics AI Camp May 31 2024 1717197239
No ratings yet
LLM Evaluation SF Big Analytics AI Camp May 31 2024 1717197239
68 pages
Evaluating LLM Models For Production Systems - Methods and Practices - Data Phoenix
No ratings yet
Evaluating LLM Models For Production Systems - Methods and Practices - Data Phoenix
61 pages
LLM’s for Code Generation
No ratings yet
LLM’s for Code Generation
31 pages
GHOST Day Applied Machine Learning Conference
No ratings yet
GHOST Day Applied Machine Learning Conference
1 page
Deep Learning and NLP With PYTHON - Course Outline
No ratings yet
Deep Learning and NLP With PYTHON - Course Outline
11 pages
Decoding Large Language Models: An exhaustive guide to understanding, implementing, and optimizing LLMs for NLP applications
From Everand
Decoding Large Language Models: An exhaustive guide to understanding, implementing, and optimizing LLMs for NLP applications
Irena Cronin
No ratings yet
Microsoft Dynamics NAV Administration
From Everand
Microsoft Dynamics NAV Administration
Sharan Oberoi
No ratings yet
Data Cleaning with Power BI: The definitive guide to transforming dirty data into actionable insights
From Everand
Data Cleaning with Power BI: The definitive guide to transforming dirty data into actionable insights
Gus Frazer
No ratings yet
CRM Capability Map v1.0
100% (1)
CRM Capability Map v1.0
9 pages
Internet
No ratings yet
Internet
22 pages
Staff Management Plan (OSIAdmin 3456)
No ratings yet
Staff Management Plan (OSIAdmin 3456)
21 pages
Practical 3.6 Hive
No ratings yet
Practical 3.6 Hive
8 pages
SDCard HXC Floppy Emulator Product Brief PDF
No ratings yet
SDCard HXC Floppy Emulator Product Brief PDF
5 pages
Ameer Parappurath: Senior Android Developer
No ratings yet
Ameer Parappurath: Senior Android Developer
3 pages
Backup Links
No ratings yet
Backup Links
89 pages
Design Pattern Part 2
No ratings yet
Design Pattern Part 2
47 pages
Fourth Sem Old Question
No ratings yet
Fourth Sem Old Question
13 pages
IoT - Building Blocks, Applications and Challenges
0% (1)
IoT - Building Blocks, Applications and Challenges
60 pages
Abstraction and Encaptulation (Updated) - 2
No ratings yet
Abstraction and Encaptulation (Updated) - 2
16 pages
Infoblox Deployment Guide Infoblox Network Insight Integration With Cisco Aci PDF
No ratings yet
Infoblox Deployment Guide Infoblox Network Insight Integration With Cisco Aci PDF
17 pages
NetEngine 8000 M14, M8 and M4 V800R023C00SPC500 Configuration Guide 09 IP Multicast
No ratings yet
NetEngine 8000 M14, M8 and M4 V800R023C00SPC500 Configuration Guide 09 IP Multicast
2,237 pages
Lightning Project Workbook
No ratings yet
Lightning Project Workbook
163 pages
Department of Information Technology Subject: SL Class/Sem: T.E./VI Roll Number Batch: List of Experiments No. Name No. Date Remark
No ratings yet
Department of Information Technology Subject: SL Class/Sem: T.E./VI Roll Number Batch: List of Experiments No. Name No. Date Remark
19 pages
Gmail Wiki
No ratings yet
Gmail Wiki
29 pages
Draft Project 2-Analyis
No ratings yet
Draft Project 2-Analyis
12 pages
Array Multiplier Using
No ratings yet
Array Multiplier Using
16 pages
BBA-1st-PracticalFile Computer Fundamental
No ratings yet
BBA-1st-PracticalFile Computer Fundamental
52 pages
ITL202 - Ktu Qbank
No ratings yet
ITL202 - Ktu Qbank
5 pages
PCN110142 00
No ratings yet
PCN110142 00
2 pages
Lesson 04 - Memory Management
No ratings yet
Lesson 04 - Memory Management
21 pages
Download, Print and Troubleshoot Springer Nature PDF Files - Nature Support
No ratings yet
Download, Print and Troubleshoot Springer Nature PDF Files - Nature Support
2 pages
CHAPTER 2 Working With Images
No ratings yet
CHAPTER 2 Working With Images
26 pages
mx-1 Cheatsheet
No ratings yet
mx-1 Cheatsheet
6 pages
BPMN 2.0 Message Events vs. Message Tasks
No ratings yet
BPMN 2.0 Message Events vs. Message Tasks
11 pages
Blockchain QB
No ratings yet
Blockchain QB
3 pages
50 Interview Questions and Answers ASA - +91 9739521088
No ratings yet
50 Interview Questions and Answers ASA - +91 9739521088
15 pages
Granite Foundation Models
No ratings yet
Granite Foundation Models
20 pages
1.written Test 2.group Discussion 3.technical Interview 4.HR Interview 1.written Test
No ratings yet
1.written Test 2.group Discussion 3.technical Interview 4.HR Interview 1.written Test
8 pages