598262625-Presentation-D-HADOooooooOP.pdf

M. ONDAPHE Christian Arthur <arthurondaphe@gmail.com> | 2021 - 2022 1
PRÉSENTATION DE
APACHE HADOOP

Architecture Big Data - Chapitre 3: Présentation d’Apache HADOOP
2
M. ONDAPHE Christian Arthur <arthurondaphe@gmail.com> | 2021 - 2022
SOMMAIRE :
● Comprendre qu’est que Hadoop et à quoi il sert
● Comprendre l’importance de HDFS (Hadoop Distributed File System)
● Comprendre le principe du modèle MapReduce
● Connaître les différentes distribution de Hadoop
● Découvrir les composants de l’écosystème d’Hadoop
● Utiliser basiquement les composants principaux d'Hadoop

3
Qu’est ce que Hadoop ?
C’est un framework Open Source qui permet de créer des applications distribuées
Créé en 2004 par Doug Cutting pour les besoins du projet Apache Nutch, un moteur de
recherche open source.
Gère la résistance aux pannes offrant ainsi de le haute disponibilité des services
En 2006, Hadoop devient un sous-projet d'Apache Lucene et en
2008 un projet indépendant de la fondation Apache.

4
L’utilisation de Hadoop
Il permet d’effectuer des stockages de très grand volumes de donnée à l’ordre des
Pétaoctets (Po) et ce à de moindres coûts
Très utilisé par les réseaux sociaux
A été à la base de la bonne réputation de certains sites de e-commerce
Beaucoup utilisé pour l’analyse des fichier non structurés (log files)

5
Le monde de l'informatique est entré dans une ère dans laquelle la principale
problématique n'est plus de comment acquérir des données mais plutôt de comment
gérer l'énorme quantité de données acquises. Cette situation atypique de Big Data
pose deux problèmes principaux :
● Comment stocker ces informations : aucun disque dur seul n'est capable de
stocker plusieurs milliers de téraoctets de données
● Comment organiser et rechercher rapidement dans ces informations : une
machine seule n'a pas la puissance nécessaire pour effectuer des recherches
suffisamment rapides sur les données ;
Pourquoi Hadoop ?

6
La solution à ces deux problèmes est d'utiliser plusieurs machines :
● En partageant leur disque dur, les machines forment un groupe de stockage bien
plus grand
● En partageant leur processeur (et/ou leur carte graphique), les machines forment
un groupe de calcul bien plus performant
Cette organisation de machines dialoguant pour partager stockage et puissance de calcul est appelée un
cluster de machine (et les machines de ce cluster sont alors appelées des nœuds).
Hadoop permet d’apporter un contexte, des outils et des conventions afin de rapidement pouvoir mettre en
place un tel cluster, y stocker des données et y exécuter des programmes de manière distribuée.
Pourquoi Hadoop ? (suite)

7
Cluster :
Un cluster est un ensemble d'ordinateurs connectés entre eux par un réseau et capables de
s'organiser pour se répartir la charge (de calcul ou de stockage). Chaque ordinateur de ce cluster
est appelé un nœud.
Hadoop :
Hadoop est un "framework" (un cadre de travail) qui va mettre en place une synchronisation entre
les différents composants de votre cluster afin d'être capable d'y stocker des données et d'y
exécuter des programmes. Hadoop un "framework" : ce n'est pas un logiciel (il n'a pas d'interface
graphique), ni même une librairie de code, mais plutôt une suite d'outils qui travaillent ensemble.
Définitions

8
Hadoop est donc une plateforme permettant d'établir un dialogue entre plusieurs
machines d'un cluster. Pour atteindre son objectif, Hadoop se structure en deux
principales couches :
● HDFS : Hadoop Distributed File System, un système de fichiers virtuel agrégant le
stockage de plusieurs machines d'un cluster
● Hadoop MapReduce : un framework logiciel écrit en Java permettant de
développer des programmes exécutables de manière distribués grâce à
l'utilisation de l'algorithme MapReduce développé par Google
Fonctions principales de Hadoop

9
Fonctionnement de Hadoop

10
Fonctionnement de Hadoop (suite)

11
Fonctionnement de Hadoop (suite)
https://www.supinfo.com/articles/single/2090-hadoop

12
C’est quoi HDFS (Hadoop Distributed File System) ?
C’est un système de fichier logique dédié au stockage de données
C’est grâce au HDFS que Hadoop parvient à stocker des pétaoctets de données
Il offre la possibilité de faire des traitements parallèles et distribués
Question:
C’est quoi la différence entre un traitement parallèle et un traitement distribué ?
Grâce à son système de réplication des données, il est tolérant aux pannes

13
Principe de fonctionnement du HDFS
https://commons.wikimedia.org/wiki/File:HDFS.png?uselang=fr

14
Qu’est ce que MapReduce ?
Il s’agit d’un modèle de programmation créé par Google
Il est utilisé par Hadoop pour effectuer des calculs parallèles et distribués sur des
données très volumineuses
La fonction Map réalise des opération dédiées à chaque élément de la liste à traiter
La fonction Reduce elle rassemble tous ces éléments et délivre le résultat sous forme
condensée

15
Principe de fonctionnement de MapReduce
https://www.oreilly.com/library/view/distributed-computing-in/9781787126992/assets/fadf32ab-b857-4d22-a334-c989b5bafdea.png

16
Principe de fonctionnement de MapReduce (suite)

17
Principe de fonctionnement de MapReduce (suite)

18
Hadoop V1 : Les trois composantes intégrées par MapReduce v1
● API:
permettant aux programmeurs l’écriture des applications MapReduce
● Framework:
Permettant l’exécution des jobs MapReduce, à savoir le Shuffle/Sort
● Resource Management:
L'infrastructure pour gérer les noeuds du cluster, allouer des
ressources et ordonnancer les jobs.
MapReduce 1
MR API
Framework
Resource
Management

19
Hadoop V1 : Les deux démons offert par MapReduce v1
● JobTracker: s’exécute sur les Name Nodes
➔ Divise le travail sur les Mappers et Reducers, s'exécutant sur les différents noeuds
● TaskTracker: s’exécute sur les Data Nodes
➔ S’exécute sur chacun des noeuds pour exécuter les vraies tâches de Map-Reduce
➔ Choisie en général de traiter (Map ou Reduce) un bloc sur la même machine que lui
➔ S’il est déjà occupé, la tâche reviendra à un autre Tracker, qui utilisera le réseau (cas rare)

20
Hadoop V1 : Fonctionnement de MapReduce v1
● Un Job Map-Reduce est divisé en plusieurs tâches appelées Mappers et Reducers
● Chaque tâche est exécutée sur un noeud du cluster
● Chaque noeud a un certain nombre de slots prédéfinis : Map Slots et Reduce Slots
● Un slot est une unité d’exécution qui représente la capacité du TaskTracker à exécuter une tâche
(Map ou Reduce) individuellement, à un moment donné
● Le JobTracker se charge à la fois :
➔ D’allouer les ressources (Mémoire, CPU, …) aux différentes tâches
➔ De coordonner les jobs Map-Reduce
➔ De réserver et ordonnancer les slots et de gérer les autres en allouant les slots au besoin

21
Hadoop V1 : Problèmes rencontrés avec MapReduce v1
● Le JobTracker s’exécute sur une seule machines, et eﬀectue plusieurs tâches (gestion de
ressources, ordonnancement et monitoring des tâches …)
Problème de scalabilité: les DataNodes sous exploités, et les noeuds par cluster limité à 4000
● Si le JobTracker tombe en panne, tous les Jobs doivent redémarrer
Problème de disponibilité: SPoF (Single Point of Failure)
● Le nombre de Map Slots et de Reduce Slots est pré-déﬁni et limité
Problème d’exploitation: si on a plusieurs Map Jobs à exécuter, et que les Map Slots sont pleins,
les Reduce Slots ne peuvent pas être utilisés, et vice-versa.
● Le JobTracker est fortement intégré à MapReduce
Problème d’interopérabilité: impossible d’exécuter les applications non MapReduce sur HDFS

22
Hadoop V2 : Les composants de MapReduce v2
● MapReduce V2 sépare la gestion des ressources de celle des tâches Map
et Reduce
Problème de scalabilité: les DataNodes sous exploités, et les noeuds par cluster
sont limités à 4000
● Pas de notion de Slots
Les ressources (CPU, mémoire, …) sont allouées aux applications à la demande
● Apparition de nouveaux démons
Les fonctionnalités du JobTracker sont déclarés vers le “Application Master”
Un cluster peut avoir plusieurs “Application Master”
● Support pour les application MR et non-MR
MapReduce 2
MR API
Framework
YARN
YARN API
Resource
Management

23
Hadoop V2 : Les nouveaux démons MapReduce v2
● Resource Manager (RM) : Tourne sur le noeud master, eﬀectue
l’ordonnancement global des ressources et permet l’arbitrage des ressources
entre plusieurs applications
● Application Master (AM) : Un seul par application, s’exécute sur un container,
et demande plusieurs containers pour exécuter les tâches de l’application
● Node Manager : S’exécute sur les noeuds esclaves et communique avec le RM
● Containers : Créés par le RM à la demande, et se voit allouer des ressources
sur le noeud esclave
Resource
Manager
3 GB
1 Core
Node Manager
Resource
Management
1 GB
1 Core

24
Hadoop V2 : Lancement d’une application dans un cluster YARN
Resource
Manager
Node Manager
Node Manager
Node Manager
Node Manager
Application
Master
1. Lance application APP01
2. Déclenche

25
Resource
Manager
Node Manager
Node Manager
Node Manager
Node Manager
Application
Master
3. Demande de ressources
4. Allocation
de container
4. Allocation
de container

26
Resource
Manager
Node Manager
Node Manager
Node Manager
Node Manager
Application
Master
5. IDs des Containers

27
Resource
Manager
Node Manager
Node Manager
Node Manager
Node Manager
Application
Master
6. Déclenche
6. Déclenche

28
Resource
Manager
Node Manager
Node Manager
Node Manager
Node Manager
Application
Master
1. Word count of
Data01.txt
2. Déclenche
4. Allocation
Data01.txt
DataBlock02
DataBlock02
4. Allocation

29
Resource
Manager
Node Manager
Node Manager
Node Manager
Node Manager
Application
Master
1. Word count of
Data01.txt
WordCount
Map Task
WordCount
Map Task
Data01.txt
DataBlock02
DataBlock02
6. Déclenche
6. Déclenche

30
Resource
Manager
Node Manager
Node Manager
Node Manager
Node Manager
Application
Master
Word count of Data01.txt
WordCount
Map Task
WordCount
Map Task
8. Allocation
Data01.txt
DataBlock02
DataBlock02
8. Allocation

31
Resource
Manager
Node Manager
Node Manager
Node Manager
Node Manager
Application
Master
Word count of Data01.txt
WordCount
Map Task
WordCount
Map Task
Data01.txt
DataBlock02
DataBlock02
WordCount
Reduce Task
WordCount
Reduce Task
10. Déclenche
10. Déclenche

32
YARN et l'écosystème Hadoop
La description de Hadoop comme possédant 2 couches (MapReduce et HDFS) est correcte pour la
version 1 de Hadoop. Depuis la version 2, Hadoop a adopté une troisième couche : YARN ("Yet Another
Resource Negotiator"), un outil de gestion des ressources distribuée.
YARN provient d'un découpage de la première version de Hadoop MapReduce en deux sous-couches :
● l'une dédiée à la gestion de la puissance de calcul et de la répartition de la charge entre les
machines d'un cluster (YARN)
● l'autre dédiée à l'implémentation de l'algorithme MapReduce en utilisant cette première couche

33
Structure de Hadoop 2 : YARN !
Ce découpage a amené de nombreux autres outils (liés ou indépendants d'Apache Hadoop) à profiter de
l’environnement HDFS comme moyen de stocker aisément de grandes quantités de données sans
nécessairement MapReduce. Un écosystème d'outils liés à Hadoop a alors émergé et est de nos jours
très développé.

34
L’écosystème de Hadoop :

35

36

37
Pour les distributions de Hadoop, il s'agit de :
Différentes versions payantes du framework
Versions personnalisées et Open Sources du framework
Versions offrant des outils de gestion et d’administration
Versions offrant des supports de documentations et des formations gratuites ou
payantes

38
Des questions?

598262625-Presentation-D-HADOooooooOP.pdf

Contenu connexe

Similaire à 598262625-Presentation-D-HADOooooooOP.pdf (20)

Plus de RihabBENLAMINE (20)

598262625-Presentation-D-HADOooooooOP.pdf