Big Data
Elaboré par Dr. Souheyl
MALLAT
[email protected] 2023-2024
NB: Ce document doit être complété par les notes du cours
Plan
• Chapitre 1 : Introduction au Big Data
• Chapitre 2: MongoDB-Réplication et Sharding
• Chapitre 3 : Hadoop, MapReduce et le Big Data
• Chapitre 4 : Programmation MapReduce sous Hadoop
Pourquoi ce cours ?
• Selon LinkedIn, les compétences les plus recherchées
depuis plusieurs années sont :
1) Cloud and Distributed Computing (Hadoop,
Big Data)
2) Statistical Analysis and Data Mining (R, Data
Analysis)
• 10) Storage Systems and Management (SQL)
3
Objectifs généraux
Ce cours présente des outils et méthodes de traitement de gros volumes de données
(Big Data) au travers de la suite logicielle Hadoop.
Hadoop est un ensemble de services et d'applications permettant de stocker et
d'administrer des fichiers et des bases de données de très grande taille et de lancer
des programmes de calcul sur ces données.
Le principe est de répartir les données et les traitements sur un groupe de plusieurs
machines appelé amas (cluster).
Hadoop est utilisé par des entreprises comme Google, Facebook, Amazon, etc
Prérequis :
– Langage Java
– Langage Python de base
– Bases de données
4
– Systèmes d'exploitation
Objectifs généraux
• HDFS : un système de fichier distribué,
• MapReduce : API Java permettant l'écriture de programmes distribués
de recherche d'information,
• Spark : un outil concurrent de Hadoop pour exécuter des programmes,
• Cassandra : une base de données distribuée pouvant fonctionner avec
Spark,
• Pig : un outil permettant d'écrire des programmes destinés à
MapReduce avec un langage de script,
• HBase : une base de données orientée colonne, non SQL, qui s'appuie
sur HDFS,
• Hive : un SGBD appuyé sur HBase qui propose un langage de requête
ressemblant à SQL et générant des programmes MapReduce,
5
• ElasticSearch : une base de données distribuée.
Architecture d’ingestion de données
airports.csv
HDFS
NiFi path=/user/<prenom>/projet
carriers.csv
Python
plane-data.csv Kafka NiFi
script Elasticsearch
index=<prenom>_pane-data
index=<prenom>_airports
index=<prenom>_carriers
Topic = <prenom>_projet
Chapitre 1: Introduction au Big Data
Un peu d’Histoire
Il a inventé le livre pour tout noter
Un peu d’Histoire
Un peu d’Histoire
Un peu d’Histoire
Un peu d’Histoire
Un peu d’Histoire
Un peu d’Histoire
Un peu d’Histoire
Un peu d’Histoire
Un peu d’Histoire
Un peu d’Histoire
Un peu d’Histoire
Un peu d’Histoire
Un peu d’Histoire
L’évolution de données
Challenges
Big Data : Intérêts
Big Data : Sources
Les origines du Big Data ?
Préfixes multiplicatifs
• Avant de parler de BigData, connaissez-vous les préfixes ?
28
Les origines du Big Data ?
Historique et contexte
Les origines du Big Data ?
Data center
Imaginez 5000 ordinateurs connectés entre eux formant un
cluster :
30
Les origines du Big Data ?
Des progrès initiés par les géants du web
Pour bénéficier de ces ressources de stockage énorme,
les géants du web ont du développer pour leurs propres
besoins de nouvelles technologies notamment en matière
de parallélisation des traitements opérant des volumes de
données se chiffrant en plusieurs centaines de téraoctets
31
Les origines du Big Data ?
Question: Où se trouve la frontière du Big Data ?
• Des volumes qui relèvent du Big Data à partir du moment où
ces données ne peuvent plus être traitées en un temps
"raisonnables " ou "utiles« par des systèmes constitués d’un
seul nœud.
Exemple: Si l’on doit traiter ou analyser un
téraoctet de données,, en quelques minutes il
faudra impérativement recouvrir à une mise en
parallèle des traitements et du stockage sur
32
Les origines du Big Data ?
33
C’est quoi le Big Data ?
Définition1 : « data of a very large size, typically to the extent
that its manipulation and management present significant
logistical challenges » Oxford English Dictionary, «données de
très grande taille, dont la manipulation et gestion présentent des
Définition2 : « an all-encompassing term for any collection of
enjeux du point de vue logistiques »
data sets so large and complex that it becomes difficult to process
using on-hand data management tools or traditional data
processing applications » Wikipédia, « englobe tout terme pour
décrire toute collection de données tellement volumineuse et
Définition 3: « devient
complexe qu’il datasetsdifficile
whose size
de laistraiter
beyondenthe ability des
utilisant of typical
outils
database
classiquessoftware tools to
de traitement capture, store,
d’applications » manage, and analyze »
McKinsey, 2011, « collections de données dont la taille dépasse la
34
capacité de capture, stockage, gestion et analyse des systèmes de
C’est quoi le Big Data ?
Big Data :Un peu d’Histoire
C’est quoi le Big Data ?
Ce qu’on retient ...
Volume des données,
Complexité,
Limites des outils classiques de gestion des
données,
Passage à l’échelle
36
C’est quoi le Big Data ?
• Explosion de la quantité de données,
Le partage de données,
Données partagées sur plusieurs serveurs
Réplication des données
Restitution des données
37
C’est quoi le Big Data ?
• Explosion de la quantité de données,
• Le partage de données,
La recherche des données,
Comment parcourir ces données et en extraire des
informations facilement et rapidement?
Données massives stockées quelques part,
Rechercher une donnée précise,
Il faut que la réponse soit optimisée:
en terme de recherche
en terme de résultat!
38
Traitement des flux de données
Traitement des données énormes et dans un
temps précis
Egalement coût de traitement moins cher
39
C’est quoi le Big Data ?
Big Data : Est-ce une innovation
C’est quoi le Big Data ?
On parle
• Mégadonnées,
Aussi de:
• Données massives.
Question: ? Le Big Data=le volume de données
Réponse: Faux !
Il n’y a pas que la volumétrie de données
lorsqu’on parle de Big Data!!
42
BIG DATA: Caractéristiques
BIG DATA: Caractéristiques
BIG DATA: Caractéristiques
BIG DATA: Caractéristiques
3 Problématiques majeures pour les données massives
Volume
Vélocité
Variété
BIG DATA: Caractéristiques
Volume stockage
Vélocité -Traitement
Variétécollecte
Le volume
Le volume
Les 5 V de Big Data
Le volume
Le prix de stockage des données a beaucoup
diminué ces 30 dernières années: De $100,000 / Volume
Go (1980) à $0.10 / Go (2013)
Les lieux de stockage fiables (comme des SAN: - Téraoctets
Storage Area Network) ou réseaux de stockage
peuvent être très coûteux !
- Enreg. /
Choisir de ne stocker que certaines données, Archives
jugées sensibles
- Transactions
Perte de données, pouvant être très
utiles. - Tables, fichiers
Question: Comment déterminer les données qui méritent
d’être stockées? :
Les données de Transactions? Logs? Métier? Utilisateur?
Capteurs?
Réponse: Médicales? Sociales?
Aucune donnée n’est inutile.! Certaines n’ont juste
pas encore servi!
Problèmes:
▪ Comment stocker les données dans un endroit fiable, qui soit moins cher?
▪ Comment parcourir ces données et en extraire des informations
53
Le volume
Des volumes qui relèvent du Big Data à
partir du moment où ces données ne
peuvent plus être traitées en un temps
"raisonnables " ou "utiles« par des
systèmes constitués d’un seul nœud.
54
Les 5 V de Big Data
La variété
(Variety)
Pour un stockage dans des bases Volu Varié
de données ou dans des entrepôts me
- Téraoctets té
- Structurées
- Enreg. / - Non
de données, les données doivent Archives structurées
- Transactions - Probabilistes
respecter un format prédéfini! - Tables,
Mais fichiers
!
La plupart des données existantes sont non-structurées ou semi
structurées,
Les données sont sous plusieurs formats et types (fichiers xml,
json, txt, base de données relationnelle, etc),
56
La variété
(Variety)
La variété
(Variety)
Données structurées versus Données non structurées
Pourquoi utiliser le Big Data?
Un exemple pour illustrer tout ça!
z
x
temps
06:00 10:00
Tableau de
bord 62
C’est quoi le Big Data ?
Les 5 V de Big Data
La vélocité Volume Variété
/vitesse (Velocity) - Téraoctets
- Enreg. / Archives
- Structurées
- Non structurées
« Au cœur du Time to - Transactions - Probabilistes
Market
La fréquence
» d’arrivée des - Tables, fichiers
données,
Vélocité
La
Lesvitesse
donnéesdedoivent êtredes
traitement - Batch
- Temps réel
stockées à l’arrivée, parfois
données, - Processus
- Flot de données
même des Teraoctets par
jour!
Sinon, risque de les perdre!
Les entreprises se trouvent de plus en plus au milieu
d’un flux continuel de données
64