0% ont trouvé ce document utile (0 vote)
67 vues64 pages

Cours Big Data

Transféré par

hayfa bellazreg
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PPSX, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
67 vues64 pages

Cours Big Data

Transféré par

hayfa bellazreg
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PPSX, PDF, TXT ou lisez en ligne sur Scribd
Vous êtes sur la page 1/ 64

Big Data

Elaboré par Dr. Souheyl


MALLAT
[email protected]

2023-2024

NB: Ce document doit être complété par les notes du cours


Plan

• Chapitre 1 : Introduction au Big Data


• Chapitre 2: MongoDB-Réplication et Sharding
• Chapitre 3 : Hadoop, MapReduce et le Big Data
• Chapitre 4 : Programmation MapReduce sous Hadoop
Pourquoi ce cours ?
• Selon LinkedIn, les compétences les plus recherchées
depuis plusieurs années sont :

1) Cloud and Distributed Computing (Hadoop,


Big Data)
2) Statistical Analysis and Data Mining (R, Data
Analysis)
• 10) Storage Systems and Management (SQL)

3
Objectifs généraux
 Ce cours présente des outils et méthodes de traitement de gros volumes de données
(Big Data) au travers de la suite logicielle Hadoop.

 Hadoop est un ensemble de services et d'applications permettant de stocker et


d'administrer des fichiers et des bases de données de très grande taille et de lancer
des programmes de calcul sur ces données.

 Le principe est de répartir les données et les traitements sur un groupe de plusieurs
machines appelé amas (cluster).

 Hadoop est utilisé par des entreprises comme Google, Facebook, Amazon, etc

 Prérequis :
– Langage Java
– Langage Python de base
– Bases de données
4
– Systèmes d'exploitation
Objectifs généraux

• HDFS : un système de fichier distribué,


• MapReduce : API Java permettant l'écriture de programmes distribués
de recherche d'information,
• Spark : un outil concurrent de Hadoop pour exécuter des programmes,
• Cassandra : une base de données distribuée pouvant fonctionner avec
Spark,
• Pig : un outil permettant d'écrire des programmes destinés à
MapReduce avec un langage de script,
• HBase : une base de données orientée colonne, non SQL, qui s'appuie
sur HDFS,
• Hive : un SGBD appuyé sur HBase qui propose un langage de requête
ressemblant à SQL et générant des programmes MapReduce,
5
• ElasticSearch : une base de données distribuée.
Architecture d’ingestion de données

airports.csv

HDFS
NiFi path=/user/<prenom>/projet

carriers.csv

Python
plane-data.csv Kafka NiFi
script Elasticsearch
index=<prenom>_pane-data
index=<prenom>_airports
index=<prenom>_carriers
Topic = <prenom>_projet
Chapitre 1: Introduction au Big Data
Un peu d’Histoire
Il a inventé le livre pour tout noter
Un peu d’Histoire
Un peu d’Histoire
Un peu d’Histoire
Un peu d’Histoire
Un peu d’Histoire
Un peu d’Histoire
Un peu d’Histoire
Un peu d’Histoire
Un peu d’Histoire
Un peu d’Histoire
Un peu d’Histoire
Un peu d’Histoire
Un peu d’Histoire
L’évolution de données
Challenges
Big Data : Intérêts
Big Data : Sources
Les origines du Big Data ?
Préfixes multiplicatifs

• Avant de parler de BigData, connaissez-vous les préfixes ?

28
Les origines du Big Data ?
Historique et contexte
Les origines du Big Data ?
Data center
Imaginez 5000 ordinateurs connectés entre eux formant un
cluster :

30
Les origines du Big Data ?
Des progrès initiés par les géants du web

 Pour bénéficier de ces ressources de stockage énorme,

les géants du web ont du développer pour leurs propres

besoins de nouvelles technologies notamment en matière

de parallélisation des traitements opérant des volumes de

données se chiffrant en plusieurs centaines de téraoctets

31
Les origines du Big Data ?
Question: Où se trouve la frontière du Big Data ?

• Des volumes qui relèvent du Big Data à partir du moment où

ces données ne peuvent plus être traitées en un temps

"raisonnables " ou "utiles« par des systèmes constitués d’un

seul nœud.
 Exemple: Si l’on doit traiter ou analyser un

téraoctet de données,, en quelques minutes il

faudra impérativement recouvrir à une mise en

parallèle des traitements et du stockage sur


32
Les origines du Big Data ?

33
C’est quoi le Big Data ?
 Définition1 : « data of a very large size, typically to the extent

that its manipulation and management present significant

logistical challenges » Oxford English Dictionary, «données de

très grande taille, dont la manipulation et gestion présentent des


 Définition2 : « an all-encompassing term for any collection of
enjeux du point de vue logistiques »
data sets so large and complex that it becomes difficult to process

using on-hand data management tools or traditional data

processing applications » Wikipédia, « englobe tout terme pour

décrire toute collection de données tellement volumineuse et


 Définition 3: « devient
complexe qu’il datasetsdifficile
whose size
de laistraiter
beyondenthe ability des
utilisant of typical
outils

database
classiquessoftware tools to
de traitement capture, store,
d’applications » manage, and analyze »

McKinsey, 2011, « collections de données dont la taille dépasse la


34
capacité de capture, stockage, gestion et analyse des systèmes de
C’est quoi le Big Data ?
Big Data :Un peu d’Histoire
C’est quoi le Big Data ?
 Ce qu’on retient ...

 Volume des données,

 Complexité,

 Limites des outils classiques de gestion des

données,

 Passage à l’échelle

36
C’est quoi le Big Data ?
• Explosion de la quantité de données,
 Le partage de données,

 Données partagées sur plusieurs serveurs

 Réplication des données

 Restitution des données

37
C’est quoi le Big Data ?
• Explosion de la quantité de données,
• Le partage de données,
 La recherche des données,
Comment parcourir ces données et en extraire des
informations facilement et rapidement?

 Données massives stockées quelques part,

 Rechercher une donnée précise,


 Il faut que la réponse soit optimisée:
  en terme de recherche
  en terme de résultat!

38
Traitement des flux de données

 Traitement des données énormes et dans un

temps précis
 Egalement coût de traitement moins cher

39
C’est quoi le Big Data ?
Big Data : Est-ce une innovation
C’est quoi le Big Data ?
On parle
• Mégadonnées,
Aussi de:
• Données massives.
Question: ? Le Big Data=le volume de données

Réponse: Faux !

Il n’y a pas que la volumétrie de données


lorsqu’on parle de Big Data!!

42
BIG DATA: Caractéristiques
BIG DATA: Caractéristiques
BIG DATA: Caractéristiques
BIG DATA: Caractéristiques

3 Problématiques majeures pour les données massives


Volume 
Vélocité 
Variété
BIG DATA: Caractéristiques

Volume stockage
Vélocité -Traitement
Variétécollecte
Le volume
Le volume
Les 5 V de Big Data
Le volume
 Le prix de stockage des données a beaucoup
diminué ces 30 dernières années: De $100,000 / Volume
Go (1980) à $0.10 / Go (2013)
 Les lieux de stockage fiables (comme des SAN: - Téraoctets
Storage Area Network) ou réseaux de stockage
peuvent être très coûteux !
- Enreg. /
Choisir de ne stocker que certaines données, Archives
jugées sensibles
- Transactions
Perte de données, pouvant être très
utiles. - Tables, fichiers
Question: Comment déterminer les données qui méritent
d’être stockées? :
 Les données de Transactions? Logs? Métier? Utilisateur?
Capteurs?
Réponse: Médicales? Sociales?
Aucune donnée n’est inutile.! Certaines n’ont juste
pas encore servi!
Problèmes:
▪ Comment stocker les données dans un endroit fiable, qui soit moins cher?
▪ Comment parcourir ces données et en extraire des informations
53
Le volume
 Des volumes qui relèvent du Big Data à

partir du moment où ces données ne

peuvent plus être traitées en un temps

"raisonnables " ou "utiles« par des

systèmes constitués d’un seul nœud.

54
Les 5 V de Big Data
La variété
(Variety)
 Pour un stockage dans des bases Volu Varié
de données ou dans des entrepôts me
- Téraoctets té
- Structurées
- Enreg. / - Non
de données, les données doivent Archives structurées
- Transactions - Probabilistes
respecter un format prédéfini! - Tables,
Mais fichiers
!

 La plupart des données existantes sont non-structurées ou semi


structurées,
 Les données sont sous plusieurs formats et types (fichiers xml,
json, txt, base de données relationnelle, etc),

56
La variété
(Variety)
La variété
(Variety)
Données structurées versus Données non structurées
Pourquoi utiliser le Big Data?
Un exemple pour illustrer tout ça!

z
x

temps
06:00 10:00

Tableau de
bord 62
C’est quoi le Big Data ?
Les 5 V de Big Data

La vélocité Volume Variété


/vitesse (Velocity) - Téraoctets
- Enreg. / Archives
- Structurées
- Non structurées
« Au cœur du Time to - Transactions - Probabilistes
Market
La fréquence
» d’arrivée des - Tables, fichiers

données,
Vélocité
 La
Lesvitesse
donnéesdedoivent êtredes
traitement - Batch
- Temps réel
stockées à l’arrivée, parfois
données, - Processus
- Flot de données
même des Teraoctets par
jour!
Sinon, risque de les perdre!

 Les entreprises se trouvent de plus en plus au milieu


d’un flux continuel de données
64

Vous aimerez peut-être aussi