0% ont trouvé ce document utile (0 vote)

67 vues64 pages

Cours Big Data

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PPSX, PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

67 vues64 pages

Cours Big Data

Transféré par

hayfa bellazreg

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PPSX, PDF, TXT ou lisez en ligne sur Scribd

Vous êtes sur la page 1/ 64

Big Data

Elaboré par Dr. Souheyl

MALLAT
[email protected]

2023-2024

NB: Ce document doit être complété par les notes du cours

Plan

• Chapitre 1 : Introduction au Big Data

• Chapitre 2: MongoDB-Réplication et Sharding
• Chapitre 3 : Hadoop, MapReduce et le Big Data
• Chapitre 4 : Programmation MapReduce sous Hadoop
Pourquoi ce cours ?
• Selon LinkedIn, les compétences les plus recherchées
depuis plusieurs années sont :

1) Cloud and Distributed Computing (Hadoop,

Big Data)
2) Statistical Analysis and Data Mining (R, Data
Analysis)
• 10) Storage Systems and Management (SQL)

3
Objectifs généraux
 Ce cours présente des outils et méthodes de traitement de gros volumes de données
(Big Data) au travers de la suite logicielle Hadoop.

 Hadoop est un ensemble de services et d'applications permettant de stocker et

d'administrer des fichiers et des bases de données de très grande taille et de lancer
des programmes de calcul sur ces données.

 Le principe est de répartir les données et les traitements sur un groupe de plusieurs
machines appelé amas (cluster).

 Hadoop est utilisé par des entreprises comme Google, Facebook, Amazon, etc

 Prérequis :
– Langage Java
– Langage Python de base
– Bases de données
4
– Systèmes d'exploitation
Objectifs généraux

• HDFS : un système de fichier distribué,

• MapReduce : API Java permettant l'écriture de programmes distribués
de recherche d'information,
• Spark : un outil concurrent de Hadoop pour exécuter des programmes,
• Cassandra : une base de données distribuée pouvant fonctionner avec
Spark,
• Pig : un outil permettant d'écrire des programmes destinés à
MapReduce avec un langage de script,
• HBase : une base de données orientée colonne, non SQL, qui s'appuie
sur HDFS,
• Hive : un SGBD appuyé sur HBase qui propose un langage de requête
ressemblant à SQL et générant des programmes MapReduce,
5
• ElasticSearch : une base de données distribuée.
Architecture d’ingestion de données

airports.csv

HDFS
NiFi path=/user/<prenom>/projet

carriers.csv

Python
plane-data.csv Kafka NiFi
script Elasticsearch
index=<prenom>_pane-data
index=<prenom>_airports
index=<prenom>_carriers
Topic = <prenom>_projet
Chapitre 1: Introduction au Big Data
Un peu d’Histoire
Il a inventé le livre pour tout noter
Un peu d’Histoire
Un peu d’Histoire
Un peu d’Histoire
Un peu d’Histoire
Un peu d’Histoire
Un peu d’Histoire
Un peu d’Histoire
Un peu d’Histoire
Un peu d’Histoire
Un peu d’Histoire
Un peu d’Histoire
Un peu d’Histoire
Un peu d’Histoire
L’évolution de données
Challenges
Big Data : Intérêts
Big Data : Sources
Les origines du Big Data ?
Préﬁxes multiplicatifs

• Avant de parler de BigData, connaissez-vous les préﬁxes ?

28
Les origines du Big Data ?
Historique et contexte
Les origines du Big Data ?
Data center
Imaginez 5000 ordinateurs connectés entre eux formant un
cluster :

30
Les origines du Big Data ?
Des progrès initiés par les géants du web

 Pour bénéficier de ces ressources de stockage énorme,

les géants du web ont du développer pour leurs propres

besoins de nouvelles technologies notamment en matière

de parallélisation des traitements opérant des volumes de

données se chiffrant en plusieurs centaines de téraoctets

31
Les origines du Big Data ?
Question: Où se trouve la frontière du Big Data ?

• Des volumes qui relèvent du Big Data à partir du moment où

ces données ne peuvent plus être traitées en un temps

"raisonnables " ou "utiles« par des systèmes constitués d’un

seul nœud.
 Exemple: Si l’on doit traiter ou analyser un

téraoctet de données,, en quelques minutes il

faudra impérativement recouvrir à une mise en

parallèle des traitements et du stockage sur

32
Les origines du Big Data ?

33
C’est quoi le Big Data ?
 Définition1 : « data of a very large size, typically to the extent

that its manipulation and management present significant

logistical challenges » Oxford English Dictionary, «données de

très grande taille, dont la manipulation et gestion présentent des

 Définition2 : « an all-encompassing term for any collection of
enjeux du point de vue logistiques »
data sets so large and complex that it becomes difficult to process

using on-hand data management tools or traditional data

processing applications » Wikipédia, « englobe tout terme pour

décrire toute collection de données tellement volumineuse et

 Définition 3: « devient
complexe qu’il datasetsdifficile
whose size
de laistraiter
beyondenthe ability des
utilisant of typical
outils

database
classiquessoftware tools to
de traitement capture, store,
d’applications » manage, and analyze »

McKinsey, 2011, « collections de données dont la taille dépasse la

34
capacité de capture, stockage, gestion et analyse des systèmes de
C’est quoi le Big Data ?
Big Data :Un peu d’Histoire
C’est quoi le Big Data ?
 Ce qu’on retient ...

 Volume des données,

 Complexité,

 Limites des outils classiques de gestion des

données,

 Passage à l’échelle

36
C’est quoi le Big Data ?
• Explosion de la quantité de données,
 Le partage de données,

 Données partagées sur plusieurs serveurs

 Réplication des données

 Restitution des données

37
C’est quoi le Big Data ?
• Explosion de la quantité de données,
• Le partage de données,
 La recherche des données,
Comment parcourir ces données et en extraire des
informations facilement et rapidement?

 Données massives stockées quelques part,

 Rechercher une donnée précise,

 Il faut que la réponse soit optimisée:
  en terme de recherche
  en terme de résultat!

38
Traitement des flux de données

 Traitement des données énormes et dans un

temps précis
 Egalement coût de traitement moins cher

39
C’est quoi le Big Data ?
Big Data : Est-ce une innovation
C’est quoi le Big Data ?
On parle
• Mégadonnées,
Aussi de:
• Données massives.
Question: ? Le Big Data=le volume de données

Réponse: Faux !

Il n’y a pas que la volumétrie de données

lorsqu’on parle de Big Data!!

42
BIG DATA: Caractéristiques
BIG DATA: Caractéristiques
BIG DATA: Caractéristiques
BIG DATA: Caractéristiques

3 Problématiques majeures pour les données massives

Volume 
Vélocité 
Variété
BIG DATA: Caractéristiques

Volume stockage
Vélocité -Traitement
Variétécollecte
Le volume
Le volume
Les 5 V de Big Data
Le volume
 Le prix de stockage des données a beaucoup
diminué ces 30 dernières années: De $100,000 / Volume
Go (1980) à $0.10 / Go (2013)
 Les lieux de stockage fiables (comme des SAN: - Téraoctets
Storage Area Network) ou réseaux de stockage
peuvent être très coûteux !
- Enreg. /
Choisir de ne stocker que certaines données, Archives
jugées sensibles
- Transactions
Perte de données, pouvant être très
utiles. - Tables, fichiers
Question: Comment déterminer les données qui méritent
d’être stockées? :
 Les données de Transactions? Logs? Métier? Utilisateur?
Capteurs?
Réponse: Médicales? Sociales?
Aucune donnée n’est inutile.! Certaines n’ont juste
pas encore servi!
Problèmes:
▪ Comment stocker les données dans un endroit fiable, qui soit moins cher?
▪ Comment parcourir ces données et en extraire des informations
53
Le volume
 Des volumes qui relèvent du Big Data à

partir du moment où ces données ne

peuvent plus être traitées en un temps

"raisonnables " ou "utiles« par des

systèmes constitués d’un seul nœud.

54
Les 5 V de Big Data
La variété
(Variety)
 Pour un stockage dans des bases Volu Varié
de données ou dans des entrepôts me
- Téraoctets té
- Structurées
- Enreg. / - Non
de données, les données doivent Archives structurées
- Transactions - Probabilistes
respecter un format prédéfini! - Tables,
Mais fichiers
!

 La plupart des données existantes sont non-structurées ou semi

structurées,
 Les données sont sous plusieurs formats et types (fichiers xml,
json, txt, base de données relationnelle, etc),

56
La variété
(Variety)
La variété
(Variety)
Données structurées versus Données non structurées
Pourquoi utiliser le Big Data?
Un exemple pour illustrer tout ça!

z
x

temps
06:00 10:00

Tableau de
bord 62
C’est quoi le Big Data ?
Les 5 V de Big Data

La vélocité Volume Variété

/vitesse (Velocity) - Téraoctets
- Enreg. / Archives
- Structurées
- Non structurées
« Au cœur du Time to - Transactions - Probabilistes
Market
La fréquence
» d’arrivée des - Tables, fichiers

données,
Vélocité
 La
Lesvitesse
donnéesdedoivent êtredes
traitement - Batch
- Temps réel
stockées à l’arrivée, parfois
données, - Processus
- Flot de données
même des Teraoctets par
jour!
Sinon, risque de les perdre!

 Les entreprises se trouvent de plus en plus au milieu

d’un flux continuel de données
64

Vous aimerez peut-être aussi

651a28acd51e49055a9b1e46 62043963383
100% (1)
651a28acd51e49055a9b1e46 62043963383
2 pages
Linux Privilege Escalation
100% (1)
Linux Privilege Escalation
11 pages
Partie2 Presentation Conteneurisation
Pas encore d'évaluation
Partie2 Presentation Conteneurisation
61 pages
WS 011t00a
Pas encore d'évaluation
WS 011t00a
36 pages
Anthologie Littéraire Du Moyen Âge 1 Word
Pas encore d'évaluation
Anthologie Littéraire Du Moyen Âge 1 Word
24 pages
Module 2: Configuration Du Stockage Local
Pas encore d'évaluation
Module 2: Configuration Du Stockage Local
28 pages
VS5ICM M02 Virtualization
Pas encore d'évaluation
VS5ICM M02 Virtualization
45 pages
d51.2 - Me Eit-Aibd - Octobre 2021 - Corrigé
Pas encore d'évaluation
d51.2 - Me Eit-Aibd - Octobre 2021 - Corrigé
10 pages
Efm m105
Pas encore d'évaluation
Efm m105
1 page
Controle 3AC Degistion Et Alimentation DAISSI127
Pas encore d'évaluation
Controle 3AC Degistion Et Alimentation DAISSI127
2 pages
Connecteurs Logiques
Pas encore d'évaluation
Connecteurs Logiques
3 pages
22741A FRA Companion PDF
Pas encore d'évaluation
22741A FRA Companion PDF
167 pages
Série N°4 3ème Année Collégiale 1èr Semsestre 2019-2020 Prof - Elmasaoudy (WWW - Pc1.ma)
Pas encore d'évaluation
Série N°4 3ème Année Collégiale 1èr Semsestre 2019-2020 Prof - Elmasaoudy (WWW - Pc1.ma)
1 page
CCNA 3 v7 Modules 6 - 8 - Réponses À L'examen WAN Concepts
Pas encore d'évaluation
CCNA 3 v7 Modules 6 - 8 - Réponses À L'examen WAN Concepts
91 pages
TP Hive
Pas encore d'évaluation
TP Hive
4 pages
Chapitre 1 - Introduction A La Securite Informatique Togo - 2023
Pas encore d'évaluation
Chapitre 1 - Introduction A La Securite Informatique Togo - 2023
48 pages
Ccna 2 Chapitre 1 v5 Francais PDF
Pas encore d'évaluation
Ccna 2 Chapitre 1 v5 Francais PDF
7 pages
Atelier6 Hive On Cloudera
Pas encore d'évaluation
Atelier6 Hive On Cloudera
7 pages
1 - Introduction DevOps
Pas encore d'évaluation
1 - Introduction DevOps
29 pages
Ccna 1 Chapitre 4 v5 Francais PDF
Pas encore d'évaluation
Ccna 1 Chapitre 4 v5 Francais PDF
8 pages
Emsi Centre Tanger: Semestre 1
Pas encore d'évaluation
Emsi Centre Tanger: Semestre 1
1 page
Module 1: Installation, Mise À Niveau Et Migration Des Serveurs Et Des Charges de Travail
100% (1)
Module 1: Installation, Mise À Niveau Et Migration Des Serveurs Et Des Charges de Travail
37 pages
Docker Intro
Pas encore d'évaluation
Docker Intro
32 pages
Quiz Day1
Pas encore d'évaluation
Quiz Day1
7 pages
Exam Juin 2022 - Sujet
Pas encore d'évaluation
Exam Juin 2022 - Sujet
15 pages
Ccna 2 Chapitre 3 v5 Francais PDF
Pas encore d'évaluation
Ccna 2 Chapitre 3 v5 Francais PDF
10 pages
Devoir 1 Sem 1 SVT 3AC Modele 3
Pas encore d'évaluation
Devoir 1 Sem 1 SVT 3AC Modele 3
2 pages
3.3.12 Packet Tracer - Vlan Configuration - FR FR
Pas encore d'évaluation
3.3.12 Packet Tracer - Vlan Configuration - FR FR
3 pages
TP Pfsense P23
Pas encore d'évaluation
TP Pfsense P23
25 pages
EFF 2017 (THéorique) - OUSSAMA NAZIH
Pas encore d'évaluation
EFF 2017 (THéorique) - OUSSAMA NAZIH
4 pages
Chapitre 4 B - IDS
Pas encore d'évaluation
Chapitre 4 B - IDS
33 pages
Nosql TP
Pas encore d'évaluation
Nosql TP
42 pages
Cours-4 - Interrogation Big Data-Hive
Pas encore d'évaluation
Cours-4 - Interrogation Big Data-Hive
8 pages
Quiz Risk Management ISO 27001
Pas encore d'évaluation
Quiz Risk Management ISO 27001
2 pages
Chapitre 6 - Audits and Evaluations
Pas encore d'évaluation
Chapitre 6 - Audits and Evaluations
64 pages
Cours Securite SE
Pas encore d'évaluation
Cours Securite SE
15 pages
Microsoft Official Course: Implémentation D'un Système de Stockage Local
0% (1)
Microsoft Official Course: Implémentation D'un Système de Stockage Local
26 pages
Ccna 1 Chapitre 5 v5 Francais PDF
100% (1)
Ccna 1 Chapitre 5 v5 Francais PDF
9 pages
Chapitre 0 - Prise de Contact Et Introduction - 2025
Pas encore d'évaluation
Chapitre 0 - Prise de Contact Et Introduction - 2025
30 pages
Technologies Big Data: Zouhair Elamrani Abou Elassad
Pas encore d'évaluation
Technologies Big Data: Zouhair Elamrani Abou Elassad
75 pages
Screenshot 2023-02-25 at 11.18.21
Pas encore d'évaluation
Screenshot 2023-02-25 at 11.18.21
122 pages
1 Partie: Restitution Des Connaissances (8 Points) : SHNS01
Pas encore d'évaluation
1 Partie: Restitution Des Connaissances (8 Points) : SHNS01
5 pages
Cours Hive Hem
Pas encore d'évaluation
Cours Hive Hem
61 pages
Rapport de TP SécuRéseaux - Groupe de Tierno DIALLO - Birane Et Marie-Rose
Pas encore d'évaluation
Rapport de TP SécuRéseaux - Groupe de Tierno DIALLO - Birane Et Marie-Rose
128 pages
Resume-Theorique-M104-2412-61d5b537758b7-3 (2) - Converti
Pas encore d'évaluation
Resume-Theorique-M104-2412-61d5b537758b7-3 (2) - Converti
265 pages
Cours DBA Oracle 2021
Pas encore d'évaluation
Cours DBA Oracle 2021
97 pages
Hyperviseurs
Pas encore d'évaluation
Hyperviseurs
2 pages
Présentation Sur DevSecOps
100% (1)
Présentation Sur DevSecOps
8 pages
VER Sion Provis Oire: Travaux Pratiques - Filière Infrastructure Digitale
Pas encore d'évaluation
VER Sion Provis Oire: Travaux Pratiques - Filière Infrastructure Digitale
283 pages
Microsoft Official Course: Implémentation D'un Système de Stockage Local
50% (2)
Microsoft Official Course: Implémentation D'un Système de Stockage Local
26 pages
TP1 Hadoop - HDFS
Pas encore d'évaluation
TP1 Hadoop - HDFS
3 pages
WS 011t00a
Pas encore d'évaluation
WS 011t00a
42 pages
Module 5 HYPER V
Pas encore d'évaluation
Module 5 HYPER V
57 pages
K8S 2122 Rattrapage V2
Pas encore d'évaluation
K8S 2122 Rattrapage V2
6 pages
2015 08 21 TD2 DNS 13-14
Pas encore d'évaluation
2015 08 21 TD2 DNS 13-14
2 pages
CEH-MODULE 3 en FR
100% (1)
CEH-MODULE 3 en FR
5 pages
3.2 Configurer Le Protocole de Routage RIP Sur Un Routeur
Pas encore d'évaluation
3.2 Configurer Le Protocole de Routage RIP Sur Un Routeur
4 pages
Cours Big Data
Pas encore d'évaluation
Cours Big Data
64 pages
Big Data
Pas encore d'évaluation
Big Data
48 pages
Intro Big Data
Pas encore d'évaluation
Intro Big Data
24 pages
Chapitre 2 Classe Et Objet
Pas encore d'évaluation
Chapitre 2 Classe Et Objet
45 pages
Support de Cours Microprocesseurs Et Interfaces Part - 1 2
Pas encore d'évaluation
Support de Cours Microprocesseurs Et Interfaces Part - 1 2
29 pages
TP3 - Recherche D - Information 2
Pas encore d'évaluation
TP3 - Recherche D - Information 2
6 pages
TP1 - Bases Documentaires Et Moteur de Recherche
Pas encore d'évaluation
TP1 - Bases Documentaires Et Moteur de Recherche
12 pages
Programmation Python FilesxTry - Except 1
Pas encore d'évaluation
Programmation Python FilesxTry - Except 1
23 pages
Cours Systeme Repartit 2
Pas encore d'évaluation
Cours Systeme Repartit 2
10 pages
MDX Olap
Pas encore d'évaluation
MDX Olap
32 pages
Admin Sys - Raid (Suite) & LVM
Pas encore d'évaluation
Admin Sys - Raid (Suite) & LVM
26 pages
Cours Big Data
Pas encore d'évaluation
Cours Big Data
59 pages
Cybersécurité
Pas encore d'évaluation
Cybersécurité
79 pages
Programme Master
Pas encore d'évaluation
Programme Master
3 pages
Cours XML Final
Pas encore d'évaluation
Cours XML Final
382 pages
TD1 STM 1
Pas encore d'évaluation
TD1 STM 1
2 pages
Projet Big Data
Pas encore d'évaluation
Projet Big Data
19 pages
Data Mining - SLIQ SSDM
Pas encore d'évaluation
Data Mining - SLIQ SSDM
12 pages
Introduction en Informatique
Pas encore d'évaluation
Introduction en Informatique
5 pages
Janvier 2024
Pas encore d'évaluation
Janvier 2024
1 page
Cours Bi Partie 1
Pas encore d'évaluation
Cours Bi Partie 1
45 pages
Architecture Du Web
Pas encore d'évaluation
Architecture Du Web
77 pages
Devoire Big Data
Pas encore d'évaluation
Devoire Big Data
15 pages
Cours Informatique Décisionnelle - Chapitre 2
Pas encore d'évaluation
Cours Informatique Décisionnelle - Chapitre 2
18 pages
Infrastructure PKI
Pas encore d'évaluation
Infrastructure PKI
163 pages
Serie V
Pas encore d'évaluation
Serie V
9 pages
Chapitre 4
Pas encore d'évaluation
Chapitre 4
18 pages
0556 Programmation Web Avancee Cote Client
Pas encore d'évaluation
0556 Programmation Web Avancee Cote Client
84 pages
Chapitre 5: Étude de Cas Openstack: Matière: Enseignante: Niveau
Pas encore d'évaluation
Chapitre 5: Étude de Cas Openstack: Matière: Enseignante: Niveau
30 pages
3 Cours RDFS BE 4P
Pas encore d'évaluation
3 Cours RDFS BE 4P
12 pages
Stockage Des Données Massives
Pas encore d'évaluation
Stockage Des Données Massives
2 pages
Chap1.IntroIA New
Pas encore d'évaluation
Chap1.IntroIA New
25 pages
Lecture 7
Pas encore d'évaluation
Lecture 7
71 pages
E-COM2 Forme Normal Et Dependance Fonctionel
Pas encore d'évaluation
E-COM2 Forme Normal Et Dependance Fonctionel
4 pages
Reconnaissance de Formes & Images: Asma Ben Abdallah M. C. en Informatique
Pas encore d'évaluation
Reconnaissance de Formes & Images: Asma Ben Abdallah M. C. en Informatique
110 pages
Revision
Pas encore d'évaluation
Revision
2 pages
Rapport de Projet
Pas encore d'évaluation
Rapport de Projet
22 pages
Cours Informatique (GI - L1 - S2) - Leçon 1
Pas encore d'évaluation
Cours Informatique (GI - L1 - S2) - Leçon 1
20 pages
DRCadreadmin RH
Pas encore d'évaluation
DRCadreadmin RH
3 pages
Memoire Pouvoir
Pas encore d'évaluation
Memoire Pouvoir
8 pages