SlideShare une entreprise Scribd logo
BIG DATA
ASSURÉ ET PRÉPARÉ PAR: ASMA NAFTI
Plan général
1. Introduction aux Big Data
2. Hadoop et HDFS
3. Approche de Traitement MapReduce
4. Traitement Avancé Big Data
5. NOSQL
6. Architectures Big Data
2
1
1
2
2024/2025 Esiet
Introduction aux Big
Data
Plan
Constats
Définition
Les 3V et les V supplémentaires
Bénéfices et challenges
Exemples d’applications
Traitement des données
Etapes d’un projet Big Data
 Nouveaux métiers
Domaines connexes
4
2
3
4
Constats
Explosion des données
issues de plusieurs sources
telles que :
Réseaux sociaux ;
Signaux GPS de téléphones mobiles ;
Radio identification (RFID tags) ;
Logs ;
Capteurs utilisés pour collecter des
informations climatiques, de trafic et de
consommation ;
Transactions d’achat en ligne.
5
Constats
Chaque jour nous générons 2,5 exaoctets
de données soit 912,5 exaoctets par an.
En 2018, on estime que 90% des données
disponibles dans le monde ont été créées
pendant les deux dernières années.
6
3
5
6
Constat
s
7
4.5 milliards d’utilisateurs
internet en 2019
5 milliards en 2020
5.4 milliards en 2022 soit 69%
de la popopulation globale
https://
www.internetworldstats.com/stats.ht
m
Twitter : 500 millions de
tweets chaque jour
200 milliards par an
https://
www.dsayce.com/social-
media/tweets-day/
Chaque jour :
Plus de 500 TO de
nouvelles données
2.7 milliards de « j’aime
»
300 millions de photos
chargées 70000
requêtes demandées
Source :
lemondeinformatique.fr
Constats
• Chefs d’entreprise prennent fréquemment des
décisions basées sur des informations en lesquelles ils
n’ont pas confiance, ou qu’ils n’ont pas.
• Chefs d’entreprise disent qu’ils n’ont pas accès aux
informations dont ils ont besoin pour faire leur
travail.
• Des DSI (Directeurs des SI) veulent exploiter «
L’informatique décisionnelle et analytique » pour
améliorer leur compétitivité
1/3
1/2
83%
• Des PDG ont besoin d’améliorer la capture et la
compréhension des informations pour prendre
des décisions plus rapidement.
60%
8
7
8 4
Constats
Intérêt de stocker, d’analyser et d’exploiter
ces données
9
Définition
Big Data = Grosses données = Méga
données = Données massives
Big Data : ensemble de données massives
ayant une structure variée et complexe avec
des difficultés de stockage, d'analyse et de
visualisation.
10
9
10
5
Définition:
Comment les stocker ?les transmettre? les
analyser pour des prises de décision?  Il faut utiliser
des plateformes et des frameworks spécifiques.
11
Bénéfices
 Créer du sens et des connaissances à partir
de données non enrichies et non structurées ;
 Aider les décideurs à prendre les « bonnes
» décisions au bon moment ;
 Analyser des tendances sur la durée ;
 Prédire des phénomènes, des
comportements…
12
11
12
6
Challenges
Réunir un grand volume de données
variées pour trouver de nouvelles
idées.
Capturer des données créées
rapidement.
Sauvegarder toutes ces données.
Traiter ces données et les utiliser.
13
Les 3V du Big data
14
Volume Variété
Vitesse
13
7
14
Volume
En une minute, il y a sur internet :
30h de vidéos
204 millions d’e-mails
300 mille tweets
Données numériques créées dans le
monde :
1,2 zettaoctets/an en 2010
1,8 zettaoctets/an en 2011
2,8 zettaoctets/an en 2012
40 zettaoctets/an en 20205
Volume
Quelles données doivent être stockées ?
Problèmes :
Comment stocker les données dans un endroit
fiable, qui soit moins cher ?
Comment parcourir ces données
et en extraire des
informations facilement et rapidement?
16
8
15
16
Cours Big Data – Chapitre I
Variété
Données structurées
◦ Schéma prédéfini imposé aux données
◦ Très structurées
◦ Stockées dans un système de base de
données relationnel.
20% des données
17
Variété
Données semi-structurées
◦ XML, SGML,. . .
◦ Tweets
◦ BibTeX
◦ Les logs
18
17
9
18
Cours Big Data – Chapitre I
Variété
Données non-structurées
Les données ne sont pas organisées
◦ Multimédia : vidéos, photos, audio
◦ Messages emails
◦ Texte libre
◦ Présentations
◦ Rapports
◦ . . .
19
Vitesse (Vélocité)
oPlusieurs données sont générées rapidement et ont
besoin d’être traitées rapidement.
oLe défi consiste à gérer, analyser, visualiser et
découvrir les connaissances à partir des données
recueillies en temps opportun et de manière
évolutive.
o Décisions en
retard
opportunités ratées
20
19
10
20
Cours Big Data – Chapitre I
Vitesse
E-Promotions : selon votre localisation actuelle,
votre historique d’achat, ce que vous aimez envoi
de promotions dans les magasins de votre entourage.
Suivi santé : capteurs surveillants vos activités et
votre corps des mesures anormales exigent une
réaction immédiate
21
Les V supplémentaires…
Véracité
o Proposée par IBM
o Avec l’augmentation de la quantité, la qualité et la
précision des données diminuent.
o Les solutions big data doivent remédier à cela.
oBesoin d’une grande rigueur dans la
collecte, l’enrichissement et le croisement des données.
22
21
11
22
Cours Big Data – Chapitre I
Les V supplémentaires…
Valeur
o La valeur ajoutée des données ou des informations
extraites
o Il faut transformer les données en valeurs exploitables
o Sans une réelle valeur, ce n’est qu’un gaspillage de
ressources
23
Les V supplémentaires…
Visualisation
Représentation des données sous formes
intelligentes, pratiques et interactives
24
23
12
24
Cours Big Data – Chapitre I
Les V supplémentaires…
Variabilité
Les données ont une
signification en perpétuelle
évolution : lol, émoticônes,…
25
Technologies Big Data
Plusieurs technologies Big Data classées selon leurs
objectifs :
26
13
25
26
Cours Big Data – Chapitre I
Exemples d’applications
Ressources humaines et recrutement :
Méthode utilisée surtout par les cabinets de recrutement et les
grands groupes afin de mieux cibler les candidats au
recrutement.
 Etablir un profil type de candidat pour chaque poste.
Récolter les données à partir des réseaux sociaux (LinkedIn,
Google +, Facebook et Twitter) et des bases de données en
ligne.
A l’aide des outils d’analyse, établir des profils permettant
de repérer les candidats potentiels en amont d’un
recrutement.
27
Exemples d’applications
Marketing prédictif
 Nouvelles méthodes permettant de bien cibler les clients.
 Collecter les données à partir des sources disponibles :
• Dans le cas où les données possédées ne sont pas suffisantes, il
est possible d’acheter des BD existantes ou d’utiliser l’open data.
 Effectuer une analyse approfondie des clients et de
l’efficacité des campagnes réalisées.
 Augmenter l’efficacité des campagnes en personnalisant
les offres.
28
14
27
28
Cours Big Data – Chapitre I
Exemples d’applications
Maintenance prédictive
Méthode utilisée dans le milieu industriel pour réduire les
coûts de maintenance des équipements.
 Installation de capteurs sur les machines.
Utiliser les données récuperées pour planifier l’entretien de
celles-ci.
Cette méthode sera de plus en plus facile avec l’essor des
objets connectés.
29
Exemples d’applications
Santé
Les solutions Big Data révolutionnent la recherche
dans le domaine de la santé :
Mieux traquer les agents pathogènes :
◦ Surveiller les maladies infectieuses ;
◦ Alerte en cas d’épidémie : grippe, infections
alimentaires (salmonelloses, listérioses…), rage,
méningites bactériennes...
La génomique : reine du big data :
◦ Réduction considérable des coûts du séquençage
du génome humain !
Analyse d’images médicales ou de microscopie
30
15
29
30
Cours Big Data – Chapitre I
Exemples d’applications
 Détection de fraudes
 Réduction de crimes
 Surveillance
31
Traitement des données
Trois grandes classes :
 Traitement descriptif : que s’est-il passé ?
 Traitement prédictif : que va-t-il se passer ?
Traitement prescriptif : comment faire pour que ça
se passe ?
32
16
31
32
Cours Big Data – Chapitre I
Etapes d’un projet Big Data
Etape 1 : Identifier et collecter les données
En amont de tout projet Big Data, il faut identifier
les sources de données les plus pertinentes et
collecter les données
Attention il ne faut pas investir dans des
informations dont le coût de traitement est plus
élevé que leur valeur potentielle.
Etape 2 : Nettoyage de données
Convertir les données pour les analyser = générer
des vues structurées
33
Etapes d’un projet Big Data
Etape 3 : Travail ad-hoc
Analyser les données avec des outils divers SQL, R,
Python pour bâtir des modèles
Etape 4 : Evaluation
Etape 5 : Industrialisation
Peaufiner les algorithmes
Automatiser les traitements et les méthodes de visualisation
Les placer sur un gestionnaire de cluster
34
17
33
34
Cours Big Data – Chapitre I
Le revers de la médaille…
 Sécurité des données : risques d’intrusions!
 Exploitations illégales des données!
 Respect de nos vies privées ?!
Respect du secret médical dans le domaine de la
santé ?
Pertinence de toutes les décisions
prises automatiquement ?
Nécessité de surveiller l’exploitation des
données massives pour éviter les dérives.
41
21
41

Contenu connexe

PDF
Chapitre i-intro
PDF
Chapitre i-intro
PDF
Introduction au Big data
PDF
Introduction au Big data
PDF
Technologies pour le Big Data
PDF
Technologies pour le Big Data
PPTX
Big data et marketing digital
PPTX
Big data et marketing digital
Chapitre i-intro
Chapitre i-intro
Introduction au Big data
Introduction au Big data
Technologies pour le Big Data
Technologies pour le Big Data
Big data et marketing digital
Big data et marketing digital

Similaire à Ch1Introduction sur Big data.pptx (20)

PPTX
Big data
PPTX
Big data
PDF
Introduction au datamining partiel 1.pdf
PDF
Introduction au datamining partiel 1.pdf
PDF
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015
PDF
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015
PDF
La protection de la vie privée à l'heure du BIG DATA
PDF
La protection de la vie privée à l'heure du BIG DATA
PDF
Introduction
PDF
Introduction
PPTX
PDF
Big data-2-170220212621
PPTX
PDF
Big data-2-170220212621
PPTX
Big Data Des méandres des outils au potentiel business
PPTX
Big Data Des méandres des outils au potentiel business
PDF
#NSD14 - La sécurité autour du Big Data
PDF
#NSD14 - La sécurité autour du Big Data
PDF
BigDataASR2022 un bon manuel sur le big data.pdf
PDF
BigDataASR2022 un bon manuel sur le big data.pdf
Big data
Big data
Introduction au datamining partiel 1.pdf
Introduction au datamining partiel 1.pdf
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015
La protection de la vie privée à l'heure du BIG DATA
La protection de la vie privée à l'heure du BIG DATA
Introduction
Introduction
Big data-2-170220212621
Big data-2-170220212621
Big Data Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel business
#NSD14 - La sécurité autour du Big Data
#NSD14 - La sécurité autour du Big Data
BigDataASR2022 un bon manuel sur le big data.pdf
BigDataASR2022 un bon manuel sur le big data.pdf
Publicité

Ch1Introduction sur Big data.pptx

  • 1. BIG DATA ASSURÉ ET PRÉPARÉ PAR: ASMA NAFTI Plan général 1. Introduction aux Big Data 2. Hadoop et HDFS 3. Approche de Traitement MapReduce 4. Traitement Avancé Big Data 5. NOSQL 6. Architectures Big Data 2 1 1 2 2024/2025 Esiet
  • 2. Introduction aux Big Data Plan Constats Définition Les 3V et les V supplémentaires Bénéfices et challenges Exemples d’applications Traitement des données Etapes d’un projet Big Data  Nouveaux métiers Domaines connexes 4 2 3 4
  • 3. Constats Explosion des données issues de plusieurs sources telles que : Réseaux sociaux ; Signaux GPS de téléphones mobiles ; Radio identification (RFID tags) ; Logs ; Capteurs utilisés pour collecter des informations climatiques, de trafic et de consommation ; Transactions d’achat en ligne. 5 Constats Chaque jour nous générons 2,5 exaoctets de données soit 912,5 exaoctets par an. En 2018, on estime que 90% des données disponibles dans le monde ont été créées pendant les deux dernières années. 6 3 5 6
  • 4. Constat s 7 4.5 milliards d’utilisateurs internet en 2019 5 milliards en 2020 5.4 milliards en 2022 soit 69% de la popopulation globale https:// www.internetworldstats.com/stats.ht m Twitter : 500 millions de tweets chaque jour 200 milliards par an https:// www.dsayce.com/social- media/tweets-day/ Chaque jour : Plus de 500 TO de nouvelles données 2.7 milliards de « j’aime » 300 millions de photos chargées 70000 requêtes demandées Source : lemondeinformatique.fr Constats • Chefs d’entreprise prennent fréquemment des décisions basées sur des informations en lesquelles ils n’ont pas confiance, ou qu’ils n’ont pas. • Chefs d’entreprise disent qu’ils n’ont pas accès aux informations dont ils ont besoin pour faire leur travail. • Des DSI (Directeurs des SI) veulent exploiter « L’informatique décisionnelle et analytique » pour améliorer leur compétitivité 1/3 1/2 83% • Des PDG ont besoin d’améliorer la capture et la compréhension des informations pour prendre des décisions plus rapidement. 60% 8 7 8 4
  • 5. Constats Intérêt de stocker, d’analyser et d’exploiter ces données 9 Définition Big Data = Grosses données = Méga données = Données massives Big Data : ensemble de données massives ayant une structure variée et complexe avec des difficultés de stockage, d'analyse et de visualisation. 10 9 10 5
  • 6. Définition: Comment les stocker ?les transmettre? les analyser pour des prises de décision?  Il faut utiliser des plateformes et des frameworks spécifiques. 11 Bénéfices  Créer du sens et des connaissances à partir de données non enrichies et non structurées ;  Aider les décideurs à prendre les « bonnes » décisions au bon moment ;  Analyser des tendances sur la durée ;  Prédire des phénomènes, des comportements… 12 11 12 6
  • 7. Challenges Réunir un grand volume de données variées pour trouver de nouvelles idées. Capturer des données créées rapidement. Sauvegarder toutes ces données. Traiter ces données et les utiliser. 13 Les 3V du Big data 14 Volume Variété Vitesse 13 7 14
  • 8. Volume En une minute, il y a sur internet : 30h de vidéos 204 millions d’e-mails 300 mille tweets Données numériques créées dans le monde : 1,2 zettaoctets/an en 2010 1,8 zettaoctets/an en 2011 2,8 zettaoctets/an en 2012 40 zettaoctets/an en 20205 Volume Quelles données doivent être stockées ? Problèmes : Comment stocker les données dans un endroit fiable, qui soit moins cher ? Comment parcourir ces données et en extraire des informations facilement et rapidement? 16 8 15 16
  • 9. Cours Big Data – Chapitre I Variété Données structurées ◦ Schéma prédéfini imposé aux données ◦ Très structurées ◦ Stockées dans un système de base de données relationnel. 20% des données 17 Variété Données semi-structurées ◦ XML, SGML,. . . ◦ Tweets ◦ BibTeX ◦ Les logs 18 17 9 18
  • 10. Cours Big Data – Chapitre I Variété Données non-structurées Les données ne sont pas organisées ◦ Multimédia : vidéos, photos, audio ◦ Messages emails ◦ Texte libre ◦ Présentations ◦ Rapports ◦ . . . 19 Vitesse (Vélocité) oPlusieurs données sont générées rapidement et ont besoin d’être traitées rapidement. oLe défi consiste à gérer, analyser, visualiser et découvrir les connaissances à partir des données recueillies en temps opportun et de manière évolutive. o Décisions en retard opportunités ratées 20 19 10 20
  • 11. Cours Big Data – Chapitre I Vitesse E-Promotions : selon votre localisation actuelle, votre historique d’achat, ce que vous aimez envoi de promotions dans les magasins de votre entourage. Suivi santé : capteurs surveillants vos activités et votre corps des mesures anormales exigent une réaction immédiate 21 Les V supplémentaires… Véracité o Proposée par IBM o Avec l’augmentation de la quantité, la qualité et la précision des données diminuent. o Les solutions big data doivent remédier à cela. oBesoin d’une grande rigueur dans la collecte, l’enrichissement et le croisement des données. 22 21 11 22
  • 12. Cours Big Data – Chapitre I Les V supplémentaires… Valeur o La valeur ajoutée des données ou des informations extraites o Il faut transformer les données en valeurs exploitables o Sans une réelle valeur, ce n’est qu’un gaspillage de ressources 23 Les V supplémentaires… Visualisation Représentation des données sous formes intelligentes, pratiques et interactives 24 23 12 24
  • 13. Cours Big Data – Chapitre I Les V supplémentaires… Variabilité Les données ont une signification en perpétuelle évolution : lol, émoticônes,… 25 Technologies Big Data Plusieurs technologies Big Data classées selon leurs objectifs : 26 13 25 26
  • 14. Cours Big Data – Chapitre I Exemples d’applications Ressources humaines et recrutement : Méthode utilisée surtout par les cabinets de recrutement et les grands groupes afin de mieux cibler les candidats au recrutement.  Etablir un profil type de candidat pour chaque poste. Récolter les données à partir des réseaux sociaux (LinkedIn, Google +, Facebook et Twitter) et des bases de données en ligne. A l’aide des outils d’analyse, établir des profils permettant de repérer les candidats potentiels en amont d’un recrutement. 27 Exemples d’applications Marketing prédictif  Nouvelles méthodes permettant de bien cibler les clients.  Collecter les données à partir des sources disponibles : • Dans le cas où les données possédées ne sont pas suffisantes, il est possible d’acheter des BD existantes ou d’utiliser l’open data.  Effectuer une analyse approfondie des clients et de l’efficacité des campagnes réalisées.  Augmenter l’efficacité des campagnes en personnalisant les offres. 28 14 27 28
  • 15. Cours Big Data – Chapitre I Exemples d’applications Maintenance prédictive Méthode utilisée dans le milieu industriel pour réduire les coûts de maintenance des équipements.  Installation de capteurs sur les machines. Utiliser les données récuperées pour planifier l’entretien de celles-ci. Cette méthode sera de plus en plus facile avec l’essor des objets connectés. 29 Exemples d’applications Santé Les solutions Big Data révolutionnent la recherche dans le domaine de la santé : Mieux traquer les agents pathogènes : ◦ Surveiller les maladies infectieuses ; ◦ Alerte en cas d’épidémie : grippe, infections alimentaires (salmonelloses, listérioses…), rage, méningites bactériennes... La génomique : reine du big data : ◦ Réduction considérable des coûts du séquençage du génome humain ! Analyse d’images médicales ou de microscopie 30 15 29 30
  • 16. Cours Big Data – Chapitre I Exemples d’applications  Détection de fraudes  Réduction de crimes  Surveillance 31 Traitement des données Trois grandes classes :  Traitement descriptif : que s’est-il passé ?  Traitement prédictif : que va-t-il se passer ? Traitement prescriptif : comment faire pour que ça se passe ? 32 16 31 32
  • 17. Cours Big Data – Chapitre I Etapes d’un projet Big Data Etape 1 : Identifier et collecter les données En amont de tout projet Big Data, il faut identifier les sources de données les plus pertinentes et collecter les données Attention il ne faut pas investir dans des informations dont le coût de traitement est plus élevé que leur valeur potentielle. Etape 2 : Nettoyage de données Convertir les données pour les analyser = générer des vues structurées 33 Etapes d’un projet Big Data Etape 3 : Travail ad-hoc Analyser les données avec des outils divers SQL, R, Python pour bâtir des modèles Etape 4 : Evaluation Etape 5 : Industrialisation Peaufiner les algorithmes Automatiser les traitements et les méthodes de visualisation Les placer sur un gestionnaire de cluster 34 17 33 34
  • 18. Cours Big Data – Chapitre I Le revers de la médaille…  Sécurité des données : risques d’intrusions!  Exploitations illégales des données!  Respect de nos vies privées ?! Respect du secret médical dans le domaine de la santé ? Pertinence de toutes les décisions prises automatiquement ? Nécessité de surveiller l’exploitation des données massives pour éviter les dérives. 41 21 41