Gestion Et Analyse Des Big Data

Le document présente une introduction à la gestion et à l'analyse des Big Data, mettant en avant l'évolution technologique et l'importance croissante des données dans divers domaines. Il aborde les défis, les caractéristiques, et les solutions liés aux Big Data, ainsi que l'impact social et économique de leur utilisation. Enfin, il souligne le rôle des grandes entreprises technologiques dans le développement des outils et des infrastructures nécessaires à la gestion de ces volumes de données.

Transféré par

hmatich.contact

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

23 vues26 pages

Gestion Et Analyse Des Big Data

Transféré par

hmatich.contact

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Vous êtes sur la page 1/ 26

Gestion et analyse des

Big Data
Dr. Saadi Leila
Objectifs et plan de cours

▪ Objectifs:
▪ Aborder d’un point de vue pratique l’utilisation d’une architecture
Big data pour analyser des données

▪ Plan de cours
▪ Chapitre I: Introduction au big data
▪ Chapitre II: Hadoop, HDFS et MapReduce
▪ Chapitre III: Machine Learning avec Hadoop/Mahout
Chapitre I:
Introduction au big
data
Introduction

▪ La technologie évolue et le matériel

s’améliore en terme de vitesse,
puissance, capacité de stockage, …
▪ L’acquisition des données par
différentes technologies
▪ La numérisation intensive de la
société
▪ L’accélération du phénomène
▪ La diversité et la multiplicité d’usages
▪ Croissance passée et prévisible
de la quantité de données
▪ En deux jours, on peut produire
plus de données que l’humanité
peut produire en deux millions
d’années
Réellement big
Des chiffres tous les
jours dans tous les
media , chiffres sur
lesquels s’appuie la
pensée :
✓ Economie
quantitative,
psychologie
quantitative mais
aussi décisions
politiques.
Tous les domaines sont touchés

▪ Commerce et les affaires ▪ Données de références: cadaste,

catalogues de produits, …
▪ Gouvernements et les
organisations ▪ Données d’observations: satellite,
capteurs, …
▪ Loisirs
▪ Données transactionnelles:
▪ Science fondamentales transactions commerciales, requêtes
▪ Santé BD/Web

▪ Environnement ▪ Données sociales: Web, Facebook, …

▪ Humanité et sciences ▪ Données du patrimoine: culture,

sociales architecture, …
Représentées sous formes: tables, images, vidéos, textes, graphes, …
Définition des Big data
❖ Big Data  proposé par John Mashey (expert
scientifique chez Silicon Graphics).

❖ Big data  (grosses données, megadonnées, ou

données massives)  désignent des ensembles de
données qui deviennent tellement volumineux
qu'ils en deviennent difficiles à travailler avec
des outils classiques de gestion de base de
données ou de gestion de l'information.
Définition des Big data

❖ Big Data est 2012  le fait que les entreprises

sont confrontées à des volumes de données à
traiter de plus en plus considérables et
présentant un fort enjeux commercial et
marketing.
❖ technologies, architecture, outils  capter,
traiter et analyser de larges quantités et
contenus hétérogènes et changeants, et d’en
extraire les informations pertinentes à un coût
accessible.
Historique
▪ 1944  Fremont Rider, Wesleyan University Librarian publie The Scholar and
the Future of the Research Library  il a éstimé que les données dans
l’université américaine vont être doublees en taille chaque 16 ans.
▪ 1961  Derek Price publie Science Since Babylon  il a remarqué la
croissance de nombre des journaux et des artiles chaque 15 ans
▪ 1967  B. A. Marron and P. A. D. de Maine publie Automatic data compression
dqns la communauté d’ACM
▪ Autour les années plusieurs auteurs ont mis l’accent sur la croissance des
données
▪ 1998  John R. Mashey publie Big Data… and the Next Wave of Infrastress
▪ 2011  James Manyika, Michael Chui, Brad Brown et autres publient Big data:
The next frontier for innovation, competition, and productivity
▪ 2012  danah boyd and Kate Crawford publient Critical Questions for Big
Data
▪ Aujourd’hui Big data est devenu un domaine de recherche important qui touche
plusieurs aspect de recherche d’information, l’IA, l’informatique pervasive,
les reseaux sociaux, ….
Les frontières des Big Data
▪ Big Data est un concept très difficile à définir
avec précision, puisque la notion même de “big” en
termes de volumétrie des données varie d’une
entreprise à l’autre. En Règle générale, on
considère du Big Data quand le traitement devient
trop long pour une seule machine.
Les caractéristiques du domaine
▪ Un domaine très vaste
▪ En interaction permanente avec les autres disciplines
scientifiques
▪ Un domaine qui se repositionne périodiquement
▪ En revisitant ses solutions à la lumière de nouvelle technologies
et de nouvelles idées
▪ En intégrant de nouveaux besoins et de nouveaux problèmes
▪ Une recherche dominée par des laboratoires industriels
▪ Google, Facebook, Yahoo, Amazone, IBM, Oracle, Microsoft, …..
Les grands défis des Big Data
▪ Stockage et préservation de données
▪ Performance des accès, disponibilité des données
▪ Protection des données, qualité des données
▪ Indexation sémantiques (ontologie), indexation participative (folksonomies)

▪ Analyse statistique et sémantique, raisonnement

▪ Analyse en temps réel de flux continus de données émanant de différentes ressources
▪ Requête multidimensionnelle sur des grands ensembles de données
▪ Extraction et interprétation de connaissance, apprentissage profond

▪ Impact social économique

▪ Protection de la vie privée, droit de l’oubli
▪ Droit de propriétés, droit d’exploitation
▪ Économie d’énergie, écologie  coût de transfert et de stockage
Le coût des Big data

▪ Consommation électrique des data

▪ Entre 600 TWh et 1500 TWh; environ 10% d’électricité produit dans le monde

▪ Coût d’extraction des matières premières

▪ Non durable et souvent non éthique

▪ Coût de production et de renouvellement de équipements

▪ Accélération des innovations

▪ Coût de recyclage des déchets

La recherche en big data  la recherche
sur les données

▪ Stockage, indexation, distribution, data cloud

▪ Requêtes continues, requêtes approximatives
▪ Requêtes avec préférence, requêtes skyline
▪ Analyse des flux, agrégation en ligne, algèbre OLAP
▪ Intégration de données, système de médiation
▪ Fouille de données, découverte de motifs
▪ Exécution distribuée et parallèle de requête
▪ …..
Complexité multidimensionnelle des Big
data
Les 3V et 5V caractéristique de données
Spécificités des Big data

Le « Big » Data se caractérise par la taille ou la volumétrie des

informations. Mais d’autres attributs, notamment la vitesse et le
type de données, sont aussi à considérer.
En ce qui concerne le type, le Big Data est souvent rattaché à du
contenu non structuré ou semi-structuré, ce qui peut
représenter un défi pour les environnements classiques de
stockage relationnel et de calcul.
Spécificités des Big data
✓Walmart traite chaque heure plus d’un million de transactions clients,
qui sont importées vers des bases de données dont le contenu est
estimé à plus de 2,5 petabytes - à savoir 167 fois l’équivalent des
informations réunies dans tous les livres de la Bibliothèque du
Congrès américain.
✓ Facebook gère 40 milliards de photos à partir de sa base
d’utilisateurs.
✓ Décoder le génome humain a demandé initialement 10 ans de travail;
cette tâche peut maintenant être effectuée en une semaine.
✓ La distribution Hadoop par Hortonworks gère à présent plus de
42,000 machines Yahoo! traitant des millions de requêtes par jour.
Spécificités des Big data

➢Volume
Internet étant le principal acteur dans l’avènement du Big Data, dans
une minute Internet : on a 30h Vidéo téléchargées, 204 Millions
d’emails échangés et 300 milles Tweets envoyés….
➢Variété
Dans un contexte Big Data les données sont sous forme structurée
(bases de données structurée, feuilles de calcul venant de tableur,…) et
non structurée (textes, sons, images, vidéos, données de capteurs,
fichiers journaux, medias sociaux, signaux,…) qui doivent faire l’objet
d’une analyse collective. On estime à 80% les données non structurées
pour 20% des données structurées.
Spécificités des Big data

➢Véracité
La véracité fait référence à la qualité de la fiabilité et la confiance
des données (données bruités, imprécises, prédictives,…)
➢Valeur
La démarche Big Data n’a de sens que pour atteindre des objectifs
stratégiques de création de valeur pour les clients et pour
l’entreprise; dans tous les domaines d’activité: commerce,
industrie, services…En effet, le succès d’un projet Big Data n'a
d'intérêt aux utilisateurs que s'il apporte de la valeur ajoutée et de
nouvelles connaissances.
Les solutions des Big data
Les solutions des Big data

La plupart des outils et des frameworks de Big Data sont

construits en gardant à l'esprit les caractéristiques suivantes:
➢La distribution des données
➢Le traitement en parallèle
➢La tolérance aux pannes
➢L'utilisation de matériel standard
➢Flexibilité, évolutivité et scalabilité
Les acteurs des Big data

Les grands acteurs du web tel que Google, Yahoo, Facebook, Twitter,
LinkedIn…ont été les premiers à être confrontés à des volumétries de
données extrêmement importantes et ont été à l’origine des
premières innovations en la matière portées principalement sur deux
types de technologies:
❖ Les plateformes de développement et de traitement des données
(GFS, Hadoop, Spark,…)
❖ Les bases de données (NoSQL)
Les acteurs des Big data

Exemple: Google
Pour stocker son index grandissant,
Google a mis en place un nouveau
système propriétaire: GFS (Google
File Système) en 2003. C’est un
algorithme inventé par Google, afin
de distribuer des traitements sur un
ensemble de machines avec le
système GFS. Google possède
aujourd'hui plus de 10000000 de
serveurs interconnectés dans le
monde.

Vous aimerez peut-être aussi

Cours Complet Dinformatique de Gestion PDF
100% (12)
Cours Complet Dinformatique de Gestion PDF
91 pages
4 HSC
Pas encore d'évaluation
4 HSC
7 pages
Questions de Connaissance
Pas encore d'évaluation
Questions de Connaissance
7 pages
Introduction Big Data
Pas encore d'évaluation
Introduction Big Data
58 pages
Support de Cours BIG DATA
Pas encore d'évaluation
Support de Cours BIG DATA
31 pages
Définition Du Big Data
Pas encore d'évaluation
Définition Du Big Data
4 pages
Big Data - Generalite
Pas encore d'évaluation
Big Data - Generalite
28 pages
Documentation Big DATA R
Pas encore d'évaluation
Documentation Big DATA R
43 pages
Projet
Pas encore d'évaluation
Projet
14 pages
2 - Big Data
Pas encore d'évaluation
2 - Big Data
60 pages
Big Data e Zebda
Pas encore d'évaluation
Big Data e Zebda
7 pages
Big Data
Pas encore d'évaluation
Big Data
48 pages
Cours Big Data
Pas encore d'évaluation
Cours Big Data
64 pages
Coursbigdata Chap1 - Introduction À Big Data
Pas encore d'évaluation
Coursbigdata Chap1 - Introduction À Big Data
53 pages
Les Entreprises N
Pas encore d'évaluation
Les Entreprises N
13 pages
Big Data
Pas encore d'évaluation
Big Data
21 pages
BigData MAB CHAPITRES 1 ET 2
Pas encore d'évaluation
BigData MAB CHAPITRES 1 ET 2
104 pages
Big Data
100% (1)
Big Data
15 pages
Chap1 Introduction
Pas encore d'évaluation
Chap1 Introduction
44 pages
Cours Big Data
Pas encore d'évaluation
Cours Big Data
64 pages
Big Data Et Data Mining
Pas encore d'évaluation
Big Data Et Data Mining
14 pages
Cours Big Data
Pas encore d'évaluation
Cours Big Data
148 pages
Chapitre1: Introduction: Big Data
Pas encore d'évaluation
Chapitre1: Introduction: Big Data
31 pages
Introduction A Big Data
100% (1)
Introduction A Big Data
48 pages
Article Intro Big Data
Pas encore d'évaluation
Article Intro Big Data
11 pages
Leçon1 - Introduction Au Big Data
Pas encore d'évaluation
Leçon1 - Introduction Au Big Data
42 pages
C6
Pas encore d'évaluation
C6
22 pages
Introduction Aux Big Data
Pas encore d'évaluation
Introduction Aux Big Data
26 pages
Big Data (Expo)
Pas encore d'évaluation
Big Data (Expo)
12 pages
Tout Savoir Sur Le Big Data
Pas encore d'évaluation
Tout Savoir Sur Le Big Data
9 pages
Tout Savoir Sur Le Big Data
Pas encore d'évaluation
Tout Savoir Sur Le Big Data
9 pages
Rapport BigData
Pas encore d'évaluation
Rapport BigData
13 pages
Cours: Préparation À La Certification: Big Data
Pas encore d'évaluation
Cours: Préparation À La Certification: Big Data
42 pages
Intro Big Data
Pas encore d'évaluation
Intro Big Data
24 pages
Miniprojet BigData
Pas encore d'évaluation
Miniprojet BigData
9 pages
Cours
Pas encore d'évaluation
Cours
54 pages
Big Data Chap 1 - Introduction
Pas encore d'évaluation
Big Data Chap 1 - Introduction
33 pages
Introduction Au Big Data
Pas encore d'évaluation
Introduction Au Big Data
9 pages
Fondement Des Ordinateur FDO - VIII-1
Pas encore d'évaluation
Fondement Des Ordinateur FDO - VIII-1
22 pages
Big Data
Pas encore d'évaluation
Big Data
31 pages
ESCT - 2023 - 2024 - 3LMKG - Big - Data en Assurance Avec Python 17 02 2024
Pas encore d'évaluation
ESCT - 2023 - 2024 - 3LMKG - Big - Data en Assurance Avec Python 17 02 2024
39 pages
Rapport BigData
Pas encore d'évaluation
Rapport BigData
13 pages
Big Data (Synthese)
Pas encore d'évaluation
Big Data (Synthese)
10 pages
Cours - 1 - 01 - Big Data
100% (1)
Cours - 1 - 01 - Big Data
16 pages
Panorama Du Big Data
Pas encore d'évaluation
Panorama Du Big Data
80 pages
Big DATA MASTER 2 G - Nie Logiciel - R - Seau v1.0 R
Pas encore d'évaluation
Big DATA MASTER 2 G - Nie Logiciel - R - Seau v1.0 R
58 pages
IntroductionauBIGDATA ConceptsetTechnologies
Pas encore d'évaluation
IntroductionauBIGDATA ConceptsetTechnologies
12 pages
Cours Framework Big DATA - DR SEBRI
Pas encore d'évaluation
Cours Framework Big DATA - DR SEBRI
15 pages
Big Data and Machine Learning Course. Part No 1
Pas encore d'évaluation
Big Data and Machine Learning Course. Part No 1
96 pages
Cours Modelisation de Grand Volume de Donnees Big Data[M1-SIGL-2025]
Pas encore d'évaluation
Cours Modelisation de Grand Volume de Donnees Big Data[M1-SIGL-2025]
378 pages
Chapitre 0 - Introduction
Pas encore d'évaluation
Chapitre 0 - Introduction
27 pages
BIG DATA - Niv III PP 1&2 - 023-024
Pas encore d'évaluation
BIG DATA - Niv III PP 1&2 - 023-024
15 pages
BigData Part1 Introduction
Pas encore d'évaluation
BigData Part1 Introduction
17 pages
Bigdata 1
Pas encore d'évaluation
Bigdata 1
25 pages
Introduction Big Data-1
Pas encore d'évaluation
Introduction Big Data-1
55 pages
Framework Big Data: Chp2 - Hadoop Et Mapreduce
Pas encore d'évaluation
Framework Big Data: Chp2 - Hadoop Et Mapreduce
25 pages
Qu'est-Ce Que Le Big Data - Oracle Morocco
Pas encore d'évaluation
Qu'est-Ce Que Le Big Data - Oracle Morocco
10 pages
Gestion de Projet Big Data & Développement D'applications Big Data
Pas encore d'évaluation
Gestion de Projet Big Data & Développement D'applications Big Data
30 pages
Qui Suis-Je ?: Pr. Y Khourdifi, D I
Pas encore d'évaluation
Qui Suis-Je ?: Pr. Y Khourdifi, D I
20 pages
Bigdata Opensource
100% (1)
Bigdata Opensource
21 pages
Les Triggers
Pas encore d'évaluation
Les Triggers
19 pages
Power Bi Et Finance D'entreprise
Pas encore d'évaluation
Power Bi Et Finance D'entreprise
26 pages
Examen Corrigé Base de Données SGBD
100% (11)
Examen Corrigé Base de Données SGBD
5 pages
Fiche de Travaux Dirigés N°2: Licence 2 INF2023: Introduction Aux Bases de Données
Pas encore d'évaluation
Fiche de Travaux Dirigés N°2: Licence 2 INF2023: Introduction Aux Bases de Données
2 pages
Examen Finale Dup2 GCF 2020
Pas encore d'évaluation
Examen Finale Dup2 GCF 2020
5 pages
DataBase Airportmanagement
Pas encore d'évaluation
DataBase Airportmanagement
17 pages
Chapitre4 Instance - Oracle Part1
Pas encore d'évaluation
Chapitre4 Instance - Oracle Part1
16 pages
Projet AD - BD
Pas encore d'évaluation
Projet AD - BD
3 pages
Access VBA
Pas encore d'évaluation
Access VBA
10 pages
ARCHITECTURE D UN SYSTEME DE GESTION DE BASES DE DONNEES Papier
Pas encore d'évaluation
ARCHITECTURE D UN SYSTEME DE GESTION DE BASES DE DONNEES Papier
10 pages
COURS FBDcomplet
Pas encore d'évaluation
COURS FBDcomplet
76 pages
Plan de Formation en Business Intelligence
Pas encore d'évaluation
Plan de Formation en Business Intelligence
16 pages
TD 1
Pas encore d'évaluation
TD 1
2 pages
TD SQL
Pas encore d'évaluation
TD SQL
11 pages
Analyse Univariée Et Représentation Graphique - LEPCAM
Pas encore d'évaluation
Analyse Univariée Et Représentation Graphique - LEPCAM
24 pages
Sparks QL
Pas encore d'évaluation
Sparks QL
11 pages
Introduction Aux Bases de Données Avec BASE - Quiz - QCM BASE - Wikiversité
100% (2)
Introduction Aux Bases de Données Avec BASE - Quiz - QCM BASE - Wikiversité
5 pages
TP3 Poo S2
Pas encore d'évaluation
TP3 Poo S2
2 pages
Cours Système Information - Base de Données v2 2023
Pas encore d'évaluation
Cours Système Information - Base de Données v2 2023
28 pages
Examen DBA Avancé
Pas encore d'évaluation
Examen DBA Avancé
2 pages
Chapitre2 IntégrationDonnées
Pas encore d'évaluation
Chapitre2 IntégrationDonnées
18 pages
D2 - Introduction À PIG
Pas encore d'évaluation
D2 - Introduction À PIG
13 pages
Chap2 Tablespaces
Pas encore d'évaluation
Chap2 Tablespaces
11 pages
Expose CASSANDRA Groupe-4
Pas encore d'évaluation
Expose CASSANDRA Groupe-4
14 pages
Section11 Papier
Pas encore d'évaluation
Section11 Papier
25 pages
Base de Données
Pas encore d'évaluation
Base de Données
43 pages
TP Creation Tablespace
100% (2)
TP Creation Tablespace
2 pages
02-Les Séries D'exercices Linux Sans Correction
Pas encore d'évaluation
02-Les Séries D'exercices Linux Sans Correction
1 page