Gestion et analyse des
Big Data
Dr. Saadi Leila
Objectifs et plan de cours
▪ Objectifs:
▪ Aborder d’un point de vue pratique l’utilisation d’une architecture
Big data pour analyser des données
▪ Plan de cours
▪ Chapitre I: Introduction au big data
▪ Chapitre II: Hadoop, HDFS et MapReduce
▪ Chapitre III: Machine Learning avec Hadoop/Mahout
Chapitre I:
Introduction au big
data
Introduction
▪ La technologie évolue et le matériel
s’améliore en terme de vitesse,
puissance, capacité de stockage, …
▪ L’acquisition des données par
différentes technologies
▪ La numérisation intensive de la
société
▪ L’accélération du phénomène
▪ La diversité et la multiplicité d’usages
▪ Croissance passée et prévisible
de la quantité de données
▪ En deux jours, on peut produire
plus de données que l’humanité
peut produire en deux millions
d’années
Réellement big
Des chiffres tous les
jours dans tous les
media , chiffres sur
lesquels s’appuie la
pensée :
✓ Economie
quantitative,
psychologie
quantitative mais
aussi décisions
politiques.
Tous les domaines sont touchés
▪ Commerce et les affaires ▪ Données de références: cadaste,
catalogues de produits, …
▪ Gouvernements et les
organisations ▪ Données d’observations: satellite,
capteurs, …
▪ Loisirs
▪ Données transactionnelles:
▪ Science fondamentales transactions commerciales, requêtes
▪ Santé BD/Web
▪ Environnement ▪ Données sociales: Web, Facebook, …
▪ Humanité et sciences ▪ Données du patrimoine: culture,
sociales architecture, …
Représentées sous formes: tables, images, vidéos, textes, graphes, …
Définition des Big data
❖ Big Data proposé par John Mashey (expert
scientifique chez Silicon Graphics).
❖ Big data (grosses données, megadonnées, ou
données massives) désignent des ensembles de
données qui deviennent tellement volumineux
qu'ils en deviennent difficiles à travailler avec
des outils classiques de gestion de base de
données ou de gestion de l'information.
Définition des Big data
❖ Big Data est 2012 le fait que les entreprises
sont confrontées à des volumes de données à
traiter de plus en plus considérables et
présentant un fort enjeux commercial et
marketing.
❖ technologies, architecture, outils capter,
traiter et analyser de larges quantités et
contenus hétérogènes et changeants, et d’en
extraire les informations pertinentes à un coût
accessible.
Historique
▪ 1944 Fremont Rider, Wesleyan University Librarian publie The Scholar and
the Future of the Research Library il a éstimé que les données dans
l’université américaine vont être doublees en taille chaque 16 ans.
▪ 1961 Derek Price publie Science Since Babylon il a remarqué la
croissance de nombre des journaux et des artiles chaque 15 ans
▪ 1967 B. A. Marron and P. A. D. de Maine publie Automatic data compression
dqns la communauté d’ACM
▪ Autour les années plusieurs auteurs ont mis l’accent sur la croissance des
données
▪ 1998 John R. Mashey publie Big Data… and the Next Wave of Infrastress
▪ 2011 James Manyika, Michael Chui, Brad Brown et autres publient Big data:
The next frontier for innovation, competition, and productivity
▪ 2012 danah boyd and Kate Crawford publient Critical Questions for Big
Data
▪ Aujourd’hui Big data est devenu un domaine de recherche important qui touche
plusieurs aspect de recherche d’information, l’IA, l’informatique pervasive,
les reseaux sociaux, ….
Les frontières des Big Data
▪ Big Data est un concept très difficile à définir
avec précision, puisque la notion même de “big” en
termes de volumétrie des données varie d’une
entreprise à l’autre. En Règle générale, on
considère du Big Data quand le traitement devient
trop long pour une seule machine.
Les caractéristiques du domaine
▪ Un domaine très vaste
▪ En interaction permanente avec les autres disciplines
scientifiques
▪ Un domaine qui se repositionne périodiquement
▪ En revisitant ses solutions à la lumière de nouvelle technologies
et de nouvelles idées
▪ En intégrant de nouveaux besoins et de nouveaux problèmes
▪ Une recherche dominée par des laboratoires industriels
▪ Google, Facebook, Yahoo, Amazone, IBM, Oracle, Microsoft, …..
Les grands défis des Big Data
▪ Stockage et préservation de données
▪ Performance des accès, disponibilité des données
▪ Protection des données, qualité des données
▪ Indexation sémantiques (ontologie), indexation participative (folksonomies)
▪ Analyse statistique et sémantique, raisonnement
▪ Analyse en temps réel de flux continus de données émanant de différentes ressources
▪ Requête multidimensionnelle sur des grands ensembles de données
▪ Extraction et interprétation de connaissance, apprentissage profond
▪ Impact social économique
▪ Protection de la vie privée, droit de l’oubli
▪ Droit de propriétés, droit d’exploitation
▪ Économie d’énergie, écologie coût de transfert et de stockage
Le coût des Big data
▪ Consommation électrique des data
▪ Entre 600 TWh et 1500 TWh; environ 10% d’électricité produit dans le monde
▪ Coût d’extraction des matières premières
▪ Non durable et souvent non éthique
▪ Coût de production et de renouvellement de équipements
▪ Accélération des innovations
▪ Coût de recyclage des déchets
La recherche en big data la recherche
sur les données
▪ Stockage, indexation, distribution, data cloud
▪ Requêtes continues, requêtes approximatives
▪ Requêtes avec préférence, requêtes skyline
▪ Analyse des flux, agrégation en ligne, algèbre OLAP
▪ Intégration de données, système de médiation
▪ Fouille de données, découverte de motifs
▪ Exécution distribuée et parallèle de requête
▪ …..
Complexité multidimensionnelle des Big
data
Les 3V et 5V caractéristique de données
Spécificités des Big data
Le « Big » Data se caractérise par la taille ou la volumétrie des
informations. Mais d’autres attributs, notamment la vitesse et le
type de données, sont aussi à considérer.
En ce qui concerne le type, le Big Data est souvent rattaché à du
contenu non structuré ou semi-structuré, ce qui peut
représenter un défi pour les environnements classiques de
stockage relationnel et de calcul.
Spécificités des Big data
✓Walmart traite chaque heure plus d’un million de transactions clients,
qui sont importées vers des bases de données dont le contenu est
estimé à plus de 2,5 petabytes - à savoir 167 fois l’équivalent des
informations réunies dans tous les livres de la Bibliothèque du
Congrès américain.
✓ Facebook gère 40 milliards de photos à partir de sa base
d’utilisateurs.
✓ Décoder le génome humain a demandé initialement 10 ans de travail;
cette tâche peut maintenant être effectuée en une semaine.
✓ La distribution Hadoop par Hortonworks gère à présent plus de
42,000 machines Yahoo! traitant des millions de requêtes par jour.
Spécificités des Big data
➢Volume
Internet étant le principal acteur dans l’avènement du Big Data, dans
une minute Internet : on a 30h Vidéo téléchargées, 204 Millions
d’emails échangés et 300 milles Tweets envoyés….
➢Variété
Dans un contexte Big Data les données sont sous forme structurée
(bases de données structurée, feuilles de calcul venant de tableur,…) et
non structurée (textes, sons, images, vidéos, données de capteurs,
fichiers journaux, medias sociaux, signaux,…) qui doivent faire l’objet
d’une analyse collective. On estime à 80% les données non structurées
pour 20% des données structurées.
Spécificités des Big data
➢Véracité
La véracité fait référence à la qualité de la fiabilité et la confiance
des données (données bruités, imprécises, prédictives,…)
➢Valeur
La démarche Big Data n’a de sens que pour atteindre des objectifs
stratégiques de création de valeur pour les clients et pour
l’entreprise; dans tous les domaines d’activité: commerce,
industrie, services…En effet, le succès d’un projet Big Data n'a
d'intérêt aux utilisateurs que s'il apporte de la valeur ajoutée et de
nouvelles connaissances.
Les solutions des Big data
Les solutions des Big data
La plupart des outils et des frameworks de Big Data sont
construits en gardant à l'esprit les caractéristiques suivantes:
➢La distribution des données
➢Le traitement en parallèle
➢La tolérance aux pannes
➢L'utilisation de matériel standard
➢Flexibilité, évolutivité et scalabilité
Les acteurs des Big data
Les grands acteurs du web tel que Google, Yahoo, Facebook, Twitter,
LinkedIn…ont été les premiers à être confrontés à des volumétries de
données extrêmement importantes et ont été à l’origine des
premières innovations en la matière portées principalement sur deux
types de technologies:
❖ Les plateformes de développement et de traitement des données
(GFS, Hadoop, Spark,…)
❖ Les bases de données (NoSQL)
Les acteurs des Big data
Exemple: Google
Pour stocker son index grandissant,
Google a mis en place un nouveau
système propriétaire: GFS (Google
File Système) en 2003. C’est un
algorithme inventé par Google, afin
de distribuer des traitements sur un
ensemble de machines avec le
système GFS. Google possède
aujourd'hui plus de 10000000 de
serveurs interconnectés dans le
monde.