SlideShare une entreprise Scribd logo
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation
Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Big Data Niort - 20 Mars 2014
Hadoop « Enterprise Ready »
Hadoop prêt pour l'entreprise
Charly CLAIRMONT
Altic
charly.clairmont@altic.org
@egwada
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Mon parcours
● Depuis 2004 - ALTIC ● Mes Technos
…
...
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Hadoop User Group France
● Créé en 2012
● Plus de 300 membres
● Plus de 100 membres
par meetup
● Vimeo (23 vidéos)
● http://vimeo.com/user11241340
● SlideShare (Présentations (29)
● http://fr.slideshare.net/hugfrance
● Twitter
● @hugFrance
●
#HugFr
● Site
● http://hugfrance.fr
Un groupe de plus en plus actif !
(messages échangés sur l'année)
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Hadoop une brève histoire, déjà 10 ans !
2011
Hortonworks
founded
2012 2013
Hadoop 1.0
Hadoop 2.0
HugFrance
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Hadoop une brève histoire, déjà 10 ans !
le détail
● 2004 - Doug Cutting and Mike Cafarella crée Hadoop selon le papier de Google
● 2005 Dec. - Nutch réécrit au dessus d'Hadoop - 20 nœuds
● 2006 Jan. - Doug Cutting rejoind Yahoo!
● 2006 Fev. - Hadoop top project Apache - HDFS & Map / Reduce
● 2006 Fev. - Yahoo! adopte Hadoop
● 2006 Avr. - Benchmark Tri sur 188 nœuds (10 GB/noeud) en 47.9 heures.
● 2006 Mai. - Yahoo! a un cluster de 300 nœuds
● 2006 Mai. - Benchmark Tri sur 500 nœuds en 42 heures (meilleures machines)
● 2006 Oct. - Hadoop s'exécute sur 600 nœuds
● 2006 Dec. - Benchmark Tri
● 20 nœuds : 1,8 heures
● 100 nœuds : 3,3 heures
● 500 nœuds : 5,2 heures
● 900 nœuds : 7,8 heures
● 2007 Jan. - Hadoop s'exécute sur 900 nœuds
● 2007 Apr. - Hadoop s'exécute sur 2 cluster de 1000 nœuds
● 2008 Oct. - 10 To de donnée par jour dans un cluster Hadoop
● 2009 Mar. - 17 clusters pour un total de 24 000 nœuds
● 2009 Avr. - 59 sec. pour trier 500 Go sur 1 400 nœuds et 100 To trié en 173 min. sur 3 400 nœuds
● ...
● ...
● 2012 Jan. 4 - Hadoop 1.0
● 2013 Mai. - 1,42 To/min sur 2 100 nœuds (YARN)
● 2013 Oct. 16 - Hadoop 2.0
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Et en 10 ans son adoption ne fait plus de doute !
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Hadoop est robuste !
● Stable
● Testé - Yahoo! (40 000 nœuds)
● Fiable
● Tolérant à la panne
● Flexible
● Schéma à la lecture !
● Passage à l'échelle
● Économique
● Prédictibilité des coûts
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Hadoop, système d'exploitation de la donnée
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
HDFS, le système de fichiers distribué
● Distribué
● Passage à l'échelle
● Auto-surveillance
pour redistribuer la
donnée
● Peu gourmand en
bande passante
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
MAP / REDUCE, calcul parallèle en toute simplicité
Map Reduce
Key|Value
Key|Value
Key|Value
Key|Value
Key|Value
Key|Value
Key|Value
Key|Value
Key|Value
Entées
Key|Value
Key|Value
Key|Value
Key|Value
Key|Value
Key|Value
Key|Value
Key|Value
Key|Value
Intermédiaire
Key|Value,
Key|Value,
Key|Value,
Key|Value
Résultat
= un type de collection
Key|Value,
Key|Value,
Key|Value
Key|Value,
Key|Value
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
MAP / REDUCE, architecture basique
Input
Format
Map Sort Reduce Output
Format
Node Node
Partitioner
MapReduce
HDFS
(Distributed File System)
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
HDFS et MAP / REDUCE au cœur d'Hadoop
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
HDFS, range donc les fichiers
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
HDFS sait où se situe chacun des blocs de
données
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
MAP / REDUCE, colle parfaitement à cette
distribution de fichiers (1)
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
MAP / REDUCE, colle parfaitement à cette
distribution de fichiers (2)
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
HBASE, du NoSQL sur Hadoop
● Distribuée
● Orientée colonnes
● Multidimensionnelle
● Haute Disponibilité
● Haute Performance
● Système de stockage
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Hive, la couche SQL d'Hadoop
HDFS
DDL QueriesBrowsing
MapReduce
MetaStore
Thrift API
SerDe
Thrift Jute JSON..
Execution
Driver
Parser
Planner
DB
WebUI
Optimizer
JDBC ODBCCLI
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
PIG, pas de Map / Reduce plutôt du script !
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Importer / exporter
NFS
● Naviguer dans HDFS
depuis votre
explorateur de fichiers
Flume
● Collecte de grands
volume de données
(logs, événements...)
vers Hadoop
WebHDFS
● Service REST pour
HDSF
SQOOP
● Importer et exporter
vos données rangées
dans votre SGBDR
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Exploitation
Oozie
● Planification de jobs
Ambari
● Installation, gestion,
surveillance du cluster
Hadoop
Falcon
● Gestion cycle de vie
des données
● Réplication
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Sécurité
Knox
● Gestion étendue,
unifiée et globale de
la sécurité dans
Hadoop
● Supporte
l'authentification et la
gestion des jetons de
sécurité.
KNOX
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Hadoop 2 ! Plus de types de traitements !
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
YARN, transforme Hadoop en OS de la donnée
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Grâce à Yahoo! un standard est né
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Hadoop, un vibrant écosystème
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Et c'est bien l'open source qui mène la danse...
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Tellement reconnu... qu'il grignote des
places... lentement mais sûrement...
Ralph KIMBALL, un des pères du
Data Warehousing reconnaît
vivement Hadoop comme
● Un excellent complément au
data Warehouse
● Une zone de staging et un ETL
de grande efficacité
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Hadoop pourra tout traiter
« Le transactionnel »
Déjà dans toutes les têtes
Surtout celle de
Doug CUTTING, le père
d'Hadoop !
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Pas de bidouillage ! De vrais outils !
Exploitation ETL
Exploration Visualisations
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Avec de vrais acteurs !
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Des solutions disruptives et structurantes
Couches logicielles Technologies
Traitements massivement
parallèles
YARN, GiRAPH, MapReduce, HBase, Phoenix,
Spark/BDAS, Drill, Impala, Stinger, PrestoDB,
STORM ...
Système de fichiers Azure, CassandraFS, CephFS, CleverSafe,
GlusterFS, GridGain, HDFS, Lustre
MapR FS, S3, SWIFT, Quantcast FS, Symantec
VCFS ...
Infrastructures System on a Chip, x86, Virtualization (Savanna,
Sorengetti ) and Cloud (Amazon EMR, Rackspace,
Enovance, ...)
Distributions Cloudera, Hortonworks, IBM, Intel, MapR, Pivotal,
WanDisco
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Hadoop, lac de données
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Avec de vrais projets !
#HugFrance a eu de vrais retour d'expérience
● Paris
– Crédit Mutuel Arkea
● Consolidation données clients
– EDF
● Nouveau Compteur électrique « Linky »
– Criteo
● Annonces publicitaires en ligne
– 55
● Optimisation publicité en ligne
● Lyon
– Booking.com
● Réservation de nuitées d'hôtel
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Hadoop,
C'est avant tout du logiciel !
Il aide à délivrer la vraie valeur de toutes vos données
Lancez vous !
Hadoop,
C'est avant tout du logiciel !
Il aide à délivrer la vraie valeur de toutes vos données
Lancez vous !
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation
Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Big Data Niort - 20 Mars 2014
Hadoop « Enterprise Ready »
Merci pour votre attention
Charly CLAIRMONT
Altic
charly.clairmont@altic.org
@egwada

Contenu connexe

PDF
Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa
Modern Data Stack France
 
PDF
Introduction à HDFS
Modern Data Stack France
 
PDF
Spark une alternative à Hadoop MapReduce pour le Datamining
Modern Data Stack France
 
PDF
Un introduction à Pig
Modern Data Stack France
 
PDF
Une introduction à Hive
Modern Data Stack France
 
PPT
Hadoop chez Kobojo
Modern Data Stack France
 
PDF
Une introduction à MapReduce
Modern Data Stack France
 
PDF
Une introduction à HBase
Modern Data Stack France
 
Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa
Modern Data Stack France
 
Introduction à HDFS
Modern Data Stack France
 
Spark une alternative à Hadoop MapReduce pour le Datamining
Modern Data Stack France
 
Un introduction à Pig
Modern Data Stack France
 
Une introduction à Hive
Modern Data Stack France
 
Hadoop chez Kobojo
Modern Data Stack France
 
Une introduction à MapReduce
Modern Data Stack France
 
Une introduction à HBase
Modern Data Stack France
 

Tendances (20)

PPT
Hadopp Vue d'ensemble
Modern Data Stack France
 
PPTX
Dépasser map() et reduce()
Modern Data Stack France
 
PPTX
Journées SQL 2014 - Hive ou la convergence entre datawarehouse et Big Data
David Joubert
 
PDF
HDFS HA : Stockage à haute disponibilité par Damien Hardy
Olivier DASINI
 
PDF
Une Introduction à Hadoop
Modern Data Stack France
 
PDF
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
Modern Data Stack France
 
PDF
Hadoop Hbase - Introduction
Blandine Larbret
 
PDF
Retour Hadoop Summit 2012
Modern Data Stack France
 
PDF
Hadoop and friends : introduction
fredcons
 
PPTX
Hugfr infotel-11 juin2014
Modern Data Stack France
 
PPTX
Casablanca Hadoop & Big Data Meetup - Introduction à Hadoop
Benoît de CHATEAUVIEUX
 
PDF
Hadoop et Microsoft: les dernières avancées dans le cloud et à demeure
Modern Data Stack France
 
PDF
Hadoop MapReduce - OSDC FR 2009
Olivier Grisel
 
PPTX
Hadoop et son écosystème
Khanh Maudoux
 
PDF
Hadoop
AS Stitou
 
PDF
Chapitre 2 hadoop
Mouna Torjmen
 
PDF
Annexe Big Data
Amal Abid
 
PPTX
Presentation Hadoop Québec
Mathieu Dumoulin
 
PDF
Tech day hadoop, Spark
Arrow-Institute
 
Hadopp Vue d'ensemble
Modern Data Stack France
 
Dépasser map() et reduce()
Modern Data Stack France
 
Journées SQL 2014 - Hive ou la convergence entre datawarehouse et Big Data
David Joubert
 
HDFS HA : Stockage à haute disponibilité par Damien Hardy
Olivier DASINI
 
Une Introduction à Hadoop
Modern Data Stack France
 
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
Modern Data Stack France
 
Hadoop Hbase - Introduction
Blandine Larbret
 
Retour Hadoop Summit 2012
Modern Data Stack France
 
Hadoop and friends : introduction
fredcons
 
Hugfr infotel-11 juin2014
Modern Data Stack France
 
Casablanca Hadoop & Big Data Meetup - Introduction à Hadoop
Benoît de CHATEAUVIEUX
 
Hadoop et Microsoft: les dernières avancées dans le cloud et à demeure
Modern Data Stack France
 
Hadoop MapReduce - OSDC FR 2009
Olivier Grisel
 
Hadoop et son écosystème
Khanh Maudoux
 
Hadoop
AS Stitou
 
Chapitre 2 hadoop
Mouna Torjmen
 
Annexe Big Data
Amal Abid
 
Presentation Hadoop Québec
Mathieu Dumoulin
 
Tech day hadoop, Spark
Arrow-Institute
 
Publicité

En vedette (20)

PDF
BigData_TP1: Initiation à Hadoop et Map-Reduce
Lilia Sfaxi
 
PDF
IoT (M2M) - Big Data - Analyses : Simulation et Démonstration
CHAKER ALLAOUI
 
PDF
Beeswax Hive editor in Hue
Romain Rigaux
 
PPTX
Escapade dans les Savoie
JeanJacques Tijet
 
PPTX
Presentación1
Irene Carlosama
 
PPT
Atencion temprana
eduespecial
 
PPTX
Formación productiva en veracruz
Laura Mendoza
 
PPTX
La moda no existira de no existir la belleza
neisyvaleria
 
PDF
La palanca
Maria Garcia
 
DOC
Abrege. voc le logement
helenaaldaz
 
PDF
Termes de référence de l’évaluation externe Projet de renforcement institutio...
Ministère de la Planification et de la Coopération Externe
 
PDF
À la découverte du bilan électrique 2013 de nos régions
RTE
 
PPTX
Le fils de l'autre
Txaruka
 
PPT
Eric Frampas : Le radiologue face aux lymphomes: Simple spectateur ou véritab...
Francelymphomeespoir
 
PPT
Los blogs
pedroortegapalazon
 
PPTX
Trabajo de lizeth
mariluz19
 
PPTX
Karate.
Doriana03
 
PPTX
Balades entre amis en Andalousie
JeanJacques Tijet
 
PPTX
Los invencibles
Carlos Barrera
 
PPSX
Campaña22
publicidadgratuita
 
BigData_TP1: Initiation à Hadoop et Map-Reduce
Lilia Sfaxi
 
IoT (M2M) - Big Data - Analyses : Simulation et Démonstration
CHAKER ALLAOUI
 
Beeswax Hive editor in Hue
Romain Rigaux
 
Escapade dans les Savoie
JeanJacques Tijet
 
Presentación1
Irene Carlosama
 
Atencion temprana
eduespecial
 
Formación productiva en veracruz
Laura Mendoza
 
La moda no existira de no existir la belleza
neisyvaleria
 
La palanca
Maria Garcia
 
Abrege. voc le logement
helenaaldaz
 
Termes de référence de l’évaluation externe Projet de renforcement institutio...
Ministère de la Planification et de la Coopération Externe
 
À la découverte du bilan électrique 2013 de nos régions
RTE
 
Le fils de l'autre
Txaruka
 
Eric Frampas : Le radiologue face aux lymphomes: Simple spectateur ou véritab...
Francelymphomeespoir
 
Trabajo de lizeth
mariluz19
 
Karate.
Doriana03
 
Balades entre amis en Andalousie
JeanJacques Tijet
 
Los invencibles
Carlos Barrera
 
Campaña22
publicidadgratuita
 
Publicité

Similaire à Hadoop prêt pour l'Entreprise (20)

PDF
Hadoop Introduction in Paris
Ted Drake
 
PDF
Cours_de_Big_Data_LF2_IG_EbhkjbhkhfhSB.pdf
RihabBENLAMINE
 
TXT
Aqui hadoop draft
Eric Papet
 
PPT
Talend Open Studio for Big Data (powered by Apache Hadoop)
Modern Data Stack France
 
PPTX
10 big data hadoop
Patrick Bury
 
PPTX
10 big data hadoop
Patrick Bury
 
PDF
Plongée dans la plateforme hadoop
pkernevez
 
PPTX
Hadoop
kamar MEDDAH
 
PDF
Techday Arrow Group: Hadoop & le Big Data
Arrow Group
 
PDF
Big Data, Hadoop & Spark
Alexia Audevart
 
PDF
Chapitre-2-Le-Big-Data-Hadoop-HDFS-et-MapReduce.pdf
AnisTrabelsi7
 
PPTX
Présentation Big Data et REX Hadoop
Joseph Glorieux
 
PDF
Hadoop
Ines Slimene
 
PPTX
Présentation Hadoop SECURINETS INSAT (MAP & REDUCE )
Hamza Ben Marzouk
 
PPTX
Big Data: Hadoop Map / Reduce sur Windows et Windows Azure
Microsoft
 
PDF
GTUG Nantes (Dec 2011) - BigTable et NoSQL
Michaël Figuière
 
PDF
Gtug nantes big table et nosql
GDG Nantes
 
PDF
Afterwork hadoop
OCTO Technology Suisse
 
PPTX
mix-it 2011
Olivier Mallassi
 
Hadoop Introduction in Paris
Ted Drake
 
Cours_de_Big_Data_LF2_IG_EbhkjbhkhfhSB.pdf
RihabBENLAMINE
 
Aqui hadoop draft
Eric Papet
 
Talend Open Studio for Big Data (powered by Apache Hadoop)
Modern Data Stack France
 
10 big data hadoop
Patrick Bury
 
10 big data hadoop
Patrick Bury
 
Plongée dans la plateforme hadoop
pkernevez
 
Hadoop
kamar MEDDAH
 
Techday Arrow Group: Hadoop & le Big Data
Arrow Group
 
Big Data, Hadoop & Spark
Alexia Audevart
 
Chapitre-2-Le-Big-Data-Hadoop-HDFS-et-MapReduce.pdf
AnisTrabelsi7
 
Présentation Big Data et REX Hadoop
Joseph Glorieux
 
Hadoop
Ines Slimene
 
Présentation Hadoop SECURINETS INSAT (MAP & REDUCE )
Hamza Ben Marzouk
 
Big Data: Hadoop Map / Reduce sur Windows et Windows Azure
Microsoft
 
GTUG Nantes (Dec 2011) - BigTable et NoSQL
Michaël Figuière
 
Gtug nantes big table et nosql
GDG Nantes
 
Afterwork hadoop
OCTO Technology Suisse
 
mix-it 2011
Olivier Mallassi
 

Plus de Modern Data Stack France (20)

PDF
Stash - Data FinOPS
Modern Data Stack France
 
PDF
Vue d'ensemble Dremio
Modern Data Stack France
 
PDF
From Data Warehouse to Lakehouse
Modern Data Stack France
 
PDF
Talend spark meetup 03042017 - Paris Spark Meetup
Modern Data Stack France
 
PDF
Paris Spark Meetup - Trifacta - 03_04_2017
Modern Data Stack France
 
PDF
Hadoop meetup : HUGFR Construire le cluster le plus rapide pour l'analyse des...
Modern Data Stack France
 
PDF
HUG France Feb 2016 - Migration de données structurées entre Hadoop et RDBMS ...
Modern Data Stack France
 
PDF
Hadoop France meetup Feb2016 : recommendations with spark
Modern Data Stack France
 
PPTX
Hug janvier 2016 -EDF
Modern Data Stack France
 
PPTX
HUG France - 20160114 industrialisation_process_big_data CanalPlus
Modern Data Stack France
 
PDF
Hugfr SPARK & RIAK -20160114_hug_france
Modern Data Stack France
 
PDF
HUG France : HBase in Financial Industry par Pierre Bittner (Scaled Risk CTO)
Modern Data Stack France
 
PDF
Apache Flink par Bilal Baltagi Paris Spark Meetup Dec 2015
Modern Data Stack France
 
PDF
Datalab 101 (Hadoop, Spark, ElasticSearch) par Jonathan Winandy - Paris Spark...
Modern Data Stack France
 
PDF
Record linkage, a real use case with spark ml - Paris Spark meetup Dec 2015
Modern Data Stack France
 
PDF
Spark dataframe
Modern Data Stack France
 
PDF
June Spark meetup : search as recommandation
Modern Data Stack France
 
PDF
Spark ML par Xebia (Spark Meetup du 11/06/2015)
Modern Data Stack France
 
PPTX
Spark meetup at viadeo
Modern Data Stack France
 
PPTX
Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamiel
Modern Data Stack France
 
Stash - Data FinOPS
Modern Data Stack France
 
Vue d'ensemble Dremio
Modern Data Stack France
 
From Data Warehouse to Lakehouse
Modern Data Stack France
 
Talend spark meetup 03042017 - Paris Spark Meetup
Modern Data Stack France
 
Paris Spark Meetup - Trifacta - 03_04_2017
Modern Data Stack France
 
Hadoop meetup : HUGFR Construire le cluster le plus rapide pour l'analyse des...
Modern Data Stack France
 
HUG France Feb 2016 - Migration de données structurées entre Hadoop et RDBMS ...
Modern Data Stack France
 
Hadoop France meetup Feb2016 : recommendations with spark
Modern Data Stack France
 
Hug janvier 2016 -EDF
Modern Data Stack France
 
HUG France - 20160114 industrialisation_process_big_data CanalPlus
Modern Data Stack France
 
Hugfr SPARK & RIAK -20160114_hug_france
Modern Data Stack France
 
HUG France : HBase in Financial Industry par Pierre Bittner (Scaled Risk CTO)
Modern Data Stack France
 
Apache Flink par Bilal Baltagi Paris Spark Meetup Dec 2015
Modern Data Stack France
 
Datalab 101 (Hadoop, Spark, ElasticSearch) par Jonathan Winandy - Paris Spark...
Modern Data Stack France
 
Record linkage, a real use case with spark ml - Paris Spark meetup Dec 2015
Modern Data Stack France
 
Spark dataframe
Modern Data Stack France
 
June Spark meetup : search as recommandation
Modern Data Stack France
 
Spark ML par Xebia (Spark Meetup du 11/06/2015)
Modern Data Stack France
 
Spark meetup at viadeo
Modern Data Stack France
 
Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamiel
Modern Data Stack France
 

Hadoop prêt pour l'Entreprise

  • 1. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Big Data Niort - 20 Mars 2014 Hadoop « Enterprise Ready » Hadoop prêt pour l'entreprise Charly CLAIRMONT Altic [email protected] @egwada
  • 2. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Mon parcours ● Depuis 2004 - ALTIC ● Mes Technos … ...
  • 3. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Hadoop User Group France ● Créé en 2012 ● Plus de 300 membres ● Plus de 100 membres par meetup ● Vimeo (23 vidéos) ● http://vimeo.com/user11241340 ● SlideShare (Présentations (29) ● http://fr.slideshare.net/hugfrance ● Twitter ● @hugFrance ● #HugFr ● Site ● http://hugfrance.fr Un groupe de plus en plus actif ! (messages échangés sur l'année)
  • 4. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Hadoop une brève histoire, déjà 10 ans ! 2011 Hortonworks founded 2012 2013 Hadoop 1.0 Hadoop 2.0 HugFrance
  • 5. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Hadoop une brève histoire, déjà 10 ans ! le détail ● 2004 - Doug Cutting and Mike Cafarella crée Hadoop selon le papier de Google ● 2005 Dec. - Nutch réécrit au dessus d'Hadoop - 20 nœuds ● 2006 Jan. - Doug Cutting rejoind Yahoo! ● 2006 Fev. - Hadoop top project Apache - HDFS & Map / Reduce ● 2006 Fev. - Yahoo! adopte Hadoop ● 2006 Avr. - Benchmark Tri sur 188 nœuds (10 GB/noeud) en 47.9 heures. ● 2006 Mai. - Yahoo! a un cluster de 300 nœuds ● 2006 Mai. - Benchmark Tri sur 500 nœuds en 42 heures (meilleures machines) ● 2006 Oct. - Hadoop s'exécute sur 600 nœuds ● 2006 Dec. - Benchmark Tri ● 20 nœuds : 1,8 heures ● 100 nœuds : 3,3 heures ● 500 nœuds : 5,2 heures ● 900 nœuds : 7,8 heures ● 2007 Jan. - Hadoop s'exécute sur 900 nœuds ● 2007 Apr. - Hadoop s'exécute sur 2 cluster de 1000 nœuds ● 2008 Oct. - 10 To de donnée par jour dans un cluster Hadoop ● 2009 Mar. - 17 clusters pour un total de 24 000 nœuds ● 2009 Avr. - 59 sec. pour trier 500 Go sur 1 400 nœuds et 100 To trié en 173 min. sur 3 400 nœuds ● ... ● ... ● 2012 Jan. 4 - Hadoop 1.0 ● 2013 Mai. - 1,42 To/min sur 2 100 nœuds (YARN) ● 2013 Oct. 16 - Hadoop 2.0
  • 6. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Et en 10 ans son adoption ne fait plus de doute !
  • 7. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Hadoop est robuste ! ● Stable ● Testé - Yahoo! (40 000 nœuds) ● Fiable ● Tolérant à la panne ● Flexible ● Schéma à la lecture ! ● Passage à l'échelle ● Économique ● Prédictibilité des coûts
  • 8. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Hadoop, système d'exploitation de la donnée
  • 9. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ HDFS, le système de fichiers distribué ● Distribué ● Passage à l'échelle ● Auto-surveillance pour redistribuer la donnée ● Peu gourmand en bande passante
  • 10. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ MAP / REDUCE, calcul parallèle en toute simplicité Map Reduce Key|Value Key|Value Key|Value Key|Value Key|Value Key|Value Key|Value Key|Value Key|Value Entées Key|Value Key|Value Key|Value Key|Value Key|Value Key|Value Key|Value Key|Value Key|Value Intermédiaire Key|Value, Key|Value, Key|Value, Key|Value Résultat = un type de collection Key|Value, Key|Value, Key|Value Key|Value, Key|Value
  • 11. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ MAP / REDUCE, architecture basique Input Format Map Sort Reduce Output Format Node Node Partitioner MapReduce HDFS (Distributed File System)
  • 12. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ HDFS et MAP / REDUCE au cœur d'Hadoop
  • 13. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ HDFS, range donc les fichiers
  • 14. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ HDFS sait où se situe chacun des blocs de données
  • 15. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ MAP / REDUCE, colle parfaitement à cette distribution de fichiers (1)
  • 16. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ MAP / REDUCE, colle parfaitement à cette distribution de fichiers (2)
  • 17. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ HBASE, du NoSQL sur Hadoop ● Distribuée ● Orientée colonnes ● Multidimensionnelle ● Haute Disponibilité ● Haute Performance ● Système de stockage
  • 18. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Hive, la couche SQL d'Hadoop HDFS DDL QueriesBrowsing MapReduce MetaStore Thrift API SerDe Thrift Jute JSON.. Execution Driver Parser Planner DB WebUI Optimizer JDBC ODBCCLI
  • 19. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ PIG, pas de Map / Reduce plutôt du script !
  • 20. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Importer / exporter NFS ● Naviguer dans HDFS depuis votre explorateur de fichiers Flume ● Collecte de grands volume de données (logs, événements...) vers Hadoop WebHDFS ● Service REST pour HDSF SQOOP ● Importer et exporter vos données rangées dans votre SGBDR
  • 21. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Exploitation Oozie ● Planification de jobs Ambari ● Installation, gestion, surveillance du cluster Hadoop Falcon ● Gestion cycle de vie des données ● Réplication
  • 22. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Sécurité Knox ● Gestion étendue, unifiée et globale de la sécurité dans Hadoop ● Supporte l'authentification et la gestion des jetons de sécurité. KNOX
  • 23. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Hadoop 2 ! Plus de types de traitements !
  • 24. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ YARN, transforme Hadoop en OS de la donnée
  • 25. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Grâce à Yahoo! un standard est né
  • 26. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Hadoop, un vibrant écosystème
  • 27. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Et c'est bien l'open source qui mène la danse...
  • 28. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Tellement reconnu... qu'il grignote des places... lentement mais sûrement... Ralph KIMBALL, un des pères du Data Warehousing reconnaît vivement Hadoop comme ● Un excellent complément au data Warehouse ● Une zone de staging et un ETL de grande efficacité
  • 29. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Hadoop pourra tout traiter « Le transactionnel » Déjà dans toutes les têtes Surtout celle de Doug CUTTING, le père d'Hadoop !
  • 30. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Pas de bidouillage ! De vrais outils ! Exploitation ETL Exploration Visualisations
  • 31. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Avec de vrais acteurs !
  • 32. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Des solutions disruptives et structurantes Couches logicielles Technologies Traitements massivement parallèles YARN, GiRAPH, MapReduce, HBase, Phoenix, Spark/BDAS, Drill, Impala, Stinger, PrestoDB, STORM ... Système de fichiers Azure, CassandraFS, CephFS, CleverSafe, GlusterFS, GridGain, HDFS, Lustre MapR FS, S3, SWIFT, Quantcast FS, Symantec VCFS ... Infrastructures System on a Chip, x86, Virtualization (Savanna, Sorengetti ) and Cloud (Amazon EMR, Rackspace, Enovance, ...) Distributions Cloudera, Hortonworks, IBM, Intel, MapR, Pivotal, WanDisco
  • 33. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Hadoop, lac de données
  • 34. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Avec de vrais projets ! #HugFrance a eu de vrais retour d'expérience ● Paris – Crédit Mutuel Arkea ● Consolidation données clients – EDF ● Nouveau Compteur électrique « Linky » – Criteo ● Annonces publicitaires en ligne – 55 ● Optimisation publicité en ligne ● Lyon – Booking.com ● Réservation de nuitées d'hôtel
  • 35. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Hadoop, C'est avant tout du logiciel ! Il aide à délivrer la vraie valeur de toutes vos données Lancez vous ! Hadoop, C'est avant tout du logiciel ! Il aide à délivrer la vraie valeur de toutes vos données Lancez vous !
  • 36. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Big Data Niort - 20 Mars 2014 Hadoop « Enterprise Ready » Merci pour votre attention Charly CLAIRMONT Altic [email protected] @egwada