SlideShare une entreprise Scribd logo
LIVRE BLANC
Comprendre les data-lakes
Les enjeux des nouvelles infrastructures de la donnée, pour une approche data-driven
Janvier 2018
Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES –
Un data-lake en quelques mots c’est :
2
Espace de stockage
de données
Avec des capacités de
traitement
Virtuellement sans limite en s’appuyant sur une infrastructure big data
(approche distribuée potentiellement dans le cloud)
Permettant de stocker tout
type de données à moindre
coût
Une opportunité technologique à mettre au service du business
Et de les retraiter en un temps
record au moment de leur
exploitation
Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES –
Sommaire
3
1. Révéler le potentiel business de votre data grâce aux data-lakes 4
2. Intégrer le data-lake dans votre écosystème data 7
3. Mener un projet data-lake 13
Révéler le potentiel business de votre data
grâce aux data-lakes
1.
Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES –
Un data-lake est le socle technique d’une démarche data-driven
5
• Alimenter des campagnes marketing data-driven
• Retargeter ses prospects chauds
• Choisir le lieu d’implantation d’un nouveau magasin
• Mesurer la performance de ses campagnes marketing
Marketing Business Intelligence
• Créer une vision 360° de ses clients
• Cruncher la donnée et l’analyser rapidement
• Piloter la pression publicitaire
Performance opérationnelle
• Réduire ses coûts informatiques
• Adapter le staffing en fonction de l’activité
• Bénéficier d’une infrastructure à l’architecture scalable,
évolutive, résiliente et pérenne
• Désiloter la donnée au sein de l’organisation
• Stocker d’importants volumes de données de toute nature
Expérience utilisateur
• Améliorer l’expérience client
• Personnaliser son offre
• Recommander ses produits en fonction de chaque profil
client
Use cases
data-lakes
Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES –
Le data-lake est un espace de stockage doté de capacités de traitement de données
permettant un large champ d’analyse
6
Il permet le stockage et le traitement de tout type de données (structurées, semi-structurées, non
structurées). Ses différentes capacités de traitement sont activées en fonction des cas d’usage.
Espace de stockage (système de fichiers distribués)
Data Streaming
Calcul Big Data,
No SQL
Machine LearningDatawarehouse
Business
Intelligence
Préparation de
données semi ou
non structurées
Prédiction,
recommandations
Ingestion et
traitement de
données en temps
réel
Data-lake
2.
Intégrer le data-lake
dans votre écosystème data
Focus sur une vision marketing digital
Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES –
Dans un dispositif data & digital le data-lake fait le lien entre les sources de données et
les briques d’activation
8
Données
comportementales
(Web analytics, média,
DMP)
Cross-canal offline
(magasin, service client)
Données exogènes
(2nd, 3rd party)
Personnalisation on-
site
(web, mobiles ,tablettes)
Ingérer toutes les données
pour les désiloter
Raffiner la donnée, lui
donner de l’intelligence
Rendre la donnée
accessible pour
l’exploiter
Data-lake
*Liste des sources non exhaustive
Pilotage (Outil BI /
Datavisualisation)
Marketing direct
(emailing, médias
digitaux, SMS)
Cross-canal offline
(magasin, service client)
Données clients
(CRM, référentiel
personnes, commandes)
Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES –
Pourquoi déployer un data-lake lorsque l’on a déjà un datawarehouse ?
9
Le datawarehouse va se trouver en bout de chaîne dans un data-lake. Il s’agit très souvent de la
première brique à activer dans une infrastructure data.
Datawarehouse
Nature
des
données
Modèle
de
données
Finalités
Ingestion rapide de nouvelles données de tous types
(structurée, semi-structurée, non structurée)
Stocke la donnée brute et le résultat des différentes
étapes de retraitements. Il permet d’historiser
l’information au niveau de granularité le plus faible
Stocke uniquement les données déjà
structurées et considérées comme « utiles » à
l’entreprise
Structure peu responsive : nécessite un travail de
structuration de la donnée avant de l’ingérer
Stocke des données déjà raffinées : des métriques
et événements découlant des référentiels de
l’entreprise
Business Intelligence : data management, reporting,
analyse exploratoire
La donnée est accessible aux analystes via du SQL
car elle est structurée en amont
Stocke toutes les données, celles utiles
aujourd’hui ou potentiellement dans le futur
Big data, data science, temps réels
On structure la donnée de manière agile en fonction
des cas d’usage
Data-lake
Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES –
Un data-lake peut s’intégrer dans un écosystème data disposant d’un datawarehouse
10
La gestion d’une brique datawarehouse dans un écosystème disposant d’un data-lake peut s’effectuer de deux
manières :
1. Le data-lake peut coexister en parallèle du datawarehouse legacy qui conserve ses fonctions et les deux systèmes
sont connectés et échangent leurs données
2. Le data-lake reproduit la brique datawarehouse legacy au sein de sa propre plateforme : elle bénéficie des
technologies big data inhérentes au data-lake, et voit sa connexion aux sources de données facilitée
Apports du data-lake
• Analyses plus avancées (plus grande
puissance de calcul)
• Meilleure contextualisation de la
communication client (ajout de données
comportementales)
• Optimisation des budgets médias
(temps réel)
Outil BI /
Datavisualisation
Données Web
Données clients
et commandes
Données
exogènes
(2nd, 3rd party)
Architecture décisionnelle
Datawarehouse
(legacy)
Médias
Marketing
relationnel
Data-lake
Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES –
Les évolutions du cloud facilitent le déploiement d’un data-lake et minimisent la prise de
risque initiale vis-à-vis de ces projets
11
Localisation des
données et rôles
« On Premise »
Data – center privé
Cloud Services
« serverless »
Facilité de déploiement
Ressources nécessaires
au fonctionnement de la
plateforme
Vous devez dimensionner votre
infrastructure : provisionnement de
ressources machines en fonction de vos
besoins
Vous installez les distributions logiciels big
data (gestion des configurations et mise à
jour)
Approche Software as a Service
(Saas)
Le prestataire héberge et administre
techniquement la plateforme
Vous gérez l’hébergement des données sur
vos propres serveurs
Vous administrez l’infrastructure (configuration
des logiciels, dimensionnement)
« On Premise »
Cloud computing
Approche Infrastructure as a Service (IaaS)
Le prestataire héberge vos données
Vous administrez l’infrastructure
(configuration des logiciels,
dimensionnement des serveurs)
Vous gérez l’achat et l’installation des serveurs
Vous devez dimensionner votre infrastructure :
provisionnement de ressources machines en
fonction de vos besoins
Vous installez les distributions logiciels big data
(gestion des configurations et mise à jour)
Le prestataire gère la configuration et
le dimensionnement de l’infrastructure
automatiquement en fonction de votre
usage de ses services
Investissement dans un data-center
Compétences en gestion, en hébergement,
en dev-ops (administration de la plateforme)
Distribution payante d’un framework big data
Facturation en fonction de la location des
ressources machines
Des compétences dev-ops pour administrer
l’infrastructure
Distribution payante d’un framework big data
Facturation à l’usage du service (stockage
et volume de données requêtées). Cela
couvre la consommation des ressources
machines et le coût du logiciel
Exemples de technologies
(non exhaustif)
Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES –
Pourquoi choisir des technologies Cloud « Serverless » pour déployer vos projets data ?
12
S’appuyer sur des technologies « Serverless » permettant d’accélérer le déploiement de vos cas d’usage
Le Cloud « Serverless » vous permet d’exploiter des outils de stockage et de manipulation de données
entièrement administrés par votre prestataire Cloud. Au lieu de devoir provisionner en amont des
serveurs suffisamment puissants pour absorber les charges hypothétiques, votre prestataire le fait
automatiquement au fur et à mesure de votre consommation.
La gestion de la sécurité de vos données fait partie du cœur de métier d’un prestataire Cloud. Vous bénéficierez
immédiatement, sans effort de votre part, de hauts standards de sécurité. De plus, les principaux acteurs du
Cloud proposent des solutions qui sont RGPD compliant.
Les coûts initiaux de déploiement sont considérablement réduits : vous payez uniquement ce que vous
consommez. Vous pouvez initier des projets data avec un faible budget infrastructure, le temps de prouver la
valeur des premiers cas d’usage.
Pendant que la plateforme Cloud s’occupe de gérer l’infrastructure, vos équipes peuvent se concentrer sur les
complexités propres à votre métier et à vos données
Mener un projet data-lake
3.
Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES –
Le déploiement d’un data-lake se fait progressivement avec des cas d’usage
14
• Business Intelligence
• Vision Client 360
• Market Automation
• Analytics avancées
• Segmentation
• Scoring
• Temps réel
• Analyse d’images
Data warehouse
Data visualisation
Machine Learning
ETL Big Data
Data Streaming
Deep learning
BigQuery Data Studio Dataflow Datalab Cloud MLDatastorePub/Sub
La méthode Converteo : un déploiement progressif cadencé par l’évolution des cas d’usage.
Une méthodologie agile, garantissant la création de valeur métier à chaque itération, et à chaque
montée en complexité.
Complexité croissante
Exemples d’outils
du stack Google
Cloud Platform
1 à 2 mois 2 à 4 mois2 à 3 mois
Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES –
Les cas d’usage se déploient rapidement via une méthodologie agile
15
Critères de sélection et d’évaluation :
Identification de l’impact business
Identification de la complexité technique :
disponibilité et qualité de la donnée, complexité
des traitements et modélisation à appliquer
Sélection du cas d’usage
Déploiement
Collecte des données
Évaluation du projet
Industrialisation :
Les projets peuvent commencer petit, voire
même par un mode POC dégradé
L’industrialisation se pense dès le début et reste
en fil rouge tout au long des projets
Une méthodologie agile, avec un déploiement progressif, accélère le déploiement des cas d’usage,
facilite l’appropriation des données par les équipes métiers, et améliore le cadrage des cas d’usage
suivants
Un data-lake reposant sur une infrastructure Cloud permet d’accélérer le déploiement des cas d’usage
Durée d’une itération : 1 à 3 mois
Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES –
L’exploitation d’un data-lake est un projet transverse nécessitant un solide sponsoring
16
Direction Générale
Direction Marketing
Direction Financière
Direction du Service Client
Direction Commerciale
Sponsoring
Equipe data-lake
Principaux
Contributeurs
Clients Internes
Systèmes d’Information Chef de projet
Data engineer
Data analyst
Data scientist
Administrateur système
L’agilité nécessaire à un projet data-lake, la spécificité des ressources nécessaires à son exploitation
ainsi que la transversalité de ses implications dans l’organisation, nécessitent souvent sa construction
en marge ou en parallèle d’un système d’information historique auquel il sera étroitement lié.
Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES –
Exploiter un data-lake nécessite une équipe dédiée composée de profils complémentaires
17
Des compétences d’architecte et de dev-ops sont requises pour le projet. Elles sont généralement portées par l’équipe data
Chef de projet
Identifie et spécifie les uses-cases avec les clients
internes et gère leur cadencement
Data Engineer
Connecte le data-lake à toutes les
sources de données, s’assure de la
qualité de la donnée et lie la plateforme
aux applications externes
Data Analyst
Définit les KPIs et les métriques à des
fins de reporting / dashboarding pour
comprendre les processus métiers
Data Scientist
Exploite en profondeur l’ensemble des
données à des fins de prospection, pour
déterminer les grandes tendances
business et les opportunités que
l’organisation devra saisir
Afin de mener à bien ces projets transverses, cette équipe devra être dotée de compétences variées :
statistiques, data-visualisation, compréhension du métier, préparation de données, software
engineering et gestion de projet.
Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES –
Les contraintes de mise en conformité avec la GDPR s’intègrent lors de l’exploitation
d’un data-lake
18
 Le traitement doit être licite et légitime
 Les données doivent être pertinentes pour le traitement
 Il doit y avoir proportionnalité entre les données traitées
et la finalité de traitement
Finalité
 Les personnes doivent bénéficier d’une information
préalable au traitement
 Les personnes doivent bénéficier d’un droit d’accès, de
rectification et d’opposition
Transparence
 Les données doivent être protégées et la
confidentialité assuréeSécurité
 Les données doivent être conservées pour une durée
adéquateConservation
 On identifie lors du déploiement des uses-case les données
pertinentes à traiter et on applique les traitements
nécessaires pour anonymiser les données
 Cette démarche est favorisée par une méthodologie agile
 Un mapping des données, des dictionnaires de données et
un modèle d’identifiant client unique doivent être tenus à
jour pour garantir un droit à l’accès et à la modification
 Le data-lake permet la mise en place de processus de
suppression automatique de données
 Le critère de la sécurité doit être pris en compte lors du
choix d’une technologie de data-lake
 Une bonne gouvernance des données doit permettre de
contrôler l’accès à la donnée au sein de l’entreprise et des
partenaires extérieurs
Les principes de base de la protection des données personnelles Des process à appliquer
Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES –
Lancer un projet data-lake dans une organisation
19
Pour lancer un projet data-lake, il vous faut :
• Un ou plusieurs cas d’usage
• De la data de qualité et une connaissance des systèmes sources
• Un Data Scientist / Data Engineer / Data analyst
La complexité technologique de ces projets a été grandement réduite par les progrès des
technologies Cloud et de big data. Commencer par un Proof of Concept est relativement simple et
souvent très utile
Commencer par un Proof Of Concept :
• Connaissance Client : étude de parcours Cross –
Canal
• Tester des scénarios d’activation avec des scénarios
DMP – Like
S’attaquer à un sujet data structurant :
• Architecture Décisionnelle à destination d’un projet
Business Intelligence
• Référentiel Client/Prospect Unique
Un projet data-lake va être initié par des cas d’usage. Deux approches complémentaires existent :
Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES –
RETOUR SUR LA MISSION
Refonte de l’infrastructure data
20
Objectifs du projet
Démarche
 Centraliser et faire converger une donnée de qualité pour Maisons du Monde, et rendre la donnée accessible et exploitable pour les besoins métiers suivants :
• Scénarios relationnels : optimiser les relances marketing pour adapter la pression 360° en fonction de la réaction des clients
• Cross-canal : mesurer la contribution du web à l’activité online en magasin : achats cross-canaux, RoPo*, showrooming
Machine Learning
L’entraînement du modèle et la
demande de prédictions se fait en
sollicitant une VM Compute
Engine
Visualisation
Les résultats sont accessibles aux
équipes métier via un outil de
Data Visualisation
Source de données
Données produits
Données CRM
Données digitales (web)
Données Magasins
Données comptables
Données exogènes
Google Cloud Platform
Stockage en ligne
Machines virtuelles scalables
Requêtage et traitement de la
donnée
*Phénomène de Research Online Purchase Offline
Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES –
RETOUR SUR LA MISSION
Développement d’algorithmes prédictifs, scores d’appétence, segments clients avancés
21
Objectifs du projet
Démarche
 Mettre en place un modèle pour optimiser les budgets média de Club Med
Résultats
 Identification d’une stratégie optimale d’achat générant jusqu'à 10% d’économie sur les coûts d’acquisition des campagnes de remarketing Adwords
A/B testing des campagnes
A/B/C test sur Adwords de 3 stratégies de remarketing
faisant varier les enchères sur ces visiteurs scorés:
+40% / -40% / Témoin
Modélisation / Détection d’appétence
Attribution à tous les visiteurs du site d’une probabilité de
conversion post-première visite via un algorithme auto-
apprenant
Gradient Boosting Random Forest
Industrialisation
Automatisation d’une stratégie d’achat en temps réel
Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES
Thomas FAIVRE-DUBOZ
Directeur Associé et Fondateur
@ tfd@converteo.com
LES AUTEURS :
Arthur FULCONIS
Consultant Senior
@ af@converteo.com
Julien RIBOURT
Senior Manager
@ jr@converteo.com
Emeric TROSSAT
Consultant Senior
@ et@converteo.com
Adrien BOUHOT
Consultant Senior
@ abo@converteo.com
Najlaa BOUALI
Consultante
@ nb@converteo.com
Vincent COSTANZA
Consultant Senior
@ vco@converteo.com

Contenu connexe

PDF
Livre Blanc : comprendre les data-lakes
PDF
Livre blanc big data et data lake le duo gagnant extrait_itelligence
PDF
BigData selon IBM
PDF
Big Data : concepts, cas d'usage et tendances
PDF
Cas d’usage du Big Data pour la relation et l’expérience client
PPTX
[Fr] Information builders - MDM et Big Data
PPTX
Big Data Des méandres des outils au potentiel business
PDF
Data Visualisation, Business Intelligence et Big Data
Livre Blanc : comprendre les data-lakes
Livre blanc big data et data lake le duo gagnant extrait_itelligence
BigData selon IBM
Big Data : concepts, cas d'usage et tendances
Cas d’usage du Big Data pour la relation et l’expérience client
[Fr] Information builders - MDM et Big Data
Big Data Des méandres des outils au potentiel business
Data Visualisation, Business Intelligence et Big Data

Tendances (20)

PDF
Soft Computing & IBM : Digital, Big Data & DMP
PDF
[French] Matinale du Big Data Talend
PDF
EXL Group - Offre Data Science
PDF
La valeur des Big Data sera dans leurs usages
PDF
I love BIG DATA
PPT
Competitic big data et commerce
PDF
Workshop - Monétisation de la Donnée : Process & Exemples
PDF
Valtech - Du BI au Big Data, une révolution dans l’entreprise
PDF
Livre blanc big data écosystème français
PDF
Big Data Analytics
PDF
Cours Big Data Chap1
PDF
Du Data Mining à la Data Science
PDF
Le Big Data au coeur de la stratégie des PME par où commencer ?
PDF
Les 4 étapes clés pour transformer les données client en valeur
PPT
Big Data, kesako ?
PPTX
Machine intelligente d’analyse financiere
PPTX
Matinée 01 Big Data
PDF
Atelier 2AM / BIG DATA LAB by Groupe CARTEGIE
PDF
Big data : quels enjeux et opportunités pour l'entreprise - livre blanc - Blu...
Soft Computing & IBM : Digital, Big Data & DMP
[French] Matinale du Big Data Talend
EXL Group - Offre Data Science
La valeur des Big Data sera dans leurs usages
I love BIG DATA
Competitic big data et commerce
Workshop - Monétisation de la Donnée : Process & Exemples
Valtech - Du BI au Big Data, une révolution dans l’entreprise
Livre blanc big data écosystème français
Big Data Analytics
Cours Big Data Chap1
Du Data Mining à la Data Science
Le Big Data au coeur de la stratégie des PME par où commencer ?
Les 4 étapes clés pour transformer les données client en valeur
Big Data, kesako ?
Machine intelligente d’analyse financiere
Matinée 01 Big Data
Atelier 2AM / BIG DATA LAB by Groupe CARTEGIE
Big data : quels enjeux et opportunités pour l'entreprise - livre blanc - Blu...
Publicité

Similaire à Livre blanc data-lakes converteo 2018 (20)

PDF
SAS Forum Soft Computing Théâtre
PDF
Cloud computing et big data
PDF
BlueData EPIC datasheet (en Français)
PDF
Future of data center french
PDF
Future of data center french
PDF
Réussir sa migration vers le Cloud grâce à la virtualisation des données
PPTX
Webinaire Comment enrichir votre BI avec l’analyse en temps réel des CDR via ...
PDF
Qu'est-ce que le cloud ?
PDF
Session en ligne: Découverte du Logical Data Fabric & Data Virtualization
PDF
20142015ghrddegffrffggghhhhhhhhh_dfffbi_dataw.pdf
PDF
Présentation evénement AWS - 13 oct 2015
PDF
La Logical Data Fabric au secours de la connaissance client
PDF
Simplifier la mise en place d'une stratégie Data Mesh avec Denodo
PDF
IBM Bluemix Paris meetup - Big Data & Analytics dans le Cloud - Epitech- 2016...
PPTX
Cloud computing cours in power point chap
PDF
Discovery Session France: Atelier découverte de la Data Virtualization
PDF
Les clés de succès pour moderniser votre architecture de données en 2022
PPTX
Ecosystème Big Data
PDF
La Data Virtualization au coeur de l’architecture “Data Mesh”
PDF
Big data Paris Presentation Solocal 20150310
SAS Forum Soft Computing Théâtre
Cloud computing et big data
BlueData EPIC datasheet (en Français)
Future of data center french
Future of data center french
Réussir sa migration vers le Cloud grâce à la virtualisation des données
Webinaire Comment enrichir votre BI avec l’analyse en temps réel des CDR via ...
Qu'est-ce que le cloud ?
Session en ligne: Découverte du Logical Data Fabric & Data Virtualization
20142015ghrddegffrffggghhhhhhhhh_dfffbi_dataw.pdf
Présentation evénement AWS - 13 oct 2015
La Logical Data Fabric au secours de la connaissance client
Simplifier la mise en place d'une stratégie Data Mesh avec Denodo
IBM Bluemix Paris meetup - Big Data & Analytics dans le Cloud - Epitech- 2016...
Cloud computing cours in power point chap
Discovery Session France: Atelier découverte de la Data Virtualization
Les clés de succès pour moderniser votre architecture de données en 2022
Ecosystème Big Data
La Data Virtualization au coeur de l’architecture “Data Mesh”
Big data Paris Presentation Solocal 20150310
Publicité

Plus de Converteo (19)

PDF
Barometre 2017 Webanalyse, Tag Management et Customer Experience Management
PDF
Baromètre personnalisation : Les pratiques du merchandising personnalisé
PDF
BAROMÈTRE RGPD
PDF
Baromètre : Les pratiques de l'AB testing et la personnalisation web en France
PDF
Tracking TV-to-Web : enfin une mesure du ROI des campagnes TV ?
PDF
Livre Blanc Data in store, collecte & exploitation : Le point de vente s'insp...
PDF
Baromètre Webanalyse et Tag Management 2016
PPTX
Data Breakfast : La transformation digitale à l'heure de la data
PDF
Baromètre sur les pratiques de l'A/B testing et de la personnalisation web
PDF
Baromètre dmp-quels-retours-d’expérience-sur-les-data-management-platforms
PDF
10 minutes : Tableaux de bord
PDF
Baromètre Converteo Webanalyse et Tag management S2 2015
PDF
Baromètre de la livraison 2015
PDF
2ème enquête annuelle sur l'A/B testing et la personnalisation web
PDF
Baromètre presse & digital
PDF
Baromètre S1 2015 – Solutions d’analytics et tag management
PDF
Livre Blanc Attribution Management : entre technologie, marketing et statistique
PDF
E- commerce One-to-One 2015 - Marketing automatisé
PPTX
Livre blanc RTB Converteo
Barometre 2017 Webanalyse, Tag Management et Customer Experience Management
Baromètre personnalisation : Les pratiques du merchandising personnalisé
BAROMÈTRE RGPD
Baromètre : Les pratiques de l'AB testing et la personnalisation web en France
Tracking TV-to-Web : enfin une mesure du ROI des campagnes TV ?
Livre Blanc Data in store, collecte & exploitation : Le point de vente s'insp...
Baromètre Webanalyse et Tag Management 2016
Data Breakfast : La transformation digitale à l'heure de la data
Baromètre sur les pratiques de l'A/B testing et de la personnalisation web
Baromètre dmp-quels-retours-d’expérience-sur-les-data-management-platforms
10 minutes : Tableaux de bord
Baromètre Converteo Webanalyse et Tag management S2 2015
Baromètre de la livraison 2015
2ème enquête annuelle sur l'A/B testing et la personnalisation web
Baromètre presse & digital
Baromètre S1 2015 – Solutions d’analytics et tag management
Livre Blanc Attribution Management : entre technologie, marketing et statistique
E- commerce One-to-One 2015 - Marketing automatisé
Livre blanc RTB Converteo

Livre blanc data-lakes converteo 2018

  • 1. LIVRE BLANC Comprendre les data-lakes Les enjeux des nouvelles infrastructures de la donnée, pour une approche data-driven Janvier 2018
  • 2. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – Un data-lake en quelques mots c’est : 2 Espace de stockage de données Avec des capacités de traitement Virtuellement sans limite en s’appuyant sur une infrastructure big data (approche distribuée potentiellement dans le cloud) Permettant de stocker tout type de données à moindre coût Une opportunité technologique à mettre au service du business Et de les retraiter en un temps record au moment de leur exploitation
  • 3. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – Sommaire 3 1. Révéler le potentiel business de votre data grâce aux data-lakes 4 2. Intégrer le data-lake dans votre écosystème data 7 3. Mener un projet data-lake 13
  • 4. Révéler le potentiel business de votre data grâce aux data-lakes 1.
  • 5. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – Un data-lake est le socle technique d’une démarche data-driven 5 • Alimenter des campagnes marketing data-driven • Retargeter ses prospects chauds • Choisir le lieu d’implantation d’un nouveau magasin • Mesurer la performance de ses campagnes marketing Marketing Business Intelligence • Créer une vision 360° de ses clients • Cruncher la donnée et l’analyser rapidement • Piloter la pression publicitaire Performance opérationnelle • Réduire ses coûts informatiques • Adapter le staffing en fonction de l’activité • Bénéficier d’une infrastructure à l’architecture scalable, évolutive, résiliente et pérenne • Désiloter la donnée au sein de l’organisation • Stocker d’importants volumes de données de toute nature Expérience utilisateur • Améliorer l’expérience client • Personnaliser son offre • Recommander ses produits en fonction de chaque profil client Use cases data-lakes
  • 6. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – Le data-lake est un espace de stockage doté de capacités de traitement de données permettant un large champ d’analyse 6 Il permet le stockage et le traitement de tout type de données (structurées, semi-structurées, non structurées). Ses différentes capacités de traitement sont activées en fonction des cas d’usage. Espace de stockage (système de fichiers distribués) Data Streaming Calcul Big Data, No SQL Machine LearningDatawarehouse Business Intelligence Préparation de données semi ou non structurées Prédiction, recommandations Ingestion et traitement de données en temps réel Data-lake
  • 7. 2. Intégrer le data-lake dans votre écosystème data Focus sur une vision marketing digital
  • 8. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – Dans un dispositif data & digital le data-lake fait le lien entre les sources de données et les briques d’activation 8 Données comportementales (Web analytics, média, DMP) Cross-canal offline (magasin, service client) Données exogènes (2nd, 3rd party) Personnalisation on- site (web, mobiles ,tablettes) Ingérer toutes les données pour les désiloter Raffiner la donnée, lui donner de l’intelligence Rendre la donnée accessible pour l’exploiter Data-lake *Liste des sources non exhaustive Pilotage (Outil BI / Datavisualisation) Marketing direct (emailing, médias digitaux, SMS) Cross-canal offline (magasin, service client) Données clients (CRM, référentiel personnes, commandes)
  • 9. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – Pourquoi déployer un data-lake lorsque l’on a déjà un datawarehouse ? 9 Le datawarehouse va se trouver en bout de chaîne dans un data-lake. Il s’agit très souvent de la première brique à activer dans une infrastructure data. Datawarehouse Nature des données Modèle de données Finalités Ingestion rapide de nouvelles données de tous types (structurée, semi-structurée, non structurée) Stocke la donnée brute et le résultat des différentes étapes de retraitements. Il permet d’historiser l’information au niveau de granularité le plus faible Stocke uniquement les données déjà structurées et considérées comme « utiles » à l’entreprise Structure peu responsive : nécessite un travail de structuration de la donnée avant de l’ingérer Stocke des données déjà raffinées : des métriques et événements découlant des référentiels de l’entreprise Business Intelligence : data management, reporting, analyse exploratoire La donnée est accessible aux analystes via du SQL car elle est structurée en amont Stocke toutes les données, celles utiles aujourd’hui ou potentiellement dans le futur Big data, data science, temps réels On structure la donnée de manière agile en fonction des cas d’usage Data-lake
  • 10. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – Un data-lake peut s’intégrer dans un écosystème data disposant d’un datawarehouse 10 La gestion d’une brique datawarehouse dans un écosystème disposant d’un data-lake peut s’effectuer de deux manières : 1. Le data-lake peut coexister en parallèle du datawarehouse legacy qui conserve ses fonctions et les deux systèmes sont connectés et échangent leurs données 2. Le data-lake reproduit la brique datawarehouse legacy au sein de sa propre plateforme : elle bénéficie des technologies big data inhérentes au data-lake, et voit sa connexion aux sources de données facilitée Apports du data-lake • Analyses plus avancées (plus grande puissance de calcul) • Meilleure contextualisation de la communication client (ajout de données comportementales) • Optimisation des budgets médias (temps réel) Outil BI / Datavisualisation Données Web Données clients et commandes Données exogènes (2nd, 3rd party) Architecture décisionnelle Datawarehouse (legacy) Médias Marketing relationnel Data-lake
  • 11. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – Les évolutions du cloud facilitent le déploiement d’un data-lake et minimisent la prise de risque initiale vis-à-vis de ces projets 11 Localisation des données et rôles « On Premise » Data – center privé Cloud Services « serverless » Facilité de déploiement Ressources nécessaires au fonctionnement de la plateforme Vous devez dimensionner votre infrastructure : provisionnement de ressources machines en fonction de vos besoins Vous installez les distributions logiciels big data (gestion des configurations et mise à jour) Approche Software as a Service (Saas) Le prestataire héberge et administre techniquement la plateforme Vous gérez l’hébergement des données sur vos propres serveurs Vous administrez l’infrastructure (configuration des logiciels, dimensionnement) « On Premise » Cloud computing Approche Infrastructure as a Service (IaaS) Le prestataire héberge vos données Vous administrez l’infrastructure (configuration des logiciels, dimensionnement des serveurs) Vous gérez l’achat et l’installation des serveurs Vous devez dimensionner votre infrastructure : provisionnement de ressources machines en fonction de vos besoins Vous installez les distributions logiciels big data (gestion des configurations et mise à jour) Le prestataire gère la configuration et le dimensionnement de l’infrastructure automatiquement en fonction de votre usage de ses services Investissement dans un data-center Compétences en gestion, en hébergement, en dev-ops (administration de la plateforme) Distribution payante d’un framework big data Facturation en fonction de la location des ressources machines Des compétences dev-ops pour administrer l’infrastructure Distribution payante d’un framework big data Facturation à l’usage du service (stockage et volume de données requêtées). Cela couvre la consommation des ressources machines et le coût du logiciel Exemples de technologies (non exhaustif)
  • 12. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – Pourquoi choisir des technologies Cloud « Serverless » pour déployer vos projets data ? 12 S’appuyer sur des technologies « Serverless » permettant d’accélérer le déploiement de vos cas d’usage Le Cloud « Serverless » vous permet d’exploiter des outils de stockage et de manipulation de données entièrement administrés par votre prestataire Cloud. Au lieu de devoir provisionner en amont des serveurs suffisamment puissants pour absorber les charges hypothétiques, votre prestataire le fait automatiquement au fur et à mesure de votre consommation. La gestion de la sécurité de vos données fait partie du cœur de métier d’un prestataire Cloud. Vous bénéficierez immédiatement, sans effort de votre part, de hauts standards de sécurité. De plus, les principaux acteurs du Cloud proposent des solutions qui sont RGPD compliant. Les coûts initiaux de déploiement sont considérablement réduits : vous payez uniquement ce que vous consommez. Vous pouvez initier des projets data avec un faible budget infrastructure, le temps de prouver la valeur des premiers cas d’usage. Pendant que la plateforme Cloud s’occupe de gérer l’infrastructure, vos équipes peuvent se concentrer sur les complexités propres à votre métier et à vos données
  • 13. Mener un projet data-lake 3.
  • 14. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – Le déploiement d’un data-lake se fait progressivement avec des cas d’usage 14 • Business Intelligence • Vision Client 360 • Market Automation • Analytics avancées • Segmentation • Scoring • Temps réel • Analyse d’images Data warehouse Data visualisation Machine Learning ETL Big Data Data Streaming Deep learning BigQuery Data Studio Dataflow Datalab Cloud MLDatastorePub/Sub La méthode Converteo : un déploiement progressif cadencé par l’évolution des cas d’usage. Une méthodologie agile, garantissant la création de valeur métier à chaque itération, et à chaque montée en complexité. Complexité croissante Exemples d’outils du stack Google Cloud Platform 1 à 2 mois 2 à 4 mois2 à 3 mois
  • 15. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – Les cas d’usage se déploient rapidement via une méthodologie agile 15 Critères de sélection et d’évaluation : Identification de l’impact business Identification de la complexité technique : disponibilité et qualité de la donnée, complexité des traitements et modélisation à appliquer Sélection du cas d’usage Déploiement Collecte des données Évaluation du projet Industrialisation : Les projets peuvent commencer petit, voire même par un mode POC dégradé L’industrialisation se pense dès le début et reste en fil rouge tout au long des projets Une méthodologie agile, avec un déploiement progressif, accélère le déploiement des cas d’usage, facilite l’appropriation des données par les équipes métiers, et améliore le cadrage des cas d’usage suivants Un data-lake reposant sur une infrastructure Cloud permet d’accélérer le déploiement des cas d’usage Durée d’une itération : 1 à 3 mois
  • 16. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – L’exploitation d’un data-lake est un projet transverse nécessitant un solide sponsoring 16 Direction Générale Direction Marketing Direction Financière Direction du Service Client Direction Commerciale Sponsoring Equipe data-lake Principaux Contributeurs Clients Internes Systèmes d’Information Chef de projet Data engineer Data analyst Data scientist Administrateur système L’agilité nécessaire à un projet data-lake, la spécificité des ressources nécessaires à son exploitation ainsi que la transversalité de ses implications dans l’organisation, nécessitent souvent sa construction en marge ou en parallèle d’un système d’information historique auquel il sera étroitement lié.
  • 17. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – Exploiter un data-lake nécessite une équipe dédiée composée de profils complémentaires 17 Des compétences d’architecte et de dev-ops sont requises pour le projet. Elles sont généralement portées par l’équipe data Chef de projet Identifie et spécifie les uses-cases avec les clients internes et gère leur cadencement Data Engineer Connecte le data-lake à toutes les sources de données, s’assure de la qualité de la donnée et lie la plateforme aux applications externes Data Analyst Définit les KPIs et les métriques à des fins de reporting / dashboarding pour comprendre les processus métiers Data Scientist Exploite en profondeur l’ensemble des données à des fins de prospection, pour déterminer les grandes tendances business et les opportunités que l’organisation devra saisir Afin de mener à bien ces projets transverses, cette équipe devra être dotée de compétences variées : statistiques, data-visualisation, compréhension du métier, préparation de données, software engineering et gestion de projet.
  • 18. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – Les contraintes de mise en conformité avec la GDPR s’intègrent lors de l’exploitation d’un data-lake 18  Le traitement doit être licite et légitime  Les données doivent être pertinentes pour le traitement  Il doit y avoir proportionnalité entre les données traitées et la finalité de traitement Finalité  Les personnes doivent bénéficier d’une information préalable au traitement  Les personnes doivent bénéficier d’un droit d’accès, de rectification et d’opposition Transparence  Les données doivent être protégées et la confidentialité assuréeSécurité  Les données doivent être conservées pour une durée adéquateConservation  On identifie lors du déploiement des uses-case les données pertinentes à traiter et on applique les traitements nécessaires pour anonymiser les données  Cette démarche est favorisée par une méthodologie agile  Un mapping des données, des dictionnaires de données et un modèle d’identifiant client unique doivent être tenus à jour pour garantir un droit à l’accès et à la modification  Le data-lake permet la mise en place de processus de suppression automatique de données  Le critère de la sécurité doit être pris en compte lors du choix d’une technologie de data-lake  Une bonne gouvernance des données doit permettre de contrôler l’accès à la donnée au sein de l’entreprise et des partenaires extérieurs Les principes de base de la protection des données personnelles Des process à appliquer
  • 19. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – Lancer un projet data-lake dans une organisation 19 Pour lancer un projet data-lake, il vous faut : • Un ou plusieurs cas d’usage • De la data de qualité et une connaissance des systèmes sources • Un Data Scientist / Data Engineer / Data analyst La complexité technologique de ces projets a été grandement réduite par les progrès des technologies Cloud et de big data. Commencer par un Proof of Concept est relativement simple et souvent très utile Commencer par un Proof Of Concept : • Connaissance Client : étude de parcours Cross – Canal • Tester des scénarios d’activation avec des scénarios DMP – Like S’attaquer à un sujet data structurant : • Architecture Décisionnelle à destination d’un projet Business Intelligence • Référentiel Client/Prospect Unique Un projet data-lake va être initié par des cas d’usage. Deux approches complémentaires existent :
  • 20. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – RETOUR SUR LA MISSION Refonte de l’infrastructure data 20 Objectifs du projet Démarche  Centraliser et faire converger une donnée de qualité pour Maisons du Monde, et rendre la donnée accessible et exploitable pour les besoins métiers suivants : • Scénarios relationnels : optimiser les relances marketing pour adapter la pression 360° en fonction de la réaction des clients • Cross-canal : mesurer la contribution du web à l’activité online en magasin : achats cross-canaux, RoPo*, showrooming Machine Learning L’entraînement du modèle et la demande de prédictions se fait en sollicitant une VM Compute Engine Visualisation Les résultats sont accessibles aux équipes métier via un outil de Data Visualisation Source de données Données produits Données CRM Données digitales (web) Données Magasins Données comptables Données exogènes Google Cloud Platform Stockage en ligne Machines virtuelles scalables Requêtage et traitement de la donnée *Phénomène de Research Online Purchase Offline
  • 21. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – RETOUR SUR LA MISSION Développement d’algorithmes prédictifs, scores d’appétence, segments clients avancés 21 Objectifs du projet Démarche  Mettre en place un modèle pour optimiser les budgets média de Club Med Résultats  Identification d’une stratégie optimale d’achat générant jusqu'à 10% d’économie sur les coûts d’acquisition des campagnes de remarketing Adwords A/B testing des campagnes A/B/C test sur Adwords de 3 stratégies de remarketing faisant varier les enchères sur ces visiteurs scorés: +40% / -40% / Témoin Modélisation / Détection d’appétence Attribution à tous les visiteurs du site d’une probabilité de conversion post-première visite via un algorithme auto- apprenant Gradient Boosting Random Forest Industrialisation Automatisation d’une stratégie d’achat en temps réel
  • 22. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES Thomas FAIVRE-DUBOZ Directeur Associé et Fondateur @ [email protected] LES AUTEURS : Arthur FULCONIS Consultant Senior @ [email protected] Julien RIBOURT Senior Manager @ [email protected] Emeric TROSSAT Consultant Senior @ [email protected] Adrien BOUHOT Consultant Senior @ [email protected] Najlaa BOUALI Consultante @ [email protected] Vincent COSTANZA Consultant Senior @ [email protected]