SlideShare une entreprise Scribd logo
Fausses données
et Bad Data :
restez vigilant!
Vincent Terrasi
Product Director OnCrawl
Formateur – Conférencier
Chasseur de BAD DATA
@vincentterrasi
LA plateforme dédiée à l’optimisation
technique du référencement naturel
OnCrawl SEO Crawler
Analysez votre site
à la manière de Google
OnCrawl Log Analyzer
Suivez le comportement des bots
et des visiteurs
OnCrawl Data³
Comprenez l’influence des
facteurs de positionnement
sur l’indexabilité
Source : InfoGix.com
Source : Gartner 2018 + Harvard Business Review
G
A
F
A
OOGLE +
ACEBOOK DEALS
MAZON
RESTAURANTS
PPLE PING
3 100 000 000 000 000 000 $ par an
3,1 TRILLION $ par an
=
LA DETTE DATA COÛTE BEAUCOUP PLUS CHER QUE LA DETTE TECHNIQUE
DATA DIFFERENTE
Google Analytics et AT Internet
 Pas les mêmes définitions
Google Search et Google Adword
 Pas les mêmes objectifs
SEMrush et Yooda
 Pas les mêmes périmètres
SOLUTIONS : VALIDER LES DEFINITIONS
DATA CORROMPUE
VOLONTAIRE
> Achat de clics > Achat de trafic > Achat de Likes
INVOLONTAIRE
> Les bots > Passage TV > DDOS
UN PEU LES DEUX
 Réduire le temps de session !
 Changer le modèle d’attribution
SOLUTION
1. Créer une vue
« Raw Data » qui
tous les bots
2. Monitorer les
changements
de trafic à la hausse
la baisse
DATA MANQUANTE
Google Analytics vs Search Console vs Logs
Site
 1 TAG JS manquant
 1 TAG JS posé plusieurs fois
Serveur
 1 SOUCI TECHNIQUE
Client :
 Adblocker
 DO NOT TRACK
SOLUTIONS : CRAWLER - ANTI-ADBLOCK
DATA A SUPPRIMER
 Nouvelles lois ( RGPD )
 Durée de conservation
SOLUTIONS : ANONYMISER LES DATA, DECLARER TOUS LES PROCESS
MULTI SOURCE
Quelles données sont les plus fiables ?
DATA PÉRIMÉE
 Changement d’adresse
 Fusion / Acquisition de société
 Changement de téléphone
SOLUTIONS : METTRE DES DATES de MISE A JOUR A LA MINUTE PRES
DATA MAL CONVERTIE
 Timezone
 Currencies ( €, $, … )
SOLUTIONS : RECUPERER CHAQUE JOUR LES TAUX DE CONVERSION
CLIENT DUPLIQUE
Level 1
> sur plusieurs bases de données différentes
Level 2
> sous différentes identifications
Level 3
> sur plusieurs bases de données différentes et sous
différentes identifications
Solution : Référentiel client unique
DATA DECLARATIVE
 CRM
SOLUTIONS : UTILISER UN TIERS DE CONFIANCE
DATA TROP AGGREGEE
> Temporel : Filtrer à l’heure sur des
jour
> Catégoriel : Catégorie qui regroupe trop
catégories
> Lieu : Filtrer par ville sur des données
SOLUTIONS : TRAVAILLER SUR LES DONNES BRUTES
CHAMPS DE FORMULAIRE MANQUANT ou PRIS EN OTAGE
> Ajout du SIRET
> Ajout du DUNS
> Séparer le code postal de l’adresse
MACHINE LEARNING : SUR-OPTIMISATION
Avec les BAD DATA, les biais sont amplifiés par les machines
 Word2Vec
GENRE : Machine à coudre
AGE : Docteur
SOLUTION
1. Identifier la direction du biais
2. Neutraliser ces mots
3. Egaliser les pairs ( la seul différence entre fille et garçon
doit être le genre )
4. Si la pair de mots est peu défini, nous pouvons la
passer
Les BAD DATA peuvent être très utile
VOIX
IMAGE
TEXTE
VIDEO
NEWS
DEVELOPPER L’ESPRIT CRITIQUE
PLAN
ANTI
BAD
DATA
Savoir à quoi ressemble les BAD DATA
(Champ vide, Champ dupliqué, Donnée de
mauvaise qualité)
Surveiller chaque jour tous les changements
impactants de façon automatique
Collecter seulement les données dont vous avez
besoin, partager et documenter des définitions
communes
Nettoyer, enrichir et auditer régulièrement vos
données
Développer l’esprit critique de vos équipes
www.oncrawl.com
Start your free trial
MERCI

Contenu connexe

PDF
Perdu dans l'univers des Customer Data Platform ?
PPTX
JOJC mars 2023
PPTX
Piloter ses campagnes par la donnée
 
PPTX
#WLS17 / We Love SEO 2017 : Data & Digital Analytics
PDF
Data & Digital Analytics : comment contribuer efficacement à l'optimisation S...
PDF
Seo camp'us 2017 utiliser google analytics comme un voyou - aristide riou
PDF
Optimiser ses campagnes Google Ads avec DataStudio | SMX Paris 2019
PDF
Optimiser la conversion - Nicolas Jardillier - YOODx 2017
Perdu dans l'univers des Customer Data Platform ?
JOJC mars 2023
Piloter ses campagnes par la donnée
 
#WLS17 / We Love SEO 2017 : Data & Digital Analytics
Data & Digital Analytics : comment contribuer efficacement à l'optimisation S...
Seo camp'us 2017 utiliser google analytics comme un voyou - aristide riou
Optimiser ses campagnes Google Ads avec DataStudio | SMX Paris 2019
Optimiser la conversion - Nicolas Jardillier - YOODx 2017

Similaire à Fausses données et Bad Data : restez vigilant ! (20)

PDF
Formation stratégie numérique
PDF
Arnaques, crimes et analytics - Aristide Riou - Measure Camp Paris 2016
PDF
Les trois A’s : Automation #part 3
PDF
Google Analytics : le dompter pour décider ... à bon escient !
PDF
FR - Emarketing Paris - Automatiser ? Oui, mais pas n'importe comment
ODP
E-commerce
PDF
Les trois A’s : Attribution #part 1
PDF
28/09/2017 Séminaire Data & Activation Client
PPTX
Web Analytics: Optimiser sa performance web
PDF
Google Analytics - Des bases actionnables en 45min - LEC Geneve 2019
PDF
Adwebmaroc Programmatique Real Time Bidding
PDF
Flupa UX Days 2017: "UX + DONNÉES = <3> par Simon White
PDF
Optimiser sa stratégie d'acquisition (conférence E-commerce Paris 2014, Flori...
PPTX
Comment la DMP permet à SFR de proposer l’offre la plus adaptée à ses clients
PPTX
L’analytique web : Transformer les chiffres en intelligence d’affaires
PPTX
Créer un site internet ou un blog
PPTX
UX + DONNÉES = Coeur + CRO
PPTX
e-marketing / webmarketing
PPTX
Webinar Data et fidélisation client
Formation stratégie numérique
Arnaques, crimes et analytics - Aristide Riou - Measure Camp Paris 2016
Les trois A’s : Automation #part 3
Google Analytics : le dompter pour décider ... à bon escient !
FR - Emarketing Paris - Automatiser ? Oui, mais pas n'importe comment
E-commerce
Les trois A’s : Attribution #part 1
28/09/2017 Séminaire Data & Activation Client
Web Analytics: Optimiser sa performance web
Google Analytics - Des bases actionnables en 45min - LEC Geneve 2019
Adwebmaroc Programmatique Real Time Bidding
Flupa UX Days 2017: "UX + DONNÉES = <3> par Simon White
Optimiser sa stratégie d'acquisition (conférence E-commerce Paris 2014, Flori...
Comment la DMP permet à SFR de proposer l’offre la plus adaptée à ses clients
L’analytique web : Transformer les chiffres en intelligence d’affaires
Créer un site internet ou un blog
UX + DONNÉES = Coeur + CRO
e-marketing / webmarketing
Webinar Data et fidélisation client
Publicité

Plus de Vincent Terrasi (15)

PDF
SEO CAMP'us Paris 2024 - Déploiement de l'IA générative privée dans les organ...
PDF
IA générative : Menace ou Opportunité pour le SEO
PPTX
slides SEO CAMP'us Paris 2022 - Google et tools SEO On vous a menti
PPTX
Une IA pour votre SEO, une méthode inédite pour accélérer vos projets Data SEO
PPTX
SEO AnswerBox, une méthode inédite pour interroger vos données et créer vos d...
PPTX
Génération de contenu pour le SEO
PPTX
Comment faire du Data SEO sans savoir programmer ?
PPTX
Explainable Machine Learning for Ranking Factors
PPTX
Comment les plateformes de Data Science métamorphosent le SEO ?
PDF
Find out how DataScience has revolutionized SEO for OVH
PPTX
How to boost your datamanagement with Dremio ?
PPTX
How to automate all your SEO projects
PPTX
How Data Science can boost your SEO ?
PPTX
Meetup Data-science OVH
PDF
Analyse your SEO Data with R and Kibana
SEO CAMP'us Paris 2024 - Déploiement de l'IA générative privée dans les organ...
IA générative : Menace ou Opportunité pour le SEO
slides SEO CAMP'us Paris 2022 - Google et tools SEO On vous a menti
Une IA pour votre SEO, une méthode inédite pour accélérer vos projets Data SEO
SEO AnswerBox, une méthode inédite pour interroger vos données et créer vos d...
Génération de contenu pour le SEO
Comment faire du Data SEO sans savoir programmer ?
Explainable Machine Learning for Ranking Factors
Comment les plateformes de Data Science métamorphosent le SEO ?
Find out how DataScience has revolutionized SEO for OVH
How to boost your datamanagement with Dremio ?
How to automate all your SEO projects
How Data Science can boost your SEO ?
Meetup Data-science OVH
Analyse your SEO Data with R and Kibana
Publicité

Fausses données et Bad Data : restez vigilant !

  • 1. Fausses données et Bad Data : restez vigilant!
  • 2. Vincent Terrasi Product Director OnCrawl Formateur – Conférencier Chasseur de BAD DATA @vincentterrasi
  • 3. LA plateforme dédiée à l’optimisation technique du référencement naturel OnCrawl SEO Crawler Analysez votre site à la manière de Google OnCrawl Log Analyzer Suivez le comportement des bots et des visiteurs OnCrawl Data³ Comprenez l’influence des facteurs de positionnement sur l’indexabilité
  • 5. Source : Gartner 2018 + Harvard Business Review G A F A OOGLE + ACEBOOK DEALS MAZON RESTAURANTS PPLE PING
  • 6. 3 100 000 000 000 000 000 $ par an 3,1 TRILLION $ par an = LA DETTE DATA COÛTE BEAUCOUP PLUS CHER QUE LA DETTE TECHNIQUE
  • 7. DATA DIFFERENTE Google Analytics et AT Internet  Pas les mêmes définitions Google Search et Google Adword  Pas les mêmes objectifs SEMrush et Yooda  Pas les mêmes périmètres SOLUTIONS : VALIDER LES DEFINITIONS
  • 8. DATA CORROMPUE VOLONTAIRE > Achat de clics > Achat de trafic > Achat de Likes INVOLONTAIRE > Les bots > Passage TV > DDOS UN PEU LES DEUX  Réduire le temps de session !  Changer le modèle d’attribution
  • 9. SOLUTION 1. Créer une vue « Raw Data » qui tous les bots 2. Monitorer les changements de trafic à la hausse la baisse
  • 10. DATA MANQUANTE Google Analytics vs Search Console vs Logs Site  1 TAG JS manquant  1 TAG JS posé plusieurs fois Serveur  1 SOUCI TECHNIQUE Client :  Adblocker  DO NOT TRACK SOLUTIONS : CRAWLER - ANTI-ADBLOCK
  • 11. DATA A SUPPRIMER  Nouvelles lois ( RGPD )  Durée de conservation SOLUTIONS : ANONYMISER LES DATA, DECLARER TOUS LES PROCESS
  • 12. MULTI SOURCE Quelles données sont les plus fiables ?
  • 13. DATA PÉRIMÉE  Changement d’adresse  Fusion / Acquisition de société  Changement de téléphone SOLUTIONS : METTRE DES DATES de MISE A JOUR A LA MINUTE PRES
  • 14. DATA MAL CONVERTIE  Timezone  Currencies ( €, $, … ) SOLUTIONS : RECUPERER CHAQUE JOUR LES TAUX DE CONVERSION
  • 15. CLIENT DUPLIQUE Level 1 > sur plusieurs bases de données différentes Level 2 > sous différentes identifications Level 3 > sur plusieurs bases de données différentes et sous différentes identifications Solution : Référentiel client unique
  • 16. DATA DECLARATIVE  CRM SOLUTIONS : UTILISER UN TIERS DE CONFIANCE
  • 17. DATA TROP AGGREGEE > Temporel : Filtrer à l’heure sur des jour > Catégoriel : Catégorie qui regroupe trop catégories > Lieu : Filtrer par ville sur des données SOLUTIONS : TRAVAILLER SUR LES DONNES BRUTES
  • 18. CHAMPS DE FORMULAIRE MANQUANT ou PRIS EN OTAGE > Ajout du SIRET > Ajout du DUNS > Séparer le code postal de l’adresse
  • 19. MACHINE LEARNING : SUR-OPTIMISATION Avec les BAD DATA, les biais sont amplifiés par les machines  Word2Vec GENRE : Machine à coudre AGE : Docteur
  • 20. SOLUTION 1. Identifier la direction du biais 2. Neutraliser ces mots 3. Egaliser les pairs ( la seul différence entre fille et garçon doit être le genre ) 4. Si la pair de mots est peu défini, nous pouvons la passer
  • 21. Les BAD DATA peuvent être très utile VOIX IMAGE TEXTE VIDEO NEWS DEVELOPPER L’ESPRIT CRITIQUE
  • 22. PLAN ANTI BAD DATA Savoir à quoi ressemble les BAD DATA (Champ vide, Champ dupliqué, Donnée de mauvaise qualité) Surveiller chaque jour tous les changements impactants de façon automatique Collecter seulement les données dont vous avez besoin, partager et documenter des définitions communes Nettoyer, enrichir et auditer régulièrement vos données Développer l’esprit critique de vos équipes