La Data science au service
des entreprises
Thèse professionnelle en vue de l’obtention du Mastère Spécialisé en
« Informatique Décisionnelle »
1
Présenté par: Aymen ZAAFOURI
Année universitaire : 2014-2015
2
Origines et principes de la data science
Outils techniques
Méthodes théoriques
Conclusion
Exemples de projets data science
Plan de la présentation
Origines et principes de la Data science
3
Origines de la data science
• Une chute exponentielle des coûts de stockage
• Facebook, Google et Yahoo se sont mis à développer de nouvelles technologies
pour des besoins qui se créaient.
• les méthodes statistiques sophistiqués ont pris un essor considérable
 Révolution majeure relative aux données, que ce soit en termes d’usage ou de
quantité
4
Origines et principes
de la data science
Outils techniques Méthodes théoriques
Exemples de projets
data science
Conclusion
Le Data scientist
• Professionnel de la gestion et de l’analyse du Big data pour la stratégie et
l’opérationnel de l’entreprise.
• Maîtrise des concepts statistiques avancés
• Excellente culture technique
• Compréhension solide des enjeux métiers de son entreprise.
• « Une personne meilleure en statistique que n’importe quel développeur
et meilleure en développement que n’importe quel statisticien »
- Josh wills (Slack)
5
Mathématique Technologie
Data
Science
Métier
Origines et principes
de la data science
Outils techniques Méthodes théoriques
Exemples de projets
data science
Conclusion
BI vs Data Science
BI Data Science
Répond aux questions :
- Que s'est-il passé ?
- Quand ?
- Qui ?
- Combien ?
- Pourquoi est-ce arrivé ?
- Cela se reproduira-t-il ?
- Que se passe-t-il si nous modifions x ?
Comprend :
- Rapports (KPI, éléments de
mesure)
- OLAP (cubes, permutation
d'axes, exploration)
- Tableaux de bord
- Surveillance/alertes
automatisées
- Analyse statistique/quantitative
- Exploration de données
- Modélisation/analytique prédictifs
- Analyse textuelle
6
Origines et principes
de la data science
Outils techniques Méthodes théoriques
Exemples de projets
data science
Conclusion
BI vs Data Science
7
• Limites de la BI
oVolumétrie: Un datawarehouse de quelques téraoctets est très
compliqué à maintenir.
oLes données non-structurées n’ont jamais été abordées par la Business
Intelligence.
oLa BI temps réel: Architectures complexes, coûteuses et dont le retour
sur investissement a toujours été contesté.
Origines et principes
de la data science
Outils techniques Méthodes théoriques
Exemples de projets
data science
Conclusion
8
Compréhension
du besoin
Définir l’approche
analytique
Exigence des
Données
Collecte des
données
Compréhension
des données
Préparation des
donnéesModélisation
Evaluation
Déploiement
Suivi
Origines et principes
de la data science
Outils techniques Méthodes théoriques
Exemples de projets
data science Conclusion
Outils techniques
9
Outils techniques
Technologies
10
• Hadoop est un framework 100% open source, écrit en Java.
• Scalabilité horizontale.
• Ses performances évoluent en fonction du nombre de machines constituant le cluster.
 Plus le nombre de nœuds est élevé moins le temps d’exécution des jobs est court!
• Tolère les pannes: les données sont répliquées donc récupérables suite à une défaillance.
Hadoop = MapReduce + HDFS
11
Origines et principes
de la data science
Outils techniques Méthodes théoriques
Exemples de projets
data science
Conclusion
HDFS
Se décompose en Namenode et plusieurs Datanodes:
o Les Datanodes regroupent les blocs de données en
les répliquant.
o Le Namenode orchestre les données
MapReduce
o Etape Map : La création d’une association pour
chaque observation des fichiers partitionnés, et la
redistribution des clés sur les clusters.
o Etape Reduce : La réalisation d’une opération
mathématique d’agrégation de valeurs par clés.
12
Origines et principes
de la data science
Outils techniques Méthodes théoriques
Exemples de projets
data science
Conclusion
• Projets liés à Hadoop: • Limites de Hadoop:
o Plusieurs fichiers de petites tailles car l’accès
aux données est un peu lent.
o Calcul intensif utilisant des données de tailles
réduites.
o Traitement séquentiel des données.
13
Origines et principes
de la data science
Outils techniques Méthodes théoriques
Exemples de projets
data science
Conclusion
• Créé en 2009 dans le laboratoire AMPLab
• Ecrit en Scala.
• Plus rapide que Hadoop : 100 fois plus rapide en mémoire, 10 fois plus vite sur disque.
• Spark apporte des améliorations à MapReduce grâce à des étapes de shuffle/Regroupement
automatique moins coûteuses
• Spark maintient les résultats intermédiaires en mémoire plutôt que sur disque
• Le moteur d’exécution est conçu pour travailler aussi bien en mémoire que sur disque
• Il est capable de travailler avec une partie des données en mémoire, une autre sur disque.
• L’un des concurrent de Spark : Apache Flink
14
Origines et principes
de la data science
Outils techniques Méthodes théoriques
Exemples de projets
data science
Conclusion
NoSQL
• Scalabilité horizontale
• Haute disponibilité
• Absence de shéma
Une technologie alternative et non pas
concurrente
• 4 grandes familles:
o Clé-Valeur :
o Orientée colonnes :
o Orientée graphes :
o Orientée documents :
15
Origines et principes
de la data science
Outils techniques Méthodes théoriques
Exemples de projets
data science
Conclusion
Clé Valeur
BDD Clé-Valeur
Clé
Colonne 1 : valeur
Colonne 2 : valeur
Colonne 3 : valeur
BDD Orientée colonnes
Clé
Champs 1 : valeur
Champs 2 : valeur
Champs 3 : valeur
Champs 3 : valeur
BDD Orientée document
Nœud 3
Nœud 4
Nœud 2
Nœud 1
BDD Orientée graphes
• Moteur de recherche Open Source.
• Les données sont indexées sous forme de documents.
• Avantages:
o Simplicité : Sa mise en place est très simple.
o Rapidité : Les recherches sont traitées en quasi temps réel grâce à la parallélisation des traitements.
o Scalablilité : Le rajout de nouveau nœud permet d’augmenter la capacité de traitement et d’être en haute disponibilité.
o Sauvegarde : Les données sont automatiquement sauvegardées et répliquées.
• Le projet est mature et est déjà utilisé
• En production par la Fondation Mozilla, Foursquare, ainsi que la Douane Française.
16
Origines et principes
de la data science
Outils techniques Méthodes théoriques
Exemples de projets
data science
Conclusion
Outils techniques
Langages
17
• Langage de programmation
interprété dérivé de S
• un langage de programmation
simple et efficace intégrant les
conditions, les boucles, la
récursivité
• Logiciel libre de traitement des
données et d'analyse statistiques
• Packages: e1071, ggplot2, tree,
CORElearn, FactomineR, …
• Développé par des chercheurs à
l’EPFL
• Basé sur le langage JAVA
• Avantages:
o Scalabilité
o Multi-paradigmes
18
Origines et principes
de la data science
Outils techniques Méthodes théoriques
Exemples de projets
data science
Conclusion
• Langage interprété, gratuit et facile à
apprendre
• code facile à lire grâce aux
indentations
• Scikit-learn: bibliothèque dédiée à
l’apprentissage automatique
Méthodes théoriques
19
Méthodes théoriques
Techniques descriptives
20
Méthodes de réduction des dimensions
• Appelés aussi « Les méthodes de Statistique exploratoire
multidimensionnelle »
• Plusieurs méthodes selon la nature des variables:
• ACP: Analyse en Composantes Principales
• AFC: Analyse Factorielle des Correspondances
• ACM: Analyse des correspondances multiples
21
Origines et principes
de la data science
Outils techniques Méthodes théoriques
Exemples de projets
data science
Conclusion
Classification
• Consiste à définir des classes: Individus statistiques homogènes
• Découper l'ensemble des données étudiées en un ou plusieurs sous
ensembles nommés classes, chaque sous-ensemble devant être le
plus homogène possible
• Plusieurs méthodes de classification:
oHiérarchique ascendante
oK-means
22
Origines et principes
de la data science
Outils techniques Méthodes théoriques
Exemples de projets
data science
Conclusion
Méthodes théoriques
Techniques prédictives
23
Arbre de décision
• représente un ensemble de choix sous la forme graphique d'un arbre.
• Les différentes décisions possibles sont situés aux extrémités des
branches (les « feuilles » de l'arbre).
• Les résultats sont atteints en fonction des décisions prises à chaque
étape.
24
Origines et principes
de la data science
Outils techniques Méthodes théoriques
Exemples de projets
data science
Conclusion
Maitrise du sujet
Présentation à améliorer
Non
Oui
Temps dépassé
Présentation à améliorer
OuiNon
Bonne présentation
Régression
• La régression est un ensemble de méthodes utilisées pour analyser la
relation d'une variable par rapport à une ou plusieurs autres.
• Plusieurs méthodes:
• Régression linéaire simple
• Régression linéaire multiple
• Régression logistique dichotomique
• Régression logistique multinomiale
25
Origines et principes
de la data science
Outils techniques Méthodes théoriques
Exemples de projets
data science
Conclusion
Exemples de projets
26
• 1er site E-commerce en France selon le CA
• Croissance du volume d'affaires de 3,7 %
• 78 millions de voyages vendus en un an
• Une architecture basée sur Hadoop et
ElasticSearch
• Des requêtes temps réel pour permettre
l’analyse de 25 millions de lignes de log (1To
de données par jour.)
• Personnalisation des offres en fonction des
profils grâce à un système de
recommandation.
• Plus de 140 millions de recherches par mois.
• Détection des requêtes où PagesJaunes.fr ne
fournit par le résultat attendu par l'utilisateur.
• Analyse des requêtes pour améliorer les
résultats
• Architecture basée sur ElasticSearch, Spark et
ZoomData.
• Rendre l'in terface utilisateur plus personnelle
début 2016.
27
Origines et principes
de la data science
Outils techniques Méthodes théoriques
Exemples de projets
data science
Conclusion
Conclusion
28
Conclusion
• La BI et la Data science sont complémentaires.
• Les enjeux de la data sciences sont nombreux:
• Objets connectés.
• Achat et vente des données.
29
Origines et principes
de la data science
Outils techniques Méthodes théoriques
Exemples de projets
data science
Conclusion
Merci pour votre attention
30

Contenu connexe

PDF
EXL Group - Offre Data Science
PPTX
Introduction à la big data V2
PDF
Data Science & Big Data, réalités et perspectives.
PPT
Big Data, kesako ?
PPTX
BIG DATA - Cloud Computing
PDF
Big Data: Concepts, techniques et démonstration de Apache Hadoop
PPTX
Data mining et data science
PPTX
Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris...
EXL Group - Offre Data Science
Introduction à la big data V2
Data Science & Big Data, réalités et perspectives.
Big Data, kesako ?
BIG DATA - Cloud Computing
Big Data: Concepts, techniques et démonstration de Apache Hadoop
Data mining et data science
Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris...

Tendances (20)

PDF
[French] Matinale du Big Data Talend
PDF
Valtech - Big Data : Détails d’une mise en œuvre
PPTX
Introduction à la big data v3
PDF
BigData_Chp1: Introduction à la Big Data
PPTX
Matinée 01 Big Data
PPTX
Présentation pfe Big Data Hachem SELMI et Ahmed DRIDI
PPTX
Les technologies big data avec speech commentaries
PPTX
Nouvelles opportunités pour les données fortement interconnectées : La base d...
PDF
Big data analytics focus technique et nouvelles perspectives pour les actuaires
PDF
Datasio - Big Data Congress Paris 2012
PPTX
lean development
PDF
Croisière sur le data lake
PDF
Technologies pour le Big Data
PPTX
Neo4j - Cas d'usages pour votre métier
PPTX
PDF
Keynote Big Data & Data Science - 24h pharma@dreux
PDF
Chapitre i-intro
PDF
Cours Big Data Chap1
PDF
Conférence "le big data en entreprise" de René Lefébure lors de l'évènement D...
PPTX
Neo4j et ses cas d'usages
[French] Matinale du Big Data Talend
Valtech - Big Data : Détails d’une mise en œuvre
Introduction à la big data v3
BigData_Chp1: Introduction à la Big Data
Matinée 01 Big Data
Présentation pfe Big Data Hachem SELMI et Ahmed DRIDI
Les technologies big data avec speech commentaries
Nouvelles opportunités pour les données fortement interconnectées : La base d...
Big data analytics focus technique et nouvelles perspectives pour les actuaires
Datasio - Big Data Congress Paris 2012
lean development
Croisière sur le data lake
Technologies pour le Big Data
Neo4j - Cas d'usages pour votre métier
Keynote Big Data & Data Science - 24h pharma@dreux
Chapitre i-intro
Cours Big Data Chap1
Conférence "le big data en entreprise" de René Lefébure lors de l'évènement D...
Neo4j et ses cas d'usages
Publicité

En vedette (20)

PPTX
Tunis big data_meetup__21_nov2015__aymenzaafouri
PPTX
Memoire recherche
PDF
Comment Coyote Systems utilse le Data Science Studio de Dataiku pour optimise...
PPT
Chapitre1 elk chez_psa
PDF
Plateforme centralisée d’analyse des logs des frontaux http en temps réel dan...
PPTX
A la recherche d'ElasticSearch
PPT
Chapitre2 prise en_main_kibana
DOCX
Big data et marketing :Vers une analyse prédictif de d'acte d'achat
PPTX
PDF
Logging with Elasticsearch, Logstash & Kibana
PPTX
Azure Data Lake, le Big Data 2.0 - SQL Saturday Montreal 2017
KEY
Intro to Data Science for Enterprise Big Data
PPTX
10 R Packages to Win Kaggle Competitions
PDF
Myths and Mathemagical Superpowers of Data Scientists
PDF
How to Become a Data Scientist
PPTX
Artificial neural network
PPTX
Artificial Intelligence Presentation
PPTX
Introduction à la Data Science l data business
PDF
Tips for data science competitions
PPTX
Tutorial on Deep learning and Applications
Tunis big data_meetup__21_nov2015__aymenzaafouri
Memoire recherche
Comment Coyote Systems utilse le Data Science Studio de Dataiku pour optimise...
Chapitre1 elk chez_psa
Plateforme centralisée d’analyse des logs des frontaux http en temps réel dan...
A la recherche d'ElasticSearch
Chapitre2 prise en_main_kibana
Big data et marketing :Vers une analyse prédictif de d'acte d'achat
Logging with Elasticsearch, Logstash & Kibana
Azure Data Lake, le Big Data 2.0 - SQL Saturday Montreal 2017
Intro to Data Science for Enterprise Big Data
10 R Packages to Win Kaggle Competitions
Myths and Mathemagical Superpowers of Data Scientists
How to Become a Data Scientist
Artificial neural network
Artificial Intelligence Presentation
Introduction à la Data Science l data business
Tips for data science competitions
Tutorial on Deep learning and Applications
Publicité

Similaire à La "Data science" au service des entreprises (20)

PDF
Softshake 2015 - Des small data aux big data - Méthodes et Technologies
PDF
CHAP 1 PRÉSENTATION GENERALE.pdf
PDF
Matinée Découverte Big Data & Data Science - 24012017
PDF
Comment devenir Data Scientist - Nicolas Garcia, Data Scientist @ Le Kiosk
PDF
Machine Learning
PPTX
Spad big data - sfds - 2016
PDF
Data Science
PDF
La Banque de demain : Chapitre 4
PDF
Introduction au datamining partiel 1.pdf
PPTX
Orientation_CP[1]_pour_data_science.pptx
PDF
Seance 1 & 2 deploiement de la bi dans l'entreprise
PDF
Le Data Engineer qui veut se faire aussi gros que le Data Scientist
PDF
IODS : Retour d’expériences au sein du Center for Data Science
PDF
Make Data Science Great Again. Pourquoi et comment crafter la Data Science su...
PPTX
La datascience comme outil de valorisation de la donnée
PDF
29/06/17 Matinale Python
PDF
Du Data Mining à la Data Science
PDF
Cours datamining
PDF
Euratech'trends : Machine Learning
PDF
Matinale - Levez la malédiction du passage de l'IA en production
Softshake 2015 - Des small data aux big data - Méthodes et Technologies
CHAP 1 PRÉSENTATION GENERALE.pdf
Matinée Découverte Big Data & Data Science - 24012017
Comment devenir Data Scientist - Nicolas Garcia, Data Scientist @ Le Kiosk
Machine Learning
Spad big data - sfds - 2016
Data Science
La Banque de demain : Chapitre 4
Introduction au datamining partiel 1.pdf
Orientation_CP[1]_pour_data_science.pptx
Seance 1 & 2 deploiement de la bi dans l'entreprise
Le Data Engineer qui veut se faire aussi gros que le Data Scientist
IODS : Retour d’expériences au sein du Center for Data Science
Make Data Science Great Again. Pourquoi et comment crafter la Data Science su...
La datascience comme outil de valorisation de la donnée
29/06/17 Matinale Python
Du Data Mining à la Data Science
Cours datamining
Euratech'trends : Machine Learning
Matinale - Levez la malédiction du passage de l'IA en production

La "Data science" au service des entreprises

  • 1. La Data science au service des entreprises Thèse professionnelle en vue de l’obtention du Mastère Spécialisé en « Informatique Décisionnelle » 1 Présenté par: Aymen ZAAFOURI Année universitaire : 2014-2015
  • 2. 2 Origines et principes de la data science Outils techniques Méthodes théoriques Conclusion Exemples de projets data science Plan de la présentation
  • 3. Origines et principes de la Data science 3
  • 4. Origines de la data science • Une chute exponentielle des coûts de stockage • Facebook, Google et Yahoo se sont mis à développer de nouvelles technologies pour des besoins qui se créaient. • les méthodes statistiques sophistiqués ont pris un essor considérable  Révolution majeure relative aux données, que ce soit en termes d’usage ou de quantité 4 Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets data science Conclusion
  • 5. Le Data scientist • Professionnel de la gestion et de l’analyse du Big data pour la stratégie et l’opérationnel de l’entreprise. • Maîtrise des concepts statistiques avancés • Excellente culture technique • Compréhension solide des enjeux métiers de son entreprise. • « Une personne meilleure en statistique que n’importe quel développeur et meilleure en développement que n’importe quel statisticien » - Josh wills (Slack) 5 Mathématique Technologie Data Science Métier Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets data science Conclusion
  • 6. BI vs Data Science BI Data Science Répond aux questions : - Que s'est-il passé ? - Quand ? - Qui ? - Combien ? - Pourquoi est-ce arrivé ? - Cela se reproduira-t-il ? - Que se passe-t-il si nous modifions x ? Comprend : - Rapports (KPI, éléments de mesure) - OLAP (cubes, permutation d'axes, exploration) - Tableaux de bord - Surveillance/alertes automatisées - Analyse statistique/quantitative - Exploration de données - Modélisation/analytique prédictifs - Analyse textuelle 6 Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets data science Conclusion
  • 7. BI vs Data Science 7 • Limites de la BI oVolumétrie: Un datawarehouse de quelques téraoctets est très compliqué à maintenir. oLes données non-structurées n’ont jamais été abordées par la Business Intelligence. oLa BI temps réel: Architectures complexes, coûteuses et dont le retour sur investissement a toujours été contesté. Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets data science Conclusion
  • 8. 8 Compréhension du besoin Définir l’approche analytique Exigence des Données Collecte des données Compréhension des données Préparation des donnéesModélisation Evaluation Déploiement Suivi Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets data science Conclusion
  • 11. • Hadoop est un framework 100% open source, écrit en Java. • Scalabilité horizontale. • Ses performances évoluent en fonction du nombre de machines constituant le cluster.  Plus le nombre de nœuds est élevé moins le temps d’exécution des jobs est court! • Tolère les pannes: les données sont répliquées donc récupérables suite à une défaillance. Hadoop = MapReduce + HDFS 11 Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets data science Conclusion
  • 12. HDFS Se décompose en Namenode et plusieurs Datanodes: o Les Datanodes regroupent les blocs de données en les répliquant. o Le Namenode orchestre les données MapReduce o Etape Map : La création d’une association pour chaque observation des fichiers partitionnés, et la redistribution des clés sur les clusters. o Etape Reduce : La réalisation d’une opération mathématique d’agrégation de valeurs par clés. 12 Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets data science Conclusion
  • 13. • Projets liés à Hadoop: • Limites de Hadoop: o Plusieurs fichiers de petites tailles car l’accès aux données est un peu lent. o Calcul intensif utilisant des données de tailles réduites. o Traitement séquentiel des données. 13 Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets data science Conclusion
  • 14. • Créé en 2009 dans le laboratoire AMPLab • Ecrit en Scala. • Plus rapide que Hadoop : 100 fois plus rapide en mémoire, 10 fois plus vite sur disque. • Spark apporte des améliorations à MapReduce grâce à des étapes de shuffle/Regroupement automatique moins coûteuses • Spark maintient les résultats intermédiaires en mémoire plutôt que sur disque • Le moteur d’exécution est conçu pour travailler aussi bien en mémoire que sur disque • Il est capable de travailler avec une partie des données en mémoire, une autre sur disque. • L’un des concurrent de Spark : Apache Flink 14 Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets data science Conclusion
  • 15. NoSQL • Scalabilité horizontale • Haute disponibilité • Absence de shéma Une technologie alternative et non pas concurrente • 4 grandes familles: o Clé-Valeur : o Orientée colonnes : o Orientée graphes : o Orientée documents : 15 Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets data science Conclusion Clé Valeur BDD Clé-Valeur Clé Colonne 1 : valeur Colonne 2 : valeur Colonne 3 : valeur BDD Orientée colonnes Clé Champs 1 : valeur Champs 2 : valeur Champs 3 : valeur Champs 3 : valeur BDD Orientée document Nœud 3 Nœud 4 Nœud 2 Nœud 1 BDD Orientée graphes
  • 16. • Moteur de recherche Open Source. • Les données sont indexées sous forme de documents. • Avantages: o Simplicité : Sa mise en place est très simple. o Rapidité : Les recherches sont traitées en quasi temps réel grâce à la parallélisation des traitements. o Scalablilité : Le rajout de nouveau nœud permet d’augmenter la capacité de traitement et d’être en haute disponibilité. o Sauvegarde : Les données sont automatiquement sauvegardées et répliquées. • Le projet est mature et est déjà utilisé • En production par la Fondation Mozilla, Foursquare, ainsi que la Douane Française. 16 Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets data science Conclusion
  • 18. • Langage de programmation interprété dérivé de S • un langage de programmation simple et efficace intégrant les conditions, les boucles, la récursivité • Logiciel libre de traitement des données et d'analyse statistiques • Packages: e1071, ggplot2, tree, CORElearn, FactomineR, … • Développé par des chercheurs à l’EPFL • Basé sur le langage JAVA • Avantages: o Scalabilité o Multi-paradigmes 18 Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets data science Conclusion • Langage interprété, gratuit et facile à apprendre • code facile à lire grâce aux indentations • Scikit-learn: bibliothèque dédiée à l’apprentissage automatique
  • 21. Méthodes de réduction des dimensions • Appelés aussi « Les méthodes de Statistique exploratoire multidimensionnelle » • Plusieurs méthodes selon la nature des variables: • ACP: Analyse en Composantes Principales • AFC: Analyse Factorielle des Correspondances • ACM: Analyse des correspondances multiples 21 Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets data science Conclusion
  • 22. Classification • Consiste à définir des classes: Individus statistiques homogènes • Découper l'ensemble des données étudiées en un ou plusieurs sous ensembles nommés classes, chaque sous-ensemble devant être le plus homogène possible • Plusieurs méthodes de classification: oHiérarchique ascendante oK-means 22 Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets data science Conclusion
  • 24. Arbre de décision • représente un ensemble de choix sous la forme graphique d'un arbre. • Les différentes décisions possibles sont situés aux extrémités des branches (les « feuilles » de l'arbre). • Les résultats sont atteints en fonction des décisions prises à chaque étape. 24 Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets data science Conclusion Maitrise du sujet Présentation à améliorer Non Oui Temps dépassé Présentation à améliorer OuiNon Bonne présentation
  • 25. Régression • La régression est un ensemble de méthodes utilisées pour analyser la relation d'une variable par rapport à une ou plusieurs autres. • Plusieurs méthodes: • Régression linéaire simple • Régression linéaire multiple • Régression logistique dichotomique • Régression logistique multinomiale 25 Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets data science Conclusion
  • 27. • 1er site E-commerce en France selon le CA • Croissance du volume d'affaires de 3,7 % • 78 millions de voyages vendus en un an • Une architecture basée sur Hadoop et ElasticSearch • Des requêtes temps réel pour permettre l’analyse de 25 millions de lignes de log (1To de données par jour.) • Personnalisation des offres en fonction des profils grâce à un système de recommandation. • Plus de 140 millions de recherches par mois. • Détection des requêtes où PagesJaunes.fr ne fournit par le résultat attendu par l'utilisateur. • Analyse des requêtes pour améliorer les résultats • Architecture basée sur ElasticSearch, Spark et ZoomData. • Rendre l'in terface utilisateur plus personnelle début 2016. 27 Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets data science Conclusion
  • 29. Conclusion • La BI et la Data science sont complémentaires. • Les enjeux de la data sciences sont nombreux: • Objets connectés. • Achat et vente des données. 29 Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets data science Conclusion
  • 30. Merci pour votre attention 30