0% ont trouvé ce document utile (0 vote)
84 vues10 pages

Group Koensgen Gaël CR

Ce document présente plusieurs exercices sur la modélisation prédictive appliquée aux données du naufrage du Titanic. Il décrit l'utilisation d'arbres de décision et de l'algorithme Naive Bayes pour prédire la survie des passagers, et compare leurs performances.

Transféré par

mohammed med
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
84 vues10 pages

Group Koensgen Gaël CR

Ce document présente plusieurs exercices sur la modélisation prédictive appliquée aux données du naufrage du Titanic. Il décrit l'utilisation d'arbres de décision et de l'algorithme Naive Bayes pour prédire la survie des passagers, et compare leurs performances.

Transféré par

mohammed med
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
Vous êtes sur la page 1/ 10

Gaël Koensgen

Projet – Introduction à l’IA

TP1 - Atelier 1

Nous obtenons le tableau ci-contre qui donne le nombre de personnes qui ont survécu :
L’arbre de décision permet de déterminer les conditions de survie d’un passager à bord du Titanic :
TP1 - Atelier 2

L’arbre possède de nombreuses branches : La profondeur de l’arbre est élevée à 10 et place le rôle
sur la survie des personnes de chaque attribut.
On peut restreindre la profondeur de l’arbre de décision pour restreindre sa complexité et
afin de garder les informations les plus essentiels. Le programme sera exécuté plus
rapidement et se focalisera que sur certains paramètres en particulier.

On utilise la commande suivante dans les paramètres pour restreindre la profondeur de


l’arbre de décision :

TP1 - Atelier 3

En utilisant Naive Bayes, le modèle nous permet de prédire le pourcentage de chance de survie
de chaque personne présente sur le Titanic en fonction de plusieurs paramètres. Le modèle
s’entraine avec les datas, il va identifier les paramètres récurrents dans les cas où les
personnes ont survécu. Il va pouvoir en déduire sur une autre base de données, sans avoir la
réponse à priori, si la personne est morte ou non avec un pourcentage de confiance plus ou
moins élevé.

Le tableau suivant montre que les femmes selon le modèle de Naive Bayes est plus élevé que
celui d’un homme. En effet, 9 personnes sur 10 ayant une probabilité de survie sont des
femmes :
Sans Naive Bayes, nous observons des différences dans les résultats, les personnes ayant le
plus de chance de survie sont des hommes et ne sont pas tous en première classe, ce qui est
en contradiction avec les prédictions précédentes.

Un arbre de décision requiert bien plus de données pour entrainer le modèle efficacement
que l’opérateur Naive Bayes.
TP2 - Atelier 4

On utilise un algorithme de Naive Bayes pour développer le modèle sur 70% des données sur
le Titanic. Les 30% de données restantes sont appliqués simplement dans le modèle.

Performances :

Total de 275 tests avec 54 mauvaises prédictions en rajoutant le filtre.


Il y a 25 « Non mal prédits » et 29 « Oui mal prédits ».

Etant donné que 25 + 29 est égal à 54, cela correspond bien au nombre de mauvaises
prédictions trouvé ci-dessus.

Point d’arrêt après le Split Data :

Observations : Nous obtenons 2 tableaux séparées dont le


premier possède 275 tests et le second 641 tests.

TP2 - Atelier 5
On obtient une courbe de performance comparant l’efficacité des différents modèles. Ce
graphique affiche un taux de réponses positives réelles par rapport au taux de réponses
positives erronées. On remarque ici que le modèle de décision Decision Tree est le plus
performant des 3.

TP2 - Atelier 6

L’opérateur cross validation sépare les données d’entrainement avec les données de test
Sous-ensembles du cross validation :

Cela nous permet d’entrainer notre modèle sur des données sur lesquelles il ne sera pas testé.
Nous obtenons les résultats suivants pour l’accuracy, la précision et le recall du modèle:

Vous aimerez peut-être aussi