0% ont trouvé ce document utile (0 vote)

90 vues13 pages

Titanic Machine Learning

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

90 vues13 pages

Titanic Machine Learning

Transféré par

samba macinanke

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Initiation au

Machine Learning:
Initiation Python &
Titanic training
COULIBALY ISSA, PhD candidate, engineer
and CCEO at City-Skill
1. C’est quoi Python ?
Python est un langage de programmation interprété,
multi-paradigme et multiplateformes.

Il est particulièrement répandu dans le monde scientifique,

et possède de nombreuses bibliothèques optimisées
destinées au calcul numérique.
Les importations nécessaires

#les imports

import numpy as np # calculs numérique

import pandas as pd # manipulation et analyse de données

import seaborn as sns #librairie de visaulisation des données

from sklearn.model_selection import train_test_split

from sklearn.linear_model import LogisticRegression

from [Link] import accuracy_score

import [Link] as plt #afﬁchage des graphes

Qu’est-ce qu’on a besoin pour faire du Machine
Learning(prédire un événement en informatique
?)
Initiation à Python

1. Comment obtenir les données?

● Les données sont généralement publiées par les grands laboratoires de recherches
● Il y a deux types de données : données libre(c’est-à-dire gratuites) et données privées
● Comment lire les données

Pratique:
a. Télécharger les données sur kaggle:
[Link]
b. Charger les données dans python:
import pandas as pd
titanic_data = pd.read_csv('[Link]')
Initiation à Python

Comment analyser les données ?

Voir le contenu des données et les valeurs statistiques de chaque elements

Pratique:
1. Les n premières lignes de la donnée:
titanic_data.head(n)
2. Voir les parties non renseignées de la donnée: titanic_data.isnull().sum()
3. Supprimer la colonne Cabine des données vu qu’il n’est pas important dans notre étude: titanic_data =
titanic_data.drop(columns='Cabin', axis=1)
4. Remplacer les valeurs manquantes de la colone Age par la moyenne des âges:
titanic_data['Age'].fillna(titanic_data['Age'].mean(), inplace=True)
5. Remplacez les valeurs manquantes dans la colonne « Embarqué » par la valeur du mode:
titanic_data['Embarked'].fillna(titanic_data['Embarked'].mode()[0], inplace=True)
Initiation à Python

Comment analyser les données ?

6. Convertir les chaînes de caractères en valeurs catégorielles:(Nous avons déjà remarqué dans le tableau qu'il
y a deux colonnes qui contiennent des valeurs de type chaîne : la colonne "'Sex'" et la colonne "'Embarked'".)
titanic_data.replace({'Sex':{'male':0,'female':1},'Embarked':{'S':0,'C':1,'Q':2}}, inplace=True)

7. Maintenant, si nous exécutons à nouveau la commande titanic_data.head(), nous constatons que les valeurs
ont été remplacées avec succès.

8. On voit aussi qu'il y a quelques colonnes, qui n'ont pas beaucoup d'importance dans ce processus.
Débarrassons-nous d'eux.
titanic_data= titanic_data.drop(columns = ['PassengerId','Name','Ticket'],axis=1)

Ces étapes dépendent de l’analyse de chaque ingénieur.

Initiation à Python

Comment préparer nos données d’entraînement (X_train, Y_train) ?

Ici, X est la variable de fonctionnalité, contenant toutes les fonctionnalités telles que Pclass, Age, Sex,
Embarked, etc. à l'exception de la colonne Survived.

Y, d'autre part, est la variable cible, car c'est le résultat que nous voulons déterminer, c'est-à-dire si
une personne est en vie.

Maintenant, nous allons diviser les données en quatre variables, à savoir X_train, Y_train, X_test,
Y_test.
X_train, X_test, Y_train, Y_test = train_test_split(X,Y, test_size=0.2, random_state=2)
Initiation à Python

Comprenons les variables :

X_train : contient un ensemble de valeurs de la variable 'X'

Y_train : contient la sortie (si la personne est vivante ou morte) de la valeur correspondante de
X_train.

X_test : contient un ensemble de valeurs de la variable 'X', à l'exclusion de celles de X_train.

Y_train : contient la sortie (que la personne soit vivante ou morte) de la valeur correspondante de
X_test.

test_size : représente le rapport en pourcentage de X_train:X_test (ici 0,2 signiﬁe que les données
seront séparées dans les variables X_train et X_test dans un rapport 80:20). Vous pouvez utiliser
n'importe quelle valeur que vous voulez. Une valeur <0,3 est préférée
Initiation à Python

Modèles d’entraînements:

Logistic Regression :

1. Création du modèle: model = LogisticRegression(solver='liblinear')

2. Entraînement du modèle: model.fit(X_train, Y_train)
3. Verifier la performance: Y_train_prediction = [Link](X_train)
4. Maintenant pour verifier la précision de sa prédiction, nous comparons les valeurs de Y_train_prediction et
Y_train qui étaient les données d’origine.

training_data_accuracy = accuracy_score(Y_train, Y_train_prediction)

print('Accuracy score of training data : ', training_data_accuracy)

5. Maintenant, essayons à nouveau avec X_test et Y_test :

Y_test_prediction = [Link](X_test)

test_data_accuracy = accuracy_score(Y_test, Y_test_prediction)

print('Accuracy score of test data : ', test_data_accuracy)

La sortie est de 0,7821229050279329, ce qui est très proche de notre prédiction de données de test.
Faisons un test sur une personne au hasard

Vériﬁons maintenant une personne aléatoire en utilisant des données aléatoires.

1. input_data = (3,0,35,0,0,8.05,0)

# Notez que ces données excluent les données Survived, car elles doivent être déterminées à partir du
modèle lui-même(c’est le résultat)

2. Changeons cette valeur en tableau utilisable par le système:

input_data_as_numpy_array = [Link](input_data)

3. Comme notre modèle a été formé dans différentes dimensions, nous devons le remodeler en
fonction de nos dimensions cibles.

input_data_reshaped = input_data_as_numpy_array.reshape(1,-1)
Faisons un test sur une personne au hasard

Vériﬁons maintenant une personne aléatoire en utilisant des données aléatoires.

prediction = [Link](input_data_reshaped)

if prediction[0]==0:

print("Dead")

if prediction[0]==1:

print("Alive")

Lors de l'exécution du code, nous obtenons exactement le même résultat, que celui donné, dans le
tableau.

Nous pouvons donc conclure que notre modèle fonctionne bien. Vous pouvez entraîner le modèle à
l'aide d'un ensemble de données plus volumineux pour obtenir de meilleurs résultats.
Le résultat de tout modèle d'apprentissage automatique peut être rendu plus précis à l'aide d'un
ensemble de données plus volumineux, mais ce sera beaucoup plus fastidieux et chronophage.
N'hésitez pas à ajouter tout type de modiﬁcations nécessaires à ce code et à le personnaliser
selon vos besoins. Une logique similaire peut être appliquée pour effectuer divers types de
prédictions.

Vous aimerez peut-être aussi

Classification du Titanic avec Sklearn
Pas encore d'évaluation
Classification du Titanic avec Sklearn
4 pages
Atelier Python IA pour Débutants
Pas encore d'évaluation
Atelier Python IA pour Débutants
3 pages
Atelier5 - Pandas
Pas encore d'évaluation
Atelier5 - Pandas
1 page
tp2 IA ML (ML) VxAli
Pas encore d'évaluation
tp2 IA ML (ML) VxAli
7 pages
7.1. TP Reconnaissance de Chiffres Avec Scikit-Learn - Outils Numériques Avancés en Mécanique
Pas encore d'évaluation
7.1. TP Reconnaissance de Chiffres Avec Scikit-Learn - Outils Numériques Avancés en Mécanique
10 pages
Atelier 4
Pas encore d'évaluation
Atelier 4
12 pages
TP3 DM
Pas encore d'évaluation
TP3 DM
7 pages
Apprentissage Supervisé Avec Python: Objectifs
Pas encore d'évaluation
Apprentissage Supervisé Avec Python: Objectifs
4 pages
Python Inter B3 - 5
Pas encore d'évaluation
Python Inter B3 - 5
7 pages
TP 1regression
Pas encore d'évaluation
TP 1regression
4 pages
TP2 - Apprentissage Supervisé (Heart Disease Dataset) : Objectifs Pédagogiques
Pas encore d'évaluation
TP2 - Apprentissage Supervisé (Heart Disease Dataset) : Objectifs Pédagogiques
6 pages
Analyse des passagers du Titanic en Python
Pas encore d'évaluation
Analyse des passagers du Titanic en Python
3 pages
00 Intro Machine Learning 15 05 2025 OLYMPIADE 2025
Pas encore d'évaluation
00 Intro Machine Learning 15 05 2025 OLYMPIADE 2025
9 pages
Introduction au Machine Learning
Pas encore d'évaluation
Introduction au Machine Learning
15 pages
Support TP DataPreprocessing
100% (1)
Support TP DataPreprocessing
2 pages
Rapport ML (1) COLETTE
Pas encore d'évaluation
Rapport ML (1) COLETTE
19 pages
Rapport
Pas encore d'évaluation
Rapport
4 pages
Tp2: Deep Learning: Tensorflow
Pas encore d'évaluation
Tp2: Deep Learning: Tensorflow
9 pages
TP1
Pas encore d'évaluation
TP1
8 pages
Projet IA MameCheikhSylla - IbraKoundoul
Pas encore d'évaluation
Projet IA MameCheikhSylla - IbraKoundoul
19 pages
TP4 ClassificationSupervisée Student
Pas encore d'évaluation
TP4 ClassificationSupervisée Student
11 pages
Examen MEQ3 ML
Pas encore d'évaluation
Examen MEQ3 ML
3 pages
tp1 Deepl
Pas encore d'évaluation
tp1 Deepl
5 pages
TP RN Ensta 2018
Pas encore d'évaluation
TP RN Ensta 2018
20 pages
TP Machine Learning: Régression, KNN, Arbres
100% (1)
TP Machine Learning: Régression, KNN, Arbres
4 pages
TP1 Regression Lineaire
Pas encore d'évaluation
TP1 Regression Lineaire
8 pages
Machine Learning Python Guide
100% (1)
Machine Learning Python Guide
6 pages
TP 5 Machine Learning
Pas encore d'évaluation
TP 5 Machine Learning
10 pages
Resume ML
Pas encore d'évaluation
Resume ML
7 pages
TP Sur Regression Logistique
Pas encore d'évaluation
TP Sur Regression Logistique
4 pages
Exercice Random Forest Classification Bayesienne
Pas encore d'évaluation
Exercice Random Forest Classification Bayesienne
5 pages
Enoncé
Pas encore d'évaluation
Enoncé
1 page
Introduction au Deep Learning avec Keras
Pas encore d'évaluation
Introduction au Deep Learning avec Keras
15 pages
New Contest
Pas encore d'évaluation
New Contest
1 page
Résumé Deep Learning
Pas encore d'évaluation
Résumé Deep Learning
15 pages
50 Heures de Formation Entre Python Et Intelligence Artificielle
0% (1)
50 Heures de Formation Entre Python Et Intelligence Artificielle
4 pages
Chapitre 7 Resume
Pas encore d'évaluation
Chapitre 7 Resume
6 pages
TP-regression Master QFM 2023
Pas encore d'évaluation
TP-regression Master QFM 2023
13 pages
TP Classification
Pas encore d'évaluation
TP Classification
3 pages
TP RN Centrale Exec
Pas encore d'évaluation
TP RN Centrale Exec
6 pages
ATraiter TDTP2
Pas encore d'évaluation
ATraiter TDTP2
4 pages
Naive Ba Yes
Pas encore d'évaluation
Naive Ba Yes
2 pages
Introduction aux réseaux de neurones
Pas encore d'évaluation
Introduction aux réseaux de neurones
16 pages
Algorithme K-Nearest Neighbors (KNN) Analyse Et Implémentation
Pas encore d'évaluation
Algorithme K-Nearest Neighbors (KNN) Analyse Et Implémentation
21 pages
Classifieur Cancersein
Pas encore d'évaluation
Classifieur Cancersein
5 pages
Résumé ML
Pas encore d'évaluation
Résumé ML
5 pages
Atelier 3
Pas encore d'évaluation
Atelier 3
6 pages
FR Tanagra Orange DM Python
Pas encore d'évaluation
FR Tanagra Orange DM Python
11 pages
Algorithme Machine Learng
Pas encore d'évaluation
Algorithme Machine Learng
16 pages
Dans La Peau Dun Data Scientist
Pas encore d'évaluation
Dans La Peau Dun Data Scientist
25 pages
Machine Learning Avec Python - Guide Pratique
100% (1)
Machine Learning Avec Python - Guide Pratique
24 pages
Progres2019 5
Pas encore d'évaluation
Progres2019 5
44 pages
Projet Optimisation Deep Learning Theorie Et Pratique
Pas encore d'évaluation
Projet Optimisation Deep Learning Theorie Et Pratique
4 pages
Présentation de L'entreprise
Pas encore d'évaluation
Présentation de L'entreprise
10 pages
TP6 SVM
Pas encore d'évaluation
TP6 SVM
4 pages
Intro Au Machine Learning
Pas encore d'évaluation
Intro Au Machine Learning
12 pages
Machine Learning
Pas encore d'évaluation
Machine Learning
63 pages