2nd Project Notes

Le document traite de l'utilisation de masques pour filtrer des données, de la création de modèles de régression avec des pipelines, et de la visualisation de données à l'aide de graphiques variés. Il aborde également des concepts clés comme le leakage, les valeurs manquantes, la cardinalité et la multicolinéarité. Enfin, il présente des exemples de représentation graphique, y compris des régressions linéaires et des graphiques en 3D.

Transféré par

Fernand Niyirema

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats TXT, PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

17 vues5 pages

2nd Project Notes

Transféré par

Fernand Niyirema

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats TXT, PDF, TXT ou lisez en ligne sur Scribd

* Use of masks

-retenir certains strings contenant des séquences particulières

-retenir des elts avec une certaine valeur(=="apart"), mask
-retenir des elts avec une ccertaine valeur numérique, mask

-enlever les outliers en utilisant les quantiles(0.1 & 0.9) et

.between et la technique de tuple unpacking. Cette technique génère un mask
également

* Usage de
- Histogramme: montrer la fréquence de distrubution d'une valeur numérique, 1 seul
argumznt(df["column"])
- Scatter: représenter 2 variables numériques et montrer la corrélation entre
elles, 2 arguments
- Bar chart: représenter les fréquences des valeurs d'une variable catégorielle, 1
seul argument(df["column"])
- Plot: pour représenter notre baseline model, qui est une droite // à X, 2
arguments(X_train, y_pred_baseline)

* Création du modèle, avec pipeline:

from sklearn.pipeline import Pipeline, make_pipeline
model = make_pipeline(
SimpleImputer(),
LinearRegression()
)
* In this example, we only used linear regression: #While communicating
-coefficient = round(model.coef_[0], 2) #[0] because it is the first one and a
simple model,
-intercept = round(model.intercept_, 2)

But when we use more than linear regression( e.g. One Hot Encoder & Simple Imputer
included), we do it like this:
-intercept = model.named_steps["ridge"].intercept_
-coefficients = model.named_steps["ridge"].coef_ #A list of coefficients
-feat_imp = pd.Series(coefficients, index=feature_names) #Pour des questions de
représentation
feat_imp.head()
-for f, c in feat_imp.items(): #for onscreen printing of those values
print(f"+ ({round(c, 2)} * {f})")

One Hot Encoder: OneHotEncoder(use_cat_names=True),

L'argument c'est pour garder les noms des valeurs de la variable
catégorielle
Sinon OHE attribue par défaut des nouvelles valeurs aux anciennes
valeurs
SimpleImputer: Pour remplir les valeurs numériques manquantes avec la moyenne

LinearRegression et Ridge: Ridge remplace linearRegression en cas d'overfitting

* Création du modèle de prédiction:

model= make_pipeline(
linearregression(),
ridge(),
onehotencodeer(use_cat_names=True)
)
Fit the model to our datas: model.fit(X_train, y_train)

Predict our wanted value: y_pred_trainning= model.predict(X_train)

* Certains concepts:
-leakage: données présents avant prédiction alors qu'on devrait les avoir
après prédiction
ces features n'aident pas dans la construction de notre modèle car
ils sont calculés à partir
du target vector(e.g. prix_par_m2)
-Missing Values NaN: Dropping columns with 50% of the index missing values in
that column
-Cardinality: Dealing with low and high cardinality categorical variables
_Low cardinality: 2 or less unique values
_High cardinality: Too much unique values
-Multicollinearity: Features collinéaires entre eux. Ce qui déstabilise notre
modèle

* Représentation par Graphique:

1) Représentation simple d'une regression linéaire
plt.plot(X_train.values, model.predict(X_train), color="magenta", label="Linear
Model")
plt.scatter(X_train, y_train)
plt.xlabel("surface covered [sq meters]")
plt.ylabel("price [usd]")
plt.legend();

2) Répresentation en 3 dimensions avec un plan

# Create 3D scatter plot
fig = px.scatter_3d(
df,
x="lon",
y="lat",
z="price_aprox_usd",
labels={"lon": "longitude", "lat": "latitude", "price_aprox_usd": "price"},
width=600,
height=500,
)

# Create x and y coordinates for model representation, représenter ces cordonnées

sur le graphe
x_plane = np.linspace(df["lon"].min(), df["lon"].max(), 10)
y_plane = np.linspace(df["lat"].min(), df["lat"].max(), 10)
xx, yy = np.meshgrid(x_plane, y_plane)

# Use model to predict z coordinates, pour la prédiction de notre prix en fonction

de longitude(X) et latitude(y)
z_plane = model.predict(pd.DataFrame({"lon": x_plane, "lat": y_plane}))
zz = np.tile(z_plane, (10, 1))

# Add plane to figure

fig.add_trace(go.Surface(x=xx, y=yy, z=zz))

# Refine formatting
fig.updMAM#�=##��ʙ��#�ɨ��
Ⱥ��#��ɨ��#��ʨ��
��ʧ��
��ʧ��#��̸��ʸ��˨��̨
��
�ˠɸ��ɸ˛��###############�x#
#####�#�####�� ######�#�####��##��#�#��x###�p��w#�#��##
��###��#�####��{####�################��-�##
ߏ�Z�5H � � � &K"Q=� � 2m#� � 'C#� � #[� � M� #s"� � B� ##
`�2#B�k#�H�@i#
��Q �7�_�8�{�=�s��|Y��n��#��_5ԛ#Q�#

Vous aimerez peut-être aussi

Resume Machine Learning
Pas encore d'évaluation
Resume Machine Learning
2 pages
Résumé ML
Pas encore d'évaluation
Résumé ML
5 pages
Resume ML
Pas encore d'évaluation
Resume ML
7 pages
Machine Learning (ML) : Scikit-Learn
Pas encore d'évaluation
Machine Learning (ML) : Scikit-Learn
7 pages
Code
Pas encore d'évaluation
Code
4 pages
Examen ML
Pas encore d'évaluation
Examen ML
6 pages
Prediction Du Churn Client
Pas encore d'évaluation
Prediction Du Churn Client
29 pages
TTT
Pas encore d'évaluation
TTT
5 pages
RAPPORT Regression
Pas encore d'évaluation
RAPPORT Regression
14 pages
TP1 Regression Lineaire
Pas encore d'évaluation
TP1 Regression Lineaire
4 pages
Formation Python Pour La Data Science - 5 - Le Machine Learning
Pas encore d'évaluation
Formation Python Pour La Data Science - 5 - Le Machine Learning
23 pages
Big Data Et Analyse Prédictive
Pas encore d'évaluation
Big Data Et Analyse Prédictive
44 pages
TP1 Classification Par Les K Plus Proches Voisins 23 24
Pas encore d'évaluation
TP1 Classification Par Les K Plus Proches Voisins 23 24
4 pages
TP1 24 25
Pas encore d'évaluation
TP1 24 25
8 pages
TP 1regression
Pas encore d'évaluation
TP 1regression
4 pages
Ai TP1 2024
Pas encore d'évaluation
Ai TP1 2024
5 pages
Calculer la moyenne d'une liste en Python
Pas encore d'évaluation
Calculer la moyenne d'une liste en Python
2 pages
Résumé Machine Learning&pandas&numpy
Pas encore d'évaluation
Résumé Machine Learning&pandas&numpy
26 pages
Tp2: Deep Learning: Tensorflow
Pas encore d'évaluation
Tp2: Deep Learning: Tensorflow
9 pages
MLenPython - PPT Compatibility Mode
Pas encore d'évaluation
MLenPython - PPT Compatibility Mode
20 pages
Python Physique
Pas encore d'évaluation
Python Physique
14 pages
Regression Lineaire en Python Avec Scikit 1
Pas encore d'évaluation
Regression Lineaire en Python Avec Scikit 1
10 pages
Datavisualisation: Une Image Vaut Mille Mots
Pas encore d'évaluation
Datavisualisation: Une Image Vaut Mille Mots
16 pages
Mini Projet ML
Pas encore d'évaluation
Mini Projet ML
1 page
Graphiques Python pour Proba/Stats
Pas encore d'évaluation
Graphiques Python pour Proba/Stats
11 pages
Rapport PFA Khayi Siham 2025 Complet
Pas encore d'évaluation
Rapport PFA Khayi Siham 2025 Complet
7 pages
Analyse Prédictive avec Python et Pandas
Pas encore d'évaluation
Analyse Prédictive avec Python et Pandas
5 pages
TP3: Classification avec KNN, SVM et Arbre de Décision
100% (2)
TP3: Classification avec KNN, SVM et Arbre de Décision
16 pages
TP6 SVM
Pas encore d'évaluation
TP6 SVM
4 pages
Prédiction de Crédit avec IA
Pas encore d'évaluation
Prédiction de Crédit avec IA
29 pages
TP 5 Machine Learning
Pas encore d'évaluation
TP 5 Machine Learning
10 pages
Guide de Visualisation de Données
Pas encore d'évaluation
Guide de Visualisation de Données
8 pages
TP3 Regression Lineaire Simple
Pas encore d'évaluation
TP3 Regression Lineaire Simple
3 pages
Examens1 2016
100% (1)
Examens1 2016
3 pages
TP5: Régression Linéaire Sur Un Cas Réel Avec Scikit-Learn: Etape 1: Importer Les Librairies
Pas encore d'évaluation
TP5: Régression Linéaire Sur Un Cas Réel Avec Scikit-Learn: Etape 1: Importer Les Librairies
4 pages
Équation Du Second Degré (Python)
Pas encore d'évaluation
Équation Du Second Degré (Python)
7 pages
TP Machine Learning: Régression, KNN, Arbres
100% (1)
TP Machine Learning: Régression, KNN, Arbres
4 pages
Outils Python Pour La Data Science (PDFDrive)
Pas encore d'évaluation
Outils Python Pour La Data Science (PDFDrive)
26 pages
TP4 - KNN VF 2022-2023
Pas encore d'évaluation
TP4 - KNN VF 2022-2023
4 pages
Abcd
Pas encore d'évaluation
Abcd
7 pages
TP-regression Master QFM 2023
Pas encore d'évaluation
TP-regression Master QFM 2023
13 pages
TP7 KMeans
Pas encore d'évaluation
TP7 KMeans
4 pages
TP3 MLP Part II Régression
Pas encore d'évaluation
TP3 MLP Part II Régression
11 pages
1
Pas encore d'évaluation
1
6 pages
Guide Python pour Débutants
Pas encore d'évaluation
Guide Python pour Débutants
39 pages
Exercices Data Science Complet
Pas encore d'évaluation
Exercices Data Science Complet
2 pages
Tracé de Courbes
Pas encore d'évaluation
Tracé de Courbes
27 pages
Aur ®lien G ®ron Hands On Machine Learning With Scikit Learn, Keras
Pas encore d'évaluation
Aur ®lien G ®ron Hands On Machine Learning With Scikit Learn, Keras
28 pages
Padas Exos
Pas encore d'évaluation
Padas Exos
6 pages
Manipulation de listes et matrices en Python
Pas encore d'évaluation
Manipulation de listes et matrices en Python
7 pages
TD2 KNN Classification
Pas encore d'évaluation
TD2 KNN Classification
12 pages
Cours
Pas encore d'évaluation
Cours
164 pages
Architecture CC1
Pas encore d'évaluation
Architecture CC1
2 pages
Progres2019 5
Pas encore d'évaluation
Progres2019 5
44 pages
Rapport
Pas encore d'évaluation
Rapport
4 pages
Cours Prog Sci
Pas encore d'évaluation
Cours Prog Sci
14 pages
Tps Regression Machine Leraning
Pas encore d'évaluation
Tps Regression Machine Leraning
5 pages
TD/TP Machine Learning en Python
Pas encore d'évaluation
TD/TP Machine Learning en Python
1 page
Rapport ML (1) COLETTE
Pas encore d'évaluation
Rapport ML (1) COLETTE
19 pages
Exercices de mathématiques semestre 2
Pas encore d'évaluation
Exercices de mathématiques semestre 2
2 pages
Kessi, Karima
Pas encore d'évaluation
Kessi, Karima
60 pages
Exercice Sens Variation Fonction 1ere 5 Corrige
Pas encore d'évaluation
Exercice Sens Variation Fonction 1ere 5 Corrige
6 pages
03-Interpolation Polynômiale by MR KAMMOUS
Pas encore d'évaluation
03-Interpolation Polynômiale by MR KAMMOUS
46 pages
Lycee Moderne Guiza Canmille Devoir N02
Pas encore d'évaluation
Lycee Moderne Guiza Canmille Devoir N02
2 pages
Lycée Les Polynômes Pr. ..: Activite
Pas encore d'évaluation
Lycée Les Polynômes Pr. ..: Activite
12 pages
TP Analyse Numérique
Pas encore d'évaluation
TP Analyse Numérique
2 pages
DM N°11 - Sujet 2 - Polynômes Cyclotomiques
Pas encore d'évaluation
DM N°11 - Sujet 2 - Polynômes Cyclotomiques
6 pages
Régressions linéaires et exponentielles en R
Pas encore d'évaluation
Régressions linéaires et exponentielles en R
14 pages
Binpaving Houssem1
Pas encore d'évaluation
Binpaving Houssem1
18 pages
Document Sans Titre
Pas encore d'évaluation
Document Sans Titre
8 pages
Évaluation Mathématiques Terminale Sénégal
Pas encore d'évaluation
Évaluation Mathématiques Terminale Sénégal
1 page
TH5842
Pas encore d'évaluation
TH5842
91 pages
Cours Ro Chap2 Pptefondpl KNT
Pas encore d'évaluation
Cours Ro Chap2 Pptefondpl KNT
42 pages
Tutorat 1
Pas encore d'évaluation
Tutorat 1
9 pages
1PG 2425 Cours Polynomes Degre 2
Pas encore d'évaluation
1PG 2425 Cours Polynomes Degre 2
2 pages
Um6p 2024 23
Pas encore d'évaluation
Um6p 2024 23
11 pages
Polynômes Et Fractions Rationnelles
100% (2)
Polynômes Et Fractions Rationnelles
2 pages
Estimation A Posteriori Adaptation de Maillage: Thierry Coupez
Pas encore d'évaluation
Estimation A Posteriori Adaptation de Maillage: Thierry Coupez
62 pages
Résolution de l'équation de Laplace en MATLAB
100% (1)
Résolution de l'équation de Laplace en MATLAB
4 pages
Ens Slides Intro
Pas encore d'évaluation
Ens Slides Intro
85 pages
TD N°2: Intégration Numérique: Exercice 1
Pas encore d'évaluation
TD N°2: Intégration Numérique: Exercice 1
5 pages
Serie 9 Calcul Approche D Une Integrale Methodes de Newton Cotes Methode de Romberg Corriges
Pas encore d'évaluation
Serie 9 Calcul Approche D Une Integrale Methodes de Newton Cotes Methode de Romberg Corriges
6 pages
Astuces Polynomes
Pas encore d'évaluation
Astuces Polynomes
7 pages
Equations Et Inéquations Et Systèmes TC
100% (1)
Equations Et Inéquations Et Systèmes TC
3 pages
TD Corrigé Interpolation Et Integration
100% (3)
TD Corrigé Interpolation Et Integration
5 pages
Chap 09 - Ex 6A - Fiche Fonctions Affines Par Morceaux - CORRIGE
100% (1)
Chap 09 - Ex 6A - Fiche Fonctions Affines Par Morceaux - CORRIGE
4 pages
Chapitre 06 Techniques D'intégrations Numériques en Éléments Finis-1-6
Pas encore d'évaluation
Chapitre 06 Techniques D'intégrations Numériques en Éléments Finis-1-6
6 pages
Cours Methodes Numeriques
Pas encore d'évaluation
Cours Methodes Numeriques
45 pages
Résolution d'Équations et Inéquations pour le Tronc Commun Sciences
Pas encore d'évaluation
Résolution d'Équations et Inéquations pour le Tronc Commun Sciences
1 page