0% ont trouvé ce document utile (0 vote)
168 vues149 pages

Data Analytics

Transféré par

El Mehdi OUAFIQ
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
168 vues149 pages

Data Analytics

Transféré par

El Mehdi OUAFIQ
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Data Analytics

Par: Asmaa Mountassir, PhD

1
Chapitre I : Notions de Base

Chapitre II : Analyse Descriptive

PLAN DE LA Chapitre III : Analyse Prédictive


FORMATION

Chapitre IV : Analyse par


Composants Principaux

Travaux Pratiques Python


Chapitre I : Notions de Base

Chapitre II : Analyse Descriptive

PLAN DE LA Chapitre III : Analyse Prédictive


FORMATION

Chapitre IV : Analyse par


Composants Principaux

Travaux Pratiques Python


Data Analytics ?
Analyse de Données ?

4
?
A partir de QUOI on construit tous
ces graphes ?
DATA
DATA ??

DATA vs INFORMATION ?
Data…
Où est l’information ?
Données Structurées
Colonnes = Variables = Caractéristiques

Lignes = Observations = Enregistrements


Données
Non Structurées
Pourquoi l’Analyse de
Données ?
RECENSEMENT
- Distribution des âges
- Pourcentage des analphabètes
- Moyenne de taille des familles

- Relation entre niveau d’étude et


Type d’habitat

- Prédiction de la situation
économique du pays
Qu’en est-il pour
votre Organisme ?!
Chapitre I : Notions de Base

Chapitre II : Analyse Descriptive

PLAN DE LA Chapitre III : Analyse Prédictive


FORMATION

Chapitre IV : Analyse par


Composants Principaux

Travaux Pratiques Python


Faut-il TOUJOURS
TOUT recenser ??
Aléatoire
Stratifié
Colonnes = Variables = Caractéristiques

Lignes = Observations = Enregistrements

Population
Variables

Observations

Population
TYPES DE VARIABLES
TYPES DE VARIABLES
TYPES DE VARIABLES

- Variable nominale : possède un nombre fini de


valeurs dites modalités.
- Variable ordinale : variable nominale mais dont
l’ordre a un sens. On peut ordonner les modalités
de la variable.
- Variable discrète : possède des valeurs
numériques discrètes.
- Variable continue : généralement les valeurs de
cette variable sont découpées en intervalles.
TYPES DE VARIABLES

Exemples : Exemples : Exemples : Exemples :


- Sexe - Mention Bac - Nbre enfants - Salaire
- Couleur - Classe Sociale - Age - Poids
- Code Postal - Grade - Expérience - Consommation
- Type - Niveau
- Oui/Non Satisfaction
TYPES DE VARIABLES

?
TYPES DE VARIABLES
TYPES DE VARIABLES
TYPES DE VARIABLES
TYPES DE VARIABLES
TYPES DE VARIABLES
TYPES DE VARIABLES

Age Patient
TYPES DE VARIABLES
TYPES DE VARIABLES ET GRAPHES
INDICATEURS STATISTIQUES
TENDANCE CENTRALE

Quelle est la Tendance


Centrale de la classe
En DROIT ?
TENDANCE CENTRALE

Médiane ?

Moyenne ? Mode ?
TENDANCE CENTRALE

Moyenne = 10.36
TENDANCE CENTRALE

Liste des notes : { 8 ; 11 ; 9 ; 11 ; 5 ; 2 ; 15 ; 12 ; 7 ; 15 ; 9 ; 10 }


Notes ordonnés : { 2 ; 5 ; 7 ; 8 ; 9 ; 9 ; 10 ; 11 ; 11 ; 12 ; 15 ; 15 }

50 % 50 %
Médiane

Puisque Total = 12 est pair,


Médiane = (9+10)/2
TENDANCE CENTRALE

X}
Liste des notes : { 8 ; 11 ; 9 ; 11 ; 5 ; 2 ; 15 ; 12 ; 7 ; 15 ; 9 ; 10

Notes ordonnés : { 2 ; 5 ; 7 ; 8 ; 9 ; 9 ; 11 ; 11 ; 12 ; 15 ; 15 }

50 % 50 %
Médiane
TENDANCE CENTRALE

Quelle différence entre


la Moyenne et la Médiane ?
TENDANCE CENTRALE

La médiane n’est pas affectée


Par les valeurs exceptionnelles La médiane tient compte
du rang de tous les individus
et non de
leur valeur

La médiane est valable La médiane est la valeur centrale


sur caractères quantitatifs la plus proche de tous les
et qualitatifs ordinaux individus
TENDANCE CENTRALE

La Moyenne ne correspond pas


toujours à la Médiane !!
TENDANCE CENTRALE

Le Mode est la valeur la plus fréquente


LES QUARTILES

Liste des notes : { 8 ; 11 ; 9 ; 11 ; 5 ; 2 ; 15 ; 12 ; 7 ; 15 ; 9 ; 10 }


Notes ordonnés : { 2 ; 5 ; 7 ; 8 ; 9 ; 9 ; 10 ; 11 ; 11 ; 12 ; 15 ; 15 } - Q1 = la valeur en dessous de
laquelle se trouvent 25% des
50 % 50 % observations inférieurs
Médiane - Q3 = la valeur en dessous de
laquelle se trouvent 75% des
Q2 observations inférieures

Notes ordonnés : { 2 ; 5 ; 7 ; 8 ; 9 ; 9 ; 10 ; 11 ; 11 ; 12 ; 15 ; 15 }
25% 25% 25% 25%
min Q1 Q3 max
Q2
MESURES DE DISPERSION

Peut-on dire que


les deux classes
sont identiques ??

10 10
10 10
MESURES DE DISPERSION

Ecart-Type !!

m : moyenne
n : nb observations
MESURES DE DISPERSION

Ecart-Type vs Variance ?? Variance = (Ecart-Type)2


MESURES DE DISPERSION

- La dispersion indique dans quelle mesure les


observations s'écartent d'une mesure appropriée de
la tendance centrale.
- La variance montre dans quelle mesure chaque
observation diffère de la moyenne.
- Plus la variance est faible plus les observations
sont proches de la moyenne, et vice versa.
- L’écart-type quantifie le degré de dispersion des
observations dans un jeu de données.
MESURES DE DISPERSION
MESURES DE DISPERSION

Moyenne de la classe 1 Moyenne de la classe 2


Est 10 ± 6.38 Est 10 ± 1.89
MESURES DE DISPERSION

BOITES A MOUSTACHES
MESURES DE DISPERSION

BOITE A MOUSTACHES : résumé


graphique d’une distribution
MESURES DE DISPERSION
MESURES DE DISPERSION

On repère sur la boîte à moustaches d’une variable :

 L’échelle des valeurs, située sur l’axe vertical.


 La valeur du 1er quartile Q1 => trait inférieur de la boîte.
 La valeur du 2ème quartile Q2 => trait au milieu de la boîte.
 La valeur du 3ème quartile Q3 => trait supérieur de la boîte.
 Les 2 moustaches, délimitent les valeurs dites adjacentes qui sont
déterminées à partir de l’écart interquartile (Q3-Q1).
 Les valeurs dites extrêmes, atypiques, exceptionnelles, (outliers)
situées au-delà des valeurs adjacentes sont individualisées. Elles
sont représentées par des marqueurs (o, ou *, etc.)
MESURES DE DISPERSION

On peut tracer des boites à


Moustaches pour plusieurs
Groupes sur le même graphe !
MESURES DE DISPERSION

Que peut-on dire


Des deux distributions ?

Filles Garçons
MESURES DE DISPERSION
- Les deux groupes ont des médianes
très rapprochées
- Les valeurs pour le 2ème groupe sont très
dispersées car corps de la boite plus grand
et moustaches plus étalées
- La première distribution suit une loi normale
car la boite est symétrique
MESURES DE FORME
MESURES DE FORME

- Forme de Cloche
- Presque symétrique autour de
la médiane
- mode ≈ moyenne ≈ médiane
MESURES DE FORME
- Forme de Cloche
- Presque symétrique autour de
la médiane
- mode ≈ moyenne ≈ médiane

Est-ce naturel ?
Est-ce normal ?
MESURES DE FORME

Oui c’est normal !!


On dit que cette distribution
suit la Loi Normale
MESURES DE FORME
Ce n’est pas toujours
évident à observer
MESURES DE FORME
Présence de deux
Distributions Normales
=˃ Deux sous-groupes
hétérogènes
MESURES DE FORME

S’agit-il d’une
distribution normale ?
MESURES DE FORME
MESURES DE FORME

Droite vs Gauche
MESURES DE FORME

On dit que la distribution suit


Une loi normale N(7, 4)
7 étant la moyenne
4 étant l’écart-type
MESURES DE FORME

En général...
MESURES DE FORME
MESURES DE FORME

On a transformé
la variable X en Z-score,
dit score centré réduit
=˃ standardisation
MESURES DE FORME

- Z-score : convertir un score individuel en un score


standardisé, encore appelé score centré et réduit.
- Z=(X-m)/σ
- Le score Z permet de fournir une indication
précise de la position du score de l’individu
au sein de la distribution.
- Cette transformation consiste essentiellement à
exprimer les données dans un système
de mesure standard.
MESURES DE FORME
MESURES DE FORME

Pour tester la normalité,


on peut également tracer
un graphe dit QQ-plot.
Si les points/observations
s’alignent avec la droite théorique,
on peut dire qu’il s’agit d’une
distribution normale.
INDICATEURS STATISTIQUES

Tendance Centrale Dispersion Forme



Moyenne ➔
Écart Type ➔
Distribution Normale

Médiane ➔
Variance ➔
Z-scores

Mode ➔
Étendue

Coefficient de
variation

Boite à moustaches
LIAISON ENTRE LES VARIABLES
- Distribution des âges
- Pourcentage des analphabètes
- Moyenne de taille des familles

- Relation entre niveau d’étude et


Type d’habitat

- Prédiction de la situation
économique du pays
LIAISON ENTRE VARIABLES
LIAISON ENTRE VARIABLES

Comment peut-on S’il existe une relation


détecter cette liaison ? entre ces deux variables,
on peut déduire l’une
à partir de l’autre,
on comprend mieux le phénomène.

Corrélation ≠ Causalité
LIAISON ENTRE VARIABLES
VARIABLES QUANTITATIVES

Nuage de Points

Existe-t-il une
relation entre
Poids et Taille ?
LIAISON ENTRE VARIABLES
VARIABLES QUANTITATIVES

Nuage de Points

La connaissance de la taille
donne une information sur
le poids
=˃ Les deux variables sont
dépendantes
LIAISON ENTRE VARIABLES
VARIABLES QUANTITATIVES
LIAISON ENTRE VARIABLES
VARIABLES QUANTITATIVES
LIAISON ENTRE VARIABLES
VARIABLES QUANTITATIVES

Quand x augmente Quand x augmente


y diminue, et vice versa y augmente, et vice versa
LIAISON ENTRE VARIABLES
VARIABLES QUANTITATIVES

On dit que PM10 et NO


Sont fortement corrélées, Et si on étudie
Corrélation positive plusieurs variables ?

Matrice de Corrélation
LIAISON ENTRE VARIABLES
VARIABLES QUALITATIVES

Variable 1 Variable 2 La réussite dans le test


Sexe Résultat
de conduite

Homme ●
Pass dépend-elle du sexe ?

Femme ●
Fail
LIAISON ENTRE VARIABLES
VARIABLES QUALITATIVES

Variable 1 Variable 2 a : nombre d’observations


Sexe Résultat ayant Xa et Ya

Homme ●
Pass

Femme ●
Fail

Table de Contingence

30 70 100

70 30 100

100 100
LIAISON ENTRE VARIABLES
VARIABLES QUALITATIVES

30 70 100 Théoriquement parlant ??


Si les deux variables
70 30 100
Étaient indépendantes ?
100 100
LIAISON ENTRE VARIABLES
VARIABLES QUALITATIVES

30 70 100 Théoriquement parlant ??


Si les deux variables
70 30 100
Étaient indépendantes ?
100 100

Valeurs réelles
Valeurs théoriques

50 50 100

50 50 100

100 100
LIAISON ENTRE VARIABLES
VARIABLES QUALITATIVES
Valeurs théoriques
Si x et y indépendants Table de contingence
pour variables avec
plusieurs modalités

χ2 Est nul si les variables


sont indépendantes,
i.e. si les valeurs réelles
correspondent aux valeurs
théoriques.
LIAISON ENTRE VARIABLES
VARIABLES QUALITATIVES

30 70 100

70 30 100

100 100
χ2 = 32 Forte relation
entre les deux variables
LIAISON ENTRE VARIABLES
VARIABLE QUALITATIVE & QUANTITATIVE

On découpe la population des


Existe-t-il une liaison acteurs en H/F,
Entre l’age et le sexe puis on analyse les boites
des acteurs ayant eu à moustache de chaque
Le prix Oscar ? sous-groupe.
LIAISON ENTRE VARIABLES
On analyse chaqueVARIABLE
boite à part.
QUALITATIVE & QUANTITATIVE
La distribution de la variable age
est différente entre les hommes
et les femmes.
Pour les hommes, valeurs hautes
de l’age, contrairement aux femmes.
La distribution est normale pour
les hommes. Pour les femmes
la distribution est plutôt
étalée vers la gauche.
LIAISON ENTRE VARIABLES

Quels types de variables ?


Quelles liaisons peut-on
étudier et comment ?
LIAISON ENTRE VARIABLES

QUANTITATIVE QUALITATIVE QUANT & QUALIT



Nuage de points ➔
NOMINALE : ➔
Découper la

Corrélation Pearson Coefficient χ2 population selon

ORDINALE : modalités
Corrélation Spearman ➔
Tracer boite à
moustaches pour
chaque modalité

Analyser chaque
boite à moustaches
Chapitre I : Notions de Base

Chapitre II : Analyse Descriptive

PLAN DE LA Chapitre III : Analyse Prédictive


FORMATION

Chapitre IV : Analyse par


Composants Principaux

Travaux Pratiques Python


RÉGRESSION LINÉAIRE
- Distribution des âges
- Pourcentage des analphabètes
- Moyenne de taille des familles

- Relation entre niveau d’étude et


Type d’habitat

- Prédiction de la situation
économique du pays
Que peut-on prédire ?

- La météo
- Panne de machines
Il s’agit d’une
Il s’agit deprédiction
prédire
- Séisme
De variable
une qqch
- Evolution de CA
À partir
à partir de qqch
d’autres !
variables !
- ...
RÉGRESSION LINÉAIRE
D’après le nuage de points,
on déduit qu’il peut y
avoir une relation entre
les deux variables.

Peut-on prédire
la taille à partir
du poids ?

Le coefficient de corrélation
Corrélation : r=0.79 fort nous confirme l’existence
d’une relation entre les
deux variables.
RÉGRESSION LINÉAIRE

Que veut dire


taille et poids
sont en relation ?? Il s’agit de trouver une
fonction f telle que :
Poids = f(Taille)
RÉGRESSION LINÉAIRE

Comment est la relation


dans notre cas ?
Relation linéaire !
Donc il s’agit de trouver
La droite qui représente
Le mieux cette liaison.
RÉGRESSION LINÉAIRE

Il y a une infinité de droite !!


Laquelle choisir
et comment ?

Problème d’optimisation !
RÉGRESSION LINÉAIRE

Est-ce qu’il n’existe


que les liaisons linéaires ?

Voyons voir...
RÉGRESSION LINÉAIRE

TYPES DE LIAISON
RÉGRESSION LINÉAIRE

- Régression : Prédiction d’une valeur numérique continue.


- Régression Linéaire pour deux variables X et Y :
trouver une fonction linéaire f telle que Y = f(X)
- X est dite variable explicative, exogène, indépendante.
- Y est dite variable expliquée, endogène, dépendante.
- Si on a deux variables, on parle de régression linéaire
simple.
- Si on prédit une variable à partir de plusieurs on parle de
régression linéaire multiple.
RÉGRESSION LINÉAIRE

a : la pente
b : constante
ε : l’erreur du modèle

Il existe des paramètres


Les deux variables sont
a, b et ε tels que
en relation linéaire
Poids = a*Taille + b + ε
RÉGRESSION LINÉAIRE

Il existe des paramètres


Les deux variables X et Y sont
a, b et ε tels que
en relation linéaire
Y = a*X + b + ε

Pour chaque observation (xi,yi)


Que signifie chaque
yi = a*xi + b + εi
Paramètre ?

a : si X varie d’une unité, de combien


d’unités varie Y ?
Si a˃0, X et Y varient dans le même sens
b : si X vaut 0, quelle est la valeur de Y ?
ε : la différence entre la valeur réelle
et la valeur prédite de Y
RÉGRESSION LINÉAIRE
Droite de régression
qui modélise la relation
entre X et Y.

Pour chaque observation (xi,yi)


yi = a*xi + b + εi

yi : valeur réelle de y pour


ŷi
yi
}ε =ŷ -y
i i i
l’observation i
ŷi : valeur prédite par le modèle
εi : résidu, erreur pour l’observation i
xi
RÉGRESSION LINÉAIRE

On peut appliquer la méthode des


Comment s’assurer qu’il Moindres Carrés.
s’agit du bon/meilleur Chercher la droite qui vérifie : la somme
modèle/droite ? des carrés des εi soit minimale.
RÉGRESSION LINÉAIRE

Est-ce que je dois Non !! C’est la machine


faire tous les calculs ?? qui s’en occupe !
RÉGRESSION LINÉAIRE

Meilleure droite de régression


Obtenue après application de
La méthode des moindres carrés.

A votre avis le modèle


représente bien le phénomène ?
Peut-on dire que la droite
nous permet de faire une
bonne prédiction ?
RÉGRESSION LINÉAIRE

Lequel des deux Y a-t-il un moyen de


phénomènes est bien l’estimer avec des
représenté ? calculs ?
RÉGRESSION LINÉAIRE

- Coefficient de Détermination R2
pour mesurer la qualité du modèle.
- Il exprime la part de variabilité
de Y expliquée par le modèle

-
RÉGRESSION LINÉAIRE

- On dit que le premier modèle représente


48.9 % de la population.
- Par contre le deuxième modèle représente
92.7 % de la population.
- Plus R2 s’approche de 1 plus le modèle est bon,
Et vice versa.
RÉGRESSION LINÉAIRE

- Le problème est que R2 augmente quand on


ajoute de nouvelles variables explicatives.
=˃ Utilisation d’un autre coefficient qui ne s’influence
pas par le nombre de variables : Le R2 ajusté
n : nb d’observations
k : nb de variables
RÉGRESSION LINÉAIRE

Dorénavant, on qualifie les modèles


de régression par le R2 ajusté

En cas de régression linéaire simple,


On constate que le coefficient de
corrélation correspond à :
RÉGRESSION LINÉAIRE

Non, pas encore. Il faut encore


analyser les résidus (écarts entre
valeurs réelles et prédites) et vérifier
leur normalité (QQ-plot, etc)
?
RÉGRESSION LINÉAIRE

On rajoute de nouvelles
variables explicatives
=˃ Régression Linéaire
Multiple
Qu’est ce qu’on fait
si on n’arrive pas à
trouver un bon modèle ?
On suit la même démarche
qu’on a fait avec deux
Variables. Ici on manipule
Plusieurs variables.
RÉGRESSION LINÉAIRE

Supposant qu’on veut savoir s’il


est possible de prédire GPA
(Grade Point Average) pour les
étudiants, à partir des quatre
variables HS_English, HS_Math,
SAT_Verbal et SAT_Math.

[Link]
[Link]
RÉGRESSION LINÉAIRE

Supposant qu’on veut savoir s’il


est possible de prédire GPA
(Grade Point Average) pour les
étudiants, à partir des quatre
variables HS_English, HS_Math,
SAT_Verbal et SAT_Math.
On s’assure d’abord de la relation
qui puisse exister entre la
variable à expliquer et les
variables explicatives :
1. On trace les nuages de points
2.

=˃ D’après les nuages de points :


Oui il existe une certaine relation
RÉGRESSION LINÉAIRE
Supposant qu’on veut savoir s’il
est possible de prédire GPA
(Grade Point Average) pour les
étudiants, à partir des quatre
variables HS_English, HS_Math,
SAT_Verbal et SAT_Math.
On s’assure d’abord de la relation
qui puisse exister entre la
variable à expliquer et les
variables explicatives :
1. On trace les nuages de points
2. On établit la matrice de
corrélation Matrice de Corrélation

=˃ On s’assure de la matrice de
corrélation qu’il existe
effectivement des relations.
RÉGRESSION LINÉAIRE
Donc on cherche les paramètres ai
qui réalisent l’équation :
GPA = cste + a1 * HS_English
+ a2 * HS_Math
+ a3 * SAT_Verbal
+ a4 * Math

Au début on inclut toutes les


variables et on construit le
modèle. Après on raffine…
RÉGRESSION LINÉAIRE

Résumé du modèle
de régression linéaire
multiple
RÉGRESSION LINÉAIRE
Ordinary Least Squares
Regression :
Régression se basant sur
La méthode des moindres carrés

GPA = 0.161 + 0.002 * SAT_Math


+ 0.0013 * SAT_Verbal
+ 0.189 * HS_Math
+ 0.087 * HS_English
RÉGRESSION LINÉAIRE
Il s’agit d’un bon modèle.
On dit qu’il représente
81.4 % de la population.

C’est la statistique F

Test de Significativité
Globale : Elle teste s’il
existe une relation dans
la population.
GPA = 0.161 + 0.002 * SAT_Math
+ 0.0013 * SAT_Verbal
+ 0.189 * HS_Math
+ 0.087 * HS_English
RÉGRESSION LINÉAIRE

A quel degré peut-on


faire confiance à ces
coefficients ?
Et si c’est dû au hasard ??

GPA = 0.161 + 0.002 * SAT_Math


+ 0.0013 * SAT_Verbal
+ 0.189 * HS_Math
+ 0.087 * HS_English
RÉGRESSION LINÉAIRE

Test de Significativité

GPA = 0.161 + 0.002 * SAT_Math


+ 0.0013 * SAT_Verbal
+ 0.189 * HS_Math
+ 0.087 * HS_English
RÉGRESSION LINÉAIRE

P-value, probabilité de rejeter


l’hypothèse nulle pour ce coefficient.

H0 : ai est nul
H1 : ai n’est pas nul

On choisit un degré de risque et


on teste :

Si p-value(a
p-value(ai)i)≤≤risque
risque: a: i≠0
ai≠0
GPA = 0.161 + 0.002 * SAT_Math Sinon
Sinonaai=0 =0
+ 0.0013 * SAT_Verbal i

+ 0.189 * HS_Math
+ 0.087 * HS_English
RÉGRESSION LINÉAIRE

- On choisit communément des degrés


de 1%, 5% ou 10%
- Le plus souvent on prend 5% comme
degré de risque, i.e. pourcentage de
chance que les résultats de
l’expérience soient dus au hasard.
- En considérant un risque d’erreur 5%:

p-value(aSAT_Math)=0.4% ≤ 5%
Donc aSAT_Math est non nul

p-value(aHS_Math)=5.7% ˃ 5%
Donc aHS_Math est nul
….On fait ainsi pour tous les
GPA = 0.161 + 0.002 * SAT_Math
coefficients.
+ 0.0013 * SAT_Verbal
+ 0.189 * HS_Math
+ 0.087 * HS_English
RÉGRESSION LINÉAIRE

- On choisit communément des degrés


de 1%, 5% ou 10%
- Le plus souvent on prend 5% comme
degré de risque, i.e. pourcentage de
chance que les résultats de
l’expérience soient dus au hasard.
- En considérant un risque d’erreur 5%:

p-value(aSAT_Math)=0.4%≤5%
Donc aSAT_Math est non nul

p-value(aHS_Math)=5.7%˃5%
Donc aHS_Math est nul
….On fait ainsi pour toutes les variables
En considérant un risque d’erreur 5%,
explicatives
les variables statistiquement
signifiantes sont
SAT_Math et SAT_Verbal
RÉGRESSION LINÉAIRE

En considérant un risque d’erreur 1%,


les variables statistiquement
signifiantes sont SAT_Math

En considérant un risque d’erreur 10%,


les variables statistiquement
signifiantes sont
SAT_Math, SAT_Verbal et HS_Math

En considérant un risque d’erreur 5%,


les variables statistiquement
signifiantes sont
SAT_Math et SAT_Verbal
RÉGRESSION LINÉAIRE

En considérant un risque d’erreur 1%,


les variables statistiquement
signifiantes sont SAT_Math

En considérant un risque d’erreur 10%,


les variables statistiquement
signifiantes sont
SAT_Math, SAT_Verbal et HS_Math

Qu’est ce que ça veut


Dire ? On fait quoi
Par la suite ??

En considérant un risque d’erreur 5%,


les variables statistiquement
signifiantes sont
SAT_Math et SAT_Verbal
RÉGRESSION LINÉAIRE

En considérant un risque d’erreur 1%,


les variables statistiquement
signifiantes sont SAT_Math

En considérant un risque d’erreur 10%,


les variables statistiquement
signifiantes sont
SAT_Math, SAT_Verbal et HS_Math

Selon le degré de confiance


choisi, on garde les variables
significatives et on
refait le modèle de régression.
En considérant un risque d’erreur 5%,
les variables statistiquement
signifiantes sont
SAT_Math et SAT_Verbal
RÉGRESSION LINÉAIRE

En considérant un risque d’erreur 10%,


les variables statistiquement
signifiantes sont
SAT_Math, SAT_Verbal et HS_Math

A un risque de 10% l’équation est :


GPA = 0.002 * SAT_Math
+ 0.0016 * SAT_Verbal
+ 0.216 * HS_Math
RÉGRESSION LINÉAIRE C’est la statistique F

Test de Significativité
Globale : Elle teste s’il
existe une relation dans
la population.
C’est la p-value pour la
Statistique F.

H0 : Pas de relation dans la population


H1 : Il existe une relation
A un risque de 10% l’équation est :
Si p-value(F) ≤ risque : on rejette H0
GPA = 0.002 * SAT_Math
+ 0.0016 * SAT_Verbal Sinon On accepte H0
+ 0.216 * HS_Math
Pour notre cas : risque 10 %, il existe
une relation dans la population.
RÉGRESSION LINÉAIRE

On peut maintenant utiliser


le modèle établi pour faire
la prédiction pour de
nouveaux étudiants.

A un risque de 10% l’équation est :


GPA = 0.002 * SAT_Math
+ 0.0016 * SAT_Verbal
+ 0.216 * HS_Math
RÉGRESSION LINÉAIRE

Application du modèle

Résultats de prédiction
RÉGRESSION LINÉAIRE
Excellente question :
- Soit on enlève les observations avec
données manquantes
- Soit on ne travaille pas avec les
variables avec trop de valeurs manquantes
- Soit on estime ces valeurs manquantes
en utilisant une régression linéaire
Et si je rencontre des données Ou en y mettant la moyenne de
manquantes ?! La variable
Chapitre I : Notions de Base

Chapitre II : Analyse Descriptive

PLAN DE LA Chapitre III : Analyse Prédictive


FORMATION

Chapitre IV : Analyse par


Composants Principaux

Travaux Pratiques Python


Python for Data
Science
Python?
• General-purpose programming language
• You can use Python for developing desktop GUI applications,
websites and web applications.

• Popular for data science

• Python has a simple syntax

• Yes! python is very easy to learn!


Python Libraries for Data
Science
• Pandas: data structures and data analysis tools
• Matplotlib: data 2D visualization
• Numpy: for scientific computing.
• Scikit Learn: machine learning
• SciPy: scientific programming
• …
Anaconda
• A platform for Data Science with Python or R programming
languages
• Brings many of the needed tools for data science and
machine learning with just one install
• Contains all necessary libraries for data analysis:
• Pandas
• Matplotlib
• Numpy
• Scikit Learn
• SciPy
• …
Allons découvrir ensemble...

Vous aimerez peut-être aussi