Data Analytics
Data Analytics
1
Chapitre I : Notions de Base
4
?
A partir de QUOI on construit tous
ces graphes ?
DATA
DATA ??
DATA vs INFORMATION ?
Data…
Où est l’information ?
Données Structurées
Colonnes = Variables = Caractéristiques
- Prédiction de la situation
économique du pays
Qu’en est-il pour
votre Organisme ?!
Chapitre I : Notions de Base
Population
Variables
Observations
Population
TYPES DE VARIABLES
TYPES DE VARIABLES
TYPES DE VARIABLES
?
TYPES DE VARIABLES
TYPES DE VARIABLES
TYPES DE VARIABLES
TYPES DE VARIABLES
TYPES DE VARIABLES
TYPES DE VARIABLES
Age Patient
TYPES DE VARIABLES
TYPES DE VARIABLES ET GRAPHES
INDICATEURS STATISTIQUES
TENDANCE CENTRALE
Médiane ?
Moyenne ? Mode ?
TENDANCE CENTRALE
Moyenne = 10.36
TENDANCE CENTRALE
50 % 50 %
Médiane
X}
Liste des notes : { 8 ; 11 ; 9 ; 11 ; 5 ; 2 ; 15 ; 12 ; 7 ; 15 ; 9 ; 10
Notes ordonnés : { 2 ; 5 ; 7 ; 8 ; 9 ; 9 ; 11 ; 11 ; 12 ; 15 ; 15 }
50 % 50 %
Médiane
TENDANCE CENTRALE
Notes ordonnés : { 2 ; 5 ; 7 ; 8 ; 9 ; 9 ; 10 ; 11 ; 11 ; 12 ; 15 ; 15 }
25% 25% 25% 25%
min Q1 Q3 max
Q2
MESURES DE DISPERSION
10 10
10 10
MESURES DE DISPERSION
Ecart-Type !!
m : moyenne
n : nb observations
MESURES DE DISPERSION
BOITES A MOUSTACHES
MESURES DE DISPERSION
Filles Garçons
MESURES DE DISPERSION
- Les deux groupes ont des médianes
très rapprochées
- Les valeurs pour le 2ème groupe sont très
dispersées car corps de la boite plus grand
et moustaches plus étalées
- La première distribution suit une loi normale
car la boite est symétrique
MESURES DE FORME
MESURES DE FORME
- Forme de Cloche
- Presque symétrique autour de
la médiane
- mode ≈ moyenne ≈ médiane
MESURES DE FORME
- Forme de Cloche
- Presque symétrique autour de
la médiane
- mode ≈ moyenne ≈ médiane
Est-ce naturel ?
Est-ce normal ?
MESURES DE FORME
S’agit-il d’une
distribution normale ?
MESURES DE FORME
MESURES DE FORME
Droite vs Gauche
MESURES DE FORME
En général...
MESURES DE FORME
MESURES DE FORME
On a transformé
la variable X en Z-score,
dit score centré réduit
=˃ standardisation
MESURES DE FORME
- Prédiction de la situation
économique du pays
LIAISON ENTRE VARIABLES
LIAISON ENTRE VARIABLES
Corrélation ≠ Causalité
LIAISON ENTRE VARIABLES
VARIABLES QUANTITATIVES
Nuage de Points
Existe-t-il une
relation entre
Poids et Taille ?
LIAISON ENTRE VARIABLES
VARIABLES QUANTITATIVES
Nuage de Points
La connaissance de la taille
donne une information sur
le poids
=˃ Les deux variables sont
dépendantes
LIAISON ENTRE VARIABLES
VARIABLES QUANTITATIVES
LIAISON ENTRE VARIABLES
VARIABLES QUANTITATIVES
LIAISON ENTRE VARIABLES
VARIABLES QUANTITATIVES
où
Matrice de Corrélation
LIAISON ENTRE VARIABLES
VARIABLES QUALITATIVES
Table de Contingence
30 70 100
70 30 100
100 100
LIAISON ENTRE VARIABLES
VARIABLES QUALITATIVES
Valeurs réelles
Valeurs théoriques
50 50 100
50 50 100
100 100
LIAISON ENTRE VARIABLES
VARIABLES QUALITATIVES
Valeurs théoriques
Si x et y indépendants Table de contingence
pour variables avec
plusieurs modalités
30 70 100
70 30 100
100 100
χ2 = 32 Forte relation
entre les deux variables
LIAISON ENTRE VARIABLES
VARIABLE QUALITATIVE & QUANTITATIVE
- Prédiction de la situation
économique du pays
Que peut-on prédire ?
- La météo
- Panne de machines
Il s’agit d’une
Il s’agit deprédiction
prédire
- Séisme
De variable
une qqch
- Evolution de CA
À partir
à partir de qqch
d’autres !
variables !
- ...
RÉGRESSION LINÉAIRE
D’après le nuage de points,
on déduit qu’il peut y
avoir une relation entre
les deux variables.
Peut-on prédire
la taille à partir
du poids ?
Le coefficient de corrélation
Corrélation : r=0.79 fort nous confirme l’existence
d’une relation entre les
deux variables.
RÉGRESSION LINÉAIRE
Problème d’optimisation !
RÉGRESSION LINÉAIRE
Voyons voir...
RÉGRESSION LINÉAIRE
TYPES DE LIAISON
RÉGRESSION LINÉAIRE
a : la pente
b : constante
ε : l’erreur du modèle
- Coefficient de Détermination R2
pour mesurer la qualité du modèle.
- Il exprime la part de variabilité
de Y expliquée par le modèle
-
RÉGRESSION LINÉAIRE
On rajoute de nouvelles
variables explicatives
=˃ Régression Linéaire
Multiple
Qu’est ce qu’on fait
si on n’arrive pas à
trouver un bon modèle ?
On suit la même démarche
qu’on a fait avec deux
Variables. Ici on manipule
Plusieurs variables.
RÉGRESSION LINÉAIRE
[Link]
[Link]
RÉGRESSION LINÉAIRE
=˃ On s’assure de la matrice de
corrélation qu’il existe
effectivement des relations.
RÉGRESSION LINÉAIRE
Donc on cherche les paramètres ai
qui réalisent l’équation :
GPA = cste + a1 * HS_English
+ a2 * HS_Math
+ a3 * SAT_Verbal
+ a4 * Math
Résumé du modèle
de régression linéaire
multiple
RÉGRESSION LINÉAIRE
Ordinary Least Squares
Regression :
Régression se basant sur
La méthode des moindres carrés
C’est la statistique F
Test de Significativité
Globale : Elle teste s’il
existe une relation dans
la population.
GPA = 0.161 + 0.002 * SAT_Math
+ 0.0013 * SAT_Verbal
+ 0.189 * HS_Math
+ 0.087 * HS_English
RÉGRESSION LINÉAIRE
Test de Significativité
H0 : ai est nul
H1 : ai n’est pas nul
Si p-value(a
p-value(ai)i)≤≤risque
risque: a: i≠0
ai≠0
GPA = 0.161 + 0.002 * SAT_Math Sinon
Sinonaai=0 =0
+ 0.0013 * SAT_Verbal i
+ 0.189 * HS_Math
+ 0.087 * HS_English
RÉGRESSION LINÉAIRE
p-value(aSAT_Math)=0.4% ≤ 5%
Donc aSAT_Math est non nul
p-value(aHS_Math)=5.7% ˃ 5%
Donc aHS_Math est nul
….On fait ainsi pour tous les
GPA = 0.161 + 0.002 * SAT_Math
coefficients.
+ 0.0013 * SAT_Verbal
+ 0.189 * HS_Math
+ 0.087 * HS_English
RÉGRESSION LINÉAIRE
p-value(aSAT_Math)=0.4%≤5%
Donc aSAT_Math est non nul
p-value(aHS_Math)=5.7%˃5%
Donc aHS_Math est nul
….On fait ainsi pour toutes les variables
En considérant un risque d’erreur 5%,
explicatives
les variables statistiquement
signifiantes sont
SAT_Math et SAT_Verbal
RÉGRESSION LINÉAIRE
Test de Significativité
Globale : Elle teste s’il
existe une relation dans
la population.
C’est la p-value pour la
Statistique F.
Application du modèle
Résultats de prédiction
RÉGRESSION LINÉAIRE
Excellente question :
- Soit on enlève les observations avec
données manquantes
- Soit on ne travaille pas avec les
variables avec trop de valeurs manquantes
- Soit on estime ces valeurs manquantes
en utilisant une régression linéaire
Et si je rencontre des données Ou en y mettant la moyenne de
manquantes ?! La variable
Chapitre I : Notions de Base